Groq:超越传统GPU的语言处理奇迹
一夜之间,Groq以其惊人的速度成为全网热议的话题。这款被誉为“世界上速度最快的LLM”的模型,每秒能够输出近500个token,相比之下,ChatGPT-3.5每秒仅能生成40个token。Groq的速度远超Gemini和GPT-4,尽管后者的答案质量可能更高。
Groq背后的功臣并非传统的GPU,而是由Groq公司自研的语言处理单元(LPU)。这种新型处理单元,即张量流处理器(TSP),专为AI计算稳定性能而设计,与时钟周期的有效利用保证了稳定的延迟和吞吐量。LPU采用的时序指令集计算机架构,使其避免了频繁从内存加载数据的需要,这不仅降低了成本,还提高了能效。
Groq超越传统GPU的语言处理奇迹
Groq的LPU在执行推理任务时,由于减少了对外部内存的读取,因此更加节能。此外,LPU也不像GPU那样对存储速度有极高的要求。这使得Groq在处理请求和响应方面的速度超越了英伟达的GPU。
Groq提供了两种模型供开发者选择:Mixtral8x7B-32k和Llama270B-4k,同时完全兼容OpenAIAPI。Mixtral8x7BSMoE能够达到480token/S,而Llama27B在极限情况下甚至能实现750token/S。目前,Groq还为开发者提供了100万token的免费试用。
Groq的LPU不仅在LLM任务上的性能比英伟达的GPU快10倍,而且在最近的基准测试中,GroqLPU推理引擎上运行的Llama270B直接刷榜,并且比顶级云提供商快了18倍的LLM推理性能。
Groq的快速响应能力得到了网友们的广泛认可,他们纷纷展示了自己制作的demo,展示了Groq在一秒内就能生成几百词的、带有引用的事实性回答的能力。实际上,搜索过程占据了处理时间的四分之三以上,而非内容生成本身。
Groq的成功在于其独特的硬件设计和高效的性能表现,这让它在AI领域独树一帜,并为未来的AI应用开辟了新的可能性。
gromacsgpu