比GPT-4快18倍世界最快大模型Groq登场！自研LPU是英伟达GPU10倍

410 阅读 0 评论 53 点赞

Groq：超越传统GPU的语言处理奇迹

一夜之间，Groq以其惊人的速度成为全网热议的话题。这款被誉为“世界上速度最快的LLM”的模型，每秒能够输出近500个token，相比之下，ChatGPT-3.5每秒仅能生成40个token。Groq的速度远超Gemini和GPT-4，尽管后者的答案质量可能更高。

Groq背后的功臣并非传统的GPU，而是由Groq公司自研的语言处理单元（LPU）。这种新型处理单元，即张量流处理器（TSP），专为AI计算稳定性能而设计，与时钟周期的有效利用保证了稳定的延迟和吞吐量。LPU采用的时序指令集计算机架构，使其避免了频繁从内存加载数据的需要，这不仅降低了成本，还提高了能效。

Groq超越传统GPU的语言处理奇迹

Groq的LPU在执行推理任务时，由于减少了对外部内存的读取，因此更加节能。此外，LPU也不像GPU那样对存储速度有极高的要求。这使得Groq在处理请求和响应方面的速度超越了英伟达的GPU。

Groq提供了两种模型供开发者选择：Mixtral8x7B-32k和Llama270B-4k，同时完全兼容OpenAIAPI。Mixtral8x7BSMoE能够达到480token/S，而Llama27B在极限情况下甚至能实现750token/S。目前，Groq还为开发者提供了100万token的免费试用。

Groq的LPU不仅在LLM任务上的性能比英伟达的GPU快10倍，而且在最近的基准测试中，GroqLPU推理引擎上运行的Llama270B直接刷榜，并且比顶级云提供商快了18倍的LLM推理性能。

Groq的快速响应能力得到了网友们的广泛认可，他们纷纷展示了自己制作的demo，展示了Groq在一秒内就能生成几百词的、带有引用的事实性回答的能力。实际上，搜索过程占据了处理时间的四分之三以上，而非内容生成本身。

Groq的成功在于其独特的硬件设计和高效的性能表现，这让它在AI领域独树一帜，并为未来的AI应用开辟了新的可能性。

本文主题词：

gromacsgpu

点赞(53) 打赏

本文分类：科技数码
本文标签：gromacsgpu
浏览次数：410 次浏览
发布日期：2024-02-22 18:22:20
本文链接：https://yunkanjia.com/kejishuma/t1708597339156.html

上一篇 > 真我GT5 Pro：一台被严重低估的神机，缺点或只有一个
下一篇 > 华为Pocket 2小折叠发布！售价7499元起，一文汇总新机亮点