英伟达被“偷家”?全新AI芯片横空出世,速度比GPU快十倍

芯片推理速度较英伟达GPU提高10倍、成本只有其1/10;运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度——短短几天,一家名为Groq的初创公司在AI圈爆火。

芯片推理速度较英伟达GPU提高10倍、成本只有其1/10;运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度——短短几天,一家名为Groq的初创公司在AI圈爆火。

Groq读音与马斯克的聊天机器人Grok极为接近,成立时间却远远早于后者。其成立于2016年,定位为一家人工智能解决方案公司。

在Groq的创始团队中,有8人来自仅有10人的谷歌早期TPU核心设计团队。例如,Groq创始人兼CEO Jonathan Ross设计并实现了TPU原始芯片的核心元件,TPU的研发工作中有20%都由他完成,之后他又加入Google X快速评估团队,为谷歌母公司Alphabet设计并孵化了新Bets。

虽然团队脱胎于谷歌TPU,但Groq既没有选择TPU这条路,也没有看中GPU、CPU等路线。Groq选择了一个全新的系统路线——LPU(Language Processing Unit,语言处理单元)。

“我们(做的)不是大模型,”Groq表示,“我们的LPU推理引擎是一种新型端到端处理单元系统,可为AI大模型等计算密集型应用提供最快的推理速度。”

从这里不难看出,“速度”是Groq的产品强调的特点,而“推理”是其主打的细分领域。

Groq也的确做到了“快”,根据Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

第三方机构artificialanalysis.ai给出的测评结果也显示,Groq的吞吐量速度称得上是“遥遥领先”。

为了证明自家芯片的能力,Groq还在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前两个已开放使用。

图|Groq(Llama 2)对比ChatGPT(来源:X用户JayScambler)

LPU旨在克服两个大模型瓶颈:计算密度和内存带宽。据Groq介绍,在 LLM 方面,LPU较GPU/CPU拥有更强大的算力,从而减少了每个单词的计算时间,可以更快地生成文本序列。此外,由于消除了外部内存瓶颈,LPU推理引擎在大模型上的性能比GPU高出几个数量级。

据悉,Groq芯片完全抛开了英伟达GPU颇为倚仗的HBM与CoWoS封装,其采用14nm制程,搭载230MB SRAM,内存带宽达到80TB/s。算力方面,其整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

值得注意的是,“快”是Groq芯片主打的优点,也是其使用的SRAM最突出的强项之一。

SRAM是目前读写最快的存储设备之一,但其价格昂贵,因此仅在要求苛刻的地方使用,譬如CPU一级缓冲、二级缓冲。

华西证券指出,可用于存算一体的成熟存储器有Nor Flash、SRAM、DRAM、RRAM、MRAM等。其中,SRAM在速度方面和能效比方面具有优势,特别是在存内逻辑技术发展起来之后,具有明显的高能效和高精度特点。SRAM、RRAM有望成为云端存算一体主流介质。

THE END
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
相关阅读
  • 贾扬清:Groq的AI芯片不能平替英伟达

    贾扬清:Groq的AI芯片不能平替英伟达

    财报发布前两天,英伟达突然冒出来一个劲敌。一家名叫Groq的公司今天在AI圈内刷屏,杀招就一个:快。不过,原Facebook人工智能科学家,原阿里技术副总裁贾扬清在推特上算了一笔账,因为Groq小的可怜的内存容量(230MB),在运行Llama-270b…

    2分钟前
  • 消息称微软正研发新型网卡,旨在提升自研 AI 芯片性能

    消息称微软正研发新型网卡,旨在提升自研 AI 芯片性能

    芯物联 2 月 21 日消息,据 The Information 报道,微软正在研发一款新型网卡,旨在提升其自研的 Maia AI 服务器芯片的性能,并有可能降低公司对芯片设计厂商英伟达的依赖。报道援引知情人士的消息称,微软 CEO Satya Nadella 聘请了联接…

    3分钟前
  • 高通推出全球首款汽车Wi-Fi 7芯片:峰值速率5.8Gbps

    高通推出全球首款汽车Wi-Fi 7芯片:峰值速率5.8Gbps

    物联2月21日消息,高通宣布推出骁龙汽车智联平台的最新产品,业界首个车规级Wi-Fi 7接入点解决方案——高通QCA6797AQ。高通表示,汽车正在成为个性化的网联空间,这包括先进信息娱乐系统和增强现实仪表盘等。沉浸式车内体验愈加普及,推…

    3分钟前

栏目精选