作者 |??ZeR0,編輯?|??漠影
AI芯片是時(shí)候上演新故事了。
芯東西2月21日?qǐng)?bào)道,在OpenAI推出又一爆款力作AI視頻生成模型Sora后,連帶著偏上游的AI芯片賽道熱度一點(diǎn)即著。
創(chuàng)始成員來(lái)自谷歌TPU團(tuán)隊(duì)的美國(guó)存算一體AI芯片公司Groq便是最新贏家。這家創(chuàng)企自稱其自研AI推理引擎LPU做到了“世界最快推理”,由于其超酷的大模型速度演示、遠(yuǎn)低于GPU的token成本,這顆AI芯片最近討論度暴漲。連原阿里副總裁賈揚(yáng)清都公開算賬,分析LPU和H100跑大模型的采購(gòu)和運(yùn)營(yíng)成本到底差多少。
就在Groq風(fēng)風(fēng)火火之際,全球最大AI芯片公司英偉達(dá)陷入了一些振蕩。今日英偉達(dá)官宣將在3月18日-21日舉辦其年度技術(shù)盛會(huì)GTC24,但其股市表現(xiàn)卻不甚理想。受投資者快速撤股影響,英偉達(dá)今日股價(jià)降低4.35%,創(chuàng)去年10月以來(lái)最大跌幅,一日之間市值縮水780億美元。?????
Groq則在社交平臺(tái)上歡歡喜喜地頻繁發(fā)文加轉(zhuǎn)發(fā),分享其合作伙伴及網(wǎng)友們對(duì)LPU的實(shí)測(cè)結(jié)果及正面評(píng)價(jià)。一些積極觀點(diǎn)認(rèn)為,LPU將改變運(yùn)行大語(yǔ)言模型的方式,讓本地運(yùn)行成為主流。????
根據(jù)Groq及一些網(wǎng)友分享的技術(shù)演示視頻及截圖,在LPU上跑大語(yǔ)言模型Mixtral 8x7B-32k,生成速度快到接近甚至超過(guò)500tokens/s,遠(yuǎn)快于公開可用的OpenAI ChatGPT 4。
“這是一場(chǎng)革命,不是進(jìn)化?!盙roq對(duì)自己的進(jìn)展信心爆棚。
2016年底,谷歌TPU核心團(tuán)隊(duì)的十個(gè)人中,有八人悄悄組隊(duì)離職,在加州山景城合伙創(chuàng)辦了新公司Groq。接著這家公司就進(jìn)入神隱狀態(tài),直到2019年10月才通過(guò)一篇題為《世界,認(rèn)識(shí)Groq》的博客,正式向世界宣告自己的存在。
隨后“官網(wǎng)喊話”就成了Groq的特色,尤其是近期,Groq接連發(fā)文“喊話”馬斯克、薩姆·阿爾特曼、扎克伯格等AI大佬。特別是在《嘿 薩姆…》文章中,公然“嫌棄”O(jiān)penAI的機(jī)器人太慢了,并給自家LPU打廣告,聲稱運(yùn)行大語(yǔ)言模型和其他生成式AI模型的速度是其他AI推理解決方案速度的10倍。????
現(xiàn)在,Groq繼續(xù)保持著高調(diào),除了官號(hào)積極出面互動(dòng)外,前員工和現(xiàn)員工還在論壇上“撕”起來(lái)了。前員工質(zhì)疑實(shí)際成本問(wèn)題,現(xiàn)員工則抨擊這位前員工離開并創(chuàng)辦了一家Groq的競(jìng)爭(zhēng)對(duì)手+沒(méi)做出“世界最低延遲的大語(yǔ)言模型引擎”+沒(méi)保證“匹配最便宜的token價(jià)格”。????
面向LPU客戶的大語(yǔ)言模型API訪問(wèn)已開放,提供免費(fèi)10天、100萬(wàn)tokens試用,可從OpenAI API切換。Groq致力于實(shí)現(xiàn)最便宜的每token價(jià)格,承諾其價(jià)格“超過(guò)同等上市型號(hào)的已發(fā)布供應(yīng)商的任何已公布的每百萬(wàn)tokens價(jià)格”。
據(jù)悉,Groq下一代芯片將于2025年推出,采用三星4nm制程工藝,能效預(yù)計(jì)相較前一代提高15~20倍,尺寸將變得更大。
執(zhí)行相同任務(wù)的芯片數(shù)量也將大幅減少。當(dāng)前Groq需要在9個(gè)機(jī)架中用576顆芯片才能完成Llama 2 70B推理,而到2025年完成這一任務(wù)可能只需在2個(gè)機(jī)架使用大約100個(gè)芯片。??????????????
01.1秒內(nèi)寫出數(shù)百個(gè)單詞,輸出tokens吞吐量最高比競(jìng)品快18倍
按照Groq的說(shuō)法,其AI推理芯片能將運(yùn)行大語(yǔ)言模型的速度提高10倍、能效提高10倍。
要體驗(yàn)LPU上的大語(yǔ)言模型,需先創(chuàng)建一個(gè)Groq賬戶。????????輸入提示詞“美國(guó)最好的披薩是什么?”跑在LPU上的Mixtral模型飛速給出回答,比以前慢慢生成一行一行字的體驗(yàn)好很多。????????
它還支持對(duì)生成的答案進(jìn)行修改。
在公開的大語(yǔ)言模型基準(zhǔn)測(cè)試上,LPU取得了壓倒性戰(zhàn)績(jī),運(yùn)行Meta AI大語(yǔ)言模型Llama 2 70B時(shí),輸出tokens吞吐量比所有其他基于云的推理供應(yīng)商最高要快18倍。
對(duì)于Time to First Token,其縮短到0.22秒。由于LPU的確定性設(shè)計(jì),響應(yīng)時(shí)間是一致的,從而使其API提供最小的可變性范圍。這意味著更多的可重復(fù)性和更少的圍繞潛在延遲問(wèn)題或緩慢響應(yīng)的設(shè)計(jì)工作。
AI寫作助手創(chuàng)企HyperWriteAI的CEO Matt Shumer評(píng)價(jià)LPU“快如閃電”,“不到1秒寫出數(shù)百個(gè)單詞”,“超過(guò)3/4的時(shí)間花在搜索上,而非生成”,“大語(yǔ)言模型的運(yùn)行時(shí)間只有幾分之一秒”。
有網(wǎng)友分享了圖像生成的區(qū)域提示,并評(píng)價(jià)“非常印象深刻”。
02.賈揚(yáng)清分析采購(gòu)和運(yùn)營(yíng)成本:比H100服務(wù)器貴多了
Groq芯片采用14nm制程工藝,搭載230MB片上共享SRAM,內(nèi)存帶寬達(dá)80TB/s,F(xiàn)P16算力為188TFLOPS,int8算力為750TOPS。
Groq在社交平臺(tái)上解答了一些常見問(wèn)題:
1、LPU為每token提供很好的價(jià)格,因?yàn)樾矢叨覔碛袕男酒较到y(tǒng)的堆棧,沒(méi)有中間商;
2、不賣卡/芯片,除非第三方供應(yīng)商將其出售給研究/科學(xué)應(yīng)用團(tuán)體,銷售內(nèi)部系統(tǒng);
3、其設(shè)計(jì)適用于大型系統(tǒng),而非單卡用戶,Groq的優(yōu)勢(shì)來(lái)自大規(guī)模的設(shè)計(jì)創(chuàng)新。?????????????????
與很多大模型芯片不同的是,Groq的芯片沒(méi)有HBM、沒(méi)有CoWoS,因此不受HBM供應(yīng)短缺的限制。?
在對(duì)Meta Llama 2模型做推理基準(zhǔn)測(cè)試時(shí),Groq將576個(gè)芯片互連。按照此前Groq分享的計(jì)算方法,英偉達(dá)GPU需要大約10~30J來(lái)生成token,而Groq每token大約需要1~3J,也就是說(shuō)推理速度是原來(lái)的10倍,??????????????成本是原來(lái)的1/10,或者說(shuō)性價(jià)比提高了100倍。
Groq拿一臺(tái)英偉達(dá)服務(wù)器和8機(jī)架Groq設(shè)備做對(duì)比,并聲稱非常確定配備576個(gè)LPU的Groq系統(tǒng)成本不到英偉達(dá)DGX H100的1/10,而后者的運(yùn)行價(jià)格已超過(guò)40萬(wàn)美元。等于說(shuō)Groq系統(tǒng)能實(shí)現(xiàn)10倍的速度下,總成本只有1/10,即消耗的空間越多,就越省錢。
自稱是“Groq超級(jí)粉絲”的原阿里副總裁、創(chuàng)辦AI infra創(chuàng)企Lepton AI的賈揚(yáng)清則從另一個(gè)角度來(lái)考慮性價(jià)比,據(jù)他分析,與同等算力的英偉達(dá)H100服務(wù)器成本比較,Groq LPU服務(wù)器實(shí)際要耗費(fèi)更高的硬件采購(gòu)成本和運(yùn)營(yíng)成本:?
1. 每張Groq卡的內(nèi)存為230MB。對(duì)于Llama 70B模型,假設(shè)采用int8量化,完全不計(jì)推理的內(nèi)存消耗,則最少需要305張卡。實(shí)際上需要的更多,有報(bào)道是572張卡,因此我們按照572張卡來(lái)計(jì)算。
2. 每張Groq卡的價(jià)格為2萬(wàn)美元,因此購(gòu)買572張卡的成本為1144萬(wàn)美元。當(dāng)然,因?yàn)殇N售策略和規(guī)模效益,每張卡的價(jià)格可能打折,姑且按照目錄價(jià)來(lái)計(jì)算。
3. 572張卡,每張卡的功耗平均是185W,不考慮外設(shè),總功耗為105.8kW。(注意,實(shí)際會(huì)更高)
4. 現(xiàn)在數(shù)據(jù)中心平均每千瓦每月的價(jià)格在200美元左右,也就是說(shuō),每年的電費(fèi)是105.8 x 200 x 12 = 25.4萬(wàn)美元。(注意,實(shí)際會(huì)更高)
5. 基本上,采用4張H100卡可實(shí)現(xiàn)Groq的一半性能,也就是說(shuō),一臺(tái)8卡H100與上面的性能相當(dāng)。8卡H100的標(biāo)稱最大功率為10kW(實(shí)際大概在8-9kW),因此每年電費(fèi)為2.4萬(wàn)美元或更低一些。
6. 今天8卡H100的采購(gòu)成本約為30萬(wàn)美元。
7. 因此,如果運(yùn)行三年,Groq的硬件采購(gòu)成本是1144萬(wàn)美元,運(yùn)營(yíng)成本是76.2萬(wàn)美元或更高。8卡H100的硬件購(gòu)買成本是30萬(wàn)美元,運(yùn)營(yíng)成本為7.2萬(wàn)美元或更低一些。
如果按這個(gè)算法,運(yùn)行3年,Groq的采購(gòu)成本將是H100的38倍,運(yùn)營(yíng)成本將是H100的10倍。????
賈揚(yáng)清還在評(píng)論區(qū)談道:“老實(shí)說(shuō),我們對(duì)當(dāng)前的token價(jià)格+速度SLA組合感到不適。換句話說(shuō),我們對(duì)token價(jià)格感到滿意,但如果并行調(diào)用API,我們無(wú)法保證速度?!?/p>
03.存算一體+軟件定義硬件:?編譯器優(yōu)先,開發(fā)速度快,易定制調(diào)試
Groq聯(lián)合創(chuàng)始人兼CEO Jonathan Ross曾宣稱,相比用英偉達(dá)GPU,LPU集群將為大語(yǔ)言推理提供更高吞吐量、更低延遲、更低成本。????????????????“12個(gè)月內(nèi),我們可以部署10萬(wàn)個(gè)LPU;24個(gè)月內(nèi),我們可以部署100萬(wàn)個(gè)LPU?!盧oss說(shuō)。???
根據(jù)官網(wǎng)信息,LPU代表語(yǔ)言處理單元,是Groq打造的一種新型端到端處理單元,旨在克服大語(yǔ)言模型的計(jì)算密度和內(nèi)存帶寬瓶頸,計(jì)算能力超過(guò)GPU和CPU,能夠減少計(jì)算每個(gè)單詞所需時(shí)間,更快生成文本序列。消除外部?jī)?nèi)存瓶頸使得LPU推理引擎能夠在大語(yǔ)言模型上提供比GPU好幾個(gè)數(shù)量級(jí)的性能。
LPU采用了單核心時(shí)序指令集計(jì)算機(jī)架構(gòu),無(wú)需像傳使用高帶寬存儲(chǔ)(HBM)的GPU那樣頻繁從內(nèi)存中加載數(shù)據(jù),能有效利用每個(gè)時(shí)鐘周期,降低成本。???
▲傳統(tǒng)GPU內(nèi)存結(jié)構(gòu)
▲Groq芯片內(nèi)存結(jié)構(gòu)???????????????????
Groq芯片的指令是垂直走向,而數(shù)據(jù)流向東西流動(dòng),利用位置和功能單元相交以執(zhí)行操作。通過(guò)將計(jì)算和內(nèi)存訪問(wèn)解耦,Groq的芯片在處理數(shù)據(jù)時(shí)能進(jìn)行大量讀寫,即一步之內(nèi)有效進(jìn)行計(jì)算與通信,提供低延遲、高性能和可預(yù)測(cè)的準(zhǔn)確性。?????????????其特點(diǎn)包括出色的時(shí)序性能、單核架構(gòu)、大規(guī)模部署可維護(hù)的同步網(wǎng)絡(luò)、能自動(dòng)編譯超過(guò)500億參數(shù)的大語(yǔ)言模型、即時(shí)內(nèi)存訪問(wèn)、較低精度水平下保持高準(zhǔn)確度。
“編譯器優(yōu)先”是Groq的秘密武器,使其硬件媲美專用集成電路(AISC)。但與功能固定的AISC不同的是,Groq采用軟件定義硬件的思路,利用了一個(gè)可以適應(yīng)和優(yōu)化不同模型的自定義編譯器,使其編譯器和體系結(jié)構(gòu)共同構(gòu)成了一個(gè)精簡(jiǎn)的、穩(wěn)健的機(jī)器學(xué)習(xí)推理引擎,支持自定義優(yōu)化,以平衡性能與靈活性。
受軟件優(yōu)先思想的啟發(fā),Groq將執(zhí)行控制和數(shù)據(jù)流控制的決策步驟從硬件轉(zhuǎn)移到了編譯器,以調(diào)度跨網(wǎng)絡(luò)的數(shù)據(jù)移動(dòng)。所有執(zhí)行計(jì)劃都在軟件棧中進(jìn)行,不再需要硬件調(diào)度器來(lái)弄清楚如何將東西搬到芯片上。這釋放了寶貴的芯片空間,并提供了額外的內(nèi)存帶寬和晶體管來(lái)提高性能。???
Groq的簡(jiǎn)化架構(gòu)去除了芯片上對(duì)AI沒(méi)有任何處理優(yōu)勢(shì)的多余電路,實(shí)現(xiàn)了更高效的芯片設(shè)計(jì),每平方毫米的性能更高。其芯片將大量的算術(shù)邏輯單元與大量的片上內(nèi)存結(jié)合,并擁有充足帶寬。由于控制流程已進(jìn)入軟件棧,硬件是一致且可預(yù)測(cè)的,開發(fā)人員可以精確獲知內(nèi)存使用情況、模型效率和延遲。這種確定性設(shè)計(jì)使用戶可在將多芯片擴(kuò)展連接時(shí),精確把控運(yùn)行一次計(jì)算需要多長(zhǎng)時(shí)間,更加專注于算法并更快地部署解決方案,從而簡(jiǎn)化了生產(chǎn)流程。擴(kuò)展性方面,當(dāng)Groq芯片擴(kuò)展到8卡、16卡、64卡,所支持的性能和延遲如下:???
Groq工程師認(rèn)為,必須謹(jǐn)慎使用HBM的原因是它不僅涉及延遲,還有“非確定性”問(wèn)題。LPU架構(gòu)的一大好處是可以構(gòu)建能快速互連的數(shù)百個(gè)芯片的系統(tǒng),并知道整個(gè)系統(tǒng)的精確時(shí)間在百萬(wàn)分之幾以內(nèi)。而一旦開始集成非確定性組件,就很難確保對(duì)延遲的承諾了。
04.結(jié)語(yǔ):AI芯片是時(shí)候上演新故事了
Groq氣勢(shì)洶洶地向“世界最快大模型推理芯片”的目標(biāo)發(fā)起總攻,給高性能AI推理市場(chǎng)帶來(lái)了新的期待。在系統(tǒng)級(jí)芯片采購(gòu)和運(yùn)營(yíng)成本方面,Groq可能還難以做到與H100匹敵,但從出色的單batch處理和壓低token價(jià)格來(lái)看,其LPU推理引擎已經(jīng)展現(xiàn)出相當(dāng)?shù)奈Α?隨著生成式AI應(yīng)用進(jìn)入落地潮,AI芯片賽道也是時(shí)候多上演一些新故事了。