因?yàn)?a class="article-link" target="_blank" href="/tag/ChatGPT/">ChatGPT,AI取得了里程碑式的勝利,甚至引爆了全社會(huì)對(duì)生成式AI和大模型技術(shù)的關(guān)注。
大模型由于參數(shù)量大、計(jì)算量大,需要更大體量的數(shù)據(jù)和更高的算力支撐,因此對(duì)芯片用量的更大需求、芯片規(guī)格的更高要求,已經(jīng)成為明顯趨勢(shì)。同時(shí),大模型要進(jìn)一步走向通用,成為全社會(huì)必不可少的生產(chǎn)工具,勢(shì)必需要更強(qiáng)的訓(xùn)練、推理能力,以及可接受的使用成本,而這些都在推動(dòng)大算力芯片的發(fā)展變革。它一方面為AI走向通用奠定基礎(chǔ),反正,則可能成為掣肘。
AI大模型——算力吞噬怪獸
以ChatGPT為代表的LLM(大語(yǔ)言模型),過(guò)去幾年中,其規(guī)模每年約增加10倍。有研究表明,隨著LLM模型規(guī)模增長(zhǎng),很多NLP任務(wù)效果會(huì)大幅提升。這也意味著未來(lái)的技術(shù)趨勢(shì)可能是:追求規(guī)模越來(lái)越大的LLM模型,通過(guò)增加預(yù)訓(xùn)練數(shù)據(jù)的多樣性,涵蓋越來(lái)越多的領(lǐng)域;LLM自主從領(lǐng)域數(shù)據(jù)中通過(guò)預(yù)訓(xùn)練過(guò)程學(xué)習(xí)領(lǐng)域知識(shí),隨著模型規(guī)模不斷增大,很多問(wèn)題隨之解決。也就是說(shuō),更智能的ChatGPT應(yīng)用,與大模型的復(fù)雜程度和規(guī)模的進(jìn)一步增加,是伴生而來(lái)的階躍和挑戰(zhàn)。
ChatGPT對(duì)算力的消耗主要分為三個(gè)場(chǎng)景:
一是模型預(yù)訓(xùn)練過(guò)程,這是ChatGPT消耗算力的最主要場(chǎng)景。GPT、GPT-2和GPT-3的參數(shù)量從1.17億增加到1750億,預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB,其中GPT-3單次訓(xùn)練成本就高達(dá)460萬(wàn)美元。同時(shí),模型開發(fā)過(guò)程很難一次取得成功,整個(gè)開發(fā)階段可能需要進(jìn)行多次預(yù)訓(xùn)練過(guò)程,因此對(duì)于算力的需求是持續(xù)的。
二是模型迭代過(guò)程。ChatGPT模型需要不斷進(jìn)行調(diào)優(yōu),以確保處于最佳應(yīng)用狀態(tài)。這一過(guò)程中,一方面需要開發(fā)者對(duì)模型參數(shù)進(jìn)行調(diào)整,確保輸出內(nèi)容不是有害和失真的;另一方面,需要基于用戶反饋和PPO策略,對(duì)模型進(jìn)行大規(guī)模或小規(guī)模的迭代訓(xùn)練。這些都將產(chǎn)生算力成本,且成本取決于模型的迭代速度。
三是日常運(yùn)營(yíng)過(guò)程。用戶交互帶來(lái)的數(shù)據(jù)處理需求同樣也是一筆不小的算力開支,ChatGPT面向全球大眾用戶,用的人越多,帶寬消耗越大,服務(wù)器成本會(huì)越來(lái)越高。業(yè)界測(cè)算ChatGPT 單月運(yùn)營(yíng)需要算力約4874.4PFlop/s-day,對(duì)應(yīng)成本約616萬(wàn)美元。
面對(duì)ChatGPT這類“吞金怪獸”,算力資源很容易捉襟見肘。根據(jù)OpenAI測(cè)算,自2012年以來(lái),全球頭部AI模型訓(xùn)練算力需求3~4個(gè)月翻一番,每年頭部訓(xùn)練模型所需算力增長(zhǎng)幅度高達(dá)10倍,AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限,也對(duì)芯片設(shè)計(jì)廠商提出了更高要求。
大算力芯片面臨能效和成本挑戰(zhàn)
GPU由于采用了數(shù)量眾多的計(jì)算單元和超長(zhǎng)流水線,因此更適合進(jìn)行大吞吐量的AI并行計(jì)算。不過(guò),隨著大模型逐步發(fā)展,對(duì)GPU先進(jìn)算力的需求在繼續(xù)提升。
面向未來(lái)更大的計(jì)算和部署挑戰(zhàn),單純的算力提升已經(jīng)不是最優(yōu)解。AMD首席執(zhí)行官Lisa Su近期提出:“在接下來(lái)的十年里,我們必須將能源效率視為最重要的挑戰(zhàn)”。
盡管摩爾定律放緩,但其他因素推動(dòng)主流計(jì)算能力大約每?jī)赡臧敕环?。?duì)于超級(jí)計(jì)算機(jī),翻倍的速度更快。Lisa Su指出,計(jì)算的能源效率并沒(méi)有跟上步伐,未來(lái)十年后的超級(jí)計(jì)算機(jī)需要多達(dá) 500 兆瓦的電力,這與核電站差不多。
正因如此,芯片系統(tǒng)級(jí)效率的提高被視作下一步的重點(diǎn),這包括芯片節(jié)能計(jì)算、高效的芯片間通信和低功耗內(nèi)存訪問(wèn)。Lisa Su表示,通過(guò)處理器架構(gòu)、先進(jìn)封裝的改進(jìn),以及更好的硅技術(shù)等組合,可以使每瓦性能增長(zhǎng)率提高一倍以上。
今年的CES展會(huì)上,AMD披露了它“迄今為止的最大芯片”Instinct MI300,這是其首款數(shù)據(jù)中心/HPC級(jí)的APU。Instinct MI300擁有1460億個(gè)晶體管的芯片,采用Chiplet設(shè)計(jì),擁有13個(gè)小芯片,基于3D 堆疊,包括24個(gè)Zen4 CPU內(nèi)核,同時(shí)融合CDNA 3 和8個(gè)HBM3顯存堆棧,集成了5nm和6nm IP,總共包含128GB HBM3顯存和1460億晶體管,有望于今年下半年上市。AMD Instinct MI300 的晶體管數(shù)量已經(jīng)超過(guò)了英特爾 1000 億晶體管的 Ponte Vecchio,是 AMD 投產(chǎn)的最大芯片。
AMD聲稱,Instinct MI300可帶來(lái)MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基準(zhǔn)測(cè)試),可以將ChatGPT和DALL-E等超大型AI模型的訓(xùn)練時(shí)間從幾個(gè)月減少到幾周,從而節(jié)省數(shù)百萬(wàn)美元的電費(fèi)。
“我們目前擁有的最大杠桿可能是使用先進(jìn)的封裝和小芯片”,Lisa Su說(shuō),“它使我們能夠比以往任何時(shí)候都更緊密地將計(jì)算組件結(jié)合在一起?!?/p>
此外,高能效比也是存算一體AI芯片所擅長(zhǎng)的,它能從架構(gòu)上突破傳統(tǒng)數(shù)據(jù)搬運(yùn)方式所帶來(lái)的瓶頸,實(shí)現(xiàn)計(jì)算效率數(shù)量級(jí)的提升。英特爾、三星等IDM廠商和新銳的算力芯片廠商都在探索存算一體芯片,并衍生出了不同的架構(gòu)和技術(shù)路線。
在阿里達(dá)摩院發(fā)布的2023十大科技趨勢(shì)中,多模態(tài)預(yù)測(cè)訓(xùn)練大模型、Chiplet、存算一體等技術(shù)都位列其中,成為算力產(chǎn)業(yè)下一步有跡可循的發(fā)展方向。
催生更高內(nèi)存要求
受惠于ChatGPT火熱,有消息稱,三星、SK海力士兩家內(nèi)存大廠旗下HBM業(yè)務(wù)接單量大增(上文提及的Instinct MI300就采用了128GB HBM3)。
HBM(high bandwidth memory),又名高帶寬內(nèi)存,主要通過(guò)硅穿孔(Through Silicon Via)技術(shù)進(jìn)行芯片堆疊,通過(guò)增加吞吐量的方式克服單一封裝內(nèi)帶寬的限制,最終將數(shù)個(gè)DRAM裸片如積木一樣垂直地堆疊起來(lái)?;谶@種設(shè)計(jì),信息交換的時(shí)間將會(huì)縮短。這些堆疊的數(shù)顆DRAM芯片通過(guò)稱為“中介層(Interposer)”的超快速互聯(lián)方式連接至CPU或GPU,最后可將組裝好的模塊連接至電路板,組成一款大容量、高位寬的“性能怪獸”。
早在2014年時(shí),SK海力士就與AMD合作推出第一代HBM產(chǎn)品,如今已經(jīng)更新到第四代產(chǎn)品(HBM3),還有英偉達(dá)、英特爾等企業(yè)都在采購(gòu)HBM3。
與傳統(tǒng)DRAM相比,HBM在數(shù)據(jù)處理速度和性能方面都有著更強(qiáng)的競(jìng)爭(zhēng)力。SK海力士的第三代HBM已搭配英偉達(dá)A100 GPU中,第四代HBM搭載在H100中,都已開始供應(yīng)ChatGPT服務(wù)器所需。
受應(yīng)用拉動(dòng),第三代HBM報(bào)價(jià)飛漲,據(jù)稱已是效能最高的DRAM產(chǎn)品的五倍之多,其市場(chǎng)成長(zhǎng)率是三星、SK海力士原本預(yù)測(cè)的兩倍以上。
預(yù)測(cè)下一步,ChatGPT等應(yīng)用將繼續(xù)提升內(nèi)存需求,例如能夠存儲(chǔ)大量圖片和音頻信息的高容量、進(jìn)一步提高數(shù)據(jù)傳輸速度的高帶寬、更低功耗、更高安全性,都將是未來(lái)深度學(xué)習(xí)與大模型進(jìn)化的根基。
以HBM為代表的超高帶寬內(nèi)存技術(shù),有望成為加速芯片選擇,同時(shí)大模型的發(fā)展也會(huì)推動(dòng)HBM內(nèi)存進(jìn)一步增大容量、提升帶寬。
一個(gè)隱憂
在筆者日前與千芯科技董事長(zhǎng)陳巍的交流中,他對(duì)算力芯片有一個(gè)形象的比喻:芯片是高科技發(fā)展的算力樹根,大模型技術(shù)是科技樹發(fā)展的AI樹干,每個(gè)枝干就是不同的高科技領(lǐng)域。樹根越茁壯,樹干越高,科技樹就越繁盛。從這個(gè)角度看,芯片和大模型領(lǐng)域的水平都影響到最終的國(guó)力競(jìng)爭(zhēng)。
盡管國(guó)內(nèi)頭部大廠已經(jīng)開始如火如荼地復(fù)現(xiàn)ChatGPT效果,但一個(gè)隱憂是——如果高端算力芯片被“斷供”,高端芯片制造受阻,對(duì)我們訓(xùn)練和應(yīng)用AI大模型會(huì)不會(huì)帶來(lái)“釜底抽薪”般的挑戰(zhàn)?
如果高端芯片“斷供”持續(xù)下去,對(duì)我國(guó)AI大模型的發(fā)展可能是非常不利的。一方面,ChatGPT訓(xùn)練需要大量的CPU和GPU。另一方面,由于芯片禁令,導(dǎo)致國(guó)內(nèi)難以新獲得A100或更新的GPU。這相當(dāng)于直接鎖住了大模型訓(xùn)練的速度。
現(xiàn)在看來(lái),國(guó)內(nèi)可能是半年訓(xùn)練出一代,以后可能就是2年甚至10年才能完成一代進(jìn)步。由于AI計(jì)算還影響到AI制藥、AI材料等領(lǐng)域的發(fā)展,如果高端大算力芯片的問(wèn)題得不到解決,國(guó)內(nèi)的科技樹成長(zhǎng)速度有可能被拖慢。
由此會(huì)不會(huì)加大我國(guó)與國(guó)際上AI技術(shù)的發(fā)展代差?如果國(guó)際上憑借突飛猛進(jìn)的大模型技術(shù)繼續(xù)反哺各行各業(yè)的創(chuàng)新應(yīng)用?……這種發(fā)展差距細(xì)思極恐。
寫在最后
當(dāng)AI公司在ChatGPT時(shí)代躍躍欲試淘金之時(shí),探討一下作為根基的大算力芯片尤為必要。特別是當(dāng)大模型有望成為各行各業(yè)重要的生產(chǎn)工具,其下一步的部署和實(shí)施,大算力支持也是必不可少的。只有系統(tǒng)性地規(guī)劃,聚焦于關(guān)鍵問(wèn)題,才能形成持續(xù)突破。