文 I 王藝可 十巷
編輯 I 蘇揚(yáng) 敘白
ID I xinchaoIC
ChatGPT意外掀起的一波AI革命,再次帶火了AI芯片市場。
“A800?和 H800?這類芯片,從原來的12萬人民幣左右,變成了現(xiàn)在25萬甚至30萬,甚至有高達(dá)50萬一片?!边@是發(fā)生在國內(nèi)芯片分銷圈的真實一幕,除了價格不斷暴漲,國內(nèi)大廠想大批量拿芯片,還要得和黃仁勛“有直接關(guān)系”。
正所謂“無芯片,不AI”,隨著大模型的算力需求飆升,身為AI技術(shù)地基的芯片迎來了重要商機(jī)。OpenAI曾預(yù)計,人工智能科學(xué)研究要想取得突破,所需要消耗的計算資源每3到4個月就要翻一倍,資金也需要通過指數(shù)級增長獲得匹配,這也被稱為人工智能領(lǐng)域的“摩爾定律”。
英偉達(dá)CFO克雷斯表示,目前AI 算力市場的需求已經(jīng)超出了公司對未來數(shù)個季度的預(yù)期,訂單已經(jīng)多到做不過來。
生成式AI這波浪潮,讓英偉達(dá)賺了個盆滿缽滿。在上市14年之后,英偉達(dá)成功躋身萬億美元市值俱樂部,而實現(xiàn)這一目標(biāo),硅谷巨頭們諸如蘋果用了37年、微軟用了33年、亞馬遜用了21年,特斯拉跑得最快,只用了11年。
這也刺激著中國芯片企業(yè)躍躍欲試,諸如海光信息、寒武紀(jì)、龍芯中科、壁仞科技、天數(shù)智芯等國產(chǎn)芯片企業(yè),都懷揣一顆“中國版”英偉達(dá)的雄心,嘗試憑自研為國產(chǎn)大模型賦能。一些大廠也開始用自研AI芯片支持模型的部分訓(xùn)練或推理任務(wù),如百度昆侖芯片、阿里含光800......
面對AI算力帶來的萬億市場,國內(nèi)企業(yè)能不能吃到這波紅利呢?國產(chǎn)芯片廠商該如何越過英偉達(dá)“高山”?這是任何一家公司都無法逃避的問題。
01、AI狂潮締造了一個萬億市值的英偉達(dá)
愛穿皮衣的男人最先吃到了AI紅利。
2022年底,ChatGPT問世后,迅速在全世界引起了 AI 狂潮。在這其中,一直押注AI未來的英偉達(dá),成為了ChatGPT浪潮中受益最多的公司之一。在今年的英偉達(dá)GTC大會上,英偉達(dá)創(chuàng)始人CEO黃仁勛披露了全新的人工智能及芯片技術(shù),并稱人工智能的“iPhone時刻”已經(jīng)到來。
在發(fā)布會上,黃仁勛表示,類似ChatGPT的大型語言模型的部署是一個重要的全新推理工作負(fù)載,為了支持大型語言模型推理,英偉達(dá)發(fā)布了一系列圍繞 AI 領(lǐng)域的產(chǎn)品和服務(wù),其中,采用全新架構(gòu)和更先進(jìn)制程的 H100?芯片最為引人注目。
這款 GPU是基于 NVIDIA Hopper 架構(gòu)的 H100?,配有一個 Transformer 引擎,旨在處理驅(qū)動類似ChatGPT的?預(yù)訓(xùn)練模型。與用于 GPT-3 處理的 HGX A100?相比,配備四對 H100?與雙 GPU NVLink 的標(biāo)準(zhǔn)服務(wù)器的訓(xùn)練速度可提10?倍。
“H100可以將大語言模型的處理成本降低一個數(shù)量級?!秉S仁勛曾表示?;贖100芯片,英偉達(dá)還構(gòu)建了最新的DGX超級計算機(jī),搭載8個H100 GPU,使它們連接成為一個巨大的GPU,為AI基礎(chǔ)設(shè)施的構(gòu)建提供“藍(lán)圖”,目前全新的DGX超級計算機(jī)已經(jīng)全面投產(chǎn)。
在這之后,英偉達(dá)旗下?A100、H100、A800?和?H800?等高性能?GPU?芯片應(yīng)聲漲價,尤其旗艦級芯片H100,4 月中旬在海外電商平臺就已炒到超 4 萬美元,甚至有賣家標(biāo)價 6.5 萬美元。
同時,英偉達(dá)的中國特供版 A800?和 H800芯片也遭到了哄搶。“國內(nèi)大模型企業(yè)基本上很難拿得到這些芯片。整個市場需大于求,缺貨非常厲害?!?a class="article-link" target="_blank" href="/baike/518455.html">電子元器件采購供應(yīng)商「廣鑫世紀(jì)」創(chuàng)始人張覺對芯潮IC坦言:“今年,這類GPU芯片從原來的12萬人民幣左右,變成了現(xiàn)在是25萬甚至30萬,甚至有高達(dá)50萬一片?!薄?/strong>
毫無疑問,英偉達(dá)在高性能GPU方面的技術(shù)領(lǐng)先地位,旗下A100和H100兩款A(yù)I芯片是ChatGPT這樣的大語言模型的核心動力。
一些云計算專業(yè)人士認(rèn)為,1萬顆英偉達(dá)A100芯片是一個好的AI模型的算力門檻。而微軟為OpenAI構(gòu)建的用于訓(xùn)練其模型的AI超級計算機(jī)就配備了1萬顆英偉達(dá)的GPU芯片。無獨有偶,國內(nèi)各互聯(lián)網(wǎng)大公司也紛紛向英偉達(dá)下大單,據(jù)晚點 LatePost報道,字節(jié)今年向英偉達(dá)訂購了超過 10?億美元的 GPU,另一家不便透露姓名的大公司,其訂單也至少超過 10?億元人民幣。
更夸張的是,這些公司最終能否搶到卡,更多是看商業(yè)關(guān)系,尤其以往是不是英偉達(dá)大客戶的企業(yè)。“你是和中國英偉達(dá)談,還是去美國找老黃(黃仁勛)直接談,都有差別。”?
由此,英偉達(dá)的財務(wù)數(shù)據(jù)再度攀上新高。5月25日,英偉達(dá)發(fā)布一季度財報,AI芯片所在數(shù)據(jù)中心業(yè)務(wù)的營收創(chuàng)歷史新高,保持10%以上同比增速。
黃仁勛透露,現(xiàn)在整個數(shù)據(jù)中心產(chǎn)品系列都在生產(chǎn)中,都正在大幅增加供應(yīng),以滿足激增的需求。
一系列好消息,直接帶動英偉達(dá)股價節(jié)節(jié)走高。5月30日晚,美股開盤,英偉達(dá)市值直接突破1萬億美元。而7月19日,英偉達(dá)總市值更是在一夜間飆升了1750億美元,再次引發(fā)投資熱潮。
根據(jù)companiesmarketcap網(wǎng)站顯示,英偉達(dá)總市值排名全球第6,也是目前市值最高的芯片公司,接近于兩個臺積電(5336億美元),今年以來英偉達(dá)股價漲幅約180%。不得不承認(rèn),這波AI狂潮讓黃仁勛的英偉達(dá)盆滿缽滿。
02、英偉達(dá)不可能獨享算力狂潮
“英偉達(dá)不會永遠(yuǎn)在大規(guī)模訓(xùn)練和推理芯片市場占據(jù)壟斷地位。”
這是特斯拉CEO埃隆·馬斯克對社交問答網(wǎng)站和在線知識市場Quora的首席執(zhí)行官Adam?D'Angelo一條推文的回應(yīng),后者寫道:“人工智能熱潮被低估的一個原因是GPU/TPU短缺,這種短缺導(dǎo)致了產(chǎn)品推出和模型培訓(xùn)的各種限制,但這些都不明顯。相反,我們看到的是英偉達(dá)的股價飆升。一旦供給滿足需求,事情就會加速發(fā)展?!?/p>
顯然,硅谷鋼鐵俠對此并不認(rèn)同,他還評論稱:“許多其他的神經(jīng)網(wǎng)絡(luò)加速器芯片也在開發(fā)中,英偉達(dá)不會永遠(yuǎn)壟斷大規(guī)模訓(xùn)練和推理。”
一場風(fēng)暴即將來襲。
以大模型為核心的AI狂潮,能帶動多大的算力市場?東吳證券認(rèn)為,AI模型算力需求持續(xù)擴(kuò)張,打開高性能計算芯片的市場需求,預(yù)計2025年我國AI芯片市場規(guī)模將達(dá)到1780億元,2019-2025復(fù)合年均增長率可達(dá)42.9%。從市場規(guī)模來看,AI芯片上處于起步階段,但增長潛力巨大。
而AI芯片是一個廣義概念,泛指專門用于處理人工智能應(yīng)用中的計算任務(wù)的模塊,是誕生于人工智能應(yīng)用快速發(fā)展時代的處理計算任務(wù)硬件,凡是面向人工智能應(yīng)用的芯片均被稱為AI芯片。主要的技術(shù)路線有三種:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。
從大模型的訓(xùn)練、場景化的微調(diào)以及推理應(yīng)用場景來看,以CPU+AI芯片提供的異構(gòu)算力,并行計算能力優(yōu)越、具有高互聯(lián)帶寬,可以支持AI計算效力實現(xiàn)最大化,成為智能計算的主流解決方案。
從市場份額來看,據(jù)艾瑞咨詢測算,到2027年,中國的AI芯片市場規(guī)模預(yù)計將達(dá)到2164億元。隨著AI模型的優(yōu)化落地,AI推理芯片的占比將日益提升。2022年,中國AI訓(xùn)練芯片以及AI推理芯片的占比分別為47.2%和52.8%。
目前,在AI芯片領(lǐng)域有三類玩家:一種是以英偉達(dá)、AMD為代表的老牌芯片巨頭,產(chǎn)品性能突出;其二是以Google、百度、華為為代表的云計算巨頭,這些企業(yè)紛紛布局通用大模型,并自己開發(fā)了AI芯片、深度學(xué)習(xí)平臺等支持大模型發(fā)展。譬如,華為的鯤鵬昇騰、CANN及Mindspore,百度的昆侖芯等。最后還有一些小而美的AI芯片獨角獸,如寒武紀(jì)、壁仞科技、天數(shù)智芯等。
雖然國產(chǎn)大模型爆發(fā),可能引發(fā)算力缺口,但國內(nèi)芯片廠商吃上國產(chǎn)替代這波紅利只是時間問題。作為AI訓(xùn)練芯片研發(fā)商,“AI芯片第一股”寒武紀(jì)再次得到市場關(guān)注,股價不斷拉升,最新市值突破900億。
在云端產(chǎn)品線,寒武紀(jì)已經(jīng)推出了四代芯片產(chǎn)品:2018年的思元100、2019年的思元270、2020年的思元290(車載)、以及2021年發(fā)布的思元370系列,用以支撐在云計算和數(shù)據(jù)中心場景下復(fù)雜度和數(shù)據(jù)吞吐量高速增長的人工智能處理任務(wù)。此外,寒武紀(jì)還有一款在研產(chǎn)品思元590,尚未發(fā)布。此外,2022年底,思元370系列與AIGC產(chǎn)品百度飛槳完成II級兼容性測試。
但國內(nèi)大模型公司是否采用了寒武紀(jì)芯片,尚未得到準(zhǔn)確消息?!霸诟叨薃I芯片領(lǐng)域,國產(chǎn)廠商處于剛剛起步的階段,很多東西需要時間和金錢驗證?!蹦迟Y深芯片工程師袒露。哪怕是華為、百度、海光信息等企業(yè)的芯片也與英偉達(dá)產(chǎn)品有著明顯差距。
曾有人坦言,英偉達(dá)與其他芯片廠商的差距,是院士與高中生的差別。就如同黃仁勛所言,英偉達(dá)“一直在奔跑”,想要超越巨人的其它芯片廠商只能奮力狂奔。
03、AI大模型背后的“權(quán)力游戲”
除了英偉達(dá)之外,另一個GPU巨頭AMD,最近也有了行動。
近日,AMD發(fā)布最新加速卡,就在AMD推出最新加速卡Instinct MI300X的發(fā)布會現(xiàn)場,PPT上專門打出一行字——大語言模型專用,這被業(yè)界視為直接向英偉達(dá)宣戰(zhàn)!
據(jù)悉,MI300X的高帶寬內(nèi)存(HBM)密度,最高可達(dá)英偉達(dá)H100的2.4倍,高帶寬內(nèi)存帶寬最高可達(dá)H100的1.6倍,顯然MI300X能運(yùn)行比H100更大的AI模型。
MI300X所在的MI300系列,是AMD為AI和HPC打造的一系列最新APU加速卡。其中,MI300A是“基礎(chǔ)款”,MI300X則是硬件性能更高的“大模型優(yōu)化款”。
目前來看,MI300A已經(jīng)出樣,估計不久就能買上;大模型專用卡MI300X、以及集成8個MI300X的AMD Instinct計算平臺,預(yù)計今年第三季度出樣,第四季度就能推出。
這幾年來,相比英偉達(dá)一直在AI領(lǐng)域的大動作,AMD的行動顯得有點遲緩。正如DeepBrain AI的CEO Eric Jang所言,感覺AMD這幾年讓他很失望,5年來沒什么變化。尤其是在AIGC的爆發(fā)過程中,如果AMD不努力跟上,差距只會越拉越大。
而隨著AMD此次MI300系列產(chǎn)品的推出,終于能看到AMD和英偉達(dá)正面打擂臺了。
但遺憾的是,市場對AMD的新卡好像不太買賬。
就在這次AMD發(fā)布會期間,其股價不升反降。相比之下,英偉達(dá)股價還上漲了一波。市場情緒也不難理解,因為在高科技領(lǐng)域,尤其是新興市場,一步快步步快、強(qiáng)者恒強(qiáng)正在成為商業(yè)市場的普遍邏輯。
但其實細(xì)究原因也能發(fā)現(xiàn),英偉達(dá)壟斷人工智能訓(xùn)練芯片市場的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達(dá),首先需要兼容英偉達(dá)的CUDA生態(tài),AMD為此推出ROCm生態(tài)圈,并實現(xiàn)通過HIP完全兼容CUDA,借此來減少用戶已知成本。
對此,知名投資博主慕容衣認(rèn)為,走兼容英偉達(dá)?CUDA?的路線的難點在于其更新迭代速度永遠(yuǎn)跟不上?CUDA?,并且很難做到完全兼容,即一方面迭代永遠(yuǎn)慢一步。英偉達(dá) GPU 在微架構(gòu)和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應(yīng)的功能更新,但是 AMD 不可能知道英偉達(dá)的產(chǎn)品路線圖,軟件更新永遠(yuǎn)會慢英偉達(dá)一步(例如 AMD 有可能剛宣布支持了 CUDA11,?但是英偉達(dá)已經(jīng)推出 CUDA12了);另一方面,難以完全兼容反而會增加開發(fā)者的工作量,像 CUDA 這樣的大型軟件本身架構(gòu)很復(fù)雜,AMD 需要投入大量人力物力用幾年甚至十幾年才能追趕上,因為難免存在功能差異,如果兼容做不好反而會影響性能。所以,這些也是大家目前不太買賬的關(guān)鍵原因。
據(jù)Khaveen Investments測算,英偉達(dá)數(shù)據(jù)中心GPU 2022年市占率高達(dá)88%,AMD和英特爾瓜分剩下的部分。
自從去年OpenAI發(fā)布ChatGPT以來,新一輪科技革命持續(xù)發(fā)酵??梢哉f,很多年都沒有哪一項科技進(jìn)步如ChatGPT這般吸引全球的目光。
國內(nèi)外各個科技公司、科研機(jī)構(gòu)、高等院校都在跟進(jìn),不到半年時間,就跑出了非常多的大模型應(yīng)用的創(chuàng)業(yè)公司,融資規(guī)模也屢創(chuàng)新高。
據(jù)知乎博主wgang梳理,包括百度、科大訊飛、第四范式、清華、復(fù)旦在內(nèi)的國內(nèi)各個大廠、創(chuàng)業(yè)公司、科研院校都相繼發(fā)布了大模型產(chǎn)品:
圖源:知乎wgwang
能看到,不僅是在通用領(lǐng)域,在具體的行業(yè)場景,尤其是一些專業(yè)性強(qiáng)、知識密度高的領(lǐng)域,科技公司們也在紛紛發(fā)布垂直領(lǐng)域的大模型。譬如美股上市公司百家云(RTC)結(jié)合對企業(yè)服務(wù)需求的洞察,近日發(fā)布了AIGC產(chǎn)品「市場易」,這也是首款適用于企業(yè)市場部內(nèi)容生產(chǎn)場景的GPT大模型引擎。
有業(yè)內(nèi)人士笑稱:“國產(chǎn)大模型已形成群模亂舞、百模大戰(zhàn)的局面,預(yù)計到年底會有超過100個的大模型。”
然而,大模型的發(fā)展需要算法、算力、數(shù)據(jù)三大重要因素的支撐,算力是大模型訓(xùn)練的重要能量引擎,也是目前國內(nèi)發(fā)展大模型產(chǎn)業(yè)的一大壁壘。
芯片能力直接影響著高算力訓(xùn)練效果和速度。上文提到,盡管國產(chǎn)大模型產(chǎn)品頻出,但從其背后支持的芯片來看,所有這些平臺使用的要么是英偉達(dá) A100、H100 GPU,要么是去年禁令后英偉達(dá)專門推出的減配版 A800、H800,這兩款處理器帶寬分別是原版的約3/4和約一半,避開了高性能 GPU 的限制標(biāo)準(zhǔn)。
今年 3 月,騰訊率先宣布已用上H800,在騰訊云發(fā)布的新版高性能計算服務(wù)中已使用了 H800,并稱這是國內(nèi)首發(fā)。
阿里云也在今年 5 月對內(nèi)提出把?“智算戰(zhàn)役”?作為今年的頭號戰(zhàn)役,GPU數(shù)量成為其戰(zhàn)役的重要指標(biāo)。
此外,商湯也宣稱,其?“AI 大裝置”?計算集群中已總共部署了近3萬塊GPU,其中有1萬塊是英偉達(dá)A100。字節(jié)和美團(tuán)則直接從公司其他業(yè)務(wù)團(tuán)隊那里勻出GPU供大模型訓(xùn)練使用。甚至有廠家自2022年下半年起就持續(xù)在市場中尋覓能拆出A100的各類整機(jī)產(chǎn)品,目的僅是獲得GPU芯片?!皺C(jī)子太多,存放的地方都不夠用?!?/p>
據(jù)了解,國內(nèi)頭部科技企業(yè)在AI和云計算方面投入較大,過去A100的積累都達(dá)到上萬塊。
與此同時,中國科技大廠還在進(jìn)行新一輪的采購競爭。
據(jù)某云服務(wù)商透露,字節(jié)、阿里等大公司主要是和英偉達(dá)原廠直接談采購,代理商和二手市場難以滿足其龐大需求。
正如上文提到的,字節(jié)跳動今年已向英偉達(dá)訂購了超過10億美元的GPU產(chǎn)品,僅字節(jié)一家公司今年的采購量就已經(jīng)接近英偉達(dá)去年在中國銷售的商用GPU總銷售額。報道稱,還有另一家大公司的訂單也至少超過 10?億元。
可見,中國大科技公司對于采購GPU非常急迫。
不止國內(nèi)企業(yè),國外大客戶對英偉達(dá)的A100/H100芯片需求同樣非常強(qiáng)烈。據(jù)數(shù)據(jù)統(tǒng)計,最早開始測試類ChatGPT產(chǎn)品的百度,2020年以來的年資本開支在8-20億美元之間,阿里在60-80億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數(shù)據(jù)中心的美國科技公司的年資本開支最少均超過150億美元。
目前英偉達(dá)訂單能見度已至2024年,高端芯片非常緊缺。以現(xiàn)在的排產(chǎn)進(jìn)度,就連A800/H800都要到今年底或明年才能交貨。短期內(nèi),從其受追捧程度來看,唯一影響英偉達(dá)高端GPU銷量的或許只有臺積電的產(chǎn)能。
04、“瘋搶”英偉達(dá)背后,國產(chǎn)芯片軟硬皆不足?
從大模型產(chǎn)品芯片供應(yīng)情況來看,在AI大模型訓(xùn)練上,現(xiàn)在A100、H100及其特供中國的減配版A800、H800找不到替代品。
那么,為什么在這一輪GPT熱潮中,英偉達(dá)率先跑出來并表現(xiàn)出色?
華映資本管理合伙人章高男表示,一方面是因為英偉達(dá)布局最早,其微內(nèi)核結(jié)構(gòu)也是一代一代去演進(jìn)和改進(jìn)的。現(xiàn)在無論是從并發(fā)能力、總線速度,還是微內(nèi)核對矩陣變換的成熟支持,其能力已經(jīng)非常高效,包括它同時提供非常完善的CUDA計算平臺,事實上已經(jīng)成為深度學(xué)習(xí)算法實現(xiàn)的潛在行業(yè)標(biāo)準(zhǔn),整個產(chǎn)業(yè)鏈的配套也非常完整,綜合競爭壁壘和護(hù)城河深度極高。
總結(jié)來看,英偉達(dá)GPU目前的不可替代性,源自大模型的訓(xùn)練機(jī)制,其核心步驟是預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning),前者是打基礎(chǔ),相當(dāng)于接受通識教育至大學(xué)畢業(yè);后者則是針對具體場景和任務(wù)做優(yōu)化,以提升工作表現(xiàn)。
那么,國產(chǎn)GPU芯片是否可以支撐大模型的算力需求呢?
在實際應(yīng)用中,大模型對于算力的需求分為兩個階段,一是訓(xùn)練出ChatGPT大模型的過程;二是將這個模型商業(yè)化的推理過程。即AI 訓(xùn)練是做出模型,AI 推理是使用模型,訓(xùn)練對芯片性能要求更高。
基于此,國產(chǎn)AI芯片公司持續(xù)涌現(xiàn),陸續(xù)發(fā)布產(chǎn)品推向市場。燧原科技、壁仞科技、天數(shù)智芯、寒武紀(jì)等公司都推出了自己的云端GPU產(chǎn)品,且理論性能指標(biāo)不弱。海光信息的DCU芯片“深算一號”軟硬件生態(tài)相對完整,且能夠兼容CUDA架構(gòu)。而騰訊、百度、阿里等互聯(lián)網(wǎng)大廠也通過投資、孵化等方式在AI芯片領(lǐng)域大力布局。
其中,大模型訓(xùn)練需要處理高顆粒度的信息,對云端訓(xùn)練芯片的芯片處理信息的精細(xì)度和算力速度要求更高,現(xiàn)階段國產(chǎn)GPU大多還不具備支撐大模型訓(xùn)練所需的能力,更適合做對信息顆粒度要求沒有那么高的云端推理工作。
國內(nèi)部分相關(guān)企業(yè)AI產(chǎn)品與應(yīng)用? 芯潮IC據(jù)公開資料整理
今年3月,百度李彥宏曾公開表示,昆侖芯片現(xiàn)在很適合做大模型的推理,將來會適合做訓(xùn)練。
天數(shù)智芯副總裁鄒翾也向芯潮IC表示,國產(chǎn)芯片距離英偉達(dá)最新產(chǎn)品仍存在一定差距,不過在推理運(yùn)算方面國產(chǎn)芯片可以做到不輸主流產(chǎn)品的性能實力,而隨著人工智能的應(yīng)用普及,推理芯片的市場需求將加速增長,隨著需求的擴(kuò)大,國產(chǎn)芯片也將擁有更大的市場。
另有不愿意透露姓名的業(yè)內(nèi)人士表示“國內(nèi)通用GPU產(chǎn)品的確在滿足大模型訓(xùn)練上與國際旗艦產(chǎn)品存在差距,但并非不可彌補(bǔ),只是此前行業(yè)在產(chǎn)品定義里未朝著大模型方向做設(shè)計?!?/p>
目前,行業(yè)從業(yè)者在做相關(guān)的探索和努力,如思考能否通過Chiplet、先進(jìn)封裝的方式來提高芯片算力。目前國產(chǎn)GPU公司都在朝著大模型領(lǐng)域去做芯片開發(fā)和布局。
而從資本角度來看,華映資本管理合伙人章高男向芯潮IC表示,華映很早就高度關(guān)注算力基礎(chǔ)設(shè)施,無論是GPU、DPU還是更前沿的光電混合計算,量子計算,都有針對性研究和布局。整體上則側(cè)重于通用算力基礎(chǔ)設(shè)施,譬如FPGA、邊緣計算等。相比之下,目前很多圍繞深度學(xué)習(xí)、特殊算法、局部算力優(yōu)化等的算力芯片并不是其考慮的重點。
實際上,除了硬件性能差距外,軟件生態(tài)也是國產(chǎn)AI芯片廠商的短板。
芯片需要適配硬件系統(tǒng)、工具鏈、編譯器等多個層級,需要很強(qiáng)的適配性,否則會出現(xiàn)這款芯片在某個場景能跑出90%的算力,在另一場景只能跑出80%效能的情景。
上文提到,英偉達(dá)在這方面優(yōu)勢明顯。早在2006年,英偉達(dá)就推出了計算平臺CUDA,這是一個并行計算軟件引擎,CUDA框架里集成了很多調(diào)用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。開發(fā)者可使用CUDA更高效地進(jìn)行AI訓(xùn)練和推理,更好的發(fā)揮GPU算力。時至今日,CUDA已成為AI基礎(chǔ)設(shè)施,主流的AI框架、庫、工具都以CUDA為基礎(chǔ)進(jìn)行開發(fā)。
如果沒有這套編碼語言,軟件工程師發(fā)揮硬件價值的難度會變得極大。
英偉達(dá)之外的GPU和AI芯片如要接入CUDA,需要自己提供適配軟件。據(jù)業(yè)內(nèi)人士透露,曾接觸過一家非英偉達(dá)GPU廠商,盡管其芯片和服務(wù)報價比英偉達(dá)更低,也承諾提供更及時的服務(wù),但使用其GPU的整體訓(xùn)練和開發(fā)成本會高于英偉達(dá),還得承擔(dān)結(jié)果和開發(fā)時間的不確定性。
雖然英偉達(dá)GPU價格貴,但實際用起來反而是最便宜的。這對有意抓住大模型機(jī)會的企業(yè)來說,錢往往不是問題,時間才是更寶貴的資源,大家都必須盡快獲得足夠多的先進(jìn)算力來確保先發(fā)優(yōu)勢。
因此,對于國產(chǎn)芯片供應(yīng)商來講,哪怕能通過堆芯片的方式能堆出一個算力相當(dāng)?shù)漠a(chǎn)品,但軟件適配與兼容讓客戶接受更難。此外,從服務(wù)器運(yùn)營的角度,它的主板開銷、電費、運(yùn)營費,以及需要考慮的功耗、散熱等問題,都會大大增加數(shù)據(jù)中心的運(yùn)營成本。
因為算力資源常需要以池化的形式呈現(xiàn),數(shù)據(jù)中心通常更愿意采用同一種芯片,或者同一家公司的芯片來降低算力池化難度。
算力的釋放需要復(fù)雜的軟硬件配合,才能將芯片的理論算力變?yōu)橛行懔Α蛻舳?,把國產(chǎn)AI芯片用起來并不容易,更換云端AI芯片要承擔(dān)一定的遷移成本和風(fēng)險,除非新產(chǎn)品存在性能優(yōu)勢,或者能在某個維度上提供其他人解決不了的問題,否則客戶更換的意愿很低。
作為當(dāng)前唯一可以實際處理ChatGPT的GPU供應(yīng)商,英偉達(dá)是當(dāng)之無愧的“AI算力王者”。6年前,黃仁勛親自向OpenAI交付了第一臺搭載A100芯片的超級計算機(jī),幫助后者創(chuàng)造ChatGPT,并成為AI時代的引領(lǐng)者。
不過,去年美國實施出口管制以來,英偉達(dá)已經(jīng)被禁止向中國出口兩款最先進(jìn)的GPU芯片H100和A100。這對于下游應(yīng)用企業(yè)來說,無疑是受到打擊的。
從安全性以及自主可控的角度來說,這也為國內(nèi)芯片企業(yè)提供了新的機(jī)遇窗口。盡管國產(chǎn)芯片在性能和軟件生態(tài)上比不過英偉達(dá)、AMD等行業(yè)巨頭,但在復(fù)雜的國際貿(mào)易關(guān)系及地緣政治因素等驅(qū)動下,“國產(chǎn)替代”成為國內(nèi)半導(dǎo)體行業(yè)發(fā)展的主旋律。
05、結(jié)語
算力的每一次提升,都會掀起技術(shù)與產(chǎn)業(yè)變革的浪潮:CPU帶領(lǐng)人類進(jìn)入PC時代,移動芯片掀起移動互聯(lián)網(wǎng)浪潮,而AI芯片打破了AI產(chǎn)業(yè)此前長達(dá)數(shù)十年的算力瓶頸。
如今,“人工智能的iPhone時刻”已經(jīng)來臨,走向下一個時代的路,或許已經(jīng)擺在我們眼前。
盡管這些數(shù)據(jù)中心的AI芯片、軟件系統(tǒng)等領(lǐng)域仍是國外廠商的天下,但如今,“算力國產(chǎn)化”的市場大門或許正在打開。