替換英偉達(dá),甚至說(shuō)干掉英偉達(dá)已經(jīng)不是什么新鮮事了。
憑借其GPU的領(lǐng)先優(yōu)勢(shì),英偉達(dá)過(guò)去幾年炙手可熱,乘著ChatGPT熱潮,公司的市值從今年年初至今更是大漲了93.6%,過(guò)去五年的漲幅更是達(dá)到驚人的385%。雖然GPU是英偉達(dá)的最重要倚仗,但這絕不是美國(guó)芯片“當(dāng)紅炸子雞”的唯一武器。
通過(guò)過(guò)去幾年的收購(gòu)和自研,英偉達(dá)已經(jīng)打造起了一個(gè)涵蓋DPU、CPU和Switch,甚至硅光在內(nèi)的多產(chǎn)品線巨頭,其目的就是想在一個(gè)服務(wù)器甚至一個(gè)機(jī)架中做很多的生意。但和很多做GPGPU或者AI芯片的競(jìng)爭(zhēng)對(duì)手想取替GPU一樣,英偉達(dá)的“取替”計(jì)劃似乎也不是不能一帆風(fēng)順。
近日,三巨頭更是再次出手,想把英偉達(dá)拒之門(mén)外。
博通芯片,瞄準(zhǔn)Infiniband
熟悉博通的讀者應(yīng)該知道,面向Switch市場(chǎng),美國(guó)芯片巨頭擁有三條高端產(chǎn)品線,分別是面向高帶寬需求的Tomahawk、面向更多功能的 Trident,以及雖然帶寬不高,但是卻擁有更深的Buffer和更高可編程性的Jericho。
昨日,他們帶來(lái)了Jericho系列最新的產(chǎn)品Jericho3-AI。在他們看來(lái),這是比英偉達(dá)Infiniband更適合AI的一個(gè)新選擇。
據(jù)博通所說(shuō),大公司(甚至 NVIDIA) 都認(rèn)為 AI 工作負(fù)載會(huì)受到網(wǎng)絡(luò)延遲和帶寬的限制,而Jericho3-AI 的存在則旨在減少 AI 訓(xùn)練期間花在網(wǎng)絡(luò)上的時(shí)間。其結(jié)構(gòu)的主要特性是負(fù)載平衡以保持鏈路不擁塞、結(jié)構(gòu)調(diào)度、零影響故障轉(zhuǎn)移以及具有高以太網(wǎng)基數(shù)(radix)。
博通強(qiáng)調(diào),AI 工作負(fù)載具有獨(dú)特的特征,例如少量的大型、長(zhǎng)期流,所有這些都在 AI 計(jì)算周期完成后同時(shí)開(kāi)始。Jericho3-AI 結(jié)構(gòu)為這些工作負(fù)載提供最高性能,具有專為 AI 工作負(fù)載設(shè)計(jì)的獨(dú)特功能:
完美的負(fù)載均衡將流量均勻分布在結(jié)構(gòu)的所有鏈路上,確保在最高網(wǎng)絡(luò)負(fù)載下實(shí)現(xiàn)最大網(wǎng)絡(luò)利用率。
端到端流量調(diào)度的無(wú)擁塞操作可確保無(wú)流量沖突和抖動(dòng)。
超高基數(shù)獨(dú)特地允許 Jericho3-AI 結(jié)構(gòu)將連接擴(kuò)展到單個(gè)集群中的 32,000 個(gè) GPU,每個(gè) 800Gbps。
零影響故障轉(zhuǎn)移功能可確保在 10 納秒內(nèi)自動(dòng)收斂路徑,從而不會(huì)影響作業(yè)完成時(shí)間。
利用這一獨(dú)特的功能,與 All-to-All 等關(guān)鍵 AI 基準(zhǔn)測(cè)試的替代網(wǎng)絡(luò)解決方案相比,Jericho3-AI 結(jié)構(gòu)的工作完成時(shí)間至少縮短了 10%。這種性能改進(jìn)對(duì)降低運(yùn)行 AI 工作負(fù)載的成本具有乘法效應(yīng),因?yàn)樗馕吨嘿F的 AI 加速器的使用效率提高了10%。此外,Jericho3-AI 結(jié)構(gòu)提供每秒 26 PB 的以太網(wǎng)帶寬,幾乎是上一代帶寬的四倍,同時(shí)每千兆比特的功耗降低 40%。
此外,Broadcom 表示,因?yàn)樗梢蕴幚?800Gbps 的端口速度(對(duì)于 PCIe Gen6 服務(wù)器)等等,所以它是一個(gè)更好的選擇。對(duì)于將“AI”放在產(chǎn)品名稱中,Broadcom 并沒(méi)有做出過(guò)多解讀,甚至關(guān)于網(wǎng)絡(luò) AI計(jì)算功能,他們也沒(méi)涉及,這著實(shí)讓人摸不著頭腦,因?yàn)檫@是英偉達(dá)Infiniband 架構(gòu)的主要賣點(diǎn)。
盡管如此,Broadcom 表示其 Jericho3-AI 以太網(wǎng)在 NCCL 性能方面比 NVIDIA 的 Infiniband 好大約 10%。
“Jericho3-AI 結(jié)構(gòu)的一個(gè)獨(dú)特之處在于它提供了最高的性能,同時(shí)還實(shí)現(xiàn)了最低的總擁有成本。這是通過(guò)長(zhǎng)距離 SerDes、分布式緩沖和高級(jí)遙測(cè)等屬性實(shí)現(xiàn)的,所有這些都使用行業(yè)標(biāo)準(zhǔn)以太網(wǎng)提供。這些因素為最大的硬件和軟件提供商生態(tài)系統(tǒng)提供了網(wǎng)絡(luò)架構(gòu)和部署選項(xiàng)的高度靈活性?!辈┩◤?qiáng)調(diào)。
微軟,自研芯片再曝進(jìn)展
因?yàn)镃hatGPT大火的企業(yè)除了英偉達(dá)外,作為ChatGPT投資人的微軟也備受關(guān)注。在半導(dǎo)體行業(yè)觀察日前發(fā)布的文章《英偉達(dá)H100市面價(jià)格飆升!Elon Musk:每個(gè)人都在買(mǎi)GPU》中我們也披露,為了發(fā)展ChatGPT,微軟已經(jīng)搶購(gòu)了不少GPU。隨著算力需求的增加,微軟在后續(xù)必須要更多的芯片支持。
如果一如既往地購(gòu)買(mǎi)英偉達(dá)GPU,這對(duì)英偉達(dá)來(lái)說(shuō)會(huì)是一筆昂貴的支出,他們也會(huì)為此不爽。于是,就恰如其分地,微軟的自研芯片有了更多信息曝光。
據(jù)路透社引述The Information 的報(bào)道,微軟公司正在開(kāi)發(fā)自己的代號(hào)為“Athena”的人工智能芯片,該芯片將為 ChatGPT 等人工智能聊天機(jī)器人背后的技術(shù)提供支持。
根據(jù)該報(bào)告,這些芯片將用于訓(xùn)練大型語(yǔ)言模型和支持推理——這兩者都是生成 AI 所需要的,例如 ChatGPT 中使用的 AI 來(lái)處理大量數(shù)據(jù)、識(shí)別模式并創(chuàng)建新的輸出來(lái)模仿人類對(duì)話。報(bào)告稱,微軟希望該芯片的性能優(yōu)于目前從其他供應(yīng)商處購(gòu)買(mǎi)的芯片,從而為其昂貴的 AI 工作節(jié)省時(shí)間和金錢(qián)。
雖然目前尚不清楚微軟是否會(huì)向其 Azure 云客戶提供這些芯片,但據(jù)報(bào)道,這家軟件制造商計(jì)劃最早于明年在微軟和 OpenAI 內(nèi)部更廣泛地提供其 AI 芯片。據(jù)報(bào)道,該芯片的初始版本計(jì)劃使用臺(tái)積電 (TSMC) 的 5 納米工藝,不過(guò)作為該項(xiàng)目的一部分,可能會(huì)有多代芯片,因?yàn)槲④浺呀?jīng)制定了包括多個(gè)后代芯片的路線圖。
據(jù)報(bào)道,微軟認(rèn)為自己的 AI 芯片并不能直接替代 Nvidia 的芯片,但隨著微軟繼續(xù)推動(dòng)在Bing、Office 應(yīng)用程序、GitHub和其他地方推出 AI 驅(qū)動(dòng)的功能,內(nèi)部的努力可能會(huì)大幅削減成本。研究公司 SemiAnalysis 的 Dylan Patel 也告訴The Information,“如果 Athena 具有競(jìng)爭(zhēng)力,與 Nvidia 的產(chǎn)品相比,它可以將每芯片的成本降低三分之一?!?/p>
關(guān)于微軟造芯,最早可以追溯到2020年。據(jù)彭博社在當(dāng)時(shí)的報(bào)道,微軟公司正在研究用于運(yùn)行公司云服務(wù)的服務(wù)器計(jì)算機(jī)的內(nèi)部處理器設(shè)計(jì),以促進(jìn)全行業(yè)減少對(duì)英特爾公司芯片技術(shù)依賴的努力。知情人士透露,這家全球最大的軟件制造商正在使用Arm的設(shè)計(jì)來(lái)生產(chǎn)將用于其數(shù)據(jù)中心的處理器。它還在探索使用另一種芯片來(lái)為其部分 Surface 系列個(gè)人電腦提供動(dòng)力。
近年來(lái),微軟加大了處理器工程師的招聘力度,在英特爾、超微、英偉達(dá)等芯片制造商的后院招聘。2022年,他們甚至還從蘋(píng)果公司挖走了一位經(jīng)驗(yàn)豐富的芯片設(shè)計(jì)師,以擴(kuò)大自身的服務(wù)器芯片業(yè)務(wù)。據(jù)報(bào)道,這位名為Mike Filippo 的資深專家將在由 Rani Borkar 運(yùn)營(yíng)的微軟 Azure 集團(tuán)內(nèi)從事處理器方面的工作。微軟發(fā)言人證實(shí)了 Filippo 的聘用,他也曾在 Arm和英特爾公司工作過(guò)。
今年年初,微軟更是宣布收購(gòu)了一家名為Fungible的DPU芯片公司。
微軟 Azure 核心部門(mén)的 CVP Girish Bablani 在一篇博文中寫(xiě)道:“Fungible 的技術(shù)有助于實(shí)現(xiàn)具有可靠性和安全性的高性能、可擴(kuò)展、分解、橫向擴(kuò)展的數(shù)據(jù)中心基礎(chǔ)設(shè)施”。他進(jìn)一步指出:“今天的公告進(jìn)一步表明微軟致力于數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行長(zhǎng)期差異化投資,這增強(qiáng)了公司的技術(shù)和產(chǎn)品范圍,包括卸載、改善延遲、增加數(shù)據(jù)中心服務(wù)器密度、優(yōu)化能源效率和降低成本?!盕ungible 在其網(wǎng)站上的一份聲明中寫(xiě)道。“我們很自豪能成為一家擁有 Fungible 愿景的公司的一員,并將利用 Fungible DPU 和軟件來(lái)增強(qiáng)其存儲(chǔ)和網(wǎng)絡(luò)產(chǎn)品?!?/p>
由此我們可以看到微軟在芯片上做更多的發(fā)布也不足為奇。
谷歌TPU,已經(jīng)第四代
在取代英偉達(dá)的這條路上,谷歌無(wú)疑是其中最堅(jiān)定,且走得最遠(yuǎn)的一個(gè)。
按照谷歌所說(shuō),公司谷歌早在 2006 年就考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建專用集成電路 (ASIC),但到 2013 年情況變得緊迫。那時(shí)他們意識(shí)到神經(jīng)網(wǎng)絡(luò)快速增長(zhǎng)的計(jì)算需求可能需要我們將數(shù)量 增加一倍我們運(yùn)營(yíng)的數(shù)據(jù)中心。從2015年開(kāi)始,谷歌就將其TPU部署到了服務(wù)器中,并在后續(xù)的測(cè)試中獲得了不邵的反饋,以迭代其產(chǎn)品。
近日,谷歌對(duì)其TPUv4及其基于這個(gè)芯片的打造的超級(jí)計(jì)算系統(tǒng)進(jìn)行了深度披露。
據(jù)他們?cè)谝黄┛椭薪榻B,得益于互連技術(shù)和領(lǐng)域特定加速器 (DSA) 方面的關(guān)鍵創(chuàng)新,谷歌云 TPU v4 在擴(kuò)展 ML 系統(tǒng)性能方面比 TPU v3 有了近 10 倍的飛躍;與當(dāng)代 ML DSA 相比,提高能源效率約 2-3 倍。在與Nvidia A100 相比時(shí),谷歌表示,TPU v4比前者快 1.2-1.7 倍,功耗低 1.3-1.9 倍。在與Graphcore的IPU BOW相比,谷歌表示,其芯片也擁有領(lǐng)先的優(yōu)勢(shì)。
基于這個(gè)芯片,谷歌打造了一個(gè)擁有 4,096 個(gè)張量處理單元 (TPU)的TPU v4 超級(jí)計(jì)算機(jī)。谷歌表示,這些芯片由內(nèi)部開(kāi)發(fā)的行業(yè)領(lǐng)先的光電路開(kāi)關(guān) (OCS) 互連,OCS 互連硬件允許谷歌的 4K TPU 節(jié)點(diǎn)超級(jí)計(jì)算機(jī)與 1,000 個(gè) CPU 主機(jī)一起運(yùn)行,這些主機(jī)偶爾(0.1-1.0% 的時(shí)間)不可用而不會(huì)引起問(wèn)題。
據(jù)谷歌介紹,OCS 動(dòng)態(tài)重新配置其互連拓?fù)洌蕴岣咭?guī)模、可用性、利用率、模塊化、部署、安全性、功率和性能。與 Infiniband 相比,OCS 和底層光學(xué)組件更便宜、功耗更低且速度更快,不到 TPU v4 系統(tǒng)成本的 5% 和系統(tǒng)功耗的 5% 以下。下圖顯示了 OCS 如何使用兩個(gè) MEM 陣列工作。不需要光到電到光的轉(zhuǎn)換或耗電的網(wǎng)絡(luò)分組交換機(jī),從而節(jié)省了電力。
值得一提的是,TPU v4 超級(jí)計(jì)算機(jī)包括 SparseCores,這是一種更接近高帶寬內(nèi)存的中間芯片,許多 AI 運(yùn)算都發(fā)生在該芯片上。SparseCores 的概念支持 AMD、英特爾和高通等公司正在研究的新興計(jì)算架構(gòu),該架構(gòu)依賴于計(jì)算更接近數(shù)據(jù),以及數(shù)據(jù)進(jìn)出內(nèi)存之間的協(xié)調(diào)。
此外,谷歌還在算法-芯片協(xié)同方面做了更大的投入。如半導(dǎo)體行業(yè)觀察之前的文章《從谷歌TPU 看AI芯片的未來(lái)》中所說(shuō);“隨著摩爾定律未來(lái)越來(lái)越接近物理極限,預(yù)計(jì)未來(lái)人工智能芯片性能進(jìn)一步提升會(huì)越來(lái)越倚賴算法-芯片協(xié)同設(shè)計(jì),而另一方面,由于有算法-芯片協(xié)同設(shè)計(jì),我們預(yù)計(jì)未來(lái)人工智能芯片的性能仍然將保持類似摩爾定律的接近指數(shù)級(jí)提升,因此人工智能芯片仍然將會(huì)是半導(dǎo)體行業(yè)未來(lái)幾年最為熱門(mén)的方向之一,也將會(huì)成為半導(dǎo)體行業(yè)未來(lái)繼續(xù)發(fā)展的重要引擎?!?/p>
寫(xiě)在最后
綜合上述報(bào)道我們可以直言,對(duì)于英偉達(dá)而言,其面臨的挑戰(zhàn)是方方面面的,而不是僅僅局限于其GPU。其對(duì)手也不僅僅是芯片公司,因此如何在規(guī)?;瘍?yōu)勢(shì)的情況下,保證其高性價(jià)比,是安然度過(guò)未來(lái)潛在挑戰(zhàn)的有效方法之一。
不過(guò),可以肯定的是,圍繞著數(shù)據(jù)中心的創(chuàng)新遠(yuǎn)未接近停止,甚至可以說(shuō)因?yàn)?a class="article-link" target="_blank" href="/tag/%E5%A4%A7%E6%A8%A1%E5%9E%8B/">大模型的流行,這場(chǎng)戰(zhàn)斗才剛剛開(kāi)始。