新的光電共封裝技術(shù)或取代數(shù)據(jù)中心中的電互連裝置,大幅提高AI 和其他計(jì)算應(yīng)用的速度與能效
北京2024年12月12日?/美通社/ -- 近日,IBM(紐約證券交易所代碼:IBM)發(fā)布了其在光學(xué)技術(shù)方面的突破性研究成果,有望顯著提高數(shù)據(jù)中心訓(xùn)練和運(yùn)行生成式 AI 模型的效率。IBM研究人員開發(fā)的新一代光電共封裝?(co-packaged optics,CPO) 工藝,通過光學(xué)技術(shù)實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)部的光速連接,為現(xiàn)有的短距離光纜提供了有力補(bǔ)充。通過設(shè)計(jì)和組裝首個(gè)宣布成功的聚合物光波導(dǎo) (PWG),IBM 研究人員展示了光電共封裝技術(shù)將如何重新定義計(jì)算行業(yè)在芯片、電路板和服務(wù)器之間的高帶寬數(shù)據(jù)傳輸。
今天,光纖技術(shù)已經(jīng)被廣泛用于遠(yuǎn)距離的高速數(shù)據(jù)傳輸,實(shí)現(xiàn)了"以光代電"來管理全球幾乎所有的商業(yè)和通信傳輸。雖然數(shù)據(jù)中心的外部通信網(wǎng)絡(luò)已經(jīng)采用光纖,但其內(nèi)部的機(jī)架仍然主要使用銅質(zhì)電線進(jìn)行通信。通過電線連接的 GPU 加速器可能有一半以上的時(shí)間處于閑置狀態(tài),在大型分布式訓(xùn)練過程中需要等待來自其他設(shè)備的數(shù)據(jù),導(dǎo)致高昂的成本和能源浪費(fèi)。
IBM 研究人員發(fā)現(xiàn)了一種將光學(xué)的速度和容量引入數(shù)據(jù)中心的新方法。在其最新發(fā)表的一篇論文中,IBM 展示了其全球首發(fā)、可實(shí)現(xiàn)高速光學(xué)連接的光電共封裝原型。這項(xiàng)技術(shù)可大幅提高數(shù)據(jù)中心的通信帶寬,最大限度地減少 GPU 停機(jī)時(shí)間,同時(shí)大幅加快 AI 工作速度。該創(chuàng)新將實(shí)現(xiàn)以下新突破:
- 降低規(guī)模化應(yīng)用生成式?AI 的成本:與中距電氣互連裝置相比,能耗降低 5 倍以上,[1]同時(shí)將數(shù)據(jù)中心互連電纜的長(zhǎng)度從 1 米延長(zhǎng)至數(shù)百米。
- 提高?AI 模型訓(xùn)練速度:與傳統(tǒng)的電線相比,使用光電共封裝技術(shù)訓(xùn)練大型語(yǔ)言模型的速度快近五倍,從而將標(biāo)準(zhǔn)大語(yǔ)言模型的訓(xùn)練時(shí)間從三個(gè)月縮短到三周;用于更大的模型和更多的 GPU,性能將獲得更大提升。[2]
- 大幅提高數(shù)據(jù)中心能效:在最新光電共封裝技術(shù)的加持下,每訓(xùn)練一個(gè) AI 模型所節(jié)省的電量,相當(dāng)于 5000 個(gè)美國(guó)家庭的年耗電量總和。[3]
IBM 高級(jí)副總裁、IBM研究院院長(zhǎng)?Dario Gil?表示:"生成式AI需要越來越多的能源和處理能力,數(shù)據(jù)中心必須隨之升級(jí)換代,而光電共封裝技術(shù)可以幫助數(shù)據(jù)中心從容面向未來。隨著光電共封裝技術(shù)取得突破,光纖電纜將大幅提升數(shù)據(jù)中心的數(shù)據(jù)傳輸效率,芯片之間的通信、AI工作負(fù)載的處理也會(huì)更高效,我們將進(jìn)入一個(gè)更高速、更可持續(xù)的新通信時(shí)代。"
比現(xiàn)有芯片間通信帶寬快 80 倍
得益于近年芯片技術(shù)的進(jìn)步,芯片上可以容納更多、更密集的晶體管;比如,IBM 的 2 納米芯片技術(shù)可在單一芯片上植入 500 多億個(gè)晶體管。光電共封裝技術(shù)旨在擴(kuò)大加速器之間的互連密度,幫助芯片制造商在電子模組上添加連接芯片的光通路,從而超越現(xiàn)有電子通路的限制。IBM 的論文所述的新型高帶寬密度光學(xué)結(jié)構(gòu)和其他創(chuàng)新成果,比如,通過每個(gè)光通道傳輸多個(gè)波長(zhǎng),有望將芯片間的通信帶寬提高至電線連接的?80 倍。
與目前最先進(jìn)的光電共封裝技術(shù)相比,IBM 的創(chuàng)新成果可以使芯片制造商在硅光子芯片邊緣增加六倍數(shù)量的光纖,即所謂的"鬢發(fā)密度 (beachfront density)"。每根光纖的寬度約為頭發(fā)絲的三倍,長(zhǎng)度從幾厘米到幾百米不等,可傳輸每秒萬億比特級(jí)別的數(shù)據(jù)。IBM 團(tuán)隊(duì)采用標(biāo)準(zhǔn)封裝工藝,在 50 微米間距的光通道上封裝高密度的聚合物光波導(dǎo) (PWG),并與硅光子波導(dǎo)絕熱耦合。
論文還指出,上述光電共封裝模塊采用50微米間距的聚合物光波導(dǎo),首次通過了制造所需的所有壓力測(cè)試。這些模組需要經(jīng)受高濕度環(huán)境、-40°C 至 125°C 的溫度以及機(jī)械耐久性測(cè)試,以確保光互連裝置即使彎曲,也不會(huì)斷裂或丟失數(shù)據(jù)。此外,研究人員還展示了 18 微米間距的聚合物光波導(dǎo)技術(shù):將四個(gè)聚合物光波導(dǎo)設(shè)備堆疊在一起,可以實(shí)現(xiàn)多達(dá)?128 個(gè)通道的連接。
IBM 持續(xù)引領(lǐng)半導(dǎo)體技術(shù)研發(fā)
面對(duì)日益增長(zhǎng)的 AI 性能需求,光電共封裝技術(shù)開創(chuàng)了一條新的通信途徑,并可能取代從電子到光學(xué)的模塊外通信。這一技術(shù)突破延續(xù)了IBM 在半導(dǎo)體創(chuàng)新方面的領(lǐng)導(dǎo)地位,包括全球首個(gè) 2 納米芯片技術(shù)、首個(gè) 7 納米和 5 納米工藝技術(shù)、納米片晶體管、垂直晶體管 (VTFET)、單芯片 DRAM 和化學(xué)放大光刻膠等。
該項(xiàng)目的設(shè)計(jì)、建模和模擬工作在美國(guó)紐約州奧爾巴尼完成,其原型組裝和模塊測(cè)試則由位于加拿大魁北克省布羅蒙的IBM實(shí)驗(yàn)室承接,后者是北美地區(qū)最大的芯片組裝和測(cè)試基地之一。
[1] 從每比特 5 微焦降至不到 1 微焦。 [2]?數(shù)據(jù)基于使用行業(yè)標(biāo)準(zhǔn) GPU 和互連裝置對(duì) 700 億參數(shù)大語(yǔ)言模型的訓(xùn)練。 [3]?數(shù)據(jù)基于使用行業(yè)標(biāo)準(zhǔn) GPU 和互連裝置對(duì)超大型大語(yǔ)言模型(如 GPT-4)的訓(xùn)練。 |