作者:九林
最近,清華大學(xué)傳出了好消息。首創(chuàng)AI光芯片架構(gòu),研制全新AI“光芯片”——太極(Taichi),可以實(shí)現(xiàn)160 TOPS/W通用智能計(jì)算,能效是H100的1000倍。
訓(xùn)練下一代萬億級參數(shù)大模型的高效芯片誕生了。目前,相關(guān)研究論文以“Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence”為題,已發(fā)表在權(quán)威科學(xué)期刊 Science 上。
論文地址:https://www.science.org/doi/10.1126/science.adl1203
?01、成果是什么?
當(dāng)前,越來越多跡象表明,LLM不會是通往AGI的最終路徑。計(jì)算機(jī)早已經(jīng)成為世界能耗巨頭,隨著越來越多耗電量大的人工智能投入使用,計(jì)算機(jī)的能源需求也飛速上漲。以英偉達(dá)H100為例,其峰值功耗為700 瓦,按照 61% 的年利用率計(jì)算,相當(dāng)于一個(gè)美國家庭的平均功耗(假設(shè)每個(gè)家庭 2.51 人)。
有專家預(yù)測,在大量部署H100后,總功耗將于一座美國大城市不相上下,甚至超過一些歐洲小國。若是能夠發(fā)明一種,節(jié)省大量能耗的芯片,LLM的性能或在未來實(shí)現(xiàn)更大的提升。而太極,可能會讓通用人工智能(AGI)成為現(xiàn)實(shí)。根據(jù)清華大學(xué)官網(wǎng)介紹,清華團(tuán)隊(duì)設(shè)計(jì)了基于集成衍射干涉異構(gòu)設(shè)計(jì)和通用分布式計(jì)算架構(gòu)的大規(guī)模光芯片——太極,該架構(gòu)具有上千萬個(gè)神經(jīng)元的能力,實(shí)現(xiàn)160萬億次/秒·瓦(TOPS/W)的通用智能計(jì)算。
此外,在太極光芯片在實(shí)驗(yàn)中實(shí)現(xiàn)了芯片上1000個(gè)類別級別的分類(在1623類別的Omniglot數(shù)據(jù)集上準(zhǔn)確率為91.89%)和高保真的人工智能生成的內(nèi)容,效率提高了兩個(gè)數(shù)量級。研究人員表示,“太極”為大規(guī)模的光子計(jì)算和高級任務(wù)鋪平了道路,進(jìn)一步發(fā)掘了光子學(xué)在現(xiàn)代AGI中的靈活性和潛力。
Science對這個(gè)研究有高度評論:“來自清華的團(tuán)隊(duì)探索了分布式衍射干涉混合光計(jì)算架構(gòu),有效地將光神經(jīng)網(wǎng)絡(luò)(ONN)的規(guī)模提高到百萬神經(jīng)元級別。通過實(shí)驗(yàn)實(shí)現(xiàn)了一個(gè)芯片上1396萬個(gè)神經(jīng)元的ONN,用于復(fù)雜的、千類級的分類和人工智能生成的內(nèi)容任務(wù)。這項(xiàng)工作是向現(xiàn)實(shí)世界的光計(jì)算邁出的有希望的一步,支持人工智能中的各種應(yīng)用?!?/strong>
?02、什么東西,有什么用?
電子芯片的瓶頸
當(dāng)電子通過晶體管和其他傳統(tǒng)集成電路元件時(shí),會遇到阻力并產(chǎn)生熱量。隨著設(shè)計(jì)者不斷將各種元件添加到芯片上,芯片產(chǎn)生的熱量自然會升高。電子這一特性甚至成為了微型芯片性能提升的障礙,同時(shí)也是計(jì)算機(jī)能耗如此之高的主要原因。以電子為載體的技術(shù)發(fā)展已趨近物理極限,芯片尺寸降到極致時(shí)出現(xiàn)的“功耗墻”難題,訪存瓶頸下大量信息存儲不過來、計(jì)算不過來,以及電子芯片性能提升的同時(shí)性價(jià)比降低。在電路上,用光子替代電子的設(shè)想由來已久。20 世紀(jì)六七十年代,研究者就已經(jīng)開始開發(fā)光子芯片了。那時(shí)候,部分專家預(yù)計(jì)光子芯片會像傳統(tǒng)集成芯片一樣迅速微型化。電路能耗降低,還是歸功于光的性質(zhì)。光子芯片不存在電阻問題。因?yàn)橛设D射產(chǎn)生的光子能快速通過波導(dǎo)、調(diào)制器、反射器等原件陣列。因此,光子芯片產(chǎn)生熱量更少,能耗也更低。
光為載體的計(jì)算芯片
光計(jì)算,顧名思義是將計(jì)算載體從電變?yōu)楣?,利用光在芯片中的傳播進(jìn)行計(jì)算。人工智能時(shí)代是由算力支撐起來的,從能耗的角度來看,硅光技術(shù)能夠有效提升GPU的整體性能、大幅降低其功耗,有效解決目前的算力瓶頸。也就是說,下一代算力很可能會是光子計(jì)算甚至量子計(jì)算。
問題在于,當(dāng)前的集成光子計(jì)算,特別是光學(xué)神經(jīng)網(wǎng)絡(luò)(ONN),通常包含數(shù)百到數(shù)千個(gè)參數(shù),其中數(shù)十個(gè)是可調(diào)參數(shù),僅支持基本任務(wù),如簡單的模式識別和元音識別。能夠進(jìn)行一些簡單任務(wù)和淺層模型,無法支撐亟需高算力與高能效的復(fù)雜大模型智能計(jì)算。
光計(jì)算對于集成度的要求會更高,但其技術(shù)難點(diǎn)其實(shí)并不只在集成,在計(jì)算單元循環(huán)使用和非線性處理方面挑戰(zhàn)更大。據(jù)了解,一個(gè)巨大的AI模型中,每一層網(wǎng)絡(luò)都需要進(jìn)行矩陣運(yùn)算,一個(gè)大矩陣還可能需要拆成幾個(gè)小矩陣進(jìn)行計(jì)算。也就是說,在大模型中,矩陣乘加運(yùn)算是一個(gè)反復(fù)、循環(huán)的計(jì)算過程,每次循環(huán),矩陣上的元素權(quán)重都會被更新。
與電子相比,光的矩陣乘加運(yùn)算非常快,但一涉及到權(quán)重的更新,光的速度就會變慢。要實(shí)現(xiàn)大規(guī)模、高能效的光子計(jì)算,簡單地?cái)U(kuò)大現(xiàn)有的光子神經(jīng)網(wǎng)絡(luò)芯片是不現(xiàn)實(shí)的,因?yàn)殡S著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,不可避免的模擬噪聲會呈指數(shù)級擴(kuò)大。放大現(xiàn)有架構(gòu)的規(guī)模并不能成比例地提高性能。
新架構(gòu):分布式衍射-干涉混合光子計(jì)算架構(gòu)
清華團(tuán)隊(duì)進(jìn)行了架構(gòu)方面的研究,“從0到1”重新設(shè)計(jì)適合光計(jì)算的新架構(gòu)。根據(jù)論文介紹,清華團(tuán)隊(duì)為采用分布式計(jì)算的太極,構(gòu)建了一個(gè)深度較淺但寬度較廣的網(wǎng)絡(luò)結(jié)構(gòu)。與為深度計(jì)算堆疊一系列層的傳統(tǒng)方法不同,Taichi 將計(jì)算資源分布到多個(gè)獨(dú)立的集群中,為子任務(wù)分別組織集群,并最終合成這些子任務(wù),從而完成復(fù)雜的高級任務(wù)。具體地說,光學(xué)衍射層的完全連通特性,可以提供比傳統(tǒng)DNN中的卷積層更大的變形能力。這意味著光學(xué)網(wǎng)絡(luò)有可能用比電子系統(tǒng)更少的層數(shù)實(shí)現(xiàn)相同的變換。
圖中(B)中展示了「太極」芯片,包括用于大規(guī)模輸入和輸出數(shù)據(jù)的雙衍射單元,以及用于可重構(gòu)特征嵌入和硬件多路復(fù)用的MZI陣列的可調(diào)矩陣乘法。論文第一作者、電子系博士生徐智昊介紹:“在“太極”架構(gòu)中,自頂向下的編碼拆分-解碼重構(gòu)機(jī)制,將復(fù)雜智能任務(wù)化繁為簡,拆分為多通道高并行的子任務(wù),構(gòu)建的分布式‘大感受野’淺層光網(wǎng)絡(luò)對子任務(wù)分而治之,突破物理模擬器件多層深度級聯(lián)的固有計(jì)算誤差。”
AI光芯片:干涉-衍射融合計(jì)算芯片
在這項(xiàng)工作中,團(tuán)隊(duì)設(shè)計(jì)了一種具有靈活分布式計(jì)算架構(gòu)的大規(guī)模衍射-干涉混合型光子AI芯片——「太極」。據(jù)論文報(bào)道:“太極”光芯片具備879 T MACS/mm2的面積效率與160 TOPS/W的能量效率,實(shí)現(xiàn)了高達(dá)兩個(gè)數(shù)量級的能效提升。首次賦能光計(jì)算實(shí)現(xiàn)自然場景千類對象識別、跨模態(tài)內(nèi)容生成等人工智能復(fù)雜任務(wù)。
?03、國內(nèi)光芯片企業(yè)情況如何?
在面向“后摩爾時(shí)代”的潛在顛覆性技術(shù)里,光子芯片已進(jìn)入人們的視野。其所具有的高速度、低能耗、工藝技術(shù)相對成熟等優(yōu)勢,能夠有效突破傳統(tǒng)集成電路物理極限上的瓶頸,滿足新一輪科技革命中人工智能、物聯(lián)網(wǎng)、云計(jì)算等產(chǎn)業(yè)對信息獲取、傳輸、計(jì)算、存儲、顯示的技術(shù)需求。
目前,全球光子芯片產(chǎn)業(yè)剛剛起步,作為獨(dú)立于電子集成技術(shù)的新集成技術(shù),其技術(shù)壁壘還沒有形成。我國光子產(chǎn)業(yè)發(fā)展水平與世界處于并跑階段,在光子基礎(chǔ)理論研究和技術(shù)發(fā)展方面具有一定的優(yōu)勢。目前中國本土的高功率激光芯片、部分高速率激光芯片(10G、25G等)等已處于國產(chǎn)化加速突破階段,而光探測芯片、25G以上高速率激光芯片剛剛起步。
值得注意的是,光芯片方面華為也有所布局。今年3月,華為公布了一項(xiàng)“光芯片及其制備方法、通信設(shè)備”發(fā)明專利。申請公布號為:CN117616316A,該專利申請日期為2021年9月18日。摘要顯示,本申請的實(shí)施例提供一種光芯片及其制備方法、通信設(shè)備,涉及光通信技術(shù)領(lǐng)域,解決現(xiàn)有的光芯片中光波導(dǎo)在制備過程中尖端易斷裂的問題。
光芯片企業(yè)利潤下降
國內(nèi)光芯片廠商有源杰科技、長光華芯和炬光科技等。在2023年度業(yè)績快報(bào)中,這三家企業(yè)均提到宏觀環(huán)境、行業(yè)發(fā)展的影響,導(dǎo)致產(chǎn)品需求減少和價(jià)格降低。源杰科技是國內(nèi)領(lǐng)先的光芯片 IDM 廠商,產(chǎn)品涵蓋從2.5G到50G 磷化銦激光器芯片。從源杰科技2023年的業(yè)績來看,營業(yè)收入共計(jì)約1.44億元,與去年同期相比下降48.96%,全年歸屬凈利潤盈利 0.195 億元,同比減少 80.58%。長光華芯發(fā)布的業(yè)績報(bào)告來看,也同樣處于虧損狀態(tài)。
營業(yè)收入約2.92億元,同比減少24.2%;歸屬于上市公司股東的凈利潤虧損8610.17萬元。2023年1至6月份,長光華芯的營業(yè)收入構(gòu)成為:高功率單管系列占比90.16%,高功率巴條系列占比8.24%,其他業(yè)務(wù)占比0.9%,VCSEL芯片系列占比0.7%。炬光科技業(yè)務(wù)覆蓋上游“產(chǎn)生光子”“調(diào)控光子”及中游汽車、泛半導(dǎo)體、醫(yī)療健康領(lǐng)域,與多家業(yè)內(nèi)知名公司達(dá)成合作。炬光科技發(fā)布2023年度業(yè)績快報(bào),營業(yè)收入約5.61億元,同比增加1.69%;歸屬于上市公司股東的凈利潤8968萬元,同比減少29.44%
源杰科技表示“電信市場及數(shù)據(jù)中心銷售不及預(yù)期”;長光華芯稱“受宏觀經(jīng)濟(jì)環(huán)境等因素的影響,市場信心不足,激光器市場需求持續(xù)疲軟,同時(shí)行業(yè)競爭加劇”,炬光科技稱“公司部分上游元器件產(chǎn)品價(jià)格降低,綜合毛利率下降”。