一年前,筆者針對(duì)武漢華為光工廠項(xiàng)目(二期)正式封頂?shù)南懥艘黄P(guān)于海思造芯的文章《武漢華為光芯片工廠封頂,海思造芯第一槍?》,那里面也聊到了光子芯片的組成、工作原理,以及華為在光子芯片領(lǐng)域的布局和野心。
那今天為什么又要再聊光子芯片這個(gè)話題呢?一方面光子芯片,也就是我們常說(shuō)的硅光芯片確實(shí)是實(shí)現(xiàn)突破摩爾定律限制的一項(xiàng)技術(shù),規(guī)模型發(fā)展是大勢(shì)所趨;另一方面,前年寫的這篇文章里的光子芯片主要指的是光通信芯片,和今天要講的光子計(jì)算芯片至少是不同應(yīng)用領(lǐng)域的兩件事兒,所以有必要再單獨(dú)拉出來(lái)談一談。
接觸光子計(jì)算這個(gè)概念其實(shí)是在2019年,當(dāng)時(shí)日本電信電話株式會(huì)社(NTT)表示要在處理器中引入光網(wǎng)絡(luò)技術(shù),已經(jīng)開(kāi)發(fā)出了超小型光電變換元件,并在開(kāi)發(fā)高性能、低耗電的光電融合型信息處理芯片。屆時(shí),該芯片將應(yīng)用于異構(gòu)計(jì)算系統(tǒng),節(jié)能、高通量數(shù)據(jù)處理以及超低延遲檢測(cè)、模式匹配處理等領(lǐng)域。
出于對(duì)光子芯片的好奇,筆者開(kāi)始翻閱相關(guān)的信息,看到了諸如“人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可以直接在光子芯片上進(jìn)行”的理論,并關(guān)注到了從MIT 團(tuán)隊(duì)誕生出的兩家初創(chuàng)公司 Lightelligence 和 LightMatter。
圖 | 世界第一款光子芯片原型板卡
從2019年開(kāi)始,除了理論驗(yàn)證,市場(chǎng)上開(kāi)始出現(xiàn)一些原型產(chǎn)品,比如Lightelligence就曾在2019年4月對(duì)外宣布開(kāi)發(fā)出了世界第一款光子芯片原型板卡,在這個(gè)原型產(chǎn)品上成功用光子芯片運(yùn)行了Google Tensorflow自帶的卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)處理MNIST數(shù)據(jù)集。Lightmatter也在2021年秋季推出了搭載光子計(jì)算芯片的PCIe卡,這是Lightmatter專為數(shù)據(jù)中心AI推理工作負(fù)載而設(shè)計(jì)的,也是其首款商業(yè)化的產(chǎn)品。
也是在這段時(shí)間內(nèi),華為公開(kāi)了一份名為“光計(jì)算芯片、系統(tǒng)及數(shù)據(jù)處理技術(shù)”的發(fā)明專利,申請(qǐng)日期是2019年8月,專利公開(kāi)號(hào)為CN112306145A。接著在2021年華為全球分析師大會(huì)上,華為董事、戰(zhàn)略研究院院長(zhǎng)徐文偉表示,“到2030年,算力需求將增加100倍,如何打造超級(jí)算力將是一個(gè)巨大的挑戰(zhàn),未來(lái)模擬計(jì)算、光子計(jì)算面臨巨大的應(yīng)用場(chǎng)景,所以目前華為也在研究模擬計(jì)算與光子計(jì)算。”
初創(chuàng)企業(yè)在前面闖,行業(yè)巨頭帶節(jié)奏,可見(jiàn)光子計(jì)算才是實(shí)現(xiàn)超級(jí)算力的歸途。這更加激起了筆者的好奇心,光子計(jì)算到底是怎么實(shí)現(xiàn)的?目前技術(shù)演進(jìn)到了哪一步?生態(tài)落地有何困難?恰逢一系列問(wèn)題涌上心頭之時(shí),Lightelligence的市場(chǎng)人員找到我,并告知要在2021年12月舉辦一場(chǎng)關(guān)于“最新光子計(jì)算處理器”的發(fā)布會(huì),這下有機(jī)會(huì)深入了解一下Lightelligence和它的光子計(jì)算了。
一篇頂級(jí)雜志的封面論文開(kāi)創(chuàng)了光子AI計(jì)算領(lǐng)域
Lightelligence中文名為曦智科技,是一位89年的杭州小伙在MIT(麻省理工學(xué)院)博士畢業(yè)后創(chuàng)立的,這個(gè)小伙就是曦智科技創(chuàng)始人兼CEO的沈亦晨。
圖 | 曦智科技創(chuàng)始人兼CEO沈亦晨博士
關(guān)于為何會(huì)選擇光子計(jì)算作為創(chuàng)業(yè)方向,沈亦晨表示,“光子AI計(jì)算這個(gè)技術(shù)是我在MIT主要的研究方向,2016年我所在的研究團(tuán)隊(duì)打造了首個(gè)光學(xué)計(jì)算系統(tǒng),2017年就以封面文章的形式發(fā)表在了頂級(jí)期刊Nature Photonics雜志上,國(guó)際著名光學(xué)科學(xué)家、斯坦福大學(xué)終身正教授David Miller, 曾評(píng)價(jià)稱這一系列的研究成果極大地推動(dòng)了集成光學(xué)在未來(lái)取代傳統(tǒng)電子計(jì)算芯片的發(fā)展。于是一篇論文在全球范圍內(nèi)啟發(fā)了許多人投入到光子 AI 芯片的開(kāi)發(fā)中,可以說(shuō)是開(kāi)創(chuàng)了光子AI計(jì)算領(lǐng)域,吸引了近二十家初創(chuàng)公司相繼成立,不少大公司也都相繼進(jìn)入這個(gè)方向,而曦智科技就是其中的一員。”
曦智科技目前在波士頓、上海、杭州、南京等地設(shè)有辦公室及實(shí)驗(yàn)室,全球員工近200人,核心團(tuán)隊(duì)中有超過(guò)10位MIT的博士(主要背景是硅光和AI兩個(gè)方向),業(yè)界非常有經(jīng)驗(yàn)的專家(比如帶數(shù)字、模擬、封裝的團(tuán)隊(duì)的Maurice Steinman),以及頂級(jí)IT公司出來(lái)的高管(帶領(lǐng)軟件和算法團(tuán)隊(duì))。
突破摩爾定律限制,光子計(jì)算芯片大有可為
2012年以后,神經(jīng)網(wǎng)絡(luò)的大小和計(jì)算模型的大小出現(xiàn)了爆炸式的增長(zhǎng),平均每3-4個(gè)月,計(jì)算模型的大小就會(huì)翻一倍。所以,今天最大的神經(jīng)網(wǎng)絡(luò)的模型大概是2012年的15-30萬(wàn)倍左右,并且還在持續(xù)增長(zhǎng),但是有明顯受制于算力底層限制的趨勢(shì),換言之,底層算力制約了人工智能的進(jìn)一步發(fā)展。
那么,算力為什么會(huì)在發(fā)展上難以跟上模型大小的速度呢?總結(jié)下來(lái)有三大主要瓶頸:算力、數(shù)據(jù)傳輸和存儲(chǔ)。算力瓶頸主要來(lái)源于兩方面:
一. 摩爾定律的限制。在過(guò)去近50年里,晶體管的密度可以每18-20個(gè)月翻一倍,但從物理的角度來(lái)講,一個(gè)原子的大小就有接近0.3個(gè)納米,當(dāng)半導(dǎo)體制程達(dá)到3納米后,已經(jīng)非常接近物理極限,所以要復(fù)刻過(guò)去的每18-20個(gè)月翻一倍幾乎沒(méi)有可能。
二. 功耗和發(fā)熱。2015年以后,隨著晶體管越來(lái)越小,晶體管上的隧穿現(xiàn)象越來(lái)越嚴(yán)重,所以即使能把晶體管做得更小,單個(gè)晶體管在進(jìn)行運(yùn)算時(shí)的功耗也沒(méi)辦法進(jìn)一步降低,片上的熱無(wú)法更有效散發(fā)出去,限制了算力的提高。
而算力瓶頸直接決定了單位面積電芯片上能做的計(jì)算密度,對(duì)業(yè)界來(lái)說(shuō),進(jìn)一步提高算力的唯一辦法就是進(jìn)一步擴(kuò)大電芯片的面積。面對(duì)該想法,美國(guó)一家公司做了一顆像餐盤一樣大的芯片,面積是英偉達(dá)芯片的70-80倍,但功耗是英偉達(dá)芯片的200倍。這表明隨著芯片面積越做越大,它的能耗比并不是隨面積正比例提升的。這是因?yàn)殡S著面積的增大,需要更長(zhǎng)的銅導(dǎo)線在不同芯片、不同點(diǎn)之間傳遞數(shù)據(jù),但是銅導(dǎo)線的發(fā)熱量是依據(jù)長(zhǎng)度正比例增加的。所以,隨著芯片面積越來(lái)越大,在數(shù)據(jù)傳輸上的功耗就會(huì)顯著增長(zhǎng),這也從本質(zhì)上制約了用一塊更大的電芯片去完成算力突破的想法。
類似的,把多個(gè)芯片通過(guò)一些電的互聯(lián)后去協(xié)同做計(jì)算,由于片間互聯(lián)帶寬非常有限,加上銅導(dǎo)線功耗無(wú)法繞開(kāi),效果也是差強(qiáng)人意。通常,通過(guò)電來(lái)互聯(lián)100個(gè)芯片或者板卡后,它的算力可能只比單個(gè)板卡提高10倍左右,這是電芯片難以破除的困境。
于是,光子芯片被認(rèn)為是最適合解決這些困境的底層技術(shù)。首先,在數(shù)據(jù)搬運(yùn)上面,光已經(jīng)在光通信領(lǐng)域充分證明它的優(yōu)勢(shì);其次,現(xiàn)在的大數(shù)據(jù)AI大多是在做線性運(yùn)算,而恰好光的矩陣乘法并行能力非常強(qiáng),延時(shí)遠(yuǎn)遠(yuǎn)低于電芯片,并且光在傳播的時(shí)候本身不會(huì)發(fā)熱;最重要的是,這種光子計(jì)算系統(tǒng)已經(jīng)被曦智科技這樣的團(tuán)隊(duì)搭建出來(lái),并經(jīng)過(guò)了實(shí)際驗(yàn)證,不是純理論的東西。
歷經(jīng)四年,終將科研成果轉(zhuǎn)化為光子計(jì)算系統(tǒng)“PACE”
從2017年至今,曦智科技團(tuán)隊(duì)歷時(shí)四年多,將光子AI計(jì)算從理論的科研成果,轉(zhuǎn)化成了能跑卷積神經(jīng)網(wǎng)絡(luò)模型處理MNIST數(shù)據(jù)集的光子芯片原型板卡,再到今天能跑AI和深度學(xué)習(xí)以外應(yīng)用案例的光子計(jì)算系統(tǒng)“PACE”的誕生,把最早4×4的乘法器,提升到了把上萬(wàn)個(gè)光器件集成在一塊芯片上面,單顆光芯片上的器件集成度提高了3個(gè)數(shù)量級(jí),系統(tǒng)時(shí)鐘達(dá)1GHz,運(yùn)行特定循環(huán)神經(jīng)網(wǎng)絡(luò)速度可達(dá)目前高端GPU的數(shù)百倍,這是光子計(jì)算領(lǐng)域一個(gè)長(zhǎng)足的進(jìn)步。
圖 | 曦智科技光子處理器PACE
沈亦晨在介紹“光子計(jì)算”技術(shù)時(shí),將其分為三個(gè)部分:通過(guò)光來(lái)做矩陣的乘積累加運(yùn)算oMAC、片上光網(wǎng)絡(luò)oNOC和片間光網(wǎng)絡(luò)oNET。
oMAC就是通過(guò)光來(lái)做矩陣的乘積累加運(yùn)算,它是一種模擬計(jì)算,通過(guò)光模擬信號(hào)代替?zhèn)鹘y(tǒng)電子進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)可以加載在光的強(qiáng)度或者相位上面,通過(guò)在波導(dǎo)里的傳播相互干涉,同時(shí)進(jìn)行運(yùn)算。
oNOC是片上的光網(wǎng)絡(luò),主要通過(guò)用波導(dǎo)代替銅導(dǎo)線的方式,在片上進(jìn)行數(shù)據(jù)傳輸,包括實(shí)現(xiàn)片與片之間的光通信,以及大芯片上光的總線通信,在光芯片上構(gòu)建一個(gè)固定通信網(wǎng)絡(luò)拓?fù)?,通過(guò)光相連,實(shí)現(xiàn)基于片上光網(wǎng)絡(luò)的數(shù)據(jù)交互,然后采用一些波分復(fù)用的方式來(lái)傳播數(shù)據(jù)。它的優(yōu)勢(shì)主要是帶寬高、功耗小、延時(shí)低和通用性強(qiáng)(通用性體現(xiàn)在可以將不同類型的電子芯片和它結(jié)合,為訪問(wèn)存儲(chǔ)芯片或者在不同的計(jì)算芯片之間提供一個(gè)更高速、更低功耗互聯(lián)的方式)。
片間光網(wǎng)絡(luò)oNET就是把片上的東西進(jìn)一步拓展到多個(gè)板卡和更多的服務(wù)器之間,通過(guò)直接用光纖的方式把芯片和芯片直接互聯(lián)起來(lái),類似以一種光方式做芯片之間數(shù)據(jù)的傳輸。
圖 | 全球第一個(gè)示范出光子優(yōu)勢(shì)的計(jì)算系統(tǒng)PACE
沈亦晨表示,“PACE是全球僅有的,第一個(gè)示范出光子優(yōu)勢(shì)的計(jì)算系統(tǒng),也是已知全球集成度最高的光子芯片,能夠展示光子計(jì)算在人工智能和深度學(xué)習(xí)以外的應(yīng)用案例。PACE如果和英偉達(dá)的GPU 3080跑同一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)算法,花的時(shí)間可以做到GPU的1%以內(nèi)。”
從組成結(jié)構(gòu)的角度,PACE由兩部分組成:光芯片和電芯片,兩者通過(guò)3D封裝技術(shù)倒裝堆疊在一起。電芯片上主要做數(shù)據(jù)的存儲(chǔ)和數(shù)?;旌系恼{(diào)度,光芯片上主要做數(shù)據(jù)的計(jì)算。
據(jù)悉,PACE能夠解決伊辛問(wèn)題(Ising)和最大割/最小割問(wèn)題(Max-cut/Min-cut)等現(xiàn)在全球最難以解決或者難以高效解決的數(shù)學(xué)問(wèn)題——NP-Complete Problem,中文譯為多項(xiàng)式復(fù)雜程度非確定性問(wèn)題,涉及比如生物信息里蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)、物流交通調(diào)度、芯片設(shè)計(jì)、材料研發(fā)等。
硅光芯片也是CMOS工藝,生態(tài)無(wú)需重新獨(dú)立培養(yǎng)
以“PACE”為例,65/45納米的CMOS工藝線就可以滿足現(xiàn)在光計(jì)算芯片所有的要求。硅光芯片未來(lái)的技術(shù)迭代也不會(huì)對(duì)制程有特別的要求,更多是從其他方面進(jìn)行技術(shù)迭代,比如主頻、波長(zhǎng)數(shù)量還有不同的模式。
為何要做這段解釋?一方面可以表明光子芯片的工藝制程要求不高,另一方面也讓我們了解到硅光芯片其實(shí)是CMOS工藝,在電學(xué)、熱學(xué),包括仿真上都有相當(dāng)成熟的軟可以件直接使用,進(jìn)行光電混合設(shè)計(jì)。唯一的不同就是對(duì)于光來(lái)說(shuō),在封裝方案里需要有一個(gè)接口,把光源導(dǎo)到光芯片上去,或者把激光器封裝到整個(gè)板卡里面,這部分可能是創(chuàng)新的地方。
圖 | 光電結(jié)合的信號(hào)處理示意
對(duì)于生態(tài)的兼容性,沈亦晨表示,“硅光芯片作為一種底層的硬件支持,采用的是光電混合結(jié)構(gòu),和軟件相關(guān)的都是數(shù)字芯片。所有的指令、編譯、軟件,首先會(huì)加載到數(shù)字電芯片上面,數(shù)字電芯片會(huì)把這些指令和交互點(diǎn)做一個(gè)切分和分解,所以只需要在編譯器和底層驅(qū)動(dòng)上添加一些新的功能。比如說(shuō)要做矩陣乘法的時(shí)候,數(shù)字芯片會(huì)發(fā)出一個(gè)指令讓光芯片去做矩陣乘法。但是,絕大部分的指令其實(shí)和現(xiàn)有指令比較接近,比如絕大部分的非線性指令、一些數(shù)據(jù)的調(diào)度指令,都是基于現(xiàn)有數(shù)字電芯片去做的。所以,從軟件和生態(tài)適配的角度來(lái)講,本質(zhì)上與現(xiàn)有生態(tài)是一樣的,無(wú)非就是換了幾個(gè)核心功能。以電動(dòng)車為例,電動(dòng)車的發(fā)動(dòng)機(jī)和能源系統(tǒng)用的是電池,汽油車用的是汽油,但不代表客戶開(kāi)車的時(shí)候需要重新考一遍駕照。我們的光電芯片也可以這么理解,不影響客戶或者用戶的軟件系統(tǒng),用戶還是去和數(shù)字電芯片做交互。”
“不過(guò),對(duì)于光子芯片這個(gè)大生態(tài)來(lái)講,還是需要更多時(shí)間去培養(yǎng),首先要往現(xiàn)有生態(tài)上去靠,在軟件方面兼容現(xiàn)有的生態(tài),和一線晶圓廠、封裝廠建立戰(zhàn)略合作,聯(lián)合友商把供應(yīng)鏈慢慢做到成熟。針對(duì)市場(chǎng)側(cè),曦智科技會(huì)先切入大數(shù)據(jù)的應(yīng)用場(chǎng)景,包括云計(jì)算、智能駕駛、金融上的量化交易、生物藥物研發(fā)等,目前我們已經(jīng)和一些全球頂級(jí)云服務(wù)供應(yīng)商、主要金融機(jī)構(gòu)等有深度的合作。” 沈亦晨補(bǔ)充道。
寫在最后
“明年我們會(huì)推出更通用化的產(chǎn)品,當(dāng)它去跑像Transformer這樣模型的時(shí)候,并不能預(yù)期它會(huì)像PACE這樣有上百倍的優(yōu)勢(shì)。但是,尤其是基于大模型,若將光的互聯(lián)和光的計(jì)算一起加上去,還是能夠跑出3-5倍的算力優(yōu)勢(shì)。對(duì)于第一代產(chǎn)品來(lái)說(shuō),這樣就能夠足夠打到市場(chǎng)里面去。”這是曦智科技的短期布局和規(guī)劃。
在被問(wèn)到這幾年賽道中逐步涌現(xiàn)了十幾家光子計(jì)算的初創(chuàng)公司,國(guó)內(nèi)的大公司也慢慢開(kāi)始布局光計(jì)算時(shí),沈亦晨自信地回答道,“這說(shuō)明我們這個(gè)行業(yè)越來(lái)越受到大家的認(rèn)可,有越來(lái)越多的人愿意參與進(jìn)來(lái),這對(duì)生態(tài)建設(shè)是件好事。我們團(tuán)隊(duì)的起步是所有公司里最早的,光計(jì)算不像數(shù)字電路,用一個(gè)相當(dāng)成熟的設(shè)計(jì)流程完成設(shè)計(jì),一年、兩年之內(nèi)就有可能超過(guò)所有其他的數(shù)字芯片。光芯片需要相當(dāng)長(zhǎng)的研發(fā)周期,從器件的設(shè)計(jì)到封裝的方式,到最后軟硬一體化的優(yōu)化,都是需要經(jīng)過(guò)時(shí)間積累的。任何一家公司,哪怕是有幾百億、幾千億的公司,要從現(xiàn)在開(kāi)始做出像PACE這樣一個(gè)產(chǎn)品,也會(huì)需要至少三年時(shí)間。除了先發(fā)優(yōu)勢(shì)外,團(tuán)隊(duì)也是我們的核心競(jìng)爭(zhēng)力。我們現(xiàn)在有最強(qiáng)的、最完整的做光電混合計(jì)算的團(tuán)隊(duì),集聚從硅光到數(shù)字,到模擬,到軟件的各路人才,是一個(gè)已經(jīng)磨合了四年的團(tuán)隊(duì),這是我們最大的財(cái)富。”