作者丨姬曉婷
編輯丨張心怡
美編丨馬利亞
監(jiān)制丨連曉東
自計(jì)算處理器出現(xiàn),計(jì)算產(chǎn)業(yè)一直在關(guān)注兩個(gè)問(wèn)題:一是性能的提升,二是耗能的降低。在人工智能需求的拉動(dòng)下,全球眾多科研機(jī)構(gòu)和相關(guān)企業(yè)都在研究提升處理器運(yùn)算能力的新方式,神經(jīng)擬態(tài)處理器就是其中一個(gè)嘗試方向。
如何模擬人腦?
神經(jīng)擬態(tài)計(jì)算,顧名思義,是一種模擬人腦神經(jīng)結(jié)構(gòu)和運(yùn)行方式有關(guān)的計(jì)算,又被稱為類腦計(jì)算和神經(jīng)形態(tài)計(jì)算。幾十年來(lái),科學(xué)家一直在研究如何重現(xiàn)生物神經(jīng)元的多功能計(jì)算能力,以開(kāi)發(fā)速度更快、更節(jié)能的機(jī)器學(xué)習(xí)系統(tǒng)。
經(jīng)過(guò)幾十年的探索和研究,產(chǎn)研界探索出三條神經(jīng)擬態(tài)處理器的實(shí)現(xiàn)形式。其一是數(shù)字CMOS型,以邏輯門(mén)電路仿真實(shí)現(xiàn)生物單元行為。其二是數(shù)模混合的CMOS型,即利用亞閾值模擬電路模擬生物神經(jīng)單元的特性。以上兩種采用的都是硅基晶體管實(shí)現(xiàn)。第三種實(shí)現(xiàn)形式是發(fā)展新型器件,例如憶阻器、相變存儲(chǔ)器、鐵電器件、磁隧道結(jié)、離子?xùn)趴鼐w管等,且采用非硅基類器件。
以上研究大多沒(méi)有實(shí)現(xiàn)量產(chǎn)。在諸多研究機(jī)構(gòu)和企業(yè)中,英特爾采用的就是上述第一類實(shí)現(xiàn)方式——以晶體管模擬人類神經(jīng)元功能。在諸多模擬的功能中,如何使處理器像人腦一樣實(shí)現(xiàn)節(jié)能,就是其中一項(xiàng)。
神經(jīng)擬態(tài)學(xué)工程師、德國(guó)海德堡大學(xué)物理學(xué)家卡爾海因茨·邁耶(Karlheinz Meier)曾表示,人腦相對(duì)計(jì)算機(jī)而言有三大特性,第一大特性就是低能耗,人腦的功率大約是20瓦特。
今年4月,英特爾發(fā)布神經(jīng)擬態(tài)系統(tǒng)Hala Point。據(jù)稱,該系統(tǒng)在執(zhí)行AI推理負(fù)載和處理優(yōu)化問(wèn)題時(shí),其速度比常規(guī)CPU和GPU架構(gòu)快50倍,同時(shí)能耗降低了100倍。近日,英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)向中國(guó)電子報(bào)記者詳細(xì)介紹了該系統(tǒng)模擬人腦降耗的實(shí)現(xiàn)原理。他首先介紹了市面上常見(jiàn)的芯片系統(tǒng)的頻率特點(diǎn):這些芯片中常常會(huì)提到CPU主頻這一技術(shù)參數(shù),例如5GHz。這一數(shù)字代指其同步時(shí)鐘的頻率,即該芯片內(nèi)部所有的邏輯門(mén)、存儲(chǔ)都在這一頻率下運(yùn)轉(zhuǎn),或者在此基礎(chǔ)上做一定的降級(jí)。例如總線可能比CPU主頻低一些,I/O接口頻率又比總線頻率更低一些,但整體來(lái)說(shuō),同一芯片中所有的組件,都由同步的時(shí)鐘驅(qū)動(dòng),使得芯片中所有的部件同時(shí)工作。這樣一來(lái),所有部件的耗能也是同步進(jìn)行的。
宋繼強(qiáng)說(shuō),英特爾所做的神經(jīng)擬態(tài)計(jì)算取消了同步時(shí)鐘的概念,采用的是“時(shí)間步”(Time Step)的概念,即一項(xiàng)任務(wù)完成后,組成計(jì)算系統(tǒng)的“神經(jīng)元”,會(huì)按照既定安排一步一步向后推進(jìn)。在一個(gè)時(shí)間步內(nèi),信號(hào)會(huì)從一個(gè)神經(jīng)元傳遞到下一個(gè)神經(jīng)元,以這樣的方式傳遞、擴(kuò)散。神經(jīng)擬態(tài)計(jì)算對(duì)系統(tǒng)“時(shí)間”統(tǒng)一性的要求是在時(shí)間步的層面上達(dá)到同步,但并不要求所有的神經(jīng)元在所有的工作序列中都要實(shí)現(xiàn)完全同步,允許有的任務(wù)處理得快、有的任務(wù)處理得慢。就像人腦,一部分神經(jīng)元處理嗅覺(jué)信息時(shí),另一部分神經(jīng)元正在處理視覺(jué)信息。這樣一來(lái),一個(gè)神經(jīng)擬態(tài)計(jì)算系統(tǒng)中,有任務(wù)發(fā)生的路徑是耗電的,其他路徑是休眠的。即便是大規(guī)模的神經(jīng)擬態(tài)集群,其工作時(shí)神經(jīng)元也只是稀疏地做并行運(yùn)算。
該計(jì)算系統(tǒng)另一項(xiàng)節(jié)約能耗的方式在于其存算一體的結(jié)構(gòu)。當(dāng)前市面上計(jì)算系統(tǒng)的能耗,分布在兩大領(lǐng)域,一個(gè)是計(jì)算,另一個(gè)就是數(shù)據(jù)傳輸。而神經(jīng)擬態(tài)計(jì)算系統(tǒng)實(shí)現(xiàn)了存算一體,從而避免了傳統(tǒng)核內(nèi)外架構(gòu)在處理大量數(shù)據(jù)傳輸時(shí)存在的能量損耗。
節(jié)能與否,要看場(chǎng)景
低能耗被認(rèn)為是神經(jīng)擬態(tài)處理器的固有架構(gòu)優(yōu)勢(shì)。2020年,宋繼強(qiáng)就曾公開(kāi)表示:神經(jīng)擬態(tài)計(jì)算在算法以及芯片的設(shè)計(jì)上,可以實(shí)現(xiàn)以千分之一以內(nèi)的功耗完成同樣效果的模型訓(xùn)練。浙江大學(xué)的唐華錦教授也認(rèn)為神經(jīng)擬態(tài)芯片是一種環(huán)境友好型的芯片,并認(rèn)為這種類型的芯片體積小、功耗低,符合生物進(jìn)化最本質(zhì)的優(yōu)勢(shì)。
但從Hala Point最新實(shí)踐結(jié)果來(lái)看,該類型架構(gòu)處理器節(jié)能與否,與其使用的場(chǎng)景有很大的關(guān)聯(lián)。宋繼強(qiáng)介紹稱,當(dāng)前發(fā)現(xiàn)該系統(tǒng)在處理用于物流調(diào)度數(shù)據(jù)中心的大規(guī)模優(yōu)化任務(wù)時(shí)能效表現(xiàn)最佳,相較CPU+GPU的組合方案節(jié)能了3000倍。
“但這不是指數(shù)據(jù)中心中所有的工作負(fù)載,只是極個(gè)別的幾項(xiàng)?!彼卫^強(qiáng)說(shuō),“我們正在尋找該系統(tǒng)適合的場(chǎng)景,如果給它不適合的任務(wù),耗能可能相較原有的處理系統(tǒng)更高?!?/p>
關(guān)于HalaPoint是否解決當(dāng)前大模型訓(xùn)練中面臨的高能耗問(wèn)題,宋繼強(qiáng)給出的回應(yīng)是:該系統(tǒng)的設(shè)計(jì)本身不是直接面向大模型的,并不適合大規(guī)模的數(shù)據(jù)輸入。
ResNet50網(wǎng)絡(luò)(殘差網(wǎng)絡(luò)的一種)是當(dāng)前能證實(shí)Hala Point有降低能耗作用的場(chǎng)景之一,對(duì)于此類應(yīng)用場(chǎng)景,經(jīng)過(guò)調(diào)優(yōu)的Hala Point在達(dá)到同等性能的情況下,可以將能耗降低到原有方案的1/100以下。對(duì)于某些特定深度的神經(jīng)網(wǎng)絡(luò),例如視覺(jué)識(shí)別類應(yīng)用,經(jīng)過(guò)在脈沖神經(jīng)網(wǎng)絡(luò)上的一些調(diào)優(yōu),輔以硬件層面的適配,也能夠降低能耗。
從適應(yīng)的場(chǎng)景整體來(lái)看,該系統(tǒng)在稀疏性局部并發(fā)型應(yīng)用中的表現(xiàn)更好。目前,市面上大量神經(jīng)擬態(tài)處理器的主要應(yīng)用場(chǎng)景在于機(jī)器人、無(wú)人機(jī)。宋繼強(qiáng)說(shuō),HalaPoint有一半的應(yīng)用是跟機(jī)器人、操控、多模態(tài)視覺(jué)掛鉤的。