文︱ED SPERLING
來源︱Semiconductor Engineering
編譯 | 編輯部
芯片制造商開始重新審視異構(gòu)系統(tǒng)中應(yīng)該使用多少暗硅,在哪里工作得最好,以及有哪些替代方案可用——這是摩爾定律擴(kuò)展放緩以及SoC日益分解的直接后果。
暗硅的概念已經(jīng)存在了幾十年,但隨著物聯(lián)網(wǎng)的引入,所有東西都必須安裝在單個(gè)芯片上,并使用小電池工作,暗硅才真正開始發(fā)展起來。事實(shí)證明,對(duì)于智能手表和手機(jī)的初始版本來說,這種做法是存疑的。而當(dāng)時(shí)最好的解決方案是關(guān)閉任何基本應(yīng)用不需要的電路。
然而,其他問題接踵而至。例如,當(dāng)設(shè)備重新通電時(shí),浪涌電流(特別是那些需要更快打開的設(shè)備)會(huì)給電路帶來壓力,從而導(dǎo)致芯片損壞。因此,雖然關(guān)閉芯片的某些部件的電源可以減少老化,但快速打開它們也可能引發(fā)問題。在過去十年中,通過低功耗芯片的工程設(shè)計(jì),其中大部分問題已經(jīng)得到解決,并且暗硅加上極其高效的設(shè)計(jì),推動(dòng)了下一代移動(dòng)設(shè)備的發(fā)展,同時(shí)也對(duì)極大縮減了數(shù)據(jù)中心的能源成本。
現(xiàn)在的問題是,除了延長(zhǎng)兩次充電之間的時(shí)間之外,還能做些什么,而僅僅添加更多的暗硅并不能解決這個(gè)問題。相反,人們更加關(guān)注滿足應(yīng)用需求的芯片設(shè)計(jì),而這得益于從設(shè)計(jì)到制造流程的一系列開發(fā)。其中:
整個(gè)生態(tài)系統(tǒng)一直在圍繞先進(jìn)封裝發(fā)展和高效設(shè)計(jì)工具,OSAT和代工廠提供了經(jīng)過硅驗(yàn)證的分立元件(如Chiplet)以及各種封裝方法。這使得芯片制造商能夠開發(fā)更復(fù)雜的器件,同時(shí)還可以更有效地為特定領(lǐng)域應(yīng)用進(jìn)行分區(qū)和優(yōu)先排序。
先進(jìn)的封裝為更短的信號(hào)路徑和更快的互連開辟了道路。與大型平面芯片相比,信號(hào)在封裝中的傳播距離可能更短,并且這些信號(hào)可以通過利用先進(jìn)的互連和新材料,從而在驅(qū)動(dòng)時(shí)實(shí)現(xiàn)更快速、功耗更低的數(shù)據(jù)傳輸。
超低功耗設(shè)計(jì)和各種功能(例如接近閾值計(jì)算)在很大程度上仍處于觀望狀態(tài),然而目前卻正在受到更廣泛的關(guān)注。此外,在過去十年中,電池內(nèi)部的密度以每年平均5%至6%的速度增長(zhǎng),使設(shè)備能夠使用相同尺寸甚至更小的電池做更多的事情。雖然終端設(shè)備的外形尺寸往往相對(duì)一致,但可以在不影響電池壽命的情況下將更多設(shè)備封裝在設(shè)備內(nèi)部。
所有這些變化都是日積月累的。因此,與其關(guān)閉芯片的大部分電源,不如使用較小的芯片或Chiplet來完成更多工作,這可以更具成本和能效。此外,芯片中的各種功能可以在最佳工藝節(jié)點(diǎn)上開發(fā),權(quán)衡成本、用例、靜態(tài)電流泄漏和尺寸等因素。
“還有更多各種各樣的解決方案,”Arm的研發(fā)研究員Rob Aitken表示。“暗硅背后的部分想法是有一個(gè)固定的功率預(yù)算,特別是對(duì)于移動(dòng)計(jì)算。但是,如果縮小設(shè)備,同時(shí)提高頻率,那么功率就不會(huì)真正改善。相反,最終會(huì)得到這個(gè)空白空間,并且有各種各樣的想法來解決這個(gè)問題。
對(duì)于智能手機(jī)和可穿戴設(shè)備來說,暗硅是一種經(jīng)過驗(yàn)證的解決方案,但它不是最有效的解決方案。還有其他選擇,從限制各種組件尺寸到將它們分散在封裝中,從而在增加密度時(shí)減少熱效應(yīng)。這對(duì)于內(nèi)存尤其有價(jià)值,因?yàn)閮?nèi)存在較低溫度下可以更有效地運(yùn)行。因此,當(dāng)附近的電路斷電時(shí),內(nèi)存可能會(huì)保持冷卻,但浪涌電流會(huì)很快使其過熱。更好的選擇是將內(nèi)存與先進(jìn)封裝中的主動(dòng)邏輯物理分離。
“如果溫度太接近最大允許的工作范圍,你可能不得不更頻繁地刷新內(nèi)存,”Rambus的杰出發(fā)明家Steven Woo指出。“當(dāng)內(nèi)存器件過熱時(shí),最終可能會(huì)失效。如果器件溫度升高,那就不得不做所謂的節(jié)流。注意縮短以最佳性能運(yùn)行的時(shí)間,或者在短時(shí)間內(nèi)運(yùn)行,讓其再次冷卻下來。”
所有這些技術(shù)以及其他發(fā)展使移動(dòng)設(shè)備能夠進(jìn)行比過去更密集的計(jì)算,而不會(huì)耗盡。“在移動(dòng)領(lǐng)域,功率實(shí)際上升了,”Arm的Aitken認(rèn)為。“與15年前相比,如今的芯片消耗了更多的功率。由于電池技術(shù)的發(fā)展,以及更多的物理區(qū)域,可以讓器件更有效地散熱,從而提高了芯片功率。”
通過三維層級(jí)規(guī)劃隔離芯片的各個(gè)部分,并采用各種技術(shù),如動(dòng)態(tài)電壓頻率調(diào)節(jié),以及一些暗硅,可以更有效地進(jìn)行熱管理。它也可以使用更少的硅面積來完成,這提高了性能,并為相同器件中的其他功能和特性打開了大門。
這種方法還有其他好處。“過去有理由選擇越來越大的芯片,這樣你就可以將更多的功能集成到單個(gè)芯片中,”Fraunhofer IIS自適應(yīng)系統(tǒng)部門工程設(shè)計(jì)方法負(fù)責(zé)人Roland Jancke表示。“如果你不需要硅的某些部分,那么你可以關(guān)閉它們以節(jié)省電力。但是還有其他原因使用較小的芯片。例如,相較于數(shù)字電路,如果在設(shè)計(jì)中包含模擬電路,則通常位于成熟工藝節(jié)點(diǎn)中,因此它會(huì)占用更多區(qū)域(這使得減小數(shù)字元件的尺寸更具優(yōu)勢(shì))。而對(duì)于RF而言,則需要大量的功率。Chiplet也有安全優(yōu)勢(shì),很難復(fù)制整體系統(tǒng)功能,僅在以相同方式將相同部分集成到相同封裝中時(shí),它才有效。如果你使用這些芯片中的任何一個(gè)都失敗了,那么你就錯(cuò)過了整體功能。
人工智能的影響
重新思考關(guān)閉部件以及關(guān)閉時(shí)間的驅(qū)動(dòng)因素之一涉及人工智能和機(jī)器學(xué)習(xí),其中芯片設(shè)計(jì)旨在實(shí)現(xiàn)最大的性能和吞吐量。對(duì)于需要非??焖俚靥幚泶罅繑?shù)據(jù)的大型數(shù)據(jù)中心尤其如此。通常,這涉及并行工作的強(qiáng)大處理器內(nèi)核,其中一些內(nèi)核是專門為這些數(shù)據(jù)中心工作負(fù)載設(shè)計(jì)的,通常與GPU、CPU、某種類型的NPU和DSP結(jié)合使用。問題是這些設(shè)備依賴于穩(wěn)定的數(shù)據(jù)流,并且該數(shù)據(jù)流并不總是一致地流動(dòng)。
“如果有兩種解決方案,其中一種解決方案更有效地使用晶體管,那么每美元和每瓦特將獲得更多的吞吐量,”Flex Logix首席執(zhí)行官Geoff Tate指出。“因此,從客戶的角度來看,采用暗硅是不可取的。很難開發(fā)出高利用率的架構(gòu),但利用率越高越好。
在過去的五年里,隨著人工智能變得越來越普遍,人們對(duì)什么是最佳方案的看法改變了。“在人工智能的早期階段,第一個(gè)挑戰(zhàn)就是讓一些功能發(fā)揮作用并改進(jìn)模型,使它們?cè)絹碓胶?,并沿著學(xué)習(xí)曲線上升,” Tate指出。“在數(shù)據(jù)中心領(lǐng)域,其擁有巨大的預(yù)算和巨額利潤(rùn),這使他們能夠做一些以前無(wú)法做到的事情。但是,當(dāng)我們尋求將AI部署到大批量應(yīng)用,且對(duì)價(jià)格更敏感的解決方案中時(shí),客戶將尋找能夠?yàn)槠涔β暑A(yù)算和金錢預(yù)算提供最大的推理性能的供應(yīng)商,我們看到的大多數(shù)企業(yè)在達(dá)到他們的資金預(yù)算之前就達(dá)到了功率預(yù)算。這不僅僅是出于成本原因而有效地使用晶體管。擁有的晶體管越多,泄漏就越多。因此,如果你能用更少的晶體管完成工作,它將更加節(jié)能。”
在人工智能世界中,“暗硅”也可以具有另一種含義。“盡管供應(yīng)商試圖提供所有芯片和所有馬力,但當(dāng)你試圖運(yùn)行實(shí)際的神經(jīng)網(wǎng)絡(luò)模型時(shí),甚至無(wú)法獲得接近40%的系統(tǒng),”AMD數(shù)據(jù)中心人工智能和計(jì)算市場(chǎng)高級(jí)總監(jiān)Nick Ni表示。“引擎可以非???,但如果你沒有要處理的數(shù)據(jù),那么它們就閑置了。這就是導(dǎo)致暗硅的原因。”
圖 1:AMD 的 3D V-Cache 使用堆疊在處理器上的緩存小芯片(圖源:AMD)
挑戰(zhàn)在于徹底了解需要處理的上下文和數(shù)據(jù)量,然后圍繞這些因素設(shè)計(jì)芯片。AMD收購(gòu)Xilinx的原因之一,以及英特爾收購(gòu)Altera的原因之一,是能夠微調(diào)其中一些設(shè)備的使用方式。可編程邏輯可以根據(jù)需要?jiǎng)討B(tài)重新配置和調(diào)整大小,因此可以根據(jù)需要使用小型FPGA,而不是巨型FPGA。雖然巨型FPGA的效率永遠(yuǎn)不如硬連線ASIC,但較小的可編程邏輯芯片可用于減少未充分利用或未利用的硅的數(shù)量。
“雖然能夠?yàn)槊總€(gè)市場(chǎng)構(gòu)建定制ASIC會(huì)很好,但其中一些用例是如此多樣化,以至于市場(chǎng)變得越來越小,而構(gòu)建ASIC的成本正在上升,”Rambus的Woo表示。“因此,F(xiàn)PGA與x86結(jié)合使用是有意義的。您可以加載位文件以用于特定于市場(chǎng)的工作,然后利用 x86 的通用基礎(chǔ)結(jié)構(gòu)來完成其他所有操作。”
Chiplet架構(gòu)的影響
Chiplet增加了另一個(gè)級(jí)別的靈活性,因?yàn)樾酒叽缈梢愿鶕?jù)特定功能所需的任何條件進(jìn)行調(diào)整。這意味著可以完全消除芯片中未使用的部分,而不是將其置于睡眠狀態(tài),并且可以將附加功能放在不同的小芯片上。
“芯片尺寸是采用Chiplet的主要驅(qū)動(dòng)力之一,”TechSearch總裁Jan Vardaman在最近的一次演講中說。“如今,GPU和CPU的芯片尺寸非常大,我們確實(shí)必須擁有更多的晶體管。只是我們必須弄清楚如何經(jīng)濟(jì)地將所有這些晶體管放在一起并發(fā)揮作用。因此,我們?cè)谕苿?dòng)Chiplet采用方面所做的額外工作將使我們能夠制作出更高密度的更精細(xì)的封裝。您可以做一些提高電源效率的事情,這在我們的許多應(yīng)用中都非常重要。”
關(guān)鍵是能夠以最有效的方式將各個(gè)部分組合在一起。“我們必須能夠以一種新的方式思考設(shè)計(jì)。這是一個(gè)系統(tǒng)架構(gòu),“Vardaman表示。“因?yàn)槟愕玫降氖且粋€(gè)更小的模具,這可以提高產(chǎn)量,所以你將使用最先進(jìn)的節(jié)點(diǎn)來制造需要這些節(jié)點(diǎn)的零件。您不會(huì)在高性能邏輯節(jié)點(diǎn)中制造芯片的模擬部分。您將在其他節(jié)點(diǎn)中將其鑄造,因?yàn)樗阋?。你要把所有這些放在一起。小芯片是硬 IP 塊。它必須共同優(yōu)化。所有這些東西都可以一起工作。你不能孤立地設(shè)計(jì)這些東西。”
在這種情況下,暗硅只是降低功耗的另一種選擇,而不一定是最好的選擇。雖然它可以為特定功能提供儲(chǔ)備計(jì)算能力,但它不是設(shè)計(jì)復(fù)雜系統(tǒng)的最有效方法。
總結(jié)
將更多功能封裝到芯片上的能力不斷削弱,但功耗和性能優(yōu)勢(shì)也在不斷縮小。因此,芯片制造商正在尋求通過先進(jìn)封裝來繼續(xù)降低功耗、提升性能。但在封裝中,暗硅并不如單個(gè)高性能芯片那么有吸引力,后者的尺寸更具普適性,并且數(shù)量在十億芯片范圍內(nèi)。即使在最理想的條件下,暗硅似乎也顯示出它的年齡。
“我們正處于這種暗硅軌跡中,”Aitken稱。“有一堆東西進(jìn)入了暗硅思維過程,這些東西已經(jīng)逐漸成為主流。您將構(gòu)建一個(gè)具有許多不同核心功能的芯片。但是,如何始終打開所有功能以最大化提高計(jì)算性能仍然是一個(gè)非常困難的問題。這是你可能不想回答的問題,因?yàn)樗鼤?huì)產(chǎn)生大量的熱量,無(wú)論如何你都無(wú)法處理。”