從2010至今13年的時間,RISC-V架構已從無人問津變成了能夠挑戰(zhàn)ARM架構的最強勇者。究其原因,無外乎開源、自由、簡單等原因,更關鍵的是隨著經(jīng)濟逆全球化趨勢凸現(xiàn),中美更存在著貿(mào)易進一步脫鉤的可能。有著臺積電、英偉達等“卡脖子”的前車之鑒,國內(nèi)的半導體廠商與芯片工程師愈發(fā)關注如何針對Arm進行“國產(chǎn)替代”,RISC-V逐漸成為“全村的希望”。
不過,“國產(chǎn)替代”終究是在走替代的道路,要想實現(xiàn)如今ARM那樣成熟的生態(tài),年輕的RISC-V的路還有很長。但正如武俠小說中,主角往往都能在機緣巧合下獲得傳世法寶或頂級武功秘籍,RISC-V似乎也迎來了它的機遇——AI時代。
如果說曾經(jīng)的RISC-V是沿著ARM的道路前行,努力做好“替代”的工作,那AI時代的RISC-V就獲得了超越ARM的機會。
RISC-V不止替代,為什么?
另起爐灶,沒包袱
圖源:攝圖網(wǎng)
相對ARM來說,RISC-V擁有的最大優(yōu)勢就是輕量化與開源性。
就輕量化來說,這可能并不算是一個優(yōu)點。雖然芯片僅能聽懂0與1組成的二進制命令(機器語言),但工程師能指揮芯片完成多種多樣的復雜計算并不需要使用這些,而是可以使用類似命令行的文本來控制它,這就離不開建立在芯片之上的各種指令集。
指令集本質(zhì)上是操控芯片執(zhí)行任務的機器語言或電信號的集合,每個指令對應著一個電路,輸入一些電信號,芯片就會返回一些電信號。它可以被分為復雜指令集CISC(Complex Instruction Set Computer)與精簡指令集RISC(Reduced Instruction Set Computing)。事實上,無論是復雜還是精簡,它們之間并無優(yōu)劣之分,只是在面對不同應用環(huán)境的時候會展現(xiàn)出不同的性能表現(xiàn)。例如在執(zhí)行較復雜命令,對功耗要求不那么高的PC平臺上,屬于CISC的X86指令集幾乎一統(tǒng)天下,而在移動端領域,CISC較高的功耗需求,讓屬于RISC的ARM占據(jù)了絕對優(yōu)勢。
不過就RISC-V與其競爭對手ARM而言,他們都屬于RISC指令集的一種,替代ARM,RISC-V優(yōu)勢在哪?
進入2023年,AI讓芯片的算力得到無與倫比的表現(xiàn)。作為軟件,AI可以說已經(jīng)榨干了所有芯片的極限。而當摩爾定律腳步放緩,硬件成長速度變慢,算力從哪來?突破摩爾定律,RISC-V似乎比ARM更有優(yōu)勢。
目前,面對AI算法對硬件算力的壓榨,實行專用架構,或者說對AI算法進行特定優(yōu)化的芯片成為化解高算力需求的新趨勢。ARM與X86,作為老牌指令集,它們內(nèi)部有著諸多“陳年代碼”類似的問題——“shit山”,換種文雅的說法就是歷史遺留指令太多,后續(xù)工程師很難再對現(xiàn)有指令進行更新或添加。很多讀者或許下載過ARM官方的文檔介紹,幾千頁讀下來,熟練掌握尚且困難,推陳出新更是難辦。多指令模式更為ARM架構設計增添了復雜性。因此,在指令集的擴展方面,年輕的RISC-V天然具有極大優(yōu)勢。
目前,專用芯片可以分為常規(guī)的CPU、GPU,以及FPGA與ASIC。芯片從CPU到ASIC,專用性依次提升,但通用性也相應下降。ASIC作為專用芯片,它甚至只能跑固定算法,不過換來的則是超越所有芯片的運行速度與更低的功耗。有數(shù)據(jù)顯示,相對同級別CPU、GPU,該類ASIC芯片可提高運算性能15倍至30倍,并提高能耗效率30倍至80倍。不過,目前AI算法還正處于快速迭代中,將算法直接固定下來顯然不劃算。因此,專用性與通用性兩手抓的DSA架構與FPGA受到更多的關注。
2017年,David Patterson與John Hennessy在“體系結構的黃金年代”主題演講中提出了DSA架構。相比FPGA,DSA更像是ASIC的升級版或回調(diào)版,而不是FPGA的改進。DSA可以為某類應用進行特定優(yōu)化,實現(xiàn)更高的能效比。在RSIC-V高靈活性優(yōu)勢的加持下,DSA架構還能發(fā)揮出更多優(yōu)勢,其中就包括能耗。從另一方面來說,目前FPGA已經(jīng)較為成熟,已經(jīng)有不少服務器用上了FPGA,但在新興的邊緣計算領域,由于對功耗較為敏感,DSA正在獲取更多市場。
總的來說,更“年輕”的RISC-V擁有比ARM和X86更好的靈活性與擴展性。在邊緣AI計算對算力、功耗均有較高要求的條件下,DSA架構正在快速發(fā)展,RISC-V作為更靈活的指令集,則更加搭配DSA架構。
更適合小模型
圖源:攝圖網(wǎng)
RISC-V并不是適合所有的AI模型。很明顯,在AI大模型方面,由于其需要的極高算力與超高的相關資源消耗,讓幾乎所有RISC指令集望而卻步。以ChatGPT這類大模型為例,據(jù)OpenAI測算,ChatGPT訓練階段總算力消耗約為3640 PF-days(約1PFLOP/s效率跑3640天),GPT-3訓練成本預計能達到500萬美元/次。
邊緣AI,無法承載大模型對算力的高需求,瞄準單一領域、對算力要求相對低的小模型AI則可以施展拳腳,RISC-V的機會就來了。尤其是物聯(lián)網(wǎng)領域,RISC-V已經(jīng)展現(xiàn)出了優(yōu)勢。前文提到,RISC-V的輕量化帶來靈活性優(yōu)勢,這一點也正好匹配了IOT領域的發(fā)展。2021年,RISC-V芯片數(shù)量已經(jīng)突破10億顆,其中最多應用在語音識別、AI視覺、智能家電、工業(yè)控制、物聯(lián)網(wǎng)安全等領域。
從算法角度來說,更高自由度的RISC-V指令集恰好與需要更快速迭代與高算力的AI算法相匹配。墨滴論壇專家表示:“RISC-V的指令集可以根據(jù)具體的應用需求進行裁剪和定制,因此可以更好地適應不同的AI算法,包括深度學習、神經(jīng)網(wǎng)絡等?!备匾氖?,AI算法,無論是大模型還是小模型,都離不開算力屬性的支持。既要算力高,又要迭代快適應廣,更輕更便捷的RISC-V非常適合。
還有一點非常重要,在ARM的絕對優(yōu)勢區(qū)域IP領域,RISC-V還擁有殺手锏。首先,由于RISC-V指令集非常靈活,在設計芯片時,單個IP可以更加靈活的進行組合或重構(自行增減指令集或者核心數(shù)量),而不是必須遵守ARM的IP協(xié)議,較死板的應用高價買來的IP核。簡單來說,RISC-V的IP相比ARM還能繼續(xù)“拆解”,以解決芯片設計的多種情況。同時,這也為RISC-V架構帶來了更高的擴展性,設計師可以像玩樂高積木一樣任意拆分模塊,組合出理想中的芯片來。
總結一下,如今AI大流行時代,云端AI模型正逐漸向覆蓋面積更廣闊的邊緣移動。高自由度的組合形式為RISC-V帶來更強的靈活性,也更加契合邊緣AI的發(fā)展。
AI時代,RISC-V怎么開拓市場?
圖源:攝圖網(wǎng)
就ARM或X86的選擇上,一家中小規(guī)模的公司,一旦選擇在某個指令集上發(fā)力,就要投入大量人力資源去迎合。那么RISC-V怎么從早已成熟的ARM架構中搶奪本來就稀缺的芯片人才呢?
記者在南京世界半導體大會上采訪到了時擎科技董事長蔣壽美。他表示,其實應用RISC-V指令集并不會給芯片設計工程師造成很大困難。ARM與RISC-V之間的切換,就像是具有數(shù)據(jù)結構知識的程序員,在C語言與Python之間的切換一樣。變化的只是指令,不變的是整體的設計理念。蔣壽美認為,一個熟練掌握ARM架構的設計師,可能僅需半個月就能切換到RISC-V的開發(fā)上來。
對于RISC-V來說,AI是個風口,但也埋藏危機。曾經(jīng)元宇宙與區(qū)塊鏈的概念都紅極一時,不過僅一兩年的時間過后,很多廠商就已經(jīng)倒閉或撤資,吹起來的泡沫也一一破裂。當AI退潮,RISC-V是否在裸泳呢?
就目前來看,AI的浪潮與過去元宇宙和區(qū)塊鏈的爆火并不相同。AI其實已經(jīng)切實的提升了整體生產(chǎn)力。更關鍵的是,AI的發(fā)展并不是一蹴而就,從阿爾法狗戰(zhàn)勝李世石的驚世棋局,再到ChatGPT引發(fā)的另一個“iPhone時刻”,AI已經(jīng)高速發(fā)展了很久,它經(jīng)歷了多次互聯(lián)網(wǎng)寒冬,橫跨了多個爆發(fā)的熱點技術。記者從多家企業(yè)中了解到,目前很多企業(yè)都將研發(fā)重點押寶AI,尤其是邊緣計算,包括AI語音、AI視覺甚至AI交互。今天的發(fā)展成果,還遠不及AI所能達到的頂點。AI從未止步,RISC-V也未停歇。
總結
從宏觀角度看,RISC-V的發(fā)展還遠遠不及ARM。龐大的生態(tài)體系與眾多的開發(fā)者是RISC-V難以逾越的鴻溝。不過正因如此,RISC-V也具備了更輕量化的指令集,“船小好調(diào)頭”成為AI時代的重要優(yōu)勢。隨著硬件技術的發(fā)展,更搭AI的RISC-V正從替代ARM,一步步走向與ARM并肩前行的未來。