加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • CPU+GPU成為AI異構(gòu)計算主要方式
    • 大模型時代,AI芯片三大挑戰(zhàn)
    • 破解異構(gòu)算力三重難題
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

AI大模型這艘“燒錢”游輪上,中國芯片如何乘風破浪?

2023/12/01
4403
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2023年,大模型的突破和生成式AI的興起,正在引領(lǐng)AI產(chǎn)業(yè)邁入智能創(chuàng)新的新階段,同時也將引發(fā)算力架構(gòu)的新變局。

根據(jù)最新發(fā)布的《2023-2024年中國人工智能計算力發(fā)展評估報告》,全球人工智能硬件市場(服務器)規(guī)模將從2022年的195億美元增長到2026年的347億美元,五年年復合增長率達17.3%;在中國,預計2023年中國人工智能服務器市場規(guī)模將達到91億美元,同比增長82.5%,2027年將達到134 億美元,五年年復合增長率達21.8%。中國算力市場、特別是智算領(lǐng)域,正在蓬勃發(fā)展。

CPU+GPU成為AI異構(gòu)計算主要方式

大模型時代,構(gòu)建和調(diào)優(yōu)生成式AI基礎(chǔ)模型以滿足應用需求,將為整個基礎(chǔ)設(shè)施市場帶來改變和發(fā)展機遇。 “以應用為導向、系統(tǒng)為核心”,將是未來算力升級的主要路徑。

從技術(shù)發(fā)展視角來看,異構(gòu)計算仍然是芯片發(fā)展趨勢之一。在單一系統(tǒng)中,異構(gòu)計算通過利用不同類型的處理器(如CPU、GPU、ASIC、FPGA、NPU等)協(xié)同工作,執(zhí)行特定任務,以優(yōu)化性能和效率,更高效地利用不同類型的計算資源,滿足不同的計算需求。比如,通過發(fā)揮GPU并行處理能力,可以提高模型,尤其是大模型的訓練速度和效率;在數(shù)據(jù)預處理、模型調(diào)優(yōu)等階段,可以使用CPU進行計算和決策,或在控制和協(xié)調(diào)計算資源(如GPU、FPGA等) 的工作過程中使用CPU,以確保計算過程的順利進行;此外,可通過使用FPGA進行推理加速,從而將模型實現(xiàn)在邊緣設(shè)備的部署,以開展更快速的實時推理工作。

IDC調(diào)查研究顯示,截至2023年10月,中國市場普遍認為“CPU+GPU”的異構(gòu)方式是AI異構(gòu)計算的主要組合形式。


圖:人工智能訓練和推理工作負載選用的計算架構(gòu)
(來源:《2023-2024年中國人工智能計算力發(fā)展評估報告》)

大模型時代,AI芯片三大挑戰(zhàn)

AI算力需求的提升給中國本土芯片廠商的發(fā)展提供了較大的空間,帶來新的機遇。IDC預計,2023年中國人工智能芯片出貨量將達到133.5萬片,同比增長 22.5%。

在面臨廣闊機會的同時,大模型時代,我國AI芯片也面臨著新的發(fā)展挑戰(zhàn)。首先,與國際領(lǐng)先AI芯片差距較大,以英偉達最新發(fā)布的H200 GPU為例,性能已經(jīng)達到其A100 GPU近5倍。而我國AI芯片的大模型集群訓練性能,只有個別接近A100/A800,大多數(shù)不到其性能的50%,這也意味著,我國AI芯片在大模型訓練性能方面,與國際領(lǐng)先水平約是3年的代際差距。

其次,生態(tài)方面,英偉達的CUDA經(jīng)過17年、累計超過100億美元的資金投入,全球開發(fā)者已經(jīng)超過300萬,成為全球AI開發(fā)處于壟斷地位的基礎(chǔ)庫。反觀國內(nèi)AI芯片企業(yè),整體市場占有率加起來不超過10%,且各家AI芯片軟件各異、生態(tài)零碎割裂。

此外,在當前時代背景下,我國AI芯片產(chǎn)能受阻、向高端芯片進階關(guān)鍵技術(shù)受限等,也在一定程度上制約了AI芯片的發(fā)展。

破解異構(gòu)算力三重難題

基于當前現(xiàn)狀,北京智源人工智能研究院副院長兼總工程師林詠華提出,大模型時代,我國異構(gòu)算力主要面臨三重束縛。

異構(gòu)算力束縛一:不一樣的算力,不能合池訓練

具體而言,當前異構(gòu)混合分布式訓練存在如下挑戰(zhàn):不同架構(gòu)設(shè)備的軟硬件棧不兼容,數(shù)值精度也可能存在差異;不同架構(gòu)設(shè)備之間很難高效通信;不同設(shè)備算力和內(nèi)存不同,很難進行負載均衡切分。

這些挑戰(zhàn)很難一次性解決,目前智源已經(jīng)嘗試在相同架構(gòu)不同代際設(shè)備或者在兼容架構(gòu)的不同設(shè)備上進行異構(gòu)訓練,未來將探索不同架構(gòu)設(shè)備上的異構(gòu)訓練。FlagScale是一個支持多廠商異構(gòu)算力合池訓練的框架,當前實現(xiàn)了異構(gòu)流水線并行及異構(gòu)數(shù)據(jù)并行兩種模式。

  • 異構(gòu)流水線并行:在該模式實際訓練時,可以跟數(shù)據(jù)并行、張量并行以及序列并行進行混合來實現(xiàn)高效訓練。根據(jù)反向傳播算法內(nèi)存使用特點,該模式適合將內(nèi)存比較大的設(shè)備放在流水線并行靠前的階段,內(nèi)存小的設(shè)備放在流水線并行靠后的階段,然后根據(jù)再設(shè)備的算力來分配不同的網(wǎng)絡層來實現(xiàn)負載均衡。
  • 異構(gòu)數(shù)據(jù)并行模式:在該模式實際訓練時,可以跟張量并行、流水線并行以及序列并行進行混合來實現(xiàn)大規(guī)模高效訓練。算力和內(nèi)存都比較大的設(shè)備將處理較大的微批次大小,而算力和內(nèi)存都比較小的設(shè)備將處理較小的微批次大小,從而實現(xiàn)不同設(shè)備上的負載均衡。

根據(jù)智源所展示的在英偉達和天數(shù)智芯集群的三組異構(gòu)混合訓練實驗結(jié)果,顯示異構(gòu)混合訓練收益較好,在三種配置情況下接近甚至超過了性能上限,這說明異構(gòu)混合訓練的效率損耗較低,獲得了較好的訓練收益。

林詠華介紹,異構(gòu)算力合池訓練框架FlagScale正在實現(xiàn)英偉達算力集群與天數(shù)智芯算力集群的異構(gòu)合池訓練,未來將實現(xiàn)更多不同中國廠商算力集群之間的異構(gòu)合池訓練,推動不同廠商異構(gòu)芯片的通信庫標準化,實現(xiàn)高速互通互聯(lián)。

她表示,在芯片的迭代更新過程中,肯定存在新、舊代際芯片混用的過程,希望繼續(xù)攻關(guān)兼容異構(gòu)芯片的混合訓練技術(shù),也希望在同一個數(shù)據(jù)中心,各種商業(yè)資源可以靈活組合,將性能和效率最大化。

異構(gòu)算力束縛二:受CUDA制約,算子庫在不同硬件上適配難度大

當前,我國AI芯片軟件生態(tài)薄弱,主流AI框架以支持英偉達芯片為主。對于國產(chǎn)AI芯片來說,需要適配多款框架,每次AI框架版本升級,需要重復適配;同時,各AI芯片廠商有自己的底層軟件棧,彼此不兼容。

在大模型需求下,上述問題帶來三大影響:第一,針對大模型需要的算子及優(yōu)化方法缺失,導致模型無法運行或者運行效率低;第二,會出現(xiàn)因為芯片架構(gòu)和配套的軟件實現(xiàn)差異而帶來的精度誤差問題;第三,要在國產(chǎn)AI芯片上實現(xiàn)大模型訓練,需要大量移植工作,適配遷移成本很高。

對此,林詠華認為,構(gòu)建公共的AI芯片開放軟件生態(tài)非常關(guān)鍵,結(jié)合大模型研究和發(fā)展需求,基礎(chǔ)架構(gòu)層面要構(gòu)建基于下一代開放、中立的AI編譯器中間層,并且要適配PyTorch框架,支持開源編程語言及編譯器擴展。下一步,要繼續(xù)探索最大化硬件基礎(chǔ)架構(gòu)性能和利用率的共性核心技術(shù),對典型和復雜算子的軟硬件協(xié)同極限優(yōu)化,使得成果開源開放,高效支撐大模型訓練。

異構(gòu)算力束縛三:芯片架構(gòu)、軟件各異,評測難度大,影響落地進展

當前,AI芯片企業(yè)眾多,各自架構(gòu)和開發(fā)工具鏈不同,且AI框架眾多,再加上層出不窮的場景和復雜多變的模型,導致適配工作量大、開發(fā)復雜度高、評測標準難統(tǒng)一,影響了產(chǎn)品的落地和規(guī)?;瘧?。

林詠華認為,AI異構(gòu)芯片的評測,對行業(yè)生態(tài)有重要價值。當前,業(yè)界缺少被廣泛認可的、中立的、開源開放的、針對異構(gòu)芯片的評測體系。應該建立開源的AI芯片評測項目,具體包括基礎(chǔ)環(huán)境、異構(gòu)芯片基礎(chǔ)軟件、測試集等,對模型運行的支持情況、芯片的訓練時間和計算吞吐量、芯片和服務器其他零部件的使用情況、芯片對不同框架和軟件生態(tài)的支持能力等方面,進行全方位評測。

寫在最后

AI大模型的發(fā)展提升了智能算力的需求。IDC數(shù)據(jù)顯示,2022-2027年,我國智能算力規(guī)模年復合增長率達33.9%,超越同期通用算力規(guī)模16.6%的年復合增長率。

本土AI芯片廠商正面臨著新的機遇和挑戰(zhàn)。針對單芯片算力的瓶頸問題、多芯片異構(gòu)合池訓練難題,以全局思維打造算力基礎(chǔ)設(shè)施平臺成為未來的關(guān)鍵。特別是在構(gòu)建與硬件匹配的軟件生態(tài),包括操作系統(tǒng)、中間件和工具鏈等方面,隨著大模型從基礎(chǔ)研發(fā)走向應用落地,軟件基礎(chǔ)設(shè)施的重要性和價值將會進一步凸顯。 這也是大模型在完成了“從0到1”的預訓練之后,在通往“從1到100”的應用和大規(guī)模落地過程中,AI芯片作為核心基礎(chǔ)環(huán)節(jié)必須完成的修煉,也將給中國AI芯片產(chǎn)業(yè)帶來深遠的影響。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
STM32F030C8T6TR 1 STMicroelectronics Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

ECAD模型

下載ECAD模型
$3.41 查看
ATXMEGA256A3U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.71 查看
STM32H750VBT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

ECAD模型

下載ECAD模型
$27.62 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~