日前,2023人工智能計算大會(AICC)在北京召開。大會以“智算力就是創(chuàng)新力”為主題,現(xiàn)場發(fā)布了《2023-2024年中國人工智能計算力發(fā)展評估報告》(簡稱報告)、《北京市人工智能行業(yè)大模型創(chuàng)新應用白皮書(2023年)》(簡稱白皮書),并舉行了北京人工智能公共算力平臺點亮儀式,同時發(fā)布首批104GB中文互聯(lián)網(wǎng)語料庫。
2023年,中國智能算力規(guī)模同比增長59.3%
國際數(shù)據(jù)公司(IDC)與浪潮信息聯(lián)合發(fā)布《2023-2024年中國人工智能計算力發(fā)展評估報告》。報告顯示,人工智能正在加速從感知智能到生成式智能邁進,中國人工智能算力市場規(guī)模快速成長擴大。2023年,中國人工智能服務器市場規(guī)模將達91億美元,同比增長82.5%;智能算力規(guī)模預計達到414.1EFLOPS(每秒百億億次浮點運算),同比增長59.3%;2022-2027年期間,年復合增長率預計達33.9%。
中國智能算力規(guī)模及預測,2020-2027
該報告指出,當前在AIGC的帶動下,人工智能計算力技術及應用趨勢發(fā)生了較大的變化,體現(xiàn)為“三變:
一是計算范式之變。大模型和AIGC的發(fā)展加速了更高計算性能、更快互聯(lián)性能的算力基礎設施建設,推進人工智能在云-邊-端的覆蓋。此外,伴隨應用場景多樣性,底層基礎設施呈現(xiàn)多元化發(fā)展。
二是產(chǎn)業(yè)動量之變。AIGC可重構現(xiàn)有的工作方式,在內(nèi)容創(chuàng)作、自動駕駛、零售、醫(yī)療等諸多領域改變著人們的生活和生產(chǎn)方式,同時也帶來更大的市場機會。算力、算法、應用、服務等諸多產(chǎn)業(yè)變量將成為創(chuàng)新的加速器,在算力生態(tài)鏈上的各個環(huán)節(jié)催生出新的玩家。
三是算力服務格局之變。由于基礎大模型的本地訓練成本不菲,企業(yè)將更多地使用已有的人工智能數(shù)據(jù)中心設施和生成式AI服務器集群,這將為算力服務市場帶來新機會。算力服務供應商要能夠提供定制化的基礎設施服務能力,滿足單個用戶對訓練和推理資源的獨占式、大規(guī)模、長時間使用的訴求,同時幫助用戶實現(xiàn)成本控制。
生成式AI時代,智算力系統(tǒng)面臨三重挑戰(zhàn)
浪潮信息高級副總裁劉軍進行了《智算力系統(tǒng)創(chuàng)新,加速生成式AI的產(chǎn)業(yè)發(fā)展》的主題演講。他認為,生成式AI給算力系統(tǒng)帶來的挑戰(zhàn)主要有三方面:計算、數(shù)據(jù)和互聯(lián)。
首先在計算層面,全球高端的AI訓練芯片百花齊放,當前已經(jīng)有40余種。由于不同芯片廠商采用的技術路線不同,在接口互聯(lián)協(xié)議方面存在較多不兼容的情況,從而給AI算力系統(tǒng)帶來開發(fā)適配周期長、定制開發(fā)投入大、業(yè)務遷移時間久等問題。
由于大模型訓練對算力規(guī)模要求高,那么在單芯片算力有限的情況下,為了獲得更高的訓練性能,必須通過擴展集群規(guī)模來獲得性能的擴展。
第二,數(shù)據(jù)存儲方面,由于大模型正在從單模態(tài)向多模態(tài)、跨模態(tài)演進,這其中涉及文本、圖像、音頻、視頻等多態(tài)數(shù)據(jù),訓練數(shù)據(jù)集通常會達到TB級甚至PB級。同時,大模型在訓練和推理的不同階段中對數(shù)據(jù)存儲的要求也不同。
第三,互聯(lián)方面,傳統(tǒng)RoCE網(wǎng)絡因ECMP哈希不均導致40%以上的網(wǎng)絡帶寬被浪費,且尾時延高導致網(wǎng)絡通信時間占比訓練時間高達40%,極大降低了計算效率。此外,網(wǎng)絡作為集群的共享資源,網(wǎng)絡故障以及性能波動,會影響到所有計算資源的利用率。
面對三重挑戰(zhàn),浪潮信息總結了多年產(chǎn)品研發(fā)和用戶服務經(jīng)驗,提出三部分解決之道。
在計算方面,首先要解決多元算力的問題。可以預見,未來在相當長時間內(nèi),一定是多元算力芯片共存的局面。浪潮信息希望通過統(tǒng)一的系統(tǒng)架構和接口規(guī)范兼容各類多元的AI芯片,從而能夠保障芯片算力的高效釋放。據(jù)介紹,浪潮信息從2018年就開始打造開放多元的AI算力平臺,最新發(fā)布的新一代G7多元算力平臺,是業(yè)界目前唯一可以同時兼容SXM、OAI加速卡并實現(xiàn)8卡全互聯(lián)、16卡全互聯(lián)和混合立方互聯(lián)系統(tǒng)拓撲的AI算力平臺。通過多元算力平臺的構建,浪潮信息顯著降低了新型AI加速卡的上市時間,降低了整體開發(fā)的成本,也保證了搭配不同AI芯片的系統(tǒng),具備良好的一致性品質。
為了保障更大規(guī)模的集群擴展性能,浪潮信息研發(fā)了開放加速的計算架構,在節(jié)點內(nèi)和跨節(jié)點的互聯(lián)可以做到896GB/s的互聯(lián)帶寬,支持PCIe、RoCE多協(xié)議擴展,使得整個集群性能加速比超過90%以上。
在數(shù)據(jù)存儲方面,浪潮信息在業(yè)界率先實現(xiàn)了一套集群系統(tǒng)同時支持文件、對象、大數(shù)據(jù)等多種非結構化協(xié)議的無損互訪,同時支持閃存、磁盤、磁帶、光盤四類存儲介質,并支持數(shù)據(jù)全生命周期熱、溫、冷、冰四級存儲管理,以一套存儲架構支持一個數(shù)據(jù)中心,真正實現(xiàn)了數(shù)據(jù)融合、管理融合。
在互聯(lián)創(chuàng)新方面,浪潮信息專為生成式AI計算場景發(fā)布旗艦51.2T高性能交換機,為企業(yè)級智算網(wǎng)絡提供高吞吐、高可擴展、高可靠的智算網(wǎng)絡產(chǎn)品及方案,解決了傳統(tǒng)RoCE方案普遍存在的有效帶寬低、尾時延高、故障收斂慢等問題,將大模型訓練性能提升38%以上,性能接近InfiniBand,助力AI用戶高效釋放大模型生產(chǎn)力。
“以應用為導向、系統(tǒng)為核心”是算力升級新路徑
大模型和AIGC的發(fā)展提升了智能算力需求,給計算市場帶來了發(fā)展機遇,同時也帶來了算力緊缺等挑戰(zhàn)。對此,《2023-2024年中國人工智能計算力發(fā)展評估報告》指出:面對單芯片算力瓶頸、算力緊缺等問題,中國市場對于智能算力供給能力的衡量標準將發(fā)生變化——評估指標將從硬件性能向應用效果轉變,用戶在獲得算力服務的過程中,會更加以應用為導向進行綜合考量,增加對于諸如單位時間可處理Token數(shù)量、可靠性、時延、訓練時間和資金成本、數(shù)據(jù)集質量等指標的關注。
針對這一轉變,算力供應商需要“以應用為導向、系統(tǒng)為核心”,構建算力基礎設施平臺,提高算力利用率,提升諸如卡間互聯(lián)、多節(jié)點間互聯(lián)等水平,支持靈活穩(wěn)定擴展和彈性容錯,打造通用的人工智能軟件和硬件平臺,以先進的系統(tǒng)性能力滿足市場的應用需求。根據(jù)報告建議,與其過分關注單一芯片的性能強弱,不如根據(jù)AI業(yè)務場景需求,設計更具針對性的算力系統(tǒng),實現(xiàn)整體性能最優(yōu)。