2023年10月,六部門聯合發(fā)布《算力基礎設施高質量發(fā)展行動計劃》,其中明確了全國算力在未來三年的建設步調。
2024年2月,國資委召開“AI賦能產業(yè)煥新”中央企業(yè)人工智能專題推進會,強調央企要把發(fā)展人工智能放在全局工作中統(tǒng)籌謀劃,把主要資源集中投入到最需要、最有優(yōu)勢的領域,加快建設智算中心。
與此同時,近兩年ChatGPT、AIGC、Sora等人工智能的話題引爆全世界,大模型走向多模態(tài)化,傳統(tǒng)的數據中心開始向智算中心改革。
什么是智算中心?
作為AI技術產業(yè)化的重要引擎,智算中心可為各類AI應用提供強大的算力支持、數據處理能力和先進的算法服務,而其關鍵功能在于其算力資源的高效生產、聚合、智能調度和精準釋放,這些能力將共同促進數據的開放共享、智能生態(tài)系統(tǒng)的構建以及產業(yè)創(chuàng)新的集聚。
換言之,智算中心是服務于人工智能的數據計算中心,包括人工智能、機器學習、深度學習等需求,從而賦能產業(yè)發(fā)展。
根據IDC的《2021-2022全球計算力指數評估報告》,一個國家的計算力指數每提高1點,數字經濟將增長3.5‰,GDP將增長1.8‰。
也正是因為智算中心的這些特性,國家才在重點布局數據中心,中國國內的設備供應商也在積極參與到AI領域,尤其在智算中心設備方面。
智算中心需要怎樣的算力支撐?
智算中心將算力資源全面解耦,以追求計算、存儲資源極致的彈性供給和利用。
當前,智算中心的訓練大都以GPU為主。那么,以GPU為主的算力真的是未來智算中心的最優(yōu)選擇嗎?
業(yè)內有一種說法:“在高性能計算領域,算力的競爭歸根結底是能耗效率的較量?!睋Q言之,在AI和大數據時代,對于算力的需求日益增長,而能源消耗和成本效益成為了衡量計算解決方案競爭力的重要指標。因此,設計低能耗、高效率的算力解決方案對于確??沙掷m(xù)發(fā)展和經濟效益至關重要。
而對于智算中心的建設來講,相比以GPU為主要硬件底座的方案,采用AI芯片的方案可能在特定任務上提供更高的性能或更低的能耗,并針對特定類型的AI模型或應用進行優(yōu)化,從而提供更高的效率。
國產 AI 芯片系統(tǒng)方案商業(yè)落地加速
目前,國產算力隨著性能和易用性的提升,正逐漸獲得國內大模型和人工智能應用企業(yè)的青睞。
在2024 WAIC上,我們看到以燧原科技為代表的國產算力提供商,已經在智算中心領域實現了“從一到多” 的合作落地,進展還是不錯的。
圖 | 燧原科技2024 WAIC 展臺,來源:燧原科技
根據燧原科技提供的信息顯示,當前燧原科技的二代產品已經落地之江實驗室、成都智算中心、宜昌點軍智算中心(300P算力)和慶陽智算中心(50000P算力)等大型算力中心。其中,點軍智算中心僅用一年就完成了300P國產算力的建設,自2024年1月運行至今,300P算力已經實現全消納,所有的板卡和服務都開起來,而且不停地有業(yè)務在上面跑。
針對以上智算中心的建設過程與成果,筆者簡單采訪了燧原科技軟件工程師,作為項目的一線參與者,他表示:“雖然模型算法是通用的,但是我們還是做了不少適配和調試的工作;此外,要保障如此大規(guī)模的算力平臺能夠穩(wěn)定、有序地運行和調度,我們也做了一些快速而特色的部署,而對于異構的多地部署算力在這一塊,則還需要軟硬件協調去解決這個問題?!?/p>
談到過去一年,燧原科技在軟硬件上面最大的進步,這位工程師坦誠道:“我是做軟件的,當我們將大模型從其他硬件平臺遷移到我們平臺時,初期的效率可能只有其他平臺的30%-40%,經過我們的軟件適配和調優(yōu),模型的輸出能力可以逐步上升至70%-80%,再到110%-120%。事實上,當前在軟件側最大的提升其實是其業(yè)務性,因為我們之前的平臺遷移需要花比較大的努力,而現在對于我們的客戶來說,遷移成本已經變得非常小。假設之前要花一個月的時間才能將模型輸出能力爬坡到一個良好的水平,現在只需要花3-4天,甚至1-2天的時間就能達到相同效果?!?/p>