作為“人工智能+”時(shí)代的算力基礎(chǔ)設(shè)施,智算中心的建設(shè)步入了提質(zhì)加速的黃金發(fā)展期。據(jù)不完全統(tǒng)計(jì),僅今年前7個(gè)月,我國圍繞土建基礎(chǔ)設(shè)施和IT基礎(chǔ)架構(gòu)等方面的建設(shè)內(nèi)容,所發(fā)布的智算中心相關(guān)項(xiàng)目中標(biāo)公告就超過140個(gè)。
9月25日—27日,2024年國際信息通信展在北京召開,智算產(chǎn)業(yè)上下游企業(yè)紛紛展出算力中心及相關(guān)配套設(shè)施,以及算力對(duì)行業(yè)客戶賦能的具體應(yīng)用案例。近日,通信世界全媒體記者采訪了中國聯(lián)通研究院副院長唐雄燕,聽其深入解讀智算中心行業(yè)發(fā)展趨勢。
01、技術(shù)創(chuàng)新引領(lǐng)邁向十萬卡規(guī)模智算集群
如今,“更大”“更快”“更智能”“更綠色”的算力設(shè)施建設(shè),漸成趨勢。
在唐雄燕看來,2024年是智算中心技術(shù)迅速崛起的關(guān)鍵一年,目前智算中心研究熱點(diǎn)主要集中在模型技術(shù)、芯片技術(shù)、集群技術(shù)、互聯(lián)互通、綠色低碳等方面。
在模型技術(shù)方面,2024年以來在細(xì)分領(lǐng)域?qū)崿F(xiàn)多次技術(shù)創(chuàng)新,特別是模型壓縮及優(yōu)化、分布式訓(xùn)練及推理、模型參數(shù)及優(yōu)化、數(shù)據(jù)清洗及增強(qiáng)、模態(tài)融合及轉(zhuǎn)換等環(huán)節(jié)。這些環(huán)節(jié)的技術(shù)創(chuàng)新使得模型更加高效、精準(zhǔn),為各種智能應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。
芯片技術(shù)領(lǐng)域也取得較大突破。唐雄燕表示,目前面向智算中心多核、多芯片的算效提升成為焦點(diǎn),計(jì)算芯片、存儲(chǔ)新芯片、互聯(lián)芯片協(xié)同發(fā)展。光計(jì)算芯片的突破帶來了更高的計(jì)算速度,GPU性能的提升為大規(guī)模數(shù)據(jù)處理提供了強(qiáng)大動(dòng)力,存算一體技術(shù)的發(fā)展有效提高了數(shù)據(jù)處理效率,芯片互聯(lián)技術(shù)的進(jìn)步則實(shí)現(xiàn)了更高效的協(xié)同工作。
集群技術(shù)的突破同樣令人矚目,2024年以來國內(nèi)外企業(yè)在單體規(guī)模、互聯(lián)互通、綠電低碳等領(lǐng)域不斷突破。在單體規(guī)模上,萬卡及超萬卡集訓(xùn)迅速推進(jìn),Meta、微軟、OpenAI、xAI等多家AI巨頭陸續(xù)宣布建成10萬卡集群。智算中心已從千卡、萬卡,邁入十萬卡大關(guān)。在互聯(lián)互通上,則聚焦在集群低時(shí)延互連網(wǎng)絡(luò)技術(shù)方面,包括單體智算中心內(nèi)、跨智算中心協(xié)同兩方面。高速、低時(shí)延的網(wǎng)絡(luò)連接可減少數(shù)據(jù)傳輸的延遲,提高集群的整體效率,對(duì)智算中心集群的性能至關(guān)重要。2024年工業(yè)和信息化部等七部門發(fā)文要求加快超大規(guī)模智算中心、突破集群低時(shí)延互連網(wǎng)絡(luò)技術(shù)。而在綠電低碳上,目前設(shè)備液冷、協(xié)同優(yōu)化節(jié)能調(diào)度等細(xì)分領(lǐng)域成果不斷涌現(xiàn),如三江源綠電智算示范和AI算力低碳節(jié)能管控等。
02、兩大優(yōu)勢顯著下好智算融合“先手棋”
在智算中心的布局和建設(shè)方面,中國聯(lián)通有著清晰而宏大的戰(zhàn)略規(guī)劃。中國聯(lián)通圍繞人工智能大模型訓(xùn)練等前沿場景,持續(xù)加強(qiáng)與全產(chǎn)業(yè)鏈交流合作,打造“全面覆蓋、技術(shù)領(lǐng)先、綠色低碳、智慧安全”的適智化能力底座。創(chuàng)新性地提出了“1+N+X”的智算能力布局,聚焦重點(diǎn)城市構(gòu)建AIDC發(fā)展高地,猶如精心籌劃一盤棋局。
第一式,智算資源廣覆蓋。唐雄燕介紹,中國聯(lián)通“1+N+X”智算能力布局,打造1個(gè)超大規(guī)模單體智算中心,集中資源處理大規(guī)模計(jì)算任務(wù),提高資源利用效率;N個(gè)智算訓(xùn)推一體樞紐,根據(jù)不同地區(qū)和行業(yè)需求靈活調(diào)配計(jì)算資源,實(shí)現(xiàn)資源的優(yōu)化配置;屬地化的X個(gè)智算推理節(jié)點(diǎn),充分利用本地計(jì)算資源,為本地用戶提供快速、高效的服務(wù),減少數(shù)據(jù)傳輸?shù)难舆t和成本。
第二式,智算網(wǎng)絡(luò)強(qiáng)助力。唐雄燕認(rèn)為,智算布局方面,運(yùn)營商的獨(dú)特優(yōu)勢更在于智算互聯(lián)和算網(wǎng)協(xié)同。為此,中國聯(lián)通推出專為人工智能發(fā)展需求設(shè)計(jì)的算力智聯(lián)網(wǎng),它包括廣域網(wǎng)、數(shù)據(jù)中心網(wǎng)絡(luò)以及實(shí)現(xiàn)計(jì)算和網(wǎng)絡(luò)協(xié)同編排的算網(wǎng)大腦。提供超強(qiáng)運(yùn)力的全光底座,實(shí)現(xiàn)算力資源高效互聯(lián),可以為智算中心提供高性能、高通量、高智能的堅(jiān)實(shí)網(wǎng)絡(luò)底座。
03、智算中心三大趨勢顯現(xiàn)
回顧并展望AI和智算中心的發(fā)展脈絡(luò),唐雄燕認(rèn)為有三大趨勢清晰可見。
一是算力多元異構(gòu)融合及國產(chǎn)化趨勢。在融合方面,模型訓(xùn)練、邊緣推理、數(shù)值模擬等不同智能應(yīng)用需要不同類型算力,進(jìn)一步要求智算中心CPU、GPU、NPU、FPGA等資源層融合,從而實(shí)現(xiàn)資源高效融合及“零損耗”。同時(shí),智算業(yè)務(wù)應(yīng)用深入國民生產(chǎn)生活各個(gè)環(huán)節(jié),這在國家安全、產(chǎn)業(yè)升級(jí)、技術(shù)自主、創(chuàng)新生態(tài)培育等層面有重要意義?!拔覈叨?a class="article-link" target="_blank" href="/tag/AI%E8%8A%AF%E7%89%87/">AI芯片性能與國際領(lǐng)先水平仍有差距,需要持續(xù)加強(qiáng)芯片技術(shù)攻關(guān),提升高端AI芯片國產(chǎn)化替代能力。”唐雄燕強(qiáng)調(diào),在這一領(lǐng)域,中國聯(lián)通聯(lián)合產(chǎn)業(yè)界合作伙伴建立產(chǎn)業(yè)聯(lián)盟,服務(wù)于多元異構(gòu)融合和自主可控聯(lián)合創(chuàng)新。
二是智算中心內(nèi)網(wǎng)絡(luò)高通量、無阻塞演進(jìn)趨勢。據(jù)悉,千萬億級(jí)參數(shù)模型訓(xùn)練過程中通信占比最高可達(dá)50%、單次迭代通信量達(dá)百GB,網(wǎng)絡(luò)層0.1%丟包可導(dǎo)致50%算力損失。因此,高性能網(wǎng)絡(luò)一直是智算網(wǎng)絡(luò)的核心技術(shù)訴求,智算中心內(nèi)網(wǎng)絡(luò)無損高速互聯(lián)技術(shù)是當(dāng)前及未來3~5年關(guān)鍵研究領(lǐng)域。在這一領(lǐng)域,中國聯(lián)通已形成科創(chuàng)布局,對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)協(xié)議、算力聯(lián)動(dòng)及智能管控等進(jìn)行研究,布局高通量、高性能、高智能的算力智聯(lián)網(wǎng)系統(tǒng)。
三是智算中心區(qū)域化協(xié)同演進(jìn)趨勢。當(dāng)前,以千萬億級(jí)參數(shù)大模型算力資源需求為參考,單體智算中心特別是同構(gòu)單體智算中心難以滿足日益增長的算力需求。因此,分布式多智算中心協(xié)同訓(xùn)練成為未來趨勢,多數(shù)據(jù)中心之間的TB級(jí)帶寬互聯(lián)、μs級(jí)確定時(shí)延及高可靠調(diào)度等仍是未來技術(shù)演進(jìn)的熱點(diǎn)。在這一領(lǐng)域,中國聯(lián)通對(duì)跨智算中心協(xié)同數(shù)訓(xùn)進(jìn)行原創(chuàng)技術(shù)和創(chuàng)新方案研究,服務(wù)“西訓(xùn)東推”“中訓(xùn)邊推”的跨域協(xié)同演進(jìn)趨勢。今年上半年,中國聯(lián)通已完成3000千米的海量數(shù)據(jù)廣域高通量無損傳輸驗(yàn)證,下半年將繼續(xù)開展智算中心跨域協(xié)同訓(xùn)練關(guān)鍵技術(shù)的現(xiàn)網(wǎng)驗(yàn)證。
在智算中心領(lǐng)域,中國聯(lián)通積極與業(yè)界伙伴開展多形態(tài)多模式的合作,包括聯(lián)合研發(fā)創(chuàng)新、項(xiàng)目投資共建、數(shù)智資源共享、產(chǎn)業(yè)生態(tài)合作等,共同打造強(qiáng)大的智算中心生態(tài)。例如,中國聯(lián)通與華為合作建成全棧自主創(chuàng)新AI智算中心,展現(xiàn)了技術(shù)實(shí)力的強(qiáng)強(qiáng)聯(lián)合;與聯(lián)想集團(tuán)共同投資建設(shè)安徽省馬鞍山市的“e聯(lián)矩陣”,開拓了區(qū)域合作的新領(lǐng)域;與28家產(chǎn)業(yè)鏈生態(tài)合作伙伴成立“中國聯(lián)通智算聯(lián)盟”,更是彰顯了與產(chǎn)業(yè)攜手共進(jìn)的決心和信心。
未來,中國聯(lián)通將持續(xù)擴(kuò)展產(chǎn)學(xué)研合作的廣度和深度,共促智算發(fā)展,共贏智能時(shí)代。
*本文刊載于《通信世界》總第952期 2024年9月25日 第18期?
作者:梅雅鑫
責(zé)編/版式:王禹蓉
審校:王 濤?梅雅鑫
監(jiān)制:劉啟誠