亚洲精品乱码久久久久蜜桃,国产在线乱子伦一区二区

ChatGPT爆火之后，人工智能（AI）浪潮來襲，以大模型為代表的AI方案逐步深入千行百業(yè)，算力需求日益攀升，智算基礎(chǔ)設(shè)施的重要性進(jìn)一步凸顯。然而，在智算基礎(chǔ)設(shè)施建設(shè)過程中，尚面臨組網(wǎng)、通信、能耗、成本等多重挑戰(zhàn)，行業(yè)要“以網(wǎng)補(bǔ)算”，通過無處不在的網(wǎng)絡(luò)資源，補(bǔ)齊單點(diǎn)算力規(guī)模不足的差距，夯實(shí)智算業(yè)務(wù)發(fā)展基礎(chǔ)。

01、智能算力成為支撐數(shù)字經(jīng)濟(jì)發(fā)展新引擎

在網(wǎng)絡(luò)強(qiáng)國和數(shù)字中國戰(zhàn)略的引領(lǐng)下，以人工智能為代表的新一代數(shù)字技術(shù)在我國加速演進(jìn)，并深度融入生產(chǎn)生活的各個環(huán)節(jié)，成為促進(jìn)數(shù)字經(jīng)濟(jì)躍遷式增長的重要驅(qū)動因素。隨著各類通用大模型和垂直大模型的落地應(yīng)用，算力作為支撐人工智能蓬勃發(fā)展的基座，呈現(xiàn)出前所未有的指數(shù)級增長態(tài)勢。

從算力規(guī)?？矗竽Ｐ偷陌l(fā)展離不開強(qiáng)大的算力支撐。大模型具有“智慧涌現(xiàn)”能力，即當(dāng)模型規(guī)模突破特定閾值后，其語言理解、內(nèi)容生成、邏輯推理等類人智能任務(wù)的處理能力將顯著提升。例如，擁有1.8萬億參數(shù)的GPT-4在復(fù)雜問題的處理能力方面遠(yuǎn)超GPT-3，谷歌的Gemini大模型性能也超越其早期版本。隨著參數(shù)規(guī)模從億級提升到萬億級別，算力需求呈現(xiàn)“爆發(fā)式”增長，訓(xùn)練算力需求從千卡邁向萬卡，微調(diào)算力需求也將達(dá)到百卡規(guī)模。以“大力出奇跡”改善模型性能的行業(yè)共識，牽引著算力尤其是智能算力需求快速增長。

據(jù)英偉達(dá)預(yù)測，未來10年間，深度學(xué)習(xí)的計(jì)算能力將提高100萬倍，即每個月人工智能算力將提升4倍。從算力結(jié)構(gòu)看，人工智能的突破式發(fā)展，推動了傳統(tǒng)算力供給模式的系統(tǒng)性重塑，即由以CPU為主的通用算力供應(yīng)演變?yōu)椤巴ㄖ浅币惑w化供應(yīng)，其中智能算力的增長趨勢更加明顯，成為塑造人工智能領(lǐng)域新模式、新業(yè)態(tài)的核心驅(qū)動力。IDC與浪潮信息聯(lián)合發(fā)布的《2022—2023中國人工智能計(jì)算力發(fā)展評估報(bào)告》指出，我國人工智能計(jì)算力繼續(xù)保持快速增長，2022年智能算力規(guī)模達(dá)到268EFlops，超過通用算力規(guī)模。預(yù)計(jì)到2026年智能算力規(guī)模將達(dá)到1271.4EFlops，未來五年的年復(fù)合增長率達(dá)52.3%，而同期通用算力規(guī)模的年復(fù)合增長率為18.5%。

我國算力結(jié)構(gòu)的演進(jìn)趨勢深刻印證了以大模型為代表的智能化應(yīng)用對智能算力的高度依賴。作為智能算力的主要載體，智算基礎(chǔ)設(shè)施的發(fā)展對技術(shù)進(jìn)步和行業(yè)應(yīng)用起到了決定性作用。在人工智能向場景化、規(guī)模化、融合化演進(jìn)的過程中，預(yù)訓(xùn)練的數(shù)據(jù)體量和算法模型的參數(shù)量還將急劇攀升，智算基礎(chǔ)設(shè)施也將逐漸具備高性能、高互聯(lián)、泛在化、多元化等競爭力標(biāo)簽。

02、智算基礎(chǔ)設(shè)施建設(shè)仍面臨多重挑戰(zhàn)

從工程角度講，智算基礎(chǔ)設(shè)施是指以GPU等AI訓(xùn)練芯片為基礎(chǔ)構(gòu)建的智能計(jì)算服務(wù)器集群，它不僅包括計(jì)算、存儲、網(wǎng)絡(luò)等硬件基礎(chǔ)設(shè)施，還包括多樣化的機(jī)器學(xué)習(xí)框架、算法和相關(guān)的工具軟件。為形成規(guī)模效應(yīng)，智算基礎(chǔ)設(shè)施往往以集群的形態(tài)對外提供資源服務(wù)。然而，在以集群為主要呈現(xiàn)方式的智算基礎(chǔ)設(shè)施建設(shè)中，還面臨多重挑戰(zhàn)。

首先是組網(wǎng)規(guī)模的挑戰(zhàn)。網(wǎng)絡(luò)能力和計(jì)算能力應(yīng)高度匹配，AI大模型訓(xùn)練需要將數(shù)千甚至數(shù)萬顆GPU芯片互聯(lián)，以實(shí)現(xiàn)并行計(jì)算，集群體量遠(yuǎn)超以CPU為主的傳統(tǒng)數(shù)據(jù)中心。例如，采用主流64口交換機(jī)的數(shù)據(jù)中心通過3層CLOS架構(gòu)能最大支持6.5萬個服務(wù)器接口，而這依然無法滿足我國“十四五”規(guī)劃中提出的“10E級超級計(jì)算中心”的組網(wǎng)目標(biāo)。

其次是通信性能的挑戰(zhàn)。在大模型訓(xùn)練場景下，機(jī)內(nèi)GPU通信和機(jī)外集合通信將產(chǎn)生大量通信需求。例如，千億級參數(shù)的大模型并行訓(xùn)練所產(chǎn)生的集合通信數(shù)據(jù)將達(dá)到數(shù)百GB量級，若要在極短時(shí)間內(nèi)完成參數(shù)交換，將對GPU與GPU間、GPU與網(wǎng)卡間、網(wǎng)卡與網(wǎng)卡間的超高帶寬互聯(lián)提出較高要求。

此外，網(wǎng)絡(luò)擁塞和丟包將嚴(yán)重影響GPU計(jì)算效率，據(jù)實(shí)驗(yàn)統(tǒng)計(jì)，0.1%的網(wǎng)絡(luò)丟包率就會帶來50%的算力損失，因此提升通信性能可有效釋放智能算力。再次是能耗和成本的挑戰(zhàn)。模型訓(xùn)練需要消耗大量能源，因此智算中心比傳統(tǒng)數(shù)據(jù)中心消耗了更多電力。OpenAI曾發(fā)布報(bào)告稱，自2012年以來，AI訓(xùn)練的電力需求每3~4個月就會翻一倍。

前不久，微軟工程師被問及為什么不把集群整體建設(shè)在一個地方時(shí)，他指出，把超過十萬顆H100芯片集中到同一個地方將導(dǎo)致當(dāng)?shù)氐碾娋W(wǎng)癱瘓。因此，業(yè)界有觀點(diǎn)認(rèn)為“比特的盡頭是瓦特”，智算的發(fā)展要以綠電發(fā)展為基礎(chǔ)。此外，智算中心廠房等基礎(chǔ)設(shè)施建設(shè)，服務(wù)器、芯片等設(shè)備購置，后期升級運(yùn)維擴(kuò)容等，共同構(gòu)成了智算中心龐大的成本體系，因此成本挑戰(zhàn)也不容忽視。

最后是技術(shù)兼容性的挑戰(zhàn)。許多智算中心在市場和自身發(fā)展的過程中，形成深度集成的異構(gòu)技術(shù)體系，芯片平臺、通信協(xié)議、算法模型、應(yīng)用層面處于一體化垂直的“孤島”狀態(tài)，軟硬件系統(tǒng)缺乏兼容性，為智算中心后期的升級、擴(kuò)展、遷移造成了極大困難。綜上所述，現(xiàn)階段僅依靠單點(diǎn)技術(shù)突破或者“暴力堆疊”芯片的傳統(tǒng)思路已無法解決智算基礎(chǔ)設(shè)施的供應(yīng)難題，需統(tǒng)籌組網(wǎng)、通信、能耗、成本、技術(shù)等多維因素，提供泛在互聯(lián)、融合高效、集約共享的新型基礎(chǔ)設(shè)施。在此背景下，“以網(wǎng)補(bǔ)算”應(yīng)運(yùn)而生。

03、以網(wǎng)補(bǔ)算破解智算基礎(chǔ)設(shè)施供給難題

“以網(wǎng)補(bǔ)算”，即利用無處不在的網(wǎng)絡(luò)資源彌補(bǔ)小規(guī)模智能計(jì)算的差距，再結(jié)合集中式的算力調(diào)度策略，提升整網(wǎng)智算利用率?！耙跃W(wǎng)補(bǔ)算”是夯實(shí)大模型基礎(chǔ)設(shè)施的重要發(fā)力方向，包含“入算、算內(nèi)、算間”三個組成部分。對于“入算”部分，靈活利用閑時(shí)資源為智算業(yè)務(wù)降本增效。當(dāng)前入云專線存在價(jià)格偏高、帶寬使用方式僵化等問題。

“以網(wǎng)補(bǔ)算”方案在持續(xù)完善網(wǎng)絡(luò)覆蓋、提供智算高速泛在入口的基礎(chǔ)上，還針對業(yè)務(wù)的偶發(fā)性特點(diǎn)，提出定時(shí)定向的大規(guī)模數(shù)據(jù)傳輸方案，并通過定制化API接口讓用戶自助申請網(wǎng)絡(luò)閑時(shí)的帶寬資源，從而將原本帶寬受限的網(wǎng)絡(luò)線路彈性擴(kuò)容至高帶寬專線，并采用資源預(yù)約的機(jī)制將數(shù)據(jù)傳輸至智算中心進(jìn)行處理，在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時(shí)，降低算力使用成本、增強(qiáng)用戶自服務(wù)能力。

對于“算內(nèi)”部分，重點(diǎn)解決因網(wǎng)絡(luò)能力不足導(dǎo)致算力效率降低的技術(shù)問題，以及單點(diǎn)算力規(guī)模偏小導(dǎo)致集群能力不足的產(chǎn)業(yè)問題。目前業(yè)界主要從四個技術(shù)維度解決智算網(wǎng)絡(luò)端到端承載的效率問題，即集合通信庫、擁塞控制、流量控制和負(fù)載均衡，具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。例如，端側(cè)通過優(yōu)化集合通信庫減少網(wǎng)絡(luò)通信開銷，通過擁塞控制從源頭消除擁塞等。此外，我國智算中心單點(diǎn)規(guī)模普遍偏小，可通過長距RDMA（遠(yuǎn)程直接數(shù)據(jù)存?。┑刃录夹g(shù)在城域范圍內(nèi)整合多個小型計(jì)算資源，實(shí)現(xiàn)區(qū)域內(nèi)智算中心的高效協(xié)同。

對于“算間”部分，建立面向異構(gòu)資源的全國一體化管控機(jī)制，實(shí)現(xiàn)多用戶、多作業(yè)的任務(wù)分發(fā)調(diào)度。一方面提升算間網(wǎng)絡(luò)連接能力，實(shí)現(xiàn)多云、多算力靈活互聯(lián)，提高數(shù)據(jù)傳輸效率；另一方面構(gòu)建面向用戶級、業(yè)務(wù)級的層次化任務(wù)調(diào)配系統(tǒng)，著力實(shí)現(xiàn)集分權(quán)分域、業(yè)務(wù)感知、統(tǒng)一調(diào)度功能于一體的全國一體化智算調(diào)配平臺。對于算力調(diào)度平臺，業(yè)界已有諸多成功實(shí)踐，可有效應(yīng)對智算中心算力不足的問題，實(shí)現(xiàn)全局智算資源在更廣范圍內(nèi)的高效利用。

04、先行先試中國電信積極踐行“以網(wǎng)補(bǔ)算”策略

面對新時(shí)代、新業(yè)態(tài)、新要求，中國電信積極踐行云網(wǎng)融合的發(fā)展理念，按照“網(wǎng)是基礎(chǔ)、云為核心、網(wǎng)隨云動、云網(wǎng)一體”的思路不斷探索實(shí)踐，目前已演進(jìn)到以智算網(wǎng)絡(luò)為核心的云網(wǎng)融合3.0階段。作為云網(wǎng)一體階段的關(guān)鍵策略，中國電信采用“以網(wǎng)補(bǔ)算”，打造面向智算業(yè)務(wù)的新型基礎(chǔ)設(shè)施，以高性能智算網(wǎng)絡(luò)作為提升集群算力性能的關(guān)鍵抓手，突破智能算力供給瓶頸。

一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品，提供海量數(shù)據(jù)異屬、異構(gòu)、異域“入算”的統(tǒng)一解決方案；聯(lián)合中科院高能物理研究所和成都國家超算中心，開展LHAASO數(shù)據(jù)基于“超算快線”傳送方案的創(chuàng)新試驗(yàn)驗(yàn)證；實(shí)現(xiàn)業(yè)界首次40分鐘內(nèi)跨2000千米傳輸1.6TB數(shù)據(jù)，為“東數(shù)西算”海量數(shù)據(jù)跨域自動調(diào)度提供了創(chuàng)新解決方案。

二是打造云網(wǎng)融合“大科創(chuàng)裝置”。作為科研專用網(wǎng)絡(luò)，“大科創(chuàng)裝置”承擔(dān)科研攻關(guān)、測試認(rèn)證、人才培養(yǎng)和用戶體驗(yàn)等多方面任務(wù)，具備覆蓋14個省、40個節(jié)點(diǎn)（20個骨干節(jié)點(diǎn)和20個接入節(jié)點(diǎn)）的廣域互聯(lián)底座，為智算中心各項(xiàng)試驗(yàn)奠定了堅(jiān)實(shí)的網(wǎng)絡(luò)基礎(chǔ)?；凇按罂苿?chuàng)裝置”，中國電信成功解決了超百千米無損智算網(wǎng)難題，使智算DCN（數(shù)據(jù)通信網(wǎng)絡(luò)）由DC內(nèi)走向廣域網(wǎng)。同時(shí)，中國電信于2023年10月啟動基于云網(wǎng)融合“大科創(chuàng)裝置”的長距無損交換機(jī)技術(shù)驗(yàn)證，今年2月在北京電信現(xiàn)網(wǎng)完成800G超高速波分技術(shù)驗(yàn)證。此外，中國電信還在武清、永豐、瀛海三地IDC機(jī)房完成數(shù)百億參數(shù)經(jīng)典大模型的分布式訓(xùn)練任務(wù)，對京津冀算力協(xié)同起到積極的推動作用。

三是自研擁塞控制算法CTCC，通過端側(cè)精細(xì)化流控與運(yùn)維工具，有效控制交換機(jī)隊(duì)列長度、降低小流延遲，實(shí)現(xiàn)部分配置下的“零丟包”。針對天翼云智算、超算、高性能存儲業(yè)務(wù)場景需求，中國電信依托“大科創(chuàng)裝置”，采用多廠家交換機(jī)、GPU服務(wù)器和全閃存儲服務(wù)器進(jìn)行了組網(wǎng)測試，開展的800多項(xiàng)測試驗(yàn)證結(jié)果均符合理論分析與仿真預(yù)期。此外，中國電信還基于國家重點(diǎn)研發(fā)計(jì)劃“多模態(tài)網(wǎng)絡(luò)與通信”中重點(diǎn)專項(xiàng)項(xiàng)目“多模態(tài)智聯(lián)計(jì)算網(wǎng)絡(luò)技術(shù)研究與驗(yàn)證”和云網(wǎng)融合聯(lián)合實(shí)驗(yàn)室等平臺，攜手“產(chǎn)學(xué)研用”各方加快突破智算網(wǎng)絡(luò)關(guān)鍵技術(shù)（如存轉(zhuǎn)算一體、意圖驅(qū)動路由、統(tǒng)一總線UB等）。當(dāng)前，伴隨網(wǎng)絡(luò)、計(jì)算、存儲技術(shù)的迭代升級，各類資源正在產(chǎn)生深刻的“化學(xué)反應(yīng)”，從相互獨(dú)立逐步演進(jìn)到融合一體，形成以滿足多元化應(yīng)用需求為目標(biāo)的智算基礎(chǔ)設(shè)施體系。

在此進(jìn)程中，中國電信基于“入算+算內(nèi)+算間”的發(fā)展思路，“以網(wǎng)補(bǔ)算”，通過無處不在的網(wǎng)絡(luò)資源，補(bǔ)齊單點(diǎn)小規(guī)模算力差距，夯實(shí)智算業(yè)務(wù)發(fā)展基礎(chǔ)。未來，中國電信將持續(xù)發(fā)揮網(wǎng)絡(luò)資源優(yōu)勢，深化具有云網(wǎng)融合特征的智算體系建設(shè)，縱深推進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級，助力數(shù)字經(jīng)濟(jì)點(diǎn)燃高質(zhì)量發(fā)展新“引擎”。

*本文刊載于《通信世界》總第944期 2024年5月25日第10期?原文標(biāo)題：《以網(wǎng)補(bǔ)算，構(gòu)筑智算時(shí)代新底座》

作者：中國電信股份有限公司研究院傅志仁

責(zé)編/版式：蓋貝貝

審校：王濤?梅雅鑫

監(jiān)制：劉啟誠

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F030C8T6TR	1	STMicroelectronics	Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU	ECAD模型下載ECAD模型	$3.41	查看
MK66FN2M0VLQ18R	1	NXP Semiconductors	RISC MICROCONTROLLER		$54.39	查看
ATSAMA5D35A-CN	1	Atmel Corporation	RISC Microprocessor, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324		$13.79	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

STM32F030C8T6TR

STMicroelectronics

Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU