作者?|??香草
編輯?|??漠影
天翼云萬卡方案驅(qū)動萬億參數(shù)大模型訓(xùn)練
在大模型熱潮的推動下,AI算力呈現(xiàn)出爆炸式的增長,為云計算行業(yè)帶來新的機(jī)遇。但同時,如何滿足巨大的算力需求,提供高性能、強(qiáng)穩(wěn)定的解決方案等,也為云廠商帶來新的挑戰(zhàn)。云計算廠商如何在智能云賽道中突圍?智東西7月9日報道,在2024世界人工智能大會(WAIC 2024)期間,天翼云科技有限公司董事長、總經(jīng)理胡志強(qiáng)帶來主題演講,深入解讀了天翼云在智算資源供給、智算服務(wù)能力、模型應(yīng)用生態(tài)三個方面的能力。
具體來說,天翼云自建了豐富的智算資源,并匯集了大量社會智算資源;基于一體化計算加速平臺云驍、一站式智算服務(wù)平臺慧聚,能承載萬億參數(shù)規(guī)模的基礎(chǔ)大模型訓(xùn)練及行業(yè)大模型訓(xùn)練推理;推出AI云電腦,構(gòu)建紅云大模型開發(fā)者社區(qū),打造開放的模型生態(tài)。
其中在智算服務(wù)方面,天翼云聚焦基礎(chǔ)大模型、行業(yè)大模型兩大場景,分別提供模型開發(fā)訓(xùn)練、訓(xùn)練推理等服務(wù),通過云驍、慧聚兩大平臺打造了萬卡集群的平臺化能力和解決方案能力,為客戶提供高效、便捷、穩(wěn)定的智算服務(wù)。天翼云智算服務(wù)具體能解決哪些行業(yè)痛點(diǎn)?是否已經(jīng)在企業(yè)中落地并取得一定成效?帶著這些疑問,我們試圖尋找答案。
01.天翼云萬卡方案破解三大挑戰(zhàn)可訓(xùn)萬億參數(shù)基礎(chǔ)模型
現(xiàn)階段,大模型的參數(shù)量在Scaling Law的推動下持續(xù)增長。以OpenAI等第一梯隊的大模型公司為例,其一直在擴(kuò)充訓(xùn)練數(shù)據(jù)、加大算力投入、堆積模型參數(shù)等方向上前進(jìn),尤其是基礎(chǔ)大模型,呈現(xiàn)出參數(shù)越來越大的趨勢。
而隨著模型參數(shù)的增加,對計算資源、存儲能力和網(wǎng)絡(luò)帶寬等需求也隨之增加,這對AI基礎(chǔ)設(shè)施提出高要求。胡志強(qiáng)談道,天翼云在支撐中國電信星辰大模型訓(xùn)練過程中,遇到的挑戰(zhàn)主要集中在三個方面:算力、性能和穩(wěn)定性。
算力方面,要訓(xùn)練一個萬億參數(shù)大模型,至少需要單集群6000卡,甚至萬卡以上規(guī)模,并通過同等規(guī)模的亞毫秒延時級RDMA(遠(yuǎn)程直接數(shù)據(jù)存?。┚W(wǎng)絡(luò),才能支撐訓(xùn)練過程中PB級的數(shù)據(jù)存取。
性能方面,大規(guī)模的分布式訓(xùn)練對算力、存儲、網(wǎng)絡(luò)協(xié)同難度大,模型訓(xùn)練中生成的Checkpoint文件大、讀寫速度慢等諸多性能問題,導(dǎo)致大模型訓(xùn)練綜合效率低下。
穩(wěn)定性方面,AI基礎(chǔ)設(shè)施軟硬件技術(shù)棧復(fù)雜,任何中斷或錯誤都可能導(dǎo)致訓(xùn)練失敗,重新開始不僅浪費(fèi)時間,也增加了成本。例如,硬件故障率高,且故障難以發(fā)現(xiàn)、恢復(fù)速度慢,嚴(yán)重影響大模型訓(xùn)練效率。針對這些痛點(diǎn),云計算廠商應(yīng)如何破解?
天翼云交出的答卷,是面向超大規(guī)模參數(shù)基礎(chǔ)大模型開發(fā)訓(xùn)練的萬卡解決方案。具體來說,天翼云基于單集群萬卡智算中心,結(jié)合一體化計算加速平臺云驍、一站式智算服務(wù)平臺慧聚,從基礎(chǔ)設(shè)施到平臺,構(gòu)建了基礎(chǔ)大模型訓(xùn)練解決方案。
在算力層面,天翼云以可橫向擴(kuò)展的PB級并行文件存儲服務(wù)(HPFS),提供高性能、亞毫秒級時延的并行文件存儲能力;以超大規(guī)模二層RDMA網(wǎng)絡(luò),滿足基礎(chǔ)算力的需求;同時,通過對計算、內(nèi)存、通信等方面的多維優(yōu)化,提升了綜合算效。
在性能層面,天翼云對AI框架進(jìn)行升級,使編譯效率翻倍;通過拓?fù)涓兄{(diào)度,大幅提升集合通信效率;基于存儲異步加速,實現(xiàn)Checkpoint文件快速保存及加載。
在穩(wěn)定性層面,基于對200多項指標(biāo)的實時監(jiān)控,模型訓(xùn)練單次不中斷運(yùn)行可達(dá)近一周時間;且一旦發(fā)生故障,可迅速斷點(diǎn)續(xù)訓(xùn),實現(xiàn)高穩(wěn)定可用運(yùn)行。基于國產(chǎn)萬卡智算集群和自研智算平臺,天翼云智算服務(wù)已經(jīng)具備支撐萬億參數(shù)基礎(chǔ)大模型訓(xùn)練的能力。
從系統(tǒng)工程上來看,要構(gòu)建國產(chǎn)萬卡集群,并不只是堆疊一萬張卡這么簡單,還涉及到硬件設(shè)計、軟件架構(gòu)、網(wǎng)絡(luò)通信、能源管理以及系統(tǒng)穩(wěn)定性等多個方面的綜合考量,包括超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計算、長期穩(wěn)定性和高可用性等技術(shù)難題。
天翼云提供的萬卡解決方案,展示了國產(chǎn)算力如何通過技術(shù)創(chuàng)新來應(yīng)對這些挑戰(zhàn),這不僅對天翼云自身是巨大的技術(shù)突破,也為整個行業(yè)提供了啟示。
02.一站式智算服務(wù)行業(yè)大模型訓(xùn)推三步走
在本屆WAIC上,除了眾多基礎(chǔ)大模型的迭代更新引人注目外,行業(yè)大模型如何推動技術(shù)落地,也成為備受關(guān)注的話題。不同于基礎(chǔ)大模型注重通用性和廣泛適用性,行業(yè)大模型更側(cè)重于特定行業(yè)的定制化需求。
在落地層面,尤其是面向企業(yè)場景,行業(yè)大模型發(fā)揮了至關(guān)重要的作用。
而在技術(shù)層面,基礎(chǔ)大模型的開發(fā)重點(diǎn)在于模型的訓(xùn)練過程,包括模型架構(gòu)的設(shè)計、大規(guī)模數(shù)據(jù)集的構(gòu)建等;行業(yè)大模型則更側(cè)重于訓(xùn)練推理過程,即如何對訓(xùn)練好的模型面向不同場景進(jìn)行微調(diào),并應(yīng)用到實際場景中,解決具體問題。行業(yè)大模型的訓(xùn)推服務(wù)同樣面臨三大挑戰(zhàn):訓(xùn)練部署工程化復(fù)雜、訓(xùn)推效率低、訓(xùn)練中斷頻繁。
基于云驍、慧聚兩大平臺,天翼云面向行業(yè)大模型訓(xùn)推場景提供一站式的智算服務(wù),針對性地破解這三個難題。
在訓(xùn)練部署工程方面,行業(yè)大模型通常需要處理特定領(lǐng)域的復(fù)雜數(shù)據(jù),這要求模型訓(xùn)練和部署過程中必須考慮數(shù)據(jù)的多樣性和特定性,這帶來數(shù)據(jù)的清洗、標(biāo)注,模型的適配、訓(xùn)練、調(diào)優(yōu)、量化及部署等7個環(huán)節(jié)的難題,因此,自動化流程的建立對于簡化訓(xùn)練部署至關(guān)重要。
針對這些復(fù)雜環(huán)節(jié),慧聚平臺提供全棧工具鏈,通過預(yù)置行業(yè)數(shù)據(jù)集、支持國內(nèi)外主流AI加速硬件、預(yù)置多個基礎(chǔ)大模型等能力,實現(xiàn)大模型訓(xùn)推三步走。客戶只需要經(jīng)過選數(shù)據(jù)、選硬件、選模型三個步驟,就可以實現(xiàn)大模型精調(diào)。
在訓(xùn)練效率方面,大模型的訓(xùn)推過程需要大量計算資源,如何高效利用這些資源、避免資源浪費(fèi),是提高訓(xùn)推效率的關(guān)鍵。例如,在訓(xùn)推過程中,數(shù)據(jù)需要在不同的處理單元之間傳輸,數(shù)據(jù)傳輸的效率直接影響到整體的訓(xùn)推速度。
針對模型參數(shù)量大、算子運(yùn)行效率低、模型開箱性能低等因素,天翼云通過自研AI框架、3D并行加速、自研訓(xùn)練加速庫、容器調(diào)度優(yōu)化等核心技術(shù),大幅提升訓(xùn)練效率。為了進(jìn)一步優(yōu)化模型結(jié)構(gòu)和算法、節(jié)省算力成本、提高模型運(yùn)行速度,天翼云使用了模型量化壓縮、自研推理加速算子庫、自硏AI推理加速框架等核心技術(shù),讓模型推理效率得到顯著提升。
在訓(xùn)練連續(xù)性方面,特別是在大規(guī)模訓(xùn)練過程中,硬件故障是導(dǎo)致訓(xùn)練中斷的常見原因;同時,軟件或配置錯誤、數(shù)據(jù)輸入錯誤、運(yùn)行環(huán)境不穩(wěn)定等問題也常常導(dǎo)致訓(xùn)練的中斷。如何在全鏈路感知故障并準(zhǔn)確定位,成為解決訓(xùn)練頻繁中斷難題的重要挑戰(zhàn)。
天翼云通過全鏈路故障分鐘級檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點(diǎn)續(xù)訓(xùn)快速恢復(fù)等核心技術(shù),實現(xiàn)訓(xùn)推過程全鏈路監(jiān)控?;谝徽臼降闹撬惴?wù)能力,天翼云為國內(nèi)領(lǐng)先的AI公司提供AI基礎(chǔ)設(shè)施層服務(wù),縮短其語音識別模型訓(xùn)練時間周期并降低算力成本;在科研、制造業(yè)等領(lǐng)域,天翼云智算服務(wù)也已經(jīng)落地,幫助客戶進(jìn)行大模型訓(xùn)練和微調(diào),降低科研、科技創(chuàng)新成本。
隨著AI技術(shù)落地的需求增長,行業(yè)大模型也將迎來更廣闊的應(yīng)用前景。天翼云提供的一站式智算服務(wù)能力不僅能幫助企業(yè)客戶突破瓶頸,也能在實踐過程中不斷汲取經(jīng)驗再進(jìn)化,推動技術(shù)迭代創(chuàng)新。
03.結(jié)語:國家隊出手智算云助力產(chǎn)業(yè)數(shù)智升級
在WAIC 2024現(xiàn)場,天翼云以最新的智算成果亮相,展出了單體萬卡液冷智算池,息壤、云驍、慧聚三大智算平臺,AI云電腦以及基于天翼云智算云底座的星辰大模型等技術(shù)成果。
作為云服務(wù)國家隊,天翼云沒有拘泥于現(xiàn)有的技術(shù)和市場格局,而是以開放的心態(tài)和前瞻的視野,積極探索和引領(lǐng)云計算和AI領(lǐng)域的新趨勢。基于豐富的智算資源儲備、強(qiáng)大的智算服務(wù)能力以及開放的模型應(yīng)用社區(qū),天翼云正在加速布局全新的智算云生態(tài),為千行百業(yè)向智、向新發(fā)展注入國云力量。