國內大模型百花齊放,據(jù)統(tǒng)計,中國10億以上參數(shù)大模型已發(fā)布79個。
大模型海量計算,對存儲提出了更高要求。而三大存力痛點,制約大模型計算發(fā)展:一是數(shù)據(jù)加載慢,導致訓練時間長;二是數(shù)據(jù)訪問協(xié)議多樣性,要求數(shù)據(jù)訪問效率更高;三是數(shù)據(jù)生命周期管理不完善,數(shù)據(jù)安全風險亟需關注。
基于這些存儲痛點,曙光存儲大模型解決方案升級迭代,攜全新業(yè)內首創(chuàng)技術XDS,提供增效、降本、安全的體驗。
增效-首創(chuàng)XDS技術,存算協(xié)同優(yōu)化提升效率
此次大模型解決方案升級迭代,曙光ParaStor首創(chuàng)實現(xiàn)XDS多層級智能加速技術,集算力端、存力端各維度各層級加速引擎為一體,打造高效的存算協(xié)同。
以往AI訓練中,智能芯片若想讀取數(shù)據(jù),則需先將數(shù)據(jù)存到緩存中,再由CPU發(fā)往智能芯片讀取。CPU與緩存的轉運,導致數(shù)據(jù)調取速度變慢。而XDS技術可實現(xiàn)將數(shù)據(jù)直接加載到智能芯片中,提高訓練過程中數(shù)據(jù)集的加載及處理速度。XDS技術創(chuàng)新在于,支持多種智能芯片的直接存取,除了GPU,也支持多款算力端智能芯片直接存取數(shù)據(jù)。XDS技術簡化了存取過程,降低了CPU與緩存壓力,更節(jié)省硬件資源。
在存力端,XDS技術內嵌ParaBuffer加速引擎,在AI訓練計算節(jié)點與存儲系統(tǒng)之間構造大內存池,將系統(tǒng)整體I/O性能提升數(shù)倍。存算協(xié)同優(yōu)化,使得訓練時間大幅降低,可由數(shù)十天降低至幾天。
降本-多存儲協(xié)議與智能分級,數(shù)據(jù)管理省心可靠
此外,針對數(shù)據(jù)訪問協(xié)議多樣性痛點,曙光ParaStor同時支持文件、對象等多種存儲協(xié)議,可為大模型提供統(tǒng)一的存儲底座。為實現(xiàn)數(shù)據(jù)全生命周期管理,曙光ParaStor具備熱溫冷數(shù)據(jù)智能分級流動,支持給數(shù)據(jù)自定義標簽,過期后自動刪除。
對于AI數(shù)據(jù)存儲的安全可靠,曙光ParaStor憑借全棧自研能力,從操作系統(tǒng)、存儲架構、軟件核心模塊、存儲介質等多層面保障數(shù)據(jù)安全。提升存儲可靠性,降低數(shù)據(jù)管理成本,讓用戶省心省力。
目前,曙光存儲為國內某AI新經濟獨角獸大模型平臺構建了PB級NVMe全閃存高性能存儲池,從硬件設施到軟件系統(tǒng),性能、可靠性、安全性皆滿足需求指標,為多個領域帶來增效降本、可靠安全的存儲方案。