AI落地初期,為了提升傳統(tǒng)行業(yè)的應(yīng)用體驗(yàn),提高機(jī)器學(xué)習(xí)算法的效率,面向海量的、碎片化的應(yīng)用場景,行業(yè)拼命“大煉模型”。
這從一定程度上確實(shí)助推了AI的落地,不過,為了進(jìn)一步優(yōu)化效果、提高精度,模型變得越來越復(fù)雜,數(shù)據(jù)越來越龐大,進(jìn)一步提高了行業(yè)的應(yīng)用門檻,特別是對小公司帶來挑戰(zhàn)。由于模型越復(fù)雜,所需的投入越大,訓(xùn)練成本越高,很多企業(yè)不足以應(yīng)對這種狀況,導(dǎo)致落地效率越來越低。
最“卷”的AI模型在語言領(lǐng)域。2020年夏天,OpenAI推出了GPT-3,它在自然語言處理方面展示出驚人的能力,能寫文章、做翻譯、生成代碼,甚至可以學(xué)習(xí)一個人的語言模式,并遵循這個模式與人進(jìn)行談話。GPT-3的面市也使得全球范圍內(nèi)AI大模型迎來大爆發(fā),參與企業(yè)越來越多,參數(shù)級別越來越大,成為新一輪AI競賽的賽場。2021年,谷歌發(fā)布了萬億級模型Switch Transformer,微軟和英偉達(dá)也推出了包含5300億個參數(shù)的自然語言生成模型。國內(nèi)的企業(yè)也不甘落后,華為、浪潮、百度、阿里巴巴等企業(yè)都競相推出了自己的大模型。
AI進(jìn)入“煉大模型”時代。
AI“劇本殺”玩家,能解行業(yè)之痛嗎?
國內(nèi)AI大模型的代表之一是“源1.0”,是浪潮在2021年9月發(fā)布的單體巨量自然語言處理模型?!霸?.0”一發(fā)布就問鼎全球最大規(guī)模的中文AI模型,其參數(shù)規(guī)模高達(dá)2457億,訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB,相比GPT-3模型1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”參數(shù)規(guī)模領(lǐng)先40%,訓(xùn)練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍。
一個有趣的應(yīng)用是,源開發(fā)者社區(qū)的開發(fā)者基于“源1.0”開發(fā)出了“劇本殺”AI玩家。在游戲中,AI所扮演的角色不僅可以與其他玩家流暢對話,甚至?xí)榱诉_(dá)成任務(wù)說謊去“套路”人類玩家。
它所憑借的,正是“源1.0”零樣本(Zero-Shot)和小樣本(Few-Shot)學(xué)習(xí)的優(yōu)勢,AI模型可以很好地理解并實(shí)現(xiàn)交互式敘事的“對話策略”,能夠運(yùn)用“舉一反三”的對話能力,讓劇本殺成為一部由玩家和AI在不知不覺中共同創(chuàng)造的全新故事。
開源社區(qū)產(chǎn)生的其他基于“源1.0”開發(fā)的應(yīng)用也是五花八門,包括數(shù)字演員、正能量陪伴機(jī)器人、抬杠機(jī)器人、游戲NPC對話、文案寫作、金融文本分析等……并且,浪潮的源1.0大模型已落地智算中心、金融等多個企業(yè),實(shí)現(xiàn)了智算中心模型即服務(wù)(MaaS)的產(chǎn)品模式創(chuàng)新,助力金融大模型的研發(fā)。
我們該如何看待這些應(yīng)用?它們反映出了AI的哪些發(fā)展趨勢?
浪潮信息AI軟件研發(fā)總監(jiān)吳韶華介紹,在大模型出現(xiàn)之前,如果要做一個類似劇本殺的游戲,需要很強(qiáng)大的模型和復(fù)雜的流程。首先,這個模型既要有對話能力,也要有邏輯推理能力,這對于模型算法、數(shù)據(jù)研發(fā)的門檻很高。其次,用戶要有自己的算法人員,需要從頭開始收集數(shù)據(jù)、標(biāo)注數(shù)據(jù),然后做模型等,經(jīng)過復(fù)雜的研發(fā)流程,最后才能走到最核心的業(yè)務(wù)邏輯上。
而有了大模型,這些問題都可以得到解決或緩解,并對AI模型的構(gòu)建及應(yīng)用產(chǎn)生極大影響。在算法基礎(chǔ)設(shè)施層面,開源開放的大模型,使得開發(fā)者不需要關(guān)心底層搭建的技術(shù),就能直接調(diào)用大模型的能力。這相當(dāng)于把AI應(yīng)用的開發(fā)向上推了一大步,讓開發(fā)者聚焦應(yīng)用最核心的業(yè)務(wù)邏輯,把跟模型相關(guān)的內(nèi)容放在模型層面或算法基礎(chǔ)設(shè)施的層面?;谠?.0搭建的“劇本殺”游戲,可以直接復(fù)用源1.0的開源代碼,開發(fā)過程基本不需要寫代碼和調(diào)試代碼,就完成了整個應(yīng)用的構(gòu)建,從而可以把更多精力放在劇情內(nèi)容等創(chuàng)意的創(chuàng)作上。
從三要素到“大模型”,AI變了嗎?
人工智能從前幾年強(qiáng)調(diào)“算力、算法、數(shù)據(jù)”,到現(xiàn)在大模型越來越受推崇。這反映了AI的哪些發(fā)展規(guī)律?AI的核心要素是否發(fā)生了變化?
吳韶華認(rèn)為,AI的核心要素并沒有發(fā)生變化,大模型訓(xùn)練更需要在“算力、算法、數(shù)據(jù)”三個層面開展創(chuàng)新。以“源1.0”大模型為例,在算法層面,面向效率和精度優(yōu)化的大模型結(jié)構(gòu)協(xié)同設(shè)計方法,針對Attention層進(jìn)行結(jié)構(gòu)優(yōu)化,改進(jìn)注意力機(jī)制聚焦文章內(nèi)部聯(lián)系的學(xué)習(xí);創(chuàng)新小樣本學(xué)習(xí)精度改進(jìn)方法,在業(yè)界權(quán)威數(shù)據(jù)集上取得精度領(lǐng)先。
在算力層面,圍繞深度學(xué)習(xí)框架、訓(xùn)練集群I/O、通信開展了深入優(yōu)化,在僅采用2x200G互聯(lián)的情況下,“源1.0”在2128顆異構(gòu)加速器集群上的算力效率達(dá)到45%,超出MT-NLG與GPT-3等國際知名模型。面向多元異構(gòu)芯片,研發(fā)了大模型推理軟件框架,并在400顆國產(chǎn)芯片集群上實(shí)現(xiàn)了大模型彈性部署,將模型推理性能提高了數(shù)10倍,形成大模型+大算力的算法基礎(chǔ)設(shè)施建設(shè)的實(shí)踐成果。
在數(shù)據(jù)層面,當(dāng)前主要存在中文訓(xùn)練海量數(shù)據(jù)難獲取、難清洗等問題,浪潮海量數(shù)據(jù)過濾系統(tǒng)(MDFS)建立了從數(shù)據(jù)采集、粗濾、質(zhì)量分類、精濾的全自動化的端到端數(shù)據(jù)工作流程,通過清洗866TB海量數(shù)據(jù)獲得5TB大規(guī)模高質(zhì)量中文數(shù)據(jù)集。該數(shù)據(jù)集已經(jīng)開源,并已廣泛應(yīng)用于產(chǎn)業(yè)用戶的模型訓(xùn)練中。
解“困”AI大規(guī)模產(chǎn)業(yè)化難題
業(yè)界普遍認(rèn)為AI大模型當(dāng)前面臨的主要瓶頸包括:算力資源受限、訓(xùn)練成本高昂、人力投入巨大等。
在燧原科技產(chǎn)品市場部總經(jīng)理高平看來,算力資源不足和成本昂貴的根本問題,其實(shí)是AI算力市場競爭不充分,目前國內(nèi)AI訓(xùn)練算力市場基本被海外大廠獨(dú)家壟斷,成本與資源受限問題是壟斷下的必然結(jié)果;其次,AI算力的技術(shù)發(fā)展在逐漸邁向成熟,面向AI計算的DSA架構(gòu)在AI大模型如火如荼的發(fā)展趨勢下,將會具備很好的規(guī)模經(jīng)濟(jì)效益,進(jìn)而隨著技術(shù)發(fā)展取得更好的成本優(yōu)勢;第三,人力投入大的問題主要是缺乏相應(yīng)的標(biāo)準(zhǔn)規(guī)范,將會在產(chǎn)業(yè)發(fā)展到某個程度的時候得到解決,減少重復(fù)投入。
吳韶華認(rèn)為,應(yīng)用的碎片化、尤其是長尾場景應(yīng)用的碎片化,仍是AI落地的難題。碎片化就意味著不同場景需要有針對性地建模,每個小場景都要從數(shù)據(jù)到模型、應(yīng)用整個流程走一遍。此外,隨著數(shù)據(jù)的更新,模型也要更新。設(shè)想對于一家維護(hù)著上百個模型的企業(yè),要同時更新上百個模型及應(yīng)用,投入無疑是巨大的。
而大模型的出現(xiàn)可以說是生逢其時,它能夠?qū)鹘y(tǒng)煙囪式的、碎片化的AI應(yīng)用開發(fā)轉(zhuǎn)向集中式開發(fā)。一方面,AI大模型具備很好的泛化能力,一個模型可以支撐各類不同應(yīng)用,有效緩解碎片化開發(fā)反復(fù)建模的困境;另一方面,圍繞AI大模型構(gòu)建的算法基礎(chǔ)設(shè)施,比如開放的API、開源的應(yīng)用代碼等,使開發(fā)者無需關(guān)心底層技術(shù),設(shè)置無需配置編程環(huán)境,就可以直接將應(yīng)用構(gòu)建于AI大模型的能力之上,在降低開發(fā)門檻的同時,讓開發(fā)人員將更多的精力聚焦在核心業(yè)務(wù)邏輯上。
AI大模型有望重塑產(chǎn)業(yè)格局
高平認(rèn)為,訓(xùn)練大模型所需要的海量算力必須依靠AI算力集群來支撐,能否充分發(fā)揮集群的整體效能,讓成本昂貴的AI算力能算盡其用,是降低大模型訓(xùn)練成本的關(guān)鍵。燧原科技打造了基于液冷技術(shù)的AI集群訓(xùn)練產(chǎn)品“云燧智算機(jī)CloudBlazer POD”,通過軟件層面(模型和框架)與硬件基礎(chǔ)設(shè)施(計算、存儲、網(wǎng)絡(luò))的協(xié)同優(yōu)化,能最大化算力利用率,在實(shí)際部署的千卡訓(xùn)練集群上實(shí)現(xiàn)了0.95的線性加速比。同時,使數(shù)據(jù)中心PUE可以達(dá)到1.1,從而大大降低了電力消耗,進(jìn)一步降低了成本。
“AI大模型的投入是AI技術(shù)邁向新臺階的必經(jīng)之路,是解決產(chǎn)業(yè)碎片化的一種很好的方式,AI大模型的技術(shù)發(fā)展與商業(yè)落地,也將會重塑目前的AI算力市場格局與AI應(yīng)用市場格局”, 高平表示,“未來,大模型的數(shù)量將遠(yuǎn)遠(yuǎn)少于目前的模型數(shù)量,這也有利于AI芯片針對性的設(shè)計開發(fā)與優(yōu)化,是AI算力企業(yè)生態(tài)建立的新機(jī)會,也可以預(yù)期,基于DSA架構(gòu)的AI芯片會在大模型的發(fā)展下大放異彩?!?/p>
同時,他認(rèn)為大模型應(yīng)用會形成新的上下游產(chǎn)業(yè)鏈,同時掌握大規(guī)模算力與數(shù)據(jù)的大型企業(yè)會把握產(chǎn)業(yè)鏈的上游;下游小企業(yè)利用大模型的能力,結(jié)合對行業(yè)理解的優(yōu)勢,能低成本地把AI技術(shù)應(yīng)用到社會的各個方面。這將會是成熟的、進(jìn)入良性循環(huán)的AI落地模式。
寫在最后
一直以來,AI的研發(fā)多數(shù)都依賴于模型:一是用數(shù)據(jù)訓(xùn)練模型;二是基于數(shù)據(jù)得到更好的模型結(jié)果。這就離不開各個環(huán)節(jié)的分工,找數(shù)據(jù)、標(biāo)注數(shù)據(jù),AI專業(yè)人士調(diào)參……通過多個環(huán)節(jié)勞動成果的聚合,最終實(shí)現(xiàn)AI的落地。也正是這樣高度分散且具有壁壘的分工,對AI的大規(guī)模產(chǎn)業(yè)化帶來挑戰(zhàn)。從目前各大企業(yè)、研究機(jī)構(gòu)對AI大模型的愿景,它將能夠很好地解決這些難題。
不過,也有人認(rèn)為AI大模型本質(zhì)上不過是深度學(xué)習(xí)的“加強(qiáng)版”,通過給模型“填喂”大數(shù)據(jù)提高其自學(xué)習(xí)能力,進(jìn)而實(shí)現(xiàn)更強(qiáng)的智能程度。
但正如本文受訪者所介紹,通過在算法、數(shù)據(jù)等層面的創(chuàng)新,它可以通過零樣本、小樣本學(xué)習(xí)精度的提升、高質(zhì)量數(shù)據(jù)集的優(yōu)化等,進(jìn)一步提升泛化能力和效率,這是AI產(chǎn)業(yè)全鏈條的創(chuàng)新,而不僅僅只是追求更大的模型。
AI大模型已經(jīng)掀起了新一輪AI競賽。它可能是走向強(qiáng)人工智能的必經(jīng)之路,也或許只是過渡手段,但不管怎么說,它已經(jīng)越來越清晰地呈現(xiàn)出了魅力。