隨著科技的飛速發(fā)展,人工智能已經(jīng)成為當(dāng)今世界最為炙手可熱的話(huà)題。盡管如今人工智能、大模型的發(fā)展頻頻陷入“抄襲”泥潭,但不可否認(rèn)的是,這些技術(shù)正切實(shí)地為各個(gè)行業(yè)的發(fā)展“添磚加瓦”。
近日,中國(guó)電信宣布將自研的星辰大模型全面開(kāi)源,同時(shí)開(kāi)放1T高質(zhì)量清洗數(shù)據(jù)集,正式成為央企中首個(gè)完成LLM開(kāi)源的“選手”。去年12月,阿里云正式發(fā)布并開(kāi)源“業(yè)界最強(qiáng)開(kāi)源大模型”通義千問(wèn)720億參數(shù)模型Qwen-72B。今年1月17日,商湯科技與上海AI實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)發(fā)布的新一代大語(yǔ)言模型書(shū)?·浦語(yǔ)2.0也宣布開(kāi)源。隨著國(guó)內(nèi)外越來(lái)越多的大模型官宣開(kāi)源,大模型賽道正式迎來(lái)“開(kāi)源熱”。
01、開(kāi)源正在改變大模型的發(fā)展路徑
長(zhǎng)久以來(lái),開(kāi)源都是互聯(lián)網(wǎng)時(shí)代的主流模式之一。2017年,中國(guó)發(fā)布的《新一代人工智能發(fā)展規(guī)劃》將開(kāi)源、開(kāi)放作為基本原則寫(xiě)入了規(guī)劃。2023年,科技部副部長(zhǎng)吳朝暉也表示,中國(guó)堅(jiān)持開(kāi)源協(xié)作,加強(qiáng)大模型技術(shù)持續(xù)創(chuàng)新,協(xié)同解決透明性、穩(wěn)定性等共性問(wèn)題,進(jìn)一步推動(dòng)算力資源和數(shù)字資源開(kāi)放共享,加快形成大模型的產(chǎn)業(yè)生態(tài)。
2023年4月,由復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室開(kāi)發(fā)的新版MOSS模型正式上線(xiàn),成為國(guó)內(nèi)首個(gè)插件增強(qiáng)的開(kāi)源對(duì)話(huà)語(yǔ)言模型,MOSS的成功開(kāi)源成為我國(guó)人工智能領(lǐng)域的重要突破之一。大模型開(kāi)源可促進(jìn)大模型的研究和開(kāi)發(fā),有助于提高模型的應(yīng)用價(jià)值,推動(dòng)人工智能技術(shù)的普及,增強(qiáng)模型的可靠性和安全性。
據(jù)了解,目前我國(guó)國(guó)內(nèi)開(kāi)源大模型包括大語(yǔ)言模型、多模態(tài)大模型、向量大模型、編程大模型和AI Agent框架/模型等5類(lèi);開(kāi)源的參數(shù)規(guī)模分為五類(lèi):7B、13B、34B、65B、100B。目前國(guó)產(chǎn)開(kāi)源大模型的最高參數(shù)規(guī)模為浪潮信息的“源2.0”大模型,最大參數(shù)規(guī)模為102B,達(dá)到千億級(jí)。
來(lái)源:天翼智庫(kù)
不僅僅是國(guó)內(nèi)大模型,不少?lài)?guó)外知名大模型也進(jìn)行了開(kāi)源,如Meta的LLama、OPT,谷歌的T5、MT5、FLAN-T5以及UU2,BigScience的BLOOM、T0、BLOOMZ等等。Meta 首席 AI 科學(xué)家、圖靈獎(jiǎng)獲得者 Yann LeCun 就曾表示,開(kāi)源人工智能模型正走在超越專(zhuān)有模型的路上。
02、“向陽(yáng)而生”的開(kāi)源大模型
隨著開(kāi)源技術(shù)占據(jù)各大新興領(lǐng)域的技術(shù)路線(xiàn),其不斷豐富人工智能領(lǐng)域的應(yīng)用場(chǎng)景。開(kāi)源大模型可以促進(jìn)技術(shù)的共享和交流,加速人工智能的發(fā)展,但也存在數(shù)據(jù)隱私安全風(fēng)險(xiǎn)、許可協(xié)議尚未形成共識(shí)、產(chǎn)業(yè)生態(tài)不健全、商業(yè)模式不清晰等問(wèn)題。中國(guó)信通院云計(jì)算開(kāi)源產(chǎn)業(yè)聯(lián)盟發(fā)布的《可信開(kāi)源人工智能大模型案例匯編》中指出,模型框架、模型代碼、模型參數(shù)、訓(xùn)練數(shù)據(jù)四個(gè)方面是衡量其開(kāi)源成熟度的重要評(píng)定等級(jí)。
訓(xùn)練大模型需極大的算力,開(kāi)發(fā)成本高昂,而開(kāi)源大模型雖然節(jié)省了企業(yè)訓(xùn)練階段的算力消耗,但據(jù)統(tǒng)計(jì)達(dá)到一定用戶(hù)量級(jí)的應(yīng)用,推理階段的算力消耗為訓(xùn)練階段的5-10倍。大模型開(kāi)源以及其背后的開(kāi)放生態(tài),將帶來(lái)廣泛滲透的多場(chǎng)景大模型應(yīng)用以及更大的算力消耗,為算力產(chǎn)業(yè)培育“模型越強(qiáng)、應(yīng)用越多、用戶(hù)越廣、算力越大”的市場(chǎng)飛輪。技術(shù)本身不斷迭代演進(jìn),第三方參與者匯聚成洪流,未來(lái)才可能成為大模型時(shí)代的技術(shù)底座。
作為我國(guó)首個(gè)開(kāi)源的運(yùn)營(yíng)商大模型,星辰系列大模型由中國(guó)電信完全自主研發(fā)的,從2022年12月份開(kāi)始投入研發(fā),不到1年時(shí)間實(shí)現(xiàn)了多項(xiàng)技術(shù)的創(chuàng)新突破。在模型結(jié)構(gòu)方面,通過(guò)引入Embedding LayerNorm等創(chuàng)新方法,強(qiáng)化模型穩(wěn)定性,提高模型訓(xùn)練速度20%;通過(guò)創(chuàng)新位置編碼的方式,提升模型上下文推理長(zhǎng)度至96k,推理長(zhǎng)度還在持續(xù)增加;在產(chǎn)業(yè)應(yīng)用方面,為了增強(qiáng)模型的商用性,千億級(jí)星辰語(yǔ)義大模型在業(yè)界首次提出緩解多輪幻覺(jué)的解決方案,通過(guò)關(guān)鍵信息注意力增強(qiáng)技術(shù)、多輪知識(shí)記憶和強(qiáng)化技術(shù)等手段,幻覺(jué)率下降了40%;在模型加速方面,通過(guò)3D模型訓(xùn)練的方式配合量化技術(shù),實(shí)現(xiàn)訓(xùn)練顯存降低50%,推理提速4.5倍。
目前在我國(guó),開(kāi)源人工智能大模型已應(yīng)用于醫(yī)療、政務(wù)、法律、汽車(chē)、娛樂(lè)、金融、互聯(lián)網(wǎng)、教育、制造業(yè)、企業(yè)服務(wù)等多個(gè)場(chǎng)景。作為運(yùn)營(yíng)商,中國(guó)電信的優(yōu)勢(shì)不僅在于目標(biāo)客戶(hù)群體的儲(chǔ)備體量驚人,更在于能夠?yàn)樗麄兲峁V泛服務(wù)。而模型開(kāi)源將推動(dòng)實(shí)現(xiàn)大模型產(chǎn)業(yè)發(fā)展的供給側(cè)、需求側(cè)雙向發(fā)力,對(duì)大模型基礎(chǔ)設(shè)施運(yùn)營(yíng)、技術(shù)迭代創(chuàng)新、開(kāi)放生態(tài)建設(shè)帶來(lái)積極影響,將加速推動(dòng)大模型產(chǎn)業(yè)化應(yīng)用,助力產(chǎn)業(yè)升級(jí)。
在國(guó)際技術(shù)和算力封鎖的雙重壓力下,高質(zhì)量的數(shù)據(jù)、高水平的技術(shù)人才,以及大模型的算法創(chuàng)新都是AI行業(yè)發(fā)展的短板。持續(xù)開(kāi)源基礎(chǔ)大模型,廣泛地賦能更多的用戶(hù)場(chǎng)景加速應(yīng)用落地,聯(lián)合各類(lèi)合作伙伴打造大模型信創(chuàng)產(chǎn)業(yè)體系,不管2024年是開(kāi)源大模型的爆發(fā)之年,還是開(kāi)源大模型不斷超越專(zhuān)有模型的一年,相信我國(guó)大模型發(fā)展都將在全球大模型發(fā)展的繪卷上留下了濃墨重彩的一筆。
作者:王鶴迦
責(zé)編/版式:王禹蓉
審校:王 濤?梅雅鑫
監(jiān)制:劉啟誠(chéng)