金磊 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI
中國何時(shí)會有一個(gè)大模型,能以極強(qiáng)的泛化能力,創(chuàng)建各種智能體、成為人類真正的助手?
在各大科技公司卷了半年的生成式AI熱潮趨于冷靜期的當(dāng)下,這是一個(gè)極其值得思考的問題。
很多人會說,目前可能只有被稱為業(yè)界標(biāo)桿的GPT-4才能勝任,甚至對它加以“唯一”這樣的頭銜。
而與此同時(shí),著眼于國內(nèi),即使這半年來各個(gè)大模型玩家爭先恐后搶著落地,但“需要兩到三年才能追趕GPT-4”的聲音也是甚上塵囂。
然而就在最近,一個(gè)名為InternLM-123B的國產(chǎn)預(yù)訓(xùn)練大語言模型,似乎將這種差距感極大地給拉近了一些。
因?yàn)樵谝粓鲰敿獯竽P汀巴_競技”中,它的表現(xiàn)實(shí)屬有些亮眼:
? 12項(xiàng)成績排名第一。
? 綜合實(shí)力全球第二,部分成績超越GPT-4。
? 絕大部分性能超越ChatGPT和LLaMa-2-70B。
據(jù)了解,這個(gè)評測是在全球51個(gè)知名評測集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共計(jì)30萬道問題集合上測試所得到的結(jié)果。
而細(xì)看評測內(nèi)容,不難發(fā)現(xiàn)在所有的閱讀理解、絕大部分推理和常識問答方面,InternLM-123B拿到了絕對的風(fēng)頭。
那么這個(gè)國產(chǎn)大模型到底是什么來頭?
不賣關(guān)子,它正是由商湯聯(lián)合上海AI實(shí)驗(yàn)室等多家國內(nèi)頂尖科研機(jī)構(gòu)發(fā)布的最新大語言模型。
但其實(shí)要是追溯一下這個(gè)大模型,不難發(fā)現(xiàn)在2個(gè)月前(6月份),當(dāng)時(shí)參數(shù)量為1040億的InternLM便已經(jīng)解鎖了“首個(gè)綜合能力超越GPT-3.5-turbo的基模型”的成就,成為當(dāng)時(shí)國內(nèi)首家在多項(xiàng)權(quán)威評測集上超越ChatGPT水平的基模型。
不僅如此,在近日商湯所披露的中期業(yè)績報(bào)告中,更是將如此生成式AI技術(shù),落地所帶來的“成績”曝了出來:僅半年時(shí)間,生成式AI相關(guān)收入暴漲670.4%!
如此技術(shù),如此成績,那么不免讓人發(fā)出疑問:
會是中國第一個(gè)達(dá)到GPT4水平的大模型嗎?
若想趕超GPT-4,單是在技術(shù)上達(dá)到或超越它就并非是一件易事。
畢竟即使是人才、資金、算力都兼?zhèn)涞墓雀韬蚆eta至今都未能達(dá)到它的水平。
而且超強(qiáng)的算力、高質(zhì)量的數(shù)據(jù)、正確的訓(xùn)練方法等等,都是一環(huán)扣一環(huán),直接會影響大模型性能的好壞。
有人會說,為什么非要做到GPT-4水平呢?用Llama 2開源模型不香嗎?
那是因?yàn)?,如果要讓GPT-4驅(qū)動(dòng)類似于AutoGPT那樣的智能體,打造“工具調(diào)用”的可用境界,就必須要依賴強(qiáng)大的基座模型。
在“工具調(diào)用”這件事情上,強(qiáng)如GPT-4也只能做到80%的準(zhǔn)確率,Llama的準(zhǔn)確率只有40%。
△數(shù)據(jù)來源:《On the Tool Manipulation Capability of Open-source Large Language Models》
再如落地方式上,經(jīng)久不斷的開源閉源之爭,亦是抉擇的一個(gè)難點(diǎn)。
因此,我們不妨從技術(shù)實(shí)力、落地應(yīng)用和戰(zhàn)略布局等方面,來看下商湯是否是一個(gè)值得被期待的“潛力股”。
一看技術(shù)實(shí)力
若是用一句話來概括商湯在技術(shù)上的打法,那便是“日日新大模型體系+SenseCore大裝置”。
二者并非是簡單的做加法那般疊加,而是之間有著深度融合的那種。
至于其技術(shù)實(shí)力效果,我們從大模型的迭代速度便可窺知一二。
早在今年四月,商湯便發(fā)布日日新大模型體系,成為國內(nèi)第一批發(fā)布大模型的玩家之一;在國內(nèi)大語言模型之戰(zhàn)最白熱化階段,一口氣將“生成式AI產(chǎn)品族”和盤托出——
商量(SenseChat)、秒畫(SenseMirage)、如影(SenseAvatar)、瓊宇(SenseSpace)和格物(SenseThings)。
它們分別對應(yīng)的是自然語言交互、AI文生圖、數(shù)字人、3D大場景重建、3D小物體生成這五個(gè)主流的生成式AI應(yīng)用。
時(shí)隔僅僅兩個(gè)月(今年6月),商湯再次聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布InternLM-104B版本,并且當(dāng)時(shí)在三個(gè)全球權(quán)威測評基準(zhǔn)中(MMLU、AGIEval、C-Eval)的表現(xiàn)就均已超越ChatGPT。
不僅如此,在大模型的“玩法”上,商湯也是國內(nèi)眾多玩家里最早引入“工具調(diào)用”的選手之一。
例如知識庫掛載,實(shí)現(xiàn)了無需訓(xùn)練,便可快速融合知識生成;搭配企業(yè)知識庫可以快速解決相關(guān)領(lǐng)域問題。
再如InternLM-Chat-7B版本,也是在這種“玩法”之下,成為了第一個(gè)具有代碼解釋能力的開源對話模型。
能夠根據(jù)需要靈活調(diào)用Python解釋器等外部工具,在解決復(fù)雜數(shù)學(xué)計(jì)算等任務(wù)上的能力顯著提升;此外,該模型還可通過搜索引擎獲取實(shí)時(shí)信息,提供具有時(shí)效性的回答。
并且從第三方對于大模型掌握工具能力的評估結(jié)果來看,InternLM-Chat-7B也是領(lǐng)先于主流“選手”。
在此之后,商湯大語言模型的發(fā)展,也就來到了我們最開始所提到的InternLM-123B,是僅次于GPT-4,綜合實(shí)力位居全球第二的水平。
所以現(xiàn)在把發(fā)展路徑中的幾個(gè)重要迭代時(shí)間節(jié)點(diǎn)拎出來就是:四月→六月→七月→八月。
不得不說,快,著實(shí)是快。
在與商湯聯(lián)合創(chuàng)始人兼大裝置首席科學(xué)家林達(dá)華交流過程中,我們了解到如此迭代速度的背后還有一個(gè)“殺手锏”——數(shù)據(jù)處理。
這里所指的并非只是數(shù)據(jù)的總量,商湯更側(cè)重的是足夠強(qiáng)、高吞吐量的數(shù)據(jù)清洗能力。正如林達(dá)華所述:
一個(gè)性能強(qiáng)大的大模型,訓(xùn)練數(shù)據(jù)不僅規(guī)模要大,質(zhì)量更要高;而且大模型的價(jià)值觀和安全性也是依賴于此。
數(shù)據(jù)清洗的過程,猶如調(diào)制配方的實(shí)驗(yàn),需要不斷試錯(cuò)、不斷重復(fù),甚至從頭再來。這個(gè)過程是每家訓(xùn)練大模型的公司都無法避免的過程,沒有捷徑可走。
OpenAI在無數(shù)場合都介紹過GPT4訓(xùn)練的經(jīng)驗(yàn),但從未公開過數(shù)據(jù)清洗的經(jīng)驗(yàn),這可謂是訓(xùn)練大模型的頂級機(jī)密。
商湯在數(shù)據(jù)清洗的過程中投入了上千塊GPU的算力,并建立起大量系統(tǒng)化、工程化的途徑來進(jìn)行數(shù)據(jù)配方的試錯(cuò),可以迅速發(fā)現(xiàn)大數(shù)據(jù)庫中的有效數(shù)據(jù)再到小參數(shù)模型上進(jìn)行驗(yàn)證。
從4月到8月,商湯花費(fèi)了非常大的力氣做數(shù)據(jù)清洗,過程中專注于補(bǔ)充和構(gòu)建有多步驟的推理語料,形成一套非常高效的閉環(huán)進(jìn)行模型的訓(xùn)練,使得模型的推理能力得到了大幅提升。
目前商湯每月能夠產(chǎn)出約2萬億token的高質(zhì)量數(shù)據(jù),預(yù)計(jì)年底高質(zhì)量數(shù)據(jù)儲備將突破10萬億token,足以支持更加強(qiáng)大的基模型的訓(xùn)練。
通過數(shù)據(jù)清洗,商湯在中文語料的儲備方面達(dá)到了一個(gè)相當(dāng)高的水平,是業(yè)內(nèi)領(lǐng)先的能力,因此在知識理解和推理方面都有非常優(yōu)異的表現(xiàn)。
而如此迅猛的迭代速度和高質(zhì)量數(shù)據(jù)清洗,定然是離不開大算力的加持,也就是商湯技術(shù)版圖中另一個(gè)關(guān)鍵——SenseCore大裝置。
早在2022年1月,商湯便交付使用了總投資高達(dá)56億元的人工智能計(jì)算中心(AIDC),而且是“出道”即成為亞洲最大的AI超算中心之一。
一年前它的算力就已經(jīng)高達(dá)了2500 Petaflops,可以輕松應(yīng)對萬億參數(shù)的大模型;而時(shí)隔僅1年,這個(gè)數(shù)值便翻了一倍多,達(dá)到了6000 Petaflops。
有強(qiáng)大的算力,有高質(zhì)量數(shù)據(jù),加之商湯對于“玩轉(zhuǎn)”大模型多年來沉淀的know-how,也就不難理解為何能擁有如此迅猛的迭代速度了。
二看落地應(yīng)用
高質(zhì)量的落地速度,是另一個(gè)關(guān)鍵點(diǎn)。
這也是目前趨于冷靜的AIGC市場之下,各個(gè)大模型玩家所面對的骨感且實(shí)實(shí)在在的問題。
商湯可以說在這一點(diǎn)上提交了一份生成式AI相關(guān)收入暴漲670.4%的高分作業(yè)。
這個(gè)數(shù)據(jù)的亮相其實(shí)也并不意外,因?yàn)樯虦诖饲暗幕顒?dòng)中也早已對此有所披露。
例如結(jié)合商量2.0和秒畫3.0的能力,商湯在移動(dòng)端給客戶帶來了多種交互方面的“解法”。
針對信息獲取的問答交互、生活場景的知識交互、語言和圖像生成的內(nèi)容交互等等,正因?yàn)樯虦拇竽P蛽碛休p量化版本,所以可以輕松在移動(dòng)端上部署。
商湯還基于InternLM的輕量級模型,結(jié)合自研推理加速算法,與頭部手機(jī)芯片廠商建立研發(fā)合作,成功實(shí)現(xiàn)了大語言模型的手機(jī)端實(shí)時(shí)計(jì)算能力。
……
而這僅是商湯將大模型落地應(yīng)用的一隅,從眾多案例來看,也正應(yīng)了商湯聯(lián)合創(chuàng)始人、執(zhí)行董事徐冰的觀察:
市場對于AIGC、大模型技術(shù)的需求是非常強(qiáng)烈的;誰能夠在市場上迅速地推出對標(biāo)業(yè)界領(lǐng)先能力的基模型,誰就能跑得更快一些。
我們在基礎(chǔ)設(shè)施中投入如此大的力量,也是要解決市場對于大模型落地固有的碎片化的問題;讓基模型的泛化能力強(qiáng)大起來,即便面對各種碎片化的需求都可以做到及時(shí)響應(yīng)。
因此,商湯的落地速度,從某種層面上也可以視為“強(qiáng)技術(shù)”與“強(qiáng)需求”之間的雙向奔赴了。
三看戰(zhàn)略布局
自從大模型熱潮以來,一個(gè)經(jīng)久不斷的話題便是“開源”和“閉源”。
其各自的優(yōu)勢也是越發(fā)的明顯:
? 開源大模型:可以促進(jìn)技術(shù)的共享和交流,加速人工智能的發(fā)展;避免閉源模式下的技術(shù)獨(dú)霸和壟斷,促進(jìn)市場的公平競爭。
? 閉源大模型:可以保護(hù)知識產(chǎn)權(quán),為公司帶來經(jīng)濟(jì)效益;提高公司的核心競爭力,為公司在市場中占據(jù)優(yōu)勢地位。
但二者之爭也是進(jìn)展地如火如荼,國外大模型巨頭亦是如此,最為典型的便是Meta正在以開源LLaMa系列來挑戰(zhàn) OpenAI的地位。
在這個(gè)關(guān)鍵問題上,商湯的戰(zhàn)略布局與它們截然相反——不做選擇題,都要。
例如在開源方面,商湯與多家科研機(jī)構(gòu)合作支持和推進(jìn)AI開源平臺建設(shè),InternLM-7B的部分訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼及基模型權(quán)重已經(jīng)向?qū)W術(shù)界及工業(yè)界免費(fèi)開源,并支持免費(fèi)商用。
而在閉源方面,商湯目標(biāo)打造具有競爭力且好用的“基座模型”,如同英偉達(dá)賣“硬的鏟子”,商湯希望通過“軟的鏟子”,支持上萬個(gè)潛在行業(yè)大模型的需求,真正解決行業(yè)痛點(diǎn)。
正如林達(dá)華表示:
二者是相輔相成、互補(bǔ)的,它們對產(chǎn)業(yè)來說都有著非常重要的價(jià)值。
開源能夠讓更多人接觸到大模型這個(gè)技術(shù)本身。在這個(gè)過程中,它可以碰撞出更多火花,讓大模型更好的應(yīng)用起來,推動(dòng)整個(gè)大模型生態(tài)的建設(shè)。我想對全行業(yè)來說,開源是一個(gè)非常正面的貢獻(xiàn)。
而閉源對于企業(yè)在市場中形成技術(shù)和競爭力的壁壘起到至關(guān)重要的作用;未來若是能夠?qū)⒍咦龊芎玫慕Y(jié)合,會更好地推動(dòng)大模型市場的發(fā)展。
與此同時(shí),商湯還非??粗鼗P偷哪芰Γ?yàn)樵谒磥?,只有把基模型做得足夠?qiáng),才能應(yīng)對碎片化極高的市場需求。
這也應(yīng)了徐冰的想法:
大語言模型也好,文生圖模型、多模態(tài)模型等等也罷,它們的發(fā)展今年都遵循了同樣的規(guī)律,就是先前碎片化,定制多;但現(xiàn)在轉(zhuǎn)為追求強(qiáng)大的基模型能力,追求強(qiáng)大的泛化能力,能夠直接接入到客戶場景里面,做好適配能夠很好地去迅速地形成商業(yè)上的價(jià)值變現(xiàn)閉環(huán)。
我們也粗略地估計(jì)了一下,全中國的行業(yè)大模型可能潛在的規(guī)模突破一萬個(gè),因?yàn)檫@里面的場景非常多,玩家也非常多。這些行業(yè)的大模型是需要基于一個(gè)強(qiáng)大的基模型能力去生產(chǎn)的,它很難憑空只針對某個(gè)領(lǐng)域的數(shù)據(jù)就把行業(yè)大模型做好,因?yàn)樗鄙倭嘶P退軒淼囊幌盗械挠楷F(xiàn)能力。
……
總而言之,有實(shí)力、有落地、有布局,商湯能否解鎖“成為中國第一個(gè)達(dá)到GPT-4水平的大模型”,是值得期待一波了。
商湯刷新了自己
最后,我們再回到商湯本身。
若是要用一句話來評價(jià)商湯這次交出的“成績單”,或許就是:
商湯自己刷新了自己。
曾幾何時(shí),大眾和市場對于商湯的印象可能依舊是停留在“AI視覺技術(shù)公司”這個(gè)標(biāo)簽上。
但也正是這樣的一個(gè)起點(diǎn),如果站在當(dāng)下這個(gè)時(shí)間節(jié)點(diǎn)回首,或許正應(yīng)了現(xiàn)在非常流行那句話:命運(yùn)的齒輪開始轉(zhuǎn)動(dòng)了。
現(xiàn)在大模型所需要的多模態(tài)技術(shù),不論是自然語言處理,還是圖像處理等,商湯已經(jīng)早早涉足且深耕;現(xiàn)在大算力上的“一票難求”,商湯也是早早布局打造AIDC,為日后的大裝置做好了充足的鋪墊。
而且商湯更是在ChatGPT引爆AIGC大熱潮之前,便已經(jīng)在大模型領(lǐng)域著手研發(fā)。
并且在2019年,商湯便使用上千張GPU進(jìn)行單任務(wù)訓(xùn)練,推出了10億參數(shù)規(guī)模的視覺模型,并實(shí)現(xiàn)了當(dāng)時(shí)業(yè)界最好的算法效果。
后來在2021年到2022年期間,商湯訓(xùn)練并開源了30億參數(shù)的多模態(tài)大模型書生。
而當(dāng)熱潮退去,市場迎來落地大考之際,商湯又能將長期準(zhǔn)備好的一系列的成果通過完備生產(chǎn)要素和生產(chǎn)資料、靈活的“玩法”和布局來應(yīng)對。
因此,現(xiàn)在的商湯更像是一個(gè)新型技術(shù)基建平臺,時(shí)刻在為即將到來且充滿變數(shù)的未來在做著準(zhǔn)備。
總而言之,商湯,是時(shí)候需要被重估了。
One More Thing
好消息!商湯大模型應(yīng)用“商量SenseChat”即日起全面向廣大用戶開放服務(wù)了!
可戳下方鏈接了解一下:https://chat.sensetime.com