當(dāng)業(yè)界幾乎把所有的目光都聚焦到ChatGPT上,原本有些克制的科技大廠突然有了緊迫感,紛紛在類ChatGPT產(chǎn)品中證明自己的實(shí)力。一時(shí)間,數(shù)百億、千億乃至萬億級(jí)參數(shù)規(guī)模的人工智能大模型(下面簡(jiǎn)稱“大模型”)相繼涌現(xiàn),這場(chǎng)ChatGPT引發(fā)的全球大模型競(jìng)賽趨于白熱化。
“有大模型的企業(yè)能做ChatGPT,沒有的則是在蹭熱點(diǎn)?!睂?duì)于互聯(lián)網(wǎng)公司蜂擁扎堆做ChatGPT,阿里達(dá)摩院M6大模型前帶頭人楊紅霞言辭犀利地說。在她看來,只有參數(shù)規(guī)模100億以上的大模型才有實(shí)力提供高質(zhì)量的對(duì)答。
百度、阿里已有比肩ChatGPT的大模型
大模型的核心特征是模型參數(shù)多、訓(xùn)練數(shù)據(jù)量大。有研究估測(cè),訓(xùn)練1750億參數(shù)語言大模型GPT-3,需要上萬個(gè)CPU/GPU24小時(shí)不間斷地輸入數(shù)據(jù)。其能耗相當(dāng)于開車往返于地球和月球,一次運(yùn)算就要花費(fèi)450萬美元。高昂的研發(fā)成本意味著,主流的大模型只能由大型科技公司或少數(shù)研究機(jī)構(gòu)掌握。
據(jù)了解,ChatGPT是基于8000億個(gè)單詞的語料庫,包含了1750億個(gè)參數(shù)。前者是ChatGPT的訓(xùn)練數(shù)據(jù),后者是它從這些訓(xùn)練數(shù)據(jù)中所學(xué)習(xí)、沉淀下來的內(nèi)容。這種海量參數(shù)規(guī)模讓ChatGPT能夠捕獲更復(fù)雜的語言模式和關(guān)系,從而提高復(fù)雜自然語言處理任務(wù)的準(zhǔn)確性。
從參數(shù)規(guī)模來看,國內(nèi)已經(jīng)誕生了能夠比肩ChatGPT參數(shù)量的大模型。百度既有20多萬企業(yè)用戶的飛槳平臺(tái),也有2600億參數(shù)量的文心大模型;阿里巴巴有“通義”大模型,多模態(tài)大模型M6的參數(shù)規(guī)模已經(jīng)突破10萬億,規(guī)模遠(yuǎn)超谷歌、微軟,成為全球最大的AI預(yù)訓(xùn)練模型。OpenAI前政策主管Jack
Clark公開點(diǎn)評(píng)阿里巴巴:“這個(gè)模型的規(guī)模和設(shè)計(jì)都非常驚人,是眾多中國AI研究組織逐漸發(fā)展壯大的一種表現(xiàn)?!?/p>
當(dāng)參數(shù)規(guī)模迅速攀升至幾百億、千億時(shí),大模型的訓(xùn)練方式也出現(xiàn)了分野。有業(yè)內(nèi)專家認(rèn)為,參數(shù)數(shù)量并不代表模型結(jié)果,更為關(guān)鍵的是訓(xùn)練方式。在華為諾亞方舟實(shí)驗(yàn)室語音語義首席科學(xué)家劉群看來,雖然我們訓(xùn)練了幾千億或者幾萬億的數(shù)據(jù),但訓(xùn)練的充分程度仍遠(yuǎn)遠(yuǎn)不夠。
ChatGPT有一個(gè)巨大先發(fā)優(yōu)勢(shì)
2018年,業(yè)界分化出兩個(gè)預(yù)訓(xùn)練模型主流方向——谷歌的BERT和OpenAI的GPT。在很長(zhǎng)一段時(shí)間里,BERT在自然語言理解類任務(wù)中的表現(xiàn)比GPT更好,訓(xùn)練方式是通過“蒙住/遮蓋”一個(gè)語言片段,讓模型根據(jù)前后文雙向進(jìn)行猜測(cè),不斷提高猜中的概率。BERT利用海量的無標(biāo)注文本自監(jiān)督學(xué)習(xí),即可掌握大量語言知識(shí),刷新了多個(gè)AI權(quán)威榜單的記錄,是當(dāng)時(shí)NLP領(lǐng)域被更多押注的方向。
百度的文心大模型也是基于BERT技術(shù)路線——通過進(jìn)行不同的“蒙住”訓(xùn)練,采用無監(jiān)督學(xué)習(xí),有效提高訓(xùn)練數(shù)據(jù)規(guī)模;自回歸和自編碼網(wǎng)絡(luò)被融合在一起,進(jìn)行多范式統(tǒng)一的預(yù)訓(xùn)練,能夠兼具理解、生成和零樣本學(xué)習(xí)的能力。這些能力也讓文心3.0在國際權(quán)威的復(fù)雜語言理解任務(wù)評(píng)測(cè)SuperGLUE榜單上一度登上榜首,為百度加入這場(chǎng)競(jìng)賽提供了“彈藥”。
而GPT則是按照人類輸出文本的方式,從左到右進(jìn)行預(yù)測(cè)。中國人民大學(xué)應(yīng)用經(jīng)濟(jì)學(xué)院教授潘偉告訴記者:“直到GPT-3.5 出現(xiàn)后,模型智能表現(xiàn)上的鴻溝驟然被拉大——引入了指令微調(diào)和人類反饋強(qiáng)化學(xué)習(xí),才真正解鎖了ChatGPT如今出色的對(duì)話能力?!?/p>
一位接近微軟的消息人士透露,ChatGPT有一個(gè)巨大的先發(fā)優(yōu)勢(shì),就是它通過搶先開始公測(cè),收集了大量用戶的使用數(shù)據(jù)。這部分寶貴的數(shù)據(jù)被微軟獨(dú)家占有。“只要ChatGPT仍然是最好用的自然語言處理類大模型,這個(gè)‘雪球’就會(huì)越滾越大,其他企業(yè)將越來越難追上?!痹摌I(yè)內(nèi)人士稱。為了防止ChatGPT輸出有害信息,OpenAI還花大價(jià)錢找印度和肯尼亞的外包公司標(biāo)記了大量的有害文本,用來訓(xùn)練大模型不要輸出有害信息,對(duì)數(shù)據(jù)數(shù)年持續(xù)的投入,逐步構(gòu)成了OpenAI筑起的“數(shù)據(jù)壁壘”。
此外,數(shù)據(jù)質(zhì)量也是大模型表現(xiàn)結(jié)果的重要決定因素。中國并不缺數(shù)據(jù),百度、阿里巴巴、字節(jié)跳動(dòng)這樣的公司都有海量的數(shù)據(jù)積累,不過后續(xù)包括數(shù)據(jù)清洗、標(biāo)注以及模型的結(jié)構(gòu)設(shè)計(jì)、訓(xùn)練、推理等都需要時(shí)間積累,這可能是國內(nèi)大模型表現(xiàn)結(jié)果不如國外驚艷的重要原因。“百億級(jí)數(shù)據(jù)中可能只有10%的數(shù)據(jù)是好的,昆侖萬維僅僅使用自己的專有算法清洗數(shù)據(jù),就整整花費(fèi)了近兩年?!崩鋈f維CEO方漢解釋道。
微軟、谷歌的大模型已與原有業(yè)務(wù)深度綁定
“OpenAI非常重視真實(shí)世界數(shù)據(jù)的調(diào)用,以及這些數(shù)據(jù)對(duì)模型的迭代。”清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘副教授黃民烈表示,在GPT-3之后,OpenAI所有模型都沒有開源,在這個(gè)過程中,它干了一件事——建立起了真實(shí)用戶調(diào)用和模型迭代之間的飛輪。
全球科技創(chuàng)新產(chǎn)業(yè)專家、海銀資本創(chuàng)始合伙人王煜全也持有類似觀點(diǎn):“真正好的創(chuàng)新不是你能夠向大眾示范多么酷炫,而是能夠被廣泛使用。例如馬云知道互聯(lián)網(wǎng)的優(yōu)勢(shì)是能在網(wǎng)上做電商,劣勢(shì)是電商沒有信用證明。他創(chuàng)辦淘寶后,引入支付寶,將平臺(tái)作為第三方中間人,解決了誠信問題。這種成功,不是因?yàn)轳R云的技術(shù)多么領(lǐng)先,而在于利用技術(shù)解決了應(yīng)用痛點(diǎn)?!?/p>
對(duì)于已經(jīng)推出大模型的廠商來說,應(yīng)盡快利用這個(gè)基礎(chǔ)工具,找到應(yīng)用的痛點(diǎn),找對(duì)商業(yè)模式,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
除收購蘋果“Siri”背后的對(duì)話式人工智能公司Nuance外,微軟在生成式AI領(lǐng)域最核心布局就是對(duì)OpenAI的投資與合作。此次基于ChatGPT,微軟與OpenAI進(jìn)行了更加深度的綁定,旗下的搜索、辦公等各個(gè)產(chǎn)品體驗(yàn)均有望“智能升級(jí)”。
谷歌是微軟在AI、云、搜索等多重領(lǐng)域業(yè)務(wù)中的勁敵。谷歌自2011年成立AI部門,比微軟早了8年,旗下幾乎所有產(chǎn)品和服務(wù)都依靠AI驅(qū)動(dòng),一方面用戶場(chǎng)景從互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等傳統(tǒng)業(yè)務(wù)延伸到智能家居、自動(dòng)駕駛、機(jī)器人等領(lǐng)域,積累更多數(shù)據(jù)信息;另一方面在積累底層人工智能技術(shù)的同時(shí),持續(xù)研發(fā)更高級(jí)的深度學(xué)習(xí)算法,增強(qiáng)圖形識(shí)別和語音識(shí)別能力,對(duì)信息進(jìn)行更深層加工、處理。
如何提供更多排他性、獨(dú)占性強(qiáng)的優(yōu)勢(shì)產(chǎn)品將成為大廠搶占賽道的關(guān)鍵所在。“谷歌推出類似ChatGPT的大模型Bard之后,料想未來與微軟的競(jìng)爭(zhēng)將聚焦在元宇宙、人工智能等這些新興領(lǐng)域?!标稍婆投苄畔⒓夹g(shù)有限公司總裁郝峻晟告訴記者,微軟更多的還是會(huì)聚焦在B端(如辦公軟件、云計(jì)算和人工智能相關(guān)產(chǎn)品)以及游戲等相關(guān)領(lǐng)域;谷歌則在互聯(lián)網(wǎng)領(lǐng)域的優(yōu)勢(shì)更明顯一些,未來可能會(huì)更多的在C端市場(chǎng)推出更多定制化產(chǎn)品。
百度、阿里、華為積極探索場(chǎng)景應(yīng)用
大模型因“大”而效果好,但在許多產(chǎn)業(yè)應(yīng)用中也會(huì)因?yàn)椤疤蟆倍y以落地部署,導(dǎo)致商業(yè)模式不夠清晰。“近十年來,AI的研究發(fā)展迅猛,但AI的應(yīng)用始終是一大難題,使用門檻過高限制了AI的潛能?!卑⒗锇桶图瘓F(tuán)資深副總裁、達(dá)摩院副院長(zhǎng)周靖人表示,AI模型較為復(fù)雜,尤其是要應(yīng)用于行業(yè)場(chǎng)景,往往需要重新訓(xùn)練,這使得AI只掌握在少數(shù)算法人員手中,難以走向大眾化。
在AI領(lǐng)域深耕已久的百度,其文心大模型在商業(yè)價(jià)值以及應(yīng)用上的走向似乎更為明晰和開闊。百度方面表示,ChatGPT相關(guān)技術(shù),百度都有,且有全棧布局,包括底層芯片、深度學(xué)習(xí)框架、大模型以及最上層應(yīng)用。IDC日前發(fā)布《2022中國大模型發(fā)展白皮書》指出,百度文心已進(jìn)入AI語言生成類大模型的第一梯隊(duì)。
據(jù)了解,文心大模型已經(jīng)應(yīng)用于百度搜索、信息流、智能駕駛、百度地圖、小度等重要產(chǎn)品,服務(wù)數(shù)億用戶;在行業(yè)落地中,文心率先提出行業(yè)大模型概念,通過百度智能云在制造、能源、金融、城市、傳媒等行業(yè)廣泛應(yīng)用,此外,還有越來越多的開發(fā)者使用文心大模型。
按照百度集團(tuán)副總裁吳甜的說法,文心大模型做技術(shù)創(chuàng)新的同時(shí)做落地應(yīng)用,收益一方面來源于在百度自身業(yè)務(wù)中的應(yīng)用,另一方面來自行業(yè)客戶具體場(chǎng)景服務(wù)的價(jià)值。這也是百度在漫長(zhǎng)的AI探索過程中,調(diào)試出的發(fā)展方式,用李彥宏的話就是“摸著‘反饋’過河”。
有企業(yè)負(fù)責(zé)人對(duì)記者表示,現(xiàn)在人工智能技術(shù)都在與企業(yè)的核心業(yè)務(wù)流程做深度融合,而像ChatGPT這個(gè)基于大模型的應(yīng)用服務(wù),更像一個(gè)獨(dú)立的外掛,如何深度綁定,這也成為企業(yè)使用它的一個(gè)待解決問題。
記者了解到,目前,中國企業(yè)不僅致力于開發(fā)出能力媲美ChatGPT的大模型,還在著力降低大模型的應(yīng)用門檻,讓其真正成為產(chǎn)業(yè)智能化的基座。
為了讓大模型更加融會(huì)貫通,阿里達(dá)摩院在國內(nèi)率先構(gòu)建了AI統(tǒng)一底座,在業(yè)界首次實(shí)現(xiàn)模態(tài)表示、任務(wù)表示、模型結(jié)構(gòu)的統(tǒng)一。在不引入任何新增結(jié)構(gòu)的情況下,可同時(shí)處理圖像描述、視覺定位、文生圖、視覺蘊(yùn)含、文檔摘要等10余項(xiàng)單模態(tài)和跨模態(tài)任務(wù),如同打通了AI的感官,受到學(xué)界和工業(yè)界廣泛關(guān)注。
通過部署超大模型及輕量化版本,阿里巴巴通義大模型系列已在超過200個(gè)場(chǎng)景中提供服務(wù),實(shí)現(xiàn)了2%~10%的應(yīng)用效果提升,典型使用場(chǎng)景包括電商跨模態(tài)搜索、AI輔助設(shè)計(jì)、開放域人機(jī)對(duì)話、法律文書學(xué)習(xí)、醫(yī)療文本理解等。
“實(shí)現(xiàn)通用AI——降低使用門檻和使用成本”也是華為對(duì)AI大模型的規(guī)劃,實(shí)現(xiàn)從開發(fā)到產(chǎn)業(yè)化完整的系統(tǒng)流程。2021年到2022年,華為與鵬城實(shí)驗(yàn)室推出了“鵬城·神農(nóng)”大模型,與中科院推出全球首個(gè)三模態(tài)大模型“紫東·太初”,與中國商飛聯(lián)合推出業(yè)界首個(gè)工業(yè)級(jí)流體仿真大模型“東方·御風(fēng)”,與武漢大學(xué)合作推出全球首個(gè)遙感影像大模型“武漢.洛迦”,2月中旬華為與清華大學(xué)合作推出了自動(dòng)駕駛領(lǐng)域大模型。
其中,“紫東·太初”大模型解決了當(dāng)前人工智能技術(shù)“一專一能”、小樣本學(xué)習(xí)能力欠缺、跨模態(tài)語義鴻溝的痛點(diǎn),通過跨模態(tài)多任務(wù)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”,理解和生成能力更接近人類,向通用人工智能邁出重要一步。
“我們希望打通從技術(shù)到商業(yè)的斷點(diǎn),在大模型開發(fā)、Transformer?API的封裝以及大模型部署多個(gè)環(huán)節(jié)設(shè)計(jì)了相應(yīng)的工具,簡(jiǎn)化開發(fā)難度,同時(shí)將10多個(gè)主流的預(yù)訓(xùn)練SOTA大模型開放到昇騰社區(qū),讓開發(fā)者可以直接調(diào)用做二次開發(fā)?!比A為昇騰計(jì)算業(yè)務(wù)總裁張迪煊說。
作者丨齊旭 劉晶 宋婧? ?編輯丨劉晶
美編丨馬利亞? ?監(jiān)制丨連曉東