加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、ChatGPT 的本質(zhì)
    • 02、長跑者阿里
    • 03、假如 AIGC 時代全面來臨
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

ChatGPT 不是終點(diǎn):阿里不出,誰與爭鋒?

2023/03/02
2816
閱讀需 21 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

這一票,我想投給阿里。”? ? ? ? ???

作者 | 孫溥茜編輯 | 陳彩嫻

ChatGPT正在變成一場競賽,中國企業(yè)爭先恐后搶發(fā)“自研”的ChatGPT,爭當(dāng)所謂的贏家。但實(shí)際上,ChatGPT并非競賽的終點(diǎn),而是起點(diǎn),只是堪堪拉開了人工智能新時代的一角序幕。這場對于通用人工智能的角逐,實(shí)際上是一場無盡的長跑、而非百米沖刺。假設(shè)真有一個這樣新的時代到來,哪些力量可以一爭高下?此前,雷峰網(wǎng)盤點(diǎn)了追趕「ChatGPT」的學(xué)術(shù)、創(chuàng)業(yè)與大廠三派力量:學(xué)術(shù)一派,清華大學(xué)一騎絕塵;創(chuàng)業(yè)一派,王小川、王慧文財(cái)大氣粗;大廠一派,則以百度、阿里為代表,它們在 2020 年就已經(jīng)開始布局大模型研究。

其中,大廠派有技術(shù)、有資源、有產(chǎn)品,最為突出。如同微軟之于 OpenAI,谷歌之于 DeepMind,大廠與科研團(tuán)隊(duì)合作成為群雄逐鹿的主要形式。由于 ChatGPT 的成功背后是強(qiáng)科研投入與新產(chǎn)品優(yōu)化的結(jié)合,大廠的資源(數(shù)據(jù)、算力)與產(chǎn)品平臺,將扮演至關(guān)重要的角色。有小型初創(chuàng)團(tuán)隊(duì)就告訴雷峰網(wǎng),大廠下場是意料之中,國內(nèi) AI 小公司囿于客觀條件,如 OpenAI 依靠微軟也是它們發(fā)展與生存的必要條件。

人工智能的市場很大,每個公司都可以在其中找到自己的位置,區(qū)分的關(guān)鍵點(diǎn)其實(shí)只在于:能否在未來的持續(xù)競爭中保持投入,并最終以最低的成本提供最好的體驗(yàn)。

01、ChatGPT 的本質(zhì)

關(guān)于 ChatGPT 的討論中,有一個常見的問題是:OpenAI 的 ChatGPT 這么火,我們(中國)還有機(jī)會嗎?就模型來看,對 ChatGPT 來說,語言大模型是起碼的敲門磚。作為 ChatGPT 的技術(shù)基礎(chǔ),GPT-3 在 2020 年首次面世,以 1750 億參數(shù),在多項(xiàng)語言任務(wù)(包含文字理解、文本生成、智能問答、文本續(xù)寫、文本總結(jié)等等)中取得優(yōu)異表現(xiàn)。從此,以 GPT-3 為代表的語言大模型成為自然語言處理研究者(NLPer)的兵家必爭之地。在區(qū)分各家的 ChatGPT 實(shí)力時,大模型的實(shí)力也就成為重要考量??萍即髲S中,目前在大模型上有布局的企業(yè)包括阿里(通義)、百度(文心)、華為(盤古)等。自研大模型的訓(xùn)練難度并不低,涉及數(shù)據(jù)、算法與算力三個維度,傳言全球不超過 200 人能從頭自研、訓(xùn)練一個大模型:

?數(shù)據(jù)層面:對于深度學(xué)習(xí),當(dāng)樣本數(shù)量較少時,不正確的模型復(fù)雜度會導(dǎo)致過擬合和欠擬合。當(dāng)樣本數(shù)量增多時,這種風(fēng)險就會變小,因此,大模型對數(shù)據(jù)的數(shù)量與質(zhì)量要求都極高。GPT-3有1750億參數(shù),數(shù)據(jù)量達(dá)到45TB,表現(xiàn)出色。而對數(shù)據(jù)的采集、清洗與標(biāo)注,需要人力,也需要資金。

?算法層面:除了海量數(shù)據(jù),大模型訓(xùn)練對 AI 框架的深度優(yōu)化和并行能力提出更高要求。這一塊對 AI 人才的科研與工程能力要求最高,也是近日各大廠搶人才的源頭。

?算力層面:這一塊參差不齊,但公開消息表明,為了 OpenAI 訓(xùn)練 GPT-3,微軟幫忙建設(shè)了一個搭載 1 萬張顯卡,價值 5 億美元的算力中心,模型在訓(xùn)練上則消耗了 355 個GPU年的算力,單獨(dú)一次的訓(xùn)練成本則是 1200 萬美金。OpenAI 的 GPT-4 還未揭曉,面對較為確定的不確定,企業(yè)的 AI 底層建設(shè)也顯得尤為關(guān)鍵,算力就是其中之一。算力層面,據(jù)雷峰網(wǎng)了解,早年各大廠雖然如火如荼地建設(shè)各自的 AI Lab,但在計(jì)算資源的投入上卻參差不齊,還有的知名大廠連一萬張顯卡都沒有。

除了顯卡數(shù)量的不足,企業(yè)與企業(yè)拉開差距的地方還可能體現(xiàn)在:往期算力積累,以及運(yùn)用有限算力資源訓(xùn)練無限大模型的應(yīng)對能力。這波 ChatGPT 中,除了「利好英偉達(dá)」的聲量,國內(nèi)眾多云計(jì)算廠商與計(jì)算服務(wù)商的聲量微弱,本質(zhì)在于:芯片需要與算法適配。也就是說,有算力固然重要,但找到適合大模型訓(xùn)練、能讓大模型訓(xùn)練的芯片更為重要。尤其是前兩年大模型的風(fēng)潮中,部分大廠由于成本顧慮、沒有入局,已經(jīng)落后一大截,難以追趕。模型與算力的高壓之下,團(tuán)隊(duì)與團(tuán)隊(duì)之間的天花板其實(shí)已昭然若揭。在這波ChatGPT浪潮中,阿里頗為低調(diào),但因?yàn)樵诖竽P秃突A(chǔ)設(shè)施上長期積累的優(yōu)勢,阿里是一個絕不容忽視的重要玩家,一舉一動都牽動著整個AI行業(yè)的神經(jīng)。

02、長跑者阿里

誠如上文所言,大模型的研究難度極大,門檻極高。大多數(shù)中小企業(yè)在聲稱「自研大模型」時,往往是基于已開源的大模型與數(shù)據(jù)集,用監(jiān)督學(xué)習(xí)算法進(jìn)行微調(diào),獲得一個新的模型后,然后基于這個模型來開發(fā)產(chǎn)品。雖然性價比高,但由于底層基礎(chǔ)差異化不大,上層建筑在產(chǎn)品體驗(yàn)上也難以區(qū)分開來。這就造成了,若要從數(shù)據(jù)、算法與算力的底層部署開始深耕,大模型的開發(fā)注定是大廠與大廠之間的軍備競賽(人力、資本、數(shù)據(jù))。而且,開始地越早,越有先發(fā)優(yōu)勢。

圖注:大模型訓(xùn)練需要解決的數(shù)據(jù)、算法與算力難題(源于心辰科技分享)作為國內(nèi)最早入局語言大模型的團(tuán)隊(duì)之一,阿里在超越 ChatGPT 上有領(lǐng)先其他團(tuán)隊(duì)的優(yōu)勢,也意味著其在數(shù)據(jù)、算法與算力上有先行試錯與解決問題的經(jīng)驗(yàn),甚至在產(chǎn)品落地上有探索與實(shí)驗(yàn)。

公開資料表明,阿里在大模型的研究上有深厚基礎(chǔ):

?阿里早在 2020 年 1 月前便開始研發(fā)多模態(tài)大模型(MultiModality-to-MultiModality Multitask Mega-transformer,簡稱為「M6」),6 月研發(fā)出 3 億參數(shù)的 M6,有了一個好的開端;

?2021 年是阿里大模型的快速騰飛時期:3 月發(fā)布千億參數(shù)多模態(tài)大模型 M6,4 月發(fā)布首個中文語言大模型 PLUG(270億參數(shù),號稱中文版「GPT-3」),5月發(fā)布萬億參數(shù)大模型 M6,10 月又發(fā)布 10 萬億參數(shù)大模型 M6……

?2022 年,阿里「通義」大模型體系出世,囊括被谷歌、微軟、DeepMind、Mega等國際頂尖團(tuán)隊(duì)引用的通用統(tǒng)一模型M6-OFA 。當(dāng)年云棲大會期間推出國內(nèi)首個 AI 模型社區(qū)魔搭 ModelScope,貢獻(xiàn) 300 多個優(yōu)質(zhì) AI 模型,百億參數(shù)以上大模型超過10個……對比國內(nèi)其他互聯(lián)網(wǎng)科技大廠在大模型上的投入與產(chǎn)出,阿里的模型研究在前沿領(lǐng)域走得最遠(yuǎn),成果間隔產(chǎn)出時間最短,中文語言模型意識突出,多模態(tài)結(jié)合與通用架構(gòu)的研發(fā)落實(shí)也最透明(尤其體現(xiàn)在魔搭社區(qū)上),很難不被人關(guān)注。

單看阿里的大模型成果數(shù)量,實(shí)際不足以窺見它的研發(fā)差異化。雷峰網(wǎng)試著從以下幾個角度分析:首先,阿里大模型從M6、PLUG發(fā)展到通義,在訓(xùn)練方法上已經(jīng)歷經(jīng)了一個明顯的轉(zhuǎn)變:從 BERT 到自回歸。國內(nèi)的大模型開發(fā),尤其是 2021 年出現(xiàn)的許多大模型,基本是以 BERT 為先鋒基礎(chǔ),而阿里在 2021 年開始從 BERT 轉(zhuǎn)向自回歸,復(fù)刻 GPT-3。鑒于大多數(shù)對 GPT-3 的復(fù)刻均以失敗告終,阿里想必也是試錯多次才成功。目前,在魔搭社區(qū)上,我們可以看到復(fù)刻成功的 GPT-3 多個中文版本,參數(shù)從base直到175B。這些版本已經(jīng)開源開放,最高的下載量達(dá)到72k,可見受到 AI 算法開發(fā)者的廣泛肯定。

圖注:中文 GPT-3 在魔搭社區(qū)上的頁面(源于魔搭社區(qū))

Google發(fā)布的 BERT(Bidirectional Encoder Representation from Transformers)是首個預(yù)訓(xùn)練大模型,BERT 沒有采用傳統(tǒng)的單向語言模型,或者將兩個單向語言模型進(jìn)行淺層拼接的方法進(jìn)行預(yù)訓(xùn)練,而是采用MLM(masked language model)以生成深度的雙向語言表征。OpenAI 發(fā)布的 GPT-3 后來者居上,GPT-3 延續(xù)了單向語言模型訓(xùn)練方式,但是將模型尺寸擴(kuò)充到1750億參數(shù)。

GPT-3聚焦于更加通用的NLP模型,解決了目前BERT類模型的兩大缺點(diǎn):對領(lǐng)域內(nèi)有標(biāo)簽的數(shù)據(jù)過分依賴,以及對于領(lǐng)域數(shù)據(jù)分布的過分?jǐn)M合。BERT 與自回歸的區(qū)別在于,基于 BERT 架構(gòu)訓(xùn)練的語言大模型更擅長「理解」,而基于自回歸(即 GPT-3 的方法)更擅長「生成」。達(dá)摩院成為國內(nèi)少有的布局自回歸的大模型團(tuán)隊(duì)。此外,值得注意的是,谷歌的一項(xiàng)研究(論文「Emergent Abilities of Large Language Models」)表明,模型的規(guī)模從 700 億參數(shù)到 2800 億參數(shù)會有明顯質(zhì)變,驗(yàn)證了千億級參數(shù)是大模型從量變到質(zhì)變的一個坎。而阿里是國內(nèi)第一個做出千億參數(shù)大模型的團(tuán)隊(duì)。

其次,從大模型背后最關(guān)鍵的算技術(shù)來看,阿里在訓(xùn)練大模型上的工程積累也有明顯提升,這主要體現(xiàn)在算力的部署上。從 2020 年 GPT-3 的出現(xiàn)以來,大模型「大力出奇跡」就成為 AI 領(lǐng)域公認(rèn)最有前景的方向之一,但大模型的訓(xùn)練難度大,算力要求高。尤其當(dāng)模型的參數(shù)超過萬億、十萬億(如阿里的 M6),訓(xùn)練過程中,已經(jīng)不是單純靠堆算力就行。

實(shí)驗(yàn)表明,工程師在算法上下功夫,是可以降低計(jì)算能耗的。例如,GPT-3 推出兩年后,2022 年 Meta 參照它所研發(fā)的 OPT 模型計(jì)算量就降低到了 1/7。2022 年還有文章表明,2018 年需要幾千塊 GPU 訓(xùn)練的 BERT 大模型,如今只需要單卡 24 小時就能訓(xùn)練完。類似的例子不勝枚舉。提升訓(xùn)練速度、降低訓(xùn)練成本的途徑主要有兩種,一種是注重對訓(xùn)練數(shù)據(jù)的優(yōu)化,而非參數(shù)規(guī)模;另一種則是依賴算法與架構(gòu)的創(chuàng)新,如 ALBERT、「孟子」等工作。而這兩種方法,都對研發(fā)團(tuán)隊(duì)的技術(shù)經(jīng)驗(yàn)有要求。據(jù)公開資料,阿里在大模型訓(xùn)練這塊有「兩把刷子」。一方面,阿里從數(shù)據(jù)、算法上入手,降低計(jì)算能耗。

2021 年 5 月,阿里達(dá)摩院的團(tuán)隊(duì)僅用 480 卡 GPU 就訓(xùn)練出萬億參數(shù)多模態(tài)大模型 M6,與英偉達(dá)、谷歌等公司實(shí)現(xiàn)萬億參數(shù)規(guī)模相比,能耗降低超八成。同年 10 月,他們把 M6 的參數(shù)規(guī)模擴(kuò)大到 10 萬億,訓(xùn)練號稱只用了 512 卡 GPU。另一方面,阿里在云計(jì)算上加大投入,專門建設(shè)了一個智能算力系統(tǒng)——飛天智算平臺。飛天智算融合了通用計(jì)算、異構(gòu)計(jì)算等多種計(jì)算形態(tài),單集群算力峰值高達(dá)12 EFLOPS,對萬卡規(guī)模的 AI 集群提供無擁塞、高性能的集群通訊能力,其中專設(shè)的機(jī)器學(xué)習(xí)平臺 PAI 部署了分布式訓(xùn)練框架 EPL(訓(xùn)練 M6 的功臣)能大幅度能耗、提升速度。

一個公開的數(shù)據(jù)是,截至 2023 年 1 月底,ChatGPT 官網(wǎng)總訪問量超過 6.16 億次,每一次與 ChatGPT 的互動,算力云服務(wù)成本在 0.01 美元,如果用總投資在 30.2 億元、算力 500P 的數(shù)據(jù)中心支撐 ChatGPT 的運(yùn)行,這樣的數(shù)據(jù)中心至少需要 7-8 個,基礎(chǔ)設(shè)施投入數(shù)以百億。如果不是依托微軟的 Azure 云平臺,ChatGPT 難以提供穩(wěn)定服務(wù)。而阿里云在云計(jì)算產(chǎn)品這塊,是國內(nèi)第一、全球第三,對于之后支持類似 ChatGPT 的產(chǎn)品有天然優(yōu)勢。

最后,阿里從大模型研究中體現(xiàn)的另一個特點(diǎn),是「模型服務(wù)」與「中文生態(tài)建設(shè)」的意識。阿里注重大模型的落地,解決行業(yè)問題,在 2022 年 9 月推出「通義」大模型系列,劃分三層:模型底座層、通用模型層和行業(yè)模型層。

圖注:阿里通義大模型架構(gòu)

模型底座上,他們以統(tǒng)一學(xué)習(xí)范式OFA(One-For-All)等關(guān)鍵技術(shù)為支撐,在業(yè)界首次實(shí)現(xiàn)模態(tài)表示、任務(wù)表示、模型結(jié)構(gòu)的統(tǒng)一。M6-OFA 模型在不引入新增結(jié)構(gòu)的情況下,可以同時處理圖像描述、視覺定位、文生圖等10余項(xiàng)單模態(tài)和跨模態(tài)任務(wù)。2021 年,OpenAI 推出文生圖產(chǎn)品 DALL·E,其背后的關(guān)鍵技術(shù)是為文字與圖像兩種模態(tài)搭建橋梁的架構(gòu) CLIP。

阿里達(dá)摩院是國內(nèi)最早注意到 CLIP 對多模態(tài)影響的團(tuán)隊(duì),投入研發(fā),在2022年推出了中文版 CLIP(ChineseCLIP),對中文跨模態(tài)有重要作用。這為提升模型泛化能力有很大影響。舉例而言,在文本、圖像、語音、視頻等模態(tài)結(jié)合的基礎(chǔ)上,任務(wù)表示和結(jié)構(gòu)統(tǒng)一的設(shè)計(jì)可以讓上層模型不僅服務(wù)單一領(lǐng)域(如電商),還能服務(wù)其他領(lǐng)域(如金融、醫(yī)療、法律等等)。在中文生態(tài)的建設(shè)上,阿里的另一個貢獻(xiàn)是建設(shè)魔搭社區(qū),對標(biāo) HuggingFace。魔搭社區(qū)成立不到半年,在促進(jìn)中文 AI 模型的開源上,以清晰的文檔格式、豐富的模型種類、優(yōu)質(zhì)的中文模型(包括大模型)吸引了許多開發(fā)者。

語言大模型的研究中,中文語料的短缺一直是行業(yè)難題。阿里帶頭貢獻(xiàn)自家模型和數(shù)據(jù)集,促進(jìn) AI 應(yīng)用開發(fā),推廣 AI 產(chǎn)品與用戶的交互,促進(jìn)整個中文語言研究的語料積累,并開源布公。用一位 AI 從業(yè)者的評價來形容,在國內(nèi)追趕 ChatGPT 的前赴后繼中,阿里武器齊全,數(shù)據(jù)、算法、算力三風(fēng)具備,場景豐富,很難缺席和失敗。

03、假如 AIGC 時代全面來臨

ChatGPT 雖然是一款智能對話機(jī)器人,但提供問題的能力,本質(zhì)上還是文本生成,即 AIGC 的一個分支。無論是文本生成,還是圖像生成、文生圖、文生視頻,甚至早已出現(xiàn)的各類語音生成,其技術(shù)的成熟與產(chǎn)品的薄發(fā),都代表了人工智能生成數(shù)字內(nèi)容的無限想象力。AIGC,正在造出一個新的賽道,正在改變傳統(tǒng)產(chǎn)品的形態(tài)。比如,語音音箱的市場將被激活和重塑。以天貓精靈為例,其家庭用戶超過4000萬,月交互次數(shù)超過80億,這還是在原來AI對話能力下的情況。通過大模型的底座訓(xùn)練,再結(jié)合聲音這種富有情緒的信息媒介,天貓精靈有可能升級成真正的家庭伴侶,成為包含知識、情感、個性、記憶的全新家庭交互系統(tǒng),展現(xiàn)超乎期待的能力。更重要的是,我們正在一個轉(zhuǎn)折點(diǎn)上,AI不僅是產(chǎn)品,更有可能變成一種服務(wù)「AI as Service」,這將成為科技大廠競爭的核心戰(zhàn)場。

如何對外輸出AI能力,怎樣以最低的成本來提供最好的體驗(yàn),將成大廠競爭的關(guān)鍵。擅長「為他人做嫁衣」阿里,已經(jīng)通過算力基礎(chǔ)設(shè)施為客戶減少研發(fā)成本。從之前情況來看,目前國內(nèi)只有阿里一家具備支撐超萬億參數(shù)大模型研發(fā)的「云 + AI」全棧技術(shù)實(shí)力。同時,因?yàn)檫^去支持超大模型研發(fā)的經(jīng)驗(yàn),阿里練出了AI訓(xùn)練提效11倍、推理提效6倍的獨(dú)家本領(lǐng)。這種「低碳訓(xùn)練」技術(shù),后續(xù)無疑也將為阿里云的客戶提供具有高性價比的AI算力。在提供產(chǎn)品體驗(yàn)上,阿里的策略不是與生態(tài)鏈伙伴搶終端客戶,而是先做大生態(tài)。魔搭社區(qū)就是一個典型例子,讓沒有自研能力的 AI 開發(fā)者或中小企業(yè)在魔搭平臺上就能體驗(yàn)五花八門的 AI 模型,構(gòu)建自己所需的AI能力。

換言之,在 AI 深入行業(yè)的藍(lán)圖上,阿里的策略貌似也是為 B 端客戶提供技術(shù)服務(wù),通過 B 端去觸動 C 端,形成一張網(wǎng)。在魔搭社區(qū),廣大開發(fā)者或者中小企業(yè)主可以下載使用免費(fèi)開源的模型,可以對模型進(jìn)行二次優(yōu)化,無需布卡就能快速生成基于 AI 模型的服務(wù)應(yīng)用,使 AI 真正成為一種觸手可及的生產(chǎn)要素。截至現(xiàn)在,已經(jīng)有瀾舟科技、深勢科技、智譜AI、啟智社區(qū)、嗶哩嗶哩、IDEA研究院等等十多家知名機(jī)構(gòu)貢獻(xiàn)模型,魔搭社區(qū)模型量已超過600個,較 2022 年 11 月上線之初翻了一番。除去用大模型服務(wù)自己的淘寶、天貓、天貓精靈、釘釘?shù)鹊葮I(yè)務(wù),阿里安心做一個 AI 時代的模型基礎(chǔ)設(shè)施服務(wù)商,也不失為一個明智的選擇。

根據(jù)阿里 2022 財(cái)年全年財(cái)報,過去一年,阿里在技術(shù)相關(guān)成本費(fèi)用上的投入超過 1200 億元,全球設(shè)立 7 個研究中心,開源技術(shù)項(xiàng)目超 3000 個、開源活躍度國內(nèi)企業(yè)排名第一,其中相當(dāng)比例的投入進(jìn)入人工智能領(lǐng)域。對于需要極高投入的 AI 研發(fā)來說,可以看出,阿里也具備了在這場長跑中堅(jiān)持到底的決心。在最近一片喧囂沸騰中,真正的主角可能還尚未亮劍,大戲才剛剛開始。

阿里巴巴

阿里巴巴

阿里巴巴集團(tuán)經(jīng)營多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。

阿里巴巴集團(tuán)經(jīng)營多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜