加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 大模型:成也邏輯,敗也邏輯
    • 國內(nèi)AI應用落地,勢力三分
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

ChatGPT發(fā)瘋怎么辦?小冰李笛:兩個關鍵,我可破之

2023/03/02
403
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

蕭簫 衡宇 發(fā)自 凹非寺

微軟必應接入GPT大模型后,效果并沒有大家想象中那么好——它發(fā)瘋了。

如今官方緊急出面,更(砍)新(掉)了必應上面最受歡迎的功能,也就是發(fā)表觀點的能力。

大伙兒顯然很不買賬,認為新必應失去了最有意思的部分,現(xiàn)在版本的體驗感甚至不如siri 1.0。

有網(wǎng)友寄希望于必應背后的大模型升級:說不定現(xiàn)在只是GPT-3版本,GPT-4還沒發(fā)布呢。

然而據(jù)《紐約時報》等爆料,必應背后的大模型很可能就已經(jīng)是GPT-4了……

我們將這一現(xiàn)象拋給國內(nèi)最熟悉AI Chat領域的人——李笛。

他上來就給熱得發(fā)燙的大模型澆了盆冷水:

新必應和ChatGPT目前表現(xiàn)出來的bug,反映出大模型不得不解決的一個關鍵問題。

這個問題可以一時無視,但做大模型、甚至是類ChatGPT產(chǎn)品,如果不解決它,終究會碰壁。

這個bug,就是大模型的邏輯能力。

大模型:成也邏輯,敗也邏輯

事情要從ChatGPT背后的GPT-3.5模型說起。

從GPT-3.5開始,大模型展現(xiàn)出一種突破性的能力——思維鏈(CoT,Chain of Thought),也就是邏輯思考能力。

舉個例子,在做數(shù)學題時,相比直接輸出答案,模型能一步步推理直至給出正確答案,體現(xiàn)的就是思維鏈能力:

但此前在中小模型、甚至一部分大模型上都沒有發(fā)現(xiàn)這種能力,學界便認為這是某些大模型獨有的“新特性”。

基于這一“新特性”,大火的ChatGPT橫空出世,在回答問題和發(fā)表看法時展現(xiàn)出了像人一樣思考的效果。

然而李笛認為,GPT-3.5表現(xiàn)出的這種邏輯能力,是不穩(wěn)定、不可控甚至危險的。

第一,它的思考方式不透明;第二,它連引用來源都沒有。

這兩個問題看似被OpenAI用大量人工精細標注的數(shù)據(jù)、大量的模型參數(shù)掩蓋了起來,但一旦加入不可控因素(像必應一樣接入互聯(lián)網(wǎng)、或修改參數(shù)等),就隨時可能導致模型崩潰。

因此,如今邏輯思考能力正在成為大模型的雙刃劍——

使用效果好,大模型邁入新的時代;一旦失控,只會讓大模型更難落地。

為了舉例說明大模型的邏輯能力存在問題,李笛提到了小冰公司最新發(fā)布的產(chǎn)品小冰鏈。

小冰鏈(X-CoTA,X-Chain of Thought & Action)同樣是個大語言模型,通過對話的方式幫人們解答問題。

但它最典型的不同,在于僅僅用GPT-3參數(shù)量2%的模型就實現(xiàn)了思維鏈,而且思考過程還是透明的。

模型大小上,它不僅不是GPT系列的千億參數(shù)大模型,背后參數(shù)只有幾百億甚至最低能降到35億;

至于功能上,它拒絕像ChatGPT一樣生成綜述、作業(yè)和發(fā)言稿,但能實現(xiàn)的功能更多。除了不避諱對事件發(fā)表看法、主動聯(lián)網(wǎng)找答案以外,還能靈活調(diào)用各種模型或知識庫完成任務。

具體來說,小冰鏈的架構分為三個模塊。

模塊一負責運用思維鏈(CoT)能力處理語句。

這部分可以調(diào)用具備CoT能力的大模型來實現(xiàn),但也可以調(diào)用上面說的35億參數(shù)左右的中模型,將輸入的語句轉(zhuǎn)換成具體行動的Action指令輸出。

模塊二負責執(zhí)行指令(Action),這部分接收并處理模塊一輸出的Action指令,負責執(zhí)行對應的任務。

根據(jù)處理的指令不同,模塊二調(diào)用的模型和數(shù)據(jù)也并不相同,至少有三大使用方式:

聯(lián)網(wǎng)或本地知識庫搜索。既可以追蹤互聯(lián)網(wǎng)查找最新熱點、甚至網(wǎng)頁跳轉(zhuǎn),也可以在特定知識庫中索引答案。

調(diào)用特定模型做某件事。如調(diào)用效果很好的擴散模型完成作畫、或調(diào)用語音模型合成聲音等。

控制物理世界特定行為。如開燈、買機票、打車等,不一定是特定指令,而是模型推斷后得出的結論。

模塊三負責自然語言生成,簡單來說就是將思考行動的結果用人話描述一遍,再匯報給用戶。

總結來看,小冰鏈可以說是把ChatGPT最火的“思考方式”拿出來單獨做成模型,并不斷降低模型大小。

李笛認為,即使小冰鏈的核心模型大小只有中等水平,卻也能在一些問題的思考方式上展現(xiàn)出與大模型相近的效果。

還能聯(lián)網(wǎng),搶在吃瓜第一線

基于這樣的觀點,李笛在一眾主流“要做中國的ChatGPT”呼聲中反其道而行之,不僅不宣傳自家類ChatGPT產(chǎn)品,甚至推出了個強調(diào)“這不是ChatGPT”的小冰鏈。

看起來似乎有點非主流(手動狗頭)。

這么做,真有理論依據(jù)嗎?

背后的技術依據(jù)CoT,確實在國外已有不少相關研究,包括前段時間爆火的“哄一哄讓GPT-3準確率暴漲”論文也在此列:

團隊在研究中發(fā)現(xiàn),只要對GPT-3說一句“讓我們一步一步地思考”,就能讓它正確回答出以前不會的邏輯推理題,比如下面這個來自MutiArith數(shù)據(jù)集的例子:

16個球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個藍色的高爾夫球?

這些例子專門考驗語言模型做數(shù)學題的能力,尤其是邏輯推理能力。

GPT-3本來在零樣本場景(之前完全沒見過類似體型)下準確率僅有17%,但在要求它一步步思考后,準確率最高能暴漲到78.7%

這種名為CoT的方法,最早在去年1月由谷歌大腦團隊發(fā)現(xiàn)并提出。

其核心思路是基于提示(prompting)的方法,讓大模型學習一步步思考的過程,有邏輯地解決實際問題:

但上述思維鏈(CoT)論文基本都還停留在對大模型的研究上。

李笛卻認為,思維鏈所代表的邏輯能力不是專屬于大模型的產(chǎn)物。

在國內(nèi),“AI”或許已經(jīng)是一個人盡皆知的詞語,也是進行得如火如荼的創(chuàng)新風潮。

如果李笛所述方法得以驗證,那么AI產(chǎn)業(yè)化應用除了“堆參數(shù)”、“砸資金”這一條大模型路線以外,或許還有其他出路。

國內(nèi)AI應用落地,勢力三分

ChatGPT的效果和熱度,讓走在大模型路線上的人們看到了一絲曙光,但并不意味著AI產(chǎn)業(yè)化路線只剩下大模型這一種可能。

或者說,ChatGPT的熱度,反而能更鮮明地呈現(xiàn)出當下國內(nèi)外AI應用落地的現(xiàn)狀和趨勢。

先提綱挈領地講,主要路徑可以分為三條。

第一種就是直接做底層大模型。

這是最直接、最容易理解,同時也是最難走的一條路。

一方面,大模型需要的訓練數(shù)據(jù)是海量的,而現(xiàn)實情況是可用作訓練的數(shù)據(jù)、尤其是中文數(shù)據(jù)較少。

以最近的熱點舉例說明,復旦邱錫鵬教授團隊推出的中國首個類ChatGPT產(chǎn)品MOSS,最大短板是中文水平不夠高,重要原因之一就是背后大模型訓練時缺乏高質(zhì)量的中文語料。

另一方面,大模型的參數(shù)是海量的。ChatGPT每一句看似簡短的回答,都把1750億參數(shù)調(diào)動了一次。

巨量參數(shù)首先給標注工程帶來了巨大的工作量,為了應對這個環(huán)節(jié),OpenAI在肯尼亞以低于2美元的時薪雇傭大量工人,夜以繼日地進行數(shù)據(jù)的篩選標注。放眼國內(nèi),能拿出如此多人力耗在標注工作的,大約只有字節(jié)跳動、百度等巨頭公司。

上述兩個方面,最后的箭頭都直指同一個問題:成本,無法估量的成本。

OpenAI CEO奧特曼曾在推特上透露,ChatGPT每次對話的計算成本為5美分,“讓人難以忍受”。5美分這個數(shù)字看似單薄,然而每個人每天與ChatGPT對話的數(shù)量、以及不斷增長的使用人數(shù),疊加起來將會達到一個非??植赖牧考?。

谷歌母公司Alphabet的董事長ohn Hennessy在本周表示,大型語言模型等AI對話成本,可能是傳統(tǒng)搜索引擎的10倍以上。此前摩根士丹利估計,2022年谷歌的3.3萬億次搜索查詢,每次成本為0.2美分,如果接入Bard這類產(chǎn)品,根據(jù)AI文本生成的長度,這個數(shù)字還會增加。

類似ChatGPT的AI每次回答50字,來回答一般的查詢業(yè)務,那么谷歌每年成本將增加60億美元

值得注意的是,無論哪位國內(nèi)玩家堆出了一個與GPT-3.5甚至GPT-4媲美的大模型,還須找到能夠落地跑起來的應用場景,唯有實現(xiàn)商業(yè)閉環(huán),才不致血本無歸。

第二條路,是從大模型中去粗取精。

展開來說,就是在盡可能保留、甚至提高大模型某一單項能力的前提下,縮小參數(shù)量級,致力于用更小的模型實現(xiàn)大模型表現(xiàn)出來的功能。

如果把大模型看作一輛自行車,堆參數(shù)的過程就是在大模型上實現(xiàn)某個效果的過程,過程艱辛而緩慢。去粗取精之后,不用自行車緩慢前行就能達到效果,相當于在通往同一目標的路上造火箭。

亞馬遜在走這條路,方法是直接從小模型起手,不過這條路能走通,需要一個關鍵前提:中小模型可以接近、甚至達到大模型展現(xiàn)出來的實用能力。

砍掉不需要的枝葉,向下探索具有特定功能的模型規(guī)模最低下限,能夠一定程度上緩解大模型訓練帶來的成本壓力。

但這條路線亦有爭議,一是因為ChatGPT大模型已經(jīng)展現(xiàn)出應用可行性,堅持這種做法勢必在技術上逆流而行;二是即便成本更優(yōu),卻尚未有現(xiàn)實案例壓陣,證明這種路線就能在AI應用落地較量中取得最后的勝利。

第三條路與前兩者不同,并非技術差異,而是直接從商業(yè)化角度打出競爭優(yōu)勢。

這類玩家不需要在技術上多下文章,而更考驗商業(yè)創(chuàng)新能力,屬于想好場景應用后“拿釘找錘”的模式。

目前,國外已經(jīng)有順著這條路發(fā)展的可參考案例,比如AI初創(chuàng)公司Jasper,就是基于GPT-3開放的API提供各式服務,利用AI為博客文章、社交媒體帖子及網(wǎng)頁等平臺生成文字內(nèi)容。

但凡產(chǎn)品體驗足夠好,或者場景資源足夠豐厚,就能積攢大量用戶,形成自己的核心競爭力。

反向思考之,正因為核心競爭力不是技術上的,走這條路的公司,頭頂永遠懸著一柄達摩克利斯之劍。把產(chǎn)品甚至公司的命運寄托在他人手中,隨時有被卡脖子的風險,如何能不時刻提心吊膽?

三條路線擺在眼前,利弊也已經(jīng)初步顯現(xiàn)。第一條路,意味著巨大的成本;第二條路,方案尚待驗證;第三條路,核心生產(chǎn)資料不可控。

哪一條才通向羅馬?又或者,這三條路之外,是否還會出現(xiàn)直通AI應用落地的潛在捷徑?

李笛說,他們選擇第二條路。小冰鏈也正是基于這條路徑之上探索出來的產(chǎn)物,本質(zhì)上仍舊是從“可解釋人工智能”的角度,探索成本、風險可控的AI商業(yè)化落地應用。

至于方案驗證,或許也不用等太久,李笛說,未來小冰鏈會和必應合作,將這種方法應用到搜索引擎上。

實際應用效果如何,我們拭目以待。

相關推薦

電子產(chǎn)業(yè)圖譜