魚羊 蕭簫 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI
誰(shuí)能想到,大模型風(fēng)暴襲來(lái),鋼鐵俠里的賈維斯儼然成了最忙碌的“漫威英雄”(手動(dòng)狗頭)。
原因無(wú)他,實(shí)在是超級(jí)助手這個(gè)概念太火爆,從手機(jī)到PC再到智能座艙,哪里都要被cue上一輪。
甚至連硬件本身的形態(tài),都因此出現(xiàn)了新的變化。
比如火爆國(guó)內(nèi)外社交媒體的AI Pin,就充分展示了什么叫“你的下一個(gè)手機(jī),何必是手機(jī)”。
這么一個(gè)類似徽章的小玩意兒,由高通芯片驅(qū)動(dòng),內(nèi)置以大模型技術(shù)為基礎(chǔ)的智能語(yǔ)音助手。
即使沒(méi)有屏幕和按鍵,依靠諸多傳感器和智能“大腦”,它一樣可以幫你完成打電話、寫短信、發(fā)郵件、記錄世界的操作。
目前,AI Pin背后的公司Humane已經(jīng)拿下2.3億美元融資,最新估值達(dá)到8.5億美元。
事實(shí)上,無(wú)論是擠占各大手機(jī)廠商發(fā)布會(huì)最重要版面的大模型智能助手,還是AI Pin這樣更徹底的硬件創(chuàng)新,如果我們透過(guò)現(xiàn)象去分析本質(zhì),就會(huì)發(fā)現(xiàn),核心的變化還是:
隨著大模型和AIGC技術(shù)的火爆,交互方式變革的序幕,已經(jīng)被不可逆轉(zhuǎn)地拉開。
而第一波創(chuàng)新機(jī)遇,正在智能終端上有所體現(xiàn)。
AIGC時(shí)代,交互方式變了
盡管距離真正的“賈維斯”還有不小的距離,但對(duì)于智能終端行業(yè)而言,在大模型技術(shù)的沖擊之下,交互方式已經(jīng)發(fā)生了兩重變化:
第一重,是人與機(jī)器之間交互方式的改變;第二重,則體現(xiàn)在機(jī)器與機(jī)器的相互聯(lián)通之上。
人機(jī)交互方式變革,在ChatGPT掀起風(fēng)暴之初,就受到科技界的廣泛關(guān)注。
原因很簡(jiǎn)單:從命令行,到GUI(圖形用戶界面),再到純自然語(yǔ)言交互,最新科技的使用門檻越來(lái)越低的同時(shí),也意味著一切應(yīng)用乃至設(shè)備,都將迎來(lái)重構(gòu)。
而正如移動(dòng)互聯(lián)網(wǎng)催生了如抖音這樣的現(xiàn)象級(jí)App,“重構(gòu)”背后,新的跨時(shí)代殺手級(jí)App,甚至是殺手級(jí)設(shè)備的涌現(xiàn),開始成為可能。
觀察行業(yè)動(dòng)向,不難發(fā)現(xiàn)對(duì)于場(chǎng)上玩家而言,把握先機(jī)已然成為共識(shí)。
而最先被看好的超級(jí)助手雛形,就是智能語(yǔ)音助手。
像是微軟,就直接用大模型驅(qū)動(dòng)的Copilot,取代了Windows系統(tǒng)原有的語(yǔ)音助手Cortana。
更不用提各大手機(jī)廠商。大模型/AIGC技術(shù)驅(qū)動(dòng)下的智能語(yǔ)音助手,儼然已成各大發(fā)布會(huì)上的新C位,取代影像成為了智能手機(jī)的最新“卷”點(diǎn)。
相較于已然被熱烈討論、實(shí)踐的人機(jī)交互新范式,機(jī)器與機(jī)器之間交互方式的改變,較少被提及,但實(shí)際上,大模型這個(gè)“機(jī)器大腦”也正在物聯(lián)網(wǎng)(IoT)中掀起變革風(fēng)暴。
在過(guò)去,受限于物聯(lián)網(wǎng)場(chǎng)景的碎片化,“一事一議”的模式很大程度上影響了AI算法應(yīng)用落地的進(jìn)程和有效性。
換句話說(shuō),就是各種終端傳感器,缺少一個(gè)能真正統(tǒng)籌全局的“大腦”。
而大模型的智能涌現(xiàn),恰恰填補(bǔ)了這一空缺,能將其他智能終端作為“感官”更好地聯(lián)動(dòng)起來(lái)。
2023年科技界的另一大熱門話題“具身智能”,其實(shí)就是大模型與IoT設(shè)備碰撞的實(shí)例。
△李飛飛團(tuán)隊(duì)機(jī)器人研究,無(wú)需預(yù)訓(xùn)練就能讓機(jī)器人完成復(fù)雜指令
人類與機(jī)器的交互,機(jī)器與機(jī)器的互聯(lián),大模型時(shí)代,“萬(wàn)物互聯(lián)”無(wú)疑有了更具象的進(jìn)展。
那么,問(wèn)題來(lái)了,要更進(jìn)一步通往真正的超級(jí)助手,并在新的競(jìng)爭(zhēng)浪潮中取得先機(jī),還有哪些重點(diǎn)信息需要關(guān)注?
底層技術(shù)加速交互方式變革
任何一項(xiàng)技術(shù)的大規(guī)模應(yīng)用,不外乎可以從載體和實(shí)現(xiàn)路徑兩方面來(lái)觀察。
對(duì)于超級(jí)助手而言,載體即智能終端,涉及硬件算力和軟硬件協(xié)同技術(shù);至于實(shí)現(xiàn)路徑,當(dāng)下最可能、也最有潛力的技術(shù)之一,就是以大模型為代表的AI技術(shù)了,而走在這樣路徑之下的時(shí)代,如今我們也稱之為「模力時(shí)代」。
首先來(lái)看智能終端為核心的載體。
橫向從終端技術(shù)來(lái)看,對(duì)于超級(jí)助手而言,作為載體最關(guān)鍵的衡量標(biāo)準(zhǔn)有兩點(diǎn),計(jì)算和連接。
計(jì)算,以芯片為代表的各設(shè)備的AI計(jì)算能力,也是能否承載超級(jí)助手的關(guān)鍵。
以當(dāng)下在智能終端領(lǐng)域占據(jù)主導(dǎo)話語(yǔ)權(quán)的高通為例。
這幾天,高通的端側(cè)運(yùn)行百億模型能力又成了熱門話題,還被英偉達(dá)高級(jí)AI科學(xué)家Jim Fan轉(zhuǎn)發(fā):
我們正在進(jìn)入一個(gè)新時(shí)代。在這個(gè)時(shí)代,移動(dòng)芯片的性能不是通過(guò)GHz來(lái)衡量的,而是通過(guò)Llama 2的tokens生成速度來(lái)衡量的。大語(yǔ)言模型是新的智能手機(jī)操作系統(tǒng)!
這種AI計(jì)算能力,具體又可以分為手機(jī)和PC兩方面。
一方面,以第三代驍龍8移動(dòng)平臺(tái)為代表的芯片,正在進(jìn)一步增強(qiáng)手機(jī)計(jì)算生成式AI的能力。
如高通AI引擎中最核心的Hexagon NPU,為了更好地支持AI計(jì)算,它升級(jí)了全新微架構(gòu),性能比前代快98%的同時(shí)、功耗降低40%,實(shí)現(xiàn)了對(duì)更多Transformer網(wǎng)絡(luò)的支持。
加之對(duì)高通AI引擎及其他部分,如高通傳感器中樞的優(yōu)化,使得第三代驍龍8移動(dòng)平臺(tái)發(fā)布時(shí)已經(jīng)實(shí)現(xiàn)讓終端跑100億參數(shù)大模型,并能以每秒生成20 tokens的速度運(yùn)行70億參數(shù)大語(yǔ)言模型。
另一方面,以驍龍X Elite為代表的芯片,又將從手機(jī)端卷出來(lái)的AI計(jì)算能力進(jìn)一步拓寬,給PC端帶來(lái)一點(diǎn)小小的AI算力震撼。
驍龍X Elite的高通AI引擎,算力達(dá)到75 TOPS。
其中光是核心Hexagon NPU,算力就達(dá)到45 TOPS,為此高通特意給NPU增加了全新的供電系統(tǒng),讓它能按照工作負(fù)載適配頻率;同時(shí),為了專門加速Transformer網(wǎng)絡(luò)等復(fù)雜AI模型,還研發(fā)了微切片推理架構(gòu)。
這樣,PC端就能直接運(yùn)行超過(guò)130億參數(shù)的生成式AI模型,寫PPT、總結(jié)、生成文案甚至無(wú)需聯(lián)網(wǎng)就能實(shí)現(xiàn);
同時(shí)AI處理速度快上4.5倍,又能實(shí)現(xiàn)視頻會(huì)議背景虛化、降噪、視頻編輯、照片加濾鏡等更絲滑的功能。
連接,各設(shè)備間傳輸數(shù)據(jù)的性能,從底層直接影響超級(jí)助手的交互能力。
對(duì)于終端設(shè)備而言,連接的需求同樣有兩方面,以手機(jī)、PC為代表的人機(jī)交互領(lǐng)域,和以物聯(lián)網(wǎng)為代表的機(jī)器萬(wàn)物互聯(lián)領(lǐng)域。
人機(jī)交互領(lǐng)域,需要連接硬件能提供更智能的網(wǎng)絡(luò)性能分析、同時(shí)具備更高的傳輸效率。
以驍龍X75 5.5G調(diào)制解調(diào)器及射頻系統(tǒng)為例,這款基帶首次集成了專用硬件張量加速器,即第二代高通5G AI處理器,AI性能相比第一代提升2.5倍。
基于此,通過(guò)分析信號(hào)完整性和信噪比,AI就能改善無(wú)線帶寬、延遲,讓網(wǎng)絡(luò)性能更高效、數(shù)據(jù)傳輸更智能。
機(jī)器互聯(lián)領(lǐng)域,對(duì)于連接硬件又有續(xù)航性能、成本和體積等不同的限制。
以驍龍X35 5G NR-Light調(diào)制解調(diào)器及射頻系統(tǒng)為例,相比移動(dòng)寬帶與極低帶寬的NB-IoT,這個(gè)基帶相當(dāng)于輕量級(jí)實(shí)現(xiàn)了5G的傳輸性能,同時(shí)續(xù)航也要更持久、成本更低,更好地適應(yīng)體積更小物聯(lián)網(wǎng)設(shè)備。
但除此之外,還有很關(guān)鍵的一點(diǎn),即計(jì)算和連接之間兼容并濟(jì)的能力。
無(wú)論是云端運(yùn)行的通用大模型、還是終端以超級(jí)助手為目標(biāo)的個(gè)人大模型,要想實(shí)現(xiàn)二者并行,勢(shì)必需要5G+AI技術(shù)的雙驅(qū)動(dòng),才能在確保傳輸數(shù)據(jù)效率、確保使用體驗(yàn)的同時(shí),保證各側(cè)模型的穩(wěn)定運(yùn)行。
高通已經(jīng)在這條路上走了至少5年。
從定位智能終端設(shè)備開始,高通就一直在利用5G技術(shù)的連接能力,將更多AI技術(shù)由云端擴(kuò)展至終端,如同渠與水的關(guān)系一樣,讓“原本在數(shù)據(jù)中心才能實(shí)現(xiàn)的AI功能,現(xiàn)在終端也能實(shí)現(xiàn)”。
最早從手機(jī)的攝影、圖像視頻處理,到更多設(shè)備如汽車智能座艙AI的數(shù)據(jù)傳輸、XR上運(yùn)行手勢(shì)識(shí)別等AI功能需要的低延遲,再到如今在云端和終端運(yùn)行生成式AI……
高通不斷用最新的AI技術(shù)快速引領(lǐng)終端側(cè)的功能革新,而這每一步都離不開5G數(shù)據(jù)傳輸在背后的連接支持。
正是有了AI+5G打配合的能力,才能在進(jìn)一步用高效連接提升AI使用體驗(yàn)的同時(shí),反過(guò)來(lái)用AI增強(qiáng)連接的性能,最終改變用戶和終端交互的方式。
縱向從載體類型來(lái)看,這種交互方式的變革,又能通過(guò)高通AI軟件棧這樣的工具無(wú)縫銜接到不同種類、不同功能的終端設(shè)備中。
高通AI軟件棧全面支持各種主流AI框架、不同操作系統(tǒng)和編程語(yǔ)言,來(lái)提升各類AI軟件在智能終端上的兼容性。
基于這套工具包,即使只在一個(gè)平臺(tái)如手機(jī)上開發(fā),也能在汽車、XR、PC和物聯(lián)網(wǎng)上運(yùn)行,極大加速了交互方式變革的速度。
總結(jié)來(lái)看,在各類終端萬(wàn)物互聯(lián)的時(shí)代,AI+5G是不可或缺、相互協(xié)作的兩大最重要的基礎(chǔ)能力,而高通恰好在這兩個(gè)領(lǐng)域都處于領(lǐng)先地位,并持續(xù)引領(lǐng)著終端側(cè)的技術(shù)發(fā)展。
但對(duì)于超級(jí)助手而言,智能終端核心技術(shù)發(fā)展再快,也只是作為載體,為其大規(guī)模落地做好了準(zhǔn)備。
從超級(jí)助手最關(guān)鍵的實(shí)現(xiàn)路徑——AI技術(shù)來(lái)看,我們距離最終的目標(biāo)又還有多遠(yuǎn)?
我們距離超級(jí)助手還有多遠(yuǎn)?
正如《鋼鐵俠》中的賈維斯一般,在「模力時(shí)代」下,大眾對(duì)超級(jí)助手的想象,也是一個(gè)“統(tǒng)籌一切”的AI個(gè)人助理。
對(duì)此,高通產(chǎn)品管理高級(jí)副總裁兼AI負(fù)責(zé)人Ziad Asghar,這樣描述過(guò)對(duì)于AI個(gè)人助理的想象:
在各方面,大伙兒可能都只需要1個(gè)應(yīng)用就能完成所有任務(wù),如生產(chǎn)力APP、娛樂(lè)APP等,再用一個(gè)AI個(gè)人助理來(lái)“統(tǒng)籌一切”,這將會(huì)是一場(chǎng)極具顛覆性的變革。
當(dāng)下,AI技術(shù)正迎來(lái)以大模型為代表的生成式AI爆發(fā)的階段。
高通公司總裁兼CEO安蒙近期接受《獨(dú)立報(bào)》采訪時(shí),如此強(qiáng)調(diào)生成式AI給終端帶來(lái)的重要性:
生成式AI將賦能用戶大大提升查找文件的效率,以直觀高效的方式進(jìn)行視頻創(chuàng)作和修改…將這些處理能力引入終端,人們會(huì)看到大量應(yīng)用場(chǎng)景涌現(xiàn)。
縱觀智能手機(jī)領(lǐng)域,AI的發(fā)展有望開啟一輪全新的增長(zhǎng)周期。只有強(qiáng)有力的技術(shù)變革才能推動(dòng)手機(jī)市場(chǎng)的變革。我們將生成式AI視為一次千載難逢的機(jī)會(huì),基于智能手機(jī)的新一輪創(chuàng)新浪潮已勢(shì)不可擋。
而作為“被認(rèn)定是最有可能實(shí)現(xiàn)超級(jí)助理”的實(shí)現(xiàn)路徑之一,大模型距離成為這樣一個(gè)超級(jí)助理,或許還有三方面的條件。
其一,思考方式的改變,也就是進(jìn)化出更強(qiáng)大的自主學(xué)習(xí)能力。
正如同AlphaGo從模仿人類到超越人類一樣,這部分的關(guān)鍵在于教它學(xué)會(huì)自我提升,理解行動(dòng)的目的。
除此之外,大模型的思考方式也應(yīng)該從“系統(tǒng)1”到“系統(tǒng)2”發(fā)生轉(zhuǎn)變,從不假思索地預(yù)測(cè),到真正緩慢理性的思考。
其二,功能上的增強(qiáng),從單純的文本生成進(jìn)化出多模態(tài)、甚至是學(xué)會(huì)使用工具的能力。
Ziad認(rèn)為,這一部分的關(guān)鍵,依舊是需要合適的訓(xùn)練數(shù)據(jù),甚至模型本身的大小并不那么重要。像是OpenAI的GPT-3雖然有1750億參數(shù),但LLaMA的650億參數(shù)能實(shí)現(xiàn)同等甚至更好的效果。
以多模態(tài)為例,Stable Diffusion的文生圖能力,從某種意義上來(lái)說(shuō)已經(jīng)是多模態(tài)的,但參數(shù)只有十幾億。只要使用了合適的數(shù)據(jù),大模型增加更多模態(tài)不是問(wèn)題,而且不一定要朝著“大”的方向發(fā)展。
其三,具備定制化能力,即在終端定制專屬大模型、微調(diào)出專屬于個(gè)人超級(jí)助理的技術(shù)。
以目前的大模型為例,Ziad表示,即使能給云端大模型提供部分個(gè)人信息,作為“助理”來(lái)提供規(guī)劃,終究還是會(huì)面臨隱私和安全、甚至是“失憶”的問(wèn)題。
因此,要想實(shí)現(xiàn)超級(jí)助手,一大路徑就是能做出依靠個(gè)人信息微調(diào)、實(shí)現(xiàn)個(gè)性化定制的終端大模型,同時(shí)不將個(gè)人信息上傳到云端,確保用戶安全。
同時(shí),用戶的終端使用記錄,也能讓大模型在一次次“微調(diào)”中更加理解用戶的意圖,成為更“貼心”的超級(jí)助手。
高通已經(jīng)在著手準(zhǔn)備。第三代驍龍8的傳感器中樞,正是有助于大模型在手機(jī)端實(shí)現(xiàn)定制化,讓用戶的位置、活動(dòng)等個(gè)性化數(shù)據(jù)更好地為AI個(gè)人助理所用。
綜上來(lái)看,未來(lái)大模型引領(lǐng)下的超級(jí)助手形態(tài),或許正是一個(gè)全新的智能操作系統(tǒng)。
正如OpenAI大牛Andrej Karpathy所言,在這樣的操作系統(tǒng)中,大模型的窗口和嵌入對(duì)應(yīng)內(nèi)存和硬盤,代碼解釋器、多模態(tài)、瀏覽器和其他AI算法是系統(tǒng)上的APP,大模型本身則相當(dāng)于CPU核心,負(fù)責(zé)統(tǒng)籌調(diào)度一切。
因此,不止是大模型,在更多場(chǎng)景的環(huán)境感知和交互上,要想實(shí)現(xiàn)超級(jí)助手,同樣還需要更多AI技術(shù)支持。
以手機(jī)攝影場(chǎng)景為例,在AIGC生成能力之外,驍龍8 Gen 3芯片認(rèn)知ISP中部署的語(yǔ)義分割、感知等基礎(chǔ)圖像AI算法,依舊可以進(jìn)一步增強(qiáng),節(jié)省算力的同時(shí)也增強(qiáng)手機(jī)環(huán)境感知的能力;
與此同時(shí),結(jié)合AI技術(shù),還能實(shí)現(xiàn)聲控拍照、視頻編輯、無(wú)縫擴(kuò)展照片等應(yīng)用……
又像是XR場(chǎng)景中,最新推出的第二代驍龍XR2和第一代驍龍AR1平臺(tái),默認(rèn)支持平面檢測(cè)、深度估計(jì)、3D重建、語(yǔ)義理解、物體識(shí)別和追蹤等AI算法,讓智能終端的交互能力進(jìn)一步增強(qiáng)。
而在物聯(lián)網(wǎng)領(lǐng)域,第一代高通S7、S7 Pro音頻平臺(tái)AI性能,最高能提升到前代的100倍。
這樣一來(lái),不僅耳機(jī)AI主動(dòng)降噪功能大幅增強(qiáng),在會(huì)議、社交、游戲等不同場(chǎng)景獲得不同的降噪能力;
附帶的傳感器設(shè)備也能因?yàn)锳I算力得到功能提升,更穩(wěn)定精確地測(cè)量脈搏、耳溫等健康數(shù)據(jù)、并進(jìn)行智能分析。
至于在汽車方面,第四代驍龍座艙至尊級(jí)平臺(tái)(驍龍8295),也已經(jīng)用AI技術(shù)實(shí)現(xiàn)更智能的座艙體驗(yàn)。
以搭載驍龍8295的極越01為例,搭載的智能座艙能支持艙內(nèi)感知離線訓(xùn)練,實(shí)現(xiàn)算法在車端迭代。用戶只需要?jiǎng)觿?dòng)嘴,座艙就能結(jié)合AI理解算法和多模態(tài)感知能力,準(zhǔn)確get需求,并作出響應(yīng)。
Ziad更是認(rèn)為,5年內(nèi),AI會(huì)徹底改變?nèi)塑嚨慕换シ绞?,例如告訴汽車想去機(jī)場(chǎng)、同時(shí)吃點(diǎn)好的、買杯咖啡,汽車就能準(zhǔn)確識(shí)別這3個(gè)需求,智能導(dǎo)航到指定的地點(diǎn)。
顯然,無(wú)論是手機(jī)、XR、物聯(lián)網(wǎng)還是汽車,種種智能終端設(shè)備交互方式的改變,除了自身的計(jì)算和連接能力提升以外,終究也需要依靠AI技術(shù)的發(fā)展才能實(shí)現(xiàn)。
這樣的路徑,也正是高通長(zhǎng)期以來(lái)堅(jiān)持的AI統(tǒng)一路線。
高通認(rèn)為,從云端、到終端、再到云端和終端連接的混合AI端,AI終將無(wú)處不在,從而開啟一個(gè)全新的AI時(shí)代。
正是基于這條一以貫之的路線,高通才能在「模力時(shí)代」下率先交出答卷,將不同的終端和計(jì)算架構(gòu)用AI串聯(lián)起來(lái),朝向超級(jí)助手的終極目標(biāo)邁進(jìn)一步。
最終的超級(jí)助手會(huì)是什么交互形態(tài),還沒(méi)有人能預(yù)測(cè)。
但可以預(yù)知的是,只有繼續(xù)擁抱和發(fā)展AI技術(shù),才能更快地推動(dòng)「模力時(shí)代」下交互方式的變革,引領(lǐng)智能終端產(chǎn)業(yè)發(fā)展。