作者:周聞鈞物聯(lián)網(wǎng)智庫 整理
邁入萬物智聯(lián)AIoT2.0時代,數(shù)據(jù)的產(chǎn)生和處理不再局限于中心化的數(shù)據(jù)中心,而是越來越多地發(fā)生在數(shù)據(jù)產(chǎn)生的端側——即我們的個人設備上。
在全球范圍內(nèi),科技公司和研究機構都在積極探索端側模型的應用潛力。從智能手機到可穿戴設備,從智能家居到工業(yè)自動化,端側模型的應用場景正在不斷擴展。
什么是端側小模型?在端側運行大語言模型有可能嗎?端側AI的進展如何?
近日,智用人工智能應用研究院 CTO 周聞鈞應邀出席“2025中國AIoT產(chǎn)業(yè)年會暨萬物智聯(lián)2.0前瞻洞察大典”,并在會上發(fā)表了題為《端側小模型們的春天來到了嗎?》的主題演講,深入探討了端側小模型的最新進展、應用實例以及未來的發(fā)展趨勢。
以下為演講全文:
端側小模型的應用實例
我們來回顧一下近期與端側小模型相關的一些進展,可能大家已經(jīng)在使用新一代的蘋果手機,盡管在國內(nèi)可能因為某些限制而無法完全體驗其功能,但至少Apple Intelligence讓大家感受到了比Siri更出色的體驗。這實際上是一個典型的端側小模型與在線大模型結合的例子。
蘋果的端側小模型與在線大模型的結合
蘋果公司擁有自己的人工智能團隊,一直在研發(fā)端側小模型,因此其設備上搭載自家的端側小模型并不令人意外。同時,蘋果還宣布了與OpenAI的合作,這種架構明顯是為了快速思考和響應,使用的是蘋果自己的端側設備,確保iOS設備上的流暢體驗,而更復雜的推理任務則交給與OpenAI合作的在線大模型來完成,提供全面完整的推理結果。這樣的設計讓用戶感受到在線大模型的推理和思考能力接近人類的水平,這是一個端加云的模型組合的典型案例。
國內(nèi)硬件設備的革新
在國內(nèi),我們也見證了許多熟悉的硬件設備的革新。
例如,最近市場上出現(xiàn)了許多新型眼鏡,包括百度推出的小度AI眼鏡,據(jù)說其中搭載了端側模型。在教育類硬件中,也嵌入了一些小型模型,甚至是特別小的模型,如翻譯筆、詞典筆等。以前我們認為這些設備太小、算力太弱,無法運行小模型,但現(xiàn)在有些廠商已經(jīng)將特別小的語言模型集成進去,取代了原來的OCR、翻譯模型等,將多個模型合并為一個。由于語言模型天生具有對話能力,這樣的設備即使在無法聯(lián)網(wǎng)的情況下,也不會顯得太“智障”。這是我們觀察到的一些進展。
具身智能的前沿探索——Figure 1
再把時間線往前推一下,有一家名為Figure的具身智能公司值得一提。OpenAI投資了這家公司,并裁撤了自己的具身智能部門,專注于大模型的研發(fā)。他們投資的Figure公司專注于具身智能體的研發(fā),發(fā)布的Figure是第一個真正將OpenAI的云端大模型作為其背后的思考大腦的例子,這也是一個典型的端側模型。
端側模型負責將思考結果轉換成對具身智能體各個自由度的控制,包括力度控制,而理解人類意圖的整個思考邏輯則交給OpenAI這樣的大模型。
這個場景令人印象深刻,它能夠理解人類的對話意圖,比如詢問桌上哪些東西是可以吃的。智能體掃視一圈后,識別出餐具、水杯和蘋果,然后決定蘋果是人可以吃的食物,接著用合適的力度和方式將蘋果遞到人的手中。整個思考場景和選擇是由在線模型完成的,而端側模型則負責將這些思考結果轉化為動作指令。這也是我們在具身智能體中看到的端側模型與在線模型結合的一個例子。
斯坦福 Mobile ALOHA 開源機器人
幾個月前,斯坦福大學開源了一個名為Mobile ALOHA的項目,這個項目包含了軟件和硬件算力所需的所有材料清單。有人估算,在美國市場上,大約花費3萬2美元就可以買到所需的材料。如果在中國購買,成本可能會更低。盡管這個模型看起來簡陋,但只要你按照說明組裝并運行,通過真人示范訓練,例如遙控機械手操作50次炒雞蛋,Mobile ALOHA就能學會這項技能,并且大約有90%的成功率。當然,有時也會出現(xiàn)翻車的情況。
這個項目為我們打開了新的想象空間,我們可以將Mobile ALOHA視為一種低成本的具身智能參考架構?;谶@個架構,人們可以通過眾包學習來訓練它完成特定的任務,比如我可能會訓練它專門用于烹飪,比如烘焙或制作甜點;另一組人可能會訓練它在養(yǎng)老院幫助老人翻身或清洗衣物等。通過在不同場景下使用Mobile ALOHA并進行人類示范訓練,這些機器人可以習得不同的能力,而且由于它們基于相同的架構,這些在不同場景下獲得的具身智能體能力是可以交換和導入的。
進一步來說,現(xiàn)在大家已經(jīng)廣泛接受了手機應用商店的概念,通過應用商店來補足手機的能力,無論是娛樂、音樂還是提高工作效率,都可以打造專屬的個性化體驗。同樣,這樣的具身智能體硬件也可以通過一個能力商店,讓人們自由選擇和加載所需的能力,以滿足不同場景的需求。
英偉達也盯上了端側?
談到機器的能力,英偉達可以說是近期最意氣風發(fā)的企業(yè)之一了。盡管如今英偉達在全球算力中心和高端顯卡領域供不應求,所有人都希望與其建立良好關系,以獲取更多顯卡資源,英偉達無疑是一個強勢的甲方。然而,他們的算力中心業(yè)務在短期內(nèi)似乎并沒有瓶頸,市場對各種顯卡的需求依然旺盛,訂單甚至排到三五年之后。但我相信,他們也在思考未來的挑戰(zhàn)所在,這一點非常難得。在英偉達的技術大會上,我們不僅看到了新顯卡架構的展示,還注意到他們邀請了全球眾多知名企業(yè)參與。這表明,英偉達正在考慮未來算力的下一個主戰(zhàn)場,是否會轉向端側或具身智能體。
端側小模型的定義與未來
什么是小模型?
那么,究竟什么是小模型呢?大模型的概念大家應該都不陌生,比如OpenAI的模型等。那么小模型又是什么呢?
首先,小模型需要具備在特定場景下理解用戶輸入并推理出對應輸出的能力。關于參數(shù)量,并沒有一個統(tǒng)一的標準。有人認為7B參數(shù)以下算是小模型,也有人認為10B參數(shù)以下才算。
小模型與大模型的概念是相對的。例如,當主流模型如Llama推出70B、80B參數(shù)的高配版本時,7B、3B可能被認為是合適的小模型尺寸。但隨著開源模型參數(shù)量達到430B甚至可能超過1000B,小模型的標準也在不斷提高。當然,這也與我們能在端側運行的算力和支持的小模型類型密切相關。目前,大家普遍接受的標準是10B參數(shù)以下可以稱為小模型。
小模型主要應用于特定領域的問答系統(tǒng),將能力限定在某些特定的狹窄領域或行業(yè)。例如,醫(yī)療、金融等領域的模型,參數(shù)量不大,但結合了行業(yè)專屬知識,并對模型做了二次微調。此外,代碼輔助生成的基礎模型也相對較小,通常在3B到7B參數(shù)之間。在移動設備領域,隨著AI概念的興起,設備端也開始研究如何嵌入端側模型以提高AI能力,比如AI PC、AI手機等。
目前市場上一些主流的小模型,如Llama3.2,其小模型版本大約是3B參數(shù);千問模型則在1B參數(shù)以下,有0.5B、1.5B、3B、7B版本。谷歌的Gemma 2有2B和9B版本。微軟的Phi-3.5模型參數(shù)量較為特殊,有3.8B、4.2B、6.6B等版本,均低于7B的標準。
小模型的能力也在不斷提升,例如,它們已經(jīng)能夠實時理解游戲畫面并產(chǎn)生對策,控制兵種進行戰(zhàn)略部署,如即時戰(zhàn)略游戲。這些是小模型目前能夠實現(xiàn)的一些功能。
對端側小模型未來的展望
關于端側小模型的未來展望,我的看法經(jīng)歷了轉變。
六個月前,我曾懷疑在端側運行大語言模型的實用性,因為它們運行緩慢且容易發(fā)熱。然而,現(xiàn)實教育了我,現(xiàn)在我完全站在了對立面,我們確實需要在設備端運行一些小語言模型,原因是:
首先,盡管大家都在大力投資智算中心,但在某些地區(qū),特別是在數(shù)據(jù)密集和需求旺盛的東部地區(qū),算力仍然是稀缺資源。即便在云平臺上投入巨資,如微軟Azure,想要獲取足夠的A100算力卡,有時還需要與商務人員進行申請和對接。算力中心的GPU資源極度稀缺,只能共享,這導致在線大模型推理時會產(chǎn)生較大的網(wǎng)絡延遲,而在許多場景中,延遲是不可忽視的。
其次,許多客戶對將企業(yè)私域知識和業(yè)務場景問題發(fā)送到外部大模型進行理解和推理,再將結果返回的安全性表示質疑。他們擔心企業(yè)核心經(jīng)營機密的泄露。因此,許多企業(yè),尤其是行業(yè)客戶,由于合規(guī)、隱私和安全方面的考慮,非常需要在物理邊界內(nèi)控制屬于自己的模型,所以端側小模型的需求是切實存在的。
目前,盡管市面上有許多合適的小模型,但我們特別看好兩個小模型的未來發(fā)展,無論是從尺寸、能力還是應用場景來看,它們都可能表現(xiàn)得更好。一個是微軟的PHi-3.5系列,它正在不斷迭代。另一個值得一提的是,之前提到的模型基本上都是基于Transformer架構的,也就是GPT系列,但Transformer架構有一個致命缺陷,即它的時間復雜度是二次方的,對于算力的需求隨著問題規(guī)模的增長而急劇增加。而非Transformer架構的大模型,如國內(nèi)廠商推出的RWKV,已經(jīng)發(fā)展到第6代,它的時間復雜度是線性的,這對于大模型的增長和擴展來說更為友好。
端側有很多這樣的例子,特別是一些嵌入式設備已經(jīng)能夠運行1B到7B參數(shù)的模型。未來,我們會發(fā)現(xiàn)越來越多的端側設備,如眼鏡、手機、PC等,將內(nèi)置越來越多的小模型,它們將無聲地影響著我們的生活。
我的分享到此結束,謝謝大家。