作者 |??香草,編輯?|??李水青
2024年,機(jī)器人真的要接管人類了?
2024年剛過去三周,AI+機(jī)器人賽道就迎來爆發(fā)式開局!前有斯坦福機(jī)器人大秀廚藝烹飪“滿漢全席”,后有特斯拉擎天柱化身保姆將T恤疊成“豆腐塊”,還有兩家創(chuàng)企的機(jī)器人比賽起了煮咖啡。
這邊OpenAI支持的機(jī)器人企業(yè)1X剛宣布5億美元融資,那邊創(chuàng)企Figure就宣布旗下機(jī)器人入駐寶馬汽車工廠。這似乎印證了英偉達(dá)高級(jí)科學(xué)家Jim Fan去年年末的一條預(yù)測(cè):2024年將成為機(jī)器人爆發(fā)的一年,其重要程度僅次于大型語言模型(LLM),“我們距離物理AI智能體的ChatGPT時(shí)刻還有3年?!?/p>
▲Jim Fan稱2024年機(jī)器人的重要性僅次于LLM(圖源:X)
然而,機(jī)器人企業(yè)“狂歡”之下,其宣傳視頻的真實(shí)性、機(jī)器人產(chǎn)品的實(shí)用性等也引發(fā)了爭(zhēng)議。不少網(wǎng)友指出,這些演示似乎存在剪輯等方面的誤導(dǎo)性工作。
那么具體來看,AI機(jī)器人現(xiàn)在都能做些什么?五花八門的行為背后究竟是自主執(zhí)行,還是人為操控?AI機(jī)器人賽道目前的發(fā)展處于什么階段?在落地層面還面臨哪些痛點(diǎn)?智東西與開普勒探索機(jī)器人首席執(zhí)行官胡德波,優(yōu)必選聯(lián)合創(chuàng)始人、首席技術(shù)官兼執(zhí)行董事熊友軍等從業(yè)者進(jìn)行了深入交流,尋找這些問題的答案。
胡德波談道,AI機(jī)器人最可能先落地的場(chǎng)景主要集中在簡(jiǎn)單重復(fù)的、相對(duì)可控的任務(wù)上,包括工業(yè)制造場(chǎng)景、倉(cāng)儲(chǔ)物流場(chǎng)景以及一些危險(xiǎn)性的場(chǎng)景等。他認(rèn)為調(diào)用云端大模型所帶來的實(shí)時(shí)性問題,是落地層面目前最大的痛點(diǎn)。
談到AI機(jī)器人落地的痛點(diǎn),熊友軍從數(shù)據(jù)、場(chǎng)景、安全性以及遷移成本等方面進(jìn)行了分析。例如現(xiàn)有的訓(xùn)練數(shù)據(jù)大多基于桌面,與實(shí)際場(chǎng)景中的應(yīng)用有很大差距,大模型的不可解釋性可能導(dǎo)致類似于語言模型中的“幻覺”等問題。
01.烹飪、煮咖啡、疊衣服斯坦福谷歌特斯拉花式開“卷”
如果說在去年年末,預(yù)告2024年將成為“機(jī)器人之年”還只是空喊口號(hào),那么今年以來,斯坦福、谷歌、Figure、特斯拉在不到一個(gè)月的時(shí)間內(nèi)接連發(fā)布了6項(xiàng)以上的新演示或新進(jìn)展,則為這一觀點(diǎn)提供了有力的論據(jù)。先是1月4日凌晨,來自斯坦福大學(xué)的三人團(tuán)隊(duì)放出了基于Mobile ALOHA系統(tǒng)的機(jī)器人演示視頻,展示了機(jī)器人如何完成復(fù)雜的移動(dòng)操控任務(wù),無論是烹飪、清潔桌面,還是按電梯按鈕并乘坐電梯,都不在話下。
團(tuán)隊(duì)開源了Mobile ALOHA系統(tǒng)的全部軟件、硬件和數(shù)據(jù),從材料清單來看,硬件成本共約3.18萬美元,折合人民幣約22.8萬元。
▲Mobile ALOHA硬件材料清單(圖源:Mobile ALOHA團(tuán)隊(duì))
據(jù)介紹,Mobile ALOHA是一種用于數(shù)據(jù)收集的低成本全身遠(yuǎn)程操作系統(tǒng),在訓(xùn)練過程中,每項(xiàng)任務(wù)只進(jìn)行了50次演示,其中的關(guān)鍵在于使用Mobile ALOHA收集的數(shù)據(jù)執(zhí)行監(jiān)督行為,與靜態(tài)的ALOHA數(shù)據(jù)協(xié)同訓(xùn)練,可將成功率提高90%。ALOHA則是一個(gè)用于雙手遠(yuǎn)程操作的低成本開源硬件系統(tǒng),由來自斯坦福、UC伯克利、Meta等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布于去年3月,Mobile ALOHA是在其基礎(chǔ)上的迭代。
Mobile ALOHA一經(jīng)發(fā)布便火爆全網(wǎng),而不到24小時(shí)之后,谷歌DeepMind就在1月4日深夜連發(fā)三項(xiàng)新進(jìn)展AutoRT、SARA-RT和RT-Trajectory,用于提升機(jī)器人的速度、數(shù)據(jù)收集以及泛化能力。這三項(xiàng)新進(jìn)展都基于DeepMind的RT-2模型(Robotics Transformers),這是一種視覺-語言-動(dòng)作(VLA)模型,可以從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將學(xué)到的知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令。
AutoRT是一種用于機(jī)器人智能體(Agent)大規(guī)模編排的具身基礎(chǔ)模型系統(tǒng)。機(jī)器人首先利用視覺語言模型(VLM)進(jìn)行場(chǎng)景理解,將描述輸入至大型語言模型(LLM)以得到自然語言指令;隨后在另一個(gè)名為“機(jī)器人憲法”(Robot Constitution)的LLM的指導(dǎo)下,完善指令以實(shí)現(xiàn)更安全的行為。
▲AutoRT工作原理(圖源:DeepMind)
其中,機(jī)器人憲法包含三類規(guī)則,分別是基本規(guī)則,機(jī)器人不得傷害人類;安全規(guī)則,機(jī)器人不得嘗試涉及人類、動(dòng)物或生物的任務(wù),機(jī)器人不得與鋒利的物體(例如刀)互動(dòng);具身規(guī)則,如機(jī)器人只有一只手臂,則無法執(zhí)行需要兩只手臂的任務(wù)。據(jù)介紹,在7個(gè)多月的實(shí)地評(píng)估中,AutoRT系統(tǒng)可同時(shí)安全地協(xié)調(diào)至多20個(gè)機(jī)器人,收集了包括6650個(gè)獨(dú)特任務(wù)的7.7萬次機(jī)器人試驗(yàn)。
SARA-RT提出一種自適應(yīng)魯棒注意力機(jī)制,在不損失質(zhì)量的前提下將RT模型改進(jìn)為更高效的版本。在提供簡(jiǎn)短的圖像歷史記錄后,最好的SARA-RT-2模型比RT-2模型準(zhǔn)確率高10.6%,速度快14%。
RT-Trajectory是一種通過事后軌跡草圖概括機(jī)器人任務(wù)的模型,用于提升機(jī)器人的泛化能力。它獲取訓(xùn)練數(shù)據(jù)集中的每個(gè)視頻,并在執(zhí)行任務(wù)時(shí)將其與機(jī)器人手臂夾具的2D軌跡草圖疊加,從而提供實(shí)用的視覺提示。在對(duì)訓(xùn)練數(shù)據(jù)中未見過的41個(gè)任務(wù)進(jìn)行測(cè)試時(shí),由RT-Trajectory控制的機(jī)械臂任務(wù)成功率達(dá)到63%,而RT-2僅為29%。
1月7日,創(chuàng)企Figure發(fā)布了一則機(jī)器人Figure 01煮咖啡的視頻,并強(qiáng)調(diào)該機(jī)器人使用端到端的AI系統(tǒng),僅通過觀察人類煮咖啡,即可在10小時(shí)內(nèi)完成訓(xùn)練。
據(jù)稱,F(xiàn)igure 01的神經(jīng)網(wǎng)絡(luò)接收視頻訓(xùn)練,輸出運(yùn)動(dòng)軌跡。它還學(xué)會(huì)了自我修正,如當(dāng)濃縮咖啡沒有擺正時(shí),它會(huì)將其調(diào)整到正確的位置。
融資方面的進(jìn)展也沒落下,1月11日,OpenAI支持的AI和機(jī)器人公司1X宣布完成1億美元B輪融資,投資方包括三星NEXT基金、瑞典私募股權(quán)基金EQT等。資金將主要用于將其第二代雙足人形機(jī)器人Android NEO推向市場(chǎng),以及對(duì)現(xiàn)有企業(yè)客戶在物流和保安方面的支持。NEO專為日常家庭協(xié)助而設(shè)計(jì),為消費(fèi)市場(chǎng)中的各種家務(wù)任務(wù)提供多功能支持。
沒過幾天,人形機(jī)器人界的“頂流”擎天柱(Optimus)也來湊熱鬧。1月16日,馬斯克發(fā)布了一則擎天柱疊衣服的視頻,瞬間點(diǎn)燃了社交網(wǎng)絡(luò),瀏覽量超過7100萬次。視頻中,擎天柱從身邊的筐中取出一件T恤,兩三下就把它疊成了“豆腐塊”。
1月18日,F(xiàn)igure宣布與寶馬簽署商業(yè)協(xié)議,機(jī)器人Figure 01將進(jìn)入寶馬工廠,在汽車制造過程中“自動(dòng)執(zhí)行困難、不安全且乏味的任務(wù)”。1月20日,一家來自中國(guó)的創(chuàng)業(yè)公司MagicLab發(fā)布了一個(gè)人形機(jī)器人空翻的視頻,據(jù)稱是電驅(qū)動(dòng)的人形機(jī)器人首次實(shí)現(xiàn)空翻。除此之外,MagicLab還展示了這款機(jī)器人煮咖啡、做拉花的過程。
02.虛假宣傳or真才實(shí)學(xué)?爆火之下真實(shí)性、實(shí)用性惹爭(zhēng)議
不得不說,開年三個(gè)星期,產(chǎn)學(xué)研界都在“狂卷”AI機(jī)器人。然而,這些新成果在爆火刷屏的同時(shí)也引發(fā)了一些爭(zhēng)議,如演示是否真實(shí)、機(jī)器人系統(tǒng)是否真的實(shí)用等。在Mobile ALOHA演示視頻發(fā)布后,除了贊許外,評(píng)論區(qū)也有不少質(zhì)疑的聲音。彭博社專欄作家Karl Smith評(píng)價(jià)道:“抱歉,我不認(rèn)為這些蝦被完全煮熟了。這又是一場(chǎng)Gemini Ultra式的演示?!?/p>
▲網(wǎng)友質(zhì)疑演示視頻的真實(shí)性及機(jī)器人的實(shí)用性(圖源:X)
說句題外話,看來谷歌在Gemini演示視頻中靠剪輯“造假”的行為確實(shí)令人印象深刻,“Gemini式演示”儼然成了一個(gè)新的形容詞。“但是,它(做的菜)味道如何?”開發(fā)者Nick Dobos說。
▲網(wǎng)友質(zhì)疑機(jī)器人烹飪的實(shí)用性(圖源:X)
網(wǎng)友Sarah Roark質(zhì)疑它是由人類遠(yuǎn)程操控的:“需要明確的是——這確定不是遠(yuǎn)程操控嗎?”
▲網(wǎng)友質(zhì)疑機(jī)器人是否為自主模式(圖源:X)
面對(duì)這些質(zhì)疑,尤其是對(duì)自主模式和遠(yuǎn)程操控的爭(zhēng)議,Mobile ALOHA團(tuán)隊(duì)很快在1月6日發(fā)布了一個(gè)機(jī)器人“翻車”合集進(jìn)行澄清。實(shí)際上,斯坦福同時(shí)發(fā)布了多個(gè)Mobile ALOHA演示視頻,其中作者之一Zipeng Fu發(fā)布的視頻為自主模式下的操控。
而另一作者Tony Z. Zhao發(fā)布的做“滿漢全席”的演示視頻,則是在混合模式下由人類遠(yuǎn)程操作完成,但有很多人誤以為全部的演示都是在自主模式下完成的。
▲混合模式下的Mobile ALOHA(圖源:X)
在澄清視頻中,團(tuán)隊(duì)展示了自主模式下,機(jī)器人犯過的一些“愚蠢的錯(cuò)誤”。比如,你以為它能優(yōu)雅地拿起高腳杯,實(shí)際上“手滑”過不少次:
炒好的蝦本該倒入碗中,卻倒在了桌面上,鍋還被燒焦了一半:
炒蝦的過程中,鍋鏟子也時(shí)常拿不穩(wěn):
不過在失誤合集的視頻發(fā)出后,網(wǎng)友們不僅沒有落井下石,反而紛紛表示鼓勵(lì)。“感謝分享這些。許多人看到之前的視頻并認(rèn)為機(jī)器人是完全自主的,但實(shí)際上它是遠(yuǎn)程操作的。正如這個(gè)視頻所示,自主模式要困難得多!”網(wǎng)友Phil Trubey說。Tony Z. Zhao也回應(yīng)道:“這確實(shí)是混合模式,我們真的希望人們可以訪問該項(xiàng)目網(wǎng)站并閱讀論文/代碼!”
“我更喜歡這個(gè)視頻,因?yàn)樗故玖吮澈蟮呐瓦M(jìn)步?!本W(wǎng)友Kevin Hu贊許這種真誠(chéng)展示背后失誤的行為。
日本創(chuàng)意工作室taziku首席執(zhí)行官田中義弘說:“它并不完美,但換句話說,它可愛又討人喜歡?!?/p>
而擎天柱這邊,有眼尖的網(wǎng)友發(fā)現(xiàn)它的右下角似乎有一只手正在遠(yuǎn)程控制移動(dòng)。
馬斯克則是第一時(shí)間在評(píng)論區(qū)補(bǔ)充:“擎天柱目前還不能自主執(zhí)行疊衣服的操作,但未來肯定能夠在任意環(huán)境中完全自主執(zhí)行此操作(不需要帶有只有一件襯衫的盒子的固定桌子)?!?/p>
▲馬斯克強(qiáng)調(diào)擎天柱非自主完成操作(圖源:X)
和Mobile ALOHA一樣,擎天柱的疊衣服展示也遭到了實(shí)用性方面的質(zhì)疑。有網(wǎng)友說:“我媽媽可能已經(jīng)趕走它然后說:太慢了,還是我來吧。”
“它像ALOHA機(jī)器人一樣進(jìn)行遠(yuǎn)程操作……在我看來,擎天柱的最大問題是成本?!盇I創(chuàng)企Abacus首席執(zhí)行官Bindu Reddy說。
還有網(wǎng)友覺得它的速度太慢了:“當(dāng)他們?cè)噲D統(tǒng)治世界時(shí)也會(huì)這么慢嗎?如果是這樣的話,我就不用再像以前一樣擔(dān)心終結(jié)者了。”
03.數(shù)據(jù)少、場(chǎng)景多、實(shí)時(shí)性差具身機(jī)器人落地還要攻破這些難點(diǎn)
這些演示雖然或多或少包含了炒作、包裝的成分,但不可否認(rèn)的是,它們對(duì)具身智能機(jī)器人這一賽道都做出了不少貢獻(xiàn)。一方面,演示視頻的爆火使得更多人關(guān)注到這個(gè)領(lǐng)域;另一方面,它們也展示了在精細(xì)的物理操作、低成本解決方案等方面的潛力。對(duì)于斯坦福Mobile ALOHA團(tuán)隊(duì)放出的失誤視頻,開普勒探索機(jī)器人首席執(zhí)行官胡德波告訴智東西,這不能看作是“翻車”,而是成功背后的必然經(jīng)歷。他認(rèn)為,Mobile ALOHA之所以爆火主要是因?yàn)榧ぐl(fā)了大家對(duì)于機(jī)器人在家務(wù)場(chǎng)景中應(yīng)用的期待。在技術(shù)層面,它最大的貢獻(xiàn)在于物理操作的精細(xì)程度。做飯、澆花、洗衣服……Mobile ALOHA展示了機(jī)器人進(jìn)入家庭所需要的解決這些瑣碎任務(wù)的能力。
優(yōu)必選聯(lián)合創(chuàng)始人、首席技術(shù)官兼執(zhí)行董事熊友軍同樣認(rèn)為這并不是一種“翻車”,而是技術(shù)發(fā)展的必然過程。在真實(shí)場(chǎng)景中通過遙控等方式來收集數(shù)據(jù),能夠?yàn)橐院蟮臋C(jī)器人訓(xùn)練打基礎(chǔ),提供更高效的解決方案。談及Mobile ALOHA的主要貢獻(xiàn),他認(rèn)為這個(gè)系統(tǒng)展示了一種低成本的解決方案,如網(wǎng)絡(luò)攝像頭、筆記本電腦等硬件的選取。并且它目前仍處于Demo階段,如果未來投入量產(chǎn),成本將會(huì)更低。如果用GPT模型的迭代來比喻,胡德波認(rèn)為AI機(jī)器人目前的發(fā)展階段大概相當(dāng)于GPT-2。
具體來說,現(xiàn)階段的機(jī)器人已經(jīng)展現(xiàn)出一些智能性和自主性,能夠?qū)W習(xí)并自主完成一些簡(jiǎn)單的操作,即機(jī)器人的智商得到了顯著的提高。但目前,還沒有像GPT-3一樣能夠大規(guī)模解決問題、形成大量用戶并成為現(xiàn)象級(jí)產(chǎn)品的機(jī)器人出現(xiàn)。在落地層面,胡德波認(rèn)為最大的痛點(diǎn)在于實(shí)時(shí)性。由于調(diào)用云端大模型的響應(yīng)時(shí)間可能達(dá)到秒級(jí),對(duì)于需要實(shí)時(shí)操作的機(jī)器人來說,這樣的時(shí)延是難以支撐其部署到場(chǎng)景當(dāng)中的。除此之外,熊友軍告訴智東西,數(shù)據(jù)、場(chǎng)景、安全性和遷移成本也是許多企業(yè)面臨的痛點(diǎn)。
訓(xùn)練大模型,首先面臨的就是數(shù)據(jù)收集的問題。訓(xùn)練機(jī)器人模型所需要的數(shù)據(jù)不同于訓(xùn)練大型語言模型,不僅需要文本語料,還需要大量的圖片、真實(shí)的場(chǎng)景等數(shù)據(jù)。而場(chǎng)景方面,由于現(xiàn)實(shí)中的物理環(huán)境非常復(fù)雜,現(xiàn)有的訓(xùn)練大多都基于桌面,距離實(shí)際落地到生活中差距還很大。
安全性方面,由于大模型是黑箱操作,很多行為都不具有可解釋性。在語言模型中,如果出現(xiàn)錯(cuò)誤等“幻覺”問題,可能只是會(huì)誤導(dǎo)用戶,而機(jī)器人模型一旦出現(xiàn)錯(cuò)誤,則有可能對(duì)環(huán)境或人類產(chǎn)生危害,造成不可挽回的后果。
最后,從訓(xùn)練遷移到真實(shí)場(chǎng)景的成功率仍然很低,需要很多工程師花費(fèi)大量精力去解決這些問題,因此遷移成本很高,要達(dá)到99%以上的準(zhǔn)確性和可靠性還有很長(zhǎng)的路要走。雖然AI機(jī)器人落地仍面臨諸多難題,但熊友軍對(duì)此也持樂觀態(tài)度。
AI機(jī)器人賽道關(guān)注度高,獲得了諸如前文所述的很多公司、資源投入,再加上AI技術(shù)的飛速發(fā)展,這兩年所取得的進(jìn)度比過去十年都要多。總的來看,胡德波談道,AI機(jī)器人最可能先落地的場(chǎng)景主要集中在簡(jiǎn)單重復(fù)的、相對(duì)可控的任務(wù)上。一是制造場(chǎng)景,其中包含大量輔助性的、相對(duì)比較簡(jiǎn)單的工作;二是倉(cāng)儲(chǔ)物流場(chǎng)景,包括分揀、搬運(yùn)等一些重復(fù)性的體力勞動(dòng);三是危險(xiǎn)場(chǎng)景,如核電站、化工廠、軍工廠等地的巡邏巡檢。
04.結(jié)語:機(jī)器人“接管人類”為時(shí)尚早
能自主做飯清潔疊衣服的機(jī)器人固然吸引眼球,不過冷靜下來再看,我們會(huì)發(fā)現(xiàn)這些機(jī)器人仍需要人類遠(yuǎn)程操控,在完全自主的模式下則表現(xiàn)得“笨手笨腳”,離真正的智能還有一定距離。數(shù)據(jù)、場(chǎng)景、安全性等問題仍是機(jī)器人的“致命弱點(diǎn)”,欣慰的是,我們已經(jīng)看到DeepMind等機(jī)構(gòu)在這些方面取得了更多進(jìn)展。無論如何,企業(yè)和機(jī)構(gòu)的“卷”是件好事,我們期待在2024年看到AI機(jī)器人學(xué)會(huì)更多技能,在進(jìn)入工業(yè)、家庭等場(chǎng)景的路上走得更遠(yuǎn)。