作者:葉子凌,編輯:李墨天
2021年的特斯拉AI Day,特斯拉PPT首發(fā)了人形機器人Tesla Bot的概念機設計方案。按照馬斯克畫的大餅,Tesla Bot可以完全代替人類“從事重復性/無聊的工作”。
也許是擔心在場觀眾干看PPT無聊,馬斯克請來了一位身著緊身衣的皮套人,模仿Tesla Bot尬舞了一段。
AI Day結(jié)束,科技媒體The Verge表示,馬斯克的Tesla Bot就是個笑話[1]。文章還援引中央蘭開夏大學機器人工程教授Carl Berry的評價:說它是馬糞都算抬舉它了(horse shit sounds generous, frankly)。
Carl Berry還專門搬出機器人領域的網(wǎng)紅公司波士頓動力,認為后者正在踏踏實實的做事,而特斯拉在加深公眾對機器人不切實際的幻想。
今年4月,特斯拉的皮套人尬舞再度被拉出來鞭尸。在波士頓動力展示新款機器人的視頻中,機器人以一種靈活到有些詭異的方式從地上站起來。
波士頓動力也在推特上陰陽怪氣了一句:“我們保證這不是一個穿著緊身衣的人?!?/p>
事情的起因是,波士頓動力宣布11歲“高齡”的人形機器人Atlas正式退休——Atlas算得上是初代機器人網(wǎng)紅,它被波士頓動力員工一棍子撂倒,接著踉踉蹌蹌爬起來的視頻,一度引發(fā)了“停止霸凌機器人”的后現(xiàn)代哲學思考。
結(jié)果Atlas領退休金的第一天,“煥新版”Atlas正式出道。最大的變化是,波士頓動力拋棄了原有的液壓結(jié)構(gòu),改為電機驅(qū)動。
目前,“煥新版”Atlas的宣傳片已經(jīng)在YouTube上收獲了500多萬播放量。
相比Atlas熟悉的后空翻大劈叉,相較之下,去年年底的第二代Tesla Bot才剛學會緩慢行走和90度深蹲。
加上馬斯克近幾年大餅畫的太多,也不難理解The Verge會提出“機器人為什么要像人”的質(zhì)疑。
然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,決定了波士頓動力的命運。
谷歌發(fā)現(xiàn)了什么?
相比荒誕開場的Tesla Bot,波士頓動力這家公司是機器人領域根正苗紅的祖師爺。
波士頓動力成立于1992年,前身是麻省理工學院的腿部實驗室,長期致力于有腿機器人的研究。
2012年,DARPA(美國國防高級研究計劃局)為了推動機器人研究,資助了一場機器人挑戰(zhàn)賽,波士頓動力由此進入美國軍方的視野。
DARPA是五角大樓旗下的研究機構(gòu),和NASA一起誕生于美蘇爭霸的白熱化時期,目的是借助國家意志確保美國在高科技領域的領先。只不過NASA負責地球以外,DARPA負責地球以內(nèi)。過去幾十年間,DARPA直接或間接的推動了GPS、互聯(lián)網(wǎng)等技術的誕生。
2012年,正值DARPA在機器人、自動駕駛等領域大力投資,為了降低參賽門檻,DARPA希望能有一款標準化的人形機器人,供參賽團隊編程。
在這之前,波士頓動力已經(jīng)為DARPA開發(fā)了多款產(chǎn)品,比如外型神似野豬的LS3,能夠穿梭于各種極端戰(zhàn)場環(huán)境,快速運送物資。
2013年7月,在DARPA的資助下,波士頓動力打造出了身高1.88米,重達150千克的初代Atlas。這個新聞很快傳到了谷歌的耳朵里,波士頓動力的命運隨之改變。
當時,谷歌正在秘密籌備一個代號為“Replicant(復制人)”的機器人項目,由“安卓之父”安迪·魯賓親自帶隊。按照魯賓的設想,谷歌將打造一個編程平臺,從而推動機器人普及,最終在機器人身上復刻安卓系統(tǒng)的成功[3]。
為了這個龐大計劃,谷歌瘋狂掃貨,一口氣收購了九家機器人初創(chuàng)公司,Atlas問世不到半年,波士頓動力就被谷歌收入囊中。此后,Atlas的迭代速度也坐上了火箭。
2016年,波士頓動力毫無征兆的發(fā)布了一則新款Atlas的演示視頻,視頻中Atlas熟練的行走跳躍,尤其是被推倒在地后,仍能自主起身繼續(xù)完成工作,整個過程栩栩如生,帶給公眾的震撼不亞于2022年底ChatGPT的問世。
目前,這條視頻的Youtube播放量已經(jīng)積累到了4059萬。2017年,Atlas再接再厲,用一個精彩的后空翻再度把波士頓動力送上全球熱搜。
然而,就在波士頓動力風頭正盛的2017年,投資了五年之久的谷歌卻將其甩賣。按照彭博的說法,谷歌管理層的核心分歧在于商業(yè)化。
波士頓動力希望埋頭研究,但谷歌希望盡快打造能商業(yè)化的產(chǎn)品:“我們不可能用30%的資源去投入一個需要10年以上的項目[4]。”
在彭博的報道中,豐田和亞馬遜都是潛在的買家,但波士頓動力最終被賣給了軟銀,2020年又被賣給了韓國現(xiàn)代。
谷歌內(nèi)部,安迪·魯賓因性丑聞被掃地出門,Replicant項目也草草收場,劃上一個滿是遺憾的句號。
一家明星公司在當打之年被潦草脫手,谷歌內(nèi)部真實的決策過程難以知曉。但在這個過程中起到?jīng)Q定性作用的,很可能是2017年發(fā)生在谷歌內(nèi)部的另一件事。
我來組成頭部
2017年6月,谷歌的8位AI科學家聯(lián)名發(fā)表了一篇名為《Attention Is All You Need》的論文。這是繼2012年AlexNet勇奪ImageNet挑戰(zhàn)賽冠軍之后,人工智能發(fā)展史上的又一個里程碑事件。
谷歌的科學家在論文里提出了一種“注意力機制”,并基于此開發(fā)一個名叫Transformer(變形金剛)的深度學習模型,解決了傳統(tǒng)RNN模型的一系列問題。
2020年,谷歌又提出了Vision Transformer ( ViT )概念,賦予了Transformer處理圖像的能力。
隨著Transformer一口氣解決了眾多缺陷,它漸漸發(fā)展成了AGI領域的唯一解。
2012年的AlexNet讓AI有了“感知”的能力,而Transformer和之后的大模型讓AI有了“生成”的能力。換句話說,2012年的AI可以識別出各種各樣的貓,2017年之后的AI已經(jīng)可以自己生成貓的圖片了。
因此,Transformer的推出直接開啟了今天的大模型時代,2018年6月,OpenAI推出了基于Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。此后,OpenAI沿著這條路線持續(xù)迭代,并基于GPT模型開發(fā)了ChatGPT。
在大模型百花齊放的同時,Transformer也為人形機器人的進步打開了一扇窗戶。
傳統(tǒng)機器人大多基于特定的規(guī)劃執(zhí)行特定的操作,比如運輸、分揀,不具備感知和決策能力。人形機器人不僅能與物理世界交互,還有感知和理解能力。
舉一個不太恰當?shù)美斫獾睦樱?strong>送餐機器人執(zhí)行“把外賣送到1203號房”這個任務時,并不理解什么是“外賣”和“1203號房”,只是根據(jù)軟件系統(tǒng)既定的指令和路線規(guī)劃完成任務。
但人形機器人可以借由智能化,理解物理世界各種物體、語言和文字的含義,并自主規(guī)劃和決策。也就是說,機器人可以不依賴預先的編程,就能完成諸如“關掉最上層抽屜”等較為模糊的指令。
波士頓動力的問題在于,無論Atlas的機械與動力結(jié)構(gòu)多么優(yōu)秀,都無法解決“窮舉法”的問題。
Atlas的軟件原理是通過攝像頭與傳感器輸入外界環(huán)境數(shù)據(jù),再根據(jù)提前創(chuàng)建的行為庫,執(zhí)行對應的動作。在其官方的文檔里,波士頓動力坦誠了這么做的弊端:
“如果盒子向一側(cè)移動了0.5 米,那么Atlas會找到并完成跳躍;如果盒子移動得太遠,那么系統(tǒng)將停止[5]?!?/p>
由于Atlas的所有動作都依賴提前設計的模版,那么真實環(huán)境的一點點變化,都可能讓機器人無所適從。這也是為什么傳統(tǒng)機器人只被用于環(huán)境、路線和職能極度固定的工廠、酒店送餐等場景。
而Transformer帶來的思路是,只要讓機器學習足夠多的數(shù)據(jù),就能擁有類人的智能,可以脫離預設的規(guī)劃進行自主決策。
去年7月《紐約時報》探班谷歌實驗室, 完整記錄了基于RT-2模型的機器人智能閃現(xiàn)的瞬間:
桌子上放著一堆塑料玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起了恐龍。
這意味著機器人不僅能識別三種動物,也能理解“滅絕的動物”的含義,還可以完成具體的操作。
Transformer的出現(xiàn)徹底改變了機器人的技術路徑,在感知-決策-執(zhí)行的完整鏈條中,核心能力不再是驅(qū)動機器人后空翻大劈叉的機械結(jié)構(gòu),而是組成機器人大腦的軟件算法。
人工智能的進步在各行各業(yè)上演著軟件對硬件的奪權(quán),機器人只是其中之一。
另一個正在由軟件定義的行業(yè)是自動駕駛,這也是為什么馬斯克會說:當你能解決自動駕駛,你就能解決現(xiàn)實世界中的人工智能。
特斯拉的三張牌
特斯拉在AI世界的出場,常常呈現(xiàn)某種荒誕不經(jīng)的色彩。
2022年特斯拉備受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壯漢攙扶。兩個月后ChatGPT橫空出世,Tesla Bot成了一塊無人問津的背景板。
然而,特斯拉在機器人領域的積累,可能比任何一家公司都要深厚。
自動駕駛本質(zhì)上是機器人的一個“前置產(chǎn)業(yè)”,兩者的核心都是基于人工智能,實現(xiàn)感知-決策-執(zhí)行的完整鏈條。
這就意味著無論是軟件層面的算法,還是硬件層面的視覺傳感器、FSD芯片等零部件,理論上都可以用于人形機器人。
特斯拉也的確是這么做的:Tesla Bot共配置有3顆攝像頭,左右眼各一個,外加一顆魚眼廣角。芯片是和特斯拉電動車一模一樣的FSD自動駕駛芯片。軟件上,Tesla Bot也承襲了自動駕駛的技術方案。
2023年特斯拉股東大會,馬斯克也確認了這一點:特斯拉已經(jīng)打通了自動駕駛芯片F(xiàn)SD和機器人的底層模塊,實現(xiàn)了一定程度的算法復用。
任何人工智能的發(fā)展都需要算法、算力、數(shù)據(jù)三駕馬車來拉動,算法決定了計算機用什么方式識別事物;但算法又需要足夠大的算力來驅(qū)動;同時,算法的提升又需要大規(guī)模高質(zhì)量的數(shù)據(jù);三者相輔相成,缺一不可。
算法和算力層面,特斯拉已經(jīng)借助電動車業(yè)務,完成了從云端(D1)到終端(FSD),核心軟硬件的自研。
數(shù)據(jù)層面,2022年的AI Day上,特斯拉宣稱已經(jīng)存儲的有價值訓練數(shù)據(jù)集有23.2萬幀,驗證數(shù)據(jù)集0.38萬幀。上百萬車主正在源源不斷的為算法訓練貢獻著數(shù)據(jù)。
馬斯克本人在AI領域的涉足也常被忽略,他是OpenAI的創(chuàng)始人之一,也是DeepMind的早期投資人。他參與的人工智能公司還有腦機芯片Neuralink、聊天機器人Grok。特斯拉每天接受并處理的視頻畫面超過1600億幀,這很可能是商業(yè)公司能擁有的最大的真實世界數(shù)據(jù)集。
波士頓動力很可能意識到了這個問題,但“煥新版”Atlas最大的改變,是從液壓改為全電動,最大的好處可能是降低成本。
在一次采訪中,創(chuàng)始人Marc Raibert曾表示Atlas在一定程度上激勵了馬斯克制造Tesla Bot的想法。但在人工智能殘酷的競爭中,波士頓動力已經(jīng)落后太多。
波士頓動力的問題在于,他們用了20年的時間試圖教會機器人如何“運動”,但實際上,機器人應該先學會“思考”。
或許在不久的將來,判斷機器人的智能化程度,可能不是看它會不會后空翻大劈叉,而是能不能從九張圖片中選出包含紅綠燈或摩托車的圖片,或者滑動滑塊使圖片位于正確的角度。
參考資料
[1] Don’t overthink it: Elon Musk’s Tesla Bot is a joke,The Verge[2] Modest Debut of Atlas May Foreshadow Age of ‘Robo Sapiens’,The NewYorker Times[3] Google’s Andy Rubin Pursues ‘Replicant’ Robots,The Information[4] Google Puts Boston Dynamics Up for Sale in Robotics Retreat,bloomberg[5] Flipping the Script with Atlas,Boston Dynamics[6] Elon Musk was likely inspired by Boston Dynamics' humanoid robot, its founder says,Businessinsider
編輯:李墨天視覺設計:疏睿責任編輯:李墨天