作者?|?賴文昕,編輯 | 陳彩嫻
吳翼、高陽(yáng)、許華哲、陳建宇、湯特、段巖、陳曦、張?zhí)旌?、羅劍嵐.....深度強(qiáng)化學(xué)習(xí)與機(jī)器人的相映交輝下,是一代英才輩出。
短短不到一年內(nèi),邊塞科技、星動(dòng)紀(jì)元、星海圖和千尋智能接連成立,躋身國(guó)內(nèi)明星創(chuàng)企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在灣區(qū)閃耀。六家具身智能公司,八位 90 后創(chuàng)始人,他們都成長(zhǎng)于深度強(qiáng)化學(xué)習(xí)的搖籃。作為最早一批開啟新范式的人,他們探索 AI 和 Robotics 的故事要從踏入伯克利校園說起。
01、潮起深度強(qiáng)化學(xué)習(xí)
2016 年春,伯克利計(jì)算機(jī)系每學(xué)期都會(huì)變化的 frontier 課開始了。Frontier 課又稱臨時(shí)課,內(nèi)容不定,老師多變,是為了探討學(xué)術(shù)前沿而設(shè)——這次,輪到了“深度強(qiáng)化學(xué)習(xí)”。
走進(jìn)只有二三十人的教室,吳翼和高陽(yáng)、段巖(Rocky Duan)、陳曦(Peter Chen)坐在了一起。講臺(tái)上,Pieter Abbeel 和 Sergey Levine 輪番上陣分享最新研究,系統(tǒng)性理論教學(xué)與進(jìn)階內(nèi)容并不多。此時(shí)鼎鼎大名的人工智能實(shí)驗(yàn)室 BAIR 尚未成立,伯克利最火的教授還是做統(tǒng)計(jì)、貝葉斯機(jī)器學(xué)習(xí)的 Michael ?I. Jordan 和 Martin Wainwright 等人。當(dāng)時(shí) OpenAI 尚未提出近端策略優(yōu)化(PPO)算法,其前身 TRPO 算法(由 John Schulman 和兩位講者提出)、DeepMind 剛改進(jìn)的 DQN(深度強(qiáng)化學(xué)習(xí)開山之作)以及強(qiáng)化學(xué)習(xí)經(jīng)典的策略梯度(Policy Gradient)算法是這門臨時(shí)課的重點(diǎn)。
作為剛?cè)腴T強(qiáng)化學(xué)習(xí)的“小白”,吳翼不懂就問,常抱段巖和陳曦的“大腿”,因后兩人正跟著導(dǎo)師 Pieter Abbeel 在 OpenAI 實(shí)習(xí),研究強(qiáng)化學(xué)習(xí)算法的框架 RLLib,天天寫代碼。此時(shí)的吳翼剛結(jié)束了一個(gè)學(xué)期的焦慮與煎熬:博二的他在 Stuart Russell 組研究貝葉斯推理,繼續(xù)大三暑研就開始參與的概率編程語(yǔ)言項(xiàng)目。上課之余,他還在帶本科生參加 DARPA Challenge,項(xiàng)目重且每學(xué)季都有匯報(bào)。論文九投一中,新方向顆粒無收,反而是本科論文中了。但同年,和吳翼同屆的 Chelsea Finn 與 Sergey Levine、Pieter Abbeel 開發(fā)的算法第一次實(shí)現(xiàn)了用深度學(xué)習(xí)做機(jī)器人控制,讓機(jī)器人 BRETT 學(xué)會(huì)了將瓶蓋擰到瓶子上、將衣架放在架子上以及用錘子爪端拔出釘子等技能。
盡管圈內(nèi)鮮有人認(rèn)可,但伯克利 AI 方向的幾位教授已開始帶著學(xué)生試跑強(qiáng)化學(xué)習(xí),比如 Trevor Darell 和其學(xué)生 Evan Shelhamer(現(xiàn) DeepMind 科學(xué)家)。他們踩了些坑后判斷這個(gè)方向可行,于是 2015 年夏天,Pieter Abbeel 開了個(gè)大組會(huì),宣布整組轉(zhuǎn)向深度強(qiáng)化學(xué)習(xí)。目睹隔壁組的轉(zhuǎn)向,申博時(shí)就想做大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)的吳翼也對(duì)深度強(qiáng)化學(xué)習(xí)產(chǎn)生了興趣。
最初他選擇伯克利的原因之一,便是被 AMP Lab 孵化出來的 Databricks 及其開源大數(shù)據(jù)處理工具 Spark 吸引,覺得學(xué)術(shù)界能做出工業(yè)級(jí)別的系統(tǒng)很厲害。但導(dǎo)師 Stuart Russell 對(duì)此不太感冒,其研究偏好在貝葉斯推理、邏輯推理,喜歡優(yōu)雅的算法和 AI 理論,而非工程性較強(qiáng)的項(xiàng)目。吳翼和 Stuart 討論過一個(gè)問題:如何將邏輯推理系統(tǒng)擴(kuò)展應(yīng)用到大規(guī)模數(shù)據(jù)處理?吳翼認(rèn)為由下至上(bottom up)的邏輯推理系統(tǒng)比較容易實(shí)現(xiàn),先從簡(jiǎn)單情況開始,把整個(gè)邏輯系統(tǒng)中容易擴(kuò)展(scale)的部分遷移到 Spark 上,以便先把算力利用起來實(shí)現(xiàn)一些應(yīng)用進(jìn)展,然后再慢慢向完整的推理系統(tǒng)和邏輯理論靠近。Stuart 則支持由上而下(top down),不能一開始就僅僅為了計(jì)算能力去盲目追求擴(kuò)展性(scalability),應(yīng)該從更高的起點(diǎn)出發(fā),先構(gòu)建一個(gè)完整的推理系統(tǒng),再考慮如何使其可擴(kuò)展。文無第一,師生二人的理念不同,雖然 Stuart 的觀點(diǎn)從做科學(xué)的角度看很有道理,但吳翼對(duì)自己的學(xué)術(shù)偏好也有自己的堅(jiān)持。該研究導(dǎo)師感興趣的問題,還是做自己最想做的方向?在糾結(jié)中失眠半年后,吳翼想了一個(gè)解法:在做組里課題的同時(shí),多加一個(gè)新方向的研究項(xiàng)目。這個(gè)想法也獲得了 Stuart 的支持。2015 年圣誕節(jié)假期結(jié)束回校,吳翼就去找了 Pieter Abbeel,自我介紹后就開門見山:“I want to do some deep reinforcement learning projects(我想做點(diǎn)深度強(qiáng)化學(xué)習(xí)的項(xiàng)目)”。Pieter 欣然同意,讓吳翼從三個(gè)項(xiàng)目中自選,吳翼沒多考慮就選了“Value Iteration Networks”這個(gè)項(xiàng)目——半年后,他就發(fā)表了第一篇深度學(xué)習(xí)論文,并獲得了 NIPS 2016 最佳論文獎(jiǎng)。2016 年 7 月,吳翼去參加 IJCAI,偶遇剛讀博的 Jakob Foerster(現(xiàn)劍橋教授,多智能體領(lǐng)先者之一),與其聊到智能體之間如何通過交流推測(cè)帽子顏色,發(fā)現(xiàn)這和自己在清華姚班讀本科時(shí)接觸過的博弈論有異曲同工之妙。同年暑假,他受李磊邀請(qǐng)去字節(jié)今日頭條實(shí)習(xí),接觸了自然語(yǔ)言處理(NLP),回伯克利后發(fā)現(xiàn)他的師兄 Jacob Andreas(現(xiàn) MIT 教授)開創(chuàng)性地將強(qiáng)化學(xué)習(xí)與 NLP 結(jié)合,能讓 AI 智能體實(shí)現(xiàn)指令跟從,在 2D 模擬環(huán)境中執(zhí)行從找到鐮刀、拿起鐮刀、移動(dòng)到麥田、收割麥子等一系列動(dòng)作。這兩項(xiàng)工作對(duì)吳翼的啟發(fā)很大,他也由此對(duì)多智能體學(xué)習(xí)產(chǎn)生了興趣,并轉(zhuǎn)向該方向的研究。后來博士畢業(yè)后,吳翼加入 OpenAI 也是從事大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng)與多智能體的研究。此外,在伯克利讀博期間,吳翼還到 Facebook 實(shí)習(xí),在田淵棟的指導(dǎo)下參與了視覺導(dǎo)航最早的工作之一 House3D。House 3D 是 Facebook 具身智能體研究平臺(tái) Habitat 的重要組成部分,后來其“Habitat 挑戰(zhàn)賽”也成為了具身智能最熱門的挑戰(zhàn)賽之一。被吳翼抱大腿的段巖和陳曦,由于在 Pieter Abbeel 組,也最早經(jīng)歷了伯克利深度強(qiáng)化學(xué)習(xí)浪潮的崛起。2011 年,段巖從深圳中學(xué)畢業(yè)后來到伯克利讀本科,和陳曦是計(jì)算機(jī)與統(tǒng)計(jì)雙專業(yè)的同班同學(xué)。此外,段巖還多修了數(shù)學(xué)專業(yè)。段巖人稱“Rocky Fast”,做事效率高、速度快,因?yàn)橄雱?chuàng)業(yè),和陳曦兩人用三年讀完本科后就創(chuàng)立了一家公司叫 Sellegit,專注于對(duì)移動(dòng)電商平臺(tái)的開發(fā)與研究,比如以 9 分鐘極速閃拍模式爆火的時(shí)尚電商拍賣平臺(tái) PEACH。
這段創(chuàng)業(yè)經(jīng)歷也很快結(jié)束,只持續(xù)了一年左右。2015 年 8 月,兩人又回到伯克利,一起在 Pieter 組讀博。段巖與 Pieter 的緣分可以追溯到大三,他發(fā)表的第一篇論文就是 Pieter 帶領(lǐng)的鉸接式機(jī)器人工作,被機(jī)器人頂會(huì) IROS 2013 接收。讀博后不久,兩人又跟著 Pieter 加入了當(dāng)時(shí)團(tuán)隊(duì)只有 10 人的 OpenAI,研究深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)。可以說,他們是最早接觸深度強(qiáng)化學(xué)習(xí)的中國(guó)青年。先行者們很快認(rèn)識(shí)到深度強(qiáng)化學(xué)習(xí)的局限性:它依賴大量環(huán)境互動(dòng),且適應(yīng)性差,一旦環(huán)境變化就需要重新訓(xùn)練,成本高昂。
相比之下,人類和動(dòng)物能夠利用豐富的先驗(yàn)知識(shí)和經(jīng)驗(yàn)遷移,快速學(xué)習(xí)新技能。為了解決這個(gè)問題,段巖提出將元學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)結(jié)合,目標(biāo)是讓模型學(xué)會(huì)如何快速學(xué)習(xí),并在 2016 年末提出了 RL2算法,陳曦也參與其中。此時(shí) Transformer 尚未誕生,太過領(lǐng)先的元強(qiáng)化學(xué)習(xí)還是一個(gè)難以理解的概念,不被學(xué)術(shù)圈看好,因此論文投稿一直沒中。為了支持學(xué)生,Pieter 干脆將自己演講 PPT 的第一頁(yè)換為論文介紹,只要有外出分享的機(jī)會(huì),就會(huì)向在場(chǎng)觀眾介紹,“這是我們今年最重要的工作。”除了元強(qiáng)化學(xué)習(xí)開山之作 RL2算法外,在 OpenAI,陳曦還跟著生成對(duì)抗網(wǎng)絡(luò)(GAN)之父 Ian Goodfellow,參與了提高訓(xùn)練 GAN 技術(shù)的工作,論文引用量超過了一萬。
02、開創(chuàng) AI + Robotics
Pieter Abbeel 的成名之作是在斯坦福吳恩達(dá)組讀博時(shí)用強(qiáng)化學(xué)習(xí)控制直升機(jī)倒飛。2008 年他到伯克利后,除了開拓深度強(qiáng)化學(xué)習(xí),還最早將原本壁壘很大的深度學(xué)習(xí)與機(jī)器人領(lǐng)域結(jié)合,創(chuàng)立了機(jī)器人學(xué)習(xí)(Robot Learning)實(shí)驗(yàn)室。機(jī)器人學(xué)習(xí)研究的主要內(nèi)容,也是如今具身智能領(lǐng)域最核心的方向之一。
前文提到的 TRPO 算法是該方向的一大突破性貢獻(xiàn),它讓機(jī)器人能學(xué)習(xí)一系列模擬的控制技能,其開源代碼與視頻教程也吸引了越來越多研究人員參與其中,使機(jī)器人能完成的任務(wù)越來越復(fù)雜。除了 TRPO,Pieter 團(tuán)隊(duì)在該方向還發(fā)表了許多引領(lǐng)性的工作,例如 2015 年的泛化優(yōu)勢(shì)估計(jì)(GAE)首次實(shí)現(xiàn)了 3D 機(jī)器人運(yùn)動(dòng)學(xué)習(xí),2018 年的柔性致動(dòng)評(píng)價(jià)(soft-actor critic)能在數(shù)小時(shí)內(nèi)教機(jī)器人解決真實(shí)世界的問題、引用量接近一萬,是迄今為止最流行的深度強(qiáng)化學(xué)習(xí)方法之一。2016 年陳曦和段巖的本科師弟張?zhí)旌萍尤?Pieter 組讀博時(shí),Pieter 組內(nèi)的研究重點(diǎn)也從強(qiáng)化學(xué)習(xí)轉(zhuǎn)向了機(jī)器人與 AI 算法的結(jié)合。
段巖與陳曦提出的 RL2 算法雖能讓機(jī)器人從自身經(jīng)驗(yàn)中快速學(xué)會(huì)一項(xiàng)技能,但機(jī)器人在實(shí)驗(yàn)室學(xué)習(xí)的經(jīng)驗(yàn)是簡(jiǎn)單和人為的,可學(xué)習(xí)的技能范圍也有限。那時(shí)候,陳曦和段巖常從伯克利校園自駕 15 分鐘,到奧克蘭唐人街的中餐廳吃飯。一次晚飯,二人聊起 RL2 算法,發(fā)現(xiàn)對(duì)機(jī)器人快速學(xué)會(huì)技能后具體的下一步是什么并不清楚。他們意識(shí)到,機(jī)器人該掌握哪些技能、應(yīng)用在哪些具體場(chǎng)景、任務(wù)的實(shí)施對(duì)象、在多長(zhǎng)周期內(nèi)完成、所需硬件有哪些等等問題依舊懸而未決——學(xué)術(shù)領(lǐng)域的抽象追求和真實(shí)行業(yè)的實(shí)際需求差距太大。
于是他們就產(chǎn)生了一個(gè)想法:創(chuàng)業(yè)。
“Rocky Fast”再次用三年時(shí)間讀完博士,然后拉上還沒畢業(yè)的好友陳曦、師弟張?zhí)旌?,以及?duì)他們無條件支持的導(dǎo)師 Pieter Abbeel,一起離開當(dāng)時(shí)已經(jīng)近百人規(guī)模的 OpenAI,2017 年 9 月成立了一家名為“Embodied Intelligence”的機(jī)器人創(chuàng)業(yè)公司。但很快,因?yàn)槊痔苯印⑴c“Embodied AI”的大研究方向幾乎重名,就像用 AGI 給大模型公司命名一樣不合時(shí)宜,他們又將公司名改為了“Covariant AI”。有了 Pieter 的加入,Covariant AI 在種子輪就融到了 700 萬美元,后續(xù)的投資人陣容更是眾星云集,包括 Geoffrey Hinton、Yann LeCun、李飛飛、Jeff Dean 等人工智能領(lǐng)域的大牛,連比爾·蓋茨也參與了去年的 C 輪融資。也是在 2017 年前后,伯克利計(jì)算機(jī)系的幾位大牛一起籌備成立了一個(gè)虛擬的組織——伯克利人工智能實(shí)驗(yàn)室(BAIR)。
Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的兩位發(fā)起人。他們認(rèn)為,伯克利的 AI 雖強(qiáng),但各自為戰(zhàn)、沒有形成群體的影響力,所以希望通過 BAIR 把計(jì)算機(jī)系的各個(gè)團(tuán)隊(duì)聚集起來,整合資源做更大的事。這個(gè)想法獲得系內(nèi)的一致認(rèn)可。于是參與 BAIR 的各個(gè)組匯聚到同一個(gè)大平層里,寧可吵一點(diǎn)也要讓所有人每天都能交流,無論是老師之間、學(xué)生之間還是師生之間都能平等合作。Trevor 的兩位中國(guó)學(xué)生高陽(yáng)、許華哲也是從這時(shí)開始,從視覺轉(zhuǎn)向,開始同 Pieter Abbeel、Sergey Levine 合作研究強(qiáng)化學(xué)習(xí)相關(guān)的課題。高陽(yáng)是 2014 年到伯克利讀博,和吳翼同一屆。到伯克利之前,高陽(yáng)在清華計(jì)算機(jī)系讀本科,期間曾加入朱軍團(tuán)隊(duì)參與研究貝葉斯推理,以及在谷歌北京跟著原谷歌中國(guó)工程院副院長(zhǎng)張智威和清華學(xué)長(zhǎng)李方濤研究 NLP。
因喜愛機(jī)器學(xué)習(xí),高陽(yáng)在四大高校的offer中選擇了伯克利。進(jìn)入伯克利后,高陽(yáng)第一年上了許多包括 Michael Jordan 在內(nèi)的教授的課,發(fā)現(xiàn)他們做的研究偏理論,涉及大量數(shù)學(xué)公式推導(dǎo)而非編程實(shí)踐,與自己的預(yù)期差距不小。高陽(yáng)想做更有現(xiàn)實(shí)影響力的工作,于是就找到了 Trevor Darrell。彼時(shí) Trevor 正在研究機(jī)器人跨模態(tài)的視覺和觸覺交互數(shù)據(jù)集,讓高陽(yáng)也參與進(jìn)來,算是對(duì)他的考察。項(xiàng)目完成后,Trevor 對(duì)高陽(yáng)很滿意,高陽(yáng)就成功進(jìn)了 Trevor 的組讀博。機(jī)緣巧合下,后來視覺與觸覺也成為如今機(jī)器人最重要的兩個(gè)感知模態(tài)。
高陽(yáng)的第一個(gè)工作也被 CVPR 2015 的“視覺領(lǐng)域數(shù)據(jù)集的未來” workshop 接收。Trevor 的風(fēng)格是鼓勵(lì)學(xué)生自由探索自己感興趣的方向。他有一個(gè)特別知名的中國(guó)學(xué)生叫賈揚(yáng)清,就是在這樣包容的研究氛圍中開發(fā)出了深度學(xué)習(xí)框架 Caffe。高陽(yáng)進(jìn)組后也先做了一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的工作,并在頭兩年跟著 Trevor 深耕視覺。除了視覺的感知,Trevor 還鼓勵(lì)學(xué)生廣開思路,探索可動(dòng)、可執(zhí)行的人工智能(Actionable AI),去做跟決策相關(guān)的研究。于是 2016 年博二下學(xué)期,高陽(yáng)開始接觸自動(dòng)駕駛,暑假還到 Waymo 實(shí)習(xí),參與了自動(dòng)駕駛的感知與決策研究。決策涉及強(qiáng)化學(xué)習(xí)的知識(shí),但此時(shí)高陽(yáng)只在 frontier 課里上過 Pieter 的課、沒上手做過項(xiàng)目,而這又跨出了 Trevor 擅長(zhǎng)的研究范圍,高陽(yáng)就同 Trevor 提議,跟大力鉆研 RL 的 Sergey 合作,Trevor 爽快同意,團(tuán)隊(duì)便一起探索彼時(shí)仍少人涉足的模仿學(xué)習(xí)預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)微調(diào)相結(jié)合的算法。
項(xiàng)目最早的實(shí)驗(yàn)針對(duì)人形機(jī)器人站立、跑動(dòng)等控制問題展開,后期再轉(zhuǎn)移到自動(dòng)駕駛領(lǐng)域?!氨举|(zhì)上自動(dòng)駕駛就是一個(gè)特殊的機(jī)器人控制問題,所以最開始研究的很多算法,在機(jī)器人和自動(dòng)駕駛兩個(gè)領(lǐng)域都完全通用?!备哧?yáng)告訴雷峰網(wǎng)。從技術(shù)發(fā)展的先后順序看,自動(dòng)駕駛當(dāng)時(shí)恰好處于人臉識(shí)別等純視覺技術(shù)與機(jī)器人之間,技術(shù)未定型又不至于完全不成熟,需解決視覺感知和決策問題,正合高陽(yáng)的意。到了博四,高陽(yáng)參與了由 Trevor 領(lǐng)銜的 Deep Drive 項(xiàng)目。
作為北美最大的自動(dòng)駕駛研究組織之一,此項(xiàng)目匯集了包括 Sergey、Pieter 在內(nèi)的十余位教授,Toyota、Meta 和 Sony 等汽車制造商和上下游公司出資贊助科研,高陽(yáng)也因此第一次接觸硬件。在 2017 年,高校里有一臺(tái)完整的自動(dòng)駕駛汽車還是件新鮮事,因本??臻g有限,還得到里士滿灣校區(qū)做實(shí)驗(yàn)。高陽(yáng)負(fù)責(zé)開發(fā)核心算法并將其整合到汽車上驗(yàn)證效果,以 Sim2Real 的方式測(cè)試端到端算法在現(xiàn)實(shí)世界中的表現(xiàn)。當(dāng)看到自己?jiǎn)为?dú)開發(fā)的算法能讓汽車通過簡(jiǎn)單的訓(xùn)練在測(cè)試場(chǎng)里連續(xù)行駛?cè)娜?,高?yáng)很驚喜,“當(dāng)時(shí)從下至上把 ROS(機(jī)器人操作系統(tǒng))摸了一遍,深刻理解了硬件實(shí)際操作與純仿真環(huán)境的不同?!?016 年,許華哲也從清華畢業(yè)來到伯克利 Trevor 組讀博,首個(gè)項(xiàng)目便是與高陽(yáng)合作的端到端自動(dòng)駕駛課題,被 CVPR 2017 錄取為 Oral Paper 。他們發(fā)布了當(dāng)時(shí)最全面、時(shí)長(zhǎng)最長(zhǎng)的自動(dòng)駕駛數(shù)據(jù)集 BDDV。當(dāng)時(shí) Trevor 傳達(dá)的核心理念是,模型的質(zhì)量取決于數(shù)據(jù)的質(zhì)量?;谶@一理念,他們利用車載攝像頭收集了數(shù)萬小時(shí)的視頻數(shù)據(jù),幾乎覆蓋了舊金山所有街道,再通過位置、速度、加速度等信息預(yù)測(cè)車輛動(dòng)作,同后來模仿學(xué)習(xí)的范式非常一致。
在伯克利,許華哲與高陽(yáng)、吳翼的關(guān)系最好。他們都來自清華,又都對(duì) AI + Robotics 感興趣,三個(gè)人有一個(gè)微信小群,經(jīng)常約著一起吃飯。許華哲剛進(jìn) Trevor 組時(shí),團(tuán)隊(duì)主攻域遷移與視覺-語(yǔ)言兩大方向,Trevor 建議許華哲和高陽(yáng)去“開荒”彼時(shí)熱度飆升的自動(dòng)駕駛。但做了幾個(gè)自動(dòng)駕駛的項(xiàng)目后,許華哲認(rèn)為視覺技術(shù)的本質(zhì)是識(shí)別或生成,而他更希望創(chuàng)造出能做決策、與世界互動(dòng)并對(duì)世界產(chǎn)生影響的智能體——也就是機(jī)器人。所以博一下學(xué)期,得益于 BAIR 對(duì)跨組合作的鼓勵(lì),許華哲開始跟 Sergey 合作,研究重點(diǎn)也從單純的視覺轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)、視覺與機(jī)器人結(jié)合的方向。2017 年 6 月,BAIR 博客正式開張,許華哲還成為了首屆編輯部的五位成員之一。
因早期機(jī)器人非常昂貴,他們的研究主要以模擬器和游戲?yàn)橹?。許華哲和 Sergey 合作過 2.5 個(gè)項(xiàng)目,是關(guān)于賽車游戲、超級(jí)馬里奧和仿真機(jī)器人;還和同樣喜歡打星際爭(zhēng)霸的師兄唐浩然(曾任 Covariant 研究科學(xué)家)一起,同 Pieter 合作了一個(gè)打星際爭(zhēng)霸的項(xiàng)目。
轉(zhuǎn)方向后,許華哲最大的感受是個(gè)人的研究樂趣提高了,“因?yàn)槌晒苤庇^,比如(強(qiáng)化學(xué)習(xí))能讓游戲打得更好,當(dāng)然代碼難度也更大。純視覺更多是對(duì)神經(jīng)網(wǎng)絡(luò)的調(diào)參能力要求較高,強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,但要處理一大堆模擬器等底層的東西。”2018 年 2 月,許華哲到 Facebook 人工智能研究院(FAIR)實(shí)習(xí),和田淵棟、馬騰宇合作。當(dāng)時(shí)馬騰宇剛拿到斯坦福教職 offer,想在 gap year 探索些不同的理論,許華哲就與他合作了機(jī)器人的相關(guān)內(nèi)容。
隨著機(jī)器人成本逐漸下降,許華哲在 2019 年第二次入職 FAIR 時(shí)開始逐漸上手碰真機(jī),真正地從 Actionable AI 轉(zhuǎn)到具身智能。當(dāng)時(shí) Facebook 跟伯克利有個(gè)“FAIR BAIR Triangle”項(xiàng)目,雙方合作,學(xué)生可以在兩地各有一位導(dǎo)師,許華哲在 Facebook 的導(dǎo)師是 Roberto Calandra(今德累斯頓工業(yè)大學(xué)教授),在他和 Trevor 的指導(dǎo)下做機(jī)器人觸覺相關(guān)項(xiàng)目,完成了觸覺數(shù)據(jù)庫(kù) Pytouch 與讓機(jī)械手彈鋼琴的工作。在觸覺靈巧手項(xiàng)目中,許華哲意識(shí)到,真機(jī)與仿真間的gap很大:觸覺模擬器不好用。和只需要按下重啟即可做下一次實(shí)驗(yàn)的模擬器不同,真機(jī)的某零件損壞就得修理或重買,是個(gè)“臟活”,“2020 年疫情自己在家里拿杯子采數(shù)據(jù),觸覺傳感器突然壞了,得等網(wǎng)購(gòu)的東西到才能修好,節(jié)奏馬上就慢了下來?!?/p>
03、Robotics + AI
如果說計(jì)算機(jī)系作為深度強(qiáng)化學(xué)習(xí)搖籃研究的是 AI + Robotics,那么隔壁的機(jī)械工程系則是在盟友的影響下,加速了對(duì) Robotics + AI 的探索。具體而言,計(jì)算機(jī)系是從上層感知技術(shù)向底層逐步滲透,從 AI 出發(fā),在遇到 AI 的局限(例如可解釋性不足)時(shí),再整合控制理論等元素;機(jī)械工程系則從底層起步向上拓展,側(cè)重于模型基礎(chǔ)研究和工業(yè)應(yīng)用,在遇到傳統(tǒng)技術(shù)局限時(shí),引入 AI 技術(shù)進(jìn)行增強(qiáng)。也是從 2017 年起,兩大專業(yè)的交叉內(nèi)容越來越多。
隨著伯克利 CS 系的 frontier 課逐漸系統(tǒng)化,加入了理論推導(dǎo)和更多細(xì)節(jié),其最終在 2017 年正式成為全球首個(gè)深度強(qiáng)化學(xué)習(xí)(DRL)課程。此時(shí) DRL 在業(yè)界才剛火起來,基本停留在研讀論文的階段,由 Sergey Levine 授課的 CS285 自此成為該領(lǐng)域的“圣經(jīng)”。
第一次正式開課,伯克利機(jī)械工程系的陳建宇、湯特也來了。兩人在機(jī)械系統(tǒng)控制實(shí)驗(yàn)室(MSC Lab)讀博,師從模型預(yù)測(cè)控制(MPC)的奠基人、美國(guó)工程院院士 Masayoshi Tomizuka。Sergey 備課極認(rèn)真,深入淺出地從基礎(chǔ)知識(shí)到最前沿技術(shù),串起深度強(qiáng)化學(xué)習(xí),配上編程作業(yè)和仿真器教學(xué),學(xué)生們得以兼修理論和實(shí)踐。當(dāng)時(shí)還在讀博的 Chelsea Finn 偶爾也來做嘉賓講座,分享自己的第一手研究。
在最后的開放式大作業(yè)中,陳建宇開發(fā)了一種分層強(qiáng)化學(xué)習(xí)框架,并首創(chuàng)了一個(gè)無人車仿真器進(jìn)行訓(xùn)練,填補(bǔ)了當(dāng)時(shí)該領(lǐng)域的空白。2011 年,陳建宇被保送到清華精密儀器系(國(guó)內(nèi)最早從事雙足人形機(jī)器人研究的單位之一),前兩年接觸機(jī)器人硬件,后兩年關(guān)注機(jī)器人算法,大三暑研就來到了 MSC Lab 做步態(tài)檢測(cè),以類似遙操作的方式提取人腿數(shù)據(jù)分析雙足步態(tài)行走,并在畢設(shè)項(xiàng)目設(shè)計(jì)機(jī)器人步態(tài)規(guī)劃算法,在仿真里做雙足機(jī)器人。讀博期間,陳建宇主要參與無人駕駛項(xiàng)目。他的導(dǎo)師 Masayoshi 自 1980 年代起便對(duì)無人駕駛技術(shù)充滿熱情,曾在加州高速公路上開展無人駕駛車隊(duì)列項(xiàng)目,希望通過緊密編隊(duì)提高運(yùn)輸效率。但由于成本過高和技術(shù)限制,該項(xiàng)目最終被擱置。直到 2015 年深度學(xué)習(xí)技術(shù)興起,無人駕駛車輛的感知能力顯著提高,Masayoshi 認(rèn)為無人駕駛發(fā)展前景光明,于是重啟了相關(guān)研究。在此背景下,陳建宇成為了組內(nèi)最早做無人車的 PhD 之一。
在研究無人車的同時(shí),陳建宇密切關(guān)注著隔壁 CS 系將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的研究,特別是在機(jī)器人領(lǐng)域的應(yīng)用。他認(rèn)為深度強(qiáng)化學(xué)習(xí)與控制領(lǐng)域緊密相關(guān),且其解決問題的表示形式與 MPC 在本質(zhì)上相似。在觀察到這些技術(shù)的潛力后,他決定轉(zhuǎn)向強(qiáng)化學(xué)習(xí)領(lǐng)域進(jìn)行深入研究。博三起,陳建宇在無人駕駛領(lǐng)域進(jìn)行了端到端的探索,他堅(jiān)信端到端學(xué)習(xí)是未來發(fā)展的趨勢(shì),并在仿真環(huán)境中進(jìn)行了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的研究,初步嘗試將世界模型的概念融入算法中,盡管受數(shù)據(jù)和技術(shù)所限未能在實(shí)車上應(yīng)用。即使主要課題和獎(jiǎng)學(xué)金都來自無人車項(xiàng)目,在驗(yàn)證學(xué)習(xí)算法時(shí),陳建宇也使用了其他形態(tài)的機(jī)器人,如機(jī)械臂等,以展示具身智能的普適性。在他看來,無人車也是一種機(jī)器人形態(tài),“而且無論是 MPC 還是強(qiáng)化學(xué)習(xí),都是適用于不同形態(tài)機(jī)器人的通用方法?!?/p>
盡管在論文層面沒有直接合作,陳建宇同 CS 系在方法和創(chuàng)意的交流十分頻繁,特別是向 Sergey 請(qǐng)教。比陳建宇大兩屆的湯特則和 Pieter Abbeel 交流更多,還邀請(qǐng)了 Pieter 加入自己的博士委員會(huì)提供指導(dǎo)。讀博期間,湯特的研究主要圍繞模仿學(xué)習(xí)而展開。工業(yè)機(jī)器人巨頭發(fā)那科和 MSC Lab 合作緊密,因此湯特在 2013 年從上海交大畢業(yè)來到伯克利后,便一直與發(fā)那科深度合作,甚至每年暑假都去極少對(duì)外界開放的發(fā)那科研發(fā)總部實(shí)習(xí)。他讀博的首個(gè)課題,便是解決業(yè)內(nèi)公認(rèn)難題:讓工業(yè)機(jī)器人根據(jù)觸覺反饋,靈活地進(jìn)行裝配。“裝配過程很難用精確的數(shù)學(xué)建模來解析。但人類有一種直覺,在感受到阻力時(shí)調(diào)整裝配的方向和移動(dòng)速度,而機(jī)器人在需要柔順性的任務(wù)上表現(xiàn)不佳,其核心問題在于不具備此直覺,”湯特解釋道,“模仿學(xué)習(xí)能將這種直覺轉(zhuǎn)移到機(jī)器人身上,且即使在數(shù)據(jù)匱乏的情況下,也能高效地學(xué)習(xí)到高維度的信息?!?/p>
在剛體裝配有所突破后,接下來的兩年半時(shí)間里,湯特進(jìn)一步挑戰(zhàn)更復(fù)雜的柔性體裝配。像汽車生產(chǎn)的四大環(huán)節(jié)中,沖壓、焊接、涂裝都已高度自動(dòng)化,但總裝環(huán)節(jié)仍然勞動(dòng)力密集。一個(gè)重要原因就是以線束為代表的柔性體很難被自動(dòng)化裝配,涉及實(shí)時(shí)3D追蹤和運(yùn)動(dòng)規(guī)劃的問題。湯特使用模仿學(xué)習(xí)的策略,通過較小樣本量的人類演示,教會(huì)機(jī)器人完成復(fù)雜的柔性體操作任務(wù),比如在不同的初始狀態(tài)下給繩子打結(jié)、折疊衣服,控制人形機(jī)器人雙手協(xié)作安裝線束。通過這兩個(gè)項(xiàng)目,湯特深刻理解了感知與決策的關(guān)系:3D 視覺是第一步,用于獲取物體三維信息并進(jìn)行初步處理。但關(guān)鍵挑戰(zhàn)在于將識(shí)別結(jié)果與機(jī)器人動(dòng)作決策相結(jié)合,而模仿學(xué)習(xí)通過將視覺信息轉(zhuǎn)化為運(yùn)動(dòng)指令來填補(bǔ)這一空白。
2018 年湯特畢業(yè),正遇上灣區(qū)機(jī)器人創(chuàng)業(yè)的浪潮,陳曦和段巖想開拓物流倉(cāng)儲(chǔ)場(chǎng)景,需要擅長(zhǎng)工業(yè)機(jī)器人的伙伴互補(bǔ),便通過 Pieter 聯(lián)系湯特,想讓他加入 Covariant 一起合作。湯特考慮再三,覺得自己對(duì)工業(yè)場(chǎng)景和客戶需求的理解還不夠深刻,決定先到工業(yè)界歷練幾年,便婉拒了邀請(qǐng),來到發(fā)那科參與組建先端研究所 (Advanced Research Lab),成為其首位成員。除了 MSC Lab 的二人外,在機(jī)械工程系讀博士的羅劍嵐也在探索 Robotics + AI,同時(shí)在 Pieter 指導(dǎo)下攻讀計(jì)算機(jī)系的碩士,最后 Pieter 也成為了他博士論文的 co-chair。羅劍嵐最關(guān)注的是如何讓強(qiáng)化學(xué)習(xí)在真實(shí)世界可行。同年來到伯克利的羅劍嵐和陳建宇志趣相投,前者做強(qiáng)化學(xué)習(xí)和真機(jī)機(jī)器人,后者做強(qiáng)化學(xué)習(xí)和自動(dòng)駕駛,兩人常一起約飯,討論強(qiáng)化學(xué)習(xí)的應(yīng)用。2017 年暑假,羅劍嵐參與西門子伯克利分部的項(xiàng)目,和 Pieter、Sergey 開始合作,把深度強(qiáng)化學(xué)習(xí)應(yīng)用到工業(yè)生產(chǎn)中,學(xué)習(xí)策略以解決傳統(tǒng)機(jī)器人解決不了的問題,比如高精度裝配。這也是羅劍嵐在強(qiáng)化學(xué)習(xí)領(lǐng)域的起點(diǎn),所設(shè)計(jì)的算法不僅要能進(jìn)行規(guī)劃,還要能實(shí)時(shí)響應(yīng)外部變化,并制定策略成功完成裝配。那時(shí),在 MuJoCo 模擬環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)、刷榜、發(fā)論文是常規(guī)操作,但羅劍嵐卻認(rèn)為,當(dāng)時(shí)的強(qiáng)化學(xué)習(xí)算法性能榜單與現(xiàn)實(shí)世界機(jī)器人控制問題脫節(jié),并沒有解決實(shí)際問題。
幾篇論文下來,強(qiáng)化學(xué)習(xí)效果有限,羅劍嵐卻決心“一條路走到黑”。2020 年,羅劍嵐畢業(yè),Pieter 兩次邀請(qǐng)他加入 Covariant,但他覺得時(shí)機(jī)不是特別成熟便婉拒了,想先去谷歌積累經(jīng)驗(yàn)。加入谷歌后,他先后在 DeepMind、Everyday Robot 和 Google X 工作,跟隨 Stefan Schaal。Stefan Schaal 是諾獎(jiǎng)?chuàng)u籃馬普所的創(chuàng)始所長(zhǎng)以及機(jī)器人強(qiáng)化學(xué)習(xí)、控制的泰斗人物 ,聯(lián)結(jié)整個(gè)歐洲機(jī)器人圈子。羅劍嵐讀著 Stefan 的論文成長(zhǎng),全面掌握了機(jī)器人系統(tǒng)的各個(gè)層面,包括從底層動(dòng)力學(xué)到上層控制的所有知識(shí)。
他在谷歌參與的項(xiàng)目孵化為工業(yè)機(jī)器人創(chuàng)企 Intrinsic 后,羅劍嵐決定重返學(xué)術(shù)界,想在回國(guó)找教職前先兼職讀一年博士后,便去詢問了在 Google X 期間合作較多的 Sergey。先前合作時(shí),Sergey 訓(xùn)練機(jī)器人幾十個(gè)小時(shí)以完成簡(jiǎn)單任務(wù),而羅劍嵐做插拔等工業(yè)精密任務(wù)的成功率高達(dá) 100%,這讓 Sergey 深刻意識(shí)到團(tuán)隊(duì)里需要有人既懂機(jī)器人系統(tǒng)又懂 learning,才能將二者結(jié)合。Sergey 熱情表示,二人能力互補(bǔ),提議他全職兩年,羅劍嵐便在 2022 年回到了伯克利。強(qiáng)化學(xué)習(xí)應(yīng)用門檻高,流程易出錯(cuò)且不穩(wěn)定,用其解決實(shí)際任務(wù)一直是 AI 社區(qū)想攻克的難點(diǎn)。因此,在 2023 年 ?6 月,羅劍嵐萌生了提供一個(gè)開源的端到端解決方案的想法,包括強(qiáng)化學(xué)習(xí)環(huán)境和機(jī)器人控制器,以便用戶能夠輕松下載并使用,就像使用仿真器訓(xùn)練機(jī)器狗一樣簡(jiǎn)單?;谶@一愿景,羅劍嵐主導(dǎo)與斯坦福、華盛頓大學(xué)、谷歌等機(jī)構(gòu)合作,將自己谷歌時(shí)期的項(xiàng)目成果在伯克利進(jìn)一步發(fā)展完善,在有視覺信息的情況下,能夠在 20 分鐘內(nèi)學(xué)會(huì)一個(gè) 100% 成功率的復(fù)雜操控策略,效果顯著。
在有視覺輸入的情況下,真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練操控策略基本上已被放棄,但在此工作后,大量的企業(yè)和高校又重新?lián)炱饋磉@個(gè)幾乎被放棄的方案,比如 Toyota 研究所、波士頓動(dòng)力、北大、斯坦福等等。一次徒步時(shí),羅劍嵐和 Sergey 聊起仿真,說如果有 100 億美元,是去建世界上最大最好的仿真器,還是去收集世界最大的數(shù)據(jù)集??jī)扇送瑫r(shí)脫口而出:數(shù)據(jù)集?!胺抡鎸?duì)移動(dòng)(locomotion)很有效,但不是魔法,相對(duì)于基于模型的控制,是更好的計(jì)算工具。而且移動(dòng)的模型很簡(jiǎn)單,狗是桌子模型、雙足是倒立擺模型,外界的不確定性也有限?!绷_劍嵐認(rèn)為,高性能的操作必須建立在真實(shí)數(shù)據(jù)上,“操作的難點(diǎn)在真實(shí)世界連續(xù)多樣的變化,以及各種難以計(jì)算的復(fù)雜物理,比如物理接觸,柔性物體,尤其是在涉及視覺輸入的情況下,因此重點(diǎn)是設(shè)計(jì)出具有高樣本效率的算法,且與硬件和控制器對(duì)接無誤?!?/p>
04、具身智能創(chuàng)業(yè)
伯克利的具身智能人才似乎天然具有創(chuàng)業(yè)的基因:國(guó)內(nèi),邊塞科技、星動(dòng)紀(jì)元、星海圖和千尋智能在一年內(nèi)陸續(xù)誕生;國(guó)外,除了 2017 年的 Covariant,湯特等人于 2023 年 1 月創(chuàng)立的 Anyware Robotics 也早早入局。湯特在婉拒 Covariant 的邀請(qǐng)后,在發(fā)那科先端研究所鍛煉了四年,作為創(chuàng)始成員領(lǐng)導(dǎo) AI Vision 項(xiàng)目從無到有并實(shí)現(xiàn)商業(yè)化。
隨著對(duì)機(jī)器人在工業(yè)領(lǐng)域的商業(yè)化落地的認(rèn)識(shí)加深,湯特覺得自己的研究基礎(chǔ)加上對(duì)工業(yè)領(lǐng)域的理解已成熟,是時(shí)候出來創(chuàng)業(yè)了。兩位 MSC Lab 的同門師弟范永祥、周亦揚(yáng)也有創(chuàng)業(yè)的想法,三人能力互補(bǔ)、一拍即合:湯特擅長(zhǎng)模仿學(xué)習(xí)與 3D 視覺;范永祥擅長(zhǎng)運(yùn)動(dòng)規(guī)劃;周亦揚(yáng)則專注于自動(dòng)駕駛。三方面結(jié)合起來,就構(gòu)成了他們機(jī)器人最核心的要素——一套移動(dòng)機(jī)械臂需要自動(dòng)駕駛的能力來移動(dòng)底盤,運(yùn)動(dòng)規(guī)劃的能力來進(jìn)行手臂抓取,同時(shí)還要有視覺和學(xué)習(xí)的能力來進(jìn)行引導(dǎo)。Anyware Robotics 希望打造重型通用機(jī)器人, 應(yīng)用于物流、生產(chǎn)場(chǎng)景。湯特認(rèn)為,未來將有兩種主要的通用機(jī)器人形態(tài)互為補(bǔ)充,“一種是靈活的人形機(jī)器人,擅長(zhǎng)輕任務(wù);另一種則是體型更大、更強(qiáng)壯的輪式機(jī)械臂,擅長(zhǎng)執(zhí)行重體力任務(wù)。我們?cè)诖蛟斓氖呛笠环N通用機(jī)器人?!?/p>
作為“伯克利歸國(guó)四子”,吳翼、高陽(yáng)、許華哲、陳建宇的路徑出奇的一致,都是“清華—伯克利—清華叉院”。同在 BAIR 的吳翼、高陽(yáng)、許華哲座位挨得很近,當(dāng)時(shí) Stuart 組里只有吳翼一個(gè)中國(guó)學(xué)生,他便總和 Trevor 組里同為零字班的高陽(yáng)聊天,許華哲來到伯克利后又變成了三人小隊(duì)。陳建宇則和許華哲在學(xué)生會(huì)干活,時(shí)不時(shí)一起組織中國(guó)留學(xué)生的燒烤局。BAIR 三人常在名為“葫蘆娃”的小群里約著干活后一起去實(shí)驗(yàn)室門口的 food court 吃飯,臨近畢業(yè)時(shí)也開始討論對(duì)于求職的迷茫與焦慮。作為首批回清華叉院任教的“青椒”,吳翼是最早做出決定的。
從 2016 年暑假首次來到北京的字節(jié) AI Lab 到博士畢業(yè),除了 2017 年在 Facebook 外,吳翼每逢放假都會(huì)回國(guó)到字節(jié)實(shí)習(xí),還在 2018 年暑假轉(zhuǎn)到了核心的搜推組。早期的字節(jié)讓吳翼看到了 2012 年的 Facebook:?jiǎn)T工三千,管理扁平,CEO 愛辦 All Hands(全員溝通大會(huì)),每周講 all in 短視頻。國(guó)內(nèi)互聯(lián)網(wǎng)的朝氣蓬勃讓吳翼決定回國(guó),那就留在字節(jié)嗎?2018 年的字節(jié)處在從傳統(tǒng)系統(tǒng)轉(zhuǎn)向深度學(xué)習(xí)的階段,用大規(guī)模神經(jīng)網(wǎng)絡(luò)做搜推是個(gè)不錯(cuò)的機(jī)會(huì)。但經(jīng)歷過 2016 年 3000 人的字節(jié),面對(duì) 2018 年的字節(jié),吳翼覺得自己有很多想做的技術(shù)探索,尤其是強(qiáng)化學(xué)習(xí)方向,似乎在當(dāng)時(shí)看來很難在一個(gè)大廠里實(shí)現(xiàn),而直接創(chuàng)業(yè)又沒有特別好的時(shí)機(jī)。琢磨一周后,吳翼人生中第一次冒出當(dāng)老師的念頭,想在自己的課題組做強(qiáng)化學(xué)習(xí)。9 月,吳翼聯(lián)系了自己本科畢設(shè)老師徐葳,詢問是否有職位空缺,徐葳回復(fù)說有,并囑咐他盡快回國(guó)。10 月,吳翼從美國(guó)飛回北京參加面試,在飛機(jī)上趕完了最后一版 PPT。面試結(jié)束后,他進(jìn)到姚期智院士的辦公室,一拿到合同就問簽字的位置,姚先生笑著告訴他,應(yīng)該由自己先簽字。
就這樣,吳翼成了第一個(gè)在姚先生辦公室里就即刻簽約入職的“青椒”,也是第一個(gè)回姚班教書的姚班畢業(yè)生。吳翼認(rèn)為,自己在學(xué)生時(shí)代的特點(diǎn)是涉獵比較廣泛,而強(qiáng)化學(xué)習(xí)又是一個(gè)很通用并且能把很多不同方向整合起立的框架,因此希望作為教師組建團(tuán)隊(duì)后,同時(shí)推進(jìn)語(yǔ)言注入、多智能體強(qiáng)化學(xué)習(xí)算法、機(jī)器人,最后實(shí)現(xiàn)一個(gè)完整的人機(jī)交互系統(tǒng)?!拔业哪繕?biāo)不是做一個(gè)機(jī)器人硬件,而是一個(gè)需要承載在硬件上做交互的大腦?!焙灱s清華后,吳翼跟姚先生提出在美國(guó)業(yè)界多待一年半再入職,姚先生爽快答應(yīng)了。起初吳翼想去在學(xué)術(shù)界聲譽(yù)好且發(fā)表論文多的 Google Brain,面試后谷歌對(duì)吳翼也很滿意,不過由于吳翼坦誠(chéng)只能干一年,headcount 緊張的谷歌需要花時(shí)間走內(nèi)部流程。
與此同時(shí),曾與吳翼合作過的 Bob McGrew 給他打電話,邀請(qǐng)他下周入職 OpenAI,吳翼希望多等谷歌一個(gè)月,Bob 也同意稍后再溝通。2018 年平安夜前一天,Bob 再次聯(lián)系吳翼,問他考慮得如何。吳翼便決定不等谷歌,去 OpenAI,就這樣成為了多智能體研究組的一員。在 OpenAI,吳翼加入了智能體玩捉迷藏的項(xiàng)目,讓智能體分成紅藍(lán)兩隊(duì)進(jìn)行游戲。研究顯示,只用簡(jiǎn)單的+1/-1獎(jiǎng)勵(lì)機(jī)制和大規(guī)模的強(qiáng)化學(xué)習(xí),智能體也能自行進(jìn)化,掌握工具使用,并發(fā)展出六種不同的策略和對(duì)策。為了衡量智能體行為的復(fù)雜度,團(tuán)隊(duì)還設(shè)計(jì)了五種測(cè)試,所有通過強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體在測(cè)試中都達(dá)到了最高分。這意味著,多智能體強(qiáng)化學(xué)習(xí)加上復(fù)雜的模擬環(huán)境可以產(chǎn)生類似人類的智能行為。此工作一經(jīng)發(fā)布便獲得了大量關(guān)注,其官方視頻至今仍是 OpenAI 在 YouTube 播放量的榜首。
2019 年,吳翼一邊在 OpenAI 工作,一邊開始招首批博士生。一人做語(yǔ)言注入,強(qiáng)化學(xué)習(xí)加語(yǔ)言;一人做強(qiáng)化學(xué)習(xí)+機(jī)器人+控制;還有一人是電子系汪玉老師的博士生,和吳翼聯(lián)合指導(dǎo),做多智能體學(xué)習(xí)。年末,Bob 在內(nèi)部評(píng)審會(huì)時(shí)建議吳翼多待兩年,給他升職發(fā)股權(quán),畢竟他入職時(shí) OpenAI 還是個(gè)沒有股份的 NGO。吳翼卻覺得發(fā)股權(quán)對(duì)自己意義不大,還是得回清華當(dāng)老師。
回到清華開始自己做機(jī)器人后,吳翼深刻體會(huì)到硬件之難,“以前伯克利路線是較 AI 驅(qū)動(dòng)而非傳統(tǒng)硬件驅(qū)動(dòng),剛開始上真機(jī)踩了不少坑。”彼時(shí)吳翼的高中與伯克利師兄、時(shí)任字節(jié) AI Lab 總監(jiān)的李磊也想做 AI 機(jī)器人,和吳翼一拍即合,決定一起學(xué)習(xí)、踩坑。吳翼帶著學(xué)生李云飛和字節(jié)合作,從頭開始搭建了機(jī)械臂、足式機(jī)器人等軟硬件設(shè)施。經(jīng)吳翼推薦,李云飛還到 Covariant 實(shí)習(xí),讓段巖幫忙培訓(xùn)培訓(xùn)。最早回國(guó)的吳翼也是最早開始商業(yè)化嘗試的。2020 年在上海期智研究院成為項(xiàng)目負(fù)責(zé)人后,吳翼有了更大的探索空間,在姚先生的大力支持下,吳翼根據(jù)自己在 OpenAI 的經(jīng)驗(yàn)和自己的認(rèn)知,想做全棧且和工程結(jié)合的研究,于是 2021 年在上海期智研究院組建了專注于大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)研究的科研團(tuán)隊(duì)。
一次和網(wǎng)易的合作,吳翼發(fā)現(xiàn)團(tuán)隊(duì)已具備充足的能力,就決定用商業(yè)化公司的方式最大化強(qiáng)化學(xué)習(xí)技術(shù)的商業(yè)影響力,恰好碰上疫情爆發(fā),封控結(jié)束后就遇上了大模型的浪潮。“還是很幸運(yùn)吧,回顧以往,做的選擇都很隨機(jī)?!?023 年 5 月,吳翼團(tuán)隊(duì)孵化成立了邊塞科技,目標(biāo)是用強(qiáng)化學(xué)習(xí)為更多人創(chuàng)造更好的智能體驗(yàn)。在一眾伯克利博士+清華叉院教職的創(chuàng)業(yè)者里,邊塞科技是唯一不涉及機(jī)器人硬件的?!八惴?、應(yīng)用、多模態(tài)融合以及硬件都很重要,”吳翼拆解自己的宏觀愿景,“但是人不能追求高而全,還是要先去最好自己擅長(zhǎng)的事情,硬件的環(huán)節(jié)我不是專家,算法、成本、供應(yīng)鏈都有很多要學(xué)習(xí)和探索的部分,因此就不在公司里面商業(yè)化運(yùn)營(yíng)了,機(jī)器人就研究院做技術(shù)研究?!钡诙€(gè)確定入職清華的是高陽(yáng)。
2018 年,姚期智院士到伯克利招聘,和高陽(yáng)簡(jiǎn)單交流后熱情邀請(qǐng)他回國(guó)面試。此前高陽(yáng)主要在美國(guó)面試公司,沒考慮過回國(guó)當(dāng)老師,但既然有面試機(jī)會(huì),便決定試一試。12 月 31 日,高陽(yáng)在清華進(jìn)行了兩場(chǎng)學(xué)術(shù)報(bào)告后的當(dāng)晚,就收到了叉院 offer?;鹚俚绞值?offer 出乎了高陽(yáng)的預(yù)料,經(jīng)過 2 個(gè)月的深思熟慮,他決定拒絕 Waymo、Nuro、Aurora 等多家自動(dòng)駕駛公司的 offer,回國(guó)教書。此時(shí)已是高陽(yáng)博士生活的最后一年,自動(dòng)駕駛在學(xué)術(shù)界能做的探索已基本完結(jié),去到清華能做什么呢?回到伯克利,高陽(yáng)參加了 Jitendra Malik 和 Alexei Efros 等多位視覺教授的組會(huì),聊起人的智能如何進(jìn)化而來的哲學(xué)問題。大家認(rèn)為,五指靈巧手能進(jìn)行復(fù)雜物理操作,為智能的發(fā)展提供了基礎(chǔ),因此猴比貓狗智能;而貓狗之間,狗的群居特性促進(jìn)了溝通的發(fā)展,使得狗與人社交時(shí)強(qiáng)于貓——因此,智能產(chǎn)生的本源,是和現(xiàn)實(shí)物理世界產(chǎn)生交互(與環(huán)境、與人類、與機(jī)器人本身)??吹骄呱碇悄茏鳛榇笥锌蔀榍疑刑幊跫?jí)階段,很自然地,高陽(yáng)想到把自己做自動(dòng)駕駛的技能轉(zhuǎn)到通用機(jī)器人上。
除了鉆研已久的感知外,為了繼續(xù)提高對(duì)決策的了解,高陽(yáng)向 Pieter Abbeel 提出自己將去清華任教,計(jì)劃做機(jī)器人的研究,想先到他的組里做一年博士后,還分享了很多想做的題目。Pieter 也想把更高級(jí)的視覺技術(shù)引入強(qiáng)化學(xué)習(xí)里,便爽快答應(yīng)了。在機(jī)器人領(lǐng)域,傳統(tǒng)的輸入并非基于純視覺信息/場(chǎng)景圖像,而是基于對(duì)物理世界的低維表征,例如物體的 XY 坐標(biāo)。高陽(yáng)與 Pieter 的合作便是針對(duì)從高維度的視覺數(shù)據(jù)中提取對(duì)決策有用的信息這項(xiàng)極具挑戰(zhàn)的工作,其中最知名的 Efficient Zero 項(xiàng)目更是將這一研究方向推向了極致,并提高強(qiáng)化學(xué)習(xí)的樣本效率。與喜歡在半小時(shí)內(nèi)高強(qiáng)度輸出的 Sergey 不同,Pieter 則更關(guān)注宏觀層面,不討論具體技術(shù)細(xì)節(jié),而根據(jù)自己的經(jīng)驗(yàn)給出方向是否有前景的反饋。
適應(yīng)了一陣后,高陽(yáng)逐漸領(lǐng)悟到宏觀指導(dǎo)實(shí)際上是優(yōu)秀導(dǎo)師的理想狀態(tài),科研的品味與獨(dú)立性也得到了提升。2020 年 8 月,高陽(yáng)入職清華叉院任助理教授,聚焦計(jì)算機(jī)視覺與機(jī)器人結(jié)合領(lǐng)域,探索強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的應(yīng)用,讓機(jī)器人通過 “看” 操縱周圍事物。強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實(shí)世界需解決數(shù)據(jù)匱乏和缺少監(jiān)督信號(hào)兩大難題,高陽(yáng)團(tuán)隊(duì)也基于此開展了一系列工作,比如從2D人類視頻中學(xué)習(xí)機(jī)器人動(dòng)作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。高陽(yáng)想實(shí)現(xiàn)的終極場(chǎng)景是,在物理實(shí)體上實(shí)現(xiàn)科學(xué)研究中的算法,建立一個(gè)可以“用眼睛看”并服務(wù)于家庭場(chǎng)景的機(jī)器人,如告訴機(jī)器人“做一杯咖啡”,它就會(huì)走到咖啡機(jī)前,進(jìn)行磨豆子、拉花等一系列操作。去年年中,在看到大模型和具身智能領(lǐng)域的變革后,高陽(yáng)決定創(chuàng)業(yè)。他清楚具身智能產(chǎn)品必須是軟硬件結(jié)合的解決方案,自己雖有多年 AI 軟件經(jīng)驗(yàn),但缺乏硬件和商業(yè)化背景,就開始尋找既懂硬件也懂機(jī)器人落地瓶頸的合伙人。在共友的牽線下,高陽(yáng)結(jié)識(shí)了前珞石機(jī)器人 CTO 韓峰濤,后者有十余年機(jī)器人行業(yè)經(jīng)驗(yàn),不僅很懂硬件,還做過 1000 多個(gè)落地場(chǎng)景,對(duì)于各場(chǎng)景的卡點(diǎn)到底在軟件還是硬件非常清楚。而韓峰濤也有創(chuàng)業(yè)打算,在找 AI 人才,兩人能力互補(bǔ)、一拍即合,便決定一起創(chuàng)業(yè)。
今年 2 月,千尋智能成立,做具身智能基座大模型,是國(guó)內(nèi)少數(shù)選擇端到端技術(shù)路線的具身智能創(chuàng)企,選擇輪式+雙臂的方案。入局創(chuàng)業(yè)后,高陽(yáng)對(duì)技術(shù)路徑與團(tuán)隊(duì)協(xié)作也有了新的認(rèn)識(shí),在最近的兩次美國(guó)之行中,高陽(yáng)還分別和 Deepak 與 Sergey 交流了 Skild AI 和 Physical Intelligence 的發(fā)展情況,還聊到了具身大模型的未來,包括其構(gòu)建方法、面臨的挑戰(zhàn)以及所需的數(shù)據(jù)量等關(guān)鍵話題。
至于比吳翼、高陽(yáng)小兩屆的許華哲,也在 2022 年夏天回到了清華。一年前,許華哲從伯克利畢業(yè),來到斯坦福的吳佳俊小組讀博士后。吳佳俊也對(duì)機(jī)器人很感興趣,彼時(shí)組里正在進(jìn)行讓機(jī)器人捏橡皮泥、學(xué)會(huì)彈塑性物體操作任務(wù)的項(xiàng)目。過年期間,許華哲和好友包餃子慶祝春節(jié),突然意識(shí)到如果讓機(jī)器人學(xué)會(huì)餃子的世界模型,就能使一個(gè)機(jī)械臂獨(dú)立完成包餃子的步驟。于是,幾人搭好工具庫(kù)和廚房后,讓機(jī)器人隨機(jī)選擇工具與面團(tuán)任意互動(dòng)以采集數(shù)據(jù)。加上訓(xùn)練的工具分類網(wǎng)絡(luò)、機(jī)器人策略網(wǎng)絡(luò)以及視覺反饋?zhàn)鳛樾碌母兄畔⑤斎?,機(jī)器人能在有干擾的情況下使用工具包餃子,文章也被機(jī)器人學(xué)頂會(huì) RSS 2022 所接收。
在斯坦福時(shí),許華哲就拿到了叉院的 offer。剛回國(guó)時(shí),許華哲發(fā)現(xiàn)具身智能的概念在國(guó)內(nèi)很少人買賬,清華里研究機(jī)器人的依舊是以傳統(tǒng) MPC 等方法為主的自動(dòng)化系。許華哲希望做出可以決策的機(jī)器人或智能體,便成立了自己的實(shí)驗(yàn)室,在次年正式命名為具身智能實(shí)驗(yàn)室,以包含視觸覺的機(jī)器人泛化靈巧操作和控制為長(zhǎng),也探索 DRL 在實(shí)際機(jī)器人復(fù)雜任務(wù)中的應(yīng)用。許華哲支持學(xué)生們?nèi)L試各種奇思妙想,上課很有熱情,課堂教學(xué)評(píng)價(jià)常排在前 5%,被吳翼稱之為“經(jīng)典的伯克利 Style”和“當(dāng)老師的料”。他選擇加入星海圖的那天,恰逢十一假首日,正帶著組里的博士生去郊游。許華哲合流星海圖其實(shí)是個(gè)巧合:他看到具身智能的機(jī)會(huì)后想自己創(chuàng)業(yè),聽聞趙行已開始,便來咨詢心路歷程和時(shí)間節(jié)點(diǎn)。而星海圖在籌建期,趙行就拉上許華哲和高繼揚(yáng)一起吃飯,大家聊得投機(jī),想法高度契合,許華哲絲滑加入,負(fù)責(zé)帶領(lǐng)操作團(tuán)隊(duì),同樣采取輪式+雙臂的構(gòu)型方案。
除了“葫蘆娃”三人外,MSC Lab 的陳建宇則在 2020 年末入職叉院。此時(shí)正值疫情爆發(fā),陳建宇在暑假的面試還得線上進(jìn)行。回國(guó)后的前兩年里,陳建宇除了延續(xù)無人駕駛的工作外,也開拓了包括機(jī)械臂、輪式、四足等多形態(tài)的機(jī)器人方向,并在 2022 年的春夏之交開始自己做人形,研究更通用的具身智能?!盁o人車的技術(shù)和產(chǎn)業(yè)格局已初步成型,所以想轉(zhuǎn)新的大方向?!睂?duì)陳建宇而言,在新領(lǐng)域做開創(chuàng)性工作吸引力太大,“我本科做過雙足,一直關(guān)注人形的動(dòng)態(tài),當(dāng)有了自己的課題組和研究資源,并花時(shí)間琢磨技術(shù)架構(gòu)后,發(fā)現(xiàn)是可行的?!痹趯?shí)驗(yàn)室研究雙足人形的陳建宇逐漸發(fā)現(xiàn)其具有能改變世界的產(chǎn)業(yè)價(jià)值,可改變世界不能僅靠在實(shí)驗(yàn)室做 demo ,得借助更多商業(yè)化、產(chǎn)品化手段,而公司能吸納社會(huì)資本,招聘、股份激勵(lì)等更寬松。隨著小米、特斯拉等產(chǎn)業(yè)界代表的入局與 ChatGPT 的誕生,陳建宇意識(shí)到是時(shí)候了——2023 年 8 月,星動(dòng)紀(jì)元?jiǎng)?chuàng)立。
涉獵過包括無人車等多種形態(tài)的機(jī)器人后,陳建宇認(rèn)為,不同形態(tài)之間沒有本質(zhì)上的區(qū)別,很多原理是相通的,但若想實(shí)現(xiàn)智能,必須一開始就做最終極的人形(雙手和雙腿),“可以在過程中輻射其他形態(tài),但不能從開始就降低天花板。”在硬件方面,業(yè)界對(duì)于如何制造高爆發(fā)力雙腿和靈巧手尚無統(tǒng)一的解決方案。陳建宇團(tuán)隊(duì)就先從腿部開始,從前兩代的 MPC 逐步升級(jí)到 2023 年以強(qiáng)化學(xué)習(xí)為核心的步態(tài)行走網(wǎng)絡(luò),讓機(jī)器人能在雪地、長(zhǎng)城、戈壁灘等復(fù)雜路面上穩(wěn)定快速行走。至于手部設(shè)計(jì),陳建宇選擇了一條與眾不同的路徑:縮小腿部關(guān)節(jié)應(yīng)用在手部上,以實(shí)現(xiàn)更精細(xì)的操作和更高的靈活性。因此,他們的靈巧手為全驅(qū)動(dòng),擁有超過十個(gè)主動(dòng)自由度,而特斯拉的手部?jī)H有六個(gè)。
05、結(jié)語(yǔ)
回到 2017 年伯克利的深度強(qiáng)化學(xué)習(xí)課堂上,對(duì)于幾位中國(guó) 90 后而言,熱點(diǎn)方向緊密發(fā)生在身邊,可第一時(shí)間和作者們面對(duì)面交流切磋甚至參與其中,無疑是興奮與享受的。
彼時(shí)具身智能(Embodied Intelligence)還不是熱詞,機(jī)器人學(xué)習(xí)(Robot Learning)隨著深度學(xué)習(xí)范式的興起開啟了新的一頁(yè),在感知有所突破后,AI 和 Robotics 開始雙向奔赴。他們隱隱感覺到:下個(gè)十年的機(jī)會(huì)來了。段巖、陳曦、張?zhí)旌?、吳翼、高?yáng)、許華哲、陳建宇、湯特、羅劍嵐......從深度強(qiáng)化學(xué)習(xí)出發(fā)的伯克利一派,以先驅(qū)者之勢(shì)火速突破上層感知,讓機(jī)器人真正開始具備類人的學(xué)習(xí)能力。
更重要的是,在得益于 AI 之強(qiáng)勢(shì)時(shí),他們也清楚地意識(shí)到硬件和底層控制的價(jià)值,無論是計(jì)算機(jī)系還是機(jī)械工程系,都在往交叉點(diǎn)靠攏,追求全棧式覆蓋。最合適沖浪的波浪周期為 8-16 秒,對(duì)于伯克利派系而言,深度強(qiáng)化學(xué)習(xí)的浪從十年前開始,站在浪尖上的他們,此刻正踏著具身智能的波峰,再望向下一朵浪。
關(guān)于具身智能領(lǐng)域的更多精彩群像故事,歡迎添加作者微信 anna042023 交流。