作者 | 陳鷺伊,編輯 | 岑? ?峰
“強(qiáng)化學(xué)習(xí)讓大模型具有了思考能力,大模型為強(qiáng)化學(xué)習(xí)提供了更開(kāi)闊的思路。”?
在當(dāng)今大模型推動(dòng)的新一波人工智能的快速發(fā)展浪潮中,大模型和強(qiáng)化學(xué)習(xí)技術(shù)的結(jié)合成為研究和產(chǎn)業(yè)界的焦點(diǎn)。尤其最近OpenAI最新模型o1的發(fā)布,強(qiáng)化學(xué)習(xí)成為o1的靈魂,更是印證了強(qiáng)化學(xué)習(xí)的潛力。
大模型憑借其強(qiáng)大的數(shù)據(jù)處理能力,為強(qiáng)化學(xué)習(xí)提供了豐富的知識(shí)。這種結(jié)合不僅極大地?cái)U(kuò)展了人工智能在處理復(fù)雜問(wèn)題上的能力,也為強(qiáng)化學(xué)習(xí)帶來(lái)了更深層次的洞察力和更高效的決策過(guò)程。
強(qiáng)化學(xué)習(xí),作為優(yōu)化決策的一種方法,能夠通過(guò)與環(huán)境的交互學(xué)習(xí)最佳行為策略。而大模型則為這一過(guò)程提供了必要的背景知識(shí)和先驗(yàn)信息,使得強(qiáng)化學(xué)習(xí)算法能夠更快地收斂,更有效地處理未見(jiàn)過(guò)的新情況。然而,新技術(shù)的發(fā)展同樣帶來(lái)了挑戰(zhàn)。例如,如何利用大模型的知識(shí)拓展強(qiáng)化學(xué)習(xí)的泛化能力,提升強(qiáng)化學(xué)習(xí)在復(fù)雜決策場(chǎng)景中的策略性能,以及如何保證模型的可解釋性。近期,南洋理工大學(xué)安波教授團(tuán)隊(duì)的一篇論文《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》上線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。
該論文提出了一個(gè)名為T(mén)WOSOME的框架,旨在通過(guò)強(qiáng)化學(xué)習(xí)(RL)將大型語(yǔ)言模型(LLMs)與具身環(huán)境(embodied environments)對(duì)齊,以解決決策任務(wù)。
圍繞該論文所討論的強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、具身環(huán)境相結(jié)合的研究,雷峰網(wǎng)舉辦的「大模型時(shí)代的強(qiáng)化學(xué)習(xí)」線上研討會(huì),匯集了南洋理工大學(xué)安波、南京大學(xué)俞揚(yáng)、華為諾亞方舟實(shí)驗(yàn)室/天津大學(xué)郝建業(yè)、清華大學(xué)許華哲等行業(yè)專(zhuān)家。他們的見(jiàn)解覆蓋了從基礎(chǔ)理論研究到產(chǎn)業(yè)應(yīng)用實(shí)踐,為我們提供了一個(gè)全面而深入的視角,以洞察這一領(lǐng)域的最新發(fā)展和未來(lái)趨勢(shì)。
在本次研討會(huì)中,安波教授深入分析了大模型對(duì)于強(qiáng)化學(xué)習(xí)的意義,并對(duì)這一技術(shù)的未來(lái)發(fā)展進(jìn)行了展望;分享了他對(duì)大模型時(shí)代強(qiáng)化學(xué)習(xí)的看法,包括大模型給強(qiáng)化學(xué)習(xí)帶來(lái)的機(jī)遇和挑戰(zhàn),并主持了整個(gè)討論。
俞揚(yáng)教授基于給定的問(wèn)題進(jìn)行了深入拓展,特別強(qiáng)調(diào)了世界模型的重要性,他認(rèn)為構(gòu)建準(zhǔn)確的世界模型是實(shí)現(xiàn)真正智能決策的關(guān)鍵。他強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的重要性和挑戰(zhàn),并通過(guò)在工業(yè)界應(yīng)用強(qiáng)化學(xué)習(xí)的實(shí)際案例,討論了如何利用強(qiáng)化學(xué)習(xí)優(yōu)化復(fù)雜的決策過(guò)程。
郝建業(yè)教授指出了大模型中強(qiáng)化學(xué)習(xí)的作用,包括安全對(duì)齊和人類(lèi)價(jià)值觀對(duì)齊,并分享了強(qiáng)化學(xué)習(xí)技術(shù)在推薦系統(tǒng)、游戲AI、工業(yè)軟件優(yōu)化以及自動(dòng)駕駛等領(lǐng)域的應(yīng)用,以及大模型技術(shù)如何幫助強(qiáng)化學(xué)習(xí)解決一些傳統(tǒng)優(yōu)化問(wèn)題等。
許華哲教授,以他在具身智能領(lǐng)域的前沿研究為基礎(chǔ),展示了強(qiáng)化學(xué)習(xí)如何使機(jī)器人更加智能化,分享了他在具身智能領(lǐng)域的研究,特別是強(qiáng)化學(xué)習(xí)在機(jī)器人步態(tài)優(yōu)化和Minecraft等環(huán)境中的創(chuàng)新應(yīng)用。
以下為本次圓桌對(duì)話全文,限于篇幅,雷峰網(wǎng)-AI科技評(píng)論進(jìn)行了不改原意的編輯:
安波:AI 科技評(píng)論以及雷峰網(wǎng)線上的朋友們,大家晚上好,歡迎參加今天晚上我們這個(gè)網(wǎng)絡(luò)研討會(huì)。今天我們這個(gè)題目叫大模型時(shí)代的這個(gè)強(qiáng)化學(xué)習(xí),我叫安波,來(lái)自南洋理工大學(xué),我將主持今天晚上的研討會(huì)。關(guān)于這個(gè)題目我稍微說(shuō)兩句。強(qiáng)化學(xué)習(xí)這個(gè)方向最近十多年尤其在Alphago 之后是一個(gè)比較火的方向,差不多我們可以看到 Deepmind 的整個(gè)公司,估計(jì)早期 100% 都在干這個(gè)東西,這些年來(lái)每年都有很多非常轟動(dòng)的成果。無(wú)論是Alphago,還有 AlphaFold ,最近的應(yīng)用于大模型的RLHF,都是跟強(qiáng)化學(xué)習(xí)相關(guān)的。當(dāng)然我們也不可避免地存在很多挑戰(zhàn),尤其是之前有人一直在抱怨,好像(強(qiáng)化學(xué)習(xí))很多都是以打游戲這樣的場(chǎng)景為主,真正的在現(xiàn)實(shí)工業(yè)的落地場(chǎng)景還不夠多。我們今天晚上另一個(gè)話題是大模型,大家都知道這是這兩年最火的方向。最近也出現(xiàn)了很多工作來(lái)結(jié)合這兩個(gè)方向,這也是我們今晚討論的話題。今天晚上我們很榮幸地邀請(qǐng)到了三位嘉賓。南大的俞揚(yáng)老師,是強(qiáng)化學(xué)習(xí)方面有很多有影響力的成果,他同時(shí)也在做強(qiáng)化學(xué)習(xí)落地的一些研究和應(yīng)用。還有郝建業(yè)老師,來(lái)自天津大學(xué),同時(shí)他又是華為諾亞決策智能實(shí)驗(yàn)室的主任。華為諾亞這幾年做了很多強(qiáng)化的一些研究,都是在郝老師的領(lǐng)導(dǎo)下進(jìn)行。最后是清華大學(xué)許華哲老師,許老師更多的做具身智能的研究。這三位老師既在一線做前沿研究,同時(shí)也深入技術(shù)應(yīng)用與落地。就接下來(lái)我會(huì)邀請(qǐng)三位老師分別做一個(gè)簡(jiǎn)短的自我介紹。然后接下來(lái)我們會(huì)問(wèn)各位老師我們提前準(zhǔn)備好的幾個(gè)問(wèn)題,然后最后我們會(huì)進(jìn)入與觀眾的互動(dòng)環(huán)節(jié),現(xiàn)在請(qǐng)俞老師、郝老師和許老師分別做個(gè)自我介紹。
俞揚(yáng):大家好,感謝安老師的邀請(qǐng)。我是來(lái)自南京大學(xué)的俞揚(yáng),大概在13、14年前我博士畢業(yè)后,就一直在研究強(qiáng)化學(xué)習(xí)。近幾年主要在做離線強(qiáng)化學(xué)習(xí),就是強(qiáng)化學(xué)習(xí)怎么樣能夠更好用一些。
郝建業(yè):大家好,感謝安老師邀請(qǐng),我的主要研究方向是強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)。過(guò)去幾年主要圍繞強(qiáng)化學(xué)習(xí)以及學(xué)習(xí)優(yōu)化技術(shù)如何在產(chǎn)業(yè)界落地,做了不少的嘗試。過(guò)去兩年也比較關(guān)注大模型,包括強(qiáng)化學(xué)習(xí)如何助力大模型和基于大模型的具身智能方向。
許華哲:大家好,我是許華哲,目前是清華大學(xué)交叉信息研究院的助理教授,今天也是特別榮幸受到安老師的邀請(qǐng)。我的研究方向主要是具身智能,這是一個(gè)很大的概念,會(huì)使用各種學(xué)習(xí)的研究工具,而強(qiáng)化學(xué)習(xí)是里面我覺(jué)得是未來(lái)最廣闊,或者是未來(lái)最有前途的方法之一。我在強(qiáng)化學(xué)習(xí)方面的工作主要分兩個(gè)部分,一個(gè)部分就是仍然持續(xù)地提升強(qiáng)化學(xué)習(xí)的sample efficiency樣本效率。我們希望它做得足夠高效,讓它可以在真實(shí)世界去實(shí)施。第二件事,就是說(shuō)在這個(gè)基礎(chǔ)上,我希望讓機(jī)器人可以在不僅在仿真,而且還可以在現(xiàn)實(shí)世界去做強(qiáng)化學(xué)習(xí),從而讓強(qiáng)化學(xué)習(xí)真正落地到這個(gè)機(jī)器人這個(gè)領(lǐng)域,或者具身智能這個(gè)領(lǐng)域。
01、強(qiáng)化學(xué)習(xí):成功應(yīng)用與關(guān)鍵作用
安波:我首先想請(qǐng)教各位老師一個(gè)問(wèn)題,各位老師都在一線從事強(qiáng)化學(xué)習(xí)的研究以及落地,有哪些強(qiáng)化學(xué)習(xí)的成功案例讓您感到激動(dòng)?并請(qǐng)談?wù)勊鼈冊(cè)诟髯灶I(lǐng)域的推動(dòng)作用。從俞揚(yáng)老師開(kāi)始。
俞揚(yáng):我覺(jué)得關(guān)于強(qiáng)化學(xué)習(xí)的成功應(yīng)用,首先需要明確我們?nèi)绾味x"成功"。自AlphaGo戰(zhàn)勝人類(lèi)以來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域受到了廣泛關(guān)注。實(shí)際上,強(qiáng)化學(xué)習(xí)的應(yīng)用非常廣泛,包括工業(yè)界的一些案例。比如說(shuō)我們和這個(gè)美團(tuán)合作的項(xiàng)目,現(xiàn)在應(yīng)該已經(jīng)是在全國(guó)能夠鋪開(kāi)。那么我們?cè)诿缊F(tuán)每下一個(gè)訂單,每點(diǎn)一次外賣(mài),都由我們強(qiáng)化學(xué)習(xí)的模型在做出決策。這對(duì)我們來(lái)說(shuō)是一個(gè)重要的應(yīng)用案例,它展示了強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用。但是在社會(huì)層面上,這種應(yīng)用可能沒(méi)有引起太大的宣傳效應(yīng),或者說(shuō)我們說(shuō)給強(qiáng)化學(xué)習(xí)的研究生們創(chuàng)造飯碗的這個(gè)效應(yīng)可能沒(méi)有那么強(qiáng)。
如果從能夠產(chǎn)生很多工作崗位的這個(gè)角度來(lái)說(shuō),我覺(jué)得這個(gè)可能最典型的成功案例就是用在大模型的RLHF,我們也做了一些工作??赡苡型瑢W(xué)了解, RLHF 還有其他路線的競(jìng)爭(zhēng),包括這個(gè)監(jiān)督學(xué)習(xí)的路線的競(jìng)爭(zhēng)。但是我們的研究表明,監(jiān)督學(xué)習(xí)的方法得到的結(jié)果比強(qiáng)化學(xué)習(xí)的要差一些。包括我們自己的一些畢業(yè)生,也有去做大模型的 RLHF 的這個(gè)崗位。我觀察到,強(qiáng)化學(xué)習(xí)現(xiàn)在變得更加的成熟,逐漸地在越來(lái)越多的場(chǎng)景里面能夠更多的能夠用起來(lái),至于它用起來(lái)產(chǎn)生的社會(huì)效益是否轟動(dòng)可能還不太好去評(píng)價(jià)。
郝建業(yè):剛剛俞老師提到強(qiáng)化學(xué)習(xí)在推薦領(lǐng)域的應(yīng)用,我覺(jué)得可能是深度強(qiáng)化學(xué)習(xí)出現(xiàn)之后最火的應(yīng)用場(chǎng)景之一。另外一個(gè)就是游戲, Game AI ,很多游戲公司包括網(wǎng)易、騰訊其實(shí)有很多應(yīng)用,包括現(xiàn)在游戲背后的NPC,很多都是強(qiáng)化學(xué)習(xí)訓(xùn)練的結(jié)果。此外我想舉兩個(gè)可能不太常見(jiàn)的例子,一是工業(yè)界的軟件優(yōu)化,比如說(shuō) EDA 的芯片設(shè)計(jì)這塊,它本身有很多非常復(fù)雜的多目標(biāo)時(shí)序優(yōu)化問(wèn)題,過(guò)去幾年,我們嘗試把強(qiáng)化學(xué)習(xí)應(yīng)用在這個(gè)領(lǐng)域,當(dāng)然不僅僅是強(qiáng)化學(xué)習(xí),還包含一些其他的優(yōu)化技術(shù)的組合,但強(qiáng)化學(xué)習(xí)在里面發(fā)揮一個(gè)比較關(guān)鍵的作用,實(shí)現(xiàn)比較復(fù)雜約束和搜索空間非常大的情況下的優(yōu)化問(wèn)題。
另一個(gè)例子是自動(dòng)駕駛。比如在自動(dòng)駕駛的關(guān)鍵博弈場(chǎng)景中嘗試應(yīng)用強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)類(lèi)人的博弈策略,提升自動(dòng)駕駛車(chē)輛在復(fù)雜路況下的通行效率。大模型方面剛剛俞老師也提到了,我們過(guò)往經(jīng)驗(yàn)發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)不僅僅像最開(kāi)始OpenAI提出,用 RLHF 來(lái)做安全的對(duì)齊,它還可以在大模型的全鏈或者全棧的基礎(chǔ)能力提升中發(fā)揮關(guān)鍵的作用。
從理論上看,PPO、DPO等算法的優(yōu)化的這個(gè)范式和標(biāo)準(zhǔn)的SFT 是不一樣的,可以發(fā)揮一些 SFT 無(wú)法實(shí)現(xiàn)的能力,可以幫助我們?cè)谶@個(gè)預(yù)訓(xùn)練到 SFT之后的后訓(xùn)練階段發(fā)揮更加關(guān)鍵的作用。此外,具身智能也是一個(gè)值得關(guān)注的領(lǐng)域。目前,這一領(lǐng)域正處于一個(gè)百花齊放的發(fā)展階段,但我覺(jué)得,未來(lái)無(wú)論是在線的還是離線的強(qiáng)化學(xué)習(xí),在整個(gè)具身智能能力構(gòu)建的全階段,無(wú)論從數(shù)據(jù)的獲取到預(yù)訓(xùn)練,再到跟環(huán)境交互的 RLHF,都可以發(fā)揮非常關(guān)鍵的作用。總的來(lái)說(shuō),強(qiáng)化學(xué)習(xí)作為一種通用優(yōu)化工具,是一套非常有效的方法,可以幫助我們?cè)诟鞣N復(fù)雜決策場(chǎng)景中提升策略性能。
安波:謝謝郝老師,有請(qǐng)?jiān)S老師分享一下。
許華哲:我的觀察主要在我做得比較多的機(jī)器人領(lǐng)域,特別是強(qiáng)化學(xué)習(xí)用在機(jī)器人里面的 Local Motion,就是步腿式機(jī)器人或叫足式機(jī)器人的步態(tài)優(yōu)化上面。自2019年ETH的機(jī)械狗使用強(qiáng)化學(xué)習(xí)方法成功爬山和越過(guò)障礙物以來(lái),這一技術(shù)已經(jīng)衍生出許多創(chuàng)新,包括CMU和清華大學(xué)在機(jī)械狗跑酷方面的研究。后面催生出來(lái)的雙足機(jī)器人也通過(guò)強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行步態(tài)控制。我覺(jué)得這是強(qiáng)化學(xué)習(xí)在具身智能和機(jī)器人領(lǐng)域的一個(gè)巨大的應(yīng)用。這件事的重要性在于,強(qiáng)化學(xué)習(xí)基本上從研究上確定了SIM to Real 這件事,在步態(tài)控制這件這個(gè)方向上面是可以落地的,是可以真正用在現(xiàn)實(shí)中的商用的機(jī)器人上面。
從商業(yè)的角度,這樣一個(gè)技術(shù)創(chuàng)造了大量的工作崗位,現(xiàn)在那么多的機(jī)器人創(chuàng)業(yè)公司,幾乎每一個(gè)公司都有一個(gè)強(qiáng)化學(xué)習(xí)小組專(zhuān)門(mén)研究控制機(jī)器人的下肢。此外,我還注意到了lyft用強(qiáng)化學(xué)習(xí)去優(yōu)化出租車(chē)和網(wǎng)約車(chē)調(diào)度的情況,這可能也適用于國(guó)內(nèi)的滴滴或者美團(tuán)。剛才郝老師說(shuō),強(qiáng)化學(xué)習(xí)作為一個(gè)非常強(qiáng)的優(yōu)化器,甚至有的時(shí)候叫Superhuman,超過(guò)人類(lèi)的優(yōu)化器,能夠在我們認(rèn)為已經(jīng)達(dá)到極限的地方進(jìn)一步優(yōu)化,為公司節(jié)省大量成本。盡管這種應(yīng)用還沒(méi)有廣泛鋪開(kāi),但已經(jīng)展示了強(qiáng)化學(xué)習(xí)在未來(lái)發(fā)展中的潛力。
02、大模型與強(qiáng)化學(xué)習(xí)的結(jié)合:技術(shù)突破與應(yīng)用前景
安波:謝謝各位老師的精彩分享。從早期的推薦系統(tǒng)到最近的大模型結(jié)合強(qiáng)化學(xué)習(xí)(RLHF),可能是這幾年就說(shuō)強(qiáng)化學(xué)習(xí)跟大模型結(jié)合比較成功的一個(gè)地方。俞老師和我之前與滴滴有過(guò)主要基于強(qiáng)化學(xué)習(xí)的合作,這些應(yīng)用今天仍然非常有價(jià)值。郝老師提到了EDA,這可能與華為的一些項(xiàng)目落地有關(guān)。具身智能也是一個(gè)重要領(lǐng)域。接下來(lái)我們進(jìn)入今晚的核心議題:大模型與強(qiáng)化學(xué)習(xí)的融合。大模型基于大量的數(shù)據(jù)進(jìn)行訓(xùn)練,具備了通才的能力,許多人開(kāi)始利用大模型作為系統(tǒng)的"大腦",完成以前無(wú)法實(shí)現(xiàn)的任務(wù)。在大模型與強(qiáng)化學(xué)習(xí)的結(jié)合方面,也有很多工作,例如解決強(qiáng)化學(xué)習(xí)中的一些問(wèn)題。我的第二個(gè)問(wèn)題是,請(qǐng)各位老師分享一下,在大模型加持下,強(qiáng)化學(xué)習(xí)解決了哪些問(wèn)題,以及近年來(lái)這個(gè)領(lǐng)域有哪些重大進(jìn)展,尤其是在過(guò)去一年多里,大模型的加入給強(qiáng)化學(xué)習(xí)帶來(lái)了哪些顯著成果。我們稍微改變一下順序,先請(qǐng)?jiān)S老師開(kāi)始分享。
許華哲:雖然我不是做大模型的,對(duì)大模型相對(duì)來(lái)說(shuō)了解不是那么深入,但我也聽(tīng)說(shuō)了很多強(qiáng)化學(xué)習(xí)與大模型結(jié)合帶來(lái)的好處,比如說(shuō)大家都知道最典型的 RLHF (強(qiáng)化學(xué)習(xí)中的人類(lèi)偏好反饋),通過(guò)讓人類(lèi)評(píng)估的偏好指標(biāo)來(lái)指導(dǎo)大模型的輸出,用強(qiáng)化學(xué)習(xí)使得它輸出的東西不僅正確、通暢的,而且還是人類(lèi)喜歡和期待看到的。
我們看到大模型有兩個(gè)特點(diǎn):第一,它總是(基于自己的知識(shí))很客觀積極地回答問(wèn)題;第二,它傾向于分點(diǎn)闡述,如1、2、3、4。這在一定程度上反映了RL的作用,即分點(diǎn)闡述的重要性。大家平時(shí)聽(tīng)別人匯報(bào)工作還是給別人匯報(bào)工作,都可以感受到分點(diǎn)是非常重要的,很顯然標(biāo)注員也是這樣的偏好,RL成功地找到了優(yōu)化方式,使大模型能夠像人類(lèi)一樣給出答案。此外,我認(rèn)為大模型跟強(qiáng)化學(xué)習(xí)還有更深層次的結(jié)合潛力。以我們自己的一個(gè)項(xiàng)目為例,RLHF不僅可以作為一個(gè)通用的優(yōu)化器,還可以 learning from others,還可以通過(guò)學(xué)習(xí)其他大模型來(lái)提升自身能力。這在某種程度上是一種知識(shí)蒸餾的過(guò)程,除了通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行蒸餾外,還可以通過(guò)RL來(lái)蒸餾其他模型,從而補(bǔ)全和增強(qiáng)大模型的能力。
安波:我再稍微深入問(wèn)一下,許老師在 Minecraft (游戲:我的世界)上做了很多工作,能否分享一下大模型在解決Minecraft中的復(fù)雜問(wèn)題方面帶來(lái)的變化?
許華哲:大模型展現(xiàn)了優(yōu)秀的規(guī)劃能力,例如,在Minecraft中,當(dāng)你問(wèn)它如何獲取一個(gè)鉆石時(shí),它能夠提供詳細(xì)的步驟。它通過(guò)閱讀網(wǎng)上的攻略,觀看網(wǎng)上的視頻和學(xué)習(xí)網(wǎng)上各種文字論述,它會(huì)告訴你你要先有一個(gè)鋤頭,然后挖掘一種特定的黑色礦石,再把這個(gè)礦石通過(guò)什么方式升級(jí)成鉆石等等。這里最常用的一種方法是,利用大模型做頂層的 Planner (規(guī)劃器),然后底層的執(zhí)行可能由強(qiáng)化學(xué)習(xí)或者其他的Controller(控制器)完成。另一種方式是大模型以VLA(視覺(jué)語(yǔ)言代理),直接輸出底層動(dòng)作來(lái)完成任務(wù)。這方面還在一個(gè)研究的初始階段,并沒(méi)有一個(gè)特別成熟的方案。介于這兩者之間的方法是,大模型輸出中間表征或中間狀態(tài),這種中間狀態(tài)不是簡(jiǎn)單的指令,而是具體的指導(dǎo),如在地圖上標(biāo)記一個(gè)框,指導(dǎo)玩家前往并挖掘。這種中間表征能有效解決 Long Horizon 長(zhǎng)距離的任務(wù),這是傳統(tǒng)強(qiáng)化學(xué)習(xí)難以處理的問(wèn)題。
安波:謝謝許老師,郝老師請(qǐng)分享
郝建業(yè):談到大模型對(duì)強(qiáng)化學(xué)習(xí)的幫助,我們可能先從以前做強(qiáng)化學(xué)習(xí)包括深度強(qiáng)化目前面臨的問(wèn)題來(lái)談起。傳統(tǒng)強(qiáng)化學(xué)習(xí)主要在特定環(huán)境下使用,挑戰(zhàn)在于如何快速地以Online 的方式學(xué)習(xí)到適應(yīng)當(dāng)前任務(wù)的策略。這通常需要事先對(duì)問(wèn)題進(jìn)行一個(gè)很好的任務(wù)定義,包括MDP(馬爾可夫決策過(guò)程)的構(gòu)建,包括狀態(tài)和獎(jiǎng)勵(lì)函數(shù)怎么定義。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)對(duì)于訓(xùn)練結(jié)果至關(guān)重要,需要大量的人工的介入,這是以前強(qiáng)化學(xué)習(xí)的一大挑戰(zhàn)。大模型的出現(xiàn)為這些問(wèn)題提供了解決方案。
首先,大模型可以自動(dòng)化評(píng)估獎(jiǎng)勵(lì)函數(shù),這是目前一些研究工作的重點(diǎn)。包括在具身領(lǐng)域,例如Eureka項(xiàng)目,利用大模型來(lái)自動(dòng)化地提供一個(gè)比較好的獎(jiǎng)勵(lì)函數(shù),使強(qiáng)化算法在任意的環(huán)境下更加高效和自動(dòng)化地和環(huán)境交互,學(xué)習(xí)到好的策略。這是大模型在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面提供的新手段。其次在表征方面,以前需要精細(xì)設(shè)計(jì)以提升策略的泛化性,包括去學(xué)習(xí)到一個(gè)比較好的表征來(lái)去提升策略的泛化性。基于transformer的大模型架構(gòu),給我們提供了一個(gè)新的思路,我們可以借鑒語(yǔ)言大模型的思路,如果有大量不同決策任務(wù)的數(shù)據(jù),可以訓(xùn)練出具有強(qiáng)泛化性的決策函數(shù)(policy/task extended value function)。這對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō),是一個(gè)新的思路。
如果我們有海量的不同決策場(chǎng)景的高質(zhì)量數(shù)據(jù),那我們是否可以類(lèi)似于大模型一樣預(yù)訓(xùn)練一個(gè)從SFT,到RLHF、RLEF(RL From Environment Feedback)的全鏈條的、面向決策領(lǐng)的通用決策大模型?大模型對(duì)于強(qiáng)化學(xué)習(xí)的一個(gè)啟示是可能會(huì)顛覆我們現(xiàn)在對(duì)決策領(lǐng)域的認(rèn)知,可以借鑒語(yǔ)言大模型的思路去實(shí)現(xiàn)決策領(lǐng)域的通用大模型,這可能是未來(lái)探索的重要方向。最后一點(diǎn)剛剛其實(shí)俞老師也提到,大模型本身具備對(duì)世界的良好認(rèn)知,所以它可以幫助我們做一些比較復(fù)雜的上層任務(wù)的拆解,然后底層配合基于強(qiáng)化學(xué)習(xí)的控制,去實(shí)現(xiàn)一些更加復(fù)雜的物理開(kāi)放環(huán)境下的決策能力。
安波:請(qǐng)俞老師分享。
俞揚(yáng):我們討論的問(wèn)題是語(yǔ)言模型對(duì)強(qiáng)化學(xué)習(xí)的幫助。首先我想闡明的一點(diǎn)是,強(qiáng)化學(xué)習(xí)它是一個(gè)任務(wù),它不是一個(gè)具體的技術(shù)方法。我們要解決的是一類(lèi)多步?jīng)Q策的問(wèn)題,這一類(lèi)問(wèn)題我們把它做強(qiáng)化學(xué)習(xí)的問(wèn)題,也就是說(shuō)我們首先面對(duì)的是一個(gè)決策問(wèn)題,可能采用多種不同的決策的技術(shù),如運(yùn)籌規(guī)劃。這種多步的和環(huán)境交互的這種決策可以歸到強(qiáng)化學(xué)習(xí)這一類(lèi)任務(wù),它不是通過(guò)數(shù)學(xué)定義的一個(gè)式子,而是要和環(huán)境進(jìn)行交互從樣本中學(xué)習(xí),它并不是說(shuō)某一種很具體的算法所代表的技術(shù)。強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)在于,就是我們今天看到的所有強(qiáng)化學(xué)習(xí)成功的案例,都是非常特別的應(yīng)用案例,非常專(zhuān)注解決一個(gè)很具體的一個(gè)問(wèn)題,如下圍棋。一旦下圍棋的模型訓(xùn)練出來(lái)后,這個(gè)模型本身是不能去解決其他問(wèn)題,這顯示了強(qiáng)化學(xué)習(xí)的通用性不足。我們希望強(qiáng)化學(xué)習(xí)能解決多種問(wèn)題尤其是多步?jīng)Q策的問(wèn)題,主要面臨兩個(gè)方面的挑戰(zhàn),首先,技術(shù)門(mén)檻較高,對(duì)強(qiáng)化學(xué)習(xí)概念和算法的理解要求高,可能比其他領(lǐng)域更高。其次,在應(yīng)用水平上也有更高要求。這些要求之所以高,是因?yàn)閺?qiáng)化學(xué)習(xí)處理的是決策問(wèn)題。如果觀察其他決策任務(wù),如運(yùn)籌規(guī)劃,會(huì)發(fā)現(xiàn)應(yīng)用常局限于特定行業(yè)。
例如,我們?cè)O(shè)計(jì)了很多運(yùn)籌規(guī)劃的算法,但從企業(yè)層面,這種應(yīng)用經(jīng)常往往固定在某些領(lǐng)域,如特定行業(yè)的排班排產(chǎn)。這在一定程度上是由決策本身的性質(zhì)造成的,決策結(jié)果的要求通常非常高,與預(yù)測(cè)類(lèi)問(wèn)題不同,大模型這個(gè)語(yǔ)言輸出錯(cuò)了還可以再改一下,但是決策類(lèi)的問(wèn)題,質(zhì)量的輸出的要求會(huì)很高,因?yàn)闆Q策錯(cuò)誤的代價(jià)可能很大。因此在實(shí)際應(yīng)用中,需要結(jié)合領(lǐng)域知識(shí)和專(zhuān)業(yè)背景,達(dá)到一定水平才能有效應(yīng)用。我們發(fā)現(xiàn),要滿(mǎn)足決策應(yīng)用,強(qiáng)化學(xué)習(xí)的通用性通常不足。大語(yǔ)言模型火了一年多、快要接近兩年,它帶來(lái)的幫助主要體現(xiàn)在其學(xué)習(xí)了大量數(shù)據(jù),展現(xiàn)出較好的通用性。這種通用性有潛力彌補(bǔ)強(qiáng)化學(xué)習(xí)在通用性方面的不足。
這里的“潛質(zhì)”意味著大語(yǔ)言模型有可能幫助強(qiáng)化學(xué)習(xí)擴(kuò)展其通用性,盡管面臨的挑戰(zhàn)依然很大。首先我們看到語(yǔ)言模型本身正朝著智能體(agent)方向發(fā)展。在智能體領(lǐng)域,大多數(shù)任務(wù)都是決策類(lèi)的,因此也會(huì)面臨決策任務(wù)的挑戰(zhàn)。決策任務(wù)與語(yǔ)言生成任務(wù)是兩個(gè)完全不同的任務(wù),只不過(guò)我們是希望語(yǔ)言模型能夠再往前走一步,去執(zhí)行決策任務(wù)。
目前,智能體的應(yīng)用還未達(dá)到理想的效果,因?yàn)樗婕暗經(jīng)Q策任務(wù)。一旦涉及到?jīng)Q策任務(wù)以后,由于它天然的這種對(duì)于決策準(zhǔn)確度的這個(gè)要求,對(duì)決策準(zhǔn)確度的要求自然提高。語(yǔ)言模型之所以受歡迎,一方面是因?yàn)樗趹?yīng)用上的要求較少,主要作為人的輸出輔助,將語(yǔ)言輸出給人,再由人進(jìn)行加工。這種輔助性行為在人不懂的地方表現(xiàn)得非常好。但當(dāng)我們真正需要解決決策問(wèn)題時(shí),面臨的挑戰(zhàn)是人的專(zhuān)業(yè)性,通常需要專(zhuān)家來(lái)做出決策。智能體需要至少達(dá)到專(zhuān)家的水平,很多時(shí)候我們甚至要求它比專(zhuān)家做得更好,才能在實(shí)際中得到應(yīng)用。這種在任務(wù)性質(zhì)上存在的天然的差別,讓我對(duì)今天的語(yǔ)言大模型是不是真的能夠幫助強(qiáng)化學(xué)習(xí)拓展它的通用性持一定的懷疑態(tài)度。
例如,在Minecraft中表現(xiàn)出色的示例,我們?nèi)グl(fā)展一個(gè)技術(shù),希望它有一定的智能的能力,那么我們一定是希望能夠控制他的這個(gè)能力,我們要知道這個(gè)能力從哪來(lái),這個(gè)能力是怎么形成的?如果他不具有一個(gè)能力的話,我們?cè)趺茨軌蜃屗訌?qiáng)?如果他這個(gè)能力超出我們的這個(gè)希望他能做的這個(gè)范圍,以后我們?cè)趺慈タ刂扑?/p>
目前的語(yǔ)言模型似乎難以控制,換句話說(shuō)我們不清楚它究竟能解決什么問(wèn)題。以 Minecraft 為例,我們認(rèn)為它表現(xiàn)好可能是因?yàn)榫W(wǎng)絡(luò)上有相關(guān)攻略。能夠通過(guò)語(yǔ)言模型來(lái)引入知識(shí)。但如果面對(duì)沒(méi)有見(jiàn)過(guò)的問(wèn)題,沒(méi)有知識(shí)儲(chǔ)備的問(wèn)題,例如NP是否等于P,模型如何應(yīng)對(duì)?這個(gè)東西是沒(méi)有答案的,那么他怎么來(lái)做?我們?nèi)绻M哂凶鲞@做一個(gè)新的任務(wù)的知識(shí)的時(shí)候,我們?cè)撛趺唇M織一些語(yǔ)料給他?目前,這些問(wèn)題還沒(méi)有系統(tǒng)性的答案。這導(dǎo)致我們?cè)诮鉀Q問(wèn)題時(shí)缺乏一套方法論。現(xiàn)在的方法似乎是,如果語(yǔ)言模型表現(xiàn)好,問(wèn)題就能解決;如果模型表現(xiàn)不佳,我們就束手無(wú)策。我認(rèn)為這不是一種科學(xué)的解決問(wèn)題的方式。我認(rèn)為目前的方案尚未形成一個(gè)完整的體系。
進(jìn)一步討論涉及到所謂的智能核心是什么。一些人可能認(rèn)為智能以語(yǔ)言模型為核心,但從生物學(xué)角度來(lái)看,只有人類(lèi)具備完整的語(yǔ)言能力,但并非只有人類(lèi)擁有智能;或者一些失去語(yǔ)言能力的人仍然具有智能。大腦結(jié)構(gòu)中,語(yǔ)言所占的部分非常小。所以語(yǔ)言模型它是不是智能的核心呢?當(dāng)然目前還沒(méi)有結(jié)論。我們也在探索強(qiáng)化學(xué)習(xí),特別是決策相關(guān)的模型??赡懿粌H僅是強(qiáng)化學(xué)習(xí)策略模型,還包括世界模型。我們還在探索其他類(lèi)型的模型,在探索這些以其他模型為核心的時(shí)候,我們希望強(qiáng)化學(xué)習(xí)的語(yǔ)言模型能幫助提取其通用背景知識(shí)能力。目前,我們正嘗試從大型語(yǔ)言模型,甚至多模態(tài)模型中提取知識(shí),將其融入我們的策略模型或世界模型中,使我們的行動(dòng)模型真正具備更好的通用解決問(wèn)題的能力。
03、未來(lái)展望:潛在突破與當(dāng)前瓶頸
安波:謝謝俞老師,他進(jìn)一步提出了大語(yǔ)言模型是否通向通用人工智能道路等更開(kāi)放的問(wèn)題。從剛才各位老師的分析來(lái)看,大家都基本認(rèn)同大語(yǔ)言模型至少在某些任務(wù)上提升了強(qiáng)化學(xué)習(xí)的能力。例如,之前無(wú)法用強(qiáng)化學(xué)習(xí)或其他方法完成的任務(wù),現(xiàn)在借助大語(yǔ)言模型廣泛的基礎(chǔ)知識(shí),提高了效率,解決了之前無(wú)法完成的工作,等等。當(dāng)然,還有很多基礎(chǔ)問(wèn)題,比如大語(yǔ)言模型是否是實(shí)現(xiàn)智能的正確道路,以及強(qiáng)化學(xué)習(xí)的方向,一直存在爭(zhēng)議。有人質(zhì)疑語(yǔ)言模型的正確性,對(duì)強(qiáng)化學(xué)習(xí)也有不同看法。盡管存在爭(zhēng)議,但大模型的引入無(wú)疑解決了之前無(wú)法解決的問(wèn)題。我個(gè)人認(rèn)為,重要的是解決問(wèn)題,而不是爭(zhēng)論哪個(gè)是最終解決方案。我們應(yīng)該避免只有批評(píng)沒(méi)有建設(shè)性建議的情況。這也是Yann Lecun攻擊Gary Marcus的時(shí)候的觀點(diǎn)。
接下來(lái),我們按計(jì)劃討論第三個(gè)問(wèn)題。
假設(shè)大語(yǔ)言模型或基礎(chǔ)模型對(duì)未來(lái)的強(qiáng)化學(xué)習(xí)有幫助,您認(rèn)為未來(lái)一到兩年可能在哪些領(lǐng)域出現(xiàn)突破性進(jìn)展?目前的瓶頸在哪里,我們能做些什么實(shí)現(xiàn)巨大突破?關(guān)于大模型與強(qiáng)化學(xué)習(xí)結(jié)合前景的展望,哪些問(wèn)題值得大家研究?我們還是按照剛才的順序,請(qǐng)?jiān)S老師先開(kāi)始。
許華哲:關(guān)于未來(lái)的展望,我覺(jué)得剛剛郝老師聊到的一個(gè)方向還遠(yuǎn)遠(yuǎn)沒(méi)有做透,即如何利用大模型提供監(jiān)督信號(hào)或引導(dǎo)來(lái)輔助強(qiáng)化學(xué)習(xí)。我們?cè)趯?shí)踐中遇到許多問(wèn)題,比如大模型反饋速度慢,最快可能只有三赫茲,而強(qiáng)化學(xué)習(xí)通常需要密集的獎(jiǎng)勵(lì)信號(hào),可能我需要這個(gè)每一步都有一個(gè)Reward,在這種情況下,如何讓大模型提供足夠的反饋以支持強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)無(wú)需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練?因?yàn)閺?qiáng)化學(xué)習(xí)被這個(gè)批評(píng)的一個(gè)點(diǎn)就是人工設(shè)計(jì)的部分很多,我要抓一個(gè)小物塊,那我也需要把距離,然后把這種各種懲罰都寫(xiě)到獎(jiǎng)勵(lì)函數(shù)里,那這套東西能不能真的完全的高頻的靠大模型給出?這是一個(gè)非常有意思的課題。另外因?yàn)槲乙沧鲆恍└鷻C(jī)器人相關(guān)的工作,我認(rèn)為使用強(qiáng)化學(xué)習(xí)微調(diào)大模型,使其能夠執(zhí)行動(dòng)作,也是一個(gè)有趣的點(diǎn)。
目前,視覺(jué)語(yǔ)言代理(VLA)是一個(gè)熱門(mén)話題,它能夠?qū)D像和語(yǔ)言輸入并直接輸出動(dòng)作。VLA 展示出的泛化能力特別好,遇到新的具身,它可能只需要少量數(shù)據(jù)甚至零樣本就能遷移過(guò)去。但我們發(fā)現(xiàn)VLA在簡(jiǎn)單任務(wù)上表現(xiàn)良好,而在更復(fù)雜的任務(wù)上往往失敗。VLA蘊(yùn)含大量知識(shí),能否用強(qiáng)化學(xué)習(xí)像調(diào)整Lora一樣調(diào)整VLA,使其自動(dòng)輸出正確的動(dòng)作,將大模型作為強(qiáng)化學(xué)習(xí)的一個(gè)基礎(chǔ),這也是我認(rèn)為很有意思的一個(gè)方向。在決策方面,我們之前也嘗試用大模型與強(qiáng)化學(xué)習(xí)聯(lián)合解決一些有趣的問(wèn)題,如旅行商問(wèn)題或在三維空間拼圖,這些都是NP-hard問(wèn)題。單靠 RL 可能復(fù)雜度非常高,然后單靠大模型可能只能給出一個(gè)近似正確或者直覺(jué)的一個(gè)解,我們嘗試讓大模型提供直覺(jué),然后讓強(qiáng)化學(xué)習(xí)在直覺(jué)附近進(jìn)行優(yōu)化,我們已經(jīng)做了一些初步的嘗試。
安波:謝謝許老師,許老師剛剛更多的講的是其他的 RL 與大模型結(jié)合,用 RL 來(lái)Finetune大模型,或者大模型來(lái)幫助 RL 訓(xùn)練,比如我們之前看到幾個(gè)月前伯克利的Digit RL 之類(lèi)的工作,應(yīng)該是屬于這個(gè)思路。下一位是郝老師。
郝建業(yè):首要任務(wù)是利用強(qiáng)化學(xué)習(xí)(RL)提升大模型的技術(shù)能力。許老師剛才也提到,根據(jù)我們自己的經(jīng)驗(yàn)和業(yè)界公開(kāi)信息來(lái)看,在整個(gè)后訓(xùn)練階段,除了監(jiān)督式微調(diào)(SFT)之外,RLHF(強(qiáng)化學(xué)習(xí)中的人類(lèi)偏好反饋)可以發(fā)揮更關(guān)鍵的作用。特別是,RLHF可以與SFT深度融合,通過(guò)多輪迭代,在后訓(xùn)練階段全方位提升大模型的基礎(chǔ)能力。我們認(rèn)為,RL技術(shù)在這方面可以發(fā)揮越來(lái)越重要的作用,具有SFT不可替代的優(yōu)勢(shì)。
另外,大模型與RL的結(jié)合面向未來(lái)廣義智能體(Agent)的應(yīng)用場(chǎng)景,無(wú)論是虛擬的智能體,如App智能體、Web智能體,包括數(shù)據(jù)科學(xué)智能體(Data Science Agent),甚至未來(lái)可能出現(xiàn)的操作系統(tǒng)級(jí)智能體,幫助人類(lèi)操控APP,實(shí)現(xiàn)與虛擬世界的復(fù)雜交互需求。還有面向具身場(chǎng)景的,如何讓機(jī)器人在與物理世界的交互中持續(xù)自我演進(jìn),RL在這里可以發(fā)揮非常關(guān)鍵的作用。如何讓智能體具有持續(xù)自我演進(jìn)的能力,RL技術(shù)在未來(lái)廣義的智能體技術(shù)演進(jìn)中將發(fā)揮非常關(guān)鍵的作用。
安波:俞老師怎么看?
俞揚(yáng):關(guān)于強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型結(jié)合的未來(lái)和可能的突破,我們目前觀察到無(wú)論是語(yǔ)言模型還是多模態(tài)模型,它們通常缺少一個(gè)關(guān)鍵元素,即行動(dòng)(action)。我們的決策并不包含在輸入中,因?yàn)槲淖志褪俏淖郑瑘D像和文字經(jīng)過(guò)編碼后混合在一起。如果行動(dòng)的輸入被納入模型,我們更愿意稱(chēng)其為世界模型,即通過(guò)每一步的不同決策引導(dǎo)模型朝不同方向發(fā)展。其實(shí)世界模型是一個(gè)老話題,但今年Sora的出現(xiàn),因?yàn)樗苑Q(chēng)為世界模擬器(World Simulator),使得世界模型這個(gè)詞變得非常熱門(mén)。
然而,我們還沒(méi)有看到一個(gè)完整的技術(shù)路線來(lái)構(gòu)建世界模型,因?yàn)樗c現(xiàn)有的語(yǔ)言模型和多模態(tài)模型不同,當(dāng)我們的決策也要輸入到模型中時(shí),帶來(lái)了一個(gè)非常大的變量。決策是一個(gè)自由變量,可以任意變化,我們的模型需要能夠預(yù)知任意變化的決策會(huì)帶來(lái)什么樣的未來(lái),這是一個(gè)極具挑戰(zhàn)的任務(wù)。Yann LeCun也一直強(qiáng)調(diào)這一點(diǎn),他從ChatGPT剛出現(xiàn)時(shí)就開(kāi)始批評(píng)它無(wú)法做決策,因?yàn)楝F(xiàn)有的預(yù)測(cè)器結(jié)構(gòu)無(wú)法構(gòu)建事件模型,因?yàn)樗鼪](méi)有行動(dòng),沒(méi)有決策。如果我們想象我們能夠構(gòu)建一個(gè)模型,對(duì)任何給定的決策都能準(zhǔn)確預(yù)知未來(lái),那么我們所謂的全L5級(jí)全自動(dòng)自動(dòng)駕駛可能就能實(shí)現(xiàn),能夠執(zhí)行各種服務(wù)任務(wù)的服務(wù)機(jī)器人、人形機(jī)器人也可能成真。所以至少我個(gè)人覺(jué)得,世界模型是我們追求的東西,在技術(shù)體系中是一個(gè)非常缺失的環(huán)節(jié)。技術(shù)上,如何將決策加入模型,對(duì)各種不同決策,甚至是數(shù)據(jù)中未見(jiàn)過(guò)的決策,能夠給出準(zhǔn)確的響應(yīng),是一個(gè)值得我們深入研究的問(wèn)題。
在前沿研究中,專(zhuān)門(mén)解決行動(dòng)輸入問(wèn)題的研究并不多。目前的嘗試與大語(yǔ)言模型技術(shù)類(lèi)似,主要是針對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。DeepMind在嘗試構(gòu)建世界模型時(shí)發(fā)現(xiàn),僅憑高質(zhì)量的數(shù)據(jù)訓(xùn)練是不夠的,因?yàn)閿?shù)據(jù)只能展示一種決策,或者是相似的一些決策能夠帶來(lái)什么樣的結(jié)果。對(duì)于不同的決策,尤其是數(shù)據(jù)中未出現(xiàn)的決策,其結(jié)果無(wú)從得知,這就造成了決策維度的數(shù)據(jù)缺乏。而這種數(shù)據(jù)的缺乏,用當(dāng)前構(gòu)建和收集大數(shù)據(jù)的技術(shù)手段可能無(wú)法解決。以下圍棋為例,圍棋每一步的走法都是一個(gè)決策,如果都要收集,光圍棋這一件事情,那么產(chǎn)生的數(shù)據(jù)量將遠(yuǎn)超現(xiàn)有數(shù)據(jù)。
因此,在缺乏數(shù)據(jù)的情況下,如何提高模型的泛化能力,使其能夠預(yù)測(cè)不同決策的后果,是一個(gè)需要進(jìn)一步研究的重要方向,也是我們正在探索的方向。另外,Yann LeCun最近討論了強(qiáng)化學(xué)習(xí)與MPC(模型預(yù)測(cè)控制)的對(duì)比。他所指的強(qiáng)化學(xué)習(xí)是非常狹義的,即只能通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)。而他所說(shuō)的MPC,廣義上講,就是世界模型。實(shí)際上,我們所做的大部分強(qiáng)化學(xué)習(xí)都可以歸為MPC類(lèi)別。因此,他們?cè)赥witter上的爭(zhēng)論,關(guān)于經(jīng)典強(qiáng)化學(xué)習(xí)是否必須通過(guò)試錯(cuò)來(lái)學(xué)習(xí),對(duì)于我們這些強(qiáng)化學(xué)習(xí)研究者來(lái)說(shuō),并不是一個(gè)需要爭(zhēng)論的問(wèn)題。
04、探索強(qiáng)化學(xué)習(xí)的邊界:開(kāi)放性問(wèn)題與挑戰(zhàn)
安波:感謝各位老師的深入討論。俞老師最后提到了從語(yǔ)言模態(tài)出發(fā)是否能解決所有問(wèn)題,以及數(shù)據(jù)空間的問(wèn)題。我個(gè)人認(rèn)為,我們需要世界模型,但由于數(shù)據(jù)缺乏,我們無(wú)法獲得。但強(qiáng)化學(xué)習(xí)的探索能力,我們可以與環(huán)境交互,基于當(dāng)前的感知,似乎是解決數(shù)據(jù)缺乏問(wèn)題的一種方式。我們將進(jìn)入最后一個(gè)更開(kāi)放的話題,我希望我們可以更開(kāi)放地展望強(qiáng)化學(xué)習(xí)的未來(lái)前景,大家可以更自由地發(fā)表意見(jiàn)。
比如可以質(zhì)疑強(qiáng)化學(xué)習(xí)是否是正確的范式。如果是,未來(lái)將面臨哪些挑戰(zhàn)?有哪些未解決的問(wèn)題?哪些方向值得我們關(guān)注?或者存在哪些瓶頸?我們還是從許老師開(kāi)始。
許華哲:首先我一直認(rèn)為,雖然強(qiáng)化學(xué)習(xí)的方法可能不一定完全正確,但問(wèn)題定義本身無(wú)疑是正確的,我們正在解決的問(wèn)題肯定是在正確的軌道上。我目前最關(guān)心的是真實(shí)世界的強(qiáng)化學(xué)習(xí),即我們是否能找到一系列機(jī)器人任務(wù),使其能在真實(shí)世界中進(jìn)行交互,就像我們學(xué)習(xí)打網(wǎng)球或者做飯一樣,無(wú)論是通過(guò)給 Demonstration 的方式,還是從模擬器里面去學(xué)的方式,但最終在真實(shí)世界部署后還能繼續(xù)提升自身。這當(dāng)然是許多研究者和觀眾朋友所關(guān)注的,他們可能認(rèn)為強(qiáng)化學(xué)習(xí)在真實(shí)世界中的樣本效率太低,幾乎是天方夜譚。但事實(shí)上,我們?nèi)栽谂μ剿鬟@一領(lǐng)域。
其次,我非常感興趣的是,能否通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化出一些更有趣的,類(lèi)似于生物進(jìn)化的效果。大模型在某種意義上是直接跳過(guò)了所有的發(fā)展規(guī)律,將人類(lèi)的數(shù)據(jù)堆砌給機(jī)器,讓機(jī)器去擬合這些數(shù)據(jù)。而強(qiáng)化學(xué)習(xí)則更像是允許機(jī)器去試錯(cuò)和發(fā)展,在這個(gè)過(guò)程中,它可能會(huì)發(fā)展出一套與傳統(tǒng)大模型學(xué)到的不同的、更適合機(jī)器的智能。我覺(jué)得這是一個(gè)非常有趣的方向。例如,如果我們想讓機(jī)器人跑得更快,如果我們只是讓它學(xué)習(xí)人類(lèi)數(shù)據(jù),它可能最多只能達(dá)到博爾特的水平。但如果我們讓它通過(guò)強(qiáng)化學(xué)習(xí)自行探索,它可能發(fā)展出某種神奇的跑法,跑得比人類(lèi)更快。如果我們有一個(gè)足夠精確的模擬器來(lái)模擬世界的一部分,那么它很可能可以衍生出一套屬于機(jī)器自己的智能,這也是一個(gè)值得探索的有趣領(lǐng)域。
安波:謝謝許老師,有請(qǐng)郝老師。
郝建業(yè):如果我們單獨(dú)看待強(qiáng)化學(xué)習(xí),它其實(shí)就是一種比較通用的優(yōu)化工具或技術(shù)。但我們希望通過(guò)不同優(yōu)化手段的組合,針對(duì)特定領(lǐng)域的實(shí)際問(wèn)題,形成一套通用的優(yōu)化解決方案,這是我們的最終目標(biāo)。所以我覺(jué)得無(wú)論是強(qiáng)化學(xué)習(xí),還是傳統(tǒng)演化學(xué)習(xí)、貝葉斯優(yōu)化等其他優(yōu)化方法,它們之間具有很強(qiáng)的互補(bǔ)性。我們可以將這些方法有機(jī)組合,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),幫助解決復(fù)雜優(yōu)化問(wèn)題,無(wú)論是生成高質(zhì)量數(shù)據(jù)還是提供在線快速自我學(xué)習(xí)和演進(jìn)的能力,都能發(fā)揮非常關(guān)鍵的作用。
因此,大模型和強(qiáng)化學(xué)習(xí)是互補(bǔ)的。大模型提供了更開(kāi)闊的思路,我們借助高效的優(yōu)化方法組合,針對(duì)特定問(wèn)題實(shí)現(xiàn)解決復(fù)雜通用優(yōu)化問(wèn)題的能力。這個(gè)領(lǐng)域未來(lái)的發(fā)展空間非常大。另外,關(guān)于強(qiáng)化學(xué)習(xí)效率低的問(wèn)題,我們可以類(lèi)比人的成長(zhǎng)過(guò)程。嬰兒通過(guò)與周?chē)说慕涣鬟M(jìn)行預(yù)訓(xùn)練,類(lèi)似于大語(yǔ)言模型的預(yù)訓(xùn)練,以及通過(guò)觀察周?chē)挛镞M(jìn)行多模態(tài)預(yù)訓(xùn)練。更重要的是,嬰兒從出生開(kāi)始就通過(guò)手和腳去認(rèn)識(shí)世界,如果大家有小孩就會(huì)注意到,他們喜歡抓各種物體,撕各種東西,通過(guò)自我學(xué)習(xí)的反饋,經(jīng)過(guò)多年的學(xué)習(xí),才形成了成人非常靈活的抓取能力。成人之后,進(jìn)行復(fù)雜精細(xì)的操作也需要持續(xù)的交互學(xué)習(xí)。和人類(lèi)相比,目前算法的樣本效率是比較低的,我們可以利用強(qiáng)大的算力和仿真技術(shù)來(lái)彌補(bǔ)這一問(wèn)題。通過(guò)類(lèi)似于分身的概念,智能體可以并行地與虛擬環(huán)境交互,讓智能體快速?gòu)?fù)制經(jīng)驗(yàn),并通過(guò)強(qiáng)化學(xué)習(xí)手段快速提升能力。隨著大模型技術(shù)、算力和仿真技術(shù)的進(jìn)步,仿真的真實(shí)度越來(lái)越高,未來(lái)有望實(shí)現(xiàn)面向特定領(lǐng)域的通用決策模型。
安波:感謝郝老師的分享。郝老師探討了多種技術(shù)的融合,克服了訓(xùn)練效率等問(wèn)題,您能否分享一些關(guān)鍵領(lǐng)域,以及如何利用強(qiáng)化學(xué)習(xí)作為核心技術(shù)?能否透露一兩個(gè)方向,比如現(xiàn)在正在探索的一些問(wèn)題?
郝建業(yè):舉個(gè)例子,我們做 EDA 的一些優(yōu)化問(wèn)題和一些智能體的場(chǎng)景,包括具身的場(chǎng)景,現(xiàn)在其實(shí)最重要的或者對(duì)性能影響最大因素是高質(zhì)量數(shù)據(jù)。高質(zhì)量數(shù)據(jù)的來(lái)源有幾個(gè)方面:一是歷史上人類(lèi)或?qū)<依鄯e的大量數(shù)據(jù);二是通過(guò)仿真合成數(shù)據(jù)。有了數(shù)據(jù)后,通過(guò)離線方式訓(xùn)練出具有一定泛化能力的預(yù)訓(xùn)練模型。然后通過(guò)在線交互接觸更多的corner case,實(shí)現(xiàn)持續(xù)的自我演進(jìn)。無(wú)論是自動(dòng)駕駛、企業(yè)工業(yè)軟件優(yōu)化,還是智能體,這都是一套具有通用性的優(yōu)化范式,可以沿著這個(gè)方向不斷推進(jìn),提升能力邊界。
安波:謝謝郝老師,談到這個(gè)數(shù)據(jù)的問(wèn)題,也請(qǐng)俞老師展望一下未來(lái)的挑戰(zhàn)或者前景。
俞揚(yáng):我認(rèn)為強(qiáng)化學(xué)習(xí)本質(zhì)上是一個(gè)解決問(wèn)題的工具,包括強(qiáng)化學(xué)習(xí)、運(yùn)籌規(guī)劃等技術(shù)已經(jīng)發(fā)展了很長(zhǎng)時(shí)間,并且已經(jīng)相當(dāng)成熟。成熟到何種程度呢?如果我們面對(duì)的是一個(gè)非常明確的封閉問(wèn)題,例如中等規(guī)模的游戲,那十有八九人類(lèi)是打不過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出的智能體的。我們面臨的挑戰(zhàn)是開(kāi)放世界的挑戰(zhàn),即我們面對(duì)的是一個(gè)未知的世界,這個(gè)世界中有太多不確定性。在這樣的環(huán)境下,我認(rèn)為核心挑戰(zhàn)在于如何定義我們?cè)陂_(kāi)放世界中要完成的任務(wù)。
這個(gè)定義不能由人來(lái)完成,因?yàn)橐坏┒x,它就變成一個(gè)封閉的任務(wù)。那么我們就可以使用現(xiàn)有的求解器,包括強(qiáng)化學(xué)習(xí)和其他技術(shù)來(lái)求解。所以,我認(rèn)為關(guān)鍵在于如何定義問(wèn)題。未來(lái)在自動(dòng)駕駛、具身智能等領(lǐng)域,我們面對(duì)任務(wù)后能否迅速將當(dāng)前環(huán)境和任務(wù)定義為一個(gè)封閉場(chǎng)景,然后用現(xiàn)有技術(shù)解決,這是我們正在努力的方向。前面提到的世界模型,就是希望它能夠做到這一點(diǎn)。至于數(shù)據(jù),我始終認(rèn)為數(shù)據(jù)越多越好,在同等技術(shù)條件下,我們能夠?qū)崿F(xiàn)的效果肯定是越好的。但從智能的根本上講,智能不應(yīng)該僅僅通過(guò)大量數(shù)據(jù)堆砌形成,我們應(yīng)該探索如何提升算法和模型的“智商”,而不僅僅是大量喂食數(shù)據(jù)。當(dāng)然,這是一個(gè)實(shí)現(xiàn)途徑,在同等智商條件下,題目越多越好。但能否用少量數(shù)據(jù)就能獲得高智商的智能體,就像人類(lèi)一樣,雖然一生中接觸的數(shù)據(jù)有限,但都能具有相當(dāng)高的智力,這是我們希望長(zhǎng)期能夠接近的目標(biāo)。
安波:俞老師今天晚上多次提到世界模型,我想問(wèn)一下你們最近在這方面有什么新進(jìn)展嗎?比如在特定領(lǐng)域,你們正在開(kāi)發(fā)的模擬器等。
俞揚(yáng):我們目前在南棲仙策主要聚焦于工業(yè)環(huán)境。我們開(kāi)發(fā)了一些技術(shù),能夠從較少的數(shù)據(jù)中還原世界模型。一旦世界模型被還原,決策就不再是問(wèn)題。因?yàn)樗恍枰c真實(shí)場(chǎng)景交互,不需要試錯(cuò)。我之前提到的與美團(tuán)合作的項(xiàng)目,能夠在全國(guó)推廣,也是基于世界模型的思路。因?yàn)樵跊Q策維度上,我們面對(duì)的數(shù)據(jù)永遠(yuǎn)是不足的。一旦能夠構(gòu)建出優(yōu)秀的世界模型,就能幫助我們找到更好的決策路徑。我認(rèn)為這條路線非常重要。盡管現(xiàn)在大家的注意力都被大模型技術(shù)所吸引,都在關(guān)注如何擴(kuò)展(scaling),但我們還是希望模型能變得更智能,不必消耗太多資源就能解決問(wèn)題。
安波:感謝俞老師的分享。今晚的討論讓我們觸及了許多核心問(wèn)題,包括語(yǔ)言模型的邊界、強(qiáng)化學(xué)習(xí)的邊界,以及究竟哪條路線是正確的。這些問(wèn)題沒(méi)有完全探討透徹,現(xiàn)在可能現(xiàn)在很難得到明確的答案,但有一點(diǎn)可以肯定,隨著技術(shù)的積累和進(jìn)步,我們正逐步解決一些過(guò)去無(wú)法解決的問(wèn)題,我們也欣喜地看到,在工業(yè)和許多場(chǎng)景中,這些技術(shù)已經(jīng)被證明是可行和有用的,越來(lái)越多的人認(rèn)識(shí)到這些技術(shù)的潛力,并且正在積極參與其中。
有觀眾提出了一個(gè)問(wèn)題,是否可以通過(guò)多智能體強(qiáng)化學(xué)習(xí)與大模型的結(jié)合來(lái)提升大語(yǔ)言模型處理復(fù)雜決策任務(wù)的能力,如果可以,可能從哪些角度進(jìn)行結(jié)合?目前看來(lái),這種結(jié)合可能主要還是與單個(gè)智能體強(qiáng)化學(xué)習(xí)相關(guān)。前幾年,多智能體強(qiáng)化學(xué)習(xí)是一個(gè)非常熱門(mén)的領(lǐng)域,但自從大語(yǔ)言模型興起后,這一領(lǐng)域的熱度明顯下降,大家的注意力轉(zhuǎn)移到了大語(yǔ)言模型上。目前,我們還沒(méi)有看到多智能體強(qiáng)化學(xué)習(xí)與大模型的結(jié)合的成功例子。就像許老師剛才提到的,RL與大模型的結(jié)合還有很長(zhǎng)的路要走,目前更多的是利用大模型的規(guī)劃能力和知識(shí)。至于用RL微調(diào)或訓(xùn)練大模型,這方面的工作似乎也不是特別多。不知道各位老師是否有補(bǔ)充,或者是否有碰到這樣的應(yīng)用案例?郝老師,您是否有想要分享的經(jīng)驗(yàn)?
郝建業(yè):我想補(bǔ)充一點(diǎn),過(guò)去半年到一年,我們安排了一些學(xué)生專(zhuān)門(mén)研究多智能體建模技術(shù)是否能夠提升大模型的技術(shù)能力,比如推理能力。我們看到一些比較火的技術(shù),如XOT,都是基于樹(shù)或圖搜索的方法,探索多智能體方法是否能在其中發(fā)揮獨(dú)特作用。目前我們的階段性發(fā)現(xiàn)是,這種作用可能并不大。無(wú)論是通過(guò)談判、促進(jìn)或賦予不同角色的方式,嘗試通過(guò)組裝來(lái)提升大模型的通用能力,雖然確實(shí)有一些增益,但并不明顯,可能還會(huì)帶來(lái)額外的計(jì)算成本。我們也有博士生在面向特定領(lǐng)域的特定問(wèn)題上進(jìn)行研究,比如基于現(xiàn)有的大模型能力,是否可以通過(guò)多智能體建模方法,賦予不同角色處理復(fù)雜問(wèn)題,從各自角色角度進(jìn)行推理,然后將推理結(jié)果進(jìn)行聚合分析,希望能形成一個(gè)更好的結(jié)論。這樣的思路目前看會(huì)有一些增益,但增益并不顯著。這肯定不是一個(gè)最終結(jié)論,我們還在持續(xù)探索更好的多智能體建模方法與大模型結(jié)合的方式,以提升大模型的技術(shù)能力或在特定領(lǐng)域的表現(xiàn)。這仍是一個(gè)值得持續(xù)探索的方向。
安波:感謝各位今晚的參與。隨著今晚的在線網(wǎng)絡(luò)研討會(huì)接近尾聲,我有一種感覺(jué),我們還有很多話題沒(méi)有深入探討。這可能因?yàn)闀r(shí)間的限制,但隨著技術(shù)的發(fā)展和更多的實(shí)際應(yīng)用,我們會(huì)對(duì)這些問(wèn)題有更清晰的認(rèn)識(shí)。
,我想插播一則消息。對(duì)于我們今天晚上未能充分討論的話題,我們誠(chéng)摯邀請(qǐng)大家在今年12月來(lái)新加坡繼續(xù)我們的探討。12月,我們將在新加坡舉辦下一屆分布式人工智能會(huì)議,這將是一個(gè)高水平的交流平臺(tái)。我們的Keynote Speaker包括著名的Richard Sutton,他很少出國(guó),但今年將會(huì)親臨新加坡。此外,我們還有Sergey Levine等其他杰出的演講者,他是強(qiáng)化學(xué)習(xí)領(lǐng)域非?;钴S的研究者。雖然他沒(méi)有時(shí)間來(lái)新加坡,但他會(huì)進(jìn)行線上演講分享他的見(jiàn)解。我們還邀請(qǐng)了顏水成老師等其他著名科學(xué)家,并將舉辦AI agent day。今晚在座的三位老師屆時(shí)也將來(lái)新加坡來(lái)與大家深入交流。今晚的交流就到這里,我相信未來(lái)我們還有更多機(jī)會(huì)深入討論這些話題。有一點(diǎn)非常明確,那就是強(qiáng)化學(xué)習(xí)無(wú)疑是實(shí)現(xiàn)未來(lái)人工智能的重要途徑之一。我們不討論它是否唯一,但它絕對(duì)是一個(gè)重要方向,越來(lái)越多的人正在參與其中。在過(guò)去幾年人工智能取得的重要進(jìn)展中,包括最近的RHLF,我們都看到了強(qiáng)化學(xué)習(xí)的貢獻(xiàn)。
今晚的網(wǎng)絡(luò)分享會(huì)到此結(jié)束。期待未來(lái)有機(jī)會(huì)再次與各位交流。感謝各位的參與,也感謝三位老師的分享,以及AI科技評(píng)論和雷峰網(wǎng)的組織和支持。謝謝大家。