如果機(jī)器能像動(dòng)物一樣學(xué)習(xí)與進(jìn)化會(huì)如何?
這是李飛飛團(tuán)隊(duì)的最新研究。
在過(guò)去6億年中,動(dòng)物在復(fù)雜的環(huán)境中學(xué)習(xí)與進(jìn)化成各異的形態(tài),又利用進(jìn)化的形態(tài)來(lái)學(xué)習(xí)復(fù)雜的任務(wù)。如此周而復(fù)始的學(xué)習(xí)與進(jìn)化,造就了動(dòng)物的認(rèn)知智慧。
但其中環(huán)境復(fù)雜性、進(jìn)化形態(tài)和智能控制的可學(xué)習(xí)性之間的關(guān)系原理仍然難以捉摸。
本中提出了一種深度進(jìn)化強(qiáng)化學(xué)習(xí)計(jì)算框架DERL。它可以演化不同的形態(tài),在復(fù)雜的環(huán)境中學(xué)習(xí)一些具有挑戰(zhàn)性的運(yùn)動(dòng)、操縱任務(wù)。
最終利用DERL,研究人員證明了環(huán)境復(fù)雜性、形態(tài)智能和控制的可學(xué)習(xí)性之間的幾個(gè)關(guān)系。
通過(guò)學(xué)習(xí)和進(jìn)化來(lái)實(shí)現(xiàn)的形態(tài)智能
創(chuàng)建適應(yīng)性的形態(tài),在復(fù)雜的環(huán)境中學(xué)習(xí)操縱任務(wù)是具有挑戰(zhàn)性的,存在雙重困難。
第一種,在大量可能的形態(tài)組合中進(jìn)行搜索。第二種,通過(guò)終生學(xué)習(xí)評(píng)估適應(yīng)性所需要計(jì)算時(shí)間。
因此,此前的工作要么在有限的形態(tài)空間中進(jìn)化,要么專注于尋找固定的形態(tài)最佳參數(shù),亦或是就在平坦的地形中學(xué)習(xí)。
為了克服這些實(shí)質(zhì)性的限制,本文提出了深度進(jìn)化強(qiáng)化學(xué)習(xí)(Deep Evolutionary Reinforcement Learning,DERL)計(jì)算框架。
本文提出了一種高效的異步方法,用于在許多計(jì)算元素之間并行化學(xué)習(xí)和進(jìn)化基礎(chǔ)計(jì)算。
如圖(b)所示,進(jìn)化的外循環(huán)通過(guò)突變操作優(yōu)化機(jī)器形態(tài),比如高度、位置、箱子的大小等屬性。
而內(nèi)部的強(qiáng)化學(xué)習(xí)循環(huán)則用來(lái)優(yōu)化神經(jīng)控制器的參數(shù)。
還引入了一個(gè)UNIMAL,即UNIversal aniMAL形態(tài)設(shè)計(jì)空間,如圖(d)所示,它既具有高度的表現(xiàn)力,又豐富了有用的可控形態(tài)。
而復(fù)雜環(huán)境由三個(gè)隨機(jī)生成的障礙物組成:山丘、臺(tái)階和碎石。模型必須從初始位置(圖e綠色物體)開始,并將一個(gè)盒子移動(dòng)到目標(biāo)位置(紅色方塊)。
此外,DERL創(chuàng)建了體現(xiàn)型的模型,不僅可以在較少的數(shù)據(jù)進(jìn)行學(xué)習(xí),還可以泛化解決多個(gè)新任務(wù),從而緩解了強(qiáng)化學(xué)習(xí)的樣本效率低下。
DERL的運(yùn)作方式是模仿達(dá)爾文進(jìn)化過(guò)程中幾代模型在形態(tài)上的搜索、一生中的神經(jīng)學(xué)習(xí)交織在一起的過(guò)程,通過(guò)智能控制來(lái)評(píng)估一個(gè)給定形態(tài)解決復(fù)雜任務(wù)的速度和效果。
總共有8個(gè)測(cè)試任務(wù),涉及了穩(wěn)定性、敏捷性和操縱性的測(cè)試,來(lái)評(píng)估每個(gè)形態(tài)對(duì)強(qiáng)化學(xué)習(xí)的促進(jìn)作用。
研究人員在每個(gè)環(huán)境的3次進(jìn)化運(yùn)行中挑選出10個(gè)表現(xiàn)最好的形態(tài)。然后,每個(gè)形態(tài)從頭開始訓(xùn)練所有8個(gè)測(cè)試任務(wù)。
最終選出了在不同環(huán)境下演化出的最佳模型形態(tài)。
結(jié)果發(fā)現(xiàn),通過(guò)鮑德溫效應(yīng),模型適應(yīng)性可以在幾代的進(jìn)化過(guò)程中從其表型學(xué)習(xí)能力迅速轉(zhuǎn)移到其基因型編碼的形態(tài)上。
(鮑德溫效應(yīng):沒(méi)有任何基因信息基礎(chǔ)的人類行為方式和習(xí)慣,經(jīng)過(guò)許多代人的傳播,最終進(jìn)化為具有基因信息基礎(chǔ)的行為習(xí)慣的現(xiàn)象。)
這些進(jìn)化后的形態(tài)學(xué)又賦予了模型更好更快的學(xué)習(xí)能力,以適應(yīng)新任務(wù)。
團(tuán)隊(duì)猜測(cè),很可能是通過(guò)增加被動(dòng)穩(wěn)定性和能量效能來(lái)實(shí)現(xiàn)的。
此外還證實(shí)了環(huán)境復(fù)雜性、形態(tài)智能和可學(xué)習(xí)性控制之間存在著以下的關(guān)系。
首先,環(huán)境復(fù)雜性促進(jìn)了形態(tài)智能的進(jìn)化,以一種形態(tài)促進(jìn)學(xué)習(xí)新任務(wù)的能力來(lái)量化。
其次,進(jìn)化時(shí)會(huì)迅速選擇學(xué)習(xí)速度較快的形態(tài),這一結(jié)果構(gòu)成了長(zhǎng)期以來(lái)猜想的形態(tài)學(xué)鮑德溫效應(yīng)的首次證明。
第三,實(shí)驗(yàn)表示, 鮑德溫效應(yīng)和形態(tài)智能的出現(xiàn)都有一個(gè)機(jī)理基礎(chǔ),即通過(guò)物理上更穩(wěn)定、能量效率更高的形態(tài)的進(jìn)化,從而可以促進(jìn)學(xué)習(xí)和控制。
團(tuán)隊(duì)介紹
這篇文章李飛飛團(tuán)隊(duì)領(lǐng)銜,由來(lái)自斯坦福大學(xué)計(jì)算機(jī)科學(xué)系、應(yīng)用物理系、吳蔡德神經(jīng)科學(xué)研究所等團(tuán)隊(duì)共同研究。
第一作者是Agrim Gupta,斯坦福大學(xué)二年級(jí)博士生,致力于研究計(jì)算機(jī)視覺(jué)。
論文鏈接:
https://arxiv.org/abs/2102.02202