由美國初創(chuàng)企業(yè)OpenAI開發(fā)的聊天應(yīng)用ChatGPT引爆市場,生成式AI成為科技市場熱點(diǎn),ChatGPT背后是深度學(xué)習(xí)大模型,其理解和生成文字的能力超過以往AI產(chǎn)品。全球主要云計(jì)算公司例如亞馬遜等都加入其中,爭奪算力、開發(fā)和銷售大模型,云計(jì)算市場迎來新一輪競爭熱潮,覆蓋AI計(jì)算所需的算力、算法、數(shù)據(jù)各層面。
在自動駕駛方面,今年的CVPR上,拿到best paper的自動駕駛領(lǐng)域論文,更是將端到端與大模型結(jié)合,將該領(lǐng)域推向了高潮。事實(shí)上,“端到端”是深度學(xué)習(xí)中的概念,英文為“End-to-End(E2E)”,指的是一個(gè)AI模型,只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果。
而隱藏在大模型背后的,便是人工智能領(lǐng)域的基石——深度強(qiáng)化學(xué)習(xí)技術(shù)。深度強(qiáng)化學(xué)習(xí)對于現(xiàn)階段的科技工作者來說可能并不陌生,作為21世紀(jì)最為前沿領(lǐng)先的技術(shù)之一,深度強(qiáng)化學(xué)習(xí)早已在多個(gè)領(lǐng)域發(fā)揮了其不可替代的作用。例如前幾年大火的AlphaGo戰(zhàn)勝了一眾圍棋世界冠軍,又比如游戲界DeepMind 研發(fā)的 AlphaStar 在《星際爭霸2》中一戰(zhàn)封神等等,火熱的強(qiáng)人工智能加速了人們對于未來科技飛速發(fā)展的信心,而基于強(qiáng)化學(xué)習(xí)的方法更讓人們看到了人工智能超越人類知識的可能。
如此前沿的技術(shù)必然在前沿的領(lǐng)域發(fā)揮舉足輕重的作用,在自動駕駛領(lǐng)域,深度強(qiáng)化學(xué)習(xí)已然走出了自己特有的道路,并吸引一位又一位研究人員、企業(yè)對其展開探索,試圖將這一人類能完成的最高智慧應(yīng)用于未來的日常出行中。
什么是深度強(qiáng)化學(xué)習(xí)?
對于不太了解人工智能的小白來說,對深度強(qiáng)化學(xué)習(xí)這一名詞的概念可能比較陌生,正式的定義為深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,可以直接根據(jù)輸入的圖像進(jìn)行控制,是一種更接近人類思維方式的人工智能方法。
而作為兩大學(xué)習(xí)方法的疊加,深度強(qiáng)化學(xué)習(xí)包含了兩種方法的特征與優(yōu)勢。深度學(xué)習(xí)具有較強(qiáng)的感知能力,但是缺乏一定的決策能力;而強(qiáng)化學(xué)習(xí)具有決策能力,對感知問題束手無策。因此,將兩者結(jié)合起來,優(yōu)勢互補(bǔ),為復(fù)雜系統(tǒng)的感知決策問題提供了解決思路。更進(jìn)一步來說,強(qiáng)化學(xué)習(xí)是一種典型的序貫決策方式,智能體通過與環(huán)境的交互獲得反饋,在嘗試和試錯(cuò)中不斷進(jìn)步。而深度強(qiáng)化學(xué)習(xí)綜合了深度學(xué)習(xí)對高維數(shù)據(jù)的抽象感知能力與強(qiáng)化學(xué)習(xí)優(yōu)秀的決策能力,能夠處理更高維度的輸入與輸出數(shù)據(jù)。
近年來,深度強(qiáng)化學(xué)習(xí)算法已在許多領(lǐng)域都取得了令人震撼的成就。2016年,基于深度 Q 網(wǎng)絡(luò)(Deep Q Network,DQN)和蒙特卡洛樹搜索算法的圍棋程序“AlphaGo”以4:1戰(zhàn)勝世界冠軍李世乭,轟動了世界,使得深度強(qiáng)化學(xué)習(xí)成為了人工智能領(lǐng)域研究的新風(fēng)向。
近些年來深度強(qiáng)化學(xué)習(xí)算法取得的令人振奮的成果鼓勵(lì)了工業(yè)界和學(xué)術(shù)界進(jìn)一步深入研究深度強(qiáng)化學(xué)習(xí)算法及其應(yīng)用。學(xué)者們將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用在機(jī)器人控制、樓宇空調(diào)系統(tǒng)控制、匝道控制等領(lǐng)域中,在汽車和智能交通等領(lǐng)域,深度強(qiáng)化學(xué)習(xí)也在車道保持、超車決策、主動制動、能量管理、交通流調(diào)度等方面得到了應(yīng)用。
深度強(qiáng)化學(xué)習(xí)在自動駕駛領(lǐng)域的應(yīng)用
機(jī)器學(xué)習(xí)是指計(jì)算機(jī)程序通過已知經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行訓(xùn)練,通過迭代訓(xùn)練以提高其在指定任務(wù)上預(yù)測準(zhǔn)確性的過程。機(jī)器學(xué)習(xí)算法通常分為三大類流派,分別是監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)?(RL)。
監(jiān)督學(xué)習(xí)算法基于歸納推理,通常需要使用有標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,以執(zhí)行分類或回歸,而無監(jiān)督學(xué)習(xí)一般應(yīng)用于未標(biāo)記數(shù)據(jù)的密度估計(jì)或聚類等技術(shù)。相比之下強(qiáng)化學(xué)習(xí)比較自成一派,其通過與環(huán)境交互來提高其在指定任務(wù)上的性能,與監(jiān)督和非監(jiān)督學(xué)習(xí)使用損失函數(shù)進(jìn)行迭代訓(xùn)練的方式不同,強(qiáng)化學(xué)習(xí)一般使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,比如OpenAI與王者榮耀的絕悟AI都屬于強(qiáng)化學(xué)習(xí)的范疇,一般在電競、機(jī)器人等方向上應(yīng)用較多。
根據(jù)各類機(jī)器學(xué)習(xí)算法的特點(diǎn),可以看出在“場景理解”的相關(guān)任務(wù)中,使用監(jiān)督學(xué)習(xí)算法比較合適,而在“決策與規(guī)劃”任務(wù)中,又非強(qiáng)化學(xué)習(xí)算法莫屬。而深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)兼具了深度學(xué)習(xí)對高維輸入的處理能力與強(qiáng)化學(xué)習(xí)的決策能力,能夠?qū)崿F(xiàn)由高維的感知信息到連續(xù)動作空間輸出的直接映射,非常適合處理環(huán)境復(fù)雜、交互頻繁的自動駕駛?cè)蝿?wù)。
上圖是百度 Apollo 使用的一種典型的感知-規(guī)劃-控制序列式架構(gòu)(Sequential perception-planning-action pipeline),主要包括高精地圖、定位感知、決策規(guī)劃、車輛控制等模塊。高精地圖和定位模塊為自動駕駛車輛提供位置信息,感知模塊提供靜動態(tài)障礙物信息,決策規(guī)劃模塊根據(jù)定位和障礙物信息合理規(guī)劃自動駕駛車輛的行為和路徑,最后由車輛控制模塊執(zhí)行運(yùn)動規(guī)劃模塊下發(fā)的路徑跟蹤控制指令。
但是感知-規(guī)劃-控制序列式架構(gòu)主流的處理方式是將感知信息處理成人類可以理解的語義信息和道路交通信息,然后基于專家知識和規(guī)則進(jìn)行決策規(guī)劃,這種方式在簡單場景下可以完成自動駕駛?cè)蝿?wù)。但卻難以勝任在復(fù)雜不確定場景中執(zhí)行的自動給駕駛?cè)蝿?wù),原因是現(xiàn)實(shí)場景的復(fù)雜多樣性,使得專家知識和規(guī)則不能完全覆蓋所有場景和工況。
基于深度強(qiáng)化學(xué)習(xí)的端到端(End-to-end)的控制架構(gòu)是自動駕駛領(lǐng)域中新興的研究熱點(diǎn),它能克服傳統(tǒng)方式依賴先驗(yàn)環(huán)境建模的問題,可以直接實(shí)現(xiàn)通過從感知到控制功能的映射。例如今年CVPR的best paper中便指出,隨著深度學(xué)習(xí)發(fā)展,自動駕駛算法被組裝成一系列任務(wù),包括目標(biāo)檢測與跟蹤、在線建圖、軌跡預(yù)測、占據(jù)柵格預(yù)測等子任務(wù)。基于這些子任務(wù),行業(yè)有著多種自動駕駛系統(tǒng)框架設(shè)計(jì):模塊化設(shè)計(jì),多任務(wù)框架,但兩種方案都面臨著累積錯(cuò)誤或任務(wù)協(xié)調(diào)不足的困擾。比如自動駕駛公司W(wǎng)aymo、Cruise采用的模塊化設(shè)計(jì)方案,每個(gè)獨(dú)立的模塊負(fù)責(zé)單獨(dú)的子任務(wù)。這種方案具備簡化研發(fā)團(tuán)隊(duì)分工,便于問題回溯,易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦,各個(gè)模塊相對于最終的駕駛規(guī)劃目標(biāo)存在信息損失問題,且多個(gè)模塊間優(yōu)化目標(biāo)不一致,誤差會在模塊間傳遞。
論文同時(shí)認(rèn)為,多任務(wù)框架是更優(yōu)雅的一種設(shè)計(jì)方案,代表性企業(yè)有美國特斯拉、中國小鵬汽車等。方案中不同任務(wù)使用同一個(gè)特征提取器,具備便于任務(wù)拓展、節(jié)省計(jì)算資源等優(yōu)點(diǎn)。但不同任務(wù)之間仍存在預(yù)測不一致、表征沖突的問題。相比之下,端到端自動駕駛方案將感知、預(yù)測和規(guī)劃所有節(jié)點(diǎn)視為一個(gè)整體,將取得更優(yōu)的效果。
端到端大模型面臨的挑戰(zhàn)
深度強(qiáng)化學(xué)習(xí)DRL已經(jīng)被證實(shí)能夠解決無人駕駛中的部分問題,但還面臨很多挑戰(zhàn)。一是人工智能技術(shù)要真正應(yīng)用在汽車上,還需要制定相關(guān)的技術(shù)標(biāo)準(zhǔn)。二是DRL在解決復(fù)雜問題需要大量的訓(xùn)練時(shí)間和反復(fù)模型優(yōu)化。三是需要設(shè)計(jì)一個(gè)穩(wěn)定的智能系統(tǒng),如何解決仿真和現(xiàn)實(shí)之間的gap差距,這也許不是添加噪聲就能解決的問題。四是模型的精度和整個(gè)智能系統(tǒng)的架構(gòu)設(shè)計(jì)會影響DRL的可用性。
因此,基于深度強(qiáng)化學(xué)習(xí)的端到端大模型,也面臨著相應(yīng)的困難:一方面,用簡單的方式直接以傳感器信號作為輸入、以軌跡/控制作為輸出,能夠在仿真中取得較好結(jié)果,但缺乏可解釋性與實(shí)際應(yīng)用安全性,尤其是在復(fù)雜的城市道路場景。另一方面,對模型進(jìn)行顯式設(shè)計(jì),將整個(gè)架構(gòu)分為感知-預(yù)測-規(guī)劃模塊,使其具有部分中間結(jié)果表達(dá)。但這種方式面臨檢測結(jié)果在模塊間不可微導(dǎo)致無法端到端優(yōu)化,稠密BEV預(yù)測時(shí)長有限,過去-未來、物體-場景等多維度信息難以高效利用等困難。
因此,要想真正使得該項(xiàng)前沿技術(shù)大規(guī)模應(yīng)用在自動駕駛領(lǐng)域現(xiàn)階段來看還為時(shí)尚早,但深度強(qiáng)化學(xué)習(xí)的原理及潛力讓我們看到了未來實(shí)現(xiàn)真正超越人類駕駛水平的自動駕駛技術(shù)的希望。作為目前最火熱的研究方向,端到端大模型此次的進(jìn)展無疑是喜人的,也給了從業(yè)者們更多的信心。