賈浩楠 發(fā)自 凹非寺
“對軟件有理想的人應(yīng)該做屬于自己的硬件”。喬布斯的信條開創(chuàng)了時代,這樣的認知,被馬斯克以自建超算自研平臺等方式在特斯拉踐行。
現(xiàn)在,同樣的劇本正在中國自動駕駛行業(yè)上演。
毫末智行——被業(yè)內(nèi)以“自動駕駛量產(chǎn)第一”認知的創(chuàng)業(yè)公司——在 AI Day上最新發(fā)布:智算中心。
完全服務(wù)自動駕駛研發(fā),而且是自建。
△?毫末智行CEO顧維灝(右)和火山引擎總裁譚待
這是中國首個由自動駕駛公司建立的智算中心。
經(jīng)歷2022年行業(yè)競速后,量產(chǎn)智能駕駛進城爭奪戰(zhàn)已經(jīng)打響,而決定城市輔助駕駛落地、體驗和發(fā)展速度的關(guān)鍵保障,就是智算中心。
特斯拉已經(jīng)為FSD準備好了DOJO智算中心;國內(nèi),同樣以重感知輕地圖展現(xiàn)大規(guī)模落地的毫末智行,現(xiàn)在也把城市NOH背后的保駕重器推到了臺前。
所以毫末智行的智算中心,會如何發(fā)揮作用?
為什么是毫末,率先向“重”而行——成為首個建立智算中心的自動駕駛公司?
首個自動駕駛公司建立的智算中心?
毫末智行自建的智算中心,是與字節(jié)跳動旗下火山引擎合作的,由自動駕駛業(yè)務(wù)方“承包”相當部分的算力資源,按照自動駕駛開發(fā)的特定要求,建成專門的算力集群。
所謂“智算中心”,并不是傳統(tǒng)意義上的超級計算機。
自動駕駛、或者說智能汽車上的核心功能,其實都是AI。具體說,是大規(guī)模的深度學(xué)習算法。
而無論是訓(xùn)練,還是測試這樣的模型,扮演主角的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點計算能力,GPU則是當前AI加速器的主流。
所以,智算中心的第一個特征,就是以大規(guī)模GPU算力作為AI模型迭代的基礎(chǔ)。
第二個特征,是與自動駕駛業(yè)務(wù)深度結(jié)合,智算中心提供了針對自動駕駛應(yīng)用特征的算力集群、性能加速工具和AI大數(shù)據(jù)平臺,使得模型訓(xùn)練性能、GPU資源利用率和算法研發(fā)效能都大大提升。
毫末智算中心MANA OASIS算力0.67 EFLOPS?(每秒6.7*1017次浮點運算)*。
毫末MANA OASIS的算力幾乎全部為自動駕駛服務(wù)。其架構(gòu)也根據(jù)自動駕駛的業(yè)務(wù)特征做了專門安排。
自動駕駛?cè)蝿?wù)訓(xùn)練的特點,是文件比較多較雜,而且多為視頻、圖像數(shù)據(jù)。自動駕駛的用戶每一次接管,都會形成一個獨立的小文件。車多用戶多,就形成了自動駕駛數(shù)量超過百億的數(shù)據(jù)集。
所以,第一個要求是高性能地訪問和傳輸這些數(shù)據(jù),存儲帶寬需要達到每秒2T的能力。
此外,毫末智行的不同自動駕駛模型搭載在不同的服務(wù)器上,而不同服務(wù)器的通信能力也很關(guān)鍵,MANA OASIS的帶寬設(shè)計實現(xiàn)了800G/秒。
計算、存儲和通信,是毫末MANA OASIS的基礎(chǔ)能力。
在AI模型訓(xùn)練的優(yōu)化上,火山引擎也提供了針對性的基礎(chǔ)優(yōu)化。
比如,AI不斷演進發(fā)展,新的模型、網(wǎng)絡(luò)結(jié)構(gòu)層出不窮。前幾年在NLP領(lǐng)域興起的Transformer,現(xiàn)在成了自動駕駛最被看好的技術(shù),也是毫末目前最主要“殺手锏”?;鹕揭鏋楹聊┐蛟斓闹撬阒行模梢灾С职═ransformer在內(nèi)的超過200組網(wǎng)絡(luò)結(jié)構(gòu)。
此外,超過500個高性能AI算子、高帶寬網(wǎng)絡(luò)通訊、專門服務(wù)超大模型任務(wù)的數(shù)據(jù)并行、流水并行和稀疏化并行等等,MANA OASIS都能支持。
根據(jù)毫末的介紹,目前千億參數(shù)的AI大模型的一個完整訓(xùn)練——收斂周期,只需要一周,效率提升了100倍。
毫末OASIS,也是字節(jié)跳動首次在智算中心上的對外技術(shù)輸出。基本架構(gòu)特征,和毫末之前一直展現(xiàn)出的技術(shù)路線完全吻合:以超大模型、超大數(shù)據(jù),快速迭代為基礎(chǔ)的自動駕駛研發(fā)。
AI技術(shù)To C應(yīng)用最成功的公司,和量產(chǎn)自動駕駛技術(shù)第一名聯(lián)手,毫末OASIS的架構(gòu)特征背后體現(xiàn)的是自動駕駛發(fā)展趨勢:
數(shù)據(jù)層面,以“幀”為基本單位的數(shù)據(jù)組織方式,正在向標注效率、數(shù)據(jù)利用率更高的的Clip形式(一段包含多幀的連續(xù)視頻)轉(zhuǎn)變。
Cilp帶來了更大的數(shù)據(jù)量,需要更大規(guī)模的AI模型,以及更高的迭代效率。也就是說,對自動駕駛的圖像視頻處理技術(shù)要求更高了。
而毫末的量產(chǎn)自動駕駛落地路線,無論是重感知和大模型應(yīng)用,在智算中心里,有了更加廣闊的舞臺。
毫末智算中心能做什么?
OASIS的核任務(wù)只有一個:加速大模型訓(xùn)練。
具體的說是5方面大模型的訓(xùn)練,這是毫末城市NOH落地的技術(shù)保障,也是毫末NOH領(lǐng)先的力量之源。
視頻自監(jiān)督大模型
所解決的問題是怎么樣能夠更高效地建設(shè)一個Clips的數(shù)據(jù)集。
過去的自動駕駛訓(xùn)練數(shù)據(jù)都是按幀來組織的,frame by frame標注出需要的目標,比如行人、乘用車等等。但每幀圖像只能標注一種目標,浪費了圖像包含的其他目標價值。
Clips的目的就是利用標注的數(shù)據(jù),把未標注的數(shù)據(jù)自動化地標注出來。
視頻自監(jiān)督大模型首先使用大量未標注的數(shù)據(jù)形成了這樣一個基礎(chǔ)大模型,然后再用少量已標注的數(shù)據(jù)做啟發(fā)式的學(xué)習。通過一個自我編解碼的模型,完成那些90%未標注數(shù)據(jù)自動化的標注。
標注完了之后,一段視頻里面所有的障礙物都會連續(xù)在視頻里面標注出來。之前沒有發(fā)現(xiàn)的數(shù)據(jù),能夠通過這樣的數(shù)據(jù)形態(tài)和新的標注方法把它挖掘出來。
3D重建大模型
毫末智行介紹,字節(jié)跳動其實已經(jīng)積累了很多電商AI應(yīng)用的經(jīng)驗,比如一個商品照幾張照片,就能夠切換視角,還原出3D模型。背后其實是NeRF,這個模型的主要功能就是3D建模和新視角的生成。
毫末智行也將這個技術(shù)應(yīng)用到自動駕駛上。用NeRF模型對回傳Clip做一個重建。建出來之后,把它應(yīng)用在數(shù)據(jù)補充上。
3D重建大模型主要的作用是在3D場景下,通過不同視角的轉(zhuǎn)換,生成2D圖像中沒有的稀缺數(shù)據(jù)。
另外,也可以通過在3D場景中使用生成網(wǎng)絡(luò),改變場景的光線和紋理,生成新的數(shù)據(jù),降低感知模型的錯誤率。
它的意義仍然是降低人工標注成本,以及生成更多有價值的數(shù)據(jù)。
多模態(tài)互監(jiān)督大模型
自動駕駛一直面臨一個挑戰(zhàn):真實的環(huán)境里面,會面臨很多未知的障礙物,不可能把所有的東西都標注上,該怎么辦?
毫末的解決方式是用互監(jiān)督大模型。首先做通用物體的檢測,物體的結(jié)構(gòu)識別出來,來判定這個區(qū)域的可通行性。
這其中,多模態(tài)體現(xiàn)在首先用視覺模型做BEV特征的提取和通用結(jié)構(gòu)檢測。
此外還會用用激光雷達的點云圖做一次監(jiān)督校驗,持續(xù)地提升視覺檢測的結(jié)果。
動態(tài)環(huán)境大模型
毫末智行的技術(shù)路線重感知、輕地圖。這也是目前絕大部分自動駕駛玩家認可的方向。
高精地圖盡管表面上看對自動駕駛系統(tǒng)很關(guān)鍵,但背后有著政策監(jiān)管、法規(guī)準入、數(shù)據(jù)采集、信息更新等等問題。
尤其是在國內(nèi),基建更新速度飛快,高精地圖為及時準確性付出的成本,難以估算。
但輕地圖技術(shù)層面挑戰(zhàn)很大,其中一個車道拓撲識別的問題,就是在較為復(fù)雜的路口、匝道究竟走哪個車道的問題。
毫末的動態(tài)環(huán)境大模型,首先還是用BEV環(huán)視生成環(huán)境基礎(chǔ)特征,然后把現(xiàn)有基礎(chǔ)導(dǎo)航地圖的必要信息輸入Topology Attention網(wǎng)絡(luò)里面對不同的分岔點、合流點做預(yù)測和回溯,把合適的車道拓撲預(yù)測出來,然后交給決策系統(tǒng)。
人駕自監(jiān)督認知大模型
毫末智行的自動駕駛研發(fā),會基于很多用戶真實的駕駛行為訓(xùn)練。
但問題是老司機畢竟是少數(shù),如果針對這樣的大規(guī)模數(shù)據(jù)群體訓(xùn)練,很可能最終得到的是一個平均值。在打磨AI老司機的過程中,毫末借鑒了目前大火的ChatGPT的思路。
ChatGPT是在GPT3上面做的衍生,最后一代GPT3有1500億個參數(shù),在模型的認知理解能力上通過量變達到了質(zhì)變。核心的方法其實就是用人類行為的反饋做強化學(xué)習。
比如針對某個問題,先通過人類的回答訓(xùn)練一個基礎(chǔ)的網(wǎng)絡(luò)。對于同類的問題,將多個答案做一個排序,讓AI知道哪個答案更好。這樣就會訓(xùn)練出來一個價值模型。
有了價值模型后,AI就可以在生成的過程中做持續(xù)的訓(xùn)練,做持續(xù)的迭代,最后把最好的結(jié)果篩出來,把不好的降下去。
對于自動駕駛來講,毫末規(guī)劃了一套規(guī)則,用戶如果按照建議的方式駕駛,過程中不接管,就是一個Good Case。如果接管了,就是一個Bad Case。把Good Case和Bad Case訓(xùn)練的模型加入大模型里面,就能形成這種強化訓(xùn)練結(jié)構(gòu)的閉環(huán)。
毫末說,之前計算資源有限,對于以上5個大模型的迭代,總是不得不保守。
而現(xiàn)在借助于智算中心,計算資源充沛,可以把這五個大模型正式修煉出來,朝著自動駕駛“數(shù)據(jù)驅(qū)動”的3.0時代邁進。
而3.0時代的第一幕,就是毫末智行城市NOH的量產(chǎn)上車。
城市NOH本質(zhì)是城市道路領(lǐng)航輔助功能,意思是系統(tǒng)會在大部分情況下接管車輛,自主識別車道線、障礙物、紅綠燈、限速等等,并且結(jié)合導(dǎo)航信息,規(guī)劃行進線路——真正“從P檔到P檔”的智能駕駛,極大程度減輕用戶駕駛負擔,也是自動駕駛技術(shù)誕生以來,核心價值距離普通人感受最近的功能。
所以城市領(lǐng)航輔助量產(chǎn),也是今年各個自動駕駛公司、車廠競速爭奪、證明實力的目標。
毫末NOH,很有可能在這場競速中率先實現(xiàn)大規(guī)模量產(chǎn)。
核心原因,是包括上面5個大模型在內(nèi)的重感知技術(shù)路線。
比如視頻自監(jiān)督大模型,能自動把一段視頻數(shù)據(jù)中90%目標都標注出來,相當于只標注10幀,就可以生成100幀的數(shù)據(jù)。使人工標準成本和時間大大降低。
而3D重建大模型,又可以從有限數(shù)據(jù)中,自動生成更多更多有價值的數(shù)據(jù)。
互監(jiān)督大模型、動態(tài)環(huán)境大模型、人駕自監(jiān)督認知大模型則分別在目標識別準確率、路徑預(yù)測規(guī)劃、整體乘坐體驗上提升NOH的能力。
說得再多,不如眼見為實:
2022年的毫末智行,董事長張凱總結(jié)成了“三大戰(zhàn)役”:
數(shù)據(jù)智能之戰(zhàn),體系建成,走向大模型、大算力、大數(shù)據(jù)的時代。
城市場景輔助駕駛之戰(zhàn),毫末NOH已達可交付狀態(tài)。
末端物流自動配送之戰(zhàn),初步完成商業(yè)閉環(huán),交付超過1000臺。
2023年,毫末智行在“量產(chǎn)”上依然有領(lǐng)先的目標。
首先是毫末城市NOH功能很快就會量產(chǎn)上市,首先搭載在長城汽車旗下魏牌車型。
而2024年到來之時,毫末城市NOH將會在國內(nèi)100個城市落地。最重要的是:
毫末NOH因為不依賴高精地圖,省去了建圖、合規(guī)的流程,量產(chǎn)速度會更快,而且能實現(xiàn)無差別覆蓋全國主要城市道路。
城市領(lǐng)航輔助駕駛落地競速,毫末智行NOH無論量產(chǎn)的速度,還是規(guī)模,目前都是毫無爭議的第一。
為什么是毫末智行?
對于毫末智行,無論是關(guān)注智能汽車發(fā)展的普通用戶,還是從業(yè)者早已經(jīng)非常熟悉。
“無人車傳奇大牛帶隊”、“長城汽車轉(zhuǎn)型殺手锏”、“自動駕駛量產(chǎn)第一”……
這些都是僅僅成立3年的毫末智行身上的標簽。
客觀上看,毫末智行的3年,是國內(nèi)智能駕駛量產(chǎn)最快的3年。毫末模式、毫末速度,在過去三年來屢屢被熱議。
但智算中心建立,再次引領(lǐng)——首家自動駕駛公司建造智算中心。
為什么是毫末?
首先因為這是落地進展的需要。
城市輔助駕駛大規(guī)模落地,帶來大規(guī)模數(shù)據(jù)訓(xùn)練的問題,自建智算中心可以更加高效、更具成本、更可持續(xù)——真正進入城市輔助駕駛大規(guī)模落地的玩家,都可能需要自建智算中心。
毫末執(zhí)行在量產(chǎn)上的進展最快,所以率先開建,成為自動駕駛公司中的首家。
更深層次原因,則是毫末智行的技術(shù)路線:重感知輕地圖的路線,以及對大模型的運用。這條路線對于數(shù)據(jù)規(guī)模和迭代,有著更加高的要求。
但最根本的原因,毫末智行CEO顧維灝給出的答案是“創(chuàng)業(yè)精神”:
毫末最為制勝的武器,是毫末同學(xué)們在一起而形成的迎難而上的創(chuàng)業(yè)精神,這種無敵的創(chuàng)業(yè)精神是我們面對挑戰(zhàn),取得領(lǐng)先,不斷向前的最大法寶。
業(yè)內(nèi)自動駕駛公司,更多選擇“輕快靈”的技術(shù)系統(tǒng)打造方式,避免“重資產(chǎn)”的成本投入,所以之前即便有特斯拉這樣的公司打造智算中心,也是車廠維度出發(fā)的,輕重資產(chǎn)無所謂,重點還是成本和效能提升。
但毫末智行從第一性原理思考,看到了自動駕駛要大規(guī)模落地,智算中心就避無可避,再難也要做,再重也要搞,看起來最難的路就是最正確的路。
實際上這也是毫末智行這種創(chuàng)業(yè)精神和技術(shù)底色的一以貫之。
智算中心之前,毫末智行率先引入Transformer等新技術(shù),在“高精度地圖”的迷信中可以反共識選擇重感知輕地圖技術(shù)路線,當時并不是主流,但后來成為行業(yè)共識,完全是獨立思考不跟隨,迎難而上創(chuàng)業(yè)精神和底色之下的必然選擇和結(jié)果。
有這樣的精神,毫末的自動駕駛創(chuàng)新和推進,就有“1”,各種技術(shù)推進和落地成果,都是不斷新增的“0”。
這些成果,在毫末智行的歷次AI Day上接連亮相,讓業(yè)內(nèi)驚嘆于毫末智行成果之多,進展之快。
毫末AI Day已然形成一種類似阿里雙11的技術(shù)能力大考,而且是一個季度一次,已經(jīng)算得上“家喻戶曉“。
隨著歷屆毫末AI Day的深入,這個活動本身從單一公司展示成果,演變成了行業(yè)內(nèi)備受關(guān)注期待的自動駕駛前沿技術(shù)分享、商業(yè)落地前瞻的重要風向之一。
在自動駕駛行業(yè)歷經(jīng)2022年的競速和洗牌之后,隨著毫末智行智算中心的推出,開始有觀點認為,接下來量產(chǎn)自動駕駛的快慢標準,除了看落地規(guī)模、上路能力體驗,也可以把智算中心作為競爭力參考。
你怎么看?