作者 |?黎? ?瀾,編輯 | 章漣漪
商湯“造車”,并不是新聞。當(dāng)然,并不是直接下場制造車輛,而是依托原創(chuàng)AI技術(shù),帶來從智能駕駛、智能座艙到車路協(xié)同的全棧體系。早在2021年,商湯即發(fā)布了智能汽車解決方案獨立新品牌SenseAuto絕影。但三年過去,商湯在汽車領(lǐng)域的聲量并不算大,且落地成果主要在智能座艙領(lǐng)域,對此商湯顯然是不滿足的。
于是,4月25日,2024北京車展首日,商湯絕影舉行發(fā)布會,重申進軍智能汽車決心的同時,也展現(xiàn)了三項技術(shù):面向量產(chǎn)的端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)的道路測試表現(xiàn)、以多模態(tài)場景大腦為核心的AI大模型座艙產(chǎn)品矩陣,以及全新座艙3D交互演示。
盡管決心堅定,產(chǎn)品譜系看起來也很全面,但作為一家以相對“輕量化”的人工智能起家的企業(yè),商湯還需要更多的落地成果,在強“制造”的汽車智能化領(lǐng)域再次證明自己。
01、何為“真”端到端
商湯絕影在智能駕駛領(lǐng)域的選擇也是端到端。今年三月,特斯拉宣布全量推送 FSD Beta V12.3,證明了端到端已經(jīng)有了成熟的實踐后,頭部智駕公司、車企幾乎都宣布向端到端向端到端技術(shù)架構(gòu)演進。
商湯絕影亦是如此,此次發(fā)布會上,其發(fā)布了UniAD為技術(shù)核心的端到端方案。根據(jù)官方說法,這是中國第一也是目前唯一能實現(xiàn)真端到端的智駕方案,可以像所謂“像人一樣開車”。何為“真”端到端方案?在商湯絕影看來,大部分端到端方案采用的是更容易落地的由感知和決策兩個模型組成的 “兩段式”架構(gòu),兩個模型之間依然存在信息傳遞過濾或丟失的問題。
而UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,即感知決策一體化的真端到端自動駕駛。商湯表示,現(xiàn)在市面上也存在大量所謂的端到端解決方案,但一般都分為三種。第一是決策層和感知層彼此獨立的云端計算工程,第二是組合式端到端,意味著連接感知層和決策層需要強力中介,也更容易落地,第三即真正的端到端,也就是商湯目前開發(fā)出的這套方案,能夠讓企業(yè)以最低成本滿足智駕需要。
發(fā)布會現(xiàn)場,商湯絕影展示了搭載了其最新一代智駕方案的車輛,在無高精地圖條件下,僅依靠視覺感知的實際道路測試成果。從現(xiàn)場展示來看,無論是復(fù)雜城市道路還是無中線的鄉(xiāng)村道路上,車輛能高效準確地完成包括大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。
實際上,盡管落地成果不算多,但商湯科技對智駕已經(jīng)研究多年,最早可以追溯到 2016 年,與本田的合作。隨后多年,商湯科技在智駕領(lǐng)域發(fā)布了多項成果,在 2023 年的 CVPR 大賽評選中,商湯共有兩篇論文登上最佳論文候選名單(Award Candidate),其中自動駕駛研究論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動駕駛)斬獲本屆CVPR最佳論文獎(Best Paper Award)。
這也是UniAD為技術(shù)核心的端到端方案的重要理論基礎(chǔ)。在商湯絕影看來,如果說傳統(tǒng)的智駕方案每個功能都“自行其是”,那么端到端就是一個功能棧做所有事,其中UniAD是一種漸進的端到端方案,把原本分開的感知和決策功能模塊按照靈活的方式連接在一起。
在詳細步驟方面,UniAD利用多組問詢(query)實現(xiàn)了全棧 Transformer 的端到端模型。在產(chǎn)出結(jié)果層面,用一個特定的車身問詢(ego-vehicle-query)用來表示自車屬性。規(guī)劃模塊 (Planner) 將車身問詢與 BEV 特征進行交互,包含對整個環(huán)境的感知與預(yù)測信息,因此能更好的學(xué)習(xí)既定的規(guī)劃任務(wù)。為了減少碰撞,UniAD 方案還利OCC的模塊的輸出對自車路徑進行優(yōu)化,避免行駛到未來可能有物體占用的區(qū)域。在這個過程中,全部的模塊通過輸出特定的特征來幫助實現(xiàn)最終的目標“規(guī)劃”。不過,出于盈利考慮,商湯并沒有將端到端方案全量化,而是做了梯度規(guī)劃,在后兩個檔次的智駕方案中,才有完整的可搭載上車的端到端方案,這也為其成本的壓縮留足了空間。
02、智能化的其他底牌
商湯另一個著重介紹的技術(shù)突破,是DriveAGI,這個自動生成模型無論在智駕還是智艙都有多維度的落地。依托多模態(tài)大模型強大的世界理解、推理能力、決策能力以及交互能力,據(jù)官方說法,DriveAGI將是目前最貼近人類思維模式、最能理解人類意圖并有最強解決駕駛困難場景能力的技術(shù)方案。
此前業(yè)內(nèi)也有供應(yīng)商嘗試過做“大包大攬”式智駕人工智能,比如毫末也實現(xiàn)過 DrieGPT,運用了和特斯拉一樣的 Transformer 架構(gòu),并且用上了 Atention方式固定機器學(xué)習(xí)能力,據(jù)官方消息,DriveGPT 的參數(shù)規(guī)??梢詫薌PT-2的水平,但是推出之后對外披露的上車案例并不算多。
而根據(jù)絕影說法,DriveAGI已經(jīng)在多個測試方案中部署,不知道是否很快會有更多的落地消息?在智駕方面,從展示中,DriveAGI 表現(xiàn)出不錯的“預(yù)知能力”,也就是構(gòu)建世界模型,通過把場景語言化,再用參數(shù)推理下一個時間單位里各個參數(shù)的變化,從而完成“預(yù)判”某個時間節(jié)點是否應(yīng)該立即剎車的問題。
在智艙層面,多模態(tài)的 DriveAGI 能幫助乘客或駕駛?cè)死斫庵車h(huán)境,并給出行之有效的建議,例如,直接解讀復(fù)雜路標,或者在純粹只有視覺信息輸入的前提下理解車外的天氣。有了大模型作為“通用殺手锏”,商湯絕影的智能座艙成為商業(yè)變現(xiàn)的重要一環(huán),就可以理解了。
這次智能座艙發(fā)布的底氣比較足,第一是確實有新技術(shù),即4 月 23 日發(fā)布的“日日新”大模型的嵌入,其二是找到了穩(wěn)定的甲方“小米汽車,據(jù)悉,商湯“日日新”大模型也全面助力小愛同學(xué)車載語音場景應(yīng)用。
在技術(shù)層面,商湯絕影方面稱,日日新 3.0能力領(lǐng)先GPT-4V。由于采取了端云結(jié)合的技術(shù)路線,令絕影可以在短期內(nèi)獲得車企的信息,商湯端側(cè)大模型大幅超越同量級大模型,越級比肩7B、13B大模型,更適合車端部署?;诙嗄B(tài)大模型、大語言模型、文生圖模型等能力組合,商湯絕影構(gòu)建了以多模態(tài)場景大腦為核心的一系列全景感知的智艙產(chǎn)品。
與其說商湯為智艙發(fā)現(xiàn)應(yīng)用場景,不如說是創(chuàng)造了場景,再來給車企講一個需要此場景作為出口的故事。此外,由于搭載的是富有多模態(tài)感知能力的大模型,絕影智艙能主動“問診”,診斷車主的疲勞程度以及其他健康指標。這也算是商湯的老本行,在 2018 年的商湯人工智能峰會上,商湯科技發(fā)布首款智能汽車產(chǎn)品SenseDrive DMS駕駛員監(jiān)控系統(tǒng),可以隨時判定駕駛員的清醒狀態(tài),延續(xù)了商湯以“視覺識別”起家的傳統(tǒng)。
另外,在更具科幻外表的“軟裝”層面,為了讓操作智艙的方式更靈活,絕影還設(shè)計了3D Gaze 人機交互系統(tǒng),向 Vision Pro 的進階版看齊。用戶無需點按屏幕,通過眼神即可精準控制中控圖標,完成多種交互操作。3D 動態(tài)手勢讓用戶通過手勢即可隔空操控屏幕。而且這一切都是在無需佩戴外接設(shè)備的前提下進行的。
03、算力基礎(chǔ)設(shè)施帶來了底氣
端到端智駕方案,以及背后,DriveAGI背后,都需要大量算力作為支撐。有算法專家認為,“端到端方案通常需要處理大量的傳感器數(shù)據(jù),包括圖像、點云、雷達等,直接輸出控制指令,對算力的要求較高。此外,為了訓(xùn)練這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,需要大量的標注數(shù)據(jù)。與以往方案相比,端到端方案可能會帶來更高效的數(shù)據(jù)處理和更緊密的感知-規(guī)劃協(xié)同,但同時也對計算平臺的并行處理能力和存儲速度提出了更高要求?!睂Υ?,無論是在云端還是在硬件設(shè)施層面,商湯都表示很有信心。據(jù)介紹,SenseCore商湯大裝置浮點數(shù)達到 12000petaFLOPS。
部分車企/智駕廠商算力盤點。注:1EFLOPS=1000PFLOPS
而在去年 5 月,商湯AIDC建成,其設(shè)計的峰值算力高達3740 Petaflops(1 Petaflop等于每秒1千萬億次浮點運算),成為當(dāng)時亞洲最大的人工智能超算中心。根據(jù)商湯官方說法,該中心的建成是為了滿足更行業(yè)場景對新業(yè)務(wù)的算力需求,“肥水不流外人田”,商湯絕影是一個絕佳的實驗藍本,有足夠多的算力,也有為了適配上駕駛能力的多模態(tài)場景案例,能夠給大模型本身回饋更多運行建議。如其展示圖片所示,商湯絕影算力超12000PFFLOPS ,剩下的主機廠和 Tier1 大多都在 1500PFFLOPS 以下。
AI 算力中心的建設(shè)作為一個“重”項目,日正益被車企重視。2021 年,特斯拉展示了自己的有 5670塊GPU的超級計算機群,算力可達21.8 EFLOPS,兩年前,小鵬和阿里云合作,在烏蘭察布建立“扶搖”超算中心,算力可達600PFLOPS,為當(dāng)時中國最大。2023 年中旬,理想和火山引擎合作,在山西建立自己的超算中心,算力可達750 PFLOPS?!皹浯蠛贸藳觥?,國內(nèi)主流新能源主機廠都選擇了與頭部云供應(yīng)商合作,而商湯本身就可以算作“一顆大樹”,讓一個算力充沛的人工智能公司來做智駕,或許有不一樣的效果。
AI 發(fā)展,萬物興。商湯 CEO徐立表示:“商湯生成式AI業(yè)務(wù)的增長,得益于各行各業(yè)對大模型的訓(xùn)練和推理的廣泛需求,這預(yù)示著中國硬科技投資的新周期正式開啟。商湯通過在各業(yè)務(wù)層面深入融合生成式AI能力,正在贏得新客戶,并推動效率和生產(chǎn)力的全面提升?!?/p>
根據(jù)財報顯示,2023 年商湯AI業(yè)務(wù)的營收已經(jīng)占比35%。未來,商湯會進一步思考大模型給各項業(yè)務(wù)的賦能。比如絕影,就需要跑通大模型和智駕之間的閉環(huán),讓汽車搜集的信息反饋給算力中心,再創(chuàng)造更高效的技術(shù)解決方案,從而為更多品牌定制化智駕服務(wù)。
商湯各項業(yè)務(wù)營收情況當(dāng)然,硬件基礎(chǔ)全部拉滿也并不和智能化方案的成功掛鉤,智能化供應(yīng)商最重要的還是尋找車企買單。
北京車展上,商湯官宣了與哪吒的深度合作,據(jù)悉與算力強關(guān)聯(lián),商湯絕影為哪吒打造一塊堅實的算力底座。而在智艙應(yīng)用層面,日日新大模型也將助力小米 SU7 艙內(nèi)的小愛同學(xué)。如此來看,布局多年,商湯在智能領(lǐng)域的布局正在慢慢發(fā)芽。當(dāng)然,能否經(jīng)歷時間的考驗,長成參天大樹,還需要再觀察。