賈浩楠 發(fā)自 副駕寺,智能車參考 | 公眾號 AI4Auto
商湯絕影,正在展現(xiàn)“CVPR最佳論文”之外的實力。
首先是在超越車端算法的AI大模型實力:自動駕駛的云端世界模型,和智能座艙的流式多模態(tài)大模型。
作為智能汽車供應商,還完成了350萬輛+的產(chǎn)品上車搭載里程碑。
更重要到,商湯絕影作為技術絕對領先的端到端“T0”級別玩家,現(xiàn)出對主機廠的合作吸引力和落地加速度。
商湯絕影CTO肖楓直接說:“地大華魔”的頭部格局,已經(jīng)是過去式了。
絕影新進展:云端世界模型和車端多模態(tài)大腦
商湯絕影剛剛辦了自己的第一個AI DAY,其實說成是一場“交卷答辯”更為合適。
交的卷可以分成技術和落地兩方面。
首先是量產(chǎn)智駕方面,絕影首次公開了自己的世界模型——開悟。
簡單的理解就是一個自動駕駛專用版的Sora大模型,用來解決端到端研發(fā)體系中的仿真問題。
開悟世界模型可以理解真實世界中的物理法則和交通規(guī)則,在這個基礎上準確的生成場景(這是與sora的最大不同)。
具體來說,生成的視頻基于11個攝像頭, 11V保持時空一致的時間間隔,最長可以達到 150 秒,分辨率能夠達到1080P。
同時開悟生成的場景也是可控的,能夠細微的做到元素級別。
晴天下周邊環(huán)境的投影、夜間車輛遠近近光的投射,都是符合物理法則的真實呈現(xiàn)。
這種感覺有點像游戲工業(yè)著名的虛幻引擎,但開悟世界模型的的不同之處在于,它通過海量數(shù)據(jù)的學習物理法則,而且同時還學會了交通規(guī)則,比如車輛剎車的時候視屏中車輛會適當?shù)谋3周嚲嗖⒑侠韱⑼!?/p>
而與行業(yè)內(nèi)其他先發(fā)的世界模型相比,開悟的優(yōu)勢在于多視角和清晰度。
目前業(yè)內(nèi)最好的水平現(xiàn)在是6V視角,而開悟通過行人車輛3D框和時空軌跡作為精準的輸入,控制信號來生成 11V 的視頻數(shù)據(jù),保證了11個攝像頭在仿真空間中的時空一致性。
另外,開悟生成的是1080P視頻會更加清晰,更加方便模型進行訓練。借助商湯日日新原生多模態(tài)的基模型,開悟可以達到元素級別的精準度,可以生成不同的場景和各種的 corner case,比如同一路段雨天變晴天、增加車輛種類數(shù)目等等。
有了開悟世界模型,絕影目前打造了覆蓋 1024 類場景,包括了 50 多類天氣、光照等條件的基礎場景, 200 多類不同的交通標志、 300 多類道路的連接的場景,比如說路口、環(huán)島還有隧道等等,而在這個基礎上可以構建千萬級別的場景庫,覆蓋更多的長尾場景。
智能座艙層面,絕影發(fā)布了「A New Member For U」(你的家庭新成員),號稱讓汽車擁有「有趣的靈魂」。
核心技術是我們詳細介紹過的商湯原生流式多模態(tài)大模型,以及車載類人記憶框架和持續(xù)運行框架。
體驗的亮點是更加“叛逆”,智能座艙不再只是一問一答的工具,而是能夠主動學習,自我進化。
例如,在旅途中,后排的孩子睡著了,New Member會主動把空調(diào)溫度升高、音樂的聲量調(diào)低,底盤和駕駛模式都調(diào)整為舒適模式,給小朋友一個舒適安心的睡眠環(huán)境。
不需要用戶下指令,而是它觀察到了,思考和推理之后,主動的服務。既不打擾,又有溫度。
車載類人記憶框架,與人類的記憶機制非常相似,包括臨時記憶、長期記憶和場景記憶三部分,三者結合讓系統(tǒng)實現(xiàn)類人的記憶能力。
例如,車內(nèi)的小朋友看到路上其他小孩吃棉花糖,拿出棒棒糖想偷吃,New Member「家庭新成員」看到了這個小動作,「記得」小朋友剛看完牙醫(yī),不能吃糖,進行主動提醒。
此外,商湯絕影還打造了能夠持續(xù)推理的Always-on運行框架,能夠將多模態(tài)感知到的信息與各種記憶相結合,進行高效的處理和反饋,做到時刻感知需求,主動為用戶服務。
兩個技術進展“交卷”,分別來自量產(chǎn)智駕和智能座艙領域。
對應在商業(yè)落地層面的,絕影橫跨智駕、座艙,同樣給出了最新的落地進展。
商湯絕影,量產(chǎn)走到哪一步
商湯絕影商業(yè)化進展,包含在這張圖中:智駕智艙產(chǎn)品上車數(shù)量超過350萬輛,覆蓋超過30家車企100多款車型。
其中,智能座艙的AI軟件產(chǎn)品,絕影的市場份額是行業(yè)目前絕對的No.1,連續(xù)五年。舉幾個例子,比如極氪X上的B柱智慧人臉識別系統(tǒng)、小米SU7上小愛同學識別路上汽車品牌、建筑類別等等復雜目標任務等等,都是絕影的提供的底層能力。
量產(chǎn)智駕上,目前公開的有6款車,覆蓋3個車企:
產(chǎn)品方案上,包括基礎智駕方案、覆蓋全場景的高階智駕,以及基于UniAD打造的端到端量產(chǎn)智駕方案。
地平線J6E和J6M兩個平臺,絕影打造了AD Pro和AD Max兩個量產(chǎn)智駕方案,其中AD Max能夠實現(xiàn)城區(qū)無圖NOP。J6平臺的智駕方案預計明年2季度就會量產(chǎn)交付。
200+TOPS的車載算力平臺上,絕影已經(jīng)具備量產(chǎn)無圖,無激光雷達的1R11V高階智駕方案,實現(xiàn)不挑城市不挑路段的“門到門”智駕。
這套“無圖純視覺”端到端方案,奇瑞旗下的大卓智能和東風集團剛剛和絕影達成協(xié)議,共同推進量產(chǎn)上車。
新的合作模式中,絕影也不再是一個簡單的智艙或智駕模塊供應商,而是和主機廠深度合作,分享商湯積累已久的AI大算力裝置、云服務、工具鏈等等能力。
為什么會出現(xiàn)這樣的轉變?商湯聯(lián)合創(chuàng)始人、首席科學家、絕影CEO王曉剛認為:
AGI時代,單打獨斗的車企和AI公司都很難脫穎而出。
并且給出了技術層面的解析。
王曉剛:決戰(zhàn)端到端,車端遠遠不夠
所謂“地大華魔”的格局,是指去年圈內(nèi)流行開的量產(chǎn)智駕頭部玩家名單,以定點數(shù)量、輿論聲勢等作為參考:地平線、大疆、華為、Momenta。
商湯認為這樣的評價體系已經(jīng)成為過去式,但理由卻不是常見的端到端帶來的體驗優(yōu)越性。
王曉剛博士以絕影最新的技術架構作為依據(jù):端到端給了所有智駕玩家重新上桌出牌的機會,但這個機會并不平等。
因為端到端的數(shù)據(jù)驅動本質(zhì),決定了它本身上限極高,下限也極低的技術特征,所謂garbage in,garbage out。
所以商湯提出的第一個觀點,是決勝不在車,不在端到端算法本身,而在云端更加龐大和關鍵的世界模型,生成仿真數(shù)據(jù),形成雙輪驅動車云、車輪一車云一體。
關鍵是獲取大量、高質(zhì)量的路測數(shù)據(jù),當然還必須能持續(xù)獲得。
也給出了具體的數(shù)據(jù)尺度:
目前絕影智駕研發(fā)中20%的數(shù)據(jù),都是由開悟世界模型生成。在一塊A100 GPU上,世界模型平均每天可以生產(chǎn)大約2萬個bundle,相當于100臺路測車的數(shù)據(jù)采集能力,或500 臺量產(chǎn)車回傳有效數(shù)據(jù)的效率。
而這樣的GPU,商湯一共有超過5.4萬塊,另外世界模型生成的訓練數(shù)據(jù),往后還會進一步占比達到80%。
這其實才是“絕影”真正一日千里的核心,也是車企和AI公司無法“獨贏”的底層邏輯。
特斯拉因其不可復制的歷史原因,率先擁有了 700 萬輛高階智駕量產(chǎn)車,和算力達到 10萬PFLOPS的基礎設施,已經(jīng)拿穩(wěn)了L2+終局的門票。
但根據(jù)第三方統(tǒng)計,我們國內(nèi)支持城區(qū)輔助駕駛高階支架的車的數(shù)量約為數(shù)十萬輛,并且不同的車型數(shù)據(jù)的基礎設施也不統(tǒng)一,云端算力與特斯拉也有兩個數(shù)量級的差距。
國內(nèi)車廠要想追趕上,必須要通過新的模式來革新數(shù)據(jù)基礎設施。
商湯絕影,同樣因其難以復制的歷史原因,形成了傳統(tǒng)自動駕駛創(chuàng)業(yè)公司無法具備的大算力、大模型能力。
所以大卓、東風和絕影的合作模式,超越傳統(tǒng)的地方不僅在于絕影愿意白盒交付,更關鍵在于絕影愿意把基礎設施、底層工具直接部署到主機廠,合作開發(fā)。
換言之,將傳統(tǒng)智駕模塊用AI算法替代實現(xiàn)數(shù)據(jù)驅動并不難,甚至如今連“門檻”都算不上。端到端上車的體驗、效率,關鍵是背后的數(shù)據(jù)能力。
所以從這個角度看,商湯絕影是目前智能供應商中的唯一:頂尖AI大牛團隊、全棧智艙智駕交付能力、“純血”一段式端到端算法、自有超算基礎設施、完善齊全的各類大模型應用。
以及完全To B,沒有任何主導C端整車意愿的產(chǎn)品策略。