?作者 | 張馬也,編輯 | 德新
智駕行業(yè)第一個(gè)開(kāi)放的世界模型
大模型正重新定義智能汽車(chē)的體驗(yàn)。如果說(shuō)上半年的北京車(chē)展上,還只是一部分頭部車(chē)企圍繞端到端與大模型領(lǐng)域率先展開(kāi)探索,那到了前不久的廣州車(chē)展,包括外資與合資車(chē)企在內(nèi),幾乎所有廠商都在擁抱端到端與大模型的技術(shù)路線。而大模型也本該是AI公司的主戰(zhàn)場(chǎng)。
11月27日,具有深厚AI背景的汽車(chē)科技公司商湯絕影舉辦了2024「絕影實(shí)力AI DAY」。商湯絕影展示了「駕-艙-云」三位一體的通用人工智能(AGI)產(chǎn)品體系與戰(zhàn)略布局,發(fā)布了一系列基于AI大模型的全新產(chǎn)品:
基于多模態(tài)大模型和獨(dú)有類(lèi)人記憶框架的座艙產(chǎn)品「A New Member For U」
三階不同梯度的端到端智駕量產(chǎn)方案;
以及產(chǎn)品化的世界模型「開(kāi)悟」。
多模態(tài)座艙大模型結(jié)合記憶框架,使汽車(chē)不僅是智能工具,更賦予其「有趣的靈魂」;而絕影在智駕領(lǐng)域多年的探索,也形成了一系列工程化的量產(chǎn)方案;尤為值得關(guān)注的是,這次發(fā)布的世界模型「開(kāi)悟」。目前,各大頭部主機(jī)廠和Tier 1都在探索和研發(fā)世界模型,但還并沒(méi)有特別成熟的產(chǎn)品問(wèn)世。世界模型通過(guò)生成高質(zhì)量仿真數(shù)據(jù),推動(dòng)端到端智能駕駛的發(fā)展。「開(kāi)悟」可以說(shuō)是第一個(gè)產(chǎn)品化的,并且將向汽車(chē)行業(yè)開(kāi)放的世界模型。
商湯絕影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛表示,基于世界模型,絕影打造出了真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)的「雙輪驅(qū)動(dòng)」閉環(huán),構(gòu)建了車(chē)云一體的新范式。目前絕影的智駕方案,已量產(chǎn)交付廣汽埃安、一汽紅旗等3家車(chē)企6款車(chē)型。發(fā)布會(huì)上,商湯絕影還正式宣布與大卓智能、東風(fēng)汽車(chē)等合作伙伴簽訂戰(zhàn)略合作協(xié)議,在高階智駕量產(chǎn)、端到端量產(chǎn)、AI云服務(wù)、AI大模型等領(lǐng)域開(kāi)展全方位的深度合作。商湯絕影的AI大模型與端到端方案量產(chǎn),正式拉開(kāi)序幕。
讓座艙擁有「有趣的靈魂」
在智能座艙領(lǐng)域,商湯絕影一直是量產(chǎn)的領(lǐng)跑者。據(jù)第三方數(shù)據(jù),絕影座艙視覺(jué)AI軟件市場(chǎng)份額連續(xù)5年位列行業(yè)第一,市面上你能看到的絕大部分智能車(chē)大概率都搭載了商湯絕影的座艙技術(shù),比如蔚來(lái)、樂(lè)道、極氪、智己、小米等等。
座艙大模型從單模態(tài)走向多模態(tài)也是必然趨勢(shì)。而在這次發(fā)布會(huì)上,絕影拋出了一個(gè)有趣的產(chǎn)品化新思路:汽車(chē)是否可以擁有「靈魂」,并最終融入用戶家庭,成為一位「新成員」。
以往的車(chē)機(jī)交互,主要是工具導(dǎo)向,為用戶提供基礎(chǔ)的信息查詢和問(wèn)題解答服務(wù);但在智能化時(shí)代,它應(yīng)該能學(xué)習(xí)、進(jìn)化,提供更主動(dòng),更懂用戶的服務(wù)。沿著這種思路,商湯絕影打造了「A New Member For U」(你的家庭新成員),讓智能汽車(chē)能夠察言觀色,時(shí)刻準(zhǔn)備著主動(dòng)提供專(zhuān)屬服務(wù),就像車(chē)主身邊的家庭新成員。
例如,在旅途中后排孩子睡著了,智能座艙會(huì)主動(dòng)調(diào)高空調(diào)溫度、降低音樂(lè)音量,同時(shí)把底盤(pán)和駕駛模式調(diào)整為舒適模式,給小朋友一個(gè)舒適安心的休憩環(huán)境。
更重要的是,整個(gè)過(guò)程不需要用戶挨個(gè)下指令,而是它觀察、思考和推理之后提供主動(dòng)的服務(wù)。王曉剛介紹,這位「家庭新成員」背后,商湯絕影研發(fā)了三大核心框架:
原生流式多模態(tài)大模型;
類(lèi)人記憶框架;
Always-on持續(xù)運(yùn)行框架;
原生流式多模態(tài)大模型能夠綜合理解文本、圖像、音頻、視頻、3D等信息模態(tài),包括人的表情、語(yǔ)氣等,做到全場(chǎng)景的多模態(tài)感知。商湯絕影還針對(duì)車(chē)載場(chǎng)景進(jìn)行定制,融合車(chē)端感知數(shù)據(jù)、車(chē)端場(chǎng)景,進(jìn)行針對(duì)性訓(xùn)練。在全面感知的基礎(chǔ)上,模型可以進(jìn)行深度理解和推理思考,具備理解世界、理解人類(lèi)的能力。
要讓汽車(chē)擁有「靈魂」,就必須要有「記憶」,這是人類(lèi)認(rèn)知能力的基礎(chǔ)。
王曉剛表示,有了「記憶」,車(chē)輛才能與你會(huì)產(chǎn)生默契,不斷成長(zhǎng),直到與用戶心有靈犀。類(lèi)人記憶框架,也是商湯絕影這一座艙解決方案重要的差異化技術(shù)。它與人類(lèi)的記憶機(jī)制相似,擁有臨時(shí)記憶、長(zhǎng)期記憶和場(chǎng)景記憶,三者結(jié)合讓系統(tǒng)實(shí)現(xiàn)類(lèi)人的記憶能力。
臨時(shí)記憶,能記得一些瞬時(shí)信息,比如車(chē)?yán)锏奈锲?、人的搭配、有沒(méi)有系安全帶等。
長(zhǎng)期記憶,就像是一個(gè)檔案庫(kù),存儲(chǔ)著用戶的基本信息、行為模式和偏好等,并且能自我迭代,能從用戶長(zhǎng)期使用中總結(jié)規(guī)律并不斷優(yōu)化。
場(chǎng)景記憶可以從臨時(shí)記憶和長(zhǎng)期記憶中提取重要信息,對(duì)這些信息實(shí)時(shí)處理和分析,作出決策或者解決問(wèn)題。
最后是持續(xù)運(yùn)行框架,它能夠?qū)⒍嗄B(tài)感知到的信息與各種記憶相結(jié)合,進(jìn)行高效的處理和反饋,做到時(shí)刻感知需求,主動(dòng)為用戶服務(wù)。據(jù)介紹,「家庭新成員」的系統(tǒng)數(shù)據(jù)延遲控制在1毫秒以內(nèi),端側(cè)也能快速響應(yīng),目前首包耗時(shí)最短僅需60毫秒,推理速度40 Tokens/秒。它的反應(yīng)速度可能比人還要快。這次「家庭新成員」產(chǎn)品的發(fā)布,不僅是商湯絕影AI大模型算法的一次集中展示,也展現(xiàn)了它對(duì)AI產(chǎn)品化的深度思考。
端到端智駕量產(chǎn)大潮
繼無(wú)圖城市NOA之后,端到端智駕已經(jīng)成為智駕領(lǐng)域確定性的技術(shù)趨勢(shì),也是當(dāng)前車(chē)企在智駕傳播上的熱點(diǎn)。作為AI領(lǐng)域的龍頭公司,商湯絕影也是當(dāng)仁不讓。絕影AI Day全面展示其多階的量產(chǎn)方案,包括基于地平線J6E/J6M、英偉達(dá)Orin/Thor等不同算力平臺(tái)打造的基礎(chǔ)智駕方案、全場(chǎng)景高階智駕、端到端智駕等絕影量產(chǎn)智駕產(chǎn)品體系,并正式發(fā)布基于UniAD打造的絕影量產(chǎn)端到端智駕方案AD Ultra。
基于地平線J6E和J6M兩個(gè)平臺(tái),商湯絕影已經(jīng)打造了AD Pro和AD Max兩個(gè)量產(chǎn)智駕方案,其中AD Max能夠?qū)崿F(xiàn)城區(qū)無(wú)圖NOP。J6平臺(tái)的智駕方案,預(yù)計(jì)明年2季度就會(huì)量產(chǎn)交付。王曉剛介紹,絕影的UniAD純視覺(jué)端到端方案,無(wú)圖、無(wú)激光雷達(dá),僅需1個(gè)毫米波雷達(dá)和11個(gè)攝像頭,跑在200T算力平臺(tái)上,就能夠?qū)崿F(xiàn)一段式端到端智駕,實(shí)現(xiàn)「類(lèi)人」駕駛體驗(yàn)。
早在2022年,商湯及聯(lián)合實(shí)驗(yàn)室提出行業(yè)首個(gè)感知決策一體化的自動(dòng)駕駛通用模型UniAD,并榮獲CVPR 2023最佳論文。UniAD將感知、決策、規(guī)劃等模塊都整合到一個(gè)全棧Transformer端到端模型,實(shí)現(xiàn)感知決策一體化的端到端智能駕駛。2024年北京車(chē)展,商湯絕影也展出了這一方案的階段性成果。據(jù)HiEV了解,目前該方案已經(jīng)在上海城區(qū)demo運(yùn)行。
基于前述的高階智駕方案,商湯絕影已經(jīng)與大卓智能、東風(fēng)汽車(chē)等達(dá)成戰(zhàn)略合作,推進(jìn)量產(chǎn)交付。憑借在大模型技術(shù)上的積累,商湯絕影正在向智駕第一梯隊(duì)發(fā)起沖擊。但如果只是拿出又一個(gè)端到端方案,可能無(wú)法滿足市場(chǎng)的期待。所以,面對(duì)端到端智駕長(zhǎng)期持續(xù)的技術(shù)提升,商湯絕影還祭出了另一項(xiàng)絕招——世界模型。
汽車(chē)大模型之戰(zhàn),決戰(zhàn)在云端
本次發(fā)布會(huì)上,商湯絕影亮相的最為重磅的產(chǎn)品,是「開(kāi)悟」世界模型。如果說(shuō),座艙和智駕因?yàn)橛脩舾兄蠲黠@,很多車(chē)企希望將其掌握在自己手中,那世界模型,就是商湯絕影給車(chē)企發(fā)出的最無(wú)法拒絕的邀請(qǐng)。端到端大模型方案,能夠直接從原始傳感器數(shù)據(jù)中學(xué)習(xí)駕駛策略,減少了對(duì)傳統(tǒng)模塊化系統(tǒng)的依賴(lài)。但這種方案對(duì)高質(zhì)量數(shù)據(jù)的需求極高,而且數(shù)據(jù)需要隨著模型的更新,不斷訓(xùn)練迭代,其中的技術(shù)和成本要求都非常高。受限于量產(chǎn)規(guī)模、算力資源,目前大多數(shù)車(chē)企和智駕公司都面臨高質(zhì)量駕駛數(shù)據(jù)的獲取難度大、效率低、成本高的問(wèn)題。
因此,王曉剛表示:「智駕高端局的競(jìng)爭(zhēng)不止是車(chē)端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場(chǎng)在云端?!?/p>
商湯絕影的答案,是給行業(yè)提供「開(kāi)悟」世界模型?!搁_(kāi)悟」可以在云端生成高質(zhì)量、真實(shí)的視頻數(shù)據(jù),通過(guò)車(chē)企實(shí)車(chē)采集的數(shù)據(jù),和仿真生成的數(shù)據(jù),形成雙輪驅(qū)動(dòng)的數(shù)據(jù)閉環(huán),從而讓智駕產(chǎn)品不斷迭代。在其中,商湯絕影承擔(dān)了大部分的算力設(shè)施和數(shù)據(jù)成本,車(chē)企也能在不需要大量新建算力基礎(chǔ)設(shè)施,掌握自己車(chē)輛數(shù)據(jù)的基礎(chǔ)上,更新智駕產(chǎn)品。
「開(kāi)悟」世界模型能夠理解真實(shí)世界的物理規(guī)則、交通規(guī)則,生成的視頻數(shù)據(jù)也更加逼真。現(xiàn)場(chǎng)展示的「開(kāi)悟」生成視頻案例中,晴朗天氣下,汽車(chē)、路燈都是有影子的,右轉(zhuǎn)車(chē)輛會(huì)主動(dòng)讓行優(yōu)先級(jí)更高的直行車(chē)輛。
在圖像真實(shí)的基礎(chǔ)上,「開(kāi)悟」生成的場(chǎng)景視頻,時(shí)間最長(zhǎng)為150秒、分辨率1080P、生成視角最多可以做到11V,是行業(yè)首個(gè)同時(shí)完成上述指標(biāo)的智駕世界模型。目前,「開(kāi)悟」世界模型可以支持多樣化的自動(dòng)駕駛場(chǎng)景及Corner case的可控生成,可生成1024類(lèi)場(chǎng)景,打造了千萬(wàn)級(jí)的生成場(chǎng)景庫(kù)。
「開(kāi)悟」預(yù)計(jì)將在2025年對(duì)行業(yè)開(kāi)放。目前商湯絕影智駕系統(tǒng)20%的數(shù)據(jù)由「開(kāi)悟」生成,未來(lái)會(huì)達(dá)到80%?!搁_(kāi)悟」世界模型既符合商湯絕影一貫高舉高打的風(fēng)格,也能最大化利用商湯智算中心的算力設(shè)施。商湯大裝置作為大模型基礎(chǔ)設(shè)施,為「開(kāi)悟」提供了堅(jiān)實(shí)的算力基礎(chǔ)。目前商湯總算力規(guī)模高達(dá)20000petaFLOPS,擁有超5.4萬(wàn)塊GPU。
算法、算力、數(shù)據(jù),是過(guò)去十多年人工智能浪潮的基石,現(xiàn)在在AGI與智能駕駛的新浪潮中,商湯絕影再次以這三者為基礎(chǔ),構(gòu)建了完整的產(chǎn)品體系。王曉剛在發(fā)布會(huì)上對(duì)車(chē)企喊話:商湯絕影是邁向AGI之路的最佳同行者,「在智能汽車(chē)與云端平臺(tái)之間流動(dòng)的數(shù)據(jù),將成為加速大模型上車(chē)的高效燃料」。大模型上車(chē)的號(hào)角已經(jīng)吹響,商湯絕影的邀請(qǐng)函已經(jīng)發(fā)出,車(chē)企們收到了嗎?