佐思汽研發(fā)布《2023年中國(guó)汽車多模態(tài)交互發(fā)展研究報(bào)告》,主要梳理了主流座艙交互方式、2023年上市的重點(diǎn)車型交互方式應(yīng)用、供應(yīng)商座艙交互方案,以及多模交互融合趨勢(shì)。
通過梳理最近一年新上市車型的交互方式和功能來看,主動(dòng)式、擬人化、自然化交互成為主要方向。從交互方式來看:?jiǎn)我荒B(tài)交互,如觸覺、語音等主流交互的控制范圍從車內(nèi)拓展至車外,指紋、肌電等新型交互方式的上車案例開始增多;多模態(tài)融合交互下,語音+頭姿/人臉/唇語、面部+情緒/嗅覺等多種融合交互不斷上車,旨在打造更加主動(dòng)、自然的人車交互。
單一模態(tài)的縱深發(fā)展
觸覺交互方面:座艙大屏化、多屏化趨勢(shì)加劇,同時(shí)智能表面材料在艙內(nèi)的擴(kuò)展應(yīng)用,讓觸覺感知范圍向車門、車窗、座椅等部件擴(kuò)展,并逐步引入觸覺反饋技術(shù);
語音交互方面:語音交互在AI大模型的賦能下,功能愈加智能化、情感化。唇動(dòng)識(shí)別、聲紋識(shí)別等技術(shù)的上車,使語音交互精準(zhǔn)度得到進(jìn)一步提升,控制范圍也從車內(nèi)拓展至車外;
視覺交互方面:基于視覺技術(shù)的面部/手勢(shì)識(shí)別范圍開始逐漸向肢體識(shí)別擴(kuò)展,包括頭部姿勢(shì)、手臂動(dòng)作,以及身體行為等;
嗅覺交互方面:原主要用于凈化空氣、祛除異味的嗅覺交互功能,現(xiàn)今可實(shí)現(xiàn)座艙殺菌消毒、并支持香氛系統(tǒng)與座艙場(chǎng)景/季節(jié)時(shí)令聯(lián)動(dòng)。
案例1、語音控車實(shí)現(xiàn)車內(nèi)向車外延伸
代表車型:長(zhǎng)安啟源A07、極越01
代表功能:車外語音開啟車門、車窗、輔助泊車等
長(zhǎng)安啟源A07采用科大訊飛最新XTTS 4.0 技術(shù),車載語音助手聲音更加自然擬人化,具備高興、抱歉、疑惑等多情感表達(dá)。支持向車外喊話(內(nèi)容可自定義);此外,還可在車外通過語音實(shí)現(xiàn)對(duì)后備箱、車窗、音樂、空調(diào)、出庫(kù)/泊車等功能的控制。
極越01搭載“SIMO”語音助手,支持全域全離線語音,無網(wǎng)弱網(wǎng)也可全程在線語音交互;可實(shí)現(xiàn)500毫秒識(shí)別,700毫秒內(nèi)響應(yīng)。在車外,駕乘人員可通過聲紋識(shí)別技術(shù)實(shí)現(xiàn)語音操作空調(diào)、音響、燈光、車窗、車門、后尾門、充電蓋的開啟/關(guān)閉等功能,以及支持車外語音泊車。
案例2、聲紋識(shí)別擴(kuò)大應(yīng)用
代表車型:理想L7、合創(chuàng)A06/V09
代表功能:識(shí)別駕乘人員身份,提供針對(duì)性服務(wù)
理想L系列車型均支持聲紋識(shí)別功能。在乘客聲紋注冊(cè)后,“理想同學(xué)”可分辨乘客是誰,叫出不同乘客指定的昵稱,并結(jié)合聲紋記憶對(duì)不同乘客位置執(zhí)行車控。
合創(chuàng)A06/V09的聲紋識(shí)別VOICE ID,能清楚識(shí)別有效用戶身份以及指令,并將成為HYCAN ID的入口,為用戶接入豐富智慧生態(tài),使用100+款?yuàn)蕵窇?yīng)用。另外基于聲紋識(shí)別技術(shù),系統(tǒng)將主動(dòng)屏蔽其他干擾聲音,提高主駕識(shí)別精準(zhǔn)度。
案例3、肌電交互實(shí)現(xiàn)車載商業(yè)化落地
代表車型:嵐圖追光
代表功能:車內(nèi)外隔空微手勢(shì)控車
2023年4月,嵐圖追光與柔靈科技推出肌電交互融合方案。該方案主要通過肌電手環(huán)實(shí)現(xiàn)。手環(huán)內(nèi)部安裝多通道肌電傳感器和高精度的放大器,可以實(shí)時(shí)采集豐富的肌肉電信號(hào)并生成算法,傳導(dǎo)計(jì)算終端,從而生成個(gè)性化的AI手勢(shì)模型,之后再和嵐圖的車載平臺(tái)整合。使用者將手環(huán)與車內(nèi)藍(lán)牙連接,即可實(shí)現(xiàn)以微手勢(shì)控制車輛,包括開關(guān)后備箱、升降車窗等60+種手勢(shì)動(dòng)作。此外,手環(huán)還可以和車內(nèi)游戲系統(tǒng)無縫連接。借助肌電手環(huán)的手勢(shì)識(shí)別,用戶可以更自然、直觀地操控游戲角色,如地鐵跑酷等。
多模態(tài)融合,打造主動(dòng)交互
目前車企已實(shí)現(xiàn)的多模態(tài)融合包括但不限于語音+唇動(dòng)識(shí)別、語音+面部識(shí)別、語音+手勢(shì)識(shí)別、語音+頭姿、面部+情緒識(shí)別、面部+眼球追蹤、香氛+面部+語音識(shí)別等。其中語音多模態(tài)交互方式為當(dāng)下主流,應(yīng)用車型包括上文提到的長(zhǎng)安啟源A07、極越01、理想L7、合創(chuàng)A06/V09等車型。
多模態(tài)融合代表功能(僅列舉部分)
來源:佐思汽研《2023年中國(guó)汽車多模態(tài)交互發(fā)展研究報(bào)告》
案例1、語音+頭姿交互:魏牌藍(lán)山DHT PHEV將語音和頭姿進(jìn)行結(jié)合,交互方式簡(jiǎn)單直觀
當(dāng)駕駛員進(jìn)行語音對(duì)話時(shí),藍(lán)山座艙利用車載攝像頭捕捉駕駛員的頭部動(dòng)作,通過點(diǎn)頭/搖頭進(jìn)行確定/否定答復(fù)。例如語音控制導(dǎo)航時(shí),可通過點(diǎn)頭/搖頭選擇路線規(guī)劃方案。
案例2、面部+情緒識(shí)別:睿藍(lán)7、極狐考拉等車型在面部識(shí)別功能上融入情緒識(shí)別技術(shù),提供主動(dòng)交互,增強(qiáng)交互體驗(yàn)
睿藍(lán)7的多模智識(shí)Face-ID系統(tǒng)支持唇動(dòng)識(shí)別、情緒識(shí)別,能記憶關(guān)聯(lián)賬戶對(duì)應(yīng)語音、座椅、后視鏡、氛圍燈、后備箱設(shè)置等車輛功能個(gè)性化信息,還可根據(jù)車主的“臉色”來選擇合適的音樂。
極狐考拉位于B柱的攝像頭正對(duì)后排,可實(shí)時(shí)監(jiān)控孩子狀態(tài)。例如孩子在微笑時(shí)將自動(dòng)抓拍傳送至中控屏;哭鬧時(shí)將自動(dòng)播放安撫音樂/智能座椅表面呼吸律動(dòng),平復(fù)孩子情緒。另外,攝像頭還可與車內(nèi)毫米波雷達(dá)聯(lián)動(dòng),判斷孩子是否睡著,睡著則自動(dòng)打開睡眠模式,開啟座椅通風(fēng),空調(diào)溫度適當(dāng)調(diào)整,音響、氛圍燈進(jìn)行聯(lián)動(dòng),產(chǎn)生律動(dòng)效果。
案例3、?面部+嗅覺:蔚來EC7、睿藍(lán)7等車型實(shí)將駕駛員監(jiān)控系統(tǒng)與香氛系統(tǒng)聯(lián)動(dòng),提升駕車安全性
蔚來EC7監(jiān)測(cè)到駕駛員的疲勞狀態(tài)時(shí),將自動(dòng)釋放提神醒腦的香氛,以確保駕駛安全;
睿藍(lán)7位于A柱的攝像頭監(jiān)控到駕駛員犯困時(shí),將自動(dòng)釋放提神香氛,并進(jìn)行語音提醒。
大模型及多模態(tài)融合,將推進(jìn)AI Agent上車
AI大模型正從單模態(tài)走向多模態(tài)、多任務(wù)融合的趨勢(shì)。相較于單模態(tài)只能處理一種類型的數(shù)據(jù),例如文本、圖像、語音等,多模態(tài)則可以處理和理解多種類型的數(shù)據(jù),包括視覺、聽覺、語言等,從而能夠更好地理解和生成復(fù)雜的信息。
隨著多模態(tài)大模型的持續(xù)發(fā)展,其能力也將得到顯著提升。這種提升賦予AI Agent(人工智能體)更強(qiáng)大的感知和環(huán)境理解能力,以實(shí)現(xiàn)更智能、自主的決策和行動(dòng)。同時(shí)也為汽車領(lǐng)域的應(yīng)用開拓了新的可能性,為未來的智能化發(fā)展提供了更廣闊的前景。
科大訊飛基于星火大模型開發(fā)的星火座艙OS,支持語音、手勢(shì)、人眼追蹤、DMS/OMS等多種交互模態(tài),星火汽車助理通過深度上下文理解實(shí)現(xiàn)多意圖識(shí)別,提供更加自然的人機(jī)交互。訊飛星火大模型首搭車型星途星紀(jì)元ES,將帶來五大全新的體驗(yàn):車輛功能導(dǎo)師、冷暖共情伙伴、知識(shí)百科全書、旅行規(guī)劃專家、身體健康顧問。
將于2023年12月上市的AITO問界M9內(nèi)置HarmonyOS 4車機(jī)系統(tǒng)。鴻蒙4中智慧助手小藝已經(jīng)接入了盤古大模型。華為盤古大模型,包括自然語言大模型、視覺大模型、多模態(tài)大模型等。鴻蒙4+小藝+盤古大模型,設(shè)備協(xié)同、AI場(chǎng)景等生態(tài)能力將再度增強(qiáng),借助多模態(tài)交互技術(shù),提供多樣化的交互方式,包括語音識(shí)別、手勢(shì)控制、觸摸屏操作等。