四虎精品国产二区,GOGOGO高清在线观看视频

“數(shù)字人不只是皮膚人！”11月5日云棲大會上，阿里巴巴集團研究員李小龍透露，正在聯(lián)合研發(fā)由數(shù)字人全面接管的交互引擎。項目集合達摩院NLP，語音，視覺，3D構(gòu)建驅(qū)動及大模型領(lǐng)域團隊，和天貓精靈AliGenie交互系統(tǒng)專家。就像手指觸屏奠定智能手機交互，大模型數(shù)字人將接管未來智能交互。

（圖：李小龍介紹全新數(shù)字人引擎技術(shù)架構(gòu)）

數(shù)字人領(lǐng)域正由喧囂轉(zhuǎn)向理性。雖然高精度高顏值的人偶形象不斷出現(xiàn)，但絕大部分場景缺乏與用戶的持續(xù)性、個性化互動，進而商業(yè)化規(guī)模有限。如，只能在短視頻和動畫中存在的虛擬偶像?；蛑辉趩我辉O(shè)備或界面中面向大眾支持問答的虛擬員工，這些形態(tài)缺乏大模型訓(xùn)練和大規(guī)模交互，無法個性化學(xué)習(xí)升級，用戶感受就像“沒有靈魂”。

數(shù)字人Inside接管終端——則是阿里巴巴正在嘗試的新方式。天貓精靈產(chǎn)品規(guī)劃負責(zé)人盧勇介紹，接入AliGenie系統(tǒng)的終端已覆蓋4000多萬家庭、包含1600多個品牌的4.6億已接入產(chǎn)品，能讓數(shù)字人在可持續(xù)、大規(guī)模、組合式的場景與用戶交互。AliGenie此前公布，僅智能音箱產(chǎn)品每月交互80億次以上，70%是主動型服務(wù)。許多消費硬件領(lǐng)域廠商，也迫切希望有超出單出連接、單一設(shè)備對話的智能體驗。

以多模態(tài)大模型驅(qū)動的智能化，理論上也非常適合缺乏數(shù)據(jù)、場景碎片化的智能終端場景。李小龍列舉了達摩院積累的包括多模態(tài)大模型、語音、自然語言、3D構(gòu)建驅(qū)動、各個領(lǐng)域近兩年百項專利與頂會論文，通過將這些成果，在諸多交互場景驗證，一個多模態(tài)大模型為基礎(chǔ)的數(shù)字人的引擎已初顯雛形。

例如，由通義多模態(tài)大模型（BroadScope）訓(xùn)練的數(shù)字人，可以具備可泛化的認知驅(qū)動能力，數(shù)字人根據(jù)音樂進行舞蹈、根據(jù)文字產(chǎn)生行動，改變了過去完全要單一維度數(shù)據(jù)訓(xùn)練的模式，能夠讓數(shù)字人遷移場景進行服務(wù)。

在云語音語義技術(shù)方面，Gartner 2022報告顯示，阿里綜合能力居全球第二。并在Wizard of Wiki（知識對話）、Commonsense QA（常識問答）和VQA（視覺問答）三項全球評測中連續(xù)獲得冠軍，并超過人類能力基準(zhǔn)。

以天貓精靈日常對話場景為例，通過大模型底座進一步訓(xùn)練的對話大模型mPLUG-dialog，將可能成為包含知識、情感、個性、記憶的全新交互系統(tǒng)。

在內(nèi)容上，不再是單純地按知識庫或搜索結(jié)構(gòu)在檢索和回答問題，而是綜合這四個維度，努力給出更有趣更有情商的回復(fù)，在聲音上，不再是字正腔圓的播報音，會包含更豐富更細膩的情緒。實時溝通時，AI不僅能被隨時打斷，也能穩(wěn)定接茬，還會主動追問。

（圖：大模型將提升數(shù)字人的自主對話能力）

2022年開始，達摩院多模態(tài)大模型開始應(yīng)用于天貓精靈語音搜索與百科場景。雙方目前將合作場景推向AliGenie交互的系統(tǒng)層和用戶感知層。預(yù)計，第一款由數(shù)字人全面接管交互引擎的產(chǎn)品，將在2023年一季度讓用戶升級體驗。