隨著我國人工智能發(fā)展規(guī)劃的出臺,以及各項(xiàng)關(guān)鍵技術(shù)的日趨成熟,物聯(lián)網(wǎng)時代逐步成為繼移動互聯(lián)網(wǎng)時代的下一個浪潮,人機(jī)交互開啟新一輪的需求革新,從鼠標(biāo)、鍵盤、觸屏的傳統(tǒng)交互向語音交互演進(jìn),社會正在飛速進(jìn)入智能語音交互時代。
以“語音+內(nèi)容+智能”為切入點(diǎn),打造自主設(shè)計(jì)、自主整合、自主運(yùn)營的一站式語音交互共享平臺,構(gòu)建可運(yùn)營、能變現(xiàn)的語音交互生態(tài),賦能多形態(tài)終端產(chǎn)品,打造能聽會說的人機(jī)交互體驗(yàn),是未來智慧家庭發(fā)展的大趨勢,也是中國移動智慧家庭運(yùn)營中心推進(jìn)數(shù)字家庭生態(tài)建設(shè)的重點(diǎn)方向。
1、語音交互是智慧家庭生態(tài)布局的關(guān)鍵入口?
1.1 人機(jī)交互需求不斷革新
伴隨著交互場景的拓展,人們逐漸對交互自由度提出了更大需求,語音交互越來越貼近人類的本能表達(dá)。語音交互憑借其輸入速度快、場景限制少、技術(shù)鏈條發(fā)展成熟等優(yōu)勢,成為智能時代的理想交互途徑,并逐步向交互智能、終端多態(tài)、服務(wù)泛在的方向發(fā)展。
1.2 家庭場景服務(wù)更加智能
語音交互是將人工智能技術(shù)底層產(chǎn)業(yè)化的關(guān)鍵,語音助手連接多形態(tài)終端和廣泛業(yè)務(wù),可提供內(nèi)容服務(wù)、互聯(lián)網(wǎng)服務(wù),以及場景化智能家居控制等服務(wù),為家庭用戶提供互動娛樂、互動教育、家庭健康、家庭安防等新型產(chǎn)品體驗(yàn),其中智能音箱成為首款爆發(fā)單品,并逐步向更多產(chǎn)品形態(tài)延伸。
2、核心技術(shù)攻關(guān)提升體驗(yàn)
智能語音交互主要涉及語音識別、語義理解和語音合成等技術(shù)。語音識別技術(shù)能將語音流轉(zhuǎn)換為文本,語義理解技術(shù)可分析語句的含義、剖析用戶意圖,語音合成技術(shù)將解析結(jié)果以語音的方式反饋給用戶,從而實(shí)現(xiàn)與用戶的智能語音交互。
2.1 語音識別——聽得清
智能語音交互平臺現(xiàn)采用基于 Transformer 算法的端到端模型,具備識別速度快、識別準(zhǔn)確率高的特性。該模型采用基于上下文理解的自注意力機(jī)制,提升了語義特征提取能力,解決了傳統(tǒng)模型中聲學(xué)模型和語言模型無法聯(lián)合優(yōu)化的問題,并且該算法能更好地利用先進(jìn)硬件實(shí)現(xiàn)并行計(jì)算,從而提升運(yùn)算速度。
2.2 語義理解——聽得懂
平臺采用基于規(guī)則+深度+關(guān)鍵詞匹配算法的多算法融合模型理解用戶意圖,規(guī)則算法對于較短文本可實(shí)現(xiàn)快速準(zhǔn)確的匹配,深度學(xué)習(xí)算法可對詞表無法覆蓋的新詞進(jìn)行識別,關(guān)鍵詞匹配算法對于詞表順序顛倒、文本長尾問題,能快速準(zhǔn)確地識別文本意圖。
2.3 語音合成——說得明
平臺采用端到端合成系統(tǒng),可直接輸入文本或注音字符,直接輸出音頻波形,該系統(tǒng)降低了對語言學(xué)知識的要求,能批量實(shí)現(xiàn)幾十種甚至更多語種的合成系統(tǒng),并且它表現(xiàn)出豐富的發(fā)音風(fēng)格和強(qiáng)大的韻律表現(xiàn)力,加快不同聲音的合成。
3、語音 OS 鍛造,賦能語音生態(tài)
3.1 語音助手,賦能多形態(tài)終端
智能語音交互平臺面向多形態(tài)終端提供語音助手,采用 Hook 技術(shù)分離各個子模塊,實(shí)現(xiàn)語音點(diǎn)播、通話、聽書、對話等功能,協(xié)助平臺構(gòu)建聲紋、情緒、體感等多模態(tài)識別交互和相應(yīng)反饋、推薦業(yè)務(wù),兼容主流操作系統(tǒng),支持自定義接口擴(kuò)展,大大縮短接入周期和研發(fā)成本,快速賦能生態(tài)硬件及應(yīng)用的語音交互能力。
3.2 語音插件,賦能海量應(yīng)用
平臺面向海量應(yīng)用提供語音交互插件,制定標(biāo)準(zhǔn)開放協(xié)議,基于 IPC 實(shí)現(xiàn)第三方應(yīng)用與 Launcher 的跨進(jìn)程通訊,當(dāng)用戶調(diào)用語音控制,由平臺下發(fā)熱詞及詞槽信息,Launcher 進(jìn)行動態(tài)匹配并下發(fā)至第三方應(yīng)用,可進(jìn)行直播、點(diǎn)播、播控等,從而實(shí)現(xiàn)所見即所得。
4、整套場景封裝,提供系統(tǒng)解決方案
4.1 全屋智能
基于智能語音交互能力和 Andlink 智能家居云平臺,提供智能音箱、智能面板、智能照明、智能開關(guān)等一體化全屋智能解決方案,實(shí)現(xiàn)跨廠商設(shè)備的接入和語音控制,可與智能門禁、攝像頭等結(jié)合,實(shí)現(xiàn)家庭安防組合等細(xì)分場景。
4.2 AI 客廳
打造智慧屏,通過語音遙控器、智能音箱與智能電視結(jié)合的方式,實(shí)現(xiàn)電視播控推薦,將語音能力賦能教育、電商、音樂、游戲、健康等大屏應(yīng)用,發(fā)揮輕量級語音技能,實(shí)現(xiàn)一說即得的用戶體驗(yàn)。
4.3 智能對話服務(wù)
提供融合語義推導(dǎo)與語義匹配的對話理解技術(shù),預(yù)置涵蓋音視頻娛樂、設(shè)備控制、生活服務(wù)等領(lǐng)域的對話能力及詞典,高效定制對話能力,在智能助手、在線客服、語音家教等領(lǐng)域可廣泛應(yīng)用。
?
5、結(jié)束語
智能語音交互系統(tǒng)攻關(guān)語音識別、語義理解、語音合成等技術(shù),快速賦能多形態(tài)終端,應(yīng)用于 “能聽會說”、“能理解會思考”的 AI 交互體驗(yàn),實(shí)現(xiàn)從概念、技術(shù)到商業(yè)產(chǎn)品、功能應(yīng)用的跨越,形成一個以語音交互技術(shù)為核心的全新應(yīng)用生態(tài)鏈,促進(jìn)人工智能產(chǎn)業(yè)的迅猛發(fā)展。
在 5G 快速發(fā)展的背景下,高帶寬和低時延特性促使智能語音交互技術(shù)不斷攻克新的難題,開啟新的篇章。在“理解”層面,重點(diǎn)打造“支持打斷和智能糾正”的認(rèn)知型對話引擎,實(shí)現(xiàn)自然交互的本質(zhì)要求;在“應(yīng)用”層面,語音交互內(nèi)容技能生態(tài)將滲透各個領(lǐng)域,并進(jìn)行場景化的封裝,真正實(shí)現(xiàn)海量服務(wù)“開口即得”的交互體驗(yàn);在“接入”層面,語音助手持續(xù)擴(kuò)大樞紐作用,賦能更多形態(tài)終端和交互應(yīng)用規(guī)模起量,實(shí)現(xiàn)萬物均能說話;在“沉浸式”層面,將融合語音識別、人臉識別、表情分析、唇動狀態(tài)、眼球跟蹤、手勢識別、觸覺監(jiān)控等智能人機(jī)交互手段,完善“端 - 端”、“端 - 云 - 端”的交互協(xié)議,打造沉浸式多模態(tài)互動體驗(yàn)。
當(dāng)人機(jī)交互越來越貼近自然表達(dá),中國移動智慧家庭運(yùn)營中心將持續(xù)深化智能語音生態(tài)體系建設(shè),引領(lǐng)未來美好生活。