在這波人工智能浪潮中,智能語(yǔ)音首先以交互的形式在智能音箱領(lǐng)域落地,而語(yǔ)音交互作為人機(jī)交互方式的升級(jí)版,隨后必將滲透進(jìn)家電、汽車、機(jī)器人等領(lǐng)域,甚至可能成為標(biāo)配。
語(yǔ)音交互的“硬”道理
為了做好語(yǔ)音交互功能就需要相應(yīng)的硬件支持,聲智科技副總裁李智勇認(rèn)為:智能語(yǔ)音硬件必須在喚醒率、誤喚醒率、識(shí)別率上達(dá)到一定指標(biāo),才可讓整體交互體驗(yàn)流暢。當(dāng)然,語(yǔ)音交互涉及眾多環(huán)節(jié),在技術(shù)層面保障聽(tīng)清、命令控制精準(zhǔn)的基礎(chǔ)上,加上百度 DuerOS、騰訊云小微等內(nèi)容平臺(tái),才可能形成最終的完整方案。
?聲智科技副總裁李智勇
?
聲智科技是一家專注于聲學(xué)前沿技術(shù)和人工智能交互的公司,也是小米 AI 音箱遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)的供應(yīng)商。被小米音箱采用的是 SAI_MICAK_60_3229_EVK 方案,為主打遠(yuǎn)場(chǎng)語(yǔ)音交互的 6 麥低成本方案,可應(yīng)用于智能音箱、DOT、電視盒子等語(yǔ)音智能產(chǎn)品中,具有全方向喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、語(yǔ)義理解等多項(xiàng)功能,支持 Alexa、DuerOS、Mor 等第三方智能系統(tǒng)。
?
?SAI_MICAK_60_3229_EVK 方案
李智勇表示:聲智科技致力于解決當(dāng)下語(yǔ)音交互最棘手的遠(yuǎn)場(chǎng)問(wèn)題。小米智能音箱之前的各種智能音箱軟硬架構(gòu)上都和 Amazon Echo 高度相似,也就是說(shuō)整個(gè)智能音箱行業(yè)都在學(xué)習(xí)亞馬遜五六年前為智能音箱設(shè)定的架構(gòu)(特征是麥克風(fēng)陣列板和主控板是分離的),而小米+聲智的方案與此不同,可看作智能音箱第二代架構(gòu),此變化推動(dòng)了終端產(chǎn)品性價(jià)比的大幅提升。據(jù)業(yè)內(nèi)消息,亞馬遜第二代產(chǎn)品也將采用同種架構(gòu),此架構(gòu)很可能一統(tǒng)未來(lái)智能音箱的天下,其它類方案(比如導(dǎo)入單獨(dú) DSP 做信號(hào)處理的)會(huì)徹底失去生存空間。
除了智能音箱方面的應(yīng)用,聲智科技的語(yǔ)音方案還應(yīng)用在了智能醫(yī)療、機(jī)器人、智能汽車等領(lǐng)域。
面對(duì)聲智科技語(yǔ)音方案是否實(shí)現(xiàn)功能與性能的理想化這個(gè)問(wèn)題,李智勇表示,長(zhǎng)線來(lái)看語(yǔ)音交互產(chǎn)品需要做到“用戶隨便說(shuō)一句話,產(chǎn)品就能給一個(gè)精準(zhǔn)響應(yīng)”,而這還有很長(zhǎng)一段路要走。當(dāng)前聲智科技可讓用戶流暢體驗(yàn)偏命令的語(yǔ)音交互,但真正賦予語(yǔ)音交互產(chǎn)品“智能”仍有很大提升空間。舉例而言,未來(lái)智能音箱可針對(duì)不同人、不同的偏好、不同場(chǎng)景,播放不同的歌曲,實(shí)現(xiàn)這種智能程度還需要語(yǔ)音與視覺(jué)的融合。盡管智能音箱在功能與性能上都有無(wú)限的想象空間,但在落地環(huán)節(jié)卻需要逆向思考,抓住“少即是多”原則,從核心體驗(yàn)出發(fā),把某些功能的體驗(yàn)做到極致,這將比“什么都做,卻什么都做不好”更有價(jià)值。
如何解決智能語(yǔ)音的瓶頸問(wèn)題
語(yǔ)音交互與識(shí)別在應(yīng)用落地過(guò)程中逐漸暴露出一些“局限性”,智能語(yǔ)音技術(shù)的瓶頸在哪?
?
第一個(gè)問(wèn)題是遠(yuǎn)場(chǎng)環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等,容易導(dǎo)致機(jī)器端“聽(tīng)不清”,從而影響后續(xù)一系列操作。解決了這個(gè)問(wèn)題,偏命令控制的終端便能帶來(lái)良好的用戶體驗(yàn)。
?
第二個(gè)問(wèn)題是更深層次的智能問(wèn)題,真正的智能需要實(shí)現(xiàn)語(yǔ)義的突破、需要聲音與視覺(jué)的融合,這樣的方案才更適合做擬人形態(tài)的機(jī)器人。
?
李智勇表示,第一個(gè)問(wèn)題關(guān)乎當(dāng)下的終端產(chǎn)品能否真正落地,聲智科技當(dāng)前專注于解決這個(gè)問(wèn)題,且目標(biāo)很簡(jiǎn)單,就是要通過(guò)“技術(shù) -- 應(yīng)用 -- 技術(shù)”上的反饋把技術(shù)做到最好、把性價(jià)比做到極致,通過(guò)與小米合作成為國(guó)內(nèi)把這些問(wèn)題解決的最好的公司;第二個(gè)問(wèn)題將影響到產(chǎn)品的應(yīng)用范圍,若不解決該該問(wèn)題,產(chǎn)品應(yīng)用就會(huì)相對(duì)垂直,不能成為真正通用型產(chǎn)品。
語(yǔ)音交互作為一種交互方式,其核心推動(dòng)力就是用戶體驗(yàn)的更簡(jiǎn)單便利。交互方式變革帶來(lái)的影響極其廣泛而深遠(yuǎn),因此單個(gè)產(chǎn)品不能成本背后的推動(dòng)力,但變革需要找的一個(gè)起點(diǎn)與支點(diǎn)。因此,語(yǔ)音交互首先在智能音箱領(lǐng)域落地,而智能交互還需不斷革新才能逐漸滲透到各領(lǐng)域。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!