加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

解讀語(yǔ)音交互“硬”道理,“聲智科技+小米”帶來(lái)智能音箱大變革?

2017/09/14
12
閱讀需 16 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

在這波人工智能浪潮中,智能語(yǔ)音首先以交互的形式在智能音箱領(lǐng)域落地,而語(yǔ)音交互作為人機(jī)交互方式的升級(jí)版,隨后必將滲透進(jìn)家電、汽車、機(jī)器人等領(lǐng)域,甚至可能成為標(biāo)配。

語(yǔ)音交互的“硬”道理
為了做好語(yǔ)音交互功能就需要相應(yīng)的硬件支持,聲智科技副總裁李智勇認(rèn)為:智能語(yǔ)音硬件必須在喚醒率、誤喚醒率、識(shí)別率上達(dá)到一定指標(biāo),才可讓整體交互體驗(yàn)流暢。當(dāng)然,語(yǔ)音交互涉及眾多環(huán)節(jié),在技術(shù)層面保障聽(tīng)清、命令控制精準(zhǔn)的基礎(chǔ)上,加上百度 DuerOS、騰訊云小微等內(nèi)容平臺(tái),才可能形成最終的完整方案。

?聲智科技副總裁李智勇

?

聲智科技是一家專注于聲學(xué)前沿技術(shù)和人工智能交互的公司,也是小米 AI 音箱遠(yuǎn)場(chǎng)語(yǔ)音交互技術(shù)的供應(yīng)商。被小米音箱采用的是 SAI_MICAK_60_3229_EVK 方案,為主打遠(yuǎn)場(chǎng)語(yǔ)音交互的 6 麥低成本方案,可應(yīng)用于智能音箱、DOT、電視盒子等語(yǔ)音智能產(chǎn)品中,具有全方向喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別、語(yǔ)義理解等多項(xiàng)功能,支持 Alexa、DuerOS、Mor 等第三方智能系統(tǒng)。

?

?SAI_MICAK_60_3229_EVK 方案

李智勇表示:聲智科技致力于解決當(dāng)下語(yǔ)音交互最棘手的遠(yuǎn)場(chǎng)問(wèn)題。小米智能音箱之前的各種智能音箱軟硬架構(gòu)上都和 Amazon Echo 高度相似,也就是說(shuō)整個(gè)智能音箱行業(yè)都在學(xué)習(xí)亞馬遜五六年前為智能音箱設(shè)定的架構(gòu)(特征是麥克風(fēng)陣列板和主控板是分離的),而小米+聲智的方案與此不同,可看作智能音箱第二代架構(gòu),此變化推動(dòng)了終端產(chǎn)品性價(jià)比的大幅提升。據(jù)業(yè)內(nèi)消息,亞馬遜第二代產(chǎn)品也將采用同種架構(gòu),此架構(gòu)很可能一統(tǒng)未來(lái)智能音箱的天下,其它類方案(比如導(dǎo)入單獨(dú) DSP 做信號(hào)處理的)會(huì)徹底失去生存空間。


除了智能音箱方面的應(yīng)用,聲智科技的語(yǔ)音方案還應(yīng)用在了智能醫(yī)療、機(jī)器人、智能汽車等領(lǐng)域。

面對(duì)聲智科技語(yǔ)音方案是否實(shí)現(xiàn)功能與性能的理想化這個(gè)問(wèn)題,李智勇表示,長(zhǎng)線來(lái)看語(yǔ)音交互產(chǎn)品需要做到“用戶隨便說(shuō)一句話,產(chǎn)品就能給一個(gè)精準(zhǔn)響應(yīng)”,而這還有很長(zhǎng)一段路要走。當(dāng)前聲智科技可讓用戶流暢體驗(yàn)偏命令的語(yǔ)音交互,但真正賦予語(yǔ)音交互產(chǎn)品“智能”仍有很大提升空間。舉例而言,未來(lái)智能音箱可針對(duì)不同人、不同的偏好、不同場(chǎng)景,播放不同的歌曲,實(shí)現(xiàn)這種智能程度還需要語(yǔ)音與視覺(jué)的融合。盡管智能音箱在功能與性能上都有無(wú)限的想象空間,但在落地環(huán)節(jié)卻需要逆向思考,抓住“少即是多”原則,從核心體驗(yàn)出發(fā),把某些功能的體驗(yàn)做到極致,這將比“什么都做,卻什么都做不好”更有價(jià)值。

如何解決智能語(yǔ)音的瓶頸問(wèn)題
語(yǔ)音交互與識(shí)別在應(yīng)用落地過(guò)程中逐漸暴露出一些“局限性”,智能語(yǔ)音技術(shù)的瓶頸在哪?
?

第一個(gè)問(wèn)題是遠(yuǎn)場(chǎng)環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等,容易導(dǎo)致機(jī)器端“聽(tīng)不清”,從而影響后續(xù)一系列操作。解決了這個(gè)問(wèn)題,偏命令控制的終端便能帶來(lái)良好的用戶體驗(yàn)。
?

第二個(gè)問(wèn)題是更深層次的智能問(wèn)題,真正的智能需要實(shí)現(xiàn)語(yǔ)義的突破、需要聲音與視覺(jué)的融合,這樣的方案才更適合做擬人形態(tài)的機(jī)器人。
?

李智勇表示,第一個(gè)問(wèn)題關(guān)乎當(dāng)下的終端產(chǎn)品能否真正落地,聲智科技當(dāng)前專注于解決這個(gè)問(wèn)題,且目標(biāo)很簡(jiǎn)單,就是要通過(guò)“技術(shù) -- 應(yīng)用 -- 技術(shù)”上的反饋把技術(shù)做到最好、把性價(jià)比做到極致,通過(guò)與小米合作成為國(guó)內(nèi)把這些問(wèn)題解決的最好的公司;第二個(gè)問(wèn)題將影響到產(chǎn)品的應(yīng)用范圍,若不解決該該問(wèn)題,產(chǎn)品應(yīng)用就會(huì)相對(duì)垂直,不能成為真正通用型產(chǎn)品。

語(yǔ)音交互作為一種交互方式,其核心推動(dòng)力就是用戶體驗(yàn)的更簡(jiǎn)單便利。交互方式變革帶來(lái)的影響極其廣泛而深遠(yuǎn),因此單個(gè)產(chǎn)品不能成本背后的推動(dòng)力,但變革需要找的一個(gè)起點(diǎn)與支點(diǎn)。因此,語(yǔ)音交互首先在智能音箱領(lǐng)域落地,而智能交互還需不斷革新才能逐漸滲透到各領(lǐng)域。

與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!

小米

小米

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國(guó)家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過(guò)獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過(guò)1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。

小米是全球第四大智能手機(jī)制造商,在30余個(gè)國(guó)家和地區(qū)的手機(jī)市場(chǎng)進(jìn)入了前五名,特別是在印度,連續(xù)5個(gè)季度保持手機(jī)出貨量第一。通過(guò)獨(dú)特的“生態(tài)鏈模式”,小米投資、帶動(dòng)了更多志同道合的創(chuàng)業(yè)者,同時(shí)建成了連接超過(guò)1.3億臺(tái)智能設(shè)備的IoT平臺(tái)。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)編輯,網(wǎng)名小老虎。通信工程專業(yè)出身,喜歡混跡在電子這個(gè)大圈里。曾經(jīng)身無(wú)技術(shù)分文,現(xiàn)在可以侃侃電子圈里那點(diǎn)事。喜歡和學(xué)生談?wù)勑那?、聊聊理想,喜歡和工程師談?wù)勆?、聊聊工作。不求技術(shù)“上進(jìn)”,只求結(jié)交“貴圈”的朋友!