加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入

logo

logo

有事離開?不用擔(dān)心

掃一掃繼續(xù)用手機看

微信掃碼
不再提醒
  • 點贊
  • 評論
  • 分享
《與非觀察室》系列
  • 視訊介紹
    • “97%或者 99%只是實驗室數(shù)據(jù)”
    • 遠(yuǎn)場和混合語言是“攔路虎”
    • 后記
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

智能語音的蛻變,不是一場數(shù)字游戲

2020/07/07
304
閱讀需 5 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

“芝麻開門。”
“芝麻關(guān)門。”
“我要去五樓。”

這幾條充滿童趣的語句,實際上是控制電梯的語音指令。疫情當(dāng)前,電梯是非常高風(fēng)險的區(qū)域,尤其是手指碰觸電梯按鍵的時候。針對這一場景,思必馳推出了電梯語音控制模塊。“在后裝的電梯上也可以進(jìn)行安裝,而且安裝起來非常簡單方便。” 思必馳 IoT 商務(wù)總經(jīng)理陳葦珍在演示過程中表示。

思必馳 IoT 商務(wù)總經(jīng)理陳葦珍

“97%或者 99%只是實驗室數(shù)據(jù)”

電梯控制是一個典型的語音識別應(yīng)用場景,技術(shù)的進(jìn)步正在改變人機交互的方式和結(jié)果。

語音識別是人機交互中的重要技術(shù),所涉及的領(lǐng)域包括信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等,近些年語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。

人工智能和機器學(xué)習(xí)領(lǐng)域權(quán)威學(xué)者吳恩達(dá)此前表示,當(dāng)語音識別準(zhǔn)確率達(dá)到 99%時將改變?nèi)藱C交互方式。陳葦珍認(rèn)為:“不管 97%還是 99%,如果單純強調(diào)這種實驗室的語音識別的數(shù)據(jù),它的價值會相對有限,需要結(jié)合到具體的場景來看,比如說辦公、車載、家居、金融等領(lǐng)域的應(yīng)用場景,再結(jié)合大數(shù)據(jù)的運算和認(rèn)知計算,才能夠真正地形成一個好的交互體驗。”

她強調(diào):“思必馳更關(guān)注的是完整的人機語音交互技術(shù),除了語音控制之外,更多的是關(guān)注交互能力和對話能力。我們的語音識別包括連續(xù)的云端識別,還有實時識別、抗噪識別、遠(yuǎn)場識別以及大詞匯識別和本地識別。”

關(guān)注思必馳的人都知道他們還有一個“語音識別++”。“除了提供文本信息識別之外,語音識別++也會有情緒識別、年齡識別、聲紋識別這些信息。” 陳葦珍介紹說:“我們的情緒識別已經(jīng)能夠去支持覆蓋主流的情緒:憤怒、快樂、喜悅等,可以針對性地做出擬人化反映。同時這種分類的識別計算是為了把我們的識別信息進(jìn)行多樣化,輔助生成用戶畫像。”

讓機器能夠感受人的喜怒哀樂,從人機交互走向人人交互,甚至是超越人人交互,這個過程確實不只是識別準(zhǔn)確率提升的問題。

遠(yuǎn)場和混合語言是“攔路虎”

在語音識別的具體應(yīng)用場景中,我們總是能夠發(fā)現(xiàn)一些有共性且突出的識別障礙,比如遠(yuǎn)場聲音的處理以及混合語言的處理。

遠(yuǎn)場語音識別常見的場景比如會議室、車載場景、智能家居等,這些場景中會出現(xiàn)較為明顯的“雞尾酒會問題”,出現(xiàn)收音不理想和背景音噪聲等情況。

對于遠(yuǎn)場語音識別而言,不僅要有好的語音識別算法,在硬件層面同樣需要一定規(guī)格的配置。陳葦珍表示:“思必馳推出了軟硬一體化的麥克風(fēng)陣列解決方案,能夠支持在家居環(huán)境 5 米的良好交互效果,能夠支持 360 度的角度適應(yīng)。線性陣列方面,能夠支持 180 度的角度適應(yīng),同時可以實現(xiàn)純軟件算法的降噪。”

另一個障礙是混合語言應(yīng)用場景,包括中英文混合、方言等。“混合識別確實是比較難攻克的問題,主要難點實際是在聲學(xué)模型上。目前,我們在聲學(xué)模型的建模上采用從端到端的中英文交雜輸出的方式。這個模型的好處是一個模型能夠同時支持中文、英文或者是中英文交雜輸出,同時能夠保證它的中文性能不受損傷。” 陳葦珍講到。

結(jié)合她的描述,這樣的方式是可以復(fù)制的,從中文+英文到中文+粵語,甚至是中文+英文+粵語,能夠融入的方言還包括上海話、四川話、重慶話和山東話等。

后記

讓機器與人能夠像人與人一樣溝通,這是一種感性的需求。隨著智能語音技術(shù)的不斷精進(jìn),人與機器之間必將突破交互的限制,達(dá)到交流的程度。在人與人的交流過程中,智慧的人類彼此之間有著更為豐富的表達(dá),對于機器而言人類是“善變”的。因此,讓機器找到萬變不離其宗的規(guī)律,是人機交互更進(jìn)一步的關(guān)鍵所在。
 

思必馳

思必馳

思必馳是國內(nèi)專業(yè)的對話式人工智能平臺公司,擁有全鏈路的智能語音語言技術(shù),自主研發(fā)了新一代人機交互平臺(DUI),和人工智能芯片(TH1520);為車聯(lián)網(wǎng)、IoT及政務(wù)、金融等眾多行業(yè)場景合作伙伴提供自然語言交互解決方案。并擁有中英文綜合語音技術(shù)。思必馳語音識別、聲紋識別、口語對話系統(tǒng)等技術(shù)曾經(jīng)多次在美國國家標(biāo)準(zhǔn)局、國際研究機構(gòu)評測中奪得冠軍。

思必馳是國內(nèi)專業(yè)的對話式人工智能平臺公司,擁有全鏈路的智能語音語言技術(shù),自主研發(fā)了新一代人機交互平臺(DUI),和人工智能芯片(TH1520);為車聯(lián)網(wǎng)、IoT及政務(wù)、金融等眾多行業(yè)場景合作伙伴提供自然語言交互解決方案。并擁有中英文綜合語音技術(shù)。思必馳語音識別、聲紋識別、口語對話系統(tǒng)等技術(shù)曾經(jīng)多次在美國國家標(biāo)準(zhǔn)局、國際研究機構(gòu)評測中奪得冠軍。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)副主編,網(wǎng)名:吳生,電子信息工程專業(yè)出身。在知識理論的探尋之路深耕躬行,力求用客觀公正的數(shù)據(jù)給出產(chǎn)品、技術(shù)和產(chǎn)業(yè)最精準(zhǔn)的描述。