10月21日,杭州云棲大會上,阿里巴巴達(dá)摩院發(fā)布軟硬件結(jié)合語音產(chǎn)品“聽悟”。相比只能逐字轉(zhuǎn)寫的上一代語音產(chǎn)品,“聽悟”是面向未來會議的AI助理,集成了達(dá)摩院最新語音及自然語言處理技術(shù),不僅“聽”得準(zhǔn),且“悟”性高,可秒速生成智能會議紀(jì)要及待辦。
?
會議場景對語音轉(zhuǎn)文字產(chǎn)品有強(qiáng)需求。但因技術(shù)限制,傳統(tǒng)語音產(chǎn)品存在“聽不準(zhǔn)、分不清、看不懂”等問題,往往在噪音下識別準(zhǔn)確率較低,無法區(qū)分不同說話人,轉(zhuǎn)寫內(nèi)容冗長難以閱讀和沉淀。針對痛點(diǎn),達(dá)摩院語音實(shí)驗(yàn)室打造了“聽悟”,通過讓AI深度參與,讓線上及線下會議更智能、高效、協(xié)同。
“聽悟”內(nèi)置達(dá)摩院獨(dú)創(chuàng)聲紋融合方位算法,能對多達(dá)10位說話人進(jìn)行角色分離;融入達(dá)摩院新一代端到端語音識別模型,中文識別準(zhǔn)確率可達(dá)98%,支持14種方言及中英文“自由說”;可嵌入線上音視頻會議,實(shí)時(shí)出字幕及紀(jì)要。
除了聽力好,這位AI助理悟性也高。 “聽悟”能模仿人工整理,進(jìn)行智能糾錯(cuò)和分段,自動(dòng)過濾語氣詞,讓生成文本更流暢。同時(shí),“聽悟”擅長抓重點(diǎn),可秒速生成關(guān)鍵詞、核心結(jié)論、重點(diǎn)內(nèi)容和待辦,用戶能同屏編輯、標(biāo)注摘要、一鍵分享、安全保存?!奥犖颉边€能對常用詞、用戶行為及歷史文檔進(jìn)行自學(xué)習(xí),越用越聰明。
此外,“聽悟”配置了智能麥克風(fēng),融入達(dá)摩院指向性差分麥克風(fēng)陣列技術(shù),可實(shí)現(xiàn)7米內(nèi)遠(yuǎn)距離360度高清收音,相比傳統(tǒng)麥克風(fēng)收音距離、抗噪能力大為提升。
達(dá)摩院語音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰表示,“語音技術(shù)的發(fā)展是不斷解鎖場景的歷史,會議作為當(dāng)下組織協(xié)同的核心場景,是語音AI將變革的下一個(gè)重要場景?!?/p>
鄢志杰介紹,“聽悟”適用于企業(yè)會議、金融調(diào)研、媒體訪談、教育培訓(xùn)等泛會議場景,目前面向企業(yè)客戶,已為多家頭部金融企業(yè)提供服務(wù),且應(yīng)用于釘釘新上線的“釘閃記”功能中。未來,“聽悟”還將探索與會議廠商合作。
IDC報(bào)告顯示,阿里AI近年在語音語義領(lǐng)域表現(xiàn)強(qiáng)勁,市場年增長率達(dá)96.6%,增速第一,總營收中國前二,已深入政務(wù)、金融、電商、法律等行業(yè),應(yīng)用于會議、客服、IoT、搜索、文本分析等場景。