說一聲“啟動汽車”,引擎馬上開啟;下班回家對著智能門鎖喊一聲“開門”,門鎖應(yīng)聲而開;對著智能電視喊個話,它就能為你播放專屬的視頻內(nèi)容……阿里巴巴用“芝麻開門”打開了寶藏,我們能用聲紋識別做什么?
近日,從人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟 - 得意音通聲紋技術(shù)聯(lián)合實驗室獲悉,聲紋識別在過去一年,從場景側(cè)不斷下沉,更加落地。作為語音賽道一個重度垂直的領(lǐng)域,聲紋識別終于從“等風(fēng)來”,成為站在“風(fēng)口”上的技術(shù)。
根據(jù)清華大學(xué)人工智能研究院聽覺智能研究中心、人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟 - 得意音通聲紋技術(shù)聯(lián)合實驗室、中國電信股份有限公司研究院聯(lián)合發(fā)布的《中國聲紋識別產(chǎn)業(yè)發(fā)展白皮書 2.0》,2020 年,聲紋技術(shù)廠商融資事件達(dá)到過去 4 年最多,投資總額僅次于 2018 年。雖融資熱度和頻次無法與最熱門的應(yīng)用領(lǐng)域相比,但在疫情當(dāng)下以及貫穿 2019-2020 始末的資本寒冬中,已經(jīng)算是例外了。
?
從白皮書對百度、京東、微信等搜索詞分析來看,聲紋識別與支付、反欺詐、門禁、門鎖、考勤等具體應(yīng)用場景緊密聯(lián)系在一起,這也從一定程度上反映出了聲紋技術(shù)當(dāng)前主要的落地方向。
國內(nèi)聲紋廠商主要有哪些?
<與非網(wǎng)>對國內(nèi) 20 多家聲紋識別企業(yè)進(jìn)行了匯總分析,這些企業(yè)也從一定程度上反映了語音技術(shù)的三個發(fā)展階段:
早期以 2000 年~2007 年成立的專注于聲紋技術(shù)的廠商為代表,如得意音通、中科信利、遠(yuǎn)鑒科技、廈門天聰?shù)?,主要背靠清華大學(xué)、廈門大學(xué)、中科院聲學(xué)所、自動化研究所等高校和科研機(jī)構(gòu),這些老牌企業(yè)掌握了深厚的技術(shù)積累和核心專利。
2007-2015 年間,思必馳、云知聲等算法廠商入局,憑借對場景的理解和核心技術(shù)的布局,抓住了語音發(fā)展的先機(jī)。
2016 年開始,人工智能的發(fā)展帶動了一批初創(chuàng)企業(yè),聲揚、聲智、中科昊音等都是在這波 AI 紅利中成長和誕生的公司,這些企業(yè)融資節(jié)奏通常比較快,正加緊在專利布局、落地上發(fā)力。
?
?
2020 年聲紋識別三大落地應(yīng)用
疫情下聲紋考勤興起
今年聲紋技術(shù)主要的落地場景之一就是聲紋考勤。在疫情的非接觸需求下,今年 2 月,國務(wù)院印發(fā)《企事業(yè)單位復(fù)工復(fù)產(chǎn)疫情防控措施指南》,明確要求暫時停用指紋考勤機(jī),改用其他方式對進(jìn)出人員進(jìn)行登記。
同時,人臉支付也被“降溫”。2 月,中國人民銀行營業(yè)管理部就制定的《北京市非銀行支付機(jī)構(gòu)復(fù)工復(fù)產(chǎn)防疫工作指引》中提出,要優(yōu)化和豐富“非接觸式服務(wù)”渠道和場景,強(qiáng)調(diào)疫情防控期間,暫緩人臉識別支付商戶拓展。
語音具有天然的“非接觸”特性,具體到聲紋這個細(xì)分領(lǐng)域,它可以根據(jù)每個人的語音特征和發(fā)音習(xí)慣進(jìn)行動態(tài)識別,非常適用于進(jìn)行身份認(rèn)證的場景應(yīng)用中。
在與清華大學(xué)人工智能研究院聽覺智能研究中心主任、得意音通創(chuàng)始人鄭方博士的交流中,筆者曾獲悉,“無接觸”將沉淀為今后遴選生物識別技術(shù)的核心要素之一,特別是在 B 端場景(例如考勤)。聲紋天然具有“無接觸”的特點,并且不怕被口罩遮擋,應(yīng)用成本低,聲紋產(chǎn)品將成為考勤市場中強(qiáng)有力的競爭者。
他認(rèn)為考勤產(chǎn)品未來主要有兩大方向:一是從集中轉(zhuǎn)向分布、線下轉(zhuǎn)為線上線下結(jié)合,也就是說,不再需要單一的考勤機(jī)設(shè)備,而是直接由員工在各自手機(jī)上完成打卡,既提高效率,又保障衛(wèi)生;二是單純的考勤功能可能會與門禁功能結(jié)合,可以是集中,也可以是分布。得意音通在聲紋考勤迭代上主要有三個方向:一是更“輕”,如增加小程序等入口;二是更“重”,注重與門禁等設(shè)備結(jié)合;三是更安全,還可與人臉技術(shù)結(jié)合,具體會根據(jù)市場反饋來規(guī)劃。
金融 / 政務(wù)服務(wù)依舊是大市場
除了疫情下醞釀的新應(yīng)用,聲紋識別最早實現(xiàn)規(guī)?;逃玫氖窃诮鹑陬I(lǐng)域。金融領(lǐng)域因其豐富的場景、海量的數(shù)據(jù)、對可靠性的高要求和廣泛的用戶反饋等,一直是前沿技術(shù)在民用領(lǐng)域(相較于公共安全領(lǐng)域)的理想試金石。聲紋識別也不例外,4G 時代,金融行業(yè)催生了手機(jī)銀行這一形態(tài)并迅速普及,使得金融級遠(yuǎn)程身份認(rèn)證的需求激增,而聲紋識別剛好可以滿足這個需求。
根據(jù)白皮書顯示,到 2020 年下半年,約有 30 家銀行機(jī)構(gòu)采購了聲紋識別技術(shù)產(chǎn)品,其中“動態(tài)聲紋密碼”的聲紋登錄成為第一大應(yīng)用場景,可用于賬戶登錄、大額轉(zhuǎn)賬、無卡取款、密碼找回等業(yè)務(wù)場景。微信和支付寶也上線了基于聲紋動態(tài)口令的登錄方式。此外,在信貸業(yè)務(wù)中引入聲紋識別技術(shù)作為反欺詐手段,還可有效降低冒用他人身份進(jìn)行騙貸以及多頭貸款等事件的發(fā)生率。
?
在政務(wù)服務(wù)市場,聲紋識別也發(fā)掘到一個極具潛力的應(yīng)用——城鄉(xiāng)養(yǎng)老保險是社會保障體系的重要組成部分,然而冒領(lǐng)養(yǎng)老金的事件時有發(fā)生,每年冒領(lǐng)總金額以億元計,但若要求高齡老人親臨現(xiàn)場驗明身份又非常不便。社保局通過預(yù)裝聲紋身份認(rèn)證系統(tǒng),通過 1:1 聲紋確認(rèn)技術(shù),就可以進(jìn)行遠(yuǎn)程身份認(rèn)證。
另據(jù)白皮書顯示,隨著電信詐騙案件頻發(fā),聲紋特征在公共安全領(lǐng)域的應(yīng)用價值越來越凸顯出來。公安部將聲紋識別技術(shù)已經(jīng)納入防治方案,建庫規(guī)范提上日程。
智能生活成為藍(lán)海
除了上述應(yīng)用,聲紋識別的下一個藍(lán)海市場有望在智能生活場景中產(chǎn)生,目前已經(jīng)開始落地的有智能家居、智能車載等應(yīng)用。
按任務(wù)分類的話,聲紋識別有 1:1 和 1:N 兩大類應(yīng)用,前者主要進(jìn)行聲紋確認(rèn),上面提到的金融、社保等都屬于 1:1 確認(rèn),通過給定一個說話人的聲紋模型和一段只含一名說話人的語音,判斷該語音是否是該說話人所說。而在 1:N 應(yīng)用中則屬于聲紋辨認(rèn),是根據(jù)一組候選說話人的聲紋模型和一段語音,來判斷該語音是哪個說話人所說,適用于公安、安防、智能生活等場景。
隨著語音交互場景的成熟,各種個性化的服務(wù)需求漸漸浮現(xiàn)出來。通過 1:N 的聲紋辨認(rèn)技術(shù),可支持智能音箱、智能語音助手等提供個性化服務(wù),如針對家庭用戶中的老年人、兒童等不同年齡段用戶,按照興趣推薦不同的歌曲、新聞,以及開放特定的功能權(quán)限等;利用聲紋檢出和追蹤技術(shù),可在會議紀(jì)要中標(biāo)注每段話所對應(yīng)的說話人,即可輕松完成多人會議記錄,這一功能在市面上一些錄音筆中已包括。此外,聲紋識別還可完成個人日常生活中各種事物訪問控制的授權(quán),比如智能手機(jī)鎖屏、各類網(wǎng)絡(luò)賬號的聲控密碼鎖、電腦聲控鎖、聲控安全門、汽車聲控鎖等。
思必馳目前在其全鏈路對話式 AI 中,特別針對車載場景下通過聲紋識別進(jìn)行優(yōu)化升級,提供更多個性化的服務(wù)方式。
云知聲也將聲紋識別技術(shù)引入到深度學(xué)習(xí)領(lǐng)域,聯(lián)手平安好醫(yī)生打造客戶端“聲紋登錄系統(tǒng)”,并與國家電網(wǎng)合作了會議系統(tǒng)聲紋識別項目。
以計算機(jī)視覺起家的依圖科技,近兩年也開始在智能語音發(fā)力,2019 年宣稱在全球聲紋識別競賽中奪得第一,雖然后續(xù)并無太多聲紋方面的成果更新,但也反映出依圖對聲紋的重視,多模態(tài)應(yīng)該是其未來的布局方向。
智能家居是民用場景中最早擁抱聲紋技術(shù)的,例如長虹已經(jīng)在電視、空調(diào)中先后加入聲紋識別功能,使得家電也能夠智能識別用戶身份,開啟私人訂制模式。
互聯(lián)網(wǎng)廠商也在積極布局。
百度前幾年在國際上發(fā)布過聲紋識別方面的論文,今年在小度智能屏中,聲紋識別功能已經(jīng)成為賣點之一。
阿里約在 3 年前開始推廣聲紋識別,主要運用于平臺用戶的身份核驗,比如在線身份校驗服務(wù),用戶可通過聲紋識別在手機(jī)淘寶進(jìn)行密碼修改等。
騰訊云也與微信智能團(tuán)隊共同推進(jìn)聲紋識別,借助云端大數(shù)據(jù)的優(yōu)勢,根據(jù)個人屬性提供更多差異化服務(wù)內(nèi)容,并進(jìn)一步提升安全性,運用在安保、金融、智能硬件等領(lǐng)域。
寫在最后
在 AIoT 的推動下,聲紋識別技術(shù)有望推動一些場景的升級迭代,在未來的人機(jī)交互中,帶動從硬件到軟件在更多商用場景中的發(fā)展。多模態(tài)的技術(shù)應(yīng)用可能會率先興起,比如在身份識別場景中,通過聲紋+人臉融合驗證,在精度要求、安全保障以及不同場景下的體驗提升都能得到滿足。
這從當(dāng)前的國際技術(shù)趨勢上也可以看到一些發(fā)展軌跡,例如通過多模態(tài)建模,將人臉和聲紋中的信息和參數(shù)融合在一個架構(gòu)和模型中,實現(xiàn)語音內(nèi)容和說話人身份同時識別、語種和說話人身份同時識別等。
?