• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

聲紋識別與語音喚醒,這個挑戰(zhàn)賽代表了語音技術(shù)的發(fā)展趨勢!

2021/01/30
352
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

1 月 24 日,由昆山杜克大學、聯(lián)想研究院和北京郵電大學,在 2021 中文口語語言處理國際會議(ISCSLP 2021)上發(fā)起的個性化喚醒語音挑戰(zhàn)賽圓滿結(jié)束,并通過 B 站和 Zoom 線上進行了收官研討會。

挑戰(zhàn)賽吸引了來自知名高校、研究機構(gòu)、企業(yè)人工智能部門以及初創(chuàng)企業(yè)的幾十支團隊參加,包括北京大學、西北工業(yè)大學、廈門大學、小米、出門問問、普強、實地地產(chǎn)和杭州國芯等。最終,在比賽的兩個任務(wù)中,即近場單通道語音個性化喚醒任務(wù),和遠場多通道語音個性化喚醒任務(wù)中,小米、西工大、出門問問和實地地產(chǎn)獲得了前三名的佳績。

標志著本次挑戰(zhàn)賽收官的線上研討會由昆山杜克李明教授主持,聯(lián)想集團副總裁、聯(lián)想研究院人工智能實驗室負責人范建平博士開場致辭,聯(lián)想研究院語音團隊總監(jiān)汪俊杰和北京郵電大學葛鳳培教授在會上宣布了獲獎團隊并為其頒獎。此外,研討會還邀請了 ISCSLP 技術(shù)委員會主席、香港理工大學麥文偉教授進行了技術(shù)分享。

挑戰(zhàn)賽充分考慮應(yīng)用場景,綜合考察語音喚醒和聲紋識別的聯(lián)合性能,提供包含數(shù)百人復雜場景下實際采集的語音數(shù)據(jù)集,是一套包含近場和遠場、多通道多設(shè)備、喚醒詞和自由文本相結(jié)合的復雜數(shù)據(jù)集,可支持復雜場景語音喚醒、聲紋識別和語音識別技術(shù)的研究。

本次賽事中,個性化語音喚醒考察的是帶有聲紋認證功能的語音喚醒技術(shù),喚醒詞是“小樂小樂”,每個目標人有 3 句語音作為注冊樣本,只有目標人的講話內(nèi)容是“小樂小樂”時設(shè)備喚醒才算正確,目標人所講的其他內(nèi)容、非目標人講的“小樂小樂”均不能喚醒設(shè)備。比賽設(shè)置了兩個賽道,一個是近場單通道個性化語音喚醒任務(wù),即聲紋注冊數(shù)據(jù)和待識別的測試數(shù)據(jù)都是由近講設(shè)備采集的單通道語音,另外一個是遠場多通道個性化語音喚醒任務(wù),其中聲紋注冊數(shù)據(jù)是近講數(shù)據(jù),而測試數(shù)據(jù)是遠場設(shè)備采集的多通道語音數(shù)據(jù),體現(xiàn)了實際應(yīng)用場景中跨信道、復雜聲學環(huán)境等因素的影響,是智能家居、會議場景所面臨的典型問題。

在比賽中,有的參賽團隊使用了較為傳統(tǒng)的喚醒模塊和聲紋模塊兩級串聯(lián)架構(gòu),而有的參賽者采用了多任務(wù)學習和聯(lián)合訓練的架構(gòu),涵蓋了當前業(yè)界主流和先進的技術(shù)路線。

所采用的性能評價指標是檢測代價得分(DCF,Detection Cost Function),考慮錯誤拒絕(FR, False Rejection)和錯誤接受(FA, False Acceptance)兩類錯誤的不同代價,得分越小代表系統(tǒng)性能越好。

帶有身份認證的語音喚醒技術(shù)是語音技術(shù)發(fā)展的重要領(lǐng)域之一,也是智能物聯(lián)網(wǎng)安全發(fā)展的重要驅(qū)動力。

聯(lián)想集團副總裁、聯(lián)想研究院人工智能實驗室負責人范建平博士在線上討論會上表示:“聯(lián)想作為智能化變革的引領(lǐng)者和賦能者,一直致力于推動人工智能核心技術(shù)和應(yīng)用的發(fā)展。通過舉辦此次活動,希望能夠加速個性化語音喚醒技術(shù)的進步和落地應(yīng)用,推動建立行業(yè)基準,促進產(chǎn)學研進一步的合作和發(fā)展。”

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄