?
1952 年,貝爾實驗室(Bell Labs)制造一臺 6 英尺高自動數(shù)字識別機“Audrey”,它可以識別數(shù)字 0~9 的發(fā)音,且準確度高達 90%以上。并且它對熟人的精準度高,而對陌生人則偏低。
1956 年,普林斯頓大學 RCA 實驗室開發(fā)了單音節(jié)詞識別系統(tǒng),能夠識別特定人的十個單音節(jié)詞中所包含的不同音節(jié)。
1959 年,MIT 的林肯實驗室開發(fā)了針對十個元音的非特定人語音識別系統(tǒng)。
二十世紀六十年代初,東京無線電實驗室、京都大學和 NEC 實驗室在語音識別領域取得了開拓性的進展,各自先后制作了能夠進行語音識別的專用硬件。
1964 年的世界博覽會上,IBM 向世人展示了數(shù)字語音識別的“shoe box recognizer”。
二十世紀七十年代,語音識別的研究取得了突破性的進展,研究重心仍然是孤立詞語語音識別。
1971 年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到 1000 以上。參與該項目的公司和學術機構包括 IBM、卡內基梅隆大學(CMU)、斯坦福研究院。就這樣,Harpy 在 CMU 誕生了。不像之前的識別器,Harpy 可以識別整句話。
二十世紀八十年代,NEC 提出了二階動態(tài)規(guī)劃算法,Bell 實驗室提出了分層構造算法,以及幀同步分層構造算法等。同時,連接詞和大詞匯量連續(xù)語音的識別得到了較大發(fā)展,統(tǒng)計模型逐步取代模板匹配的方法,隱馬爾科夫模型(HMM)成為語音識別系統(tǒng)的基礎模型。
八十年代中期,IBM 創(chuàng)造了一個語音控制的打字機—Tangora,能夠處理大約 20000 單詞。IBM 的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術中加入統(tǒng)計信息。這種方法使得在給定音素情況下,很有可能預測下一個因素。
1984 年,IBM 發(fā)布的語音識別系統(tǒng)在 5000 個詞匯量級上達到了 95%的識別率。
1985 年 AT&T 貝爾實驗室建造了第一個智能麥克風系統(tǒng),用來研究大室內空間的聲源位置追蹤問題。
1987 年開始,國家開始執(zhí)行 963 計劃后,國家 863 智能計算機主題專家組為語音識別研究立項,每兩年一次。
1987 年 12 月,李開復開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”。
1988 年,卡耐基梅隆大學結合矢量量化技術(VQ),用 VQ/HMM 方法開發(fā)了世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng) SPHINX,能夠識別包括 997 個詞匯的 4200 個連續(xù)語句。
同年,清華大學和中科院聲學所在大詞庫漢語聽寫機的研制上取得了突破性進展。
?
1990 年,聲龍發(fā)布了第一款消費級語音識別產(chǎn)品 Dragon Dictate,價格高達 9000 美元。
1992 年,IBM 引入了它的第一個聽寫系統(tǒng),稱為“IBM Speech Server Series (ISSS)”。
1992 年研發(fā)的 Sphinx-II 在同年美國國防部先進技術研究計劃署(DARPA)資助的語音基準評測中獲得了最高的識別準確度,這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓練性和高效性。
1995 年,Windows 95 上首次搭載微軟 SAPI,它使應用程序開發(fā)者能夠在 Windows 上創(chuàng)建語音程序。
1995 年,AT&T 研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在頭腦風暴關于互聯(lián)網(wǎng)會如何改變電話應用的時候,產(chǎn)生了一些新的想法:為什么不設計這樣一個系統(tǒng)來運行一種可以解析某種語音標記語言的語音瀏覽器,用來把互聯(lián)網(wǎng)的內容和服務提供到千家萬戶的電話上。于是,AT&T 就開始“電話網(wǎng)絡項目”(Phone Web Project)。之后,Chris 繼續(xù)留在 AT&T,Ken 去了朗訊,Dave 和 Curt 去了摩托羅拉。(1999 年初的時候,他們分別在各自的公司邁出了語音標記語言規(guī)范實質性的第一步。因為他們的密友關系,這幾家公司合作成立了一個 VoiceXML 論壇組織,IBM 也作為一個創(chuàng)始公司加入了進來。)
1997 年 IBM ViaVoice 首個語音聽寫產(chǎn)品問世,你只要對著話筒喊出要輸入的字符,它就會自動判斷并且?guī)湍爿斎胛淖?。次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’ 98。
1998 年,微軟在北京成立亞洲研究院,將漢語語音識別納入重點研究方向之一。
2001 年,比爾蓋茨在美國消費電子展上展示了一臺代號為 MiPad 的原型機。Mipad 展現(xiàn)了語音多模態(tài)移動設備的愿景。
2002 年,中科院自動化所及其所屬模式科技公司推出了“天語”中文語音系列產(chǎn)品——Pattek ASR,結束了該領域一直被國外公司壟斷的局面。
2002 年,美國國防部先進技術研究計劃署(DARPA)首先啟動了 EARS 項目和 TIDES 項目; 由于 EARS 項目過于敏感,EARS 和 TIDES 兩個項目合并為“全球自主語言開發(fā)”(Global Autonomous Language Exploitation,GALE)。GALE 目標是應用計算機軟件技術對海量規(guī)模的多語言語音和文本進行獲取、轉化、分析和翻譯。
2006 年,辛頓(Hinton)提出深度置信網(wǎng)絡(DBN),促使了深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)研究的復蘇,掀起了深度學習的熱潮。
2009 年,辛頓以及他的學生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡應用于語音的聲學建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫 TIMIT 上獲得成功。
2009 年微軟 Win7 集成語音功能。
2010 年 Google Vioce Action 支持語音操作與搜索。
2011 年初,微軟的 DNN 模型在語音搜索任務上獲得成功。
同年科大訊飛將 DNN 首次成功應用到中文語音識別領域,并通過語音云平臺提供給廣大開發(fā)者使用。
2011 年 10 月,蘋果 iPhone 4S 發(fā)布,個人手機助理 Siri 誕生,人機交互翻開新篇章。
2012 年,科大訊飛在語音合成領域首創(chuàng) RBM 技術。
2012 年,谷歌的智能語音助手 Google Now 的形式出現(xiàn)在眾人面前,用在安卓 4.1 和 Nexus 手機上。
2013 年,Google 發(fā)布 Google Glass,蘋果也加大了對 iWatch 的研發(fā)投入,穿戴式語音交互設備成為新熱點。
同年,科大訊飛在語種識別領域首創(chuàng) BN-ivec 技術。
2014 年,思必馳推出首個可實時轉錄的語音輸入板。
2014 年 11 月,亞馬遜智能音箱 Echo 發(fā)布。
2015 年,思必馳推出首個可智能打斷糾正的語音技術。
2016 年,Google Assistant 伴隨 Google Home 正式亮相,搶奪亞馬遜智能音箱市場。(亞馬遜 Echo 在 2016 年的智能音箱市場占有率達到了巔峰的 88%)
同年,科大訊飛上線 DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡,Deep Fully Convolutional Neural Network)語音識別系統(tǒng)。
同年 11 月,科大訊飛、搜狗、百度先后召開發(fā)布會,對外公布語音識別準確率均達到“97%”。
2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型?!凹袛U展深度學習應用技術終于取得了 5.5% 詞錯率的突破”。相對應的是去年 5 月的 6.9%。
2017 年 8 月,微軟發(fā)布新的里程碑,通過改進微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡的聽覺和語言模型,在去年基礎上降低了大約 12%的出錯率,詞錯率為 5.1%,聲稱超過專業(yè)速記員。相對應的是去年 10 月的 5.9%,聲稱超過人類。
2017 年 12 月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),詞錯率降低至 5.6%。相對于強大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。
市場分析公司 Canalys 在 2018 年 1 月分布一份報告,其預測 2018 年將是普及智能音箱的“決定性一年”,相比全年出貨量剛過 3000 萬臺的 2017 年,2018 年智能音箱全球出貨量預計將達到 5630 萬臺。
中投顧問發(fā)布的《2018-2022 年中國智能語音行業(yè)深度調研及投資前景預測報告》顯示我國智能語音市場整體處于啟動期,智能車載,智能家居,智能可穿戴等垂直領域處于爆發(fā)前夜。
文章引用
[1] 李曉雪 . 基于麥克風陣列的語音增強與識別研究[D]. 浙江大學, 2010.
[2] 倪崇嘉, 劉文舉, 徐波 . 漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J]. 中文信息學報, 2009, 23(1):112-123.
[3] 高朝煌 . 非特定人漢語連續(xù)數(shù)字語音識別系統(tǒng)的研究與實現(xiàn)[D]. 西安電子科技大學, 2011.
[4] 《2017 年的語音識別,路只走了一半》
[5] 《2018-2022 年國內外智能語音發(fā)展的分析》
[6] 《四十年的難題與榮耀—從歷史視角看語音識別發(fā)展》
[7] 《幾個常見的語音交互平臺的簡介和比較》
[8] 《VoiceXML 簡介》
[9] 《思必馳官方介紹資料》
與非網(wǎng)原創(chuàng)內容,未經(jīng)許可,不得轉載!