欧美97色伦欧美一区二区日韩,亚洲午夜久久久综合37日本,欧美日韩福利一区二区

1952 年，貝爾實(shí)驗(yàn)室（Bell Labs）制造一臺 6 英尺高自動數(shù)字識別機(jī)“Audrey”，它可以識別數(shù)字 0~9 的發(fā)音，且準(zhǔn)確度高達(dá) 90％以上。并且它對熟人的精準(zhǔn)度高，而對陌生人則偏低。

1956 年，普林斯頓大學(xué) RCA 實(shí)驗(yàn)室開發(fā)了單音節(jié)詞識別系統(tǒng)，能夠識別特定人的十個(gè)單音節(jié)詞中所包含的不同音節(jié)。

1959 年，MIT 的林肯實(shí)驗(yàn)室開發(fā)了針對十個(gè)元音的非特定人語音識別系統(tǒng)。

二十世紀(jì)六十年代初，東京無線電實(shí)驗(yàn)室、京都大學(xué)和 NEC 實(shí)驗(yàn)室在語音識別領(lǐng)域取得了開拓性的進(jìn)展，各自先后制作了能夠進(jìn)行語音識別的專用硬件。

1964 年的世界博覽會上，IBM 向世人展示了數(shù)字語音識別的“shoe box recognizer”。

二十世紀(jì)七十年代，語音識別的研究取得了突破性的進(jìn)展，研究重心仍然是孤立詞語語音識別。

1971 年，美國國防部研究所（Darpa）贊助了五年期限的語音理解研究項(xiàng)目，希望將識別的單詞量提升到 1000 以上。參與該項(xiàng)目的公司和學(xué)術(shù)機(jī)構(gòu)包括 IBM、卡內(nèi)基梅隆大學(xué)（CMU）、斯坦福研究院。就這樣，Harpy 在 CMU 誕生了。不像之前的識別器，Harpy 可以識別整句話。

二十世紀(jì)八十年代，NEC 提出了二階動態(tài)規(guī)劃算法，Bell 實(shí)驗(yàn)室提出了分層構(gòu)造算法，以及幀同步分層構(gòu)造算法等。同時(shí)，連接詞和大詞匯量連續(xù)語音的識別得到了較大發(fā)展，統(tǒng)計(jì)模型逐步取代模板匹配的方法，隱馬爾科夫模型（HMM）成為語音識別系統(tǒng)的基礎(chǔ)模型。

八十年代中期，IBM 創(chuàng)造了一個(gè)語音控制的打字機(jī)—Tangora，能夠處理大約 20000 單詞。IBM 的研究就是基于隱形馬爾科夫鏈模型（hidden Markov model），在信號處理技術(shù)中加入統(tǒng)計(jì)信息。這種方法使得在給定音素情況下，很有可能預(yù)測下一個(gè)因素。

1984 年，IBM 發(fā)布的語音識別系統(tǒng)在 5000 個(gè)詞匯量級上達(dá)到了 95%的識別率。

1985 年 AT&T 貝爾實(shí)驗(yàn)室建造了第一個(gè)智能麥克風(fēng)系統(tǒng)，用來研究大室內(nèi)空間的聲源位置追蹤問題。

1987 年開始，國家開始執(zhí)行 963 計(jì)劃后，國家 863 智能計(jì)算機(jī)主題專家組為語音識別研究立項(xiàng)，每兩年一次。

1987 年 12 月，李開復(fù)開發(fā)出世界上第一個(gè)“非特定人連續(xù)語音識別系統(tǒng)”。

1988 年，卡耐基梅隆大學(xué)結(jié)合矢量量化技術(shù)（VQ），用 VQ/HMM 方法開發(fā)了世界上第一個(gè)非特定人大詞匯量連續(xù)語音識別系統(tǒng) SPHINX，能夠識別包括 997 個(gè)詞匯的 4200 個(gè)連續(xù)語句。

同年，清華大學(xué)和中科院聲學(xué)所在大詞庫漢語聽寫機(jī)的研制上取得了突破性進(jìn)展。

1990 年，聲龍發(fā)布了第一款消費(fèi)級語音識別產(chǎn)品 Dragon Dictate，價(jià)格高達(dá) 9000 美元。

1992 年，IBM 引入了它的第一個(gè)聽寫系統(tǒng)，稱為“IBM Speech Server Series (ISSS)”。

1992 年研發(fā)的 Sphinx-II 在同年美國國防部先進(jìn)技術(shù)研究計(jì)劃署（DARPA）資助的語音基準(zhǔn)評測中獲得了最高的識別準(zhǔn)確度，這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓(xùn)練性和高效性。

1995 年，Windows 95 上首次搭載微軟 SAPI，它使應(yīng)用程序開發(fā)者能夠在 Windows 上創(chuàng)建語音程序。

1995 年，AT&T 研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會如何改變電話應(yīng)用的時(shí)候，產(chǎn)生了一些新的想法：為什么不設(shè)計(jì)這樣一個(gè)系統(tǒng)來運(yùn)行一種可以解析某種語音標(biāo)記語言的語音瀏覽器，用來把互聯(lián)網(wǎng)的內(nèi)容和服務(wù)提供到千家萬戶的電話上。于是，AT&T 就開始“電話網(wǎng)絡(luò)項(xiàng)目”（Phone Web Project）。之后，Chris 繼續(xù)留在 AT&T，Ken 去了朗訊，Dave 和 Curt 去了摩托羅拉。（1999 年初的時(shí)候，他們分別在各自的公司邁出了語音標(biāo)記語言規(guī)范實(shí)質(zhì)性的第一步。因?yàn)樗麄兊拿苡殃P(guān)系，這幾家公司合作成立了一個(gè) VoiceXML 論壇組織，IBM 也作為一個(gè)創(chuàng)始公司加入了進(jìn)來。）

1997 年 IBM ViaVoice 首個(gè)語音聽寫產(chǎn)品問世，你只要對著話筒喊出要輸入的字符，它就會自動判斷并且?guī)湍爿斎胛淖帧４文暧珠_發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng) ViaVoice’ 98。

1998 年，微軟在北京成立亞洲研究院，將漢語語音識別納入重點(diǎn)研究方向之一。

2001 年，比爾蓋茨在美國消費(fèi)電子展上展示了一臺代號為 MiPad 的原型機(jī)。Mipad 展現(xiàn)了語音多模態(tài)移動設(shè)備的愿景。

2002 年，中科院自動化所及其所屬模式科技公司推出了“天語”中文語音系列產(chǎn)品——Pattek ASR，結(jié)束了該領(lǐng)域一直被國外公司壟斷的局面。

2002 年，美國國防部先進(jìn)技術(shù)研究計(jì)劃署（DARPA）首先啟動了 EARS 項(xiàng)目和 TIDES 項(xiàng)目；由于 EARS 項(xiàng)目過于敏感，EARS 和 TIDES 兩個(gè)項(xiàng)目合并為“全球自主語言開發(fā)”（Global Autonomous Language Exploitation，GALE）。GALE 目標(biāo)是應(yīng)用計(jì)算機(jī)軟件技術(shù)對海量規(guī)模的多語言語音和文本進(jìn)行獲取、轉(zhuǎn)化、分析和翻譯。

2006 年，辛頓（Hinton）提出深度置信網(wǎng)絡(luò)（DBN），促使了深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）研究的復(fù)蘇，掀起了深度學(xué)習(xí)的熱潮。

2009 年，辛頓以及他的學(xué)生默罕默德（D. Mohamed）將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模，在小詞匯量連續(xù)語音識別數(shù)據(jù)庫 TIMIT 上獲得成功。

2009 年微軟 Win7 集成語音功能。

2010 年 Google Vioce Action 支持語音操作與搜索。

2011 年初，微軟的 DNN 模型在語音搜索任務(wù)上獲得成功。

同年科大訊飛將 DNN 首次成功應(yīng)用到中文語音識別領(lǐng)域，并通過語音云平臺提供給廣大開發(fā)者使用。

2011 年 10 月，蘋果 iPhone 4S 發(fā)布，個(gè)人手機(jī)助理 Siri 誕生，人機(jī)交互翻開新篇章。

2012 年，科大訊飛在語音合成領(lǐng)域首創(chuàng) RBM 技術(shù)。

2012 年，谷歌的智能語音助手 Google Now 的形式出現(xiàn)在眾人面前，用在安卓 4.1 和 Nexus 手機(jī)上。

2013 年，Google 發(fā)布 Google Glass，蘋果也加大了對 iWatch 的研發(fā)投入，穿戴式語音交互設(shè)備成為新熱點(diǎn)。

同年，科大訊飛在語種識別領(lǐng)域首創(chuàng) BN-ivec 技術(shù)。

2014 年，思必馳推出首個(gè)可實(shí)時(shí)轉(zhuǎn)錄的語音輸入板。

2014 年 11 月，亞馬遜智能音箱 Echo 發(fā)布。

2015 年，思必馳推出首個(gè)可智能打斷糾正的語音技術(shù)。

2016 年，Google Assistant 伴隨 Google Home 正式亮相，搶奪亞馬遜智能音箱市場。（亞馬遜 Echo 在 2016 年的智能音箱市場占有率達(dá)到了巔峰的 88%）

同年，科大訊飛上線 DFCNN（深度全序列卷積神經(jīng)網(wǎng)絡(luò)，Deep Fully Convolutional Neural Network）語音識別系統(tǒng)。

同年 11 月，科大訊飛、搜狗、百度先后召開發(fā)布會，對外公布語音識別準(zhǔn)確率均達(dá)到“97%”。

2017 年 3 月，IBM 結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型?！凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯率的突破”。相對應(yīng)的是去年 5 月的 6.9%。

2017 年 8 月，微軟發(fā)布新的里程碑，通過改進(jìn)微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型，在去年基礎(chǔ)上降低了大約 12%的出錯率，詞錯率為 5.1%，聲稱超過專業(yè)速記員。相對應(yīng)的是去年 10 月的 5.9%，聲稱超過人類。

2017 年 12 月，谷歌發(fā)布全新端到端語音識別系統(tǒng)（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），詞錯率降低至 5.6%。相對于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

市場分析公司 Canalys 在 2018 年 1 月分布一份報(bào)告，其預(yù)測 2018 年將是普及智能音箱的“決定性一年”，相比全年出貨量剛過 3000 萬臺的 2017 年，2018 年智能音箱全球出貨量預(yù)計(jì)將達(dá)到 5630 萬臺。

中投顧問發(fā)布的《2018-2022 年中國智能語音行業(yè)深度調(diào)研及投資前景預(yù)測報(bào)告》顯示我國智能語音市場整體處于啟動期，智能車載，智能家居，智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。

文章引用

[1] 李曉雪 . 基于麥克風(fēng)陣列的語音增強(qiáng)與識別研究[D]. 浙江大學(xué), 2010.

[2] 倪崇嘉, 劉文舉, 徐波 . 漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J]. 中文信息學(xué)報(bào), 2009, 23(1):112-123.

[3] 高朝煌 . 非特定人漢語連續(xù)數(shù)字語音識別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2011.

[4] 《2017 年的語音識別，路只走了一半》

[5] 《2018-2022 年國內(nèi)外智能語音發(fā)展的分析》

[6] 《四十年的難題與榮耀—從歷史視角看語音識別發(fā)展》

[7] 《幾個(gè)常見的語音交互平臺的簡介和比較》

[8] 《VoiceXML 簡介》

[9] 《思必馳官方介紹資料》

與非網(wǎng)原創(chuàng)內(nèi)容，未經(jīng)許可，不得轉(zhuǎn)載！

智能語音科技簡史（2018版），這場技術(shù)革命從哪開始？

相關(guān)推薦

智能語音科技簡史（2018版），這場技術(shù)革命從哪開始？

相關(guān)推薦

智能語音科技簡史（2018版），這場技術(shù)革命從哪開始？