?
蘋果最近的秋季發(fā)布會主要圍繞著 iPhone X,更換 Touch ID 的人臉識別,OLED 顯示屏以及支持蜂窩網(wǎng)絡(luò)的 Apple Watch。但是,生活在波蘭、立陶宛、斯洛伐克、捷克共和國以及世界上許多其他地方的人們,并沒有注意以上那些“閃光點”,而是發(fā)現(xiàn)另外一件事情。
Siri 沒有學(xué)習(xí)新的語言,這可是件大事。
觸摸屏作為智能手機的界面工作得很出色,但是對于智能手表的微型顯示器來說,它就成了一個麻煩。蘋果計劃在今年年底前推出的智能音箱根本就不會有屏幕。Siri 和其他虛擬助手,如 Google Assistant、Cortana 或 Bixby,正日益成為我們與設(shè)備交互的主要方式。設(shè)想一下在自己的國家,要用外語與機器交談,僅僅是為了播放一首歌,相信大部分人都會覺得特別別扭。
?
我試了下,目前,Siri 只支持 21 種語言。
從民族學(xué)的角度看,世界上現(xiàn)在有 7000 多種語言。Siri 支持的 21 中的語言使用者占了地球總?cè)丝诘囊话?。添加新的語言會導(dǎo)致收益的減少,因為公司需要經(jīng)過代價高昂而精細的開發(fā)過程,以迎合越來越小的人群。一些國家和地區(qū)的人口比較少,波蘭的人口為 3800 萬人,捷克共和國只有 1050 萬人,而斯洛伐克更少只有 540 萬。將斯洛伐克語添加到 Siri 或任何其他虛擬助手,將花費和添加西班牙語一樣多的精力和錢,但需要注意的是西班牙有 4.37 億人口,而斯洛伐克只有 540 萬。
所以,如果 Siri 目前還不支持你的母語,你可能就得等待科技的進步。幸運的是,這種變革的苗頭已經(jīng)出現(xiàn)。
注意,虛擬助手花了很長時間才到達這一步。
第一步:讓他們聽
“在識別語音時,需要處理大量的數(shù)據(jù):重音,背景噪音,音量。因此,識別語音實際上要比產(chǎn)生語音困難得多?!?a class="article-link" target="_blank" href="/manufacturer/1000050/">百度計算語言學(xué)研究員 Andrew Gibiansky 說。 Gibiansky 還指出,盡管如此,語音識別領(lǐng)域的研究比語音領(lǐng)域的研究更為先進。
一直以來語音識別的根本挑戰(zhàn)是把聲音轉(zhuǎn)換成文字。當你和你的設(shè)備交談時,語音會被轉(zhuǎn)化成波形,代表了頻率隨時間的變化。解決這個問題的首要方法之一是使波形某些部分與相應(yīng)的字符對齊。這種方法挺糟糕的,因為我們都以不同的聲音說話。即使建立專門用來理解一個人的系統(tǒng)也不能很好的解決,因為人們可以用不同的方式說每個詞,比如改變節(jié)奏。如果一個詞說得很慢或者很快,這意味著輸入信號可能很長或者很短,但是在兩種情況下,它都必須翻譯成同一組字符。
當計算機科學(xué)家斷定將聲音直接映射到字符上并不是最好的方法時,他們開始嘗試將波形的一部分映射到音素上,這些符號代表語言學(xué)中的音。這就相當于建立了一個聲學(xué)模型,這些音素將進入一個語言模型,把這些音翻譯成文字?;谶@種方法,帶有信號處理單元的自動語音識別(ASR)系統(tǒng)的方案就出現(xiàn)了,你可以平滑輸入聲音,將波形轉(zhuǎn)換成頻譜圖,并將其分成約 20 毫秒的片段。這個 ASR 也有一個聲學(xué)模型來將這些片段轉(zhuǎn)換成音素,以及一個語言模型,然后將這些音素轉(zhuǎn)換成文本。
“在過去,翻譯系統(tǒng)和語音文本系統(tǒng)是圍繞著相同的工具——隱馬爾可夫模型(HMMs)設(shè)計的,”Next IT 的首席技術(shù)革新官喬·杜姆林(Joe Dumoulin)說。Next IT 是一家為美國陸軍、美國鐵路公司(Amtrak)和英特爾(Intel)等公司設(shè)計虛擬助手的公司。
HMMs 是用來計算概率的,即以統(tǒng)計學(xué)的方式表示在復(fù)雜系統(tǒng)(如語言)中多個元素之間如何相互作用的。以大量的人工翻譯文本為例,就像歐洲議會的議事錄以所有歐盟成員國的語言提供一樣,用 HMMs 可以確定一個特定的輸入短語各種詞組合的可能性,以及你最終會得到一個或多或少可行的翻譯系統(tǒng)。這個想法同樣是采用抄錄語音的手法。
當你從正確的角度看待這件事就變得清楚了。把語音看作一種語言,把音素當作另一種語言。然后對音素和文字進行同樣的處理。由于 HMMs 在機器翻譯方面工作得相當好,所以很自然的選擇它在語音識別各步驟之間進行轉(zhuǎn)換。
隨著時間的推移,開發(fā)的模型越來越大,積累的詞匯越來越多,像 Google 和 Nuanc 等 IT 巨頭采用的語音識別工具,單詞錯誤率降低到 20%以下。但這種語音識別工具有一個重要的缺陷:它們是多年來人類細致微調(diào)的結(jié)果。要在一種新語言中達到這樣的精確程度,意味著幾乎從開始就需要由工程師、計算機科學(xué)家和語言學(xué)家組成團隊合作。這樣花費的代價是非常昂貴的,因此目前語音識別工具只支持最流行的語言。然而,在 2015 年出現(xiàn)了新的突破。
第二步:利用深度學(xué)習(xí)革命
圖|“十九世紀”的頻譜圖
2015 年,谷歌的語音識別系統(tǒng)以驚人的 49%的性能躍升震驚了全世界。這個系統(tǒng)怎么會如此迅速地從 20%的錯誤率變成了 5%的錯誤率呢?深度學(xué)習(xí)真的開始了。
深度神經(jīng)網(wǎng)絡(luò)(DNNs),是一種利用大數(shù)據(jù)和強大的硬件模仿人腦的算法。在上面概述的三種傳統(tǒng)的 ASR 模塊中,DNNs 取代了最具挑戰(zhàn)性和大工作量的聲學(xué)建模。不再需要預(yù)測音素。相反,只要系統(tǒng)事先攝取了數(shù)十萬小時的記錄語音,ASR 系統(tǒng)可以直接從原始的頻譜幀中獲取字符。(這就是為什么聽寫服務(wù)優(yōu)于虛擬助手,聽寫是 DNNs 大數(shù)據(jù)的來源,從而使真正的、自我改進的聲學(xué)模型得以形成。)公司只需要很少的人力監(jiān)督就能做到這一點,隨著時間的推移,這些系統(tǒng)也得到了改進。
有一些小問題,就是這些系統(tǒng)無法預(yù)測如何拼寫一個以前沒見過的詞,在大多數(shù)情況下,它們都是專有名詞或新詞。但系統(tǒng)也不是完全失敗,而是以一種非常人性化的方式來處理這個問題:他們會根據(jù)發(fā)音來拼寫新單詞。對于基于 HMM 的語言模型而言一個音標就像蛋糕的一小塊,如果它遇到一個小概率的詞組“try cough ski concerto”。該系統(tǒng)拼出來更有可能是“Tchaikovsky 柴可夫斯基”。
?
蘋果(Apple)的亞歷克斯·阿爾科索(Alex Acero)今年春天在接受路透社(Reuters)采訪時,描述了蘋果是如何開始 Siri 學(xué)習(xí)上海話的。首先,公司邀請母語人士閱讀各種方言和口音的段落,并讓電腦從轉(zhuǎn)錄樣本中學(xué)習(xí)。但是這樣出現(xiàn)了一個問題,人們在錄音棚里讀這些段落,往往聽起來很沉悶,沒有感情,就是是不是他們平時自然說話的方式。
為此,科技公司使用一些巧妙的技巧來解決這個問題,比如用耳機來裝配揚聲器,播放擁擠的咖啡館或購物中心的背景音。為了讓參與者說話更加生動,工程師們讓他們閱讀詩歌、優(yōu)秀文學(xué)、或電影劇本,引導(dǎo)他們進行語音表演。然后,通過聲音編輯軟件,給樣本添加各種各樣的噪音,比如風(fēng),汽車的發(fā)動機,遠處的音樂,和其他人的交談。所有這些都有助于使樣本盡可能接近真實世界的數(shù)據(jù)。
這聽起來像是一種構(gòu)建 ASRs 的預(yù)深造方法。蘋果以完美主義著稱,在部署之前,會盡可能地對自己的系統(tǒng)進行調(diào)整,這意味著,蘋果的研究更多地依賴于依賴人類的轉(zhuǎn)錄。相比之下,谷歌(Google)最近已經(jīng)展示了深度學(xué)習(xí)在這個領(lǐng)域真正能起到的作用。去年 8 月,谷歌(Google)聽寫增加了 21 種新語言,支持的語言數(shù)量達到驚人的 119 種語言。
第三步:算法理解
不管什么語言,都能理解你的話語。僅僅是復(fù)雜的 ASR 系統(tǒng)所有目標中的第一部分。一個虛擬助手需要對此做些什么?通常這種查詢理解分三個步驟進行,第一個步驟是域分類。首先,AI 本質(zhì)上試圖找出被請求任務(wù)屬于哪個類別。這是否與信息傳遞、看電影、回答事實問題、發(fā)出指示等有關(guān)?
助手最終選擇哪個領(lǐng)域通常取決于它是否能在文本中找到特定的關(guān)鍵字或關(guān)鍵字的組合。當我們說“播放約翰尼·德普(Johnny Depp)主演的加勒比海盜電影預(yù)告片?!睍r,助理會簡單地計算一下,考慮到影片中包含“電影”、“預(yù)告片”和“主演”等詞語的內(nèi)容,它應(yīng)該選擇“電影”領(lǐng)域。
一旦找到域名,虛擬助手就可以進行意圖檢測。這取決于你想讓你的虛擬助手采取什么行動。就像在“電影”里,出現(xiàn)“播放”這個詞則很有可能是希望打開一個視頻文件。最后一個問題是播放哪個視頻。
為了做出猜測,Siri 使用了語義標簽或關(guān)鍵詞。比如說,要找到合適的預(yù)告片,我們需要填上“標題”或“演員”這樣的關(guān)鍵詞,當我們記不清標題的時候,也可以是“情節(jié)”。在這里,Siri 很可能這樣發(fā)現(xiàn),在之前考慮過的兩個步驟中,Johnny Depp 是一個演員,而“加勒比?!保–aribbean)這個詞就在“海盜”(pirates)的旁邊,暗示著一部熱門電影的最新一部。
虛擬助手所能做的就是將這樣定義的意圖與針對它們的一組關(guān)鍵字組合在一起。亞馬遜的 Alexa 大約支持 16000 個這樣的組合。Next IT 公司最近發(fā)布了一套工具,供企業(yè)開發(fā)自己的虛擬助手,其中包含了驚人的 9 萬個意圖。
乍一看,另外一個國家的助手要本地化時,要把所有這些都翻譯出來似乎是個惡夢。然而,情況并非如此。這種處理輸入文本的方式意味著當涉及到支持多種語言時,對虛擬助手的大腦來說并不是什么大問題?!霸诜g系統(tǒng)中,可以測量輸出中的刪除、插入和不正確的翻譯數(shù)量來查看錯誤率?!倍拍妨终f?!拔覀兯龅木褪遣榭次覀冊谶^程中刪除或插入的概念的數(shù)量。這就是為什么一種語言模型可以與其他語言一起使用,即使翻譯可能并不完美。只要助手能正確認識概念,它就能很好地工作?!?/p>
根據(jù)杜姆林的說法,虛擬助手甚至可以通過機器翻譯意圖,獲得相當好的結(jié)果?!斑@是可行的解決方案之一,”他說。Next IT 添加新語言的第一步是通過機器翻譯來運行意圖和相應(yīng)的關(guān)鍵字?!叭缓螅覀兣c語言學(xué)家和專家合作來完善譯文?!比欢?,這最后一步僅僅是因為 Next IT 構(gòu)建的助手將使用他們自己的專業(yè)術(shù)語,工作在特定領(lǐng)域?!皩τ跈C器翻譯來說,通常沒有可以使其可靠工作在特定領(lǐng)域的文本文檔,但是一般用途的助手更通用。用谷歌翻譯輸入“給我訂周日航班”,它會在每種語言下都找到正確答案?!倍拍妨终f。
可以看出機器學(xué)習(xí)的困境:使助手本地化,而不僅僅是翻譯,意味著要考慮到文化因素。這似乎很簡單,比如要英國人把足球叫做“football”,而美國人叫“soccer”,這一問題似乎很容易理解,但這一問題還遠不止于此。
“在葡萄牙,人們在接電話的時候會用到一個特定的短語,意思是‘誰在說話’。在美國,這么說會認為粗魯,但在那里,則什么都不是,就像是說‘你好’一樣?!倍拍妨终f。
因此,一個真正的會話人工智能必須了解給定語言和文化的這種細微差別,并意識到這是一種言語方式,而不是字面要求。根據(jù)杜姆林的說法,用一種新的語言來發(fā)現(xiàn)這種本地特性,并在新的語言中使用使用查詢理解模塊需要 30 到 90 天(這取決于虛擬助理需要覆蓋多少意圖)。這里的好處是,由于 Siri 和其他最流行的系統(tǒng)可以被第三方應(yīng)用開發(fā)者所使用,本地化的重擔(dān)主要落在希望 Siri 使用特定語言處理的公司身上。蘋果公司要求開發(fā)人員加入關(guān)鍵詞和短語示例,促使 Siri 以他們希望支持的所有語言觸發(fā)他們的應(yīng)用程序。這使本地化成為可能。
因此,對于多語言而言,識別語言和理解語言都是可行的(有了可行的時間、資源和成本承諾)。但這不是虛擬助手的終點,一旦助手處理完我們的查詢,它還必須把結(jié)果傳達給我們。今天,這就是不那么流行的語言的發(fā)展方向。
?
和人交談
“為了生成語音,Siri 和其他類似的系統(tǒng)使用串連模型,”百度計算語言學(xué)研究員 Gibiansky 這樣表示?!按B”的意思是“串連在一起”,在語音生成系統(tǒng)中,串連在一起的是人類聲音的基本聲音。建立這種系統(tǒng)的一種方法是邀請一批語言學(xué)家來研究音素系統(tǒng),聲音工程師來研究信號處理,還有許許多多的人來研究每一個細節(jié)。這非常復(fù)雜、耗時又昂貴?!?/p>
像蘋果(Apple)或谷歌(Google)這樣的大型科技公司,完全有能力組織一支精通英語和其他廣泛使用語言的專家隊伍。但是,試著去找一個能在波蘭、斯洛伐克或蘇丹做同樣的事情的人,會非常困難。然而,串連模型是值得的,因為它們提供了最自然、最好理解的合成語音。
聘請以英語為母語的聲音演員,能夠把他們的聲音發(fā)給虛擬助手,接下來要做的就是構(gòu)建正確的腳本。就拿 Siri 來說?!癝iri 語音合成的質(zhì)量有明顯的差異,”Gibiansky 說。“當一個給定的單詞出現(xiàn)在數(shù)據(jù)庫中時,聲音演員實際上在錄音的時候說過,這聽起來很自然,質(zhì)量是完美的。但如果不是這樣,系統(tǒng)必須連接。連接意味著將這些詞從語音的基本構(gòu)造塊(音素、雙音、半音素等等)串接在一起,質(zhì)量會下降?!币虼?,腳本的選擇取決于助手應(yīng)該做什么。而對于像 Siri 這樣的通用系統(tǒng),需要涵蓋范圍廣泛的會話語音。
聲音演員完成錄音,會得到了兩個文件。一個是文本文件,其中包含腳本;另一個是語音文件,其中包含了音頻。在這一階段,語言學(xué)家和其他專家需要仔細檢查語音文件,并將其與多個層次(整段段落、句子、單詞、音節(jié)、電話,所有這些都成為文件的語音單元)的文本文件進行對比。
進入這個過程的時間和努力都取決于所追求的質(zhì)量。按照音標工作的 TTS 系統(tǒng)相當簡單。英語、印地語和波蘭語大約有 50 音標,讓所有這些都正確需要一小時左右的音頻。但最終的言語,卻沒有考慮到一個音標如何轉(zhuǎn)換到另一個的,這是挺糟糕的。這樣是很機械呆板的,為了讓系統(tǒng)更自然,你需要使用雙元音,由兩個相連的音標組成的語音單元。突然之間,你的言語單位的數(shù)量增長到了一千到兩千之間。
在這一點上,聲音變得更好了,但這仍然不是有更高要求的用戶希望聽到的。這就是為什么大多數(shù)當前的 TTS 系統(tǒng)都依賴于三音標,音標中有一半以上以元音開始、輔音結(jié)束。但是聲音工程師和語言學(xué)家們并不能只用一個三音標數(shù)據(jù)庫來完成。他們還需要提出一套詳細的韻律規(guī)則來描述特定語言中重音和語調(diào)的模式。Gibiansky 表示,完善這些服務(wù)用來與用戶交流的聲音,可能需要幾個月的努力工作。這就是為什么他和他在百度的同事們正在努力解決這個問題的原因——他們希望深入學(xué)習(xí),以徹底改變語音合成的方式,就像兩年前革命化語音識別一樣。
神經(jīng)語言
今年 3 月,由 Yuxuan Wang(王雨軒)領(lǐng)導(dǎo)谷歌研究團隊發(fā)表了一篇名為《Tacotron》的論文,這是一篇關(guān)于一種新的 TTS 的論文。他們聲稱它是世界上第一個端到端的 TTS 系統(tǒng),這種端到端方式,意味著你只需給它文本和語音配對,它就可以學(xué)會自己說任何語言。Tacotron 只用了 21 個小時轉(zhuǎn)錄音頻就掌握了英語。它的設(shè)計原理可以追溯到谷歌引入順序到序列的神經(jīng)翻譯。
為了將文本從一種語言翻譯成另一種語言,神經(jīng)網(wǎng)絡(luò)在源語言中獲取一系列符號,并預(yù)測目標語言中對應(yīng)的符號序列應(yīng)該是什么樣子。單詞被賦予了數(shù)值,并成為短語、句子或整個段落等較長序列的符號。因此,像英語中的“小瑪麗想要冰淇淋”這樣的句子首先會變成一系列的符號,比如“123456”,其中“1”代表“小”,“2”代表“瑪麗”,依此類推。翻譯為波蘭語時,系統(tǒng)會嘗試猜出波蘭語相應(yīng)的符號順序,可能會想出類似“Ma?a Mary chce loda”的詞組,其中“1”代表“Ma?a”、“2”代表“Mary”、“3”代表“chce”等等。神經(jīng)翻譯算法通過分析源語言和目標語言中大量的這樣排列的序列對來學(xué)習(xí)。就像在過去,一旦一種新技術(shù)在機器翻譯中占據(jù)主導(dǎo)地位,它也開始進入語音識別和生成領(lǐng)域。
Tacotron 團隊基本上將語音作為書面文本來翻譯成另一種目標語言的。這個過程的開始看起來差不多,一個關(guān)鍵的區(qū)別是一個符號不再被定義為一個完整的單詞,而是一個單一的字符。(因此,“1”代表“a”,“2”代表“b”,等等。)一個字不再是一個符號,而成為一個序列。可以把這看作是在算法對語言的理解上達到了更高的分辨率。字符級的分辨率比文字級的分辨率要高,但是它需要更高的計算能力。
對于語音,Tacotron 團隊將符號定義為一個持續(xù)約 20 毫秒的光譜框架。其余的工作方式與神經(jīng)翻譯一樣;輸入文本中的一系列符號(字符),在輸出端被轉(zhuǎn)換成符號系列(語譜幀)。同別的系統(tǒng)學(xué)習(xí)過程一樣,Tacotron 也是通過分析這樣的序列學(xué)習(xí)的。
這種方式的結(jié)果很好。它對標點符號很敏感,重音和語調(diào)準確得出奇,而且還能知道如何讀出訓(xùn)練數(shù)據(jù)庫中沒有的單詞。你可以在這里聽到 Tacotron 的聲音,它只經(jīng)過幾個小時的訓(xùn)練就學(xué)會了這一切。
“深度學(xué)習(xí)系統(tǒng)最令人興奮之處在于,它只需要數(shù)據(jù)。你可以通過一次生成語音來解決這個問題,而對于所有其他語言,你可以應(yīng)用相同的機制?!盙ibiansky 說?!拔覀兛梢該碛袛?shù)百種語言和成千上萬的聲音,整個過程所花費的金錢和精力要比我們今天使用的非神經(jīng)文本到語音系統(tǒng)少得多。”
在谷歌發(fā)布了 Tacotron 論文后不久,Gibiansky 的團隊在百度推出了自己的系統(tǒng),名為“Deep Voice 2”。它使這種深入的學(xué)習(xí)應(yīng)用更進一步?!拔蚁胝f,谷歌的論文描述了一個新的神經(jīng)網(wǎng)絡(luò)系統(tǒng),根據(jù)一個人 20 小時的講話,這個系統(tǒng)可以用這個聲音合成語音。我們在這方面的改進有兩個方面?!盙ibiansky 告訴 Ars?!笆紫?,我們改進了部分 Tacotron 使用的 WaveNet 系統(tǒng),這大大提高了音頻的質(zhì)量。但我們真正追求的目標是證明我們不需要一個演講者 20 個小時的錄音。”
Deep Voice2 可以通過一個人 20 到 30 分鐘的錄音講話來學(xué)習(xí)用特定的聲音說話。其余所有的訓(xùn)練音頻都可以從多個演講者那里收集?!拔覀償?shù)據(jù)庫中的每個人僅有半小時的講話時間。有一百多個,不同的聲音,不同的口音,不同的性別,”Gibiansky 表示?!霸谶x擇了系統(tǒng)應(yīng)該模仿誰的聲音之后,通過利用其余發(fā)言者的音頻中包含的所有信息,可以學(xué)習(xí)用這個聲音說話?!?/p>
“Deep Voice2 可以發(fā)出一個從來沒有被一個人說過的詞,這是它從其他聲音中學(xué)到的共同點。”Gibiansky 聲稱。
Gibiansky 和百度認為,這是打開了一個充滿可能性的世界。不僅僅是語音助手,而是使用深度學(xué)習(xí)語音生成作為保存全部語言的方法,或者作為一種工具讓其他人構(gòu)建高度特定的 TTS 系統(tǒng)。“將不再需要使用專家團隊,”Gibiansky 說?!澳憧梢韵胂?,可以根據(jù)需要,用數(shù)百種語言創(chuàng)建成千上萬個不同的聲音。這可以是非常個性化的?!?/p>
所以,盡管我們今天無法用自己的語言很好的與 Siri 對話,但這種擴展的藍圖似乎已經(jīng)存在。根據(jù) Gibiansky 的說法,語音生成是幾年前語音識別領(lǐng)域。在兩到三年的時間內(nèi),或許可以實現(xiàn)把神經(jīng)語言者這項技術(shù)應(yīng)用到生產(chǎn)上。一旦到達這種水準,就可以看到何種語言的語音系統(tǒng)出現(xiàn)爆炸式增長。
更多有關(guān)語音識別的資訊,歡迎訪問 與非網(wǎng)語音識別專區(qū)
與非網(wǎng)編譯內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!