加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 語(yǔ)音合成系統(tǒng)如何工作
    • 常見的 TTS 應(yīng)用
    • 常見的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性問題
    • 為數(shù)字虛擬形象提供類似人類聲音:NVIDIA
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

了解獨(dú)特的文本轉(zhuǎn)語(yǔ)音應(yīng)用

2023/06/29
1350
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

虛擬助手在用戶發(fā)出命令后就會(huì)作出語(yǔ)音回復(fù)。而生成語(yǔ)音回復(fù)的技術(shù)被稱為文本轉(zhuǎn)語(yǔ)音(TTS)。

TTS 應(yīng)用能夠讓輔助器具使用者訪問更多內(nèi)容,因此非常實(shí)用。最新的 TTS 技術(shù)可以從一段幾分鐘的音頻數(shù)據(jù)中生成合成聲音,非常適合僅留存了有限錄音的失音者。

事實(shí)上,TTS 的應(yīng)用正在因技術(shù)進(jìn)步而不斷增長(zhǎng):

在幾毫秒內(nèi)運(yùn)行端到端 TTS 流程,以實(shí)現(xiàn)自然互動(dòng)。

在推斷時(shí)自定義 AI 模型和流程,以產(chǎn)生具有表現(xiàn)力的合成語(yǔ)音。

部署在所有云、數(shù)據(jù)中心、邊緣或嵌入式設(shè)備上。

本文將說明語(yǔ)音合成系統(tǒng)如何運(yùn)作,然后介紹 TTS 技術(shù)的常見用途和新用途。

語(yǔ)音合成系統(tǒng)如何工作

顧名思義,文本轉(zhuǎn)語(yǔ)音或語(yǔ)音合成是將書面文本轉(zhuǎn)換成自然、類似人類的語(yǔ)音音頻的過程。在端到端 TTS 流程中用于實(shí)現(xiàn)這一轉(zhuǎn)換的關(guān)鍵模型和模塊包括:

文本規(guī)范化和預(yù)處理:將數(shù)字和縮略語(yǔ)變成文字。

文本編碼:將文本轉(zhuǎn)換為輸入到聲譜圖生成器的編碼向量。

聲譜圖生成器:從編碼文本向量中生成聲譜圖。

語(yǔ)音編碼器模型:輸入聲譜圖并生成一個(gè)人們可以聽到的合成語(yǔ)音。

一般來(lái)說,TTS 是虛擬助手、數(shù)字人和服務(wù)機(jī)器人等應(yīng)用的最終階段。

常見的 TTS 應(yīng)用

2021 年 IDC 對(duì)話式 AI 采用情況調(diào)查共調(diào)研了 251 家公司,其中 74.5% 在語(yǔ)音對(duì)話式 AI 解決方案中使用 TTS,68.5% 在無(wú)障礙解決方案中使用 TTS(圖 1)。

 

圖 1.? IDC 關(guān)于常見 TTS 用例的調(diào)查

語(yǔ)音合成的功能用途正得到許多行業(yè)的認(rèn)可,人們可能已經(jīng)看到過以下 TTS 技術(shù)用例。

虛擬網(wǎng)紅

虛擬網(wǎng)紅正在改變未來(lái)與企業(yè)或名人溝通的方式。虛擬網(wǎng)紅也稱為虛擬品牌大使或品牌代言人,它們可以協(xié)助公司推廣產(chǎn)品和服務(wù),名人也可以通過它們與粉絲保持全天候的聯(lián)系。

在這些用例中 TTS 技術(shù)生成了自定義聲音,然后被整合到動(dòng)畫虛擬網(wǎng)紅或數(shù)字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項(xiàng) TTS 功能可用于網(wǎng)站及閱讀類應(yīng)用,為喜歡音頻類節(jié)目的人帶來(lái)了福音。有視覺障礙的人也可以使用文字?jǐn)⑹雎牭剿麄兿矚g的內(nèi)容。

TTS 用于在這些應(yīng)用程序上將文本轉(zhuǎn)換成語(yǔ)音并朗讀出來(lái)。但這項(xiàng)工作并不像表面上那么簡(jiǎn)單。為了提升收聽體驗(yàn),此類應(yīng)用的聲音必須抑揚(yáng)頓挫、富有節(jié)奏和表現(xiàn)力。

常見的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性問題

對(duì)于生活在現(xiàn)代社會(huì)的人來(lái)說,最流行和具有吸引力的媒介莫過于音頻和視頻內(nèi)容。TTS 技術(shù)可以幫助內(nèi)容創(chuàng)作者為視頻配音或創(chuàng)建播客。

為了獲得更多的受眾,創(chuàng)作者還可以使用 TTS 技術(shù)將博客、新聞文章等文本內(nèi)容轉(zhuǎn)換成音頻。

TTS 的使用十分靈活,用戶可以在變聲器等應(yīng)用中改變語(yǔ)音的音調(diào)、節(jié)奏和音量,使聲音變得更具表現(xiàn)力。

獨(dú)特的 TTS 應(yīng)用

除了這些日常應(yīng)用外,企業(yè)家們正在探索各種新穎的 TTS 應(yīng)用。下文將介紹開發(fā)獨(dú)特語(yǔ)音合成技術(shù)的公司。

用于智慧醫(yī)院的語(yǔ)音通知亭:Artisight

Artisight 是一個(gè)應(yīng)用于醫(yī)院的物聯(lián)網(wǎng)傳感器網(wǎng)絡(luò),可改善醫(yī)院的運(yùn)營(yíng)、財(cái)務(wù)業(yè)績(jī)和患者體驗(yàn)。該公司幫助美國(guó)許多頂尖醫(yī)院提高運(yùn)營(yíng)效率,同時(shí)通過任務(wù)自動(dòng)化給患者帶來(lái)更好的體驗(yàn),比如呼叫患者到掛號(hào)窗口和化驗(yàn)等。

醫(yī)院可以使用 TTS 技術(shù)與患者和訪客分享有關(guān)醫(yī)院服務(wù)、設(shè)施位置和一般健康公告的信息。該技術(shù)也可以使用多種語(yǔ)言幫助可能不會(huì)說醫(yī)院當(dāng)?shù)卣Z(yǔ)言的人。

上面的視頻演示了醫(yī)院通知亭的文字轉(zhuǎn)語(yǔ)音技術(shù)如何讀出患者排隊(duì)單上的號(hào)碼。

挑戰(zhàn)和解決方案

過去,醫(yī)院接待人員需要手動(dòng)登記患者信息并在輪到患者就診時(shí)通知他們。這種耗時(shí)的登記流程降低了醫(yī)院的效率和患者的滿意度。

Artisight 開發(fā)的語(yǔ)音簽到、通知亭等智慧醫(yī)院解決方案可提升患者的體驗(yàn)。

Artisight 和 NVIDIA Riva 賦能的通知亭實(shí)現(xiàn)了有效、快速的患者登記流程,將等待時(shí)間縮短了一半并避免了數(shù)據(jù)輸入錯(cuò)誤,最終提高了員工的工作效率和患者的滿意度。

為數(shù)字虛擬形象提供類似人類聲音:NVIDIA

TTS 技術(shù)使計(jì)算機(jī)能夠?qū)嫖淖洲D(zhuǎn)換成語(yǔ)音,進(jìn)而讓數(shù)字人能夠“開口說話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任,數(shù)字人所說的話必須高度準(zhǔn)確,尤其是當(dāng)它們被用于教育、娛樂或其他互動(dòng)用途時(shí)。使用 TTS 技術(shù)生成自然、類似人類的語(yǔ)音可以幫助數(shù)字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虛擬形象?Toy Jensen 能夠理解黃仁勛的問題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創(chuàng)建。

視頻 2. 用于構(gòu)建實(shí)時(shí)、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺(tái)

挑戰(zhàn)和解決方案

開發(fā)用于數(shù)字人的 TTS 可能有一定的難度,尤其是在創(chuàng)造自然、真實(shí)的語(yǔ)音方面,并且難度取決于地區(qū)和語(yǔ)言。這是因?yàn)槭褂脗鹘y(tǒng)和統(tǒng)計(jì)算法創(chuàng)建的 TTS 系統(tǒng)可能導(dǎo)致語(yǔ)音聽起來(lái)像是機(jī)器人或機(jī)械發(fā)出的,而用戶對(duì)此可能不會(huì)“買賬”。

此外,由于 TTS 系統(tǒng)受數(shù)據(jù)集、所使用的模型和模塊類型等諸多因素影響,因此要為數(shù)字人應(yīng)用創(chuàng)建靈活的自適應(yīng)語(yǔ)音具有一定的難度。這使開發(fā)者難以生成具有細(xì)微差別和富有表現(xiàn)力的語(yǔ)音。

最后,數(shù)字人需要在不犧牲質(zhì)量的情況下實(shí)時(shí)生成大量語(yǔ)音,因此創(chuàng)建高效、可擴(kuò)展的 TTS 系統(tǒng)至關(guān)重要。

NVIDIA 為數(shù)字人和虛擬形象生成了自定義語(yǔ)音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開發(fā)只需短短幾毫秒就能實(shí)時(shí)運(yùn)行且精準(zhǔn)的 TTS 流程,滿足實(shí)現(xiàn)自然語(yǔ)音的必要條件,還可以靈活調(diào)整音調(diào)、持續(xù)時(shí)間和音量等,使生成的聲音更具表現(xiàn)力。

開始使用語(yǔ)音合成

用戶現(xiàn)在就可以開始將 TTS 功能集成到應(yīng)用中,例如閱讀內(nèi)容或生成數(shù)字網(wǎng)紅獨(dú)特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開發(fā)出提供高準(zhǔn)確度并進(jìn)行高性能推理的應(yīng)用。

 

 

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MK70FX512VMJ15 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 150MHz, Graphics LCD, MAPBGA 256

ECAD模型

下載ECAD模型
$17.99 查看
PIC32MX795F512L-80I/PF 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$10.4 查看
MCP23017-E/SS 1 Microchip Technology Inc 16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28

ECAD模型

下載ECAD模型
$1.69 查看
英偉達(dá)

英偉達(dá)

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

自1993年成立以來(lái),NVIDIA一直在視覺計(jì)算的藝術(shù)與科學(xué)發(fā)展中勇當(dāng)先鋒. NVIDIA公司的諸多技術(shù)正在徹底改變顯示世界的面貌,在高級(jí)渲染、高性能計(jì)算,乃至遠(yuǎn)端云服務(wù),你都將看到NVIDIA的身影.