隨著智能可穿戴設(shè)備的發(fā)展,語音交互正在迎來一個(gè)新的拐點(diǎn)。
它其實(shí)早已走進(jìn)我們的生活,從可智能對(duì)話的機(jī)器人,到有事沒事“嘿 Siri”,再到風(fēng)靡全球的智能音箱,“小度”、“小愛”……這些指令甚至是三歲孩童也能脫口而出。而隨著可穿戴設(shè)備的傳輸、續(xù)航、價(jià)格等痛點(diǎn)被逐個(gè)擊破,類似 TWS 耳機(jī)這樣的設(shè)備也有望普遍具備 AI 語音功能,讓 AI 能力隨身行走。
不過,語音喚醒——作為語音交互的第一步,在超低功耗場景下的性能、集成度、成本等突破就變得更加重要。
為可穿戴設(shè)備增加語音喚醒,難在哪里?
針對(duì) TWS 等可穿戴設(shè)備,杭州國芯日前專門推出了一款 AI 語音喚醒芯片 GX8002,將 AI 喚醒做到了“微瓦”級(jí)別。
為什么要給 TWS 增加專門的語音喚醒能力?主要挑戰(zhàn)有哪些?杭州國芯 AI 事業(yè)部總經(jīng)理凌云告訴<與非網(wǎng)>,語音喚醒需要 Always on 工作狀態(tài),這樣設(shè)備在休眠或鎖屏狀態(tài)下也能檢測到用戶的聲音,一旦接收到喚醒詞,立刻讓設(shè)備進(jìn)入等待指令的狀態(tài),開啟語音交互第一步。
由于需要持續(xù)工作,包含麥克風(fēng)、ADC、語音處理識(shí)別等整個(gè)鏈路都要工作。因此在可穿戴設(shè)備中增加喚醒功能,最大的挑戰(zhàn)就是功耗,以往一些藍(lán)牙 SoC 芯片做這類應(yīng)用,待機(jī)功耗需要十幾毫瓦,這對(duì)產(chǎn)品待機(jī)時(shí)間影響非常大。
方寸之間見天地——超低功耗、高集成度的背后
GX8002 采用了 MCU+NPU 架構(gòu),集成了國芯第二代自研神經(jīng)網(wǎng)絡(luò)處理器 gxNPU V200、平頭哥 CK804 處理器等。經(jīng)測試,該芯片在 VAD 待機(jī)模式下功耗低至 70μW,運(yùn)行功耗為 0.6mW,支持多級(jí)喚醒,通過 NPU 能力,單芯片可實(shí)現(xiàn)語音喚醒、指令識(shí)別、AI 降噪、聲紋識(shí)別等眾多功能。
?
?
據(jù)了解,GX8002 超低功耗的背后,離不開兩大技術(shù)突破——自研神經(jīng)網(wǎng)絡(luò)處理器 gxNPU V200 和自研硬件 VAD。與第一代神經(jīng)網(wǎng)絡(luò)處理器相比,第二代專門針對(duì)低功耗進(jìn)行了優(yōu)化,計(jì)算能效達(dá)到了普通 DSP 的 10 倍以上。支持 DNN/CNN/RNN 等各種模型,自動(dòng)實(shí)現(xiàn)網(wǎng)絡(luò)量化壓縮,可以和 TensorFlow 等訓(xùn)練平臺(tái)直接對(duì)接。
?
?
同時(shí),國芯設(shè)計(jì)了全新的 VAD 模塊,通過增加更多特征分析來判斷人聲,過濾能力更強(qiáng)。凌云表示,傳統(tǒng) VAD 大多是基于聲音的能量來做 VAD 判斷,當(dāng)處于嘈雜環(huán)境時(shí)容易失效。為此,國芯設(shè)計(jì)了全新的 VAD 模塊,通過對(duì)信號(hào)進(jìn)行頻譜分析,抽取語音的多個(gè)特征信息,進(jìn)行智能判斷。同時(shí)會(huì)跟蹤環(huán)境的底噪,自動(dòng)調(diào)整判決的閾值。而所有的 VAD 處理都是通過硬件實(shí)現(xiàn)的,不依賴于主系統(tǒng),這對(duì)于所有的 AI 語音應(yīng)用都是有效的,對(duì)低功耗產(chǎn)品則更加重要。
除了將復(fù)雜邏輯硬件化,提升 VAD 的待機(jī)比例對(duì)于整個(gè)產(chǎn)品的功耗降低也非常有價(jià)值,根據(jù)實(shí)際測試,在辦公室、地鐵、馬路、咖啡館等場合,GX8002 可以讓 VAD 待機(jī)的比例平均達(dá)到 70%以上,即 70%以上時(shí)間處于 70μW 的 VAD 待機(jī)模式。通過 VAD 的有效過濾,芯片日常使用的平均功耗基本低于 300μW。
“傳統(tǒng)的語音 AI 主要還是以 CPU 軟解為主,在一些功耗成本不敏感的產(chǎn)品可以繼續(xù)使用”,凌云表示,“但是在可穿戴設(shè)備市場,必須要追求極致?!?/p>
為了將喚醒部分所占用的體積盡可能縮減,國芯將喚醒所需的所有部件進(jìn)行了集成,包括音頻 ADC、Flash、電源 LDO 等,甚至還有晶振。單芯片就可以完成所有喚醒工作,無需外圍器件。
GX8002 首批產(chǎn)品采用 QFN20,3mm*3mm 封裝,五月份已量產(chǎn),預(yù)計(jì)今年下半年會(huì)有相關(guān)產(chǎn)品陸續(xù)上市。據(jù)稱,Q3 還將推出更小的 WLCSP 封裝,尺寸可達(dá) 1.4*2.4mm,滿足更加精密產(chǎn)品的需求。
TWS+語音 AI 是未來趨勢
TWS——已經(jīng)成為智能音箱之后一個(gè)新的現(xiàn)象級(jí)應(yīng)用。根據(jù) IDC 數(shù)據(jù)顯示,TWS 耳機(jī) 2019 年全球出貨量為 1.705 億臺(tái),與 2018 年的 4860 萬臺(tái)相比,增長了 250.5%,占據(jù)整個(gè)可穿戴設(shè)備市場的 50.7%。
剖析 TWS“網(wǎng)紅體質(zhì)”的背后,不僅僅是可觀的市場規(guī)模,還有它作為 AIoT 智能連接入口的潛質(zhì)。過去認(rèn)為 AI 多用于機(jī)器人,后來發(fā)現(xiàn)似乎不需要這么復(fù)雜的身軀,智能音箱爆發(fā)了。而僅靠語音喚醒就可以獲得 AI 能力,其實(shí)這個(gè)載體還可以更小。
?
在 TWS 第一波市場潮流中,主流的藍(lán)牙音頻供應(yīng)商盆滿缽盈,于是更多的小玩家涌入,試圖切一角蛋糕。但是,正如所有消費(fèi)電子的發(fā)展趨勢一樣,如果沒有差異化賣點(diǎn)和功能創(chuàng)新,市場將很快走向紅海,陷入價(jià)格的侵蝕之中。
對(duì)于廣大投身于 TWS 的中小品牌來說,突破無線連接、通話體驗(yàn)的同時(shí),產(chǎn)品本身的創(chuàng)新點(diǎn)也是增加消費(fèi)者粘性的重要因素。國芯最新的語音喚醒芯片,對(duì)于這些廠商顯得尤為及時(shí)。GX8002 幾乎適配市場上所有的藍(lán)牙方案,它與藍(lán)牙芯片搭配使用,就如同增加了一個(gè)語音開關(guān)按鍵,通過共用的麥克風(fēng),實(shí)現(xiàn)語音觸發(fā)。
這就極大地方便了那些使用成熟藍(lán)牙方案的設(shè)備商,在不改變原有主體設(shè)計(jì)的情況下,疊加 AI 芯片,就可以將藍(lán)牙耳機(jī)升級(jí)為智能耳機(jī),滿足了靈活、快速的設(shè)計(jì)需求。價(jià)格方面,國芯采用了累積采購量的階梯價(jià)格模式,起步價(jià) 0.65 美元,盡量減輕成本負(fù)擔(dān)。
?
?
TWS 加入語音 AI 將成為趨勢。對(duì)于品牌耳機(jī)來說,能夠在硬件方面更進(jìn)一步,打通硬件品質(zhì)、軟件服務(wù)的體驗(yàn);白牌耳機(jī)則可以在保證高性價(jià)比的前提下提供更豐富的功能。
目前,國芯已經(jīng)打通了杰理、恒玄、絡(luò)達(dá)、瑞昱、博通、易兆微、中科藍(lán)訊等藍(lán)牙合作方,這將為設(shè)備商大大節(jié)省具有 AI 語音能力的 TWS 研發(fā)周期。
“國芯盡量通過技術(shù)優(yōu)化提升 AIoT“入口”建設(shè)的便利性,并提升產(chǎn)品的體驗(yàn)。通過在 AI 語音領(lǐng)域的持續(xù)耕耘,將 AI 技術(shù)應(yīng)用到各種場景,之前已經(jīng)有了高性能的產(chǎn)品應(yīng)用在智能家居和車載領(lǐng)域,GX8002 的推出補(bǔ)齊了低功耗和近場的應(yīng)用”,凌云表示,“目前我們完成了人 - 車 - 家的全場景覆蓋,AI 語音產(chǎn)品可以說是國內(nèi)市場上較為齊全的?!?/p>
當(dāng)前,AI 的兩大應(yīng)用當(dāng)屬語音和視覺,這兩大領(lǐng)域之間也有著一定的傳承性和關(guān)聯(lián)性。語音 AI 仍是一個(gè)早期成長中的市場,國芯一方面在擴(kuò)大覆蓋場景,另一方面也在尋找體量較大的細(xì)分市場(例如車載、TWS 等),進(jìn)行更深入、更有針對(duì)性地布局。據(jù)凌云透露,未來,國芯會(huì)在語音業(yè)務(wù)的基礎(chǔ)上,開拓視覺 AI 業(yè)務(wù),以及語音+視覺的多模態(tài)產(chǎn)品方向。