今天這篇文章,我們要從一則新聞開始說起。
2024年6月12日-15日,AVS工作組第八十九次會議在浙江紹興召開。會議上,工作組正式宣布,AVS3P10標準已經(jīng)完成最終委員會草案(FCD)階段,即將正式對外發(fā)布。
這條新聞對很多人來說有點懵——AVS是個啥?AVS3P10標準又是干啥用的?這條新聞和我有關(guān)系嗎?
小棗君可以很負責(zé)任地告訴大家,這條新聞和我們每個人都有關(guān)系,而且關(guān)系非常密切。
接下來,且聽我細細解讀。
█ AVS3P10,到底是什么?
AVS工作組,中文全稱叫數(shù)字音視頻編解碼技術(shù)標準工作組,是國內(nèi)多媒體領(lǐng)域最重要的標準化組織。
這個組織從2002年6月成立以來,一直在牽頭AVS(Audio Video Coding Standard)數(shù)字音視頻標準的制定工作,推出了AVS1、AVS2等多個版本。
如今,他們正在重點研究的AVS3,是第三代AVS標準,也叫《信息技術(shù) 智能媒體編碼》系列國家標準。
AVS3P10標準,是AVS3的組成部分(第10部分 實時語音),由騰訊提議啟動、推進和維護,并經(jīng)過AVS音頻組多家成員單位共同貢獻,專門面向?qū)崟r語音通信
(RTC,Real-time Communication)場景。簡單來說,就是研究如何對語音進行編碼,實現(xiàn)低帶寬環(huán)境下的高質(zhì)量傳輸。
開頭的那則新聞,是告訴大家:AVS3P10標準已經(jīng)基本制定完成,即將正式發(fā)布。
█ AVS3P10,究竟有多強?
一個語音編碼標準,為什么值得關(guān)注呢?
原因很簡單,因為這個AVS3P10標準不僅很強,而且也很特別。
AVS3P10是全球首個系統(tǒng)性引入人工智能并實現(xiàn)真正意義上的低碼率下高質(zhì)量語音編碼標準,為全球語音技術(shù)的發(fā)展帶來了革命性突破。
我們來做一個簡單的數(shù)學(xué)題。
我們進行語音通話,需要先通過麥克風(fēng)拾音,將聲音變成電信號。這個電信號是模擬信號,需要通過設(shè)備電路完成采樣、量化、編碼,變成數(shù)字信號。
如果對一個原始聲音信號采用16000Hz的采樣率(每秒采集16000個點),16bit的位深度(每個點用16bit進行表示),不做任何壓縮的話,1秒的音頻大小就是16000×16=256000bit。音頻碼率(單位時間傳送的數(shù)據(jù)位數(shù))是256kbps。
傳統(tǒng)的語音編碼器,包括AVS、ITU-T、3GPP、IETF等標準語音編碼器,能夠?qū)⒋a率壓到原始音頻的1/10。在16-20kbps左右碼率時,能夠恢復(fù)出高質(zhì)量寬帶語音;在30-35kbps,可以恢復(fù)出高質(zhì)量超寬帶甚至全帶語音。然而,當(dāng)碼率進一步降低時(例如10kbps以下),恢復(fù)質(zhì)量下降明顯,影響用戶體驗。
那么,AVS3P10能支持多低的碼率呢?
6kbps,大約是傳統(tǒng)編碼器的1/3。
AVS3P10標準制定過程中,采用按照ITU-T P.800 DCR主觀質(zhì)量評價規(guī)范,并由中國電子技術(shù)標準化研究院和華為分別進行了主觀測試和交叉驗證。
主觀測試結(jié)果表明,在單聲道編碼場景,AVS3P10在寬帶和超寬帶等多個主要測試場景均達到了4.0以上MOS分(最高分5分),體現(xiàn)出明顯優(yōu)勢,最低碼率可達5.9kbps。
在ITU-T P.863客觀質(zhì)量評價實驗中,AVS3P10 RM0也有出色表現(xiàn)。在所有8個測試碼率中,AVS3P10 RM0均超過4.0 MOS,最高在4.45 MOS。
AVS工作組給出了極高的評價:“AVS3P10 實時語音編碼,作為新一代的語音編解碼技術(shù)標準,是對AVS系列標準的重要補充。該標準代表了騰訊在語音處理和人工智能技術(shù)創(chuàng)新和用戶體驗方面的最高追求,體現(xiàn)了業(yè)界最高水平,將為用戶帶來前所未有的性能和體驗,引領(lǐng)行業(yè)進入一個全新的時代。”
也許有些讀者會問,在我們目前這個高速互聯(lián)網(wǎng)時代,家里和公司的寬帶都是100Mbps以上,手機4G/5G速率也很高,支持這么低的碼率,真的有意義嗎?
答案是有意義。
我們現(xiàn)在通信技術(shù)很先進,網(wǎng)絡(luò)理論速率很高,但在實際環(huán)境中,經(jīng)常會遇到網(wǎng)絡(luò)信號不好的情況,例如電梯、地庫、隧道、高鐵、地鐵等環(huán)境,通話總是會卡頓。
AVS3P10僅需現(xiàn)有主流標準1/3的編碼碼率,就能實現(xiàn)同等清晰的音質(zhì)。這意味著,即使用戶身處網(wǎng)絡(luò)很差的環(huán)境,也能夠進行線上會議、語音通話。
█ AVS3P10,為什么這么強?
AVS3P10之所以能夠有如此優(yōu)異的表現(xiàn),歸根到底,還是因為有AI的助力。
作為AVS3P10標準的主要推動者,騰訊在經(jīng)典信號處理過程中引入了深度神經(jīng)網(wǎng)絡(luò),以此大幅提升編解碼效率,突破傳統(tǒng)音頻編解碼器的香農(nóng)極限限制。
具體來說,AVS3P10會提前對海量語音信號進行建模學(xué)習(xí)。在編碼時,提取最核心的特征參數(shù),并根據(jù)重要性進行碼率智能分配。相比傳統(tǒng)編碼器按照物理規(guī)則提取參數(shù),AVS3P10的效率更高。
在編碼和解碼過程中,AVS3P10的深度學(xué)習(xí)網(wǎng)絡(luò)是同時進行聯(lián)合訓(xùn)練的,確保解碼端能夠“領(lǐng)會”編碼端的意圖,更準確地重建語音中的細微結(jié)構(gòu),避免聲音信號失真。
將AI引入編解碼器,不可避免需要考慮到算力和功耗的問題。如果算法對算力的要求過高,一方面要考慮到設(shè)備是否能夠跑得動(快速流暢執(zhí)行算法),另一方面,也要考慮高算力帶來的高功耗,進而影響設(shè)備的發(fā)熱和待機時長。
據(jù)了解,AVS3P10所采用的模型只有百K規(guī)模,是一個在體積、效率、功耗上都有嚴格限制的、極為精密的小模型。
換句話說,騰訊技術(shù)團隊基于自身深厚的AI底層技術(shù)能力,實現(xiàn)了“小模型、高性能”的效果,打造出了一個世界級水平的產(chǎn)品。
█ AVS3P10,是如何誕生的?
騰訊作為一個互聯(lián)網(wǎng)公司,為什么會牽頭推出一個音頻編解碼技術(shù)標準呢?
其實,騰訊之所以會這么做,和自己的拳頭產(chǎn)品騰訊會議有密切關(guān)系。
2020年,騰訊會議團隊就提出了低碼率下保證高質(zhì)量語音的需求。
騰訊云副總裁、騰訊會議天籟實驗室主任商世東說:“騰訊會議有億級用戶的真實場景。從我們的真實觀察來看,用戶遭遇弱網(wǎng)環(huán)境的案例比比皆是,這導(dǎo)致了即便單純從降低碼率這一個維度看,我們把技術(shù)提升到極致就已經(jīng)有很大的收益;甚至,還會有新的、意想不到的應(yīng)用場景被開拓出來”。
基于傳統(tǒng)方法繼續(xù)降低碼率,路徑是極為困難的,幾乎不可能實現(xiàn)。于是,他們想到了AI。
天籟實驗室主動聯(lián)系了騰訊AI Lab團隊,商討通過深度神經(jīng)網(wǎng)絡(luò)進一步提升音頻編解碼能力的可能性。經(jīng)過緊鑼密鼓的研發(fā),2021年,他們自研推出了騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器——Penguins。
他們將Penguins規(guī)模用于騰訊會議的駕駛模式、弱網(wǎng)模式及QQ語音通話等場景,支持了億級用戶的流暢溝通,收到了非常好的反饋,大幅改善了用戶的音頻通信體驗。
初戰(zhàn)告捷,騰訊團隊深受鼓舞。于是,他們進一步考慮,是不是可以把Penguins變成行業(yè)標準,讓更多的用戶也享受到它所帶來的體驗改善呢?
2023年3月,在AVS工作組第84次會議上,騰訊團隊提議在AVS音頻組啟動面向?qū)崟r語音通信場景的低碼率高質(zhì)量語音統(tǒng)項目。經(jīng)過需求分析,在第85次會議上,AVS工作組正式立項AVS3P10實時語音編碼項目。
如今,僅用了一年的時間,AVS3P10就完成了多輪會議的審議、測試和驗證,走向正式發(fā)布,堪稱神速。
AVS工作組是這么評價AVS3P10的——標準制定速度最快、標準交付質(zhì)量最高、測試得到充分好評。
█ AVS3P10,意味著什么?
成為行業(yè)標準,是AVS3P10前進道路上的一個重要里程碑。但這并不是終點。接下來,它還要進入市場,面臨來自更多用戶以及應(yīng)用場景的考驗。
作為中國自主知識產(chǎn)權(quán)的音頻編解碼標準,它需要和國際上其它主流及新興標準繼續(xù)進行PK。
AVS3P10是以AI為核心的技術(shù),和傳統(tǒng)純信號處理的編解碼技術(shù)存在很大差異。結(jié)合性能損失等因素考慮,AVS3P10和其它解碼標準并不兼容。
騰訊會議天籟實驗室專家研究員、AVS3P10標準Editor肖瑋表示,在現(xiàn)有所有通信體系中,設(shè)備會安裝很多的編碼器,比如ITU-T的經(jīng)典711、經(jīng)典722,以及AMAWB、3GPP、EVS,甚至IETF、OPUS、音頻的ANC等。不同的編碼器,可以應(yīng)對不同的應(yīng)用場景。AVS3P10針對這些編碼器并不是取代關(guān)系,而是根據(jù)場景需求,選擇進行新增。如果系統(tǒng)判斷兩端都支持AVS3P10,則進行透傳。如果另一端不支持,可以通過轉(zhuǎn)碼進行解決。
AVS3P10標準正式發(fā)布后,憑借自身的優(yōu)異性能,一定可以贏得越來越多廠商的認可,逐漸擴大普及。業(yè)界普遍存在的弱網(wǎng)環(huán)境高質(zhì)量語音通信痛點,將得到根本的解決。
對于騰訊來說,成功將開發(fā)出Penguins,并將其推動成為行業(yè)標準,也有極為深遠的意義。
一方面,他們證明了AI技術(shù)引入產(chǎn)品場景,可以解決現(xiàn)實存在的問題,尤其是傳統(tǒng)方法難以解決的問題。這是AI落地的一次創(chuàng)新應(yīng)用,創(chuàng)造了實際價值。
另一方面,在做這項工作的過程中,磨練了研發(fā)團隊的能力,也增加了自己在AI技術(shù)上的沉淀和積累。
根據(jù)騰訊AI Lab高級研究員陽珊的介紹,在打磨Penguins的過程中,他們進行了大量的優(yōu)化工作。調(diào)優(yōu)的顆粒度比算法更加精細,包括最底層的算子、甚至更低一層的函數(shù),都會進行優(yōu)化。
第三方面,就是通過牽頭標準建設(shè),促進了行業(yè)內(nèi)的技術(shù)合作與生態(tài)形成,推動了技術(shù)的更新迭代,給最終用戶帶來了技術(shù)普惠。
作為標準的主要貢獻方,騰訊的技術(shù)實力能夠得到進一步的認可。從需求提出到標準制定,再到標準落地,騰訊可以更好地實現(xiàn)標準閉環(huán)。這樣的標準,更加有說服力。
目前,我們也可以看到,除了音頻領(lǐng)域之外,騰訊在3GPP、Wi-Fi、游戲優(yōu)化等領(lǐng)域都有積極參與標準制定。騰訊的很多底層先進技術(shù),正在轉(zhuǎn)換為行業(yè)標準,解決行業(yè)共性的痛點問題。
█?最后的話
AI浪潮滾滾向前。AVS3P10標準,可以視為AI在ICT領(lǐng)域的一次小試牛刀。
隨著整個社會加大對AI落地的重視,相信會有更多AI賦能傳統(tǒng)場景的案例誕生。也許不久后,視頻編碼、網(wǎng)絡(luò)通信等領(lǐng)域,都會被AI重構(gòu),帶來巨大的效率和體驗提升。
這是新一輪的技術(shù)革命,讓我們拭目以待。