最近,聽到不少語音圈兒的盆友都在議論一場比賽。
什么超少樣本啊,什么亂入啊,還有什么教育……
咦,“教育”是什么鬼?
仔細打聽才知道,原來是剛剛落幕的國際TTS(語音合成)賽事M2VoC。
M2VoC,又稱多說話人多風格音色克隆大賽,就是給你極少的語音樣本(最少5個的那種),讓你合成同種風格的聲音。
這不就一場常規(guī)的技術玩家競技盛會嘛?
盆友表示,意外就意外在,這次的子賽道冠軍里,混進了一個“異類”——
搞直播網課的猿輔導。
搞在線教育,還能搞出個AI冠軍???
據說,獲獎團隊當時還有其他緊急任務,就隨機派了兩個人,硬擠了5天時間來參賽。
疑似凡爾賽,而且有證據!
但橋豆麻袋,猿輔導,確定是一家在線教育公司哈?!
M2VoC首戰(zhàn)告捷
還是先來看看比賽本身。
猿輔導亂入參加的比賽,是聲學、語音和信號處理國際會議(ICASSP)信號處理挑戰(zhàn)期間任務——多說話人多風格音色克隆大賽(M2VoC)。
而ICASSP作為IEEE信號處理協(xié)會組織的年度會議,也是信號處理及應用方面最權威的會議之一。
據稱,這還是世界上第一個小資源音色克隆挑戰(zhàn)賽。
大賽共分為兩個賽道,一個少樣本賽道,另一個是比“少樣本”更少的賽道。
在極少樣本賽道,參賽者需要針對不同說話風格和5個可用音色樣本進行校驗和測試。
每個賽道又分為開集和閉集。開集,即用任何公開數據;閉集,即只能用官方給到的數據。
最終共有150多支隊伍參賽,而在極少樣本開集賽道中猿輔導獲得了第一。
另外在少樣本開集、極少樣本閉集的賽道里,分別獲得了第4、第5的成績。
實際上,猿輔導此次比賽中呈現的,并非實驗室技術。
而是一個早已經在小猿口算、猿輔導網課等產品中的技術,用于英語發(fā)音、題干讀題等場景。
比如說讀一個數學題,有些幼齡的小朋友字認不全,需要讀出來讓孩子理解;另外,老師們也可以設定一個題目,根據題目的文字合成一個音頻。
尤其是在英語聽力上的應用,發(fā)音要求更為嚴苛。
但一線老師反饋說,這比公開服務更好用。
以前,由老師出題,然后找正規(guī)的英音、美音老師錄制。一般外包公司制作一周才返回語音包。
如果有修改,那就最少2周,遇到節(jié)假日就更不可控了。
現在通過語音合成,一句10秒長度的句子,不到1秒就可以完成語音轉化,效率上有很大的提升。
這樣一來,2個人準備5天時間就參加比賽,就也不是那么夸張了。
只是沒想到的是,第一次征戰(zhàn)國際賽事的他們,就獲得子賽道第一的成績。
對于這樣的結果,他們表示有點意外。
拿到(極少樣本開集)子賽道第一名,我們有點意外。技術領域的大牛很多,我們也會繼續(xù)努力!
基本思路跟平時的訓練流程一致,由大規(guī)模樣本的預訓練和小規(guī)模樣本的微調訓練組成。
至于獲獎的原因,團隊內部分析認為,除了訓練數據選的比較好之外,他們在語音合成的前端所采用的停頓、韻律模型,讓合成出來的語音效果更加自然了。
一般來說,通用的語音合成技術,大都將目光聚焦在合成字眼的準確性。其他有如準確發(fā)音、韻律情緒、適當停頓等問題通常不會顧及。
就是一個莫得感情的朗讀機器~
但在教育領域,這些平時容易忽視的痛點,就變成了技術團隊重點攻克的對象。
既要保證在遇到類似多音字這樣的情況時,發(fā)出正確的讀音,又需要在面向低齡兒童的教學場景中,讓拼讀更加自然、富有韻律不生澀。
不能因為我冷漠,就耽誤了小孩學習呀!(手動狗頭)
也恰好因為這一點,猿輔導得到了主辦方、評委會的肯定。
在猿輔導搞技術是一種什么體驗?
所以,猿輔導作為一家在線教育公司,為什么會出現在語音合成技術的國際賽場上?
其實緣于一個偶然的契機。
當時,這次的參賽隊員楊明祺將隨手刷到的大賽信息轉發(fā)到語音組群里。就在研發(fā)同學們的日常吹水中,他們突然想到,猿輔導在這方面已有技術積累,何不趁著這個比賽跟其他隊伍切磋交流一下,看看在統(tǒng)一任務下別人有什么不一樣的想法可以借鑒學習。
這種保持對前沿技術關注、主動學習的操作,倒并不是臨時起意,而是整個技術部門再正常不過的日常。
從他們堅持已久的一個習慣中也可見一斑——
Paper reading,是猿輔導AI Lab自2014年成立以來一直堅持至今的一項活動。
7年來,團隊每周都會安排一位技術同學在組會時分享一篇前沿技術論文,并與其他同事深入交流討論。
起初,整個實驗室的都要一起參加這樣的閱讀會。后來隨著規(guī)模的不斷擴大,改為下設5個實驗室分別舉辦,自己實驗室的同學當然必須參加,其他實驗室的人也可以根據興趣參與進來。
不同技術之間的碰撞,也成為了猿輔導獨有的技術方法論。
語音實驗室語音合成組的楊明祺,就分享了一段經歷。
在聽到降噪小組分享有關提高信噪比的最新技術時,語音合成組就想到,是否能將這樣的技術應用到TTS上來。因為平時采集的訓練樣本,錄制環(huán)境不一,音質無法保證,而引入相關技術,就能從數據層面來提升最終合成語音的質量。
除此之外,作為一家在線教育公司,猿輔導有更豐富、更具體的落地場景,因此也就要比一般的技術公司更看重技術落地。
低延時直播,就是這樣一個例子。
市面上通用的直播技術,可能有1-3秒、甚至更長的延時,對于直播帶貨這個場景下影響不大,但要是在教育教學上,學生和老師有著很強的互動需求,幾秒的延時就會影響教學體驗。
就比如,老師在課上提問,學生正在思考的時候,老師就已經給出答案講下一個問題了。
因此,就需要將延時技術從3秒降到0.3秒,來維持課堂效果。
語音組馬楠也表示,
很多時候,一線的教學老師提出需求,研發(fā)人員就要想辦法結合最先進的技術來滿足。
所以平時看到一些新的論文、技術方案,也會想著能具體落到什么場景,能否配合一線老師教學。
也正因為看重落地的本質,他們隨時保持著Ready的狀態(tài)。
什么時候有新的需求,就想著法兒的用技術去滿足,也因此團隊成員們練就了能快速適應業(yè)務轉型的本領。
馬楠說,他們這個語音合成組,大多本來不是這個專業(yè)的,比如有的成員過去是做搜索的,可以說都是逐漸摸索學習過來的。
現在他們從一個想法到Demo,只需要半個月到1個月的時間就可以達成。
因此,也不同于其他技術團隊的成就感,他們成就感的來源,更多是一線老師的反饋。
“比公開服務更好用”,就是他們接收到的最好的嘉獎。
隱藏在教育背后的技術實力
事實上,雖然外界對猿輔導的認知更多地聚焦在“教育”上,但猿輔導從成立之初,就是一家把“技術”視作核心競爭力的公司。
在2014年,猿輔導就成立了AI Lab,是在線教育行業(yè)內首個成立AI研究院的企業(yè)。
從業(yè)務上看,猿輔導旗下有:拍一下就能秒出解題思路的小猿搜題,用AI幫助老師、家長批改作業(yè)的小猿口算,利用AI打造智能學習模型的斑馬AI課……
其背后所需要的技術支持,不止于語音,還包括視覺、自然語言理解、音視頻等多個領域。
就用斑馬AI課來舉個例子好了。
斑馬AI課作為目前國內面向學齡前兒童的最大在線課程學習平臺,最吸引人的一點就是能做到“因材施教”。
也就是說,不僅僅是根據小盆友的年紀簡單粗暴地劃分學習階段,而是讓孩子也能自適應學習。
等等,自適應,這不是個教育AI模型的法子嗎?
其實是這么回事兒,以猿輔導百億級少兒語言行為大數據為基礎,通過對孩子的語言行為進行分析,就能更加細致地了解到孩子當前的學習情況,進而智能地調整課程的難度、“打怪”的路徑。上完網課,還能根據AI大數據分析,生成個性化的學習報告,及時反饋學習成果。
另外,就像之前提到的,通用模型在落地到更加垂直的場景中時,表現往往不盡如人意。比如小朋友咿咿呀呀的發(fā)音,就比常規(guī)的成人語音識別更加困難,需要有針對性地收集數據、優(yōu)化模型。
源于這樣的背景,目前,猿輔導已經發(fā)展形成語音實驗室、視覺實驗室、自然語言理解實驗室、音視頻實驗室和基礎支撐五大實驗室。
而作為技術人員的馬楠也強調:
對于我們的產品來說,前沿技術的支持并不是可有可無的,而是產品之所以能成立的核心原因。
以搜題為例,如果OCR的準確率不夠高,搜得不夠準,用戶根本就不會選擇使用。
站在現在這個時間節(jié)點,從用戶選擇的角度來看,猿輔導已經成為國內網課用戶規(guī)模最大的在線教育公司。
而從技術驗證的層面來看,猿輔導曾先后在MS MARCO機器閱讀理解水平測試、斯坦福問答數據集兩項世界級NLP賽事中斬獲冠軍,如今也在語音等更多領域的世界賽事上嶄露頭角……
資本對其業(yè)務、技術的認可,也已落在了具體的數字上:估值155億美金,是全球估值最高的在線教育獨角獸公司。
就在這樣的高速發(fā)展之中,體量越來越大的猿輔導,在重視落地之外,也越來越看重“長期主義”。
馬楠就透露,現在在技術團隊內部,有相當一部分人力投入到了前沿技術的探索、攻關當中。這類研發(fā)工作在短期看來不會立刻被用上,但公司認為,從長期發(fā)展的角度來看,這些積累將成為猿輔導技術護城河的關鍵組成。
最后,再來總結一下,猿輔導究竟是一家什么樣的技術公司?
以在線教育之名,從每個具體場景出發(fā),將AI技術之力在各個產品中得以體現。
如果一項技術研發(fā)的很厲害但沒用上,對猿輔導來說是不太可能的。
因此可以說,猿輔導的AI更具有實用主義色彩。
曾經,中國的教育領域一度被認為格局已成。但以猿輔導為代表的第三代教育科技公司,卻以黑馬之勢登上歷史舞臺,撕開了一條新的進擊之路。
背后的核心關鍵詞,正是技術,正是AI。
而教育在AI等新一代技術驅動之下展現的潛力,或許才剛剛開始。