提到人工智能,就離不開算力、算法和數(shù)據(jù)這三要素。近些年,隨著算力平臺(tái)的升級(jí)以及全球物聯(lián)網(wǎng)帶來(lái)的數(shù)據(jù)爆發(fā),算法的注意力帶寬開始不斷延展。比如,人們不再滿足于數(shù)字域下的人臉識(shí)別,而開始尋求連通模擬世界的“聞聲識(shí)相”。
這是一種什么樣的技術(shù)?簡(jiǎn)單來(lái)講就是,當(dāng)我們正在打電話或者聽廣播時(shí),我們并沒(méi)有看到對(duì)方的臉,但可以通過(guò)AI模型在幾秒內(nèi)描繪出對(duì)方的長(zhǎng)相。
這聽起來(lái)像是玄學(xué),但卻是有科學(xué)依據(jù)的。經(jīng)研究表明,人臉和聲音受到年齡、性別、種族、生理結(jié)構(gòu)、語(yǔ)言習(xí)慣等共同因素的影響,兩者的聯(lián)系強(qiáng)烈而復(fù)雜多樣。
簡(jiǎn)單來(lái)講,人類講話靠的是聲帶的振動(dòng),聲帶的長(zhǎng)度和寬度會(huì)影響音調(diào)的高低,通常女性的聲帶較窄、音調(diào)較高,男性的聲帶較寬、音調(diào)較低,然而聲帶振動(dòng)后,聲音會(huì)在我們的胸腔里回轉(zhuǎn),大部分聲音從喉嚨里傳出去,少部分聲音通過(guò)我們的臉部,如顴骨、下巴、鼻子、嘴唇等的振動(dòng)傳出去。有趣的是,當(dāng)我們臉部組成的結(jié)構(gòu)、厚度不同時(shí),發(fā)出的聲音也會(huì)有所不同,這意味著除了語(yǔ)言、口音、語(yǔ)速、音調(diào)等體現(xiàn)民族、地域和文化特征的因素以外,聲音和人臉之間存在著更深層次的聯(lián)系。
有誰(shuí)還記得,在《挑戰(zhàn)不可能》第二季第三期中,來(lái)自四川大學(xué)的心理學(xué)教授王英梅在現(xiàn)場(chǎng)通過(guò)聲音倒推影像的聞聲識(shí)相絕技,在無(wú)法看到發(fā)聲者的前提下,僅憑20秒的回答,從10位年齡相仿的女生中辨別出了其中3位發(fā)聲者的長(zhǎng)相,網(wǎng)友直呼佩服。
這年頭,很多人能做到的事情,AI也能做到,甚至做的比人還好,“聞聲識(shí)相”就是其中之一。比如,中科院和阿里安全就在琢磨這事兒,他們通過(guò)訓(xùn)練AI模型,研究表情和聲音的潛在關(guān)系,從而找到聲音的主人。
根據(jù)中科院計(jì)算所溫佩松博士等發(fā)表在CVPR 2021中的論文《Seeking the Shape of Sound: An Adaptive Framework for Learning Voice-Face Association》顯示,“聞聲識(shí)相”或者“見人知聲”本質(zhì)上是基于深度學(xué)習(xí)和跨模態(tài)檢索技術(shù),將人臉圖像和語(yǔ)音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語(yǔ)音編碼器網(wǎng)絡(luò),根據(jù)身份的平均損失為提取的特征值分配不同的權(quán)重,并過(guò)濾掉個(gè)性化樣本,然后使用兩級(jí)模態(tài)匹配更新神經(jīng)網(wǎng)絡(luò)參數(shù),從而找到聲音和人臉的關(guān)聯(lián)性。
目前,在給定一段聲音和僅含有一張正確人臉的若干張人臉圖片的條件下,這套AI算法匹配聲音和人臉的正確率約為87.2%,而相同條件下,人類判斷的準(zhǔn)確率約為81.3%,如果限定鑒別對(duì)象的性別,則準(zhǔn)確率將降到57.1%,而AI的自由度和魯棒性很好,因此準(zhǔn)確率相當(dāng)穩(wěn)定。
圖靈實(shí)驗(yàn)室資深算法專家華棠表示:“該技術(shù)后續(xù)可輔助用于AI虛假視頻檢測(cè),保護(hù)用戶的財(cái)產(chǎn)和信息安全?!北热?,在網(wǎng)絡(luò)貸款和實(shí)名認(rèn)證中,騙子將無(wú)法利用盜取來(lái)的視頻獲取錢財(cái)。
事實(shí)上,不知中國(guó)的團(tuán)隊(duì)在做關(guān)于“聞聲識(shí)相”的研究,美國(guó)、日本、愛(ài)爾蘭、西班牙等國(guó)都在研究如何用音頻構(gòu)建人臉,也就是通過(guò)聲音進(jìn)行模擬畫像,這將比單純的聲音、人臉匹配辨別還要高一個(gè)難度。
據(jù)悉,業(yè)內(nèi)做的最好的人是卡內(nèi)基梅隆大學(xué)的Rita Singh,她已經(jīng)在這個(gè)領(lǐng)域深耕20余載,曾幫助美國(guó)海岸警衛(wèi)隊(duì)抓到過(guò)長(zhǎng)期報(bào)假警的騷擾人員。
她通過(guò)將報(bào)警電話中的語(yǔ)音分割成多個(gè)幾毫秒的小片段,然后尋找信息點(diǎn),靠著微弱的信號(hào),不僅可以知道報(bào)假警人的大致長(zhǎng)相,還能了解其周圍的環(huán)境,比如房間的大小、是否有窗戶、墻壁材料等,甚至還能通過(guò)電網(wǎng)波動(dòng)產(chǎn)生的雜音與當(dāng)?shù)仉娋W(wǎng)數(shù)據(jù)庫(kù)匹配,定位到其確切的地理位置和掛電話的時(shí)間。
除了Rita Singh以外,還有一個(gè)有趣的案例我們不得不提,這個(gè)案例源自于一篇來(lái)自MIT團(tuán)隊(duì)的論文《Speech2Face: Learning the Face Behind a Voice》。顧名思義,這個(gè)研究團(tuán)隊(duì)給他們的AI神經(jīng)網(wǎng)絡(luò)取了個(gè)直觀的名字“Speech2Face”。
在Speech2Face中,研究人員以AVSpeech數(shù)據(jù)集(由YouTube上的數(shù)百萬(wàn)個(gè)視頻片段組成,有超過(guò)10萬(wàn)人的語(yǔ)言數(shù)據(jù))為基礎(chǔ),將人臉圖像和語(yǔ)音音頻片段分別輸入人臉編碼器網(wǎng)絡(luò)和語(yǔ)音編碼器網(wǎng)絡(luò),從中提取到低維的4096-D人臉特征,再關(guān)聯(lián)人臉圖像和語(yǔ)音的信息要點(diǎn),然后通過(guò)一個(gè)經(jīng)過(guò)單獨(dú)訓(xùn)練的面部解碼器模型將預(yù)測(cè)的面部特征解碼成人臉的標(biāo)準(zhǔn)圖像。
大家可以看到,通過(guò)Speech2Face重建的人臉圖像在年齡、性別、種族和顱面信息方面與真實(shí)人臉圖像的一致性還是很高的。不過(guò)無(wú)論是中科院計(jì)算所的溫佩松團(tuán)隊(duì),還是MIT的Speech2Face團(tuán)隊(duì),他們也都強(qiáng)調(diào)了這些神經(jīng)網(wǎng)絡(luò)模型還處在進(jìn)一步研究階段,有時(shí)候也會(huì)翻車,因?yàn)橛行┤说穆曇羰欠浅S刑厣?,?huì)導(dǎo)致這些AI系統(tǒng)的誤判。比如,有些變聲前的男孩子會(huì)被當(dāng)成女孩,聲音嘶啞的男性會(huì)被當(dāng)成老頭,英語(yǔ)流利的亞裔會(huì)被當(dāng)成白人等。
由于這項(xiàng)研究尚無(wú)法精確還原單一個(gè)體的臉部圖像,所以當(dāng)前通過(guò)語(yǔ)音識(shí)別進(jìn)行人臉匹配和重建的技術(shù)更多地將被運(yùn)用于輔助場(chǎng)景中,比如刑事案件中犯罪嫌疑人的畫像、詐騙案中虛假視頻的檢測(cè)、電話銀行中客戶面容的預(yù)測(cè)等。
啥?電話銀行中客戶面容的預(yù)測(cè)?沒(méi)錯(cuò),未來(lái)電話銀行可以利用類似的神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)客戶的年齡、性別和所在地區(qū)等信息,以便針對(duì)不同的客戶群體提供個(gè)性化的服務(wù),提升營(yíng)銷水平。細(xì)思極恐,類似這樣的應(yīng)用場(chǎng)景非常多,難免有一種被泛人肉的感覺(jué),以后還有誰(shuí)敢隨便接聽電話?指不定AI悄悄就把我們給賣了,要不怎么說(shuō)AI是把雙刃劍呢,用的恰到好處是天使,用的超過(guò)邊界就會(huì)變成魔鬼。