CINNO Research產(chǎn)業(yè)資訊,2021年3月12日——麻省理工學(xué)院的一個研究團隊提出了一種可以基于人工智能程序快速生成全息圖的方法。這種程序可以在消費級筆記本電腦上運行,可能會對未來VR和3D打印產(chǎn)生影響。
通過計算機生成全息圖的方案需要一定規(guī)模的模擬運算,所以一般都需要超級計算機等硬件設(shè)備支持。實際上,即使在超級計算機上,這樣的模擬運算過程也很慢,而且最終的效果也不是很理想。相比之下,這種新方法基于消費級計算機就能夠在毫秒時間內(nèi)實時生成3D全息圖像。
“在這之前,大家都認(rèn)為使用現(xiàn)有消費級硬件設(shè)備,不可能完成實時3D的全息計算過程,”麻省理工學(xué)院電氣工程與計算機科學(xué)系的學(xué)生,也是該研究的主要作者Liang Shi說,“另外還有一種存在了數(shù)十年的說法:全息顯示器進入商用至少還需要10年的時間。”
Liang Shi博士認(rèn)為,這種基于“張量全息術(shù)(Tensor Holography)”的新方法將實現(xiàn)這一目標(biāo)。
照片和全息圖之間的本質(zhì)區(qū)別,在于全息圖對每個光波的亮度和相位都做了信息編碼。這種更完整的信息編碼可以讓全息圖,更生動地還原真實場景下的視差和深度。為了從光學(xué)角度拍攝全息圖,我們需要將一束激光分開成相干的兩部分,其中一半用于直接照亮對象,另一半則用作后期處理時的相位參考,要知道正是這樣的參考相位最終讓畫面產(chǎn)生深度感。這一類全息圖最初在20世紀(jì)中葉開發(fā),不過它屬于靜態(tài)全息成像,不能用來拍攝動態(tài)畫面。
計算機生成全息圖(CGH,Computer Generated Holography)技術(shù)的誕生,旨在通過模擬光學(xué)裝置來繞過這些挑戰(zhàn)。不過它還是有自己的局限,由于場景中的每個點都具有不同的深度,它無法對每個點進行相同的處理。
“計算機生成全息技術(shù)會大大增加全息成像的計算復(fù)雜性,”Liang Shi博士說。 實際上,基于這種技術(shù)使用超級計算機運行也需要幾分鐘的時間才能生成一張全息圖像。另外一點,現(xiàn)有算法也不能以逼真的精度對遮擋物(Occlusion)進行建模。
在這些背景下,麻省理工學(xué)院的研究團隊基于深度學(xué)習(xí)和一種卷積網(wǎng)絡(luò),提出了一種使用張量模仿人類處理視覺信息的方法。訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常需要龐大,高質(zhì)量的數(shù)據(jù)集,另外該團隊還要自己組裝這些數(shù)據(jù)集。
他們定制的數(shù)據(jù)庫包含有4000對計算機生成的圖像,每對圖像都將其中的圖片(包括每個像素的顏色和深度信息)和相應(yīng)的全息圖匹配了起來。這一全息圖數(shù)據(jù)庫都是研究人員基于一些具有復(fù)雜多樣形狀和顏色的場景創(chuàng)建的。另外,這些場景從背景到前端,通常都具有均勻分布的深度信息。
為了解決前面提到的遮擋物建模精度不夠的問題,他們還提供了一組新的基于物理特性的算法。
最終,該擁有逼真訓(xùn)練數(shù)據(jù)集的算法在優(yōu)化計算之后,成功地提升了其生成全息圖的能力。該網(wǎng)絡(luò)的運行速度比傳統(tǒng)基于物理結(jié)構(gòu)的計算方法快了幾個數(shù)量級。
另外,該方法還能夠基于普通計算機生成的(具有深度信息的)圖像,在毫秒時間內(nèi)快速生成全息圖。這種緊湊的張量網(wǎng)絡(luò),整個運算過程需要的內(nèi)存小于1 MB。
研究人員Wojciech Matusik說:“考慮到最新的手機一般都有數(shù)十和數(shù)百GB的存儲空間,這一內(nèi)存需求幾乎可以忽略不計。”
就其VR應(yīng)用,該團隊認(rèn)為這種技術(shù)可以提供更逼真的畫面,消除長時間使用VR時的眼睛疲勞和其他副作用。另外,該技術(shù)還可以用到一些能夠調(diào)制光波相位的顯示器中。
“這是一個巨大的飛躍,它可以完全改變?nèi)藗儗θ⒓夹g(shù)的態(tài)度,”Matusik說,“我們覺得神經(jīng)網(wǎng)絡(luò)就是為此而生的。”