計算機視覺會再次發(fā)生技術變革嗎?
匹茲堡大學眼科教授、CMU機器人研究所兼職教授Ryad Benosman認為答案是肯定的。作為基于事件的視覺技術的奠基人之一,Benosman預計神經形態(tài)視覺(基于事件相機的計算機視覺)是計算機視覺的下一個方向。
他說:“計算機視覺已經被重新發(fā)明了很多很多次。我已經看到它至少被重新發(fā)明了兩次,從無到有,從零開始。”
Benosman列舉了20世紀90年代從帶有一點攝影測量的圖像處理到基于幾何學方法的轉變,然后是今天向機器學習的快速轉變。盡管有這些變化,現代計算機視覺技術仍然主要基于圖像傳感器,產生類似于人眼所見的圖像的相機。
據Benosman說,除非圖像傳感范式不再有用,否則它會阻礙替代技術的創(chuàng)新。這種影響因高性能處理器(如GPU)的發(fā)展而延長,這些處理器推遲了尋找替代解決方案的需要。
他說:“我們?yōu)槭裁匆谟嬎銠C視覺中使用圖像?這是個百萬美元的問題。首先,我們沒有理由使用圖像,這只是因為有歷史的慣性。甚至在有相機之前,圖像就有了勢能。”
圖像相機
自公元前5世紀出現針孔相機以來,圖像相機就一直存在。到了15世紀,藝術家們建造了房間大小的設備,用來在畫布上描摹房間外的人或風景。隨著時間的推移,畫作被膠片所取代,用來記錄圖像。數字攝影等創(chuàng)新最終使圖像相機很容易成為現代計算機視覺技術的基礎。
然而,Benosman認為,基于圖像相機的計算機視覺技術是非常低效的。他將其比作中世紀城堡的防御系統(tǒng):駐守在城墻周圍的士兵從各個方向注視著接近的敵人。鼓手打著穩(wěn)定的節(jié)拍,每敲一下,每個守衛(wèi)就會大聲喊出他們所看到的東西。在所有的呼喊聲中,聽到一個守衛(wèi)在遠處森林邊緣發(fā)現敵人發(fā)出的聲音會有多容易?
21世紀相當于鼓點的硬件是電子時鐘信號,而衛(wèi)兵是像素,每一個時鐘周期都會產生一大批數據并必須進行檢查,這意味著有大量的冗余信息和大量不必要的計算需要。
Prophesee公司與索尼合作開發(fā)的DVS傳感器的評估套件
Benosman說:“人們消耗了如此多的能量,它占據了整個城堡的算力來保衛(wèi)自己。如果發(fā)現了一個有趣的事件,在這個比喻中以敵人為代表,你就必須到處去收集無用的信息,人們四處尖叫,所以帶寬非常巨大……現在想象一下你有一個復雜的城堡。所有這些人都必須被聽到。”
進入神經形態(tài)視覺。其基本理念是受生物系統(tǒng)工作方式的啟發(fā),檢測場景動態(tài)的變化,而不是連續(xù)分析整個場景。在我們的城堡比喻中,這將意味著讓守衛(wèi)保持安靜,直到他們看到感興趣的東西,然后喊出他們的位置,發(fā)出警報。在電子版本中,這意味著讓單個像素決定它們是否看到了相關的東西。
他說:“像素可以自己決定他們應該發(fā)送什么信息,而不是獲取系統(tǒng)信息,他們可以尋找有意義的信息,即特征。這就是與眾不同之處。”
與固定頻率的系統(tǒng)采集相比,這種基于事件的方法可以節(jié)省大量的功耗,并減少延遲。
他說:“你想要一些更加自適應的東西,這就是基于事件的視覺的相對變化給你帶來的東西,一個自適應的采集頻率。當你觀察振幅變化時,如果某些東西移動得非常快,我們會得到很多樣本。如果某些東西沒有變化,你會得到幾乎為零的樣本,所以你是根據場景的動態(tài)來適應你的采集頻率。這就是它所帶來的好處。這就是為什么它是一個好的設計。”
Benosman在2000年進入神經形態(tài)視覺領域,確信先進的計算機視覺永遠不可能成功,因為圖像不是正確的方法。
他說:“巨大的轉變是說我們可以在沒有灰度和沒有圖像的情況下做視覺,這在2000年底還完全是異端邪說。”
Benosman提出的技術(基于事件的傳感技術的基礎)是如此不同,以至于當時提交給最重要的IEEE計算機視覺雜志的論文未經審查就被拒絕了。事實上,直到2008年開發(fā)出DVS(Dynamic Vision Sensor)后,該技術才開始獲得發(fā)展勢頭。
一些Prophesee客戶的應用顯示了圖像攝像機和DVS傳感器輸出之間的差異
神經科學的靈感神經形態(tài)技術是那些受到生物系統(tǒng)啟發(fā)的技術,包括終極計算機,大腦及其計算元素,神經元。問題是,沒人完全了解神經元的確切工作原理。雖然我們知道神經元對傳入的稱為spike的電信號起作用,但直到最近,研究人員將神經元描述為非常草率,認為只有spike的數量才重要。這種假說持續(xù)了幾十年。最近的研究已經證明,這些spike的時間是絕對關鍵的,大腦的結構在這些spikes中制造延遲來編碼信息。
今天的spiking神經網絡,模擬大腦中看到的spike信號,是真實事物的簡化版本,通常是spike的二進制表示。Bnosman解釋說:“我收到一個1,我醒來,我計算,我睡覺?,F實要復雜得多。當一個spike出現時,神經元開始隨時間對spike的值進行積分;還有來自神經元的滲漏,意味著結果是動態(tài)的。還有大約50種不同類型的神經元,有50種不同的整合模式。今天的電子版本缺少動態(tài)的整合路徑,神經元之間的連接,以及不同的權重和延遲。”
他說:“問題是要做一個有效的產品,你無法模仿所有的復雜性,因為我們不了解它。如果我們有好的大腦理論,會解決這個問題。問題是我們只是知道的不夠多。”
今天,Benosman經營著一個獨特的實驗室,致力于了解皮質計算背后的數學,目的是創(chuàng)建新的數學模型,并將其復制為硅器件。這包括直接監(jiān)測來自真實視網膜碎片的spike。
目前,Benosman反對試圖忠實地復制生物神經元,他認為這種方法已經過時。
他說:“在硅中復制神經元的想法是由于人們看著晶體管,看到一個看起來像真正的神經元的區(qū)域,所以一開始就有一些想法。我們沒有細胞,我們有硅。你需要適應你的計算基板,而不是相反……如果我知道我在計算什么,我有硅,我可以優(yōu)化這個方程,以最低的成本、最低的功耗、最低的延遲運行它。”
處理功耗
認識到沒有必要完全復制神經元,再加上DVS相機的發(fā)展,是今天神經形態(tài)視覺系統(tǒng)背后的驅動力。雖然今天的系統(tǒng)已經在市場上出現,但在我們有完全類人視覺可供商業(yè)使用之前,還有一段路要走。
最初的DVS相機有“大而笨重的像素”,因為光電二極管本身周圍的組件大大降低了填充系數。雖然對這些相機的開發(fā)投資加速了技術的發(fā)展,但Benosman明確表示,今天的事件相機只是對早在2000年開發(fā)的原始研究設備的改進。來自索尼、三星和Omnivision的最先進的DVS相機擁有微小的像素,融合了3D堆疊等先進技術,并減少了噪聲。Benosman擔心的是今天使用的傳感器類型是否能成功地擴大規(guī)模。
他說:“問題是,一旦你增加了像素的數量,你就會得到大量的數據,因為你的速度仍然超快。你可能仍然可以實時處理它,但你從太多的像素中得到了太多的相對變化?,F在,這讓人非常沮喪,因為他們看到了潛力,但他們沒有合適的處理器來支持它。”
通用的神經形態(tài)處理器落后于其DVS相機的同類產品。業(yè)界一些巨頭(IBM Truenorth、英特爾Loihi)的努力仍在進行中。Benosman說,合適的處理器與合適的傳感器將是一個無敵的組合。
Benosman說:“今天的DVS傳感器速度極快,帶寬超低,具有高動態(tài)范圍,所以你可以看到室內和室外。這就是未來。它會成功嗎?肯定會的。”
他補充說:“誰能推出處理器并提供完整的堆棧,誰就會勝出,因為它將是無可匹敵的。”
[參考文章]
A Shift in Computer Vision is Coming — Sally Ward-Foxton