白白国产永久视频,欧美忘忧草日韩91综合懂色av ,精品视频在线观看一区二区

計算機視覺會再次發(fā)生技術變革嗎？

匹茲堡大學眼科教授、CMU機器人研究所兼職教授Ryad Benosman認為答案是肯定的。作為基于事件的視覺技術的奠基人之一，Benosman預計神經形態(tài)視覺（基于事件相機的計算機視覺）是計算機視覺的下一個方向。

他說：“計算機視覺已經被重新發(fā)明了很多很多次。我已經看到它至少被重新發(fā)明了兩次，從無到有，從零開始。”

Benosman列舉了20世紀90年代從帶有一點攝影測量的圖像處理到基于幾何學方法的轉變，然后是今天向機器學習的快速轉變。盡管有這些變化，現代計算機視覺技術仍然主要基于圖像傳感器，產生類似于人眼所見的圖像的相機。

據Benosman說，除非圖像傳感范式不再有用，否則它會阻礙替代技術的創(chuàng)新。這種影響因高性能處理器（如GPU）的發(fā)展而延長，這些處理器推遲了尋找替代解決方案的需要。

他說：“我們?yōu)槭裁匆谟嬎銠C視覺中使用圖像？這是個百萬美元的問題。首先，我們沒有理由使用圖像，這只是因為有歷史的慣性。甚至在有相機之前，圖像就有了勢能。”

圖像相機

自公元前5世紀出現針孔相機以來，圖像相機就一直存在。到了15世紀，藝術家們建造了房間大小的設備，用來在畫布上描摹房間外的人或風景。隨著時間的推移，畫作被膠片所取代，用來記錄圖像。數字攝影等創(chuàng)新最終使圖像相機很容易成為現代計算機視覺技術的基礎。

然而，Benosman認為，基于圖像相機的計算機視覺技術是非常低效的。他將其比作中世紀城堡的防御系統(tǒng)：駐守在城墻周圍的士兵從各個方向注視著接近的敵人。鼓手打著穩(wěn)定的節(jié)拍，每敲一下，每個守衛(wèi)就會大聲喊出他們所看到的東西。在所有的呼喊聲中，聽到一個守衛(wèi)在遠處森林邊緣發(fā)現敵人發(fā)出的聲音會有多容易？

21世紀相當于鼓點的硬件是電子時鐘信號，而衛(wèi)兵是像素，每一個時鐘周期都會產生一大批數據并必須進行檢查，這意味著有大量的冗余信息和大量不必要的計算需要。

Prophesee公司與索尼合作開發(fā)的DVS傳感器的評估套件

Benosman說：“人們消耗了如此多的能量，它占據了整個城堡的算力來保衛(wèi)自己。如果發(fā)現了一個有趣的事件，在這個比喻中以敵人為代表，你就必須到處去收集無用的信息，人們四處尖叫，所以帶寬非常巨大……現在想象一下你有一個復雜的城堡。所有這些人都必須被聽到。”

進入神經形態(tài)視覺。其基本理念是受生物系統(tǒng)工作方式的啟發(fā)，檢測場景動態(tài)的變化，而不是連續(xù)分析整個場景。在我們的城堡比喻中，這將意味著讓守衛(wèi)保持安靜，直到他們看到感興趣的東西，然后喊出他們的位置，發(fā)出警報。在電子版本中，這意味著讓單個像素決定它們是否看到了相關的東西。

他說：“像素可以自己決定他們應該發(fā)送什么信息，而不是獲取系統(tǒng)信息，他們可以尋找有意義的信息，即特征。這就是與眾不同之處。”

與固定頻率的系統(tǒng)采集相比，這種基于事件的方法可以節(jié)省大量的功耗，并減少延遲。

他說：“你想要一些更加自適應的東西，這就是基于事件的視覺的相對變化給你帶來的東西，一個自適應的采集頻率。當你觀察振幅變化時，如果某些東西移動得非常快，我們會得到很多樣本。如果某些東西沒有變化，你會得到幾乎為零的樣本，所以你是根據場景的動態(tài)來適應你的采集頻率。這就是它所帶來的好處。這就是為什么它是一個好的設計。”

Benosman在2000年進入神經形態(tài)視覺領域，確信先進的計算機視覺永遠不可能成功，因為圖像不是正確的方法。

他說：“巨大的轉變是說我們可以在沒有灰度和沒有圖像的情況下做視覺，這在2000年底還完全是異端邪說。”

Benosman提出的技術（基于事件的傳感技術的基礎）是如此不同，以至于當時提交給最重要的IEEE計算機視覺雜志的論文未經審查就被拒絕了。事實上，直到2008年開發(fā)出DVS（Dynamic Vision Sensor）后，該技術才開始獲得發(fā)展勢頭。

一些Prophesee客戶的應用顯示了圖像攝像機和DVS傳感器輸出之間的差異

神經科學的靈感神經形態(tài)技術是那些受到生物系統(tǒng)啟發(fā)的技術，包括終極計算機，大腦及其計算元素，神經元。問題是，沒人完全了解神經元的確切工作原理。雖然我們知道神經元對傳入的稱為spike的電信號起作用，但直到最近，研究人員將神經元描述為非常草率，認為只有spike的數量才重要。這種假說持續(xù)了幾十年。最近的研究已經證明，這些spike的時間是絕對關鍵的，大腦的結構在這些spikes中制造延遲來編碼信息。

今天的spiking神經網絡，模擬大腦中看到的spike信號，是真實事物的簡化版本，通常是spike的二進制表示。Bnosman解釋說：“我收到一個1，我醒來，我計算，我睡覺?，F實要復雜得多。當一個spike出現時，神經元開始隨時間對spike的值進行積分；還有來自神經元的滲漏，意味著結果是動態(tài)的。還有大約50種不同類型的神經元，有50種不同的整合模式。今天的電子版本缺少動態(tài)的整合路徑，神經元之間的連接，以及不同的權重和延遲。”

他說：“問題是要做一個有效的產品，你無法模仿所有的復雜性，因為我們不了解它。如果我們有好的大腦理論，會解決這個問題。問題是我們只是知道的不夠多。”

今天，Benosman經營著一個獨特的實驗室，致力于了解皮質計算背后的數學，目的是創(chuàng)建新的數學模型，并將其復制為硅器件。這包括直接監(jiān)測來自真實視網膜碎片的spike。

目前，Benosman反對試圖忠實地復制生物神經元，他認為這種方法已經過時。

他說：“在硅中復制神經元的想法是由于人們看著晶體管，看到一個看起來像真正的神經元的區(qū)域，所以一開始就有一些想法。我們沒有細胞，我們有硅。你需要適應你的計算基板，而不是相反……如果我知道我在計算什么，我有硅，我可以優(yōu)化這個方程，以最低的成本、最低的功耗、最低的延遲運行它。”

處理功耗

認識到沒有必要完全復制神經元，再加上DVS相機的發(fā)展，是今天神經形態(tài)視覺系統(tǒng)背后的驅動力。雖然今天的系統(tǒng)已經在市場上出現，但在我們有完全類人視覺可供商業(yè)使用之前，還有一段路要走。

最初的DVS相機有“大而笨重的像素”，因為光電二極管本身周圍的組件大大降低了填充系數。雖然對這些相機的開發(fā)投資加速了技術的發(fā)展，但Benosman明確表示，今天的事件相機只是對早在2000年開發(fā)的原始研究設備的改進。來自索尼、三星和Omnivision的最先進的DVS相機擁有微小的像素，融合了3D堆疊等先進技術，并減少了噪聲。Benosman擔心的是今天使用的傳感器類型是否能成功地擴大規(guī)模。

他說：“問題是，一旦你增加了像素的數量，你就會得到大量的數據，因為你的速度仍然超快。你可能仍然可以實時處理它，但你從太多的像素中得到了太多的相對變化?，F在，這讓人非常沮喪，因為他們看到了潛力，但他們沒有合適的處理器來支持它。”

通用的神經形態(tài)處理器落后于其DVS相機的同類產品。業(yè)界一些巨頭（IBM Truenorth、英特爾Loihi）的努力仍在進行中。Benosman說，合適的處理器與合適的傳感器將是一個無敵的組合。

Benosman說：“今天的DVS傳感器速度極快，帶寬超低，具有高動態(tài)范圍，所以你可以看到室內和室外。這就是未來。它會成功嗎？肯定會的。”

他補充說：“誰能推出處理器并提供完整的堆棧，誰就會勝出，因為它將是無可匹敵的。”

[參考文章]

A Shift in Computer Vision is Coming — Sally Ward-Foxton