繼續(xù)Seeing Machines對DMS商業(yè)化落地所遇到的挑戰(zhàn)的總結(jié)。
動機:了解人類
如今,需要人機交互的產(chǎn)品幾乎都是用按鈕來輸入的,無論是軟件還是物理輸入。在許多情況下,按鈕是一種極其簡單有效的界面解決方案,然而,在任何機器和人之間需要進行交互的地方,按鈕也可能成為使用機器的障礙(比如,電視遙控器)。
如果許多產(chǎn)品能夠以某種方式檢測到人類想要或需要的東西,而不需要人類去尋找和按下正確的按鈕,那么它們的使用就會簡單得多。這在理論上很簡單,但在實踐中,檢測一個隨機的人可能想要或需要什么,需要一個(在某種程度上)能夠解釋更自然的人類命令的AI。
今天,我們看到了語音識別技術(shù)的一些成功跡象,這些技術(shù)已非常成熟,能夠有效地解釋人類的語音,使一些產(chǎn)品能夠單獨使用語音控制。語音主要用于命令,然而許多人在向機器發(fā)出語音命令時會感到不舒服,這在多人場景且可能正在交談的情況下尤其如此。語音命令很強大,但并不總是合適的,當然也不是萬能的。相反,它們只是創(chuàng)造了另一個界面選項。機器指令也可以通過使用手部、面部和眼睛的物理姿態(tài)發(fā)出。這些都可以單獨使用,或者與語音相結(jié)合,進一步豐富界面選擇。
然而,雖然許多設(shè)備可以通過語音或手勢命令得到改進,但更大的價值來自于機器能夠獲得關(guān)于個人的更豐富的上下文信息,從而動態(tài)地使界面適應(yīng)實時上下文。
我們相信,上下文確實是更智能的機器界面的關(guān)鍵。上下文可以有以下四個來源:(i) 機器當前的“狀態(tài)”(如駕駛員正試圖前往一個旅行目的地),(ii) 環(huán)境(如高速公路、道路場景、夜晚等),(iii) 人自身的數(shù)字信息(如他們過去的目的地、朋友的地址等),(iv) 人自己。如果機器能知道一個人是否沮喪、憤怒、不安、平靜、不知所措、困惑、放松、困倦、睡眠、歡快、醉酒、從事某項工作……),那么它將能夠更好地服務(wù)于用戶,同時需要更少的指令。
目前的世界只是剛剛開始見證實時人類的上下文可以為下一代人機界面提供的價值。第一批系統(tǒng)現(xiàn)在已出現(xiàn)在豪華車中,奔馳S級是主要例子。在這里,視覺、聽覺和觸覺感官界面(用于輸入和輸出)被放置在駕駛員周圍,將他們置于許多界面路徑的“循環(huán)”中。其結(jié)果是一個感覺自然、高度智能的界面,極大地簡化了對來自車輛系統(tǒng)和道路環(huán)境的極其廣泛的信號訪問。
總之,Occula的開發(fā)不僅是為了解決DMS的有限應(yīng)用范圍,而且是為了更廣泛的“理解人類”。雖然這可能聽起來是一個非常廣泛的應(yīng)用,但它仍然產(chǎn)生了一套通用的專門的神經(jīng)網(wǎng)絡(luò)(NN)算法,因此優(yōu)化了執(zhí)行方法,因此可以發(fā)現(xiàn)比起通用的NPU設(shè)計,有明顯的嵌入式優(yōu)勢。盡管Occula NPU是為DMS解決方案而設(shè)計和打造的,但當它與Seeing Machines DMS算法堆棧結(jié)合時,可以為更廣泛的產(chǎn)品提供性能優(yōu)勢。任何(i)對價格或功耗敏感的產(chǎn)品,以及(ii)可以從理解人類的上下文信息中獲得優(yōu)勢。我們把它留給讀者,讓他們?nèi)ハ胂蟾鞣N可能性。
SM-DETECT和SM-TRACK了解人類始于對人體的檢測和測量。人類已經(jīng)進化為高度社會化的動物,而人類大腦的生物學告訴我們,要“視覺理解(visually understand)”或了解,人體最關(guān)鍵的組成部分之一是臉。
這一點通過對被稱為枕葉(occipital lobe)的大腦區(qū)域的研究得到了證明,枕葉位于頭骨后面,直接接收來自視神經(jīng)的神經(jīng)脈沖。枕葉包含一個稱為枕面區(qū)(occipital face area)的亞區(qū)。神經(jīng)科學家的實驗表明,這似乎是一個NN集群,完全致力于面部特征的低水平檢測。
在面部本身,可以說最重要的檢測特征是眼睛。這是因為眼睛揭示了一個人正在看哪里的所有重要信息。這一線索與場景的上下文相結(jié)合,為另一個人在任何特定時刻可能在想什么提供了極其寶貴的洞察,因此是高級社會互動的關(guān)鍵組成部分。在大腦中,對眼睛特征的檢測被認為是在一個被稱為顳上溝(superior temporal sulcus)的專門區(qū)域進行的,而將臉部和眼睛的時間空間信息轉(zhuǎn)化為情感線索的高階轉(zhuǎn)換則發(fā)生在杏仁核和前額葉皮層,它們也有無數(shù)的其他作用。
對于嵌入式工程師來說,人類大腦似乎只是進化出了專門用于檢測和跟蹤面部特征的NN“硬件”加速器。這一進化步驟的原因可能是,在社會環(huán)境中,面部理解是一項處理密集但又必不可少的任務(wù),而大腦作為一個器官(或計算機),已經(jīng)消耗了大量的卡路里。進化似乎不僅選擇了更大的大腦,而且選擇了那些能夠極其高效地完成日常工作的大腦。
部分受到目睹這些專門的生物網(wǎng)絡(luò)的啟發(fā),Seeing Machines已經(jīng)開發(fā)了類似的優(yōu)化處理路徑,用于檢測和跟蹤人類的身體部位。這些功能單元是DMS處理層次的“金字塔底層”,共同構(gòu)成了人機交互所需的“感知”層。
SM-DETECT是檢測人臉、面部特征、軀干、手臂、手等的“快速路徑”,也可以通過訓練來檢測可能出現(xiàn)在人體附近的其他種類的物體,如太陽鏡或手機。為檢測而選擇的算法絕不是檢測精度最高的,而是在速度和精度之間的權(quán)衡,經(jīng)過精心選擇,以最大限度地兼容硬件加速,并最大限度地減少處理功耗。
FOVIO芯片固件周期性地執(zhí)行SM-DETECT路徑,掃描場景中的人體部部位,這些檢測結(jié)果用于支持對車輛乘員的逐幀跟蹤。
SM-TRACK是一個類似的想法。一個快速路徑,但用于定位和跟蹤各幀的人體部件。該路徑利用了身體部位在視頻幀之間只能移動這么遠的知識,并根據(jù)對身體部位在最新圖像中可能出現(xiàn)的位置的預(yù)測,結(jié)合人類基本形態(tài)的模型,對身體部位進行局部檢測。SM-TRACK節(jié)省了大部分的處理帶寬,而標準的解決方案是使用一個NN來適應(yīng)每一幀視頻的3D(或4D)模型。再一次,所使用的算法來自于超過15年的內(nèi)部演化,從而在車內(nèi)環(huán)境中,在速度和準確性之間做出了謹慎的權(quán)衡。
Seeing Machines并不聲稱這些算法在檢測和跟蹤圖像中人類的能力方面是最好的,但我們相信它們是“足夠好”的跟蹤性能和所有重要指標與處理成本之間的最佳折中方案。
人類狀態(tài)的分類
在人腦中,復(fù)雜的高階推理任務(wù)由前額和額葉皮層執(zhí)行,它們似乎處于網(wǎng)絡(luò)層次的頂峰,也是我們?nèi)祟愐庾R的主要所在。
對于嵌入式工程師來說,大腦的額葉皮層區(qū)域看起來有點像一個通用的NPU。這也許是各種不同的網(wǎng)絡(luò)幫助我們在社會世界中解決復(fù)雜的生存難題的地方,每個網(wǎng)絡(luò)都將來自下方更高帶寬感知層的狀態(tài)作為輸入。
同樣,Occula的設(shè)計是為了支持更普遍的NN,特別是那種從SM-DETECT和SM-TRACK感知層獲取結(jié)果并進行高階分類的類型和規(guī)模;例如,在最后兩秒的眼瞼數(shù)據(jù)中檢測出微睡眠,或者在對整個駕駛員的幾分鐘觀察中推斷出瞌睡的程度。
為了做到這一點,Seeing Machines的工程師調(diào)查了現(xiàn)代DMS所需的一套分類器算法集,研究了操作者、模型大小、數(shù)字精度和所需的執(zhí)行時間預(yù)算,并設(shè)計了Occula,使其在芯片資源預(yù)算內(nèi)“最適合”所有已知組合。