對(duì)特斯拉死磕的“純視覺路線”,筆者一直是持質(zhì)疑態(tài)度的。質(zhì)疑的點(diǎn)在于:算法的進(jìn)步,能彌補(bǔ)攝像頭物理性能的局限性嗎?比如,視覺算法足夠牛逼時(shí),攝像頭就有測(cè)距能力了?晚上就能看見了?
前一個(gè)疑問(wèn),在2021年7月份被打消——當(dāng)時(shí),特斯拉被曝已開發(fā)出“純視覺測(cè)距”技術(shù)。而后一個(gè)疑問(wèn),則持續(xù)存在。
筆者甚至一度認(rèn)為,如果把攝像頭類比為人眼、把視覺算法類比為人的大腦中“跟眼睛配合的那一部分功能”,那么,“視覺算法足夠牛逼時(shí),就可以不需要激光雷達(dá)”這種觀點(diǎn)就相當(dāng)于說(shuō)“只要我的腦子足夠聰明,眼睛高度近視也沒關(guān)系”。
但前段時(shí)間,馬斯克提到的HW 4.0將“干掉ISP”的計(jì)劃,卻顛覆了筆者的認(rèn)知。在接受Lex采訪時(shí),馬斯克說(shuō),接下來(lái)特斯拉全車攝像頭的原始數(shù)據(jù)不會(huì)再經(jīng)過(guò) ISP 的處理,而直接輸入 FSD Beta 的 NN 推理,這將讓攝像頭變得超緊急強(qiáng)大。
帶著這一話題,筆者跟地平線BPU算法負(fù)責(zé)人羅恒、于萬(wàn)智駕CTO劉煜、均聯(lián)智行首席架構(gòu)師汪浩偉、摯途科技首席科學(xué)家黃浴、車右智能聯(lián)合創(chuàng)始人等諸多業(yè)內(nèi)專家都做了一系列交流,然后明白,自己先前的那些質(zhì)疑,純屬“自作聰明”。
視覺算法的進(jìn)步,確實(shí)在一步步拓展著攝像頭物理物理性能的邊界。
一.何為ISP?
ISP 的全稱 Image Signal Processor,即圖像信號(hào)處理器,是車載攝像頭的重要構(gòu)成組件,主要作用是對(duì)前端圖像傳感器CMOS輸出的信號(hào)進(jìn)行運(yùn)算處理,把原始數(shù)據(jù)“翻譯”成人眼可以看懂的圖像。
通俗地說(shuō),只有依賴于ISP,駕駛員才能借助攝像頭“看”到現(xiàn)場(chǎng)細(xì)節(jié)。
基于第一性原理,自動(dòng)駕駛公司也用ISP,主要是根據(jù)周圍環(huán)境的實(shí)際情況對(duì)攝像頭數(shù)據(jù)進(jìn)行白平衡、動(dòng)態(tài)范圍調(diào)整、濾波等操作,以獲得最佳質(zhì)量的圖像。例如,調(diào)節(jié)曝光以適應(yīng)明暗變化,調(diào)節(jié)焦距以專注在不同距離的物體等等,盡量地讓相機(jī)性能接近人眼。
(圖為特斯拉的FSD芯片)
不過(guò),讓相機(jī)“盡量接近人眼”顯然還無(wú)法滿足自動(dòng)駕駛的需求——算法需要攝像頭在強(qiáng)光及弱光等人眼也“失靈”的場(chǎng)合下也能正常工作。為了實(shí)現(xiàn)這一目標(biāo),有的自動(dòng)駕駛公司不得不專門定制能增強(qiáng)攝像頭在強(qiáng)光、弱光及干擾情況下性能的ISP。
2020年4月8日,阿里達(dá)摩院宣布依托其獨(dú)有的3D降噪和圖像增強(qiáng)算法自主研發(fā)出用于車載攝像頭的ISP,保障自動(dòng)駕駛車輛在夜間擁有更好的“視力”,“看”得更清晰。
據(jù)達(dá)摩院自動(dòng)駕駛實(shí)驗(yàn)室的路測(cè)結(jié)果顯示,使用該ISP,車載攝像頭在夜間這個(gè)最富有挑戰(zhàn)的場(chǎng)景下,圖像物體檢測(cè)識(shí)別能力相比業(yè)內(nèi)主流處理器有10%以上的提升,原本模糊不清的標(biāo)注物也得以清晰識(shí)別。
二.干掉ISP的動(dòng)機(jī)及“可行性”
然而,ISP的設(shè)計(jì)初衷是為了在多變的外部環(huán)境下獲得一張“好看”的圖片,但這究竟是不是自動(dòng)駕駛最需要的圖片形式,業(yè)界尚無(wú)定論。按馬斯克Elon 的說(shuō)法,神經(jīng)網(wǎng)絡(luò)不需要漂亮的圖片,它需要的是傳感器直接獲取的原始數(shù)據(jù)、是原始光子計(jì)數(shù)(Raw photon counts)。
在馬斯克看來(lái),無(wú)論ISP采用何種處理方法,總有一部分原始光子在通過(guò)鏡頭到達(dá)CMOS、轉(zhuǎn)換成可見光子的過(guò)程中會(huì)被丟失。
關(guān)于原始光子丟失與未丟失的差別,摯途首席科學(xué)家黃浴說(shuō):“光子轉(zhuǎn)化成電子信號(hào)時(shí)候,確實(shí)有噪聲被抑制了,更不用說(shuō)ISP對(duì)原來(lái)的電信號(hào)做了很多處理。”
車右智能聯(lián)合創(chuàng)始人在《From photon to control——從光子到控制,Tesla的技術(shù)口味越來(lái)越重》一文中拿人眼對(duì)感知信息的處理做類比,做了比較詳盡的解釋,在此摘要如下:
(圖片摘自公眾號(hào)“車右智能”)
如上圖所示,人類的視覺系統(tǒng)和電子成像系統(tǒng)在邏輯上是完全一致的。視網(wǎng)膜顏色和像素矩陣其實(shí)是更可以代表外部客觀世界的信息,而真正的人類感知顏色,是需要大腦(等同于ISP和更高層的后端處理)的參與的。
(圖片摘自公眾號(hào)“車右智能”)
上圖左側(cè)是一幅標(biāo)準(zhǔn)的帶有飽和度漸變和強(qiáng)度漸變的顏色圖,右側(cè)是其對(duì)應(yīng)的帶元顏色的原始圖幅。對(duì)比可見,以人類視覺感官為核心而設(shè)計(jì)的成像系統(tǒng)會(huì)給我們提供愉悅和符合人類主觀的圖像信息,卻未必全真反映客觀的真實(shí)世界。
馬斯克認(rèn)為,為了做得“更好看”、更適合“給人看”,很多原本很有用的數(shù)據(jù)卻在ISP負(fù)責(zé)的“后期處理”環(huán)節(jié)被處理掉了。但如果只是為了給機(jī)器看,這些被處理掉了的數(shù)據(jù)其實(shí)也是有用的,因此,如果“后期處理”這一步可以被省略,則有效信息量便會(huì)增加。
按于萬(wàn)CTO劉煜的解釋,馬斯克的邏輯是:
1.由于有了更豐富的原始數(shù)據(jù),未來(lái),相機(jī)的探測(cè)范圍可能比人眼大,即光照強(qiáng)度很低或者很高的時(shí)候,我們?nèi)搜劭赡芫涂床灰娏耍ㄒ驗(yàn)樘诨蛘咛粒?,但機(jī)器仍然可以測(cè)光子數(shù)量,因而仍然能有圖像輸出;
2.相機(jī)對(duì)光照強(qiáng)度的分辨率可能更高,即看上去很類似的兩個(gè)光點(diǎn),人眼可能分辨不出那么細(xì)小的亮度或者顏色差別,但是機(jī)器或許可以。
某AI四小龍工程師的解釋是:好的攝像頭的動(dòng)態(tài)范圍比人眼大很多(在相對(duì)靜止?fàn)顟B(tài)下),即攝像頭能觀測(cè)到的“從最亮到最暗”的范圍,比人眼所能觀測(cè)的更寬。在極暗的條件下,人眼看不到什么東西(幾乎沒有光子),但是攝像頭的CMOS可以接收到很多光子,因而能看到黑暗狀態(tài)下的事物。
多位專家在接受《九章智駕》采訪時(shí)均表述認(rèn)可馬斯克的邏輯。
地平線BPU算法負(fù)責(zé)人羅恒解釋道:“特斯拉現(xiàn)在的數(shù)據(jù)標(biāo)注有人工標(biāo)注和機(jī)器自動(dòng)標(biāo)注兩種,其中,人工標(biāo)注其實(shí)并不全是基于當(dāng)前的圖像信息,也包含了人類對(duì)世界的知識(shí),這種情況下,機(jī)器同樣有概率利用信息更豐富的原始數(shù)據(jù);而機(jī)器自動(dòng)標(biāo)注是結(jié)合事后觀測(cè)、結(jié)合大量幾何分析一致性得出的,如果使用原始數(shù)據(jù),機(jī)器有很大概率找到更多的相關(guān)性,做出更準(zhǔn)確的預(yù)測(cè)。”
除此之外,均聯(lián)智行首席架構(gòu)師汪浩偉解釋道:“特斯拉在原始圖像數(shù)據(jù)進(jìn)入DNN網(wǎng)絡(luò)前就對(duì)其做了拼合,因此,就不需要對(duì)每個(gè)攝像頭的感知結(jié)果做后處理。”
通過(guò)干掉ISP來(lái)提升攝像頭在夜間的識(shí)別能力,這看起來(lái)跟阿里達(dá)摩院自研ISP的思路是相反的啊。那么,這兩者矛盾嗎?
據(jù)曾某自動(dòng)駕駛公司視覺算法專家解釋:兩家的訴求其實(shí)是相同的。在本質(zhì)上,無(wú)論阿里達(dá)摩院還是特斯拉,都是希望通過(guò)芯片和算法的配合來(lái)提升攝像頭的能力。
但兩者的區(qū)別在于,阿里達(dá)摩院的思路是,為了人眼能看到,對(duì)原始數(shù)據(jù)進(jìn)行了各類算法處理和增強(qiáng);而特斯拉則是去除了算法中為了“照顧”人眼所做的那部分?jǐn)?shù)據(jù)處理,轉(zhuǎn)而開發(fā)了用于增加攝像頭在弱光下及強(qiáng)光等環(huán)境下的算法所需的數(shù)據(jù)及相應(yīng)能力。
除此之外,馬斯克還說(shuō),不經(jīng) ISP 處理可以實(shí)現(xiàn) 13 毫秒的延遲下降,因?yàn)橛?8 個(gè)攝像頭,每個(gè)攝像頭 ISP 處理會(huì)產(chǎn)生 1.5 - 1.6 毫秒的延遲。
一旦馬斯克這一設(shè)想經(jīng)過(guò)實(shí)踐驗(yàn)證是可行的,其他芯片廠商應(yīng)該也會(huì)“跟進(jìn)”。甚至,有的芯片廠商已經(jīng)在這么做了。
如安霸中國(guó)區(qū)總經(jīng)理馮羽濤1月份在接受焉知采訪時(shí)就提到:“如果客戶想把原始數(shù)據(jù)直接喂進(jìn)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,CV3 完全可以支持這種方法”。
三.?dāng)z像頭的“物理性能”也需要提升
并非所有人都完全相信馬斯克這一計(jì)劃。
某頭部Robotaxi公司技術(shù)VP說(shuō):“特斯拉說(shuō)的也沒錯(cuò),但我覺得算法的開發(fā)難度會(huì)非常大、周期會(huì)很長(zhǎng),然后開發(fā)的時(shí)間可能會(huì)非常久。如果加個(gè)激光雷達(dá),首先可以直接把三維的問(wèn)題解決了,拿純視覺去構(gòu)建三維當(dāng)然也可以,但要消耗很多算力。”
車右智能聯(lián)合創(chuàng)始人認(rèn)為,馬斯克是個(gè)“煽動(dòng)大師”,“他的宣傳方式是把你搞暈,讓你不由自主地產(chǎn)生技術(shù)崇拜”。
他說(shuō):“有的圖像學(xué)專家認(rèn)為放棄所有ISP級(jí)別的后處理是不現(xiàn)實(shí)的,比如獲取強(qiáng)度和顏色的debayer圖像,會(huì)給后續(xù)的NN識(shí)別head造成很多困難。”
在《車右智能》最近的一篇文章中提到,原始數(shù)據(jù)染過(guò)ISP直接進(jìn)入神經(jīng)網(wǎng)絡(luò)的方案在哪種場(chǎng)景下可行?是可以兼容特斯拉現(xiàn)有的攝像頭還是需要更好的視覺傳感器?是否存在于FSD beta全部的NN head任務(wù)還是局部NN head任務(wù)?這都是不確定的答案。
我們?cè)倩仡^筆者開頭提出的那個(gè)問(wèn)題:視覺算法的提升,能突破攝像頭的物理性能本身的瓶頸嗎?
某視覺算法背景的Robotaxi公司CEO說(shuō):“逆光或者是車輛從隧道里出來(lái)突然面對(duì)強(qiáng)光時(shí)的感知,人眼很難解決,攝像頭也不行,這個(gè)時(shí)候,就必須要有激光雷達(dá)了。”
劉煜認(rèn)為,理論上,如果你不計(jì)成本,可以造一個(gè)攝像頭,性能是可以超過(guò)人眼的,“但我們現(xiàn)在這些車上用的這種低成本的攝像頭,似乎還遠(yuǎn)沒有達(dá)到這個(gè)性能級(jí)別。”
言外之意,解決攝像頭在弱光或強(qiáng)光下的感知,并不能僅靠視覺算法的提升,還得圍繞著攝像頭的物理性能“做文章”。
如攝像頭若要在夜間探測(cè)目標(biāo),就無(wú)法通過(guò)可見光成像,而是得基于紅外熱成像原理來(lái)做(夜視攝像頭)。
某“AI四小龍”工程師認(rèn)為,photon to control非常有可能意味著特斯拉跟HW 4.0芯片搭配的攝像頭會(huì)升級(jí)成多光譜。
這位工程師說(shuō):當(dāng)前,行車攝像頭都將非可見光部分濾去,但現(xiàn)實(shí)中,物體發(fā)出的光線光譜非常廣泛,可以用來(lái)進(jìn)一步區(qū)分物體特征。比如白色的貨車和白云,在紅外波段可以被輕易區(qū)分;有行人或者大型動(dòng)物防撞,用紅外攝像頭會(huì)比較容易,因?yàn)楹銣貏?dòng)物身體發(fā)出的紅外線是很容易區(qū)分的。
《車右智能》在文章中也提到了這樣一個(gè)問(wèn)題:Tesla是否會(huì)針對(duì)photon to control的概念而更新相機(jī)硬件,推出真正的光量子相機(jī),或者還是基于現(xiàn)有的camera進(jìn)行ISP旁路? 與此同時(shí),作者也指出,如果攝像頭硬件也要升級(jí),“那特斯拉將不得不從頭開始完全重新訓(xùn)練其神經(jīng)網(wǎng)絡(luò)算法,因?yàn)檩斎胧侨绱说牟煌?rdquo;。
此外,無(wú)論攝像頭技術(shù)如何進(jìn)步,可能都無(wú)法擺脫鳥屎、泥水等臟污的影響。
激光雷達(dá)采用的是主動(dòng)光源,先發(fā)光、再接收光,像素點(diǎn)很大,一般的臟污很難將其完全遮擋掉。據(jù)某激光雷達(dá)廠商提供的數(shù)據(jù),在表面有臟污的情況下,其激光雷達(dá)的探測(cè)距離只衰減15%以內(nèi);而且,有臟污的時(shí)候,系統(tǒng)會(huì)自動(dòng)發(fā)出警報(bào)。但攝像頭是被動(dòng)傳感器,每個(gè)像素點(diǎn)很小,很小的灰塵技能擋住幾十個(gè)像素,因此,在表面有臟污的時(shí)候就直接“瞎了”。
如果不能解決這個(gè)問(wèn)題,那試圖通過(guò)視覺算法的進(jìn)步來(lái)省掉激光雷達(dá)的成本,豈不是個(gè)妄想?
幾點(diǎn)補(bǔ)充:
1.芯片廠商怎么設(shè)計(jì)只是問(wèn)題的一個(gè)方面,但客戶如果沒能力充分利用好原始數(shù)據(jù),他們也無(wú)法繞過(guò)ISP。
2.哪怕芯片廠商和客戶都有能力繞過(guò)ISP,在今后相當(dāng)長(zhǎng)一段時(shí)間里,多數(shù)廠商仍然會(huì)保留ISP,一個(gè)關(guān)鍵原因在于,在L2階段,駕駛責(zé)任主體依然是人,而ISP處理后的信息顯示到屏幕上,方便交互,也可以給駕駛員“安全感”。
3.要不要繞過(guò)ISP,仍然是“純視覺派”與“激光雷達(dá)派”兩種技術(shù)路線之爭(zhēng)的延續(xù),對(duì)此,上文提到的Robotaxi公司技術(shù)VP的觀點(diǎn)很有啟發(fā)性:
其實(shí)純視覺方案跟激光雷達(dá)方案并不是拼“誰(shuí)行誰(shuí)不行”,真正拼的就是純視覺方案算法開發(fā)能開發(fā)到激光雷達(dá)方案這種水平要多長(zhǎng)時(shí)間,以及激光雷達(dá)的成本降到跟純視覺方案成本差不多的時(shí)候需要多長(zhǎng)時(shí)間。簡(jiǎn)言之,是前者的技術(shù)進(jìn)步快,還是后者的成本降得更快。
當(dāng)然,若日后純視覺派需要增加傳感器,而激光雷達(dá)派需要減少傳傳感器,算法受到的影響有多大、修改算法需要多長(zhǎng)時(shí)間、成本如何,這些都是有待進(jìn)一步觀察的問(wèn)題。
參考文章:
1、馬斯克最新訪談:自動(dòng)駕駛最難的是建立向量空間,特斯拉FSD或年底達(dá)到L4|阿爾法講故事
https://mp.weixin.qq.com/s/rSrN6FV3W4GRSSkfF9K_kg
2、特斯拉選擇純視覺:攝像頭測(cè)距已成熟,雷達(dá)缺陷不可彌補(bǔ)
https://m.ithome.com/html/564840.htm