作者|路遙
編輯|余快
機(jī)器視覺領(lǐng)域,仍舊以2D為主,3D(2.5D)為輔。
2D和3D是機(jī)器視覺領(lǐng)域兩個(gè)重要的概念,一個(gè)維度之差,帶來的是從平面信息到空間信息的質(zhì)的飛躍。
3D視覺誕生之初以人眼作為參照,目的是讓機(jī)器能夠更清晰地認(rèn)知人類所處的三維世界。
這個(gè)賽道的企業(yè)無不以“3D視覺”自居,然而,在這場從2D到3D的技術(shù)接力賽中,也潛藏著一個(gè)不被外界所知的維度——2.5D。
“一大半宣稱3D視覺的公司,其實(shí)都是2.5D,不是真3D,而且能做到2.5D已經(jīng)很不容易?!?/strong>機(jī)器視覺從業(yè)者馬迪這句話,揭下了不少3D視覺公司身上的新衣。
所謂的3D,很可能是2.5D
在機(jī)器視覺中,3D和2D的區(qū)別主要三點(diǎn):
第一,物體的識別和測量。
2D獲取的信息相對簡單,只能看到物體的平面信息。3D則是在2D的基礎(chǔ)上,增添了深度信息。提供了一個(gè)超級“數(shù)據(jù)集”,能更準(zhǔn)確地識別物體的形狀和位置,彌補(bǔ)2D無法進(jìn)行深度測量和分析的不足。
第二,處理對象。
2D圖像由像素點(diǎn)組成,每個(gè)像素點(diǎn)都有一個(gè)顏色值,最終呈現(xiàn)出來的是一個(gè)規(guī)整、對齊的像素圖;3D圖像由許多點(diǎn)云組成,點(diǎn)云記錄的是物體在空間中的位置和形狀,點(diǎn)云是不對齊、無序的。
第三,算法上也有區(qū)別。
2D視覺常用的算法和技術(shù)包括邊緣檢測、特征提取、圖像分割、物體識別等。3D視覺常用的則是深度估計(jì)、點(diǎn)云處理、三維重建、SLAM等。前者通過分析像素之間的關(guān)系和特征來實(shí)現(xiàn),后者則通過分析和處理深度圖或點(diǎn)云數(shù)據(jù)得到。
換句話說,2D視覺對平面信息可以直接獲取,但3D視覺的深度信息,卻需要通過計(jì)算得到。
以深度學(xué)習(xí)的理解能力為例,深度學(xué)習(xí)在2D上做圖像識別分類能達(dá)到九十多分,但當(dāng)其碰到點(diǎn)云時(shí),表現(xiàn)就會降至七八十分。
3D成像在國內(nèi)的發(fā)展歷史并不是很長,2D成像處理已經(jīng)很成熟,但3D的成像處理卻很難。
“真正的3D,因?yàn)橛卸鄠€(gè)視角,所以得用多個(gè)深度圖表示,深度圖的融合,只能通過點(diǎn)云處理,點(diǎn)云是不對齊和無序的,可以旋轉(zhuǎn)和縮放,這個(gè)門檻卡住了很多的工程師?!瘪R迪解釋道。
但下游客戶的確有大量3D需求,面對3D成像技術(shù)這道難關(guān),2.5D順勢而生。
作為技術(shù)過渡階段的產(chǎn)物,2.5D兼具2D和3D的部分特征,形成了對圖像的獨(dú)特處理方式。
相比2D,2.5D增加了深度信息,與3D相比,2.5D圖像又并非通過點(diǎn)云,而是通過顏色傳遞高度信息。并且不同于3D的多視角,2.5D是單視角,信息比較殘缺,很多算法最終都會回歸到2D算法上。
“2.5D和3D的本質(zhì)區(qū)別,可以從視角來解釋,單視角很有可能是2.5D,必須得是多視角才是真3D,多視角是判斷真假3D的一個(gè)充分不必要條件?!?/strong>馬迪指出從視角角度可以很容易區(qū)分3D、2.5D、2D的不同。
技術(shù)上的亟待突破投射到下游應(yīng)用中表現(xiàn)為:機(jī)器視覺的相關(guān)工位,仍舊以2D為主,3D(2.5D)為輔。
“檢測任務(wù)就屬于大部分沒有解決,還靠人工在搞,小部分解決那些,基本依靠2D,當(dāng)2D無法勝任時(shí),會用3D解決,并且很多所謂的3D也不是真3D,而是2.5D?!?/p>
不過,2.5D的存在也有其合理性,在部分非復(fù)雜應(yīng)用場合中,客戶又需要獲取深度信息時(shí),相比高成本的3D視覺,2.5D常常能以絕對的性價(jià)比取勝。
2.5D拉低了3D視覺門檻,真3D技術(shù)壁壘依然很高
從趨勢看,人眼的世界是個(gè)三維世界,從替換人眼的角度,3D視覺一定是未來的趨勢,好比以前手機(jī)用2D相機(jī),現(xiàn)在都在往3D相機(jī)轉(zhuǎn),大量場景需求只是時(shí)間問題。
不過現(xiàn)階段,需要真3D的下游應(yīng)用場景還不夠多。
以3D檢測為例,“目前檢測任務(wù)大部分還在依靠人工,小部分用機(jī)器視覺解決的,基本上用的都是2D?!?/p>
追根溯源,是3D視覺產(chǎn)品在客戶端的接受度還不夠高。
一方面,3D相機(jī)的成本太貴,導(dǎo)致設(shè)備整體價(jià)格較貴;另一方面,多視角混合的真3D,超出了大部分工程師的處理水平,視覺廠商要真正把3D做好很難。
因此,站在解決問題和性價(jià)比角度考慮,在2D視覺足夠解決場景問題的情況下,客戶并不愿意為成本更高的3D買單。
在追求優(yōu)質(zhì)性價(jià)比的工業(yè)市場上,那些需要獲取深度信息的場景客戶,從成本方面考慮,選擇2.5D視覺,已經(jīng)能夠滿足基本需求。
這使得3D視覺行業(yè)的進(jìn)入門檻變低,而技術(shù)壁壘和行業(yè)難題猶存。
多位機(jī)器視覺投資人也曾對AI掘金志表達(dá)過這個(gè)觀點(diǎn)。
目前,結(jié)構(gòu)光、ToF和雙目立體是三個(gè)主流的3D成像技術(shù),其他成像技術(shù)都是在其基礎(chǔ)上的變形,國內(nèi)均已有成熟的開源算法。
“反正都是開源的,只要學(xué)過算法,即便沒在機(jī)器視覺公司工作過,也很快能跑起來?!蓖鯗\介紹,他有不少朋友碩士畢業(yè)后到機(jī)器人或視覺公司工作,并且一開始就承擔(dān)核心研發(fā)工作,“都是先在實(shí)驗(yàn)室用存量數(shù)據(jù)或者公用數(shù)據(jù),跑起來后,再去工廠用他們的數(shù)據(jù)?!?/p>
晏小鋒認(rèn)為,除開半導(dǎo)體這類壁壘極高的領(lǐng)域,一旦出現(xiàn)新興技術(shù)和市場,國內(nèi)就開始內(nèi)卷,但以3D成像技術(shù)為例,要做到低功耗、低延遲、高幀率、高分辨率,國內(nèi)外仍然有不小差距。
前兩年疫情催生下,機(jī)器人行業(yè)需求爆發(fā),3D視覺作為機(jī)器人在復(fù)雜環(huán)境實(shí)現(xiàn)“無觸式”的關(guān)鍵技術(shù),受到資本熱捧,尤以距離落地更近的中游設(shè)備商和方案商,最受追捧。
在此過程中,一項(xiàng)新的產(chǎn)業(yè),攀附著3D視覺行業(yè)悄然生長:3D視覺創(chuàng)業(yè)培訓(xùn)。
傳感器從業(yè)者賈科介紹,北京有一家小公司,專門做3D傳感器的解決方案培訓(xùn)班。他們會先從傳感器圈子找人參加各種行業(yè)論壇,一旦發(fā)現(xiàn)哪個(gè)老板想融資,就和對方建立合作,從研發(fā)培訓(xùn)課程,到企業(yè)一步步搭建,再到配套硬件,提供一條龍服務(wù)。
“這個(gè)公司有個(gè)公眾號,每天講一點(diǎn)秘密,底下評論的全是這個(gè)圈子的老板,大家都是一條流水線快速培訓(xùn)起來的,各種忽悠資本不挺香嗎?”賈科說。
這類企業(yè)帶著明確的To VC目的,“因?yàn)?D是一個(gè)很好的概念,所以玩命往上湊”,他們在低水平處重復(fù)建設(shè),不僅毫無技術(shù)差異化可言,還拉低了3D視覺行業(yè)的整體對外形象。
至于業(yè)內(nèi)發(fā)展較好的企業(yè),也大都沿襲著主流的成像技術(shù),用著成熟的開源算法,雖在國產(chǎn)替代浪潮中有所成績,但極少有企業(yè)能拿出創(chuàng)新技術(shù)或方案,能解決傳統(tǒng)視覺廠商解決不了的問題。
或許正因如此,在3D投融資熱潮過去后,不少投資人選擇“棄城而逃”。
當(dāng)然,3D視覺創(chuàng)業(yè)者谷永道出投資人離場的部分原因:真正懂機(jī)器視覺的投資人,鳳毛麟角。
“機(jī)器視覺屬于硬科技賽道,對投資人有專業(yè)性方面的要求,即使不是互聯(lián)網(wǎng)背景、金融背景,哪怕是半導(dǎo)體背景,也看不懂機(jī)器視覺賽道。”
事實(shí)上,從技術(shù)底層看,3D視覺領(lǐng)域的技術(shù)壁壘依然很高。
不同于投資人的觀點(diǎn),創(chuàng)業(yè)者、從業(yè)者普遍認(rèn)為:3D視覺行業(yè)不是技術(shù)壁壘變低,反而是客戶有很多痛點(diǎn)問題需要解決,但目前還沒有真正被突破。
比如高速、高精度場景,國內(nèi)極少有企業(yè)能做得了。
“國外一家傳感器公司,專吃高速場景,售價(jià)比國產(chǎn)最低端相機(jī)貴30%-40%,并且不帶服務(wù),還能保證四成的毛利?!辟Z科進(jìn)一步解釋,這家公司之所以能做得好,是因?yàn)榛ㄕ娼鸢足y給客戶定制CMOS芯片。國內(nèi)極少有企業(yè)做高速高動態(tài)場景,部分原因在于給錢也買不到國外的定制芯片。
這些技術(shù)實(shí)現(xiàn)過程中的曲折,非業(yè)內(nèi)出身的人,很難有深刻的體會。
一位二十年從業(yè)經(jīng)歷的行業(yè)老兵表示,目前國內(nèi)大多數(shù)視覺公司實(shí)現(xiàn)不了真3D,一方面出在技術(shù)積累上,一方面出在數(shù)據(jù)積累上。
國外機(jī)器視覺,從20世紀(jì)70年代起就已真正開始發(fā)展,而機(jī)器視覺在國內(nèi)的發(fā)展,不過是近二十年的事。
除了3C、汽車、新能源、鋰電、光伏等已經(jīng)相對成熟的制造業(yè),其他行業(yè)的工業(yè)客戶,對于瑕疵樣本的留存意識不足,導(dǎo)致數(shù)據(jù)獲取成本非常昂貴。
當(dāng)下,大家都在試圖用AI解決制造業(yè)中的瑕疵檢測難題,但依然很難達(dá)到客戶“4個(gè)9”(即0.9999,特定時(shí)間10000個(gè)里一個(gè)瑕疵品)的要求。
在谷永看來,這是因?yàn)橐粋€(gè)AI模型的質(zhì)量,主要由數(shù)據(jù)的數(shù)量跟質(zhì)量決定。但工業(yè)場景里,瑕疵品的數(shù)量非常少,出現(xiàn)概率在千分之一甚至萬分之一,再加上客戶沒有留存意識導(dǎo)致的樣本數(shù)據(jù)積累嚴(yán)重不足,也使得AI技術(shù)做工業(yè)瑕疵檢測缺乏土壤。
因此,雖然部分企業(yè)宣稱能在視覺檢測樣本庫不夠大的情況下,用AI生成一些相似的樣本庫,但實(shí)際上檢測精度會有所下降。
“那些說能用幾十張圖訓(xùn)練出一個(gè)AI模型,并且檢測效果也非常好的公司,都是給投資人講故事。他們的AI模型實(shí)際是從幾千甚至上萬張圖片訓(xùn)練出來的大模型中,‘瘦身’優(yōu)化出來的小模型?!痹诠扔揽磥?,從技術(shù)原理上講,通過虛擬方式生成瑕疵樣本并非不可能,而是現(xiàn)階段的技術(shù)還達(dá)不到。
換句話說,現(xiàn)階段機(jī)器視覺領(lǐng)域的AI,投喂什么就認(rèn)識什么,并且投喂的數(shù)據(jù)都需要來自實(shí)際的瑕疵品,不具備推演的能力。
而一旦實(shí)現(xiàn)虛擬瑕疵,AI能像人腦一樣歸類和推演出成千上萬種瑕疵,即使客戶沒有針對實(shí)際瑕疵品做留存,檢測準(zhǔn)確率也將大大提升。
一邊是人才流失,一邊是人才浪費(fèi)
不同于2D視覺能夠直接獲取平面信息,3D視覺的深度信息,需要通過計(jì)算得到。
“直接獲取最容易,加一步計(jì)算,就擋住了一半的人。相比2D,2.5D也要獲取精確的深度信息,因此能做到2.5D已經(jīng)很不容易?!瘪R迪表示。
在3D視覺概念已經(jīng)無孔不入的今天,真實(shí)應(yīng)用場景中運(yùn)行的卻大多是2.5D相機(jī),甚至2D相機(jī)。
這一反差背后的原因在于,將3D變成現(xiàn)實(shí)的人才,并非真正的3D人才。
行業(yè)驅(qū)動從本質(zhì)上講,是人才驅(qū)動。
但目前中國機(jī)器視覺行業(yè)普遍的現(xiàn)狀是:高端人才不足;學(xué)校教育與市場需求脫軌;人才浪費(fèi)。
首先,從整個(gè)3D視覺行業(yè)來看,視覺相關(guān)的畢業(yè)生中,大專生的供應(yīng)量占比最大。
“目前機(jī)器視覺工程師中,??飘厴I(yè)生占據(jù)絕大部分,因?yàn)橐曈X行業(yè)存在大量較為簡單的視覺任務(wù)識別工作,因此即使是明星企業(yè),也需要相當(dāng)數(shù)量的??粕鷣硗瓿蛇@部分工作?!?/p>
與數(shù)量眾多的??粕纬甚r明對比,進(jìn)入視覺行業(yè)的高端人才太少了。
作為一項(xiàng)新興技術(shù),3D視覺以其想象力,在過去兩年成為工業(yè)領(lǐng)域里的一條吸金賽道,少數(shù)明星企業(yè)吸引到了不少高端人才,但他們的生存狀態(tài),并不代表賽道的普遍情況。
谷永是3D視覺領(lǐng)域極具代表性的創(chuàng)業(yè)者,畢業(yè)于華中理工大學(xué),然而當(dāng)他回到母校做宣傳時(shí)卻發(fā)現(xiàn),自己根本招不到人。
“所有的碩士跟博士一畢業(yè)后全部進(jìn)入大廠,或者進(jìn)入一些有名的AI公司,這些公司開得起錢。視覺公司大都是一些小的創(chuàng)業(yè)公司,穩(wěn)定性不強(qiáng)?!?/p>
其次,全國各大高校每年為機(jī)器視覺領(lǐng)域培養(yǎng)的畢業(yè)生并不少,但只有很少的人在學(xué)校里學(xué)習(xí)到了真3D的相關(guān)知識,大部分學(xué)校培養(yǎng)出來的都是2.5D或者2D的視覺工程師。
魏源觀察到,很多大專畢業(yè)的機(jī)器視覺工程師,往往都會2D算法,懂得深度圖或者圖像,但是他們通常不懂點(diǎn)云,也不會點(diǎn)云處理算法。
再者,機(jī)器視覺領(lǐng)域還存在一個(gè)極為矛盾的現(xiàn)象,即人才不足背景下的人才浪費(fèi)問題。
“機(jī)器視覺領(lǐng)域的人才浪費(fèi)當(dāng)下還比較普遍”馬迪認(rèn)為,至少在去年,甚至今年上半年,都還有公司付著博士的薪水,卻讓博士干著一位??粕湍芨傻膽?yīng)用工程師的活。
機(jī)器視覺市場,成熟狀態(tài)下的分工模式,將是研發(fā)與項(xiàng)目相互獨(dú)立,博士生、研究生更多進(jìn)行純研發(fā)的研究,本科生、??粕嘟佑|項(xiàng)目和應(yīng)用。
“按理說,應(yīng)該要給他們做好分工,但以檢測行業(yè)來說,一開始并不容易判斷一個(gè)項(xiàng)目的檢測難度,一般的處理方式是,先找一個(gè)中等水平的工程師進(jìn)行實(shí)驗(yàn)判斷,如果項(xiàng)目難度小,就將任務(wù)下發(fā)給技術(shù)能力更低的工程師來做,如果項(xiàng)目難度大,就向上找能力更強(qiáng)的人來做?!?/p>
在不少業(yè)內(nèi)人看來,機(jī)器視覺領(lǐng)域的人才浪費(fèi),更是行業(yè)發(fā)展初期的一個(gè)必經(jīng)的階段。
一方面,現(xiàn)階段的機(jī)器視覺還并非一個(gè)盈利賽道,企業(yè)養(yǎng)不起純研發(fā),只能讓博士生、研究生們到一線接觸項(xiàng)目,接觸應(yīng)用,既是為了賺錢,也能了解市場需求。
另一方面,行業(yè)初期需要做大量奠基工作,一般的工程師做不了,需要由高屋建瓴的人牽頭執(zhí)行。
馬迪以行業(yè)融資規(guī)模前幾名的梅卡曼德舉例,“梅卡曼德就比較典型,拿著投資人的錢就可以請得起碩士、博士還有更貴的行業(yè)專家,現(xiàn)在梅卡曼德的相機(jī)已經(jīng)迭代到第4代,相機(jī)已經(jīng)穩(wěn)定可靠了?!?/p>
開創(chuàng)奠基的工作一完成,碩士、博士們便自然回歸研發(fā)工作,相機(jī)的使用則可以完全交由真正的集成商,集成商再啟用大專畢業(yè)生、初級工程師,將3D相機(jī)具體落地到產(chǎn)線和產(chǎn)品中,解決許多之前解決不了的視覺任務(wù)。
結(jié)語
2.5D是技術(shù)躍遷過程中一個(gè)階段性的產(chǎn)物,如果說以互補(bǔ)關(guān)系存在的2D和3D是技術(shù)天空的兩顆恒星,那2.5D就是劃過天邊的一顆流星,只會在穿越大氣層時(shí)摩擦出耀眼的火光,而后將隨著3D視覺的成熟歸于堙滅。
國內(nèi)3D視覺行業(yè)更大的問題在于,無論線激光或者結(jié)構(gòu)光,高端都較為空白,中端亟待充實(shí),太多公司在低水平重復(fù)建設(shè)中耗費(fèi)大量精力。
與此同時(shí),行業(yè)發(fā)展也需要警惕一味追求高精度,因?yàn)檎驹诳蛻艚嵌?,無論2D、2.5D、3D,能解決問題的,就是“火眼金睛”。
機(jī)器視覺優(yōu)秀人才的匱乏,從業(yè)者能做的較為有限,更多需要政府、資本的支持。畢竟只有當(dāng)行業(yè)聚集的優(yōu)秀人才足夠多時(shí),行業(yè)才能夠快速發(fā)展。
國內(nèi)3D視覺尚處發(fā)展初期,整個(gè)供應(yīng)鏈在逐步進(jìn)步,下游終端產(chǎn)品的場景應(yīng)用也在不斷拓展,我們期待一個(gè)成熟商業(yè)閉環(huán)的到來,但也需要給予這個(gè)年輕賽道更多的時(shí)間。