加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 一、人形機器人視覺方案
    • 二、視覺技術分析
    • 三、國內外主要3D視覺企業(yè)
    • 四、總結
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

人形機器人產業(yè)鏈分析——3D視覺

01/15 14:49
1萬
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

人類約70%的信息是通過人眼感知獲取的,未來的人形機器人也將和人類一樣,大量信息都將通過視覺感知獲取。視覺技術是機器人獲取環(huán)境信息的重要途經,隨著國內外人形機器人的陸續(xù)發(fā)布,人形機器人的視覺感知技術越來越重要了。

人形機器人對環(huán)境感知有寬視場、高速度和高精度的各種要求,但是目前技術路徑尚未完全確定,各家都有自己的解決方案。特斯拉 Optimus的3D傳感模塊以多目視覺為主,全身搭載8個攝像頭,自研芯片FSD,純視覺方案硬件成本低,對軟件算法要求高。國內廠商多采用3D相機+激光雷達方案,優(yōu)必選WALKERX的視覺模塊采用四目視覺+雙RGBD,小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB,達闥采用3D深度相機+RGB單目攝像頭+TOF相機+激光雷達的綜合方案,宇樹采用3D激光雷達+深度相機方案,追覓采用ToF+結構光,智元A1采用 RGBD 相機。

究竟以上技術路徑是如何實現(xiàn)的?各種視覺方案又有哪些差異點?今天筆者將和大家一起學習探討人形機器人的視覺系統(tǒng)是如何實現(xiàn)對感知和交互的,以便大家對人形機器人視覺技術發(fā)展有更多了解和判斷。

一、人形機器人視覺方案

1.1、特斯拉人形視覺方案

特斯拉的純視覺傳感器方案的實現(xiàn),離不開多任務學習HydraNets神經網(wǎng)絡架構。每輛特斯拉汽車擁有8個環(huán)繞車身、覆蓋周圍360°的攝像頭,來獲取交通信號燈、信號牌、匝道、路緣等周邊信息,為神經網(wǎng)絡學習提供了絕佳條件。

特斯拉開發(fā)了“矢量空間”(Vector Space)技術,同時兼具了非凸優(yōu)化算法(Non-convex)、高維度兩大優(yōu)勢。該技術可以通過8個攝像頭輸入的數(shù)據(jù)為基礎繪制3D鳥瞰視圖,形成4D的空間和時間標簽的“路網(wǎng)”以呈現(xiàn)道路等信息,幫助車輛把握駕駛環(huán)境,更精準的尋找最優(yōu)駕駛路徑。同時,特斯拉自主研發(fā)了基于神經網(wǎng)絡的訓練方式。

圖| FSD計算機視覺技術

來源:特斯拉AI Day

特斯拉Optimus搭載了與特斯拉車輛相同的FSD技術以及Autopilot相關神經網(wǎng)絡技術,其大腦使用的是自研的AI訓練 Dojo D1芯片和超級計算機 Dojo。特斯拉FSD系統(tǒng)已可以實現(xiàn)每1.5毫秒2500次搜索的超高效率,預測可能出現(xiàn)的各種情況,并在其中找到最安全、最舒適、最快速的自動駕駛路徑。在經過完全自動駕駛能力系統(tǒng)的實際應用驗證后,特斯拉強大的FSD計算機視覺技術已可直接應用于機器人。

圖|特斯拉FSD芯片+D1芯片

來源:特斯拉AI Day

圖|小米Mi Sense 視覺技術

來源:小米官網(wǎng)

小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB方案。歐菲光同步發(fā)布自研的機器視覺深度相機模塊,主要由 iToF 模組、RGB 模組、可選的 IMU 模塊組成,產品在測量范圍內精度高達 1%,應用場景廣泛,可通過第三方實驗室 IEC 60825-1 認證,滿足激光安全 Class1 標準。iToF 技術是現(xiàn)在主流的 3D 視覺感知技術之一,歐菲光研發(fā)基于 iToF+RGB 深度測量技術的 3D 智能深度相機。

iToF無法獲取物體的顏色紋理信息,RGB相機可獲取物體豐富的顏色紋理信息,將RGB與iToF相結合既能得到物體的深度信息,又可獲取物體的顏色紋理信息,這可大大拓展其應用領域。RGB信息可用于物體檢測識別,深度信息可用于建圖避障等,RGB+iToF在諸多領域可實現(xiàn)1+1>2的作用。

1.3、優(yōu)必選人形視覺方案

圖|優(yōu)必選人形視覺方案

來源:優(yōu)必選官網(wǎng)

優(yōu)必選WALKERX的視覺模塊創(chuàng)新升級四目系統(tǒng)及雙RGBD傳感器,采用胸部四目視覺,頭部+腰部雙RGBD,以及腰部4*毫米波雷達避障。

SLAM視覺導航自主路徑規(guī)劃:基于多目視覺傳感器的三維立體視覺定位采用Coarse-to-fine的多層規(guī)劃算法,第一視角實景AR導航交互及2.5D立體避障技術實現(xiàn)動態(tài)場景下全局最優(yōu)路徑自主導航。實現(xiàn)定位精度10cm,導航精度20cm,精定位精度1cm。

基于深度學習的物體檢測與識別算法、人臉識別算法和跨風格人臉數(shù)據(jù)生成技術,可在復雜環(huán)境中識別人臉、手勢、物體等信息,豐富準確地理解和感知外部環(huán)境。

1.4、達闥人形視覺方案

圖|達闥人形視覺方案

來源:達闥官網(wǎng)

達闥人形頭部+腰部兩個3D深度相機,前胸和后胸兩個RGB單目攝像頭,下半身暫時單點TOF相機+激光雷達的方案。

1.5、宇樹人形視覺方案

圖|宇樹人形視覺方案

來源:宇樹官網(wǎng)

宇樹目前采用頭部3D激光雷達+深度相機方案,相對最為簡單。

二、視覺技術分析

2.1、3D 視覺技術

在過去的數(shù)十年中,2D 成像技術有了長足的發(fā)展,分辨率從幾十萬像素發(fā) 展到現(xiàn)在的上億像素,色彩還原更真實,逆光環(huán)境下也能通過 HDR(高動態(tài)光 照渲染)技術提升圖像質量。然而,2D 圖像僅能夠提供紋理(色彩)信息,無法提供實現(xiàn)更精準識別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。

3D視覺技術相對與2D技術提供了更豐富的被攝目標信息,可以在六個自由度(x、y、z、旋轉、俯仰、橫擺)上定位被攝目標,還原人眼視角的三維立體世界?;?D視覺傳感器采集的信息,不但有紋理(色彩)信息,還增加深度信息,也就是視場內的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈,就能得到點云圖和精準的“1:1”還原的3D 模型。而有了這些信息作為輸入,應用場景會大大增多,性能也會大幅提升。

圖|空間三維測量

來源:奧比中光官網(wǎng)

3D機器視覺技術分為兩個部分,即3D重構技術和3D數(shù)據(jù)分析算法,前者獲取3D信息、重構3D場景,后者對3D場景中的信息進行理解。目前,3D重構的常用技術類型有:被動3D視覺技術(分為單目3D、雙目3D 和多目3D,即分別使用一個、兩個和兩個以上相機組成立體視覺系統(tǒng))、激光3D掃描技術、結構光3D技術、TOF相機技術等。3D重構獲得的表征數(shù)據(jù),包括點云、體素、網(wǎng)格圖、深度圖等,通過3D數(shù)據(jù)分析算法進行濾波、特征提取、分割、語義理解,從而實現(xiàn)識別、測量、定位和檢測等功能。

表1 3D視覺感知技術差異

來源:奧比中光

2.2、3D視覺常用技術對比

3D 視覺成像技術可分為光學和非光學成像方法。目前應用最多的還是光學方法,包括:結構光、飛行時間(ToF)、多目視覺激光掃描法、激光散斑法、干涉法、照相測量法、激光跟蹤法等等,常用的為前三種方法。

圖|三種3D視覺方案原理

來源:網(wǎng)絡、知乎、與非研究院整理

2.2.1、結構光

結構光:通過光學投射模塊將具有編碼信息的結構光投射到物體表面,在被測物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后,通過算法處理得出被測物表面的三維輪廓數(shù)據(jù),以還原目標物體三維空間信息。結構光技術是一種主動的三維測量技術。

特點:由于結構光是主動光,好處是昏暗環(huán)境和夜間可用。不需要根據(jù)場景的變化而有變化,降低了匹配的難度。但顯然在強光環(huán)境中會受到干擾,室外基本不可用。另外,由于主動結構光是帶編碼的,所以多個結構光相機同時使用也是有問題的。在實測中,結構光在角度比較小的側面上反射比較嚴重,經常出現(xiàn)比較大的黑洞,當然黑色物體和玻璃是結構光的大 BUG,一個吸光一個透光。

2.2.2、立體視覺法

立體視覺法:指從不同的視點獲取兩幅或多幅圖像重構目標物體3D結構或深度信息, 目前立體視覺 3D 可以通過單目、雙目、多目實現(xiàn)。雙目機器視覺是指使用兩個 RGB 彩色相機采集圖像,并通過后端的雙目匹配和三角測量等算法,計算得到深度圖的技術方法。雙目技術使用的是物體本身的特征點,由于每一次雙目匹配都面對不同的圖像,都需要重新提取特征點,計算量非常大。雙目是一種被動的三維測量技術。

特點:硬件復雜度較低,弱光或目標特征不明顯時幾乎不可用。同時,雙目相機的運算復雜度也非常高,對硬件計算性能要求極高。因為計算能力要求高,雙目相機極少在嵌入式系統(tǒng)設備中使用,雙目相機在通用場景中表現(xiàn)也并不太好, 像諸如 slam 導航等應用,但在工業(yè)自動化領域和 x86 系統(tǒng)中,雙目相機應用廣泛,因為工業(yè)自動化中,雙目相機只要解決特定場景中的特定問題。

2.2.3、飛行時間(ToF)

飛行時間(ToF):由發(fā)射和反射光信號之間的時間延遲來測量,給定固定的光速。為了精確地測量時延,經常使用短光脈沖。這種技術跟 3D 激光傳感器原理基本類似,只不過3D 激光傳感器是逐點掃描,而TOF 相機則是同時得到整幅圖像的深度信息。

特點:和結構光方式相比,ToF 并不需要對光的圖案做復雜解析,只需要反射回來即可,這大大的提高了魯棒性,深度信息還原度比結構光好很多,點云的完整性更好。主要表現(xiàn)在:深度圖質量要高于結構光,抗強光的干擾能力也更強一些,精度也要更高一些。對于玻璃,是光技術的死穴,只能靠其他技術來彌補了。ToF速度高,但精度只有毫米級。ToF 技術的難度較高,成本也較高。

2.3、3D視覺傳感器

3D 視覺傳感器是由深度引擎芯片、深度引擎算法、通用或專用感光芯片、專用光學系統(tǒng)、驅動及固件等組成的精密光學測量系統(tǒng),可以采集并輸出“人體、物體和空間”的三維矢量信息。

圖|視覺傳感器結構

來源:奧比中光招股書

三、國內外主要3D視覺企業(yè)

消費級競爭對手主要為蘋果、華為、微軟、索尼等科技巨頭,也包括英飛凌、瑞芯微、華捷艾米等企業(yè)。微軟是業(yè)內最早推出消費級3D視覺傳感器的企業(yè),已推出結構光、iToF 技術的 3D 視覺傳感器;蘋果、華為主要自研 3D視覺傳感器以服務于自家產品;索尼、三星借助自身在感光芯片方面的實力,推出iToF、dToF 技術相應的感光芯片產品。英飛凌、瑞芯微、奧比中光、華捷艾米也向市場推出了各自研發(fā)的 3D 視覺傳感器產品。

表|3D視覺傳感器主要企業(yè)和產品

來源:奧比中光招股書(已上市)

目前3D視覺市場主要還是以外資品牌占據(jù)市場主流,蘋果、微軟、索尼、英特爾、三星等自研iTOF芯片或雙目3D芯片為主。國內奧比中光市占率主導地位,芯片為自研,華為、瑞芯微也相繼有自研芯片推出,華捷艾米、歐菲光等也已經開始切入相關市場。

四、總結

人形機器人視覺方案目前主要以結構光、雙目或多目RGB、TOF等的組合方案為主。國外大廠已經較早的布局和應用,國內市場還在逐步打開市場空間。

現(xiàn)階段國內外人形機器人產業(yè)還處于0-1的階段,視覺方案的選擇比較多樣化,隨著出貨量的增長,技術的迭代升級,未來視覺方案也將會逐步優(yōu)化定型。3D視覺作為人形機器人最優(yōu)的視覺方案,也會跟隨人形機器人實現(xiàn)蓬勃發(fā)展。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
B3B-PH-K-S(LF)(SN) 1 JST Manufacturing Board Connector, 3 Contact(s), 1 Row(s), Male, Straight, Solder Terminal, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.13 查看
TP-108-02-1-T 1 Components Corporation Interconnection Device, ROHS COMPLIANT
$1.28 查看
33012-2001 1 Molex Wire Terminal, 1.5mm2, HALOGEN FREE AND ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.12 查看
特斯拉

特斯拉

Tesla 致力于通過電動汽車、太陽能產品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉變。

Tesla 致力于通過電動汽車、太陽能產品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉變。收起

查看更多

相關推薦

電子產業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師,工科背景,11年行業(yè)研究經歷。擅長從行業(yè)供需、量價、公司財務基本面等角度分析,洞悉電子行業(yè)未來發(fā)展方向,歡迎交流。