我們知道,人工智能的目標(biāo)之一就是讓計(jì)算機(jī)模擬人類(lèi)的視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感知能力,嘗試去看、聽(tīng)、讀,理解圖像、文字、語(yǔ)音等,在此基礎(chǔ)上,再讓人工智能具有思維能力、行動(dòng)能力,最終成為跟人類(lèi)一樣的存在。
現(xiàn)在,人工智能機(jī)器人的感知能力已經(jīng)實(shí)現(xiàn)了明顯的進(jìn)展。圍繞機(jī)器視覺(jué),機(jī)器人可以實(shí)現(xiàn)一系列像圖像識(shí)別、目標(biāo)檢測(cè)和文字識(shí)別等功能得到廣泛應(yīng)用;圍繞自然語(yǔ)言處理,機(jī)器人可以進(jìn)行基本的語(yǔ)音理解、機(jī)器翻譯、語(yǔ)音對(duì)話等;圍繞機(jī)器觸覺(jué),機(jī)器人可以實(shí)現(xiàn)靈活的物體感知、抓握推舉等各種動(dòng)作。
單一感知或者說(shuō)感知能力無(wú)法互通,成為當(dāng)前人工智能機(jī)器人無(wú)法實(shí)現(xiàn)類(lèi)人化突破的一大原因。也就是說(shuō),在單一感知能力和單一工作上,機(jī)器人的準(zhǔn)確度、穩(wěn)定性和持久性上面,可能遠(yuǎn)超人類(lèi),但一旦在完成多道工序的復(fù)雜任務(wù)上面,機(jī)器人就遠(yuǎn)遜于人類(lèi)的表現(xiàn)。
人工智能機(jī)器人想要實(shí)現(xiàn)質(zhì)的發(fā)展,就必須在感官能力上面實(shí)現(xiàn)多模態(tài)的感知融合?,F(xiàn)在除了在我們熟知的機(jī)器視覺(jué)方面,人工智能機(jī)器人正在機(jī)器觸覺(jué)和聽(tīng)覺(jué)方面實(shí)現(xiàn)突破,并且通過(guò)視覺(jué)、觸覺(jué)和聽(tīng)覺(jué)的感知融合,來(lái)大幅提升機(jī)器人的感知能力。
對(duì)于人工智能機(jī)器人,普通人要么抱有很高的不切實(shí)際的幻想,擔(dān)心機(jī)器人革命會(huì)很快到來(lái),要么對(duì)機(jī)器人的通用能力保持懷疑,覺(jué)得機(jī)器人只能在少數(shù)場(chǎng)景替代人類(lèi)。
只有深入到人工智能機(jī)器人的“案發(fā)現(xiàn)場(chǎng)”,不吹不黑地看下機(jī)器人感知能力的發(fā)展?fàn)顩r,才能知道當(dāng)前機(jī)器人的感知補(bǔ)全計(jì)劃的真正進(jìn)展。
機(jī)器視覺(jué)和機(jī)器觸覺(jué)
作為地球上最有智慧的生物的人類(lèi),感官獲取信息的 83%來(lái)自視覺(jué),11%來(lái)自聽(tīng)覺(jué)、3.5%來(lái)自嗅覺(jué),而 1.5%來(lái)自觸覺(jué),1%來(lái)自味覺(jué)。
在這五種感官中,如果你不幸地只能保留一種,可能大部分都會(huì)保留視覺(jué)。要知道我們大腦的近 1000 億個(gè)神經(jīng)元,大多數(shù)都在處理視覺(jué)信息。而在所有的感知信息中,也只有動(dòng)態(tài)的視覺(jué)信息是最為復(fù)雜的,以至于人類(lèi)得靠著閉上眼睛主動(dòng)隔離才能叫“休息”。
正因?yàn)橐曈X(jué)信息的重要和復(fù)雜,我們?cè)?a class="article-link" target="_blank" href="/baike/530476.html">人工智能技術(shù)的發(fā)展上,除了自然語(yǔ)言處理,那就主要在發(fā)展機(jī)器視覺(jué)了。
這一次人工智能的浪潮也是因?yàn)樵趫D像識(shí)別上的突破進(jìn)展才重新興起。如今,機(jī)器視覺(jué)已經(jīng)在工業(yè)、安防、日常消費(fèi)電子、交通等各個(gè)領(lǐng)域全面開(kāi)花,越來(lái)越多的攝像頭背后都具有了 AI 的圖像識(shí)別能力。
對(duì)于大多數(shù)人工智能機(jī)器人而言,除了有視覺(jué)能力,還有就是移動(dòng)行走和抓取能力,這就需要用到觸覺(jué)的幫助。對(duì)于往往只有單一功能的自動(dòng)化機(jī)器人,通常只需設(shè)定好固定的參數(shù)、移動(dòng)軌跡和抓取力度,即可不休不眠地完成工作任務(wù)。但對(duì)于人工智能機(jī)器人而言,則要靈活適應(yīng)各種不同材質(zhì)、不同形狀和軟硬度的物體,這個(gè)時(shí)候就既需要機(jī)器視覺(jué)的識(shí)別能力,也需要對(duì)于物體的觸覺(jué)判斷。
之前,大部分機(jī)器人的抓握解決方案都是單靠機(jī)器人的視覺(jué)感知。主要的解決辦法就是通過(guò)數(shù)據(jù)庫(kù)進(jìn)行圖像匹配,將目標(biāo)物體的狀態(tài)和自身動(dòng)作進(jìn)行實(shí)時(shí)監(jiān)測(cè),最終調(diào)整合適的抓取算法,來(lái)完成物體的抓取,但是有關(guān)抓握的接觸力度,則是機(jī)器視覺(jué)無(wú)法代替的,這樣機(jī)器還需要觸覺(jué)上的感知數(shù)據(jù)。
就如同人類(lèi)一樣,我們?cè)趪L試抓取物體時(shí),會(huì)組合運(yùn)用各種感知能力,最基礎(chǔ)的就是視覺(jué)和觸覺(jué)。由于視覺(jué)會(huì)因?yàn)楣饩€、陰影、視線遮擋等因素,造成誤判,我們通常會(huì)更有效地利用皮膚的觸覺(jué),來(lái)獲得對(duì)于物體完整的感知。
人體的觸覺(jué)感知也是一個(gè)非常復(fù)雜的生物電信號(hào)反應(yīng)的過(guò)程,那么要賦予機(jī)器以觸覺(jué)能力也需要經(jīng)過(guò)非常復(fù)雜的處理。模擬人體的觸覺(jué)反應(yīng),機(jī)器人的觸覺(jué)傳感器也必須能夠?qū)⑽矬w的質(zhì)地、光滑程度以及物體形態(tài)進(jìn)行數(shù)字模擬處理,將壓力和振動(dòng)信號(hào)變成可以計(jì)算機(jī)處理的數(shù)據(jù)信號(hào),從而進(jìn)行觸覺(jué)算法的訓(xùn)練。
機(jī)器觸覺(jué)的難點(diǎn)在于對(duì)于觸覺(jué)傳感器獲得的抓握等微小振動(dòng)的識(shí)別,要能夠識(shí)別抓握物體發(fā)生的滑動(dòng)振動(dòng)和物體與其他物體摩擦發(fā)生的振動(dòng),還要能夠區(qū)分不同物體的振動(dòng),這些是研究者們重點(diǎn)攻克的難點(diǎn)。
實(shí)現(xiàn)突破的方法就是,我們需要更好的觸覺(jué)感應(yīng)器,必須做到比現(xiàn)有的壓力傳感器更好的觸覺(jué)傳感器,能夠嵌入到柔性材料當(dāng)中,實(shí)現(xiàn)像人類(lèi)皮膚一樣的人造皮膚。
最近新加坡國(guó)立大學(xué)的兩名研究人員就開(kāi)發(fā)出一種人造皮膚,搭載在一個(gè)能夠模擬生物神經(jīng)網(wǎng)絡(luò)人造大腦,通過(guò)英特爾 Loihi 的神經(jīng)擬態(tài)處理器上運(yùn)行。在這一技術(shù)基礎(chǔ)上,研究團(tuán)隊(duì)通過(guò)了機(jī)械手臂讀取盲文的測(cè)試,同時(shí)借助視覺(jué)傳感器和這一人造皮膚,機(jī)械手臂的抓取能力也得到明顯提高。未來(lái)基于這種觸覺(jué)能力的機(jī)器人,可以在物品分揀過(guò)程中做到更加靈活、細(xì)致和安全,在護(hù)理行業(yè)上,可以對(duì)人類(lèi)進(jìn)行更好的看護(hù)和幫助,在外科手術(shù)機(jī)器人上,更好的完成手術(shù)的自動(dòng)化。
視覺(jué)和觸覺(jué)的結(jié)合,已經(jīng)可以為機(jī)器人感知提升提供了可能,那么聽(tīng)覺(jué)能力的融合,會(huì)帶來(lái)哪些效果呢?
機(jī)器聽(tīng)覺(jué)的補(bǔ)全
這里的機(jī)器聽(tīng)覺(jué),不是特指對(duì)于人類(lèi)語(yǔ)音的識(shí)別。這類(lèi)語(yǔ)音識(shí)別已經(jīng)在各類(lèi)消費(fèi)級(jí)的智能音箱等領(lǐng)域得到廣泛應(yīng)用。這里的機(jī)器聽(tīng)覺(jué)是指通過(guò)聲音傳感器對(duì)于一切物體發(fā)出聲音的判斷。
(重卡變速箱聽(tīng)力診斷)
相比較機(jī)器視覺(jué)對(duì)于物體的判斷的簡(jiǎn)單直接,機(jī)器聽(tīng)覺(jué)確實(shí)是人們一直忽略的領(lǐng)域。在我們的日常生活場(chǎng)景中,我們其實(shí)除了用視覺(jué)來(lái)判斷物體的遠(yuǎn)近、顏色和大小之外,我們通常也會(huì)用到聽(tīng)覺(jué)來(lái)識(shí)別物體的距離遠(yuǎn)近、質(zhì)地,推測(cè)事件的發(fā)生。這一點(diǎn)對(duì)于有視力障礙的人來(lái)說(shuō)尤為重要。
最近,卡內(nèi)基·梅隆大學(xué)(CMU)的研究人員發(fā)現(xiàn),通過(guò)增加聽(tīng)覺(jué)感知,人工智能機(jī)器人的感知能力可以得到顯著的提高。
這一次 CMU 機(jī)器人研究所首次對(duì)聲音和機(jī)器人動(dòng)作之間的相互作用進(jìn)行大規(guī)模研究。研究人員發(fā)現(xiàn),不同物體發(fā)出的聲音可以幫助機(jī)器人區(qū)分物體,比如金屬螺絲刀和金屬扳手。機(jī)器聽(tīng)覺(jué)還可以幫助機(jī)器人確定哪種類(lèi)型的動(dòng)作會(huì)產(chǎn)生聲音,并幫助它們利用聲音來(lái)預(yù)測(cè)新物體的物理屬性。經(jīng)過(guò)測(cè)試,機(jī)器人通過(guò)聽(tīng)覺(jué)在對(duì)物體進(jìn)行分類(lèi)的準(zhǔn)確率能達(dá)到 76%。
為了實(shí)現(xiàn)這一測(cè)試,研究者通過(guò) 60 個(gè)常見(jiàn)物體在一個(gè)機(jī)器人的托盤(pán)上進(jìn)行滑動(dòng)、滾動(dòng)和撞擊,記錄下 15000 個(gè)交互的視頻和音頻,形成了一個(gè)大數(shù)據(jù)集。
此外,研究者還可以通過(guò)搖晃容器或者攪拌物質(zhì)的聲音來(lái)預(yù)估顆粒狀物質(zhì)的數(shù)量和流量,比如對(duì)大米和意大利面進(jìn)行評(píng)估。顯然,通過(guò)聲音的對(duì)比,可以預(yù)測(cè)很多通過(guò)視覺(jué)無(wú)法預(yù)測(cè)的物理屬性。
機(jī)器聽(tīng)覺(jué)無(wú)法區(qū)分一個(gè)紅色方塊和一個(gè)綠色方塊,但他可以在看不見(jiàn)的情況下的撞擊聲,來(lái)區(qū)分出兩個(gè)不同物體。而這正是機(jī)器聽(tīng)覺(jué)的有用性所在。最終對(duì)于聲音識(shí)別物體的效果,就連研究者也都非常驚訝。
在機(jī)器聽(tīng)覺(jué)的應(yīng)用方面,研究者首先想到的是在未來(lái)機(jī)器人的裝備儀器上加一個(gè)手杖,通過(guò)手杖敲擊物體來(lái)識(shí)別物體,這倒是一個(gè)有趣的畫(huà)面。但可以想見(jiàn),在未來(lái)智能安防、管道線路檢測(cè)以及身體檢測(cè)等方面,機(jī)器聽(tīng)覺(jué)可以發(fā)揮更大的作用。另外,對(duì)于識(shí)別最有意義的人類(lèi)聲音,比如音樂(lè)、情感等聲音內(nèi)容上面,這些應(yīng)用就更加廣泛。
機(jī)器人多模態(tài)感知融合的應(yīng)用前景
正如感覺(jué)器官對(duì)于人類(lèi)的重要性而言,感知系統(tǒng)對(duì)于機(jī)器人的重要性同樣至關(guān)重要。
要知道,我們?nèi)祟?lèi)其實(shí)是很少只用一個(gè)感官去獲取信息,也很少只用一個(gè)感官去指導(dǎo)行動(dòng)。就好像在一場(chǎng)“攀爬 - 賽跑 - 游泳”的三合一比賽中,我們?cè)趩我豁?xiàng)目中可能無(wú)法戰(zhàn)勝猴子、豹子和海豚,但是在整場(chǎng)比賽中,人類(lèi)就可以同時(shí)完成這三個(gè)項(xiàng)目。我們?nèi)祟?lèi)在感知事物的時(shí)候通常也是多感官同時(shí)發(fā)揮作用,相互協(xié)調(diào)和多次驗(yàn)證來(lái)加深對(duì)于外界物體的感知認(rèn)識(shí)。更為復(fù)雜的事,我們甚至還要借助記憶、推理等理性認(rèn)知能力來(lái)對(duì)感知事物進(jìn)行加工,從而得到更為復(fù)雜的認(rèn)知。
相比較于人類(lèi)的多感官應(yīng)用,機(jī)器人的單一感知或者簡(jiǎn)單組合的感知能力,又因?yàn)槟壳皺C(jī)器人的感知識(shí)別模式仍然是基于算法模型對(duì)于感知數(shù)據(jù)的分析和數(shù)據(jù)對(duì)比,因此難以產(chǎn)生更為復(fù)雜的推理知識(shí),因此是機(jī)器人在認(rèn)知的復(fù)雜度上稍遜于人類(lèi),但在識(shí)別物體的準(zhǔn)確度和規(guī)模上就會(huì)遠(yuǎn)超人類(lèi)。
現(xiàn)在,多模態(tài)感知融合的推進(jìn),將使得機(jī)器人在認(rèn)知復(fù)雜度上面逐漸接近人類(lèi)的能力。未來(lái)的機(jī)器人面對(duì)照明和遮擋、噪聲和混響、運(yùn)動(dòng)和相似等復(fù)雜交互場(chǎng)景,將會(huì)變得更加游刃有余,從而產(chǎn)生各種收益明顯的現(xiàn)實(shí)應(yīng)用。
多模態(tài)感知融合可能應(yīng)用到的領(lǐng)域,包括:
· 特殊化的精密操作領(lǐng)域。比如高難度外科手術(shù)領(lǐng)域,外科手術(shù)機(jī)器人可以通過(guò)對(duì)目標(biāo)的精確觀察和相關(guān)組織的分離、固定,進(jìn)行比外科醫(yī)生更精準(zhǔn)的手術(shù)操作。
· 高?;蛘吒唠y度的機(jī)器人作業(yè)。比如危險(xiǎn)物品的搬運(yùn)、拆除,比如普通人無(wú)法進(jìn)入的管線等高難度區(qū)域檢測(cè)檢修,地下墓穴或海底的物品的搬運(yùn)、打撈,通過(guò)機(jī)器聽(tīng)覺(jué)對(duì)密封空間的聲音探測(cè)等。
像在安防、災(zāi)害救援、應(yīng)急處理等需要靈活處理的場(chǎng)景,都可以逐漸交由多感知系統(tǒng)的機(jī)器人處理,或者人機(jī)協(xié)同遠(yuǎn)程處理。
此外,由于機(jī)器人感知融合能力的提高,機(jī)器人對(duì)于綜合感知數(shù)據(jù)的訓(xùn)練,可以更好地理解人類(lèi)本身的復(fù)雜性,尤其是可以建立更為復(fù)雜的情感計(jì)算模型,能夠更好地理解人類(lèi)在表情、聲音、皮膚溫度、肢體動(dòng)作等方面?zhèn)鬟f出的情感信號(hào),為更高級(jí)的人機(jī)互動(dòng)提供新的可能。
目前來(lái)看,人工智能機(jī)器人仍然是一個(gè)復(fù)雜的系統(tǒng)工程,想要實(shí)現(xiàn)機(jī)器人的多模態(tài)感知融合,還需要對(duì)傳感器性能、算法協(xié)同、多模態(tài)任務(wù)、環(huán)境測(cè)試等多方面進(jìn)行綜合研究。
這個(gè)過(guò)程必定是非常艱難的,但取得成果之后的前途必定是一片光明的。在我們期待人類(lèi)與機(jī)器人和諧生活的未來(lái),我們自然更期待這些機(jī)器人不再是一臺(tái)冷冰冰的機(jī)器。