請大家跟我想象一下,假如你的世界里突然沒有了電,會是怎樣?沒有了鬧鐘和手機,沒有了燈光與網(wǎng)絡(luò),也沒有了電腦地鐵和飛機……
一切現(xiàn)代生活的便利,都源于 1752 年 6 月的一個雷雨天,富蘭克林放飛了他的風箏,讓世界“看到”了電——當時被認為是最神秘、也是最危險的力量之一。
近幾年來,人們面對城市中日益增多的智慧攝像頭,或多或少都會懷抱著如同“雷電”一樣的警惕。無數(shù)科幻電影都告訴我們,當走在路上的自己被電腦錄入,出行軌跡就有可能被隨時偵查到……
顯然,這并不是因為人工智能(人臉識別)技術(shù)太強大,而是因為它還不夠強大,至少在大眾應(yīng)用層面是如此。舉個例子,想要在精準識別與個人隱私之間達到平衡,行人重識別(Person Re-identification,簡稱 ReID)就是一個非常有用的計算視覺技術(shù)。
因為它能夠通過質(zhì)量并不高的人臉圖片,快速檢索出不同攝像頭下的同一個目標任務(wù)。
這會帶來什么改變呢?
首先,人的臉和指紋一樣獨特,而 ReID 技術(shù)無需依賴高精度的人臉圖像,也就避免了人們在公共場合被采集個人信息的憂慮;同時,ReID 分辨率夠高,在一些人臉識別無效的情況下,可以起到替代作用。
因此,ReID 也成為計算視覺科技企業(yè)們攻關(guān)的對象。最近,依圖科技在 ReID 領(lǐng)域取得突破,刷新全球工業(yè)界三大權(quán)威數(shù)據(jù)集當前最優(yōu)成績(SOTA),算法性能達到業(yè)界迄今最高標準。
這一標準意味著什么,能否成為 ReID 產(chǎn)業(yè)化的關(guān)鍵契機?
產(chǎn)業(yè)新動力:ReID 的價值與門檻
本杰明·富蘭克林和他的風箏實驗,代表了人類邁出了現(xiàn)代文明旅程的第一步。在那之前,沒人能想象有電的生活;而今天,數(shù)十億人已經(jīng)無法想象沒有電的生活了。
時代的需求和社會風俗的推動(很多時候是阻撓),總會有人為技術(shù)的進程助力。ReID 即是如此。
相信大部分人都不會否認,人臉識別 / 計算視覺在城市中的應(yīng)用,正在給生活帶來越來越多的便利。
比如通過智能攝像頭來識別車流、車牌,實現(xiàn)高效率、低成本的安防;在火車站、機場等公共場所部署 AI,實現(xiàn)犯罪分子的偵查和捕獲;幫助無人購物超市和商店提高用戶體驗;
再比如大家最熟悉的手機相冊,想要讓系統(tǒng)在不侵犯隱私的情況下實現(xiàn)照片聚類,ReID 都是不可或缺的技術(shù)。
2018 年,特朗普政府決定在美國南部墨西哥邊境追查非法入境者時,大眾就擔心 ICE 和其他移民機關(guān)可能會把人臉識別應(yīng)用,從而導(dǎo)致錯誤辨識某個人并使其被錯誤拘留?因為在當時,人臉識別對于有色人群或女性的識別錯誤率依然很高。
既然 ReID 技術(shù)能夠讓智能生活變得更精準有序,那為什么久攻不下呢?這恐怕要從三個技術(shù)難點說起。
1. 數(shù)據(jù)缺失。
我們知道,當前大多數(shù)攝像頭的成像質(zhì)量、分辨率、環(huán)境變化等差異都很大。在交通運輸、工業(yè)制造和城市規(guī)劃等實際場景下,99%的圖像都是不含人臉或人臉部分是極其模糊的,僅有幾個像素大小,這也導(dǎo)致在許多任務(wù)中,人臉識別算法經(jīng)常失效,需要 ReID 頂上。
而一個高精準的 ReID 模型,要識別同一個人在多個攝像頭下的畫面,意味著其訓(xùn)練需要足夠龐大、且具備連續(xù)性的行為數(shù)據(jù)。但與其他計算視覺任務(wù)相比,ReID 領(lǐng)域的公開數(shù)據(jù)集所含的 ID 數(shù)量比較小,不同攝像頭的數(shù)據(jù)中同一個人的外觀也可能發(fā)生巨大變化,這些都給算法分析造成了阻礙,需要在算法設(shè)計上做很多創(chuàng)新與研發(fā)。
2. 計算壓力。
如前所述,ReID 往往被部署到規(guī)模人群的行為軌跡分析上,這意味著系統(tǒng)需要處理的數(shù)據(jù)規(guī)模成倍增長。即使是采取 1:N 級(單一特征對比多種特征)的人臉識別,用來失蹤人口搜索等。加上角度、光線等復(fù)雜性,特征提取、對比、判斷都需要龐大的算力來支撐。
但現(xiàn)有的智能攝像機在本地終端無法部署足夠大的算力,往往會選擇將數(shù)據(jù)上傳到云端,再進行識別和處理,不僅會造成一定的時延,延誤眾多關(guān)鍵任務(wù);也有可能導(dǎo)致城市大腦“數(shù)據(jù)擁塞”,延宕整個系統(tǒng)的效率。
3. 成本限制。
那么,為什么不考慮為攝像頭等邊緣終端加上芯片呢?答案就是貴。高通量計算芯片往往意味著更高的性能和穩(wěn)定性,制程上自然也要求更小的納米數(shù),而 ReID 需要在泛工業(yè)場景中部署,如果為城市或工廠中的每個攝像頭都加載這樣高算力的 ReID 芯片,無疑是一筆巨大的開支,這也限制了 ReID 算法在大規(guī)模商業(yè)化場景中的落地。
顯然,想要讓 ReID 從一種技術(shù)遠景完全照進現(xiàn)實,其所面對的困難和障礙并不小。這也是為什么,我們一直關(guān)注著致力于用 ReID 改善體驗的公司。
用電子編織現(xiàn)實:依圖這樣改變 ReID
如果說富蘭克林的風箏讓人類開始與電建立了聯(lián)系。那么,電力真正開始產(chǎn)生規(guī)模經(jīng)濟,是從喬治·威斯汀豪斯(George Westinghouse)開始。他以交流電系統(tǒng)擊敗了愛迪生的直流電系統(tǒng),從而讓發(fā)電廠與遠距離的用戶連接在一起。
而依圖在 ReID 中的表現(xiàn),正如這場世紀對壘一樣,對 ReID 的現(xiàn)實落地起到了關(guān)鍵作用。
為什么這么說呢?
首先,依圖升級了 ReID 算法的開發(fā)流程。通過結(jié)合 AutoML 等前沿技術(shù),依圖創(chuàng)新性地實現(xiàn)了模型參數(shù)的自動搜索與迭代,改變了算法依賴研究員手工設(shè)計與調(diào)優(yōu)的傳統(tǒng)開發(fā)流程。不僅降低了模型的訓(xùn)練成本,也讓算法的泛化性更強。
其次,進一步提升了 ReID 算法的識別性能。依圖自研算法在業(yè)界最具影響力的三大 ReID 數(shù)據(jù)集 Market1501、DukeMTMC-ReID、CUHK03 上,將兩大關(guān)鍵指標“首位命中率”(Rank-1 Accuracy),以及“平均精度均值”(Mean Average Precision,mAP)6 項數(shù)據(jù)全部提升,達到了更高的 mAP,目前達到了工業(yè)界第一,從而進一步穩(wěn)固了中國 AI 在該任務(wù)上的領(lǐng)跑地位。
此外,ReID 算法的實用潛力持續(xù)進階。在實戰(zhàn)應(yīng)用中,依圖還依托自研的 AI 芯片 QuestCore(求索), 在僅憑穿著、步態(tài)特征的條件下,將 ReID 做到 2017 年——2018 年人臉識別的精度。當時,機場、火車站等公共場合已經(jīng)開始大規(guī)模使用人臉識別進行安防保障了。這意味著,ReID 也有望被以低成本的解決方案,盡快進入現(xiàn)實場景之中,讓人們無懼且享受計算視覺帶來的順暢體驗。
目前看來,依圖的創(chuàng)新將帶給 ReID 算法更好的成本比,以及更絲滑的應(yīng)用體驗,平衡了理想技術(shù)與現(xiàn)實困境之間的關(guān)系。
挑戰(zhàn)與機遇:ReID 的未來路徑
必須承認的是,要讓城市換一種“眼睛”看行人,并不是一件容易的事。
一方面,各個城市攝像頭體系的建設(shè)標準、密度,以及進度都各不相同,要讓它們共同點亮 ReID 的“技能樹”,實現(xiàn)全面替換,還有許多與技術(shù)成熟度無關(guān)的挑戰(zhàn);
還要面對復(fù)雜實景的挑戰(zhàn)。即使 ReID 算法的首位命中率足夠高,只意味著算法能夠在特定的幾個場景數(shù)據(jù)集下準確找出最容易識別或者匹配的那張。但現(xiàn)實中的場景遠比這有限的幾個數(shù)據(jù)復(fù)雜的多,數(shù)據(jù)模糊、建筑物遮擋、天氣的改變等等,都會影響模型的實際表現(xiàn)。所以現(xiàn)在認為 ReID 模型能夠應(yīng)付真實任務(wù),還為時過早。
這也是為什么,盡管依圖科技刷榜 SOTA,算法性能達到了業(yè)界目前的最高標準,但依圖的研發(fā)人員耿直地說,學術(shù)界的這三個數(shù)據(jù)集不能遠遠不代表工業(yè)界的最好水平,更精彩的表現(xiàn)還要放眼于實戰(zhàn)之中。
因為比賽中所采用的數(shù)據(jù)集,早已限定好了規(guī)模和分布,屬于“應(yīng)試作業(yè)”;而在依圖實際落地的 ReID 項目中,還會遭遇更加復(fù)雜的數(shù)據(jù)、環(huán)境、參數(shù),是“奧數(shù)級別”的挑戰(zhàn)難度。
另外必須正視的一點是,要讓終端攝像頭完成高通量的實時計算,僅僅依靠研發(fā)端的突破還遠遠不夠,城市環(huán)境中是否具有足夠的邊緣計算節(jié)點,是否有邊緣計算數(shù)據(jù)中心提供澎湃的算力支持,這些都需要整個產(chǎn)業(yè)鏈乃至城市決策者的共同合作。
由此不難發(fā)現(xiàn),在抵達 ReID 產(chǎn)業(yè)化的旅程中,科技企業(yè)起到了怎樣的作用呢?
以依圖為例,一方面,通過將自身科研優(yōu)勢與新興算法相結(jié)合,加快 AI 算法的落地。
比如依圖就將自身在芯片研發(fā)上的硬件能力,與通用化算法相結(jié)合,實現(xiàn)了軟硬件協(xié)同開發(fā),不僅取得了刷榜的好成績,更關(guān)鍵的是激活了 ReID 與芯片端的融合可能,讓更多的算力需求被釋放,從而帶動芯片產(chǎn)業(yè)乃至整個社會智能的進程。
正如人臉識別逐漸滲透到社會的各個角落,ReID 算法也將成為智能生活不可或缺的一部分。借助 AI 芯片 QuestCore?(求索)和 ReID 模型應(yīng)用,依圖將催化出多大的商業(yè)富礦,構(gòu)筑基于 ReID 的新產(chǎn)業(yè)鏈。
1752 年,富蘭克林爬上屋頂放飛一只風箏的時候,可能并沒有想到,他將改變整個世界的科技認知與生產(chǎn)基礎(chǔ)設(shè)施。
而 ReID 對城市計算視覺應(yīng)用的迭代,也將為人類帶來新的視角與光輝,并在不遠的未來成為與我們生活休戚相關(guān)的一部分。
廟堂之高,與江湖之遠的疊加,就是依圖乃至整個 AI 產(chǎn)業(yè)所扎根的廣袤土壤。