2020 年 9 月 5 日,第三屆「中國人工智能安防峰會 」即將于杭州強勢重啟。(原計劃 6 月 20 日開幕,疫情原因延期召開)
一名科學家開山立派,最顯著的標志就是世界級的重大研究方向,能夠與該學者劃上等號,如相對論之于愛因斯坦,神經網絡之于 Geoffrey Hinton。
安防領域的這些研究方向是什么?代表人物是誰?
沒有人知道標準答案。
上一個十年的安防技術創(chuàng)新,混沌、碎片、野蠻生長。
項目工程為導向的技術部署模式,也使得基礎研究對這個行業(yè)的改變乏善可陳。
而在自主創(chuàng)新與新基建的時代浪潮推動下,前沿技術將進一步走到臺前。
那么下一個十年安防技術的趨勢是什么?
「中國人工智能安防峰會 」給出的答案是:城市大腦數字視網膜化、機器視覺三維化、數據建模聯邦學習化。
數字視網膜、三維視覺、聯邦學習,對應的世界級領軍科學家,分別是高文、權龍、楊強。
高文,中國工程院院士,中國計算機學會前理事長
權龍,全球最高級別人工智能會議 CVPR 主席
楊強,國際人工智能聯合會首位華人理事會主席
2018-2020 年間,中國人工智能安防峰會,分別邀請了高文、權龍、楊強,首次出席安防論壇,講述世界級前沿技術,對安防行業(yè)的變革。
第一屆「中國人工智能安防峰會 」
中國工程院院士、鵬城實驗室主任 高文
城市大腦與數字視網膜
高文院士
2018 年 3 月,深圳,雷鋒網 AI 掘金志舉辦中國首個以「動態(tài)人臉與車輛識別」為主題的 AI 安防峰會。
這是業(yè)內第一次將五大安防企業(yè)(海大宇天網)及商湯等 AI 獨角獸的首席技術高管,聚于一堂的行業(yè)盛會。
峰會之上,中國工程程院院士、鵬城實驗室主任高文帶來了題為《城市大腦與數字視網膜》的開場報告。
他提到,智慧城市已被談及多年,“視頻監(jiān)控+AI”也成為眾多公司研究的方向。
現階段,通過監(jiān)控攝像頭讓城市變得更智智慧,不僅僅是單一的視頻檢索和計算機視覺問題,而是在面臨海量信息和突發(fā)事件時,能否能迅速做出反應、能否降低計算量、能否有效識別和檢索等一系列龐大的系統工程。
現有視頻監(jiān)控體系的弊病,使得很多復雜任務無法完成,即便是人工智能大規(guī)模滲入后,需求方也往往為了一些特殊目的才加特定的智能攝像頭和處理系統。有些專用攝像頭只是用來識別車牌號,有些攝像頭只用來識別人臉,這種打補丁式的方法實際會帶來很多問題。
針對這些問題,高文院士提出了“數字視網膜”的概念。
所謂數字視網膜,即類比于人類視網膜,對傳統攝像頭乃至視覺計算架構進行演進與革新,從而能夠更加智能地支持城市大腦,服務智能安防、城市精細管理等智能應用。
具體來說,傳統攝像頭只是把拍攝到的視頻數據壓縮后上傳到云端進行存儲,再做分析識別處理。
而數字視網膜則要求在攝像頭端對拍攝視頻進行高質量視頻編碼和視覺特征提取編碼,對壓縮編碼過后的視頻流進行本地存儲的同時按需上傳到云端,而所有的緊湊特征流同步實時同步到云端,從而既能夠保證高效的存儲,又能夠便捷地支撐大數據查詢分析。
與此同時,支持在端 - 邊 - 云之間進行面向智能視頻編碼和特征分析的深度學習模型自適應遷移、壓縮、更新與轉換。
簡而言之,數字視網膜就是這樣一種包含視頻編碼流、特征編碼流和模型更新流的可伸縮端邊云協同視覺計算架構。
這一概念從正式提出至今,才不過三年,然而從最初構想、前期實踐、到理論基礎構建卻花了近五年的時間。即使到現在,數據視網膜的技術框架也仍然在不斷完善當中,但其影響卻將是顛覆性的。
正如高文院士在 2018 年的一篇文章中提到:
我國已明確提出“到 2020 年,基本實現全域覆蓋、全網共享、全時可用、全程可控的公共安全視頻監(jiān)控建設聯網應用”,但是如果沒有重大技術突破,數千萬攝像頭根本無法實現“全網共享”的實時數據匯聚,更不可能實現“全時可用”的聯網分析識別,“數據大”變不成“大數據”,巨大潛在價值無法發(fā)掘。數字視網膜是應對上述挑戰(zhàn)的一種可行的顛覆性技術發(fā)展方向。
高文院士對于「數字視網膜」的理解,是伴隨著對城市中視頻監(jiān)控體系所存在問題的深刻認識而不斷深化的。
據可考查資料,高文院士最早對城市中攝像頭所存在缺陷以及可能的改進進行思考始于 2013 年初(或者稍早)。
在 2013 年新年伊始,高文院士曾接受人民網采訪,他提到現代攝像頭密布,但還需要后端人力去盯,一旦遇到重大案件,去調用錄像資料,卻往往起不到太大作用。
如果能夠在設計視頻編碼時,讓系統把數據中有用的信息抽取、挖掘并分析出來,不但能節(jié)省后期的人力投入,而且能起到應急作用。
可以合理猜測,這個時候他已經有了模糊的概念,但對于具體如何去做,卻仍在醞釀當中。
在 2013 年 10 月,高文院士在中國信息化周報上發(fā)表了題為《智慧城市中的視頻編碼、分析與評測》的文章。在這篇文章中,他首次系統提出了他對“智慧城市”中視頻監(jiān)控所存在問題的深入思考,他指出:
1、目前的監(jiān)控系統在設計時是為了視頻存儲和以人為核心的視頻跟蹤,而非以計算機為中心的自動分析,因此靠這樣一套系統來實現智慧城市的視頻系統,去做自動分析,是根本無法完成的。
2、智慧城市中的視頻技術面臨三大問題,分別是存儲成本高(數據量太大)、檢索困難、對象再標識難。而這三個問題歸結到本質則是兩個問題,一個是編碼問題,而另一個是視頻分析識別問題。因此如何對監(jiān)控視頻進行高效視頻編碼,以及如何對其進行分析和檢索,是必須思考的兩個本質問題。
3、在學術界存在一個奇怪現象,即做視頻編碼的學者對視頻分析不感興趣;而反過來,做視頻分析的人對編碼也不感興趣。原因在于前者處理的是像素和圖像塊,屬于圖像處理領域,而后者處理的是圖像特征,屬于模式識別領域。就像兩條路上跑的車很難交匯。
幸運的是,高文院士正好跨界這兩個圈子,無論是在視頻編碼領域,還是在計算機視覺(特別是人臉識別)領域,他都有著重要的影響力。
其學生陳熙霖、山世光兩位研究員繼承了他在人臉識別領域的衣缽,如今已成為國際計算機視覺領域的領軍人物;
而其學生黃鐵軍和馬思偉兩位教授則繼承了他在編碼領域的衣缽,在國際視頻編碼領域也有著重要的影響力。
高文院士對當代城市監(jiān)控系統存在問題的本質分析,奠定了他在隨后解決這一問題的研究思路和方向。
關于高文院士
高文,北京大學博雅講席教授。1982 年于哈科大獲得學士學位,1985 年于哈工大獲得碩士學位,1988 年和 1991 分別獲得哈工大計算機應用博士學位和東京大學電子工程博士學位。
1991 至 1996 年就職于哈爾濱工業(yè)大學,1996 至 2006 就職于中國科學院計算技術研究所,2006 年 2 月至今就職于北京大學。IEEE Fellow、ACM Fellow、中國工程院院士。
他的研究領域為多媒體和計算機視覺,包括視頻編碼、視頻分析、多媒體檢索、人臉識別、多模態(tài)接口和虛擬現實。
他最常被引用的工作是基于模型的視頻編碼與基于特征的對象表達。他先后出版著作七本,合作發(fā)表 300 余篇期刊論文、700 余篇國際會議論文。
他先后多次獲得國家科技進步獎、國家技術發(fā)明獎、國家自然科學獎等學術獎勵。
第二屆「中國人工智能安防峰會 」
CVPR 大會主席 權龍教授
三維視覺重新定義智能安防
權龍教授
2019 年 3 月,雷鋒網 AI 掘金志再次站在技術、產業(yè)和商業(yè)格局最前沿,在杭州舉辦第二屆「中國人工智能安防峰會」。
大會共設置“城市大腦與邊緣計算”·“全球頂尖算法應用”·“前端動態(tài)識別與智能視頻云”·“城市 AIoT 與邊緣智能引擎”四大議程主題。
這一次,???、大華、華為、阿里、騰訊、松下,因“AI 安防”首次同臺。
本次峰會之上,CVPR、ICCV 世界頂會主席權龍教授為與會者們帶來了題為《三維視覺重新定義智能安防》的開場報告。
權龍教授認為,人工智能的核心是視覺,但現在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務。
現在的計算機視覺就是基于卷積神經網絡而來,整個 CNN 的架構非常簡單,能做的事其實也沒那么多,它提取了高維的特征,然后要結合其它方法解決視覺問題。
如果有足夠的數據并且能夠明確定義想要的東西,CNN 的效果很好,但是它并沒有智能。
它能識別出貓和狗,但貓和狗的分類都是人類自己定義的,人們可以把貓和狗分開,也可以把復雜的狗類動物進行聚合和分類,這些東西本質上來說并不是客觀的,而是主觀的。
人們做計算機視覺研究的理想,是讓機器進行理解圖像。如何讓它進行理解?這非常的困難,直到現在也沒有人知道它怎么去進行理解?,F在它能做的,只能做到認知。人們研究計算機視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。
為什么視覺特征如此重要?在語音識別領域,語音的特征已經定義得非常清晰——音素。
但如果拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。圖像包含像素,但像素并不是真正的特征。像素只是一個數字化的載體,將圖像進行了數字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特征。
在這樣一個擁有視覺特征前提之下,計算機視覺也只有兩個現實目的,一個是識別,另一個是三維重建。
它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。
計算機視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。
這一輪的卷積神經網絡最本質的一件事是重新定義了計算機視覺的特征。在此之前,所有的特征都是人工設計的。今天 CNN 學來的東西,它學到特征的維度動輒幾百萬,在以前沒有這類網絡的情況下是根本做不到的。
縱使 CNN 的特征提取能力極其強,但是不要忘記建立在 CNN 基礎上的計算機視覺是單目識別,而人類是雙目。
人類的現實世界是在一個三維空間,拿著二維圖像去做識別,這遠遠不夠。
雙目視覺對整個生物世界的等級劃分是非常嚴格的。馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。
人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當然,通過一只移動的眼睛,也可以獲得有深度的信息。
獲取深度信息的挑戰(zhàn)很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進行匹配,也就是識別。
這里的“識別”和前面有所不同,前面提到的是有標注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數據庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。
在生物世界里,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進攻時跑得快。
在這一輪的 CNN 之前,計算機視覺里面研究最多的是三維重建這樣的問題,在 CNN 之前有非常好的人工設計的視覺特征,這些東西本質上最早都是為三維重建而設計,例如 SIFT 特征。
而在這之后的“識別”,只是把它放在一個沒有結構的圖像數據庫里去搜索而已。由此可見,現代三維視覺是由三維重建所定義。CNN 誕生之前,它曾是視覺發(fā)展的主要動力源于幾何,因為它的定義相對清晰。
計算機視覺中的三維重建包含三大問題:
一、定位置。假如我給出一張照片,計算機視覺要知道這張照片是在什么位置拍的。
二、多目。通過多目的視差獲取三維信息,識別每一個像素并進行匹配,進行三維重建。
三、語義識別。完成幾何三維重建后,要對這個三維信息進行語義識別,這是重建的最終目的。
權龍教授強調,人們要把三維場景重新捕捉,但三維重建不是最終的目的,而是要把識別加進去,所以說最終的應用肯定要把三維重建和識別融為一體。
關于權龍教授
權龍教授是享譽世界的計算機視覺與圖形學專家,全球最高級別的兩大計算機視覺學術會議主席,是 CVPR 和 ICCV 創(chuàng)辦 30 多年來極為少有的華人主席。
權龍于 1989 年在法國 INPL 取得博士學位,隨后在法國 INRIA 任職 CNRS 高級研究員。2001 年加入香港科技大學并擔任視覺計算與圖像科學中心主任。
權龍同時也是知名三維重建視覺平臺 Altizure 的創(chuàng)始人。權龍曾于 2011 年擔任 ICCV 大會主席,也將在 2022 年出任 CVPR 大會主席。
?
第三屆「中國人工智能安防峰會 」
(9 月 5 日召開)
國際人工智能聯合會首位華人理事會主席 楊強教授
聯邦學習或為 AI 安防的第二落腳點
楊強教授
2020 年 9 月 5 日,第三屆「中國人工智能安防峰會」也將如約而至,于杭州正式啟幕。
AI 與安防的融合,經由 2018 年的靜水深流、2019 年的混沌廝殺,2020 年的技術研究與方案落地將會更為清晰、成熟。
今年峰會之上,國際人工智能聯合會首位華人理事會主席楊強教授將會作題為《聯邦學習下的數據價值與模型安全》的開場報告。用新一代 AI 技術,解決人工智能落地的最大兩座大山:數據孤島與數據隱私。
安防行業(yè)歷經兩次跨越,從最開始的通用級產品到解決方案,再到內容分析前置,接下來則是平臺運營。未來,安防行業(yè)背后是兆億級別且呈幾何式增長的巨大流量入口。
眼下,AI 技術在安防市場上的應用主要還存有幾個挑戰(zhàn):
1、認知問題相較感知問題較難解決。感知問題可以用神經網絡函數逼近,相比之下認知問題解決起來比較棘手,比如如何教會機器辨識一把椅子。
2、在弱線索、遮擋、模糊、對象追蹤等情況下,人類在識別的過程中通常會依據常識,并加入豐富的想象及推理。但是想要將這些能力傳授給機器則非常困難。
3、計算機視覺技術帶給機器的能力不只是用來觀察世界,而是需要與世界建立聯系,從而一起做交互,而想要做到“交互”這一步,還有很長一段距離。
基于安防場景的不斷變化,其對算法迭代的要求一定是非常嚴苛且上升的。
在這個市場中,誰能夠看到算法精度提升解鎖的更多場景,并根據場景的變化做到最為快速且精準的反應,誰就能在未來競比中走得更遠。
一方面,AI 在安防行業(yè)的探索才剛剛開始;另一方面,做好 AI 所必須的數據養(yǎng)料有限且質量較差,不同數據源之間存在難以打破的壁壘。
除了少數幾家擁有海量用戶、具備產品和服務優(yōu)勢的巨無霸企業(yè)外,大多數中小型 AI 安防企業(yè)難以以一種合理、合法的方式跨越人工智能落地的數據鴻溝,或者需要付出巨大的成本來解決這一問題。
此外,隨著大數據的發(fā)展,重視數據隱私和安全已經成為一種世界性的趨勢,一系列條例的出臺更是加劇了數據獲取的難度,這也給人工智能的落地應用帶來了前所未有的挑戰(zhàn)。
何解?針對這個問題,雷鋒網同時采訪了六位學術界、工業(yè)界領頭人,得到的答案比較一致:從目前的研究進展來看,“聯邦學習”技術可能是解決以上問題的最佳選擇。
聯邦學習作為新一代人工智能基礎技術,正在滲透到 AI 商用瓶頸的根源,通過解決數據隱私與數據孤島問題,重塑城市安防、金融、醫(yī)療等領域。
近兩年,在楊強教授等世界級專家的聯合推動下,國內外諸多科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。
眼下,國內已經出現聯邦學習、共享智能、知識聯邦、聯邦智能和異步聯邦學習等多個相關研究方向。
本次出席雷鋒網第三屆中國人工智能安防峰會,楊強教授所引領的聯邦學習技術是否有新的進展?技術的迭代又匹配了哪些城市安防場景?而這是否又會帶來新一輪的市場洗牌?
9 月 5 日,雷鋒網 AI 掘金志將帶你共同見證「城市安防」的未來,尋找問題的最優(yōu)解。
關于楊強教授
國際人工智能聯合會(IJCAI)成立 50 年,唯一一位華人理事會主席。
美國人工智能學會(AAAI)成立 40 年,唯一一位華人大會主席。
美國人工智能學會(AAAI)歷史上,首位華人 Fellow。
同時是 ACM、AAAI、CAAI、IEEE、IAPR、AAAS 六大頂級學會的 Fellow。
現任:微眾銀行首席人工智能官。
曾任:華為諾亞方舟實驗室主任、香港科技大學計算機與工程系主任。
國際兩大頂級人工智能學術期刊《IEEE TBD》和《ACM TIST》開創(chuàng)主編。