作者 | 劉路遙 ,編輯?| 余快
自2016年始,中國(guó)的AI視覺(jué)創(chuàng)業(yè)俯拾皆是。
他們因AI而齊聚,從最頂尖的學(xué)術(shù)象牙塔中走出,希望用AI之鑰,革新傳統(tǒng)產(chǎn)業(yè)塵封已久的商業(yè)模式。
然而,回看這場(chǎng)探夢(mèng)之旅,絕大部分高調(diào)入場(chǎng)者,最終都黯然收?qǐng)?,只有寥寥?shù)家企業(yè)沖破封鎖,其中佼佼者成為人們口中的“AI四小龍”。
最初的高光過(guò)后,外界對(duì)AI公司高融資、高研發(fā)、高虧損的質(zhì)疑不斷升溫。
在有關(guān)四小龍失速的討論中,技術(shù)光環(huán)褪去,資本熱情消散,政策風(fēng)險(xiǎn)提高,是最人盡皆知的原因。
從同一CV戰(zhàn)線,到分頭走向不同道路,事到如今又面對(duì)同樣一個(gè)問(wèn)題——哪里才有新的生機(jī)?
市場(chǎng)的轉(zhuǎn)機(jī),往往發(fā)生在技術(shù)演進(jìn)的剎那。
在被定義為中國(guó)“大模型元年”的2023年,命運(yùn)的齒輪又開(kāi)始重新轉(zhuǎn)動(dòng)。
藉由AIGC的風(fēng)口,AI賽道一改頹勢(shì),重新占據(jù)各類(lèi)熱門(mén)話題的榜首。
在重新拉開(kāi)的新賽事中,AI的老玩家們必然不會(huì)缺席。
說(shuō)“安防+AI”過(guò)時(shí),言之尚早
2016年,當(dāng)阿爾法狗在棋盤(pán)游戲上奪走人類(lèi)最后的榮光,AI賽道的投融資開(kāi)始熱得發(fā)燙。
起初幾年,初創(chuàng)公司們備受風(fēng)險(xiǎn)投資的寵愛(ài),資本爭(zhēng)搶著上前買(mǎi)單,企業(yè)只需醉心實(shí)驗(yàn)室研發(fā),便能坐看估值升高。
然而幾年過(guò)去,眼看著企業(yè)在融資、研發(fā)、虧損的泥沼中沒(méi)完沒(méi)了,商業(yè)化落地又遲遲難以大規(guī)模鋪開(kāi),資本逐漸板起面孔,不再愿意聽(tīng)著故事為虧損買(mǎi)單。
理想中,技術(shù)帶來(lái)的饋贈(zèng)之下,這是一場(chǎng)“眾人拾柴火焰高”的合作共贏,但事實(shí)上,大家合力助推的不僅僅是浪涌,同時(shí)還有盛大的泡沫。
隨之而來(lái)的,是市場(chǎng)關(guān)于AI商業(yè)模式的探討,能否驗(yàn)證自身商業(yè)化能力,成為評(píng)判一家AI企業(yè)新的考核標(biāo)準(zhǔn)。
短短幾年,風(fēng)向急速扭轉(zhuǎn),原因在于AI這一極具顛覆性技術(shù)帶來(lái)的暢想,掩蓋了新技術(shù)在價(jià)值轉(zhuǎn)化過(guò)程中會(huì)遇到的困難。
安防是AI最早落地的場(chǎng)景之一,通過(guò)人臉識(shí)別、行為分析等技術(shù),監(jiān)控系統(tǒng)得以提高效能。但同時(shí),安防行業(yè)的碎片化特點(diǎn),讓標(biāo)準(zhǔn)化、通用化難以實(shí)現(xiàn),導(dǎo)致AI企業(yè)在追求算法和精度的過(guò)程中,陷入高度定制化的盈利困局。
尤其隨著雪亮工程建設(shè)尾期結(jié)束,安防行業(yè)也遇到發(fā)展瓶頸,于是有人問(wèn),問(wèn)題是不是出在安防行業(yè),換一個(gè)行業(yè),問(wèn)題是不是會(huì)迎刃而解?
一個(gè)事實(shí)是:AI確實(shí)遇到了商業(yè)化落地難題,但安防是AI應(yīng)用落地的起點(diǎn),大模型時(shí)代的開(kāi)啟,安防仍然是一個(gè)不錯(cuò)的起點(diǎn)。
在智能化的視角下,智能本質(zhì)上解決機(jī)器學(xué)習(xí)人類(lèi)的認(rèn)知、視覺(jué)、運(yùn)動(dòng)、意識(shí)、記憶五個(gè)方面。人工智能的核心技術(shù)包括語(yǔ)言智能、視覺(jué)智能、運(yùn)動(dòng)智能。
而視覺(jué)智能最大的應(yīng)用場(chǎng)景就在公安,也即狹義的安防市場(chǎng)。
一直以來(lái),AI視覺(jué)的落地都在經(jīng)歷同一個(gè)過(guò)程,從公安起步,到政府,再到企業(yè),大模型的落地也不會(huì)例外。
在依圖科技副總裁許焰看來(lái),智能化的每一次進(jìn)展,都脫離不了以安防為起點(diǎn),“在政府各部門(mén)中,公安部門(mén)的信息化一直做得非常超前,對(duì)視頻數(shù)據(jù)的利用在業(yè)務(wù)上存在剛需,對(duì)技術(shù)理解最深刻,最愿意用新技術(shù)解決面臨的問(wèn)題?!?/p>
以往問(wèn)題的癥結(jié)在于,AI原有技術(shù)路線始終難以突破成本瓶頸;如今以大模型為代表的新一輪AI風(fēng)口的出現(xiàn),相當(dāng)于為價(jià)值和成本的兼顧難題提供一個(gè)極佳的解法。
大模型的到來(lái),也為處在轉(zhuǎn)型迷茫期,重新思考自身價(jià)值和出路的AI企業(yè),帶來(lái)了新的生機(jī)。
早期成立的AI公司有客戶基礎(chǔ),拿依圖來(lái)說(shuō),公安行業(yè)大部分都是其老客戶,一旦依圖有新技術(shù),落地轉(zhuǎn)化將非常快。
更重要的,上一波AI公司在商業(yè)化上吃過(guò)苦,早已不再只談技術(shù)領(lǐng)先,他們明白,只有將領(lǐng)先的技術(shù)與業(yè)務(wù)場(chǎng)景相結(jié)合,并做到低成本,才是真正解決用戶痛點(diǎn)。
大模型時(shí)代,安防行業(yè)做好準(zhǔn)備了嗎?
大模型時(shí)代到來(lái),安防行業(yè)做好準(zhǔn)備了嗎?
如果用一句話總結(jié),可以說(shuō)是:安防市場(chǎng)的需求與技術(shù)浪潮撞了個(gè)滿懷。
在這一輪新的AI風(fēng)口上,四小龍都紛紛趕考多模態(tài)大模型:商湯發(fā)布了“日日新大模型”,云從發(fā)布了“從容大模型”,曠視也發(fā)布了輕量級(jí)LLM模型推理框架...今天,依圖的“天問(wèn)”多模態(tài)大模型雖正式發(fā)布較晚,但事實(shí)上已經(jīng)得到了客戶的積極認(rèn)可,目前在已在30多個(gè)項(xiàng)目中部署應(yīng)用,落地進(jìn)程更進(jìn)一步。
這些AI的老玩家們,從上一輪廝殺中,頑強(qiáng)活了下來(lái),如今藉由此前積累的數(shù)據(jù)和行業(yè)認(rèn)知,從視覺(jué)切入多模態(tài)大模型,是一次水到渠成的向外拓展。
近兩年,安防行業(yè)發(fā)展進(jìn)入瓶頸期,增長(zhǎng)乏力,放眼安防行業(yè)的主要參與者們,無(wú)人不渴望變化,紛紛在廣度、深度兩個(gè)方向?qū)で笃凭种馈?/strong>
廣度上,狹義上的安防市場(chǎng),從以抓逃布控為主體的公共安全業(yè)務(wù),走向更綜合的城市治理類(lèi)業(yè)務(wù);與此同時(shí),泛安防市場(chǎng)借助視覺(jué)智能化技術(shù),向前進(jìn)入更大的ToB企業(yè)市場(chǎng),同時(shí)增加非視頻投入,通過(guò)擴(kuò)充產(chǎn)品線,尋求更大的增長(zhǎng)空間。
深度上,企業(yè)仍以視頻為核心,在智能技術(shù)上進(jìn)一步投入感知智能、認(rèn)知智能,部屬大模型能力。
這兩個(gè)方向的開(kāi)掘,都與視頻的智能化緊密結(jié)合。
從早期“看得見(jiàn)",到“看得清",再到今天大模型賦能下的“看得懂",視頻智能化經(jīng)歷了L1-L5五個(gè)階段的進(jìn)化:
從圖片的結(jié)構(gòu)化標(biāo)簽到視頻的語(yǔ)義理解;
從眾多的判別式任務(wù)模型到視覺(jué)為基礎(chǔ)的多模態(tài)大模型;
從端側(cè)攝像頭AI算力到云邊側(cè)集中式服務(wù)器AI算力;
從人、車(chē)的識(shí)別到長(zhǎng)尾物體的識(shí)別;
從標(biāo)簽式篩選交互到基于語(yǔ)義的人機(jī)多模態(tài)交互。
在L5階段,大家基本達(dá)成一個(gè)重要共識(shí):以Transformer為基礎(chǔ)的大模型統(tǒng)一了視頻和大數(shù)據(jù)的底層框架,也開(kāi)啟了視頻智能化情境理解的新時(shí)代。
意味著面對(duì)同一個(gè)指令,整個(gè)流程將從割裂的兩個(gè)步驟簡(jiǎn)化成一個(gè)步驟,并且由于省略了中間過(guò)程,預(yù)測(cè)準(zhǔn)確性將極大提升。
以統(tǒng)計(jì)A路口過(guò)去十天的擁堵?tīng)顩r為例,以往的做法是,先通過(guò)攝像頭做解析產(chǎn)生大量結(jié)構(gòu)化數(shù)據(jù),再到數(shù)據(jù)庫(kù)環(huán)節(jié)匹配結(jié)果;而視覺(jué)和大數(shù)據(jù)的融合,將非結(jié)構(gòu)化的視頻和結(jié)構(gòu)化的數(shù)據(jù)庫(kù)做了融合,變成用一個(gè)模型統(tǒng)一解決,具體到操作,只需語(yǔ)音指揮即可,“過(guò)去10天A路口特別擁堵,請(qǐng)將該路口的攝像頭調(diào)取出來(lái)”。
換言之,大模型時(shí)代,當(dāng)數(shù)據(jù)從一端流入,結(jié)果就會(huì)從另一端直接流出。
于公安行業(yè),將是一場(chǎng)警務(wù)信息化系統(tǒng)的大改造。
首先,大模型將帶來(lái)視頻智能化建設(shè)的重大轉(zhuǎn)變。
視頻智能化建設(shè)分兩種模式:一是圖片流,前端相機(jī)直接做智能化,然后把圖片回傳后端做進(jìn)一步分析,缺點(diǎn)是大量信息被丟失;一是視頻流,前端攝像頭負(fù)責(zé)捕捉,后端進(jìn)行視頻分析,雖然保留了視頻中的所有語(yǔ)義,行為能被完整刻畫(huà),但由于沒(méi)有大模型的加持,視頻完整語(yǔ)義的價(jià)值并沒(méi)有被完全挖掘和使用。
走視頻流的智能化路線,是對(duì)客戶更加負(fù)責(zé)的選擇,“圖片流只能做人臉識(shí)別,隨著業(yè)務(wù)需求增長(zhǎng),圖片流建設(shè)模式就會(huì)變成斷頭路,只能換新相機(jī);而視頻流對(duì)前端建設(shè)有利舊保護(hù),只需后端升級(jí)算法即可?!?/p>
考慮到大模型只能部署在后端,未來(lái)視頻流智能化或?qū)⒊蔀橹髁鳌?/p>
其次,是IT基礎(chǔ)設(shè)施的重大變化。
前面已經(jīng)提到,傳統(tǒng)的信息化技術(shù),通過(guò)前端攝像機(jī)會(huì)產(chǎn)生大量結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)存在數(shù)據(jù)庫(kù)里,數(shù)據(jù)庫(kù)則存在硬盤(pán)里。
大模型時(shí)代,所有數(shù)據(jù)經(jīng)過(guò)模型處理,會(huì)生成蘊(yùn)含對(duì)視頻語(yǔ)義完整理解的特征向量,特征向量存在向量數(shù)據(jù)庫(kù)里,向量數(shù)據(jù)庫(kù)存在顯存里。
在從傳統(tǒng)數(shù)據(jù)庫(kù)變到向量數(shù)據(jù)庫(kù)的過(guò)程中,基礎(chǔ)設(shè)施層面,也將從過(guò)去建CPU為主的數(shù)據(jù)庫(kù)系統(tǒng),到建設(shè)GPU為主的向量搜索系統(tǒng)。
基于這一認(rèn)知,依圖在2022年發(fā)布了求實(shí)服務(wù)器。
對(duì)于這款服務(wù)器的誕生,許焰如此解釋?zhuān)骸斑M(jìn)入到向量時(shí)代,超融合架構(gòu)的服務(wù)器威力非常大,依圖求實(shí)服務(wù)器有一個(gè)最大的特點(diǎn),內(nèi)存即顯存,因?yàn)榧幢?a class="article-link" target="_blank" href="/manufacturer/1000151/">英偉達(dá)的A100也只有40G的顯存,但求實(shí)服務(wù)器內(nèi)存可以到512G,甚至1T?!痹S焰介紹。
再者,從生產(chǎn)過(guò)程講,有了預(yù)訓(xùn)練大模型,用戶需求端到端的時(shí)間以及成本會(huì)被極大壓縮。
一方面,用大模型技術(shù)替代過(guò)去小模型,可以極大壓縮生產(chǎn)過(guò)程周期,降低算法研發(fā)成本,讓客戶更快享受到技術(shù)的紅利。
比如,當(dāng)用戶要做一個(gè)“騎電瓶車(chē)不戴頭盔”的需求時(shí),AI公司需要先收集數(shù)據(jù)做訓(xùn)練,需求提出到滿足,至少一到兩個(gè)月。
有了預(yù)訓(xùn)練大模型后,只需輸入“騎電瓶車(chē)不帶頭盔”的指令,就能生成算法,一周時(shí)間即可達(dá)到之前一兩個(gè)月才有的效果,并且時(shí)間越長(zhǎng),模型精度越高。
另一方面,通過(guò)算法和算力的端到端的整合,也會(huì)帶來(lái)成本最小化。
許焰舉例,“過(guò)去做1萬(wàn)路視頻智能化,得用16個(gè)機(jī)柜,現(xiàn)在算法和算力實(shí)現(xiàn)端到端整合后,只用一個(gè)機(jī)柜就可以解決所有問(wèn)題,但整體成本下降了80%?!?/p>
最后,從業(yè)務(wù)層面講,傳統(tǒng)的指揮中心、移動(dòng)警務(wù)、偵查破案等都會(huì)發(fā)生重大變化。
比如指揮中心可以直接通過(guò)語(yǔ)音調(diào)取攝像頭,如“幫我調(diào)取所有公園的視頻”、“幫我調(diào)取所有現(xiàn)在擁堵路段的視頻”;移動(dòng)警務(wù)也將變成,民警在路上巡邏上時(shí),不再需要在執(zhí)法儀上打字,而可以高效率地通過(guò)語(yǔ)音輸入指令,如“請(qǐng)查詢(xún)前方戴黑色帽子的人的身份?!?/p>
“新安防、真智能”,安防的下一個(gè)十年屬于智能
“依圖一直堅(jiān)信安防市場(chǎng)會(huì)從監(jiān)控走向智能?!?/p>
如果說(shuō)依圖有什么明顯區(qū)別于其他公司的地方,就在于其始終認(rèn)可安防市場(chǎng)的價(jià)值,并用十年時(shí)間堅(jiān)守安防市場(chǎng)。
談到依圖對(duì)安防市場(chǎng)的貢獻(xiàn),許焰滿是自豪:
“自2012年成立至今,在安防智能化發(fā)展的各個(gè)階段,依圖都代表業(yè)界最前沿水平。依圖之所以堅(jiān)信安防是個(gè)好市場(chǎng),一個(gè)原因也在于依圖在安防市場(chǎng)做到了盈利,持續(xù)為客戶創(chuàng)造價(jià)值?!?/p>
這種價(jià)值具體表現(xiàn)為,時(shí)至今日,依圖是安防行業(yè)第一個(gè)推出可實(shí)戰(zhàn)可商用的多模態(tài)大模型的公司。
“第一個(gè)”寫(xiě)起來(lái)雖然簡(jiǎn)單,但對(duì)于依圖而言,背后是沉甸甸的付出。
2018年,依圖提出“新安防,真智能”的口號(hào),至今未變。
彼時(shí),視覺(jué)智能化快速發(fā)展,人臉識(shí)別開(kāi)始進(jìn)入規(guī)?;涞仉A段。依圖的“新安防”口號(hào),為公安業(yè)務(wù)流程的變革而發(fā);“真智能”口號(hào)的提出,則強(qiáng)調(diào)了“真正的智能”給安防行業(yè)帶來(lái)的差異化的用戶價(jià)值。
進(jìn)入大模型時(shí)代,公安的業(yè)務(wù)流程、智能化程度躍遷到了新的階段,但依圖這句口號(hào)的內(nèi)核依然沒(méi)有變化。
真正讓人動(dòng)容之處在于,依圖并沒(méi)有淪為“口號(hào)專(zhuān)家”,而是將口號(hào)掛在了實(shí)際行動(dòng)上。
一直以來(lái),客戶看似不合理的追求六個(gè)字:高價(jià)值、低成本。
滿足這個(gè)需求并不容易,尤其在AI這一有著極高技術(shù)和渠道門(mén)檻的賽道。
但依圖對(duì)這句話的信奉和踐行,是AI公司中難得一見(jiàn)的扎實(shí)。
支撐依圖“安防是好市場(chǎng)”背后的商業(yè)邏輯正是,追求價(jià)值最大化、成本最小化。
依圖2017年開(kāi)始布局芯片板塊,2019年5月9日發(fā)布首款云端AI芯片“求索”,用于視覺(jué)推理領(lǐng)域。
當(dāng)時(shí)的發(fā)布會(huì)現(xiàn)場(chǎng),依圖通過(guò)四塊“求索”芯片,實(shí)時(shí)比對(duì)現(xiàn)場(chǎng)觀眾,演示十分鐘內(nèi),無(wú)一起誤報(bào)。
依圖之所以向上做芯片,在于看到了算法性能高速發(fā)展和機(jī)器算力提升緩慢的矛盾,這一矛盾導(dǎo)致AI公司們要么犧牲算法性能,削足適履;要么沒(méi)有先進(jìn)算法,空耗資源。
而隨著中美科技競(jìng)爭(zhēng)的加劇,美國(guó)對(duì)中國(guó)芯片的封鎖制裁力度持續(xù)升級(jí),國(guó)產(chǎn)化具有高性?xún)r(jià)比的芯片產(chǎn)品在此刻顯得尤為重要,依圖的選擇似乎又更具有前瞻性:做硬件和算法的端到端的整合,可以給用戶最高性?xún)r(jià)比的后端智能化產(chǎn)品。
如果說(shuō),以前因?yàn)槿狈y(tǒng)一的模型結(jié)構(gòu)導(dǎo)致芯片和算法公司難以匹配,在一定程度上說(shuō)明人工智能芯片還不太成立,那么到今天,這個(gè)阻礙已經(jīng)消失了。
2019年,依圖開(kāi)始投入以Transformer為基礎(chǔ)的大模型技術(shù),如今回看這一決定,其意義在于,選對(duì)了公司未來(lái)幾年的發(fā)展路徑。
當(dāng)企業(yè)選擇的方向更準(zhǔn)確,研發(fā)的效率就會(huì)更高效,成本更低,對(duì)客戶而言就是更高的性?xún)r(jià)比,最終實(shí)現(xiàn)雙贏。
“到今天,依圖的多模態(tài)大模型已經(jīng)在全國(guó)30多個(gè)項(xiàng)目中部署應(yīng)用?!睋?jù)許焰介紹,依圖“天問(wèn)”多模態(tài)大模型,有以下三大特點(diǎn):
其一,視頻語(yǔ)義搜索能力,支持用自然語(yǔ)言搜索各類(lèi)視頻。
類(lèi)似“堵塞消防通道的車(chē)”、”積水的路面“、”無(wú)人看管的紅色行李箱“等表達(dá)都可以快速找出對(duì)應(yīng)的視頻。
其二,零樣本、冷啟動(dòng)。
比如要?jiǎng)?chuàng)建一個(gè)騎車(chē)不戴頭盔的算法,只需輸入“騎車(chē)不戴頭盔”,就能生成算法,并且算法一旦上線,便能在線上做分鐘級(jí)的訓(xùn)練,越用精度越高。
其三,內(nèi)置了大量凝結(jié)依圖對(duì)行業(yè)認(rèn)知的算法。
通過(guò)針對(duì)性的將特定數(shù)據(jù)放入訓(xùn)練模型中,如大客流、重點(diǎn)區(qū)域防控等典型算法,來(lái)提高模型性能。
今年以來(lái),依圖的天問(wèn)大模型收到不少令許焰印象深刻的反饋。
某城市交通事故頻發(fā),該市客戶找到依圖做城市路口的常規(guī)違章和不文明行為判定,要求用天問(wèn)大模型賦能利舊的前端攝像頭。
依圖做了闖紅燈、超速、不禮讓行人、騎車(chē)不戴安全帽、違法掉頭、壓實(shí)線等各種各樣的算法,系統(tǒng)上線第一天,準(zhǔn)確度只有60%-70%,一周結(jié)束后精度基本達(dá)到100%,并且成本比以往的建設(shè)成本下降了 60% - 70%。
在許焰的回憶中,“當(dāng)時(shí)這個(gè)客戶特別興奮,因?yàn)橐缊D用一周時(shí)間,解決了該城市交通治理極大的痛點(diǎn)?!?/strong>
除了大型項(xiàng)目,多模態(tài)大模型的意義還在于解鎖長(zhǎng)尾算法。
以往,大量中小型客戶,由于支付能力不強(qiáng),此前對(duì)AI沒(méi)有剛需,未來(lái)借助大模型的遷移和通用能力,可以降低成本門(mén)檻,這些用戶也能用上用好大模型。
結(jié)語(yǔ)
路漫漫其修遠(yuǎn)兮,吾將上下而求索。
2019年,依圖發(fā)布第一款A(yù)I芯片,從屈原的《楚辭》中找到“求索”一名,表達(dá)了對(duì)人工智能技術(shù)、人工智能產(chǎn)業(yè)落地探索的熱情。
與此同時(shí),依圖也開(kāi)啟了將Transformer技術(shù)用于視覺(jué)領(lǐng)域的研究,并同樣從《楚辭》中找到“天問(wèn)”一名,賦予彼時(shí)還尚出世的視覺(jué)多模態(tài)大模型。
時(shí)至今日,依圖在國(guó)產(chǎn)化算力上有了“求索”和“求實(shí)”,在大模型算法上有了“天問(wèn)”。十年AI路,依圖所打造的“全棧AI技術(shù)”和"一站式AI解決方案提供商“的形象也越發(fā)清晰,完整。
在大模型時(shí)代,依圖對(duì)安防智能化依然信心滿滿,秉持著為”價(jià)值最大化,成本最低化“的運(yùn)營(yíng)理念,投入堅(jiān)決。隨著視覺(jué)多模態(tài)大模型產(chǎn)品的商用推出和規(guī)模化部署,依圖又一次站在了AI新時(shí)代的浪尖。
大模型時(shí)代必然會(huì)產(chǎn)生新的商業(yè)模式和應(yīng)用場(chǎng)景,在依圖的第二個(gè)十年,我們期待它能再一次引領(lǐng)行業(yè),再一次把“新安防,真智能”的口號(hào)變成現(xiàn)實(shí)。