近年來,數(shù)據(jù)閉環(huán)成了自動駕駛行業(yè)的一個熱門話題,很多自動駕駛公司都在試圖打造自己的數(shù)據(jù)閉環(huán)系統(tǒng)。數(shù)據(jù)對于目前的自動駕駛來說有多重要早已不是什么新鮮話題,作為人工智能在工程落地上最有前景的領(lǐng)域之一,擁有著更多、質(zhì)量更高的數(shù)據(jù)無疑可以讓智能駕駛的系統(tǒng)更加先進。與此同時,如何利用好現(xiàn)有的數(shù)據(jù),從海量數(shù)據(jù)中能夠真正學(xué)習(xí)到人類駕駛的行為策略,將有助于算法的進一步更新迭代。而這所有的一切,都離不開數(shù)據(jù)閉環(huán),這也是當(dāng)前自動駕駛公司為之努力的一大方向。
何為數(shù)據(jù)閉環(huán)?
事實上,數(shù)據(jù)閉環(huán)已經(jīng)被大多數(shù)自動駕駛公司認(rèn)為是提升自動駕駛能力的必經(jīng)之路。以特斯拉為例,配置了自動駕駛硬件的車隊采集通過規(guī)則及影子模式下的觸發(fā)器篩選的數(shù)據(jù),經(jīng)過語義篩選后的數(shù)據(jù)被回傳到云端。此后,工程師在云端用工具對數(shù)據(jù)做一些處理,再把處理好的數(shù)據(jù)放入數(shù)據(jù)集群,然后利用這些有效數(shù)據(jù)訓(xùn)練模型。模型訓(xùn)練好之后,工程師會把訓(xùn)練好的模型部署回車端做一系列的指標(biāo)檢測,經(jīng)過驗證的新模型會被部署到車端供駕駛員使用。在這種模型下,會有新的數(shù)據(jù)源源不斷被觸發(fā)回傳,從而形成循環(huán)。此時,一個完整的由數(shù)據(jù)驅(qū)動的迭代開發(fā)循環(huán)便形成了。
與傳統(tǒng)軟件的迭代優(yōu)化不同,自動駕駛系統(tǒng)的研發(fā)與優(yōu)化除代碼以外,還有更為關(guān)鍵的AI模型。代碼端的問題可以通過傳統(tǒng)的數(shù)據(jù)閉環(huán)方式予以解決,但模型端的調(diào)整則需要重新訓(xùn)練或優(yōu)化AI算法模型。因此,自動駕駛數(shù)據(jù)閉環(huán)需要在傳統(tǒng)數(shù)據(jù)閉環(huán)方式上,引入一些新東西:就是數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注以及數(shù)據(jù)訓(xùn)練。支持自動駕駛數(shù)據(jù)閉環(huán)實現(xiàn)周而復(fù)始、不斷向前的關(guān)鍵,也是新場景數(shù)據(jù)的不斷投喂。只有讓模型認(rèn)識了足夠多的場景,才能獲得泛化性較高的智能軟件。
利用數(shù)據(jù)閉環(huán)打造智能系統(tǒng)
現(xiàn)實駕駛場景難以窮盡,極其復(fù)雜且不可預(yù)測,需要AI模型快速迭代升級。實現(xiàn)自動駕駛數(shù)據(jù)閉環(huán)的快速循環(huán)迭代,以滿足新場景模型適配問題,同時也需要各“長尾場景”數(shù)據(jù)的高效流轉(zhuǎn)。
模型訓(xùn)練方面,目前AI算法模型已階段性基本成熟。在實際應(yīng)用時,不同場景需要解決的問題不盡相同。這并非算法模型的問題,而是場景適配度的問題。自動駕駛AI模型后續(xù)調(diào)優(yōu)主要以數(shù)據(jù)迭代為主,需要投喂海量新場景數(shù)據(jù)。
數(shù)據(jù)采集方面,依靠遍布車身的各類傳感器,車輛每小時采集的數(shù)據(jù)量可達數(shù)TB之多。然而采集得到數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),這些未經(jīng)處理的數(shù)據(jù)并不能直接用于模型訓(xùn)練,標(biāo)注后才能產(chǎn)生使用價值。
橫亙在數(shù)據(jù)與模型訓(xùn)練之間的首要問題是如何高效處理海量數(shù)據(jù)集,真實數(shù)據(jù)規(guī)模已然成為智能駕駛行業(yè)的“命脈”。然而與指數(shù)型增長的數(shù)據(jù)服務(wù)需求相比,無論數(shù)據(jù)處理效率亦或是數(shù)據(jù)產(chǎn)出質(zhì)量均難以滿足市場需求。
產(chǎn)能方面,大部分?jǐn)?shù)據(jù)服務(wù)商業(yè)務(wù)規(guī)模、執(zhí)行效率與項目經(jīng)理能力高度綁定,產(chǎn)能瓶頸問題凸顯;數(shù)據(jù)產(chǎn)出質(zhì)量方面,以點云數(shù)據(jù)為代表的數(shù)據(jù)處理需求占比逐漸擴大,傳統(tǒng)依靠簡單工具和依賴人力的業(yè)務(wù)執(zhí)行方式,也早已無法滿足垂直市場的需求。
自動駕駛實現(xiàn)規(guī)?;慨a(chǎn),數(shù)據(jù)服務(wù)領(lǐng)域能否率先實現(xiàn)突破,助力于數(shù)據(jù)閉環(huán)的最終形成將成為關(guān)鍵。
難度重重,數(shù)據(jù)驅(qū)動面臨多重挑戰(zhàn)
雖然業(yè)界已經(jīng)公認(rèn)數(shù)據(jù)驅(qū)動將是自動駕駛的未來趨勢與方向,但想要真正落地數(shù)據(jù)驅(qū)動模型也面臨著諸多的挑戰(zhàn)。
首先,便是數(shù)據(jù)的合規(guī)性問題。采集的數(shù)據(jù)是否符合國家規(guī)定,是否侵犯了用戶的隱私等等都是自動駕駛公司在采集數(shù)據(jù)時需要考慮的難題。拿高精地圖為例,在道路上采集數(shù)據(jù)的時候,企業(yè)需要具備國家測繪資質(zhì),并且要做相應(yīng)的備案,否則采集過程中會被國安等部門阻止。目前,國內(nèi)總共有約30家機構(gòu)具備相關(guān)資質(zhì),有的企業(yè)具備國家電子導(dǎo)航甲級資質(zhì),適用范圍較廣,在國內(nèi)多個城市都可以采集,而有的企業(yè)具備乙級資質(zhì),適用范圍就會更小,只能在特定的城市采集。與此同時,測繪的數(shù)據(jù)不得泄漏,尤其是不得將數(shù)據(jù)挪到國外,非中國國籍的人既不能獲取測繪數(shù)據(jù),也不能在公司內(nèi)操作測繪數(shù)據(jù)。這樣一來,無疑給需要大規(guī)模采集數(shù)據(jù)的自動駕駛公司戴上了緊箍咒,無法施展拳腳。
其次,數(shù)據(jù)的所有權(quán)歸屬問題。按照中國的《個人信息保護法》相關(guān)規(guī)定,非法律允許的數(shù)據(jù)采集受到隱私保護。在德國,原德國聯(lián)邦信息保護局有這樣的規(guī)定,如果司機不是受害者,未經(jīng)對方同意就記錄其他司機的臉和車輛,是違反個人信息保護法的。也就是說,即使是車主記錄別人信息也可能屬于違法。但由于和新能源車伴生的自動駕駛行業(yè)很新,法律規(guī)定目前尚屬空缺,所以我們按照基本法學(xué)理念推導(dǎo),量產(chǎn)車采集的數(shù)據(jù)應(yīng)該由車主所有。目前,主機廠很少對外開放數(shù)據(jù),導(dǎo)致自動駕駛Tier1在幫助主機廠實現(xiàn)了主機廠定制的功能后,很難收集到用戶在使用這些功能時的反饋數(shù)據(jù),除非Tier1自己有很多測試車。那么,自動駕駛Tier1就難以根據(jù)用戶反饋的數(shù)據(jù)對相關(guān)功能做后續(xù)的優(yōu)化,數(shù)據(jù)閉環(huán)就難以實現(xiàn)。
最后,采集海量數(shù)據(jù)的標(biāo)注與后處理也是自動駕駛公司們遇到的極大挑戰(zhàn)。據(jù)估計,從量產(chǎn)車回傳數(shù)據(jù)后,單車每日回傳的數(shù)據(jù)量大概為百兆級。研發(fā)階段,車輛總數(shù)可能只有幾十輛或者幾百輛。但是到了量產(chǎn)階段,車輛數(shù)目的量級可以達到上萬、幾十萬甚至更多。那么,量產(chǎn)階段,整個車隊日產(chǎn)生的數(shù)據(jù)量就是很大的數(shù)字。急劇增加的數(shù)據(jù)量給存儲空間以及數(shù)據(jù)處理的速度都帶來了挑戰(zhàn)。量產(chǎn)之后,數(shù)據(jù)處理的延遲需要和研發(fā)階段保持在同一個量級。但如果底層的基礎(chǔ)設(shè)施跟不上,數(shù)據(jù)處理的延遲就會隨著數(shù)據(jù)量的增長而相應(yīng)地增加,這樣會極大地拖慢研發(fā)流程的進度。對于系統(tǒng)迭代來講,這種效率的降低是不可接受的。
總結(jié)
雖然在打造數(shù)據(jù)閉環(huán)之路上,自動駕駛公司們遭遇了多重的挑戰(zhàn)與困難,但無論誰都不可否認(rèn),這就是通向高階自動駕駛的必經(jīng)之路。并且在現(xiàn)階段,已經(jīng)有特斯拉這樣的車企的成功,證明了這個方向的可行性。在未來,數(shù)據(jù)閉環(huán)之路的挑戰(zhàn)也將被廠商們悉數(shù)解決,而有了海量高質(zhì)量數(shù)據(jù)加成的自動駕駛系統(tǒng),將會變得更加安全與智能。