文:談擎說AI 作者:鄭開車
智能經濟時代,有人將數(shù)據比作石油,比作燃料。誠然,拿無人駕駛賽道來講,數(shù)據標注是實現(xiàn)無人駕駛系統(tǒng)準確性的前提。
數(shù)據標注將無標記的數(shù)據加上標簽或標注,使其成為有標記的數(shù)據,這樣機器學習算法才能夠利用這些數(shù)據進行訓練和學習,從而提高自動駕駛系統(tǒng)的準確性和性能。
在談擎說AI看來,詩意的講,數(shù)據標注的價值可以用一句古詩來比擬——“問渠那得清如許,為有源頭活水來”。無人駕駛想要提高準確性,想要“清如許”,需要”源頭活水來”。給數(shù)據做上標注,就是對“源頭活水”的凈化。
從這個維度來講,數(shù)據標注是智駕賽道的“源頭創(chuàng)新”。
作為“源頭”,那么數(shù)據標注的發(fā)展、進化、創(chuàng)新就顯得尤為重要。為了更好的認知數(shù)據標注賽道,談擎說AI團隊連線云測數(shù)據總經理賈宇航,探究數(shù)據標注產業(yè)背后的圭臬。
//量產比拼時代:數(shù)據標注賽道的進化路徑
在國內乘用車市場,高階智能駕駛輔助功能滲透率不斷提升。據工信部相關數(shù)據顯示,2021年中國L2級輔助駕駛乘用車新車市場滲透率達到23.5%,2022年上半年其滲透率增加至30%,并且滲透率還在持續(xù)不斷提升。有機構預測,到2025年,中國L2級以上智能汽車的銷量將突破1000萬臺,滲透率將達到50%。
用戶需求井噴,主機廠跑馬圈地,無人駕駛企業(yè)加速量產,是智能駕駛賽道的基本面。想要量產,想規(guī)?;?,成本把控能力、駕駛交付體驗等都提出了新的要求。
首先,精準度。
智能駕駛系統(tǒng)對感知模型精度的要求也越來越高,因此,提升車輛感知模型的精度需要大規(guī)模且高質量的數(shù)據集去訓練。
“其實早在21年的時候,云測數(shù)據就發(fā)布了智能駕駛的數(shù)據解決方案1.0版本,1.0版本的解決方案圍繞著企業(yè)整個研發(fā)周期——針對企業(yè)預研階段,云測數(shù)據為其提供相關行業(yè)場景基礎數(shù)據集進行訓練,解決場景識別等基礎問題;到了基于特定場景的定制開發(fā)階段,云測數(shù)據提供場景化的數(shù)據采集與標注服務,滿足當前階段對AI數(shù)據精度和規(guī)模的需求;對于形成數(shù)據閉環(huán)的第三階段,云測數(shù)據提供一整套成熟工具幫助完成數(shù)據采集、標注、管理一系列流程,幫助企業(yè)優(yōu)化迭代?!痹茰y數(shù)據總經理賈宇航對談擎說AI表示道。
高質量AI數(shù)據才能釋放人工智能的價值。對于智能駕駛技術而言,這樣的數(shù)據精確化顯得更為重要:一方面,現(xiàn)實交通場景復雜、安全威脅多,非常重視數(shù)據分析的效率和敏捷;另一方面,標注數(shù)據質量的高低將直接影響智能駕駛的判斷和用戶體驗。有優(yōu)質數(shù)據存在,才會訓練出優(yōu)質的算法。
其次,效率。
在談擎說AI看來,提高效率,主要是分為兩種,一種是管理效率,一種是技術效率。
我們先來看管理效率,智能駕駛有很多落地場景且數(shù)據量極為龐大,不斷的迭代更新,要想提高效率,數(shù)據標注人員培訓的規(guī)范化、溝通成本、業(yè)務流程管理至關重要。
另一個是技術效率。
“其實在數(shù)據處理工具鏈層面上,云測數(shù)據做了很多標準化。比如研發(fā)上更強調系統(tǒng)集成這個概念,面對每一個企業(yè)不同的數(shù)據底座來講,會有很多不同需要,或者不同企業(yè)之間數(shù)據流轉的規(guī)范是不同的。云測數(shù)據這個過程之中將數(shù)據處理工具進行標準API接口研發(fā),快速支持企業(yè)靈活調用?!痹茰y數(shù)據總經理賈宇航如是說。
標準化,意味著更高的效率,對于無人駕駛來講,技術日新月異,行業(yè)變革速度很快,高效率的交付質量,保證了時效性,智能汽車現(xiàn)在是OTA遠程升級,早日升級保證了用戶體驗,以及產品競爭力。
在談擎說AI看來,對于云測數(shù)據來講,其技術能力是產品化和產品標準化的前提。對于數(shù)據標注行業(yè)來講,標準化,也將促進智能駕駛數(shù)據標注市場的開拓和發(fā)展。
最后是數(shù)據安全。
從數(shù)據的采集、數(shù)據的標注,再到數(shù)據的管理,每一個環(huán)節(jié)都必須保證數(shù)據不被泄露、不被竊取。不少企業(yè)放棄公有云,通過私有云部署、內外網絡隔離、實時數(shù)據流量監(jiān)控等方式進行。
在談擎說AI看來,如果說數(shù)據標注的效率、質量是一個數(shù)據標注企業(yè)的上限,那么數(shù)據安全則是一個企業(yè)的下限,上限決定了企業(yè)的天花板,下限則決定了能否站在數(shù)據標注的舞臺之上。自動駕駛數(shù)據養(yǎng)料的質量,決定著無人駕駛企業(yè)的競爭力,是企業(yè)的基石。算法、算力具有非獨家性,數(shù)據卻是獨家的,保證數(shù)據安全的基礎上,對數(shù)據的充分利用,將是決定未來商業(yè)化進展的關鍵一環(huán)。
//升級賦能:卷自己推動行業(yè)發(fā)展
Grand View Research預計,到2027年,全球無人駕駛數(shù)據標注市場年均復合增長率為28.8%。為了更好的適應、引領這個蓬勃發(fā)展的賽道,云測數(shù)據發(fā)布云測數(shù)據智能駕駛數(shù)據解決方案2.0,全新升級。
這次的2.0版本主要是圍繞以下三個方面:
升級賦能:以集成數(shù)據底座為核心,全面升級數(shù)據標注及數(shù)據管理工具鏈。
升級賦能:升級人工標注與自動標注交互能力,全面提升數(shù)據標注效率。
升級賦能:針對特定算法類型的數(shù)據持續(xù)優(yōu)化迭代,并納入更多場景數(shù)據。
對于此次2.0版本,云測數(shù)據總經理賈宇航給出了自己的理解:
首先:2.0版本,這一次迭代會有一個新的出發(fā)點。目前整個的智能駕駛行業(yè)處于規(guī)模量產階段,對于不少智駕企業(yè)已經在逐漸的搭建自己的數(shù)據系統(tǒng)、數(shù)據閉環(huán),云測數(shù)據更加強調去幫助企業(yè)在系統(tǒng)集成性、數(shù)據流轉的層面的優(yōu)化,這個是升級的第一點。
其次:云測數(shù)據智能駕駛數(shù)據解決方案2.0集成了不同模型的預標注能力,包括圖像整幀、自選物體、區(qū)域、點云批次識別和文本識別等,重新定義了基于預標注的人工標注效能,如能效看板、綜合看版等。
最后:我們看到了越來越多傳感器融合等相關的技術在自動駕駛中應用,此次升級的2.0方案針對特定算法類型的數(shù)據持續(xù)優(yōu)化迭代,涵蓋點云4D疊幀、語義分割聯(lián)合標注和智能ID軌跡預測。數(shù)據集也更加豐富,納入了更多場景數(shù)據,標注方法也從原來以點線面體為主進化到融合4D標注規(guī)則和標注工藝。在服務方面,數(shù)據標注精度、反饋給企業(yè)的時效性有了大幅提升。
在談擎說AI看來,云測數(shù)據智能駕駛數(shù)據解決方案2.0,將對行業(yè)產生以下影響:
1 服務智能駕駛企業(yè)的門檻在提升,如今大模型時代,如何借助工具提升效率、更好的為智駕客戶賦能,需要AI數(shù)據服務具備敏銳的洞察力和精進的技術研發(fā)能力,才能夠及時識別和把握新行業(yè)發(fā)展趨勢,取得領先優(yōu)勢。
2 數(shù)據標注行業(yè)良莠不齊,云測數(shù)據的智能駕駛數(shù)據解決方案2.0為行業(yè)提供了可供參考的服務標準,推動行業(yè)發(fā)展走向規(guī)范化的新階段,通過提供高質量、高效率的方案來解決自動駕駛產業(yè)落地的數(shù)據需求,為無人駕駛賽道發(fā)展保駕護航,夯實了這個行業(yè)的地基。
3 伴隨汽車智能化演進,輔助駕駛、智能泊車等功能正日趨成熟。對于汽車的智能功能而言,決定一項功能用戶體驗的好壞、是否成為賣點,需要反復精細打磨產品、提升產品質量,而作為實現(xiàn)AI功能的上游數(shù)據訓練環(huán)節(jié),需要高效、高質的AI數(shù)據支撐,從而打造出用戶體驗良好、具備差異化優(yōu)勢的智能應用。
對于智駕賽道而言,是典型的木桶理論,團隊協(xié)助、管理能力、數(shù)據、算力儲備、缺一不可。但如果說從底層邏輯來看,數(shù)據更為重要。業(yè)界大牛陸奇曾不止一次在公眾場合表示,數(shù)據是人工智能時代的核心產能。如何挖掘數(shù)據價值,不啻為智駕企業(yè)的核心要義。
//大模型時代:數(shù)據標注賽道將走向何方?
要說當下最火的賽道,無疑是大模型,現(xiàn)在的科技圈進入了百模大戰(zhàn)。AI數(shù)據影響、甚至是決定著AI的質量,同時人工智能的快速發(fā)展,也在影響著AI數(shù)據標注賽道。
"人工標注和自動標注后的人工審核校驗和微調,這是未來的一種業(yè)態(tài)。在這個趨勢下,自動標注的數(shù)據量的占比可能會越來越高。其實這里邊會發(fā)現(xiàn)有一個很有意思的概念,就是自動標注的占比可能會越來越高,人工標注的占比可能會相對會減少,但是整個的數(shù)據的需要、標注的數(shù)據量是在逐漸的增大的,所以人工標注的需求量還是增加的、處于攀升的過程之中。"云測數(shù)據總經理賈宇航對談擎說AI表示道。
對于大模型熱,云測數(shù)據有著自己的思考,不是一味的跟風也不是對新技術置之不理,而是更好的結合:第一點是云測數(shù)據的工具與大模型做更好的結合;第二點布局則是針對這些大模型相關企業(yè),云測數(shù)據持續(xù)精進為其提供對應的場景化數(shù)據。
在談擎說AI看來,大模型的本質是為了提升效率,高質量交付,為客戶賦能。作為工具類產品,要更快能適用新的體系,為客戶賦能,更好的耦合客戶的系統(tǒng),不是拿著錘子找釘子,大模型火了就盲目跟進,而是根據需求,去開發(fā)適用于企業(yè)的應用。
縱觀整個出行領域,從傳統(tǒng)汽車到智能汽車,底層邏輯是從制造驅動到數(shù)據驅動的產品革命,數(shù)據是當下的核心驅動力,得數(shù)據者得天下,為智駕企業(yè)做好賦能,也是對中國乃至全球汽車產業(yè)進化的有利助攻。