對話 |?蓋世汽車CEO、蓋世汽車資訊部總編?周曉鶯
撰文 |?蓋世汽車編輯 熊薇
2022年底ChatGPT火爆出圈,在全球范圍內引發(fā)一輪通用人工智能(AGI)技術創(chuàng)新和產業(yè)化落地熱潮。作為其中一個重要落地場景,汽車產業(yè)憑借智能化變革新機遇,與廣泛市場需求,也站上了“大模型+”風口。
“對于汽車行業(yè),我覺得AGI的影響主要有兩個方面:第一,會大幅提升生產效率,比如基于大模型的端到端自動駕駛,將顯著提升自動駕駛開發(fā)效率;第二,AGI會改變人機交互方式,得益于大模型加持,未來汽車有望變?yōu)橐粋€超級智能體。”近日,商湯科技聯合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛接受蓋世汽車CEO周曉鶯采訪時表示。
尤其是今明兩年,在王曉剛看來將是AGI重塑智能汽車非常關鍵的時間窗口。
因此,憑借在人工智能領域的豐富積累,以及在AGI軟硬件基礎設施上持續(xù)不斷的投入,以商湯絕影作為核心載體,商湯正大力布局汽車業(yè)務,并構建了完整的“駕-艙-云”三位一體架構體系,多維度助推智能汽車加速駛入AGI時代。
在智能駕駛領域,商湯絕影早在2022年底就于業(yè)內率先發(fā)布了感知決策一體化自動駕駛通用模型UniAD。在此基礎上,依托應用場景更廣、性能更強的多模態(tài)大模型,商湯絕影又研發(fā)了新一代自動駕駛大模型 DriveAGI,開啟自動駕駛迭代升級新范式。
在智能座艙領域,商湯絕影也發(fā)布了一系列基于多模態(tài)場景大腦的大模型產品,計劃基于多模態(tài)大模型進一步打造AI智能體,更好地助力智能座艙。比如前段時間上市的小米SU7,就應用了商湯的大語言模型和多模態(tài)模型。
據王曉剛介紹,在智駕方面,目前商湯絕影已成功交付了廣汽、合眾、一汽等車企項目,智能座艙業(yè)務去年更是累計交付了40多個車型,量產規(guī)模大概有120多萬輛,預計今年無論交付車型款數還是量產車數量將再創(chuàng)新高。
不過,盡管AGI在賦能各行各業(yè)轉型升級方面已經取得了突破性進展,王曉剛認為,大模型要真正在千行百業(yè)產業(yè)化落地,既是短跑又是長跑?!耙驗槲覀兲幵谑袌龊图夹g都高速發(fā)展的階段,另一方面,通用人工智能的上限和天花板很高,現在遠沒達到上限,未來還有非常大的發(fā)展空間?!?/p>
那么,AGI重構汽車產業(yè),“奇點”究竟何時來臨?需要具備哪些條件?目前商湯絕影已經發(fā)展到了哪個階段?后續(xù)還有何長遠的規(guī)劃以及目標?汽車行業(yè)“百模大戰(zhàn)”還會持續(xù)多久?
以下為訪談實錄? 對話
“從智能汽車到機器人,大模型想象空間巨大”
Q:周曉鶯:商湯怎么看待AGI對汽車產業(yè)帶來的影響?
王曉剛:AGI和大模型給人們的社會生活,包括各行各業(yè)帶來了非常深刻的變化。在人工智能1.0時代,我們需要針對每個任務訓練一個模型,在過去幾年里,商湯推出了超過4萬個商業(yè)化模型,這里面投入的研發(fā)資源非常大,研發(fā)周期非常長。但今天有了通用人工智能,幾個非常強的大模型就可以完成很多任務,而且是一些開放式的任務。
之前的人工智能比較擅長基于固定規(guī)則下的任務,比如下圍棋AlphaGo做的很好,但如果把棋盤大小改變了,可能就要重新訓練。今天有了通用人工智能,即便沒有這些規(guī)則,也能完成很多開放式任務。
像自動駕駛進入復雜城區(qū)場景,很多依靠規(guī)則其實沒法覆蓋,這些開放式任務正是通用人工智能所擅長的,包括智能座艙里各種人機交互,也在不斷提出新的需求,這些都可以通過通用人工智能去應對。
另外,以前做人工智能,比較多的是識別,包括物體識別、人臉識別等,今天的通用人工智能可以是生成式AI,能自主生成大量內容,包括文字、圖像和視頻,極大改變我們的文化、社會和生活。
具體到汽車行業(yè),我覺得AGI的影響主要有兩個方面:第一,會大幅提升生產效率。比如大家已經能夠看到用Copilot做編程助手,汽車行業(yè)有大量軟件開發(fā),需要投入非常多的人力。未來在大模型駕駛領域,通過機器可以節(jié)省80%的工作量。
目前自動駕駛比較明顯的發(fā)展趨勢是基于大模型的端到端自動駕駛,以前基于規(guī)則的模式,進入復雜城區(qū)場景后,需要的代碼量可能是原來高速場景的幾十倍,因為每天要處理各種不同的Corner Case,需要很多工程師不斷解決各種新問題。但是大模型出現以后,通過數據驅動自動駕駛發(fā)展成為可能,從感知、規(guī)控到決策,可以通過一個網絡模型來實現,靠數據覆蓋各種Corner Case,會在無形中大幅提升開發(fā)效率。
還有座艙里的DMS、OMS,過去根據疲勞監(jiān)測、分心監(jiān)測、打電話監(jiān)測等功能,每個特定任務都要投入專人開展數月研發(fā),現在有了多模態(tài)大模型,可以不斷增加新任務,而模型本身無需改變,就能即時響應,效率提升十分明顯。
第二,AGI會改變人機交互方式。以前座艙里只能通過簡短固定語音指令完成特定任務,今天有了大模型加持,可以進行各種開放式多輪對話,就像跟機器人對話一樣。包括現在座艙里面有很多APP,有時候要使用一個APP可能要找好久,現在AI智能體能自動完成這些事情。而且通過座艙里各種傳感器,系統還可以觀察駕乘人員的狀態(tài),并主動發(fā)起對話,變成一個超級智能體。所以說,汽車是實現大模型人機交互閉環(huán)一個非常好的場景。
對于智能終端,從最早AI 1.0時代的手機,到今天的汽車,再到將來的機器人,AI大模型給智能汽車帶來了非常大的想象空間。我們正從智能汽車1.0時代,走向一個真正的超級AI智能體。
Q:周曉鶯:感覺這個演變讓人非常興奮,會打開一個新天地,咱們預測過這個時間表嗎,或者一些關鍵的時間節(jié)點?
王曉剛:我覺得今明兩年是非常關鍵的時間窗口。一方面,自2022年底ChatGPT出圈,過去兩年通用人工智能發(fā)展十分迅猛,出現了很多新模型和應用,給智能汽車帶來了非常多的機會。
另一方面,從智能汽車發(fā)展來看,比如智能駕駛前幾年還存在路線爭議,現在已經收斂很多,行業(yè)對于未來的發(fā)展方向也比較明確。智能座艙有了大模型加持,意味著艙內一系列軟硬件架構都會發(fā)生變化,今天比較多還是調用云端大模型,將來一定是端云結合。這里面誰能抓住先機,改變用戶體驗,給客戶交付更有價值的產品,這一兩年將是重要的窗口期。
周曉鶯:所以這兩年大家要加速往前沖。
王曉剛:有人說現在既是短跑又是長跑,因為我們處在市場和技術都高速發(fā)展的階段,要能夠抓住它。但另一方面,通用人工智能的上限和天花板很高,現在遠沒達到上限,未來還有非常大的發(fā)展空間。
Q:周曉鶯:對于人工智能技術在各行各業(yè)的落地,商湯做了很多探索,這其中商湯絕影主要專注于智能汽車應用,您能否分享下商湯絕影具體的戰(zhàn)略規(guī)劃?
王曉剛:商湯是一個人工智能平臺公司,無論發(fā)展還是創(chuàng)新,都需要由行業(yè)來牽引。早期互聯網、手機和智慧城市,是牽引公司發(fā)展的主要動力,但今天智能汽車成了牽引人工智能發(fā)展創(chuàng)新最重要的動力,因為汽車行業(yè)規(guī)模非常大。
另外,智能汽車是一個非常好的人機交互場景,而通用人工智能大模型又可以改變未來人機交互。所以絕影的發(fā)展戰(zhàn)略,是依托商湯的特長積累和戰(zhàn)略,抓住通用人工智能和大模型給智能汽車帶來的機遇。
這里面需要什么呢?第一,非常強的軟硬件基礎設施。我們從2018年開始研究大模型,那時還沒有能支撐大模型研究的基礎設施,所以我們建立了商湯大裝置,到今天一共有45000塊GPU,總算力突破了12000P,到今年年底將進一步達到16000P。作為對比,特斯拉目前有10萬塊GPU,而反觀國內其他車企,在算力儲備方面和特斯拉還有很大的差距。因此在這方面,商湯絕影可以給行業(yè)提供比較好的基礎設施。
在此基礎上,我們還有一系列原生態(tài)大模型,包括自然語言模型、多模態(tài)模型、文生圖模型、文生視頻模型以及3D大模型,積累了大量Know-How。我們并不是一味追隨Open AI,而是有自己的創(chuàng)新點,比如我們2022年底發(fā)布了UniAD,這是業(yè)內第一個端到端自動駕駛大模型,到現在可以看到端到端大模型用于自動駕駛已經成為行業(yè)共識,我們的UniAD也有面向量產的方案,這體現了我們的原創(chuàng)性。
另外,去年5月我們還推出了用于機器人的具身智能模型。原來機器人比如AlphaGo所用的模型,只能解決已經定義好比較規(guī)則的特定任務,但具身智能模型可以解決很多開放式任務,比如《我的世界》(Minecraft)里面的200多個任務,都能去解鎖。而OpenAI和DeepMind用傳統的強化學習去做,只解鎖了其中的78個。所以從智能汽車到機器人,大模型可以帶來非常多的想象空間。
今年,大家對多模態(tài)模型落地有非常高的期待,但其實我們在2023年3月就開源了多模態(tài)模型,擁有30億參數,是當時業(yè)內最強的多模態(tài)模型??梢钥吹?,這些模型布局我們都走在行業(yè)前面。
針對汽車行業(yè),我們對一系列大模型專門進行了優(yōu)化,通過與大量智艙、駕駛數據相結合,構建專屬于汽車行業(yè)的原生態(tài)大模型,因為這里面很多任務不是通用模型能解決的,由此衍生出了一系列面向自動駕駛和智能座艙的方案。比如端到端自動駕駛大模型正在推進當中,智能座艙領域,我們去年也發(fā)布了一系列基于大模型的產品,今年將進一步推出基于多模態(tài)大模型的AI智能體,更好助力智能座艙的體驗升維。比如前段時間上市的小米SU7,就應用了我們的語言模型和多模態(tài)模型。另外從手機到其他各種智能終端,我們跟小愛同學都有比較好的合作。
所以商湯絕影整體的發(fā)展戰(zhàn)略叫“駕-艙-云”三位一體,所謂“云”就是各種基礎設施,可以助力整車廠和其他一些合作伙伴,進行智能駕駛和智能座艙相關開發(fā)。
“未來汽車將有很多智能體,各自擅長不同的能力”
Q:周曉鶯:從財報數據來看,去年商湯絕影智能汽車業(yè)務整體營收增幅超過了30%,相對于整個行業(yè)來說是一個非常好的成績,其中主要增長點來自哪些業(yè)務?
王曉剛:在智能駕駛方面,我們已經交付了廣汽、合眾、一汽等車企,但真正要帶來收入增長,可能還需要一段時間。比較而言,智能座艙業(yè)務走的相對快一些,去年我們累計交付了40多個車型,量產規(guī)模大概有120多萬輛。今年,無論交付車型款數還是量產車數量,都會翻一倍。這里面我覺得兩個核心點在于,一個是智能汽車的滲透率在快速提升,另一個是汽車對新技術、新產品的追求給我們帶來了比較好的機會。
周曉鶯:恰恰是您講的這兩點,汽車智能化發(fā)展和對新技術的追求,現在都在快速上量。
王曉剛:所以我們也需要不斷加大投入,提升效率。商湯在人工智能領域有比較好的儲備和積累,同時我們也在不斷強化工程體系、交付能力以及與車企的合作能力,更好地服務這個行業(yè)。
Q:周曉鶯:您前面提到一系列大模型,包括在汽車領域的兩條發(fā)展路徑,能不能展開講一下大模型上車與這些產品及應用之間的邏輯關系?商湯絕影大模型有哪些獨特亮點?
王曉剛:有比較多的相關性,比如多模態(tài)大模型的基礎是,首先你要有強大的語言模型、視覺模型,才能在這個基礎上去形成更加強大的多模態(tài)模型。另外我們還有文生視頻模型、文生圖模型,積累了大量的Know-How。
具體到產品方面,我們已經有UniAD自動駕駛端到端大模型,在此基礎上,依托多模態(tài)大模型,進一步拓展研發(fā)了新一代自動駕駛大模型 DriveAGI,其中的數據輸入除了各種傳感器,還有駕駛員的指令。因為現在的自動駕駛,基本上都是確定好目的地后車輛自主駕駛,在這個過程當中,其實有很多人機交互應用。比如每個人駕駛習慣不一樣,或者在不同情況下對車輛駕駛行為需求不一樣,比如有些人趕時間可能會頻繁地換道超車,有些人希望能在車上安靜地看書,這時可以跟系統做一些互動。
從輸出角度,以前車輛就是一個“黑盒子”,但現在有了大模型以后,當車輛做出各種決策時,其實可以通過自然語言解釋一下為什么要這么開,這是我們覺得多模態(tài)大模型能夠給自動駕駛帶來的一個延伸。
另外從產品角度,我們知道訓練自動駕駛算法需要大量端到端數據,這些數據除了實際采集,還要大量的仿真數據,因為有些時候想得到特定場景的訓練數據比較難,并且越到后面數據采集效率越低。在這種情況下,我們的文生視頻模型就可以用來生成各種攝像頭角度、各種車況或者交通場景下的視頻,進行自動駕駛測試和算法訓練。
除了自動駕駛,我們也在探索怎么跟座艙里的大模型結合,因為未來趨勢是艙駕融合,在一顆芯片上同時部署智駕大模型和座艙大模型,實現各種傳感器、車內車外數據的聯通。
比如在駕駛過程中,我們看到車外的建筑物,或者靠近某個景點、交通路口時,會問各種問題,模型能給出智能化的回答,這要求延時非常低。但是現在我們艙內的一些模型還放在云端,有延遲,存在一些數據方面的問題。
將來通過端云結合,我們希望80%的這種問題能夠通過端上的芯片完成,及時響應,同時成本比較低,從而實現比較好的用戶體驗。未來,我們判斷越來越多的公司會使用MoE(Mixture of Experts)架構,也就是混合專家模型,就是很多模型在各種不同情況下,針對不同任務調用不同模型,這樣會極大地降低算力。
Q周曉鶯:感覺以后開車,在體驗上會越來越絲滑,但實際上后面的系統也會越來越復雜。
王曉剛:對,有很多智能體,這些智能體有各自擅長的不同能力,甚至包括自動駕駛也不一定是一個模型,比如在高速場景和復雜路口,或者擁擠的路段、鄉(xiāng)間小路,每個模型擅長的事情都不一樣。
Q周曉鶯:最好大模型供應商是一家企業(yè),否則會不會打架?
王曉剛:所以將來研發(fā)模式也會發(fā)生變化,之前一個系統被切成很多模塊,由不同供應商提供各個模塊,現在因為有一個大模型整體協調,技術耦合度會更高。但另一方面,這又要求跟整車廠之間的合作更深入,因為會涉及軟硬件架構的改變,而且每家車企還有自己定制化的內容、獨特賣點和特征,這需要更加深度的耦合。
Q周曉鶯:關于大模型到底怎么上車這件事情,是否方便分享一些跟車企合作的案例?因為這還是一個蠻新的領域,雖然大家談了很多。
王曉剛:去年大模型剛剛開始應用時,跟車企的合作相對簡單一些,就是提供模型給車企測一測,或者把幾個模型比較一下,誰的能力強選誰。但后來慢慢發(fā)現,通用模型其實解決不了實際問題,很多執(zhí)行指令以及可靠性滿足不了車企需求,需要定制化開發(fā)。
另外原來的云端模型存在固有缺陷,光有一個云端模型還不行,而是需要若干個模型結合起來,這又會涉及到車內軟件架構的改變,包括這些模型還需要跟整車生態(tài)聯合,因為車內有很多APP,智能體要調用這些APP。在這個過程當中,我們和車企逐漸變成了深度耦合、密切合作的關系。我覺得這可能也是未來的一個趨勢。因為在技術發(fā)生變革的時候,大家都希望能夠參與其中,共同設計這些架構。
Q周曉鶯:這不像傳統汽車時代,只是簡單地增加一個部件或者一個功能,而更像是兩個大的生態(tài)在相互融合。
王曉剛:比如原來車企內部,會根據電子電氣架構設置各個部門,但大模型出現后,會對過去的很多功能和模塊進行重構,這將帶來組織架構變化,也即是生產力變化帶來生產關系變化,這也是為什么我覺得接下來像絕影這樣的新供應商會有機會。所以在帶來新技術的同時,我們還要對自身組織結構進行重整,以適應技術的發(fā)展變化,包括跟整車廠合作模式的變化,誰先把這些事情理順,誰就能走得更快。
Q周曉鶯:所以絕影的優(yōu)勢,我覺得像您講的不管是對人工智能的理解和應用,還是組織架構、人才儲備,其實都有比較長和比較深的積累。
王曉剛:我們在技術上有一定的積累,同時也認識到了技術對我們組織架構帶來的新變化。所以我們現在是以一種開放的心態(tài)重新創(chuàng)業(yè),打破原來的組織分工形態(tài),我們跟車廠也保持非常開放的態(tài)度,共同探索新的模式。
“智能駕駛往后發(fā)展,降本將是重要趨勢”
Q周曉鶯:在智駕領域,絕影量產智駕方案已經上車哪吒S、廣汽昊鉑等車型,后續(xù)還有何新的量產落地規(guī)劃?
王曉剛:接下來,我們還會持續(xù)更新系統功能,不斷提升用戶體驗。在哪吒S上,我們已經率先在16 TOPS算力條件下實現了高速領航功能,接下來通過OTA升級,我們還會持續(xù)優(yōu)化用戶體驗,同時也希望不斷拓展新的車型、新的功能。
Q周曉鶯:對于城市智駕,我們看過去兩年“大算力芯片+激光雷達”幾乎成為標配,您對此怎么看?
王曉剛:我覺得智能駕駛再往后發(fā)展,降本將是一個重要趨勢,所以擺脫對激光雷達的依賴,主要依靠視覺的方案,也會是未來的一個發(fā)展趨勢。當然到了L3,需要冗余備份的時候,還是需要激光雷達。但是對于L2.9的城區(qū)領航,我們其實也在做純視覺方案,包括端到端的UniAD,就是基于視覺方案在做。
談到算力,首先還是在不斷地增長,但同時也在追求性價比,并希望在體驗上有一些突破,因為畢竟有大模型加持,這方面我覺得還有探索空間。比如未來的艙駕融合,在一顆芯片上同時部署智駕和智艙,能夠降低成本。另外我們也看到,芯片廠商仍在不斷提升算力,這給大模型在端上落地提供了更大空間。
所以我覺得未來智駕大算力演進和降本會交替進行,并在體驗上不斷上探天花板。同時對一些比較成熟的功能,會通過降本提升性價比,實現更大量產規(guī)模。
Q周曉鶯:所以絕影非常堅定地看好純視覺路線,是因為剛才講的成本?
王曉剛:也是本身的基因所在,視覺是商湯的專長,早在2016年本田來中國尋找合作伙伴的時候,就給我們出題用兩顆攝像頭怎么完成自動駕駛,隨后2017年我們基于兩顆攝像頭完成了要求。
而除了成本優(yōu)勢,比較之下視覺方案提供的信息也更加豐富,天花板更高。尤其在復雜場景中,端到端方案通過視覺感知能提取更豐富的信息,獲取有價值信息的能力會變得更強,這也是我們看好視覺的一個重要原因。
Q周曉鶯:您覺得端到端方案是城市智駕的最優(yōu)解嗎?
王曉剛:我覺得是這樣的,因為城市智駕覆蓋的復雜場景非常多,包括各種Corner Case,并且大家對體驗的要求也在不斷提升。不過今天雖然都在談端到端,實現的方式還不太一樣,有些其實是兩段式的,即感知和規(guī)控分兩部分。
因為此前只有感知部分使用的是AI神經網絡,規(guī)控部分使用的是規(guī)則。目前很多方案還是兩段式的,只不過把其中的規(guī)控改為了用神經網絡來實現,整體難度相對低一些。但也會帶來一些新的問題,因為經過感知過濾以后,有些信息會丟失,如此一來規(guī)控提取的信息會相對有限。
而真正的端到端,像特斯拉做的,輸入的是視頻、圖像,輸出的是規(guī)控軌跡,這個難度高很多,因為前面的信息源非常復雜,但要輸出的是非常精準的控制信息,這其中對技術和網絡的要求都非常高,天花板也更高,因為中間沒有人為分拆,不會損失信息。
Q周曉鶯:就是雖然都叫端到端,中間還是有非常多的差異,回到大模型也一樣,這兩年特別火,包括汽車行業(yè)整車廠和技術公司也都在推自己的大模型,您怎么看待這個現象?
王曉剛:我覺得這是一個必然過程,大模型出現以后,大家都想去嘗試。但未來一定會收斂,因為這對資源的投入要求非常高,并且需要不斷追蹤技術的發(fā)展。今天大模型的發(fā)展不是已經到了天花板,而是還處在一個快速發(fā)展的階段,對投入要求非常高。
剛才提到算力,我們去年已經實現了1000P算力,等效于把3000塊A100芯片連在一起進行大模型網絡訓練。今年我們的目標是實現3000P算力,等效于1萬塊A100連成一個集群用來訓練網絡,明年進一步達到10000P算力,整個基礎設施是不斷演進的。
但我們看今天很多做大模型的企業(yè),可能只有100P或者幾百P的算力,其實不具備這種原生態(tài)大模型能力,而是拿一些開源模型在上面做修改。這樣一來,如果想做一些根本性的創(chuàng)新很難,而且這是一個持續(xù)投入的過程。
我們看過去十年人工智能的發(fā)展,2012年神經網絡第一次在視覺里面取得比較大的突破,之后從AlexNet到AlphaGO,再到今天的GPT-4,算力需求已經增長了1000萬倍,目前還在不斷增長。在這種情況下,前面說既是短跑又是長跑,如果從長跑角度來看,不太可能每家車廠都構建自己的大模型,更多可能是找到這方面的合作伙伴,而且這個合作伙伴也需要在這條路上持續(xù)投入,持續(xù)創(chuàng)新,我覺得這恰恰是商湯絕影的機會。
在AGI領域,商湯本身就有很深的積累,同時我們也是非常堅定地持續(xù)往前走。未來,我相信整車廠能夠意識到基礎設施所帶來的價值,到時候我們怎么能夠更好地深入合作,什么是他們要做的,什么由我們來做,會慢慢清晰。
周曉鶯:大家需要一個時間學習新東西,并且在定位上慢慢把邊界區(qū)隔開,而不是什么都自己做。
王曉剛:尤其大模型發(fā)展很快,可能你上一代還沒有100%達到別人的水平,別人下一個版本又出來了。
“整車廠邁向通用人工智能,商湯絕影希望成為核心供應商”
Q周曉鶯:剛剛提到算力,原來燃油車時代是靠馬力驅動,現在智能車時代靠算力驅動,咱們有預測過智能汽車變革對算力的需求上限嗎?
王曉剛:今天還沒有看到上限,我們知道人腦的神經元數量約為860億個,如果把每個神經元的突觸算上,相當于百萬億規(guī)模,今天還遠遠沒有達到上限。所以可以看到,目前對算力的需求還在持續(xù)增加。
不過我覺得未來可能是“云端模型+離線模型+終端模型”的融合狀態(tài),汽車領域有望出現一個超級強的大模型,類似于今天的GPT-4,然后派生出若干個能部署在終端的小模型。在此過程中,隨著算力提升,終端小模型的能力將逐漸增強。
Q周曉鶯:商湯大裝置現在算力是12000P,后面的算力規(guī)劃能不能給我們講講?
王曉剛:今年底計劃達到16000P,但這里面的規(guī)劃其實滯后于需求。我們最早規(guī)劃大裝置的時候,算力是5000P,但實際需求很快就超過了當時的計劃。所以說這個領域還是一個高速發(fā)展的狀態(tài),但有一點比較肯定,就是商湯作為人工智能平臺性企業(yè),在這些方面一定要抓住制高點。
Q周曉鶯:過去兩年我們也看到很多車企在組建智算中心,您覺得這個現象會持續(xù)嗎?
王曉剛:組建智算中心投入非常大,還可能出現的一種情況是,智算中心剛建好發(fā)現規(guī)模不夠用了。所以對算力的規(guī)劃一定要留有冗余,用于彈性調度,這樣的規(guī)模化才是最經濟的。如果說每家公司都具備100P或者200P的算力,將來可能不僅不能解決自身問題,還會產生比較高的維護成本,從這個角度并不是一個經濟的選擇,可能選擇合作更合適。
其實商湯原本也在各地組建了比較多小的算力中心,后來才統一匯聚到臨港,實現像剛才說的萬卡集群大算力,大家的任務可以充分調配我們的算力,達到一個最優(yōu)使用情況。不然的話,想擴充算力規(guī)模的時候擴不出去,另外使用效率也不是很高。
周曉鶯:它更像是一種新基建。
王曉剛:而且技術難度很高,當我們把10000塊GPU連在一起的時候,中間只要一塊GPU出現問題,或者硬件之間的連接出問題,都會對整個系統帶來影響?,F在商湯可以進行萬卡互聯的超大集群訓練,且能夠長時間穩(wěn)定運行,一旦出現問題,異常檢測速度已達到分鐘級,能實現快速診斷并及時修復。這些都是我們這么多年訓練AI大模型計算過程中積累的經驗,如果每家公司自己去做的話,是不劃算的。
Q周曉鶯:人工智能某種程度屬于科技非常頂端的技術,不僅研發(fā)投入大,回報周期也很長。而現在汽車行業(yè)競爭十分激烈,企業(yè)會面臨很多選擇,比如究竟要市場份額還是利潤,對于商湯絕影來說,怎么看待在汽車產業(yè)商業(yè)閉環(huán)走的更久,能夠更好盈利這件事情?
王曉剛:我們也還在探索當中,在汽車行業(yè)絕影非常年輕,還有很多東西需要學習。我們也從汽車行業(yè)引進了大量相關人才,一方面推進產品落地,加深跟客戶的合作關系,另一方面對下一代技術提前布局。因為技術迭代非常快,可能這一代技術或產品搶到了市場份額,但又失去了下一代技術更新迭代的機會。所以我們看絕影的商業(yè)價值,也是放在商湯大背景下面,希望通過比較好的技術持續(xù)引領市場,而不是停留在某一個階段。
Q周曉鶯:從您的視野來看,現在中國智能汽車的發(fā)展和應用,包括大模型上車,您覺得在全球市場大概處于什么樣的生態(tài)位?
王曉剛:發(fā)展肯定是非??斓模斎蝗绻f美國的話,特斯拉肯定是行業(yè)標桿。除此之外我覺得國內過去幾年的積累包括迭代速度,都體現出了比較強的競爭力。所以將來把我們這些智能化技術推向全球,也是很重要的一個點。
Q周曉鶯:如果往后看三年,您對商湯絕影的發(fā)展有何期待?
王曉剛:從自身定位來說,面向未來AGI發(fā)展目標,我們希望能夠助力整車廠和合作伙伴,去實現我們新的定位和價值。
本身絕影就是一匹千里馬,需要能夠跑的比較遠,我覺得這是時代給了我們非常遠大的目標,和充滿想象力的空間。同時我們還要跟整車廠緊密合作,扎扎實實做好產品落地。今天市場競爭仍然非常激烈,我們希望能夠做好產品交付,同時在行業(yè)里面持續(xù)引領創(chuàng)新。
希望三年以后絕影能夠成為AGI時代整車廠走向通用人工智能非常重要的核心技術伙伴,非常核心的供應商。如果能夠實現這點的話,我會非常高興,我想商湯也非常高興實現我們的目標。
周曉鶯:我們也非常期待商湯絕影在接下來的發(fā)展中,像千里馬一樣跑得越來越快。
彩蛋
Q周曉鶯:您小時候就是學霸,中科大的少年班,后來從學術到產業(yè)會有不適應嗎?
王曉剛:各種調整吧,我剛來公司的時候,湯老師說你只要管好技術就行,不需要負責管理。但后來其實發(fā)現,如果不懂技術也管不了人,而不懂管理,也形成不了落地的結果,因為還是結果為導向。
我剛到商湯的時候并不管業(yè)務,后來需要負責一些具體業(yè)務,商務收入指標,各方面要求還比較高。但我覺得這也是商湯的選擇,公司發(fā)展需要你變成一個什么樣的人,能夠隨著發(fā)展快速做出調整。
另一方面,這個轉變對我來說還是非常感恩,我非常珍惜這個轉變。因為人工智能發(fā)展非???,待在學校里很多事情做不了,要資源實現AI落地。十幾年前我們做AI研究都是停留論文上,2004年我們發(fā)表了五篇CVPR,那時候中國很少有人能做到。但今天不一樣,論文很多,甚至都用ChatGPT來寫論文。
周曉鶯:生產工具不一樣。
王曉剛:但要形成影響力的話,在產業(yè)里面把AI落地是非常重要的點。從培養(yǎng)人才來說,以前我就帶十幾個博士生,每年有幾個人畢業(yè)。但到了商湯,我們這幾年培養(yǎng)了幾千人。
對人才的培養(yǎng),底層其實還是要實現技術突破,讓技術產生社會價值,同時也能培養(yǎng)人,底層邏輯是一樣的。但這里面實現的方式不一樣,從原來的學術背景到今天的產業(yè)界,風格各方面都不一樣。
但這里面我也能體會到自己的優(yōu)勢,比如說管理,他們之前給我上了很多管理課,最終我發(fā)現精髓就兩個字:信任。這個和我以前做老師,背后的核心邏輯是相通的,可能表面看著有很多不一樣,但做事、管理不可避免會帶著原來的背景,也會做出不一樣的事情。
其實不光是我,湯老師以前做這些事情,能夠實現超出行業(yè)引領性的東西,因為他原來也不是一個企業(yè)家。有時候思考維度、追求的東西不一樣,反而能夠做出一些引領性的東西出來。
Q周曉鶯:您覺得在自己的發(fā)展經歷當中,什么對您影響特別大?
王曉剛:那肯定是湯老師對我影響最大,我2001年本科畢業(yè),那時連CVPR是什么都不知道,國外那些高水平研究、論文都沒見過。到后面他創(chuàng)立商湯,要做公司,我說我們做研究挺好的,為什么要做公司,他一步一步把我們的人生軌跡改變了。
周曉鶯:遇到一個好的老師,人生的引路人很重要。
王曉剛:2001年的時候,相當于中國AI研究從中國走向世界,原來就是自己搞,都不知道高水平研究是什么。2014年就是AI落地了,從寫論文到產業(yè)落地,也是一個劃時代變化。再到2021年湯老師做國家實驗室,AI變成了國家的一個戰(zhàn)略選擇,一個責任。所以說每一步都有深刻意義,也是在那個時代背景下發(fā)生的事。
Q周曉鶯:您對現在年輕人有什么好的建議嗎?
王曉剛:最早湯老師給我們的要求就是要堅持原創(chuàng)、堅持創(chuàng)新,做別人沒有做過、不敢想的事情,這在今天可能特別缺少。為什么會出現“百模大戰(zhàn)”?ChatGPT出現之前沒有“百模大戰(zhàn)”,因為之前大家不知道能不能做出來,所以就不投入。一旦做出來了,大家覺得是確定的東西,都開始做同樣的事情,重復消耗了很多資源。所以能夠跳出這些思維,勇于擔當去做一些新東西,并且能夠堅持。