爭論源于這個話題:復(fù)雜的Occupancy Network可以在10毫秒中計算完畢,也就是說Tesla Occupancy Network的輸出可以達到跟相機同樣的36Hz,而目前絕大多數(shù)Lidar的采集頻率只有10Hz————這個結(jié)論對嗎?fsd視覺處理能超過30hz?
于是討論開始了:
ZHOU:吹牛唄,某些人就是特粉,認(rèn)為特斯拉天下無敵。LIDAR頻率可調(diào),5-30Hz都有。某些FLASH LIDAR,頻率可輕松做到1000Hz。特斯拉HW3.0那個DRAM才16GB,帶寬63.5GB/s,一個OCC模型至少20GB,根本裝不下,以這個帶寬,3Hz都做不到。要跑大模型,必須HBM,帶寬至少TB/s級。
YU:大模型是否上車這事,嚴(yán)重不同意老周觀點。我認(rèn)為已經(jīng)上車了,采用壓縮處理方式。
ZHOU:這個大小是相對的,比如早期CNN模型參數(shù)只有幾百萬,那么幾千萬參數(shù)也可以說是大模型。但真正的大模型或者說主流的,參數(shù)都至少是1000億起。
ZHU:基于AIday 的介紹,這一系列復(fù)雜計算可以在10ms內(nèi)完成,意味著完全能跟上車載攝像頭36幀的拍攝頻率。
業(yè)界激光雷達的普遍水平為10Hz的掃描頻率,而問界M9激光雷達的掃描頻率高達20Hz,這意味著其能夠更快地更新環(huán)境信息,提供更實時、更準(zhǔn)確的感知數(shù)據(jù)。這有助于提升問界M9在智能駕駛中的表現(xiàn),提高行駛的安全性和舒適性。
ZHOU:所謂知識蒸餾并不能壓縮大模型,它只是訓(xùn)練方面無需太多的硬標(biāo)簽。超過100億參數(shù)的大模型永遠上不了車。因為必須用HBM,HBM太貴了,做HBM必須臺積電2.5d或3D工藝,芯片價格不低于5000美元。多看幾篇頂尖論文就知道了。
ZHU:千億參數(shù)涌現(xiàn)智力,這個智力是人的較全面的智力。但如果處理專業(yè)方面的智力,的確是可以通過剪枝、知識蒸餾、量化等很多方法實現(xiàn);現(xiàn)在三星、蘋果已實現(xiàn)百億模型壓縮后在手機上流暢運行,今年有望實現(xiàn)千億模型壓縮后,在終端運行,帶來很好的體驗。
ZHOU:transformer和大模型一樣,永遠無法做骨干網(wǎng),車載領(lǐng)域骨干網(wǎng)還是CNN。手機可以運行百億參數(shù),那個是語言模型,不需要實時性,人可以等1-3秒,就算流暢。車不一樣,車要30Hz,高速60Hz,換句話說性能要是手機的100倍。
ZHU:其實駕駛并不需要多高的智力,也就是并不需要太復(fù)雜的信息處理,一個普通智力的人也能開好車,從宏觀的角度看,基于transformer的FSD大概率已經(jīng)實現(xiàn)了全自動駕駛了。我不是特粉,但客觀地覺得特斯拉做到了。
ZHOU:特斯拉芯片遠不如頂尖手機,像高通的gen 3
ZHU:在核心算法上,之前和幾位業(yè)內(nèi)人士溝通過,國內(nèi)確實落后5-10年,甚至更大
ZHOU:不僅是算力,關(guān)鍵還是存儲;核心算法,特斯拉也就是中等偏下。
ZHU:馬斯克本來就是OPEN AI的股東,而且還有很強大的人形機器人業(yè)務(wù);英偉達最早的AI服務(wù)器就是給了馬斯克的。
ZHOU:特斯拉沒有任何原創(chuàng)東西,骨干網(wǎng)regnet是facebook的,neck是谷歌的bi-fpn,head是谷歌的ViT-B做Bev transformer,至于OCC,它就沒有。這可都是AI DAY寫出來的。OCC只是個預(yù)測頭,硬要說特斯拉有,那就是15年前就有的mlp。
YU:轉(zhuǎn)一張圖片:
ZHOU:特斯拉自己的圖,大大方方承認(rèn)自己不原創(chuàng)任何東西,偏偏有人認(rèn)為特斯拉啥都是原創(chuàng)。特斯拉愿意公開算法,讓我有東西可寫,這一點要大力贊揚,希望人人都公開。那個NeRF主要也是谷歌的;端到端、vision transformer都源自2019年Facebook那篇DETR的論文。
YUAN:不過卷來卷去,智駕未必是客戶的必要條件,最多是充分條件。否則小鵬、阿維塔的車型應(yīng)該在國內(nèi)成為市場主流。特斯拉開放fsd也就那樣吧,不認(rèn)為對他國內(nèi)的競爭力有本質(zhì)影響,何況目前開發(fā)的還是帶高輔地圖的產(chǎn)品,估計未必是美國那套算法,可能在國內(nèi)重新做適配和路況算法迭代。
其實小米對特斯拉沖擊更大,特斯拉以前客戶很多就是女性,現(xiàn)在特斯拉沒啥流量和網(wǎng)紅效應(yīng)了。所以估計特斯拉在國內(nèi)還會不斷拉垮,主要他車實在是太簡陋了,競爭力只能越來越弱。fsd頂多對少部分極客有吸引力,何況還要額外收費。
ZHOU:順便說一句,META的羊駝3可以秒殺微軟的ChatGPT3.5。就是META非要注冊,不像微博或X,不注冊也能看內(nèi)容,居然還有人給META投上千億廣告,真是想不通。
ZHU:假如FSD實現(xiàn)全自動駕駛,進入中國后,對國內(nèi)汽車產(chǎn)業(yè)鏈有哪些影響(特別是出行服務(wù))?對傳統(tǒng)主機廠、新造車勢力、Tier1等等,這個問題應(yīng)深入討論。
我們以為汽車行業(yè)的競爭,是在汽車內(nèi),但從技術(shù)、產(chǎn)業(yè)發(fā)展史來看,行業(yè)內(nèi)的顛覆性變革,基本來自業(yè)外。比如汽車替代了馬車夫、互聯(lián)網(wǎng)干掉了零售,本輪自動駕駛的競爭從來不是汽車業(yè)內(nèi)的競爭,而是AI的競爭,當(dāng)我們在搞新能源的時候,人家在搞AI。
汽車的確有駕駛樂趣、身份象征等價值,但本質(zhì)屬性是出行工具,安全、舒適、便捷,還是核心價值,就像手機替代了家用照像機后,專業(yè)相機、個性化的膠卷娛樂相機,也還是有一定的空間。
YU:這個對比的結(jié)論就是,非自動駕駛車輛會淪落為與專業(yè)相機一樣的小眾市場(笑)
ZHU:我覺得沒這么極端,而且需要很長的過程吧。二三十年前全國抓計劃生育時,誰能想象現(xiàn)在的年青輕人不想結(jié)婚,不想生孩子;同樣,再過二三十年,有多少年輕人愿意開一輛不能自動駕駛的汽車?特別是在長途中,高速上。
YUAN:這個演變趨勢就很難看清了,不過RoboTaxi確實是一個潛在的大變局,不過把生命交給機器,感覺未必有那么快。城市里還可以,畢竟速度慢一些。
ZHU:這個問題我也想過很多遍,但有次清華的一個老師一句點醒我,他說那你覺得你現(xiàn)在坐在車上,飛機上,難道生命掌握在自己手上?
YUAN:人性潛在的保守,從汽車的發(fā)展也能看到,智能車在中國發(fā)展那么好,實際上賣的最好的是不帶(高級)自動駕駛的比亞迪、吉利、廣汽的車型。
ZHU:其實,本質(zhì)還是對技術(shù)的認(rèn)識和技術(shù)的成熟度。
YUAN:理想汽車也算是偏傳統(tǒng)走法,產(chǎn)品力第一位,而不是智駕,所以理想汽車更加成功。
高階自動駕駛功能肯定也很重要,是一個重要選項。比如小米爆款了,是因為他的智駕?我感覺也不是。
YU:外形設(shè)計依然是購車第一選項。
YUAN:智駕當(dāng)然小米也是一個賣點,比如客戶可能更傾向于高階版本的小米。外觀,內(nèi)飾,體驗,目前依然是勝負(fù)手。其實特斯拉在歐美也賣不動了,車不是手機那么簡單的東西。fsd在美國的選裝率從最初的60%跌到現(xiàn)在不到20%。逼得特斯拉不得不降低選裝價格。在中國感覺他卷不過國內(nèi)車企。特斯拉最該做的是做本土化開發(fā),重定義產(chǎn)品。
ZHU:去年和硅谷一個人線上溝通,他說特斯拉從2018年開始,戰(zhàn)略重點已轉(zhuǎn)向AI、人形機器人,汽車方面的事在馬斯克眼里已做得差不多了,從Dojo的布局和利用來看,也確實主要支撐人形機器人業(yè)務(wù)。
YUAN:人形機器人確實是,消費級機器人更加標(biāo)準(zhǔn)化,比做汽車靠譜。人形機器人確實可能才是未來的真正殺手锏。
ZHU:對人工智能的技術(shù)判斷,當(dāng)時(2016)是這樣的:
那時候transformer還沒有出現(xiàn)。
YUAN:人形機器人可能是人工智能的關(guān)鍵載體。汽車雖然也是,但汽車確實性命攸關(guān),雖然有些人真的不管那么多開智駕,但絕大部分人是不敢的。城區(qū)的RoboTaxi也是載體,畢竟速度慢一些,所以小馬一直在這里下注,始終在乘用車L2上猶豫不決。
ZHU:但是對于人工智能預(yù)測研究,去年年底我的結(jié)論發(fā)生了質(zhì)的變化:
LUO:這是我對AI行業(yè)發(fā)展的一個總結(jié):
YUAN:贊同。人形機器人才是AI的終極,汽車太多元化了,個性化了。
ZHU:基本贊同。