矽谷頂級投資人對談:特斯拉FSD V12的護城河在哪裡?


5月7日,特斯拉CEO馬斯克在X 平台上表示,最新版本的自動駕駛FSD 會讓你大吃一驚。

恰巧今天,投資機構Altimeter Capital執行長布拉德利‧格斯特納(Bradley Gerstner)也在播客上再次放出了與矽谷創投公司Benchmark的合夥人Bill Gurley(右)就特斯拉FSD V12版本的對話影片。


整體上,兩位大佬認為,特斯拉的端到端模型,所擁有的車隊規模,以及能夠獲得的高品質數據,能讓特斯拉在自動駕駛領域擁有無可匹敵的優勢。

精彩觀點:

特斯拉以模仿學習驅動的端對端神經網路模型取代了確定性C++程式碼模型。這家公司非常大,有成千上萬的員工,但卻做出了一個如此激進的決定——就是要扔掉整個事情並重新開始,這簡直太瘋狂了。與那些先前的模型相比,這個模型每月的改進率要好5 到10 倍。

關於特斯拉和FSD V12 的故事,最令人著迷的事情之一就是當你了解他們從哪裡獲取數據。它們擁有龐大的車隊,然後可以上傳數據,這是大量的數據,沒有誰有能力做到這一點。

車輛收集的99% 的數據永遠不會返回特斯拉。他們真正要尋找的是異常時刻是什麼,然後找到十個、幾十個、數百個或數千個這樣的時刻來訓練模型,對模型進行微調,然後他們將這些模型重新上傳回汽車。這就是為什麼我們會得到這些指數級的改進時刻。

以下是經過編輯的對話實錄:

Brad Gerstner :我試駕了特斯拉最新的FSD V12 軟體,我認為這感覺有點像是一個ChatGPT時刻。大約12 個月前,特斯拉團隊非常戲劇性地對他們的自動駕駛模型進行了分叉,將其從真正的C++確定性模型轉變為他們所說的端到端模型。你一直是自動駕駛的長期觀察者,你的想法是什麼?

Bill Gurley:人們對於自動駕駛一直存在批評和擔憂。願意質疑是,自動駕駛不能對所有的極端情況(corner cases )進行編碼。corner case是指你遇到問題的地方,讓你最終陷入困境的地方。以前,特斯拉會嘗試為這樣的每種情況編寫一個程式碼,就像一個軟體,如果如果發生X,那麼就發生Y。但這種情況導致軟體成為一種拼湊而成的東西,就像老鼠的洞穴一樣,堆疊起來,不斷積累,一點也不簡潔優雅。

特斯拉的團隊已經完全拋棄了編碼,並採用了神經網路模型,他們正在上傳他們最好的駕駛員的駕駛影片。從字面上看,視頻是輸入,輸出是方向盤、煞車和油門。你知道有一個奧卡姆剃刀原理(Occam's Razor),它在科學中永遠存在。那就是,一種更簡單的方法,更有可能是最佳方法。當我完全理解他們在做的事情時,在我看來,這種方法更有可能走下去並取得成功,同時,它也是可維護和合理的,並且更加優雅。另一件令人印象深刻的事情是,這家公司非常大,有成千上萬的員工,但卻做出了一個如此激進的決定——就是要扔掉整個事情並重新開始。


Brad Gerstner :讓我們稍微了解一下V12跟先前版本的不同之處。在V12 的模型中沒有紅綠燈的確定性視圖,但是此前,必須正確標記紅綠燈。這樣的情況下,汽車第一件事就確定你正處於紅綠燈處,然後第二件事透過C++ 程式碼執行下面的操作。但這一切就像你剛剛談到的那樣,是拼湊而成的,並且很難解決每一個Corner case。但是,現在所有的東西在這個新模型中都是像素,模型本身沒有代碼,它不知道這本身就是紅綠燈,事實上,他們只是觀察駕駛員的行為,然後模型決定應該如何表現。我認為這是一個非凡的突破,我們了解到的是,與那些先前系統相比,這個模型每月的改進率要好5 到10 倍。

Bill Gurley:再說一次,大膽地扔掉整個舊的東西並放入新的東西,對於特斯拉來說是一件瘋狂的事情。許多人將人工智慧與LLM大模型等同起來,因為ChatGPT 和LLM 的到來確實向大多數人介紹了人工智慧的能力,這些都是大語言模型,而特斯使用的通用的開源人工智慧模型,可以在Hugging face上找到它們。但是特斯拉肯定進行了客製化開發,所以會有一些專有程式碼。

人工智慧已經發展了很長時間,神經網路的概念在大模型出現之前就已經存在了,這就是為什麼他們四年前就開始嘗試這樣做了。基本的元素已經有了,透過他們使用的方式,以及大型英偉達GPU 集群來進行訓練。這個模型使用跟大模型一樣的GPU或TPU硬體進行推理,但是他們不是同一類型的程式碼。我認為這一點值得一提。

Brad Gerstner : Transformers、擴散架構,卷積神經元網絡,不是新東西,在過去十年裡一直在研究,現在特斯拉正在將這些組件整合在一起,現在他們投入了所有的精力,並且重點變成瞭如何取得數據使這些模型變得更好。所以,突然之間,數據成為了核心的問題,因為模型本身只是消化這些數據。

Bill Gurley:關於特斯拉和FSD V12 的故事,最令人著迷的事情之一就是當你了解他們從哪裡獲得數據。他們用五個攝影機追蹤最好的司機,然後加入計畫的司機連夜上傳影片。特斯拉司機說他們每晚上傳10 GB 的數據,因此你必須擁有Wi-Fi 之類的基礎設施。有一個男人,他的Tesla在一個月內上傳了115 GB 的數據,所以這是一個巨大的數字,而五年前的基礎設施,汽車根本無法做到這一點。我們稍後會討論競爭,它們擁有龐大的汽車車隊,然後可以上傳數據,這是海量的數據,還有誰有能力做到這一點。

Brad Gerstner :所以你只需計算一下500萬輛汽車,每天行駛30 英里,汽車上有八個攝像頭,每個攝像頭5 兆像素,然後數據可以追溯到10 年前,顯然不能把所有這些數據都存儲起來。我認為,汽車收集的99% 的數據永遠不會返回特斯拉。 (註:馬斯克轉發這個對談影片時,回覆稱只有1/10000的行駛里程數據有用。)他們真正要尋找的是異常時刻是什麼,然後找到十個、幾十個、數百個或數千個這樣的時刻來訓練模型,對模型進行微調,然後他們將這些模型重新上傳回汽車。這就是為什麼我們會得到這些指數級的改進時刻。特斯拉在路上有500萬輛車,擁有所有這些基礎設施,正在收集數據,想想Waymo ,它們還在用舊的架構,路上大概有30、40 輛車,它們還有什麼機會嗎?即使採用了端到端的架構,Waymo 還有機會嗎?

Bill Gurley:這是一個有趣的問題。順便對你所說的上一件事進行快速評論,實際上特斯拉的工程師們非常聰明,他們已經教會了汽車應該記錄哪些時刻,比如託管時刻,它們會想要託管之前和之後的時刻的時刻,以及油門過快或煞車被快速擊中、方向盤抖動的時刻等。人們已經聽說過你知道人類回饋的強化學習,它們會把這些時刻放入模型中,並增加額外的權重。所以它告訴模型,如果出現汽車顛簸等類似情況,這是更重要的事情,必須格外注意。我們都知道,這些極端情況是現在自動駕駛最大的問題,他們有辦法捕捉這些重要的時刻,並從中學習。開始的時候,它們需要的是海量的數據,現在帶給他們優勢的是,它們可以捕捉到哪些更嚴重,但是並不頻繁的時刻,因為車隊規模足夠大。我不知道誰可以進行這樣的競爭。讓我們作出一個斷言,如果端到端的模型是正確的解決方案,那麼讓我再次有理想相信,Cruise、Waymo,甚至Uber 都不可能進行競爭。

Brad Gerstner :請記住比爾剛剛說了一個重要的觀點,這不僅僅是數據量的問題,而是數百萬輛汽車周圍會發生的一些神奇的事情。你不必獲得所有數據量,但要正確地記錄長尾事件的時刻,這些都是只發生幾十或幾百次的事件,這才是你真正需要數百萬輛汽車的地方,否則你就沒有這些長尾實例的相關統計池。所以關鍵的是數據質量,尤其跟不良事件相關的數據。

Bill Gurley:我覺得其他公司也可能採取行動,例如Mobileye 或其他公司,但問題是,他們無法控制汽車的整個設計。特斯拉在晚上將汽車停在車庫中並上傳千兆位元組並將其直接放入模型中,就像他們能夠與其他原始設備製造商合作完成這項工作一樣。他們在車上有一塊東西,說何時記錄,何時不記錄,並且這像一個巨大的基礎設施問題。

Brad Gerstner :特斯拉擁有網路優勢,擁有數據優勢,以及更大的H100 集群,顯然處於領先地位。但是如果你想一想特斯拉的正確之處是什麼?那我們先會調出這張投影片。如果你看看沒有FSD的Tesla 的單位經濟效益,他們在一輛汽車上賺了大約兩千五百美元,如果你今天看看,他們的FSD 滲透率約為7%,如果降價達到20%或者50% 的滲透力,將會創造數十億美元的增量EBITA。從特斯拉的角度,為什麼它們要提升FSD 的滲透率,是因為他們能夠讓資料飛輪轉起來。所以我的猜測是,它們看到這樣能夠實現有意義的改進。我周邊有人說Waymo 價值5-600 億美元,但是我覺得,它們很快就會成為歷史,因為它們在根本上已經很難趕上了。


Bill Gurley: Waymo的團隊規模跟Cruise 差不多,Cruise 的財務表現非常糟糕,我認為Waymo的表現也會差不多。我一直在思考這種模式,製造令人難以置信的汽車,並採取對外服務的商業模式。如果做一個10 年的模型,可能需要去融資1000 億美元。還有另一個因素,特斯拉的團隊非常強烈地認為,雷達不是必須的,但是Waymo、Cruise 使用了這些成本高昂的組件,所以如果這一切都是真的,那麼這也是一個非常激進的新發現。

Brad Gerstner :許多機器人也開始轉換成模仿模型。史丹佛大學的學生示範了一個視頻,只需要2 分鐘的訓練視頻,就能訓練器械手臂拿起咖啡杯。我認為,我們將看到這些端到端學習的應用模型、模仿學習模型將不僅僅影響汽車。

Bill Gurley:這個影片的另一個偉大之處是,它實際上非常簡單地解釋了特斯拉的東西如何正常運作。我的意思是,它只是一個不同的規模,顯然說的是完全相同的事情,只是做了一個非常簡化的處理。

Brad Gerstner :這個是一個很少人工幹預的自動飛輪,我猜測,特斯拉可能有更多一些的工程幹預,但是我覺得特斯拉從事此項工作的團隊規模可能是Cruise 的十分之一。

Bill Gurley:這種方法消除瞭如此多的複雜性, 它用更少的人做到了這一點。用更少的人得到更好的東西,這真的很強大。(智慧超參數)