前段時間,特斯拉“完全自動駕駛”FSD,推送了最新的V12版本。
這次更新對整個智能駕駛行業發展來說,絕對算得上一次里程碑式的革命!
一般的智駕更新,基本上都是在原有的基礎上增加幾行程式碼,或是最佳化個參數,主打一個小修小補。
特斯拉倒好,不僅沒在基礎上做加法,反而大砍一刀:把FSD原本30多萬行的C++程式碼砍到只剩3000行,縮減了99%!
你想想,假如一個人突然發生意外,掛掉了99%的腦細胞,即便能僥倖活下來,大機率也會變成植物人。
可反常理的是,只剩3000行程式碼的FSD V12,非但沒有變成人工智障,反而比之前任何一個版本都要聰明!
在國外,不少長測FSD的博主都表示:“剎車和轉向的停頓感減輕了很多,前所未有的舒適和絲滑,決策上也特別自信,就和真人開車一個樣。”
就比如在兩邊有大車遮擋視野的時候,老版本FSD會直接大膽地通過,有鬼探頭了再來一腳AEB急剎;現在則會提前減速,像極了老司機的防禦性駕駛。
再比如遇到多車通行的複雜路口,以前會直接剎停等待,直到路口人車沒那麼複雜再前進。現在則會不斷低速蠕行,找到交通流中的一條縫隙再小心地鑽縫通過。
開著FSD路上突然碰見一隻貓,車還會和貓博弈爭奪路權——先緩慢接近,直到貓咪跑開,它才會繼續前進。
包括以前處理不好的環島和掉頭路段,現在也可以更絲滑的處理。甚至手動把車開到一個比較尷尬的複雜路段,再開啟FSD,系統都可以做到正確接管。
中國自主品牌智駕頭牌CEO之一的何小鵬,在聽聞FSD這波史詩級更新之後,毅然決然的跑到美國親自試駕了一波,完後發微博用“極好”二字對新版FSD讚歎不已。
雖說這次FSD更新相比老版本而言有了很明顯的進步,但新的問題也隨之而來——
有時候系統會顯得有些“聰明過頭”了,會自己隨機產生一些意料之外的想法。
比如該按照導航直行的路段,車卻自己並線到了左轉車道,還順利執行了左轉。
再比如,有時候車會把用於警示作用的持續閃爍的紅燈,錯誤的識別成紅綠燈而剎停,即使有車從旁邊經過也無動於衷。
不過讓人匪夷所思的是,第二天同樣還是遇到持續閃爍的紅燈,車在剎停之後,前面的施工工人在朝車招了招手,示意可以向前開之後,車就像是讀懂了工人的手勢一樣,竟然開始前進通過路口了!
現階段FSD V12版本確實還存在不少BUG,就像薛定諤的貓一樣神秘莫測。但總體上來說,新版本的表現要更加出色,有些時候還會展現出和人一樣的決策能力。
可別忘了,新版本FSD的程式碼只有3000多行,和80年代“小霸王”上的熱門遊戲《坦克大戰》的程式碼行數幾乎一樣!
雖說現在的智駕領域,已經不是程式碼越多越複雜、程式碼越多功能越強的年代了,畢竟還有一種叫做“祖傳屎山程式碼”的東西。
但特斯拉只靠重建程式碼就能獲得近乎完美的智駕體驗,這確實大大出乎了所有人的想像。他們到底是怎麼做到的?
這就不得不提到一個,最近在智駕圈子裡炒的很熱的一個新名詞了——“端到端”。這也被很多業內人士認為,是智能駕駛的終極答案。
我第一次聽說“端到端”這個詞的時候,以為就是字面意思,“從A端到B端”,畢竟這是我認為自動駕駛的終極目標嘛。
後來才發現,端到端完全不是這個意思。
端到端的英文名叫“end to end”,如果指的是起點到終點,那應該叫“start to end”。
實際上,端到端指的是:根據攝影機等感測器的圖像資料,直接生成車輛的轉向、剎車和加速度訊號去控制車輛,即“感知決策執行一體化”。
這個詞有點晦澀,我再給大家打個比方。以前是三個人打配合,一個瞭望手負責看路,一個指揮官負責決策,一個操舵手負責駕車。
而特斯拉這次的FSD V12,不需要分三個人了,一個人就能全搞定!
看到這可能有人會說,現在車企做智駕不都是這個路數嗎?其實不是的。
目前絕大部分智駕廠商,採用的都是序列的結構框架,也就是好幾個人打配合的方案。
即先通過攝影機、雷達獲取感知圖像,再把感知圖像處理成機器能看懂的數字訊號,再把數字訊號傳送到智駕晶片做邏輯運算,處理成加減速、轉向訊號,再傳遞給電機和轉向機執行控制,每一個環節都是由一個獨立的模組去控制的。
具體來說,現在大部分頭部智駕廠商,從感知到決策這一階段,主流的都是用的BEV鳥瞰圖+ Occupancy佔用網路+ Transformer模型的組合。
BEV鳥瞰圖,就是把雷達和圖像訊號,從正檢視轉化成俯檢視的一種技術,為的是能更清楚地確定車的方位,也就是瞭望手站得更遠,看得更清楚。
Occupancy佔用網路,就是把二維的圖像訊號,轉化成小方塊狀的三維空間,有點類似於《我的世界》,用來防止車輛磕碰障礙物。
Transformer,算是大模型的一種,前幾年爆火的ChatGPT中的“T”,其實指的就是Transformer。
它的作用是能讓機器在處理訊號時,能篩選出重點資訊重點計算,而不是一股腦的全部計算,提升算力的效率,也就是讓指揮官更聰明、決策更快。
在串聯式架構,配合上BEV+Occupancy+ Transformer,就構成了我們現在能接觸到的所謂“高階智駕”。
不過,現在這種主流的智駕方案,有幾個難以規避的弊端。
首先,串聯式架構這三個人傳話本身是需要消耗時間的,會導致系統整體的反應速度偏慢,反映到智駕體驗上就是感覺車會猶猶豫豫的。
畢竟從感知到決策再到執行,很可能要零點幾秒甚至更久一些,在瞬息萬變的車流中很難立刻進行調整,這就是很多智駕“不敢頻繁變道”的根本原因。
其次,傳話從第一個傳到最後一個,很可能話在中途就變了味,也就是資訊失真。尤其在複雜場景下,會增大事故的機率。
再有就是,傳統智駕方案中,想要讓系統更精確的應對更複雜的場景,採用的方式一般都是“做加法”,比如在原有的基礎上多寫幾行if、else之類的邏輯程式碼。
久而久之,整套智駕系統就會變得越來越繁雜,就像你的手機系統,用久了肯定會卡。
而且即使加了越來越多複雜的判定邏輯,也沒辦法照顧周全,因為總有極端複雜到機器無法處理的場景。
真遇到這樣的場景,就算把晶片算力拉滿了也搞不定,有可能就直接把系統干崩潰了,也就是智駕圈子裡常說的“corner case”。
相比之下,端到端智駕把感知、決策、執行這三個環節都整合到一個大模型中去做,只要輸入攝影機和雷達訊號,就能直接生成控制訊號,控制車轉向和加減速,省去了原本的邏輯判斷過程。
可以簡單認為,端到端智駕相當於把智駕系統的分析判斷變成了和老司機一樣的“本能行為”。就像是刷了無數遍題的學霸一樣,只要把題讀完就能寫出正確答案。
前面所提到的FSD V12的3000行程式碼,其實並不是普通的程式碼,而是3000行神經網路程式碼。
它有點像動物的神經元細胞,能產生神經反射這樣的快速響應。因此端到端智駕的運行速度,是遠高於傳統智駕方案的。
換句話來說,端到端更像生物的運行邏輯。人類在開車的時候,眼睛看到的圖像本質上是二維的,但並不妨礙我們做出正確的駕駛操作,並不需要在腦子裡先把“正檢視”轉化成“俯檢視”,再做個“2D轉3D”。這樣太複雜了。
本質上來說,端到端智駕演算法的橫空出世,是對傳統BEV+Occupancy演算法的徹底顛覆,也是另一種形式的降維打擊。
傳統智駕系統需要精確識別並標記車、人、車道線、障礙物等元素;而端到端智駕會更注重識別宏觀場景,比如天氣好壞、鬼探頭盲區等等,都會納入到識別範圍。
畢竟,傳統智駕靠的是死板的邏輯,端到端智駕靠的是巨量資料喂出來的經驗。
既然靠的是經驗,那麼想要保證智駕系統做出正確的抉擇,就需要像“海量刷題”一樣,將大量“行車視訊+人類開車動作”的資料,投喂到大模型訓練之中。
所以說,在端到端智駕時代,資料比碼農要重要得多!
這也解釋了為什麼前段時間特斯拉在全球範圍內大規模裁員,而理想在正式宣佈進軍端到端智駕的同時,也對原本的智駕部門人員進行了大刀闊斧的“最佳化”。
相比之下,算力就成了非常重要的資源,馬斯克在今年7月份跟輝達手裡又買了35萬張顯示卡,就是為了更快的處理資料。
雖說端到端從定性上來說,比傳統智駕方案顯得更高大上一些,但目前在體驗上還不能保證100%優於傳統智駕方案。
實際上,今年1月份特斯拉剛剛開啟FSD V12版本推送時,其實使用者的吐槽聲是遠多於點讚的,出現了各種各樣以前聞所未聞的BUG。
馬斯克第一次做FSD V12直播測試的時候,還險些闖了紅燈。
直到半年時間更新了好幾個小版本,特斯拉FSD V12才逐步展現出威力,給使用者感覺FSD像自己在開車一樣。
畢竟訓練FSD端到端大模型的資料來源本身,就來源於全球海量的特斯拉車主。所以表面上是FSD在開車,實際上是自己在開車,是全球特斯拉使用者的集合在開車。
當然,這可能也是FSD V12有時候會隨機產生“獨立想法”的原因,畢竟人開車有時候也會犯錯,投喂了“不乾淨”的資料,智駕模型也會變蠢。
這時,端到端智駕相比傳統智駕方案的一大劣勢,就會暴露出來。
以前靠修改程式碼就能修改的BUG,現在發現了問題沒法及時修正,因為大模型本身就是個充滿未知數的“黑盒子”,只能通過投喂更多資料的方式,儘可能的修正錯誤,降低犯錯的機率。
雖說端到端起步比傳統智駕更弱,但進化速度更快,理論上能力上限更高。
在大量資料堆砌下,幾年之後端到端智駕會經過拐點,在能力上超越傳統智駕,能達到無限接近人類駕駛水平的效果。
這也是為什麼小鵬、華為、理想、蔚來等國內一線智駕玩家,都開始不約而同的宣佈進軍端到端。
毫無疑問,特斯拉直接把智駕底層邏輯完全改寫為“端到端”,是非常激進的,這一定程度上可能也會成為FSD在國內“過審”的阻礙。
相比之下,國內已經宣佈進軍端到端智駕的車企,採用的都是“部分端到端”,沒有特斯拉那麼激進。
之所以保留了部分傳統智駕的架構,大都是為了安全性“兜底”,防止系統誤判導致極端事故的發生。
至於這幾家的端到端具體有什麼不同,今天受限於篇幅就不繼續和大家聊了。等到下次,再單開一篇和大家好好分析分析。
寫在最後
記得20年前,諾基亞在手機界一騎絕塵。
而Android剛剛初露頭角的時候,核心程式碼數隻有1000多萬行,僅為塞班系統的1/3。
雖然早期Android應用少、不如諾基亞的塞班好用,但隨著Android應用生態體係指數級膨脹,諾基亞和塞班最終被淘汰,成為了歷史的塵埃。
如今智駕端到端技術的出現,某種程度上預示著智能駕駛也將迎來新一輪的革命。
真正意義上的AI正在車上生根成長,勢頭已然無法阻擋。 (電動車公社)
