特斯拉大裁員后的豪賭，FSD v12 是如何誕生的

巴比特_AIGC一大队347天前

圖片來源：由無界AI生成

上一次艱難時期的持續投入，成為特斯拉應對這一次艱難時期的武器。

文丨賀乾明
編輯丨黃俊傑

裁員 1 萬多人、大幅縮減重要項目 4680 電池團隊、負責三電系統的高級副總裁等高管離職……特斯拉 CEO 埃隆·馬斯克在 4 月 15 日發起的大調整，只是一個序幕。

之後半個月，特斯拉持續裁撤曾經的重點項目：4680 電池項目繼續裁員、北美的超級充電樁團隊完全解散、9000 噸以上一體壓鑄機項目被叫停，相關高管大批離職。接下來的 6 月，特斯拉還會在加州和得州兩地裁員超過 6000 人。

馬斯克的新賭注是全自動駕駛。無人出租車（Robotaxi）項目被拔到最高優先級。馬斯克宣布將在 8 月 8 日發布產品，今年投入百億美元採購 GPU、研發車載芯片，用於改進自動駕駛系統。他曾多次說過，只要持續迭代這套系統，就會實現無人駕駛，讓特斯拉成為 10 萬億美元市值公司。

在特斯拉的第二大市場中國，馬斯克也期望用這套系統翻盤。4 月底，馬斯克到訪中國，被政府領導接見。不久后，他在內部信中說，特斯拉已在中國獲得測試部分輔助駕駛系統的許可。

今年開始大面積推送的 FSD v12 自動駕駛系統確實展現出一些不同尋常的潛力。車主的反饋都很接近：“就像人開車一樣”，跟上一代相比有進步，狹路會車、超車更從容。

特斯拉 FSD v12 從容應對複雜路況（圖片來自 X@Rebellionair3）

自動駕駛公司元戎啟行 CEO 周光今年 3 月在美國體驗 FSD v12 后，承認還是低估了它的能力：“去之前我認為可能是 80 分的東西，但實際做到了 90 分。”

一家國內一線新能源企業負責人體驗后相信，特斯拉的自動駕駛會有革命性突破。競爭對手們不敢錯過，僅 4 月底北京車展前後，小鵬、華為、長城、商湯絕影等公司宣布將推出類似 FSD v12 的自動駕駛系統。同期，軟銀、英偉達和微軟用 10.8 億美元投資與特斯拉路線相同的英國自動駕駛公司 Wayve。

沿着特斯拉的路線，一場新的自動駕駛競賽正在開啟。這一次不只要解決技術難題，還是一場資源競賽。來中國當天，馬斯克在社交媒體上劃出入局門檻：“任何公司，如果算力投入達不到百億美元 ...... 就無法參与這一輪競爭。”

原理：砍掉 30 萬行代碼，讓數據決定車怎麼開

2000 年代，DARPA 在沙漠中舉辦的 3 場無人車挑戰賽，是現代無人駕駛技術研發的源頭。Google 招攬了優勝者，趟出一條可行的方案，將自動駕駛拆成多個環節：

用激光雷達、攝像頭等傳感器收集車輛周圍環境數據，交給依賴人工標註數據訓練出的模型，識別出常見的重要目標和各種障礙物（感知模塊），再配合高精地圖，讓系統了解道路會怎麼變化，最後依賴工程師用代碼寫成的規則決定車怎麼開（預測、規劃模塊）

最初，特斯拉也按照 Google 開闢的路徑去做自動駕駛，為了節省成本和迅速擴大使用範圍，他們開發依賴攝像頭，而不是昂貴的激光雷達和高精地圖的方案。推出 v12 前，特斯拉的自動駕駛系統工作流程大概是：

負責感知的視覺模塊先工作，處理攝像頭等傳感器捕捉的路況數據，識別出路上有什麼東西，大概怎麼分佈，哪些是動的，哪些是不動的，哪些是車道線，可以行車的區域有哪些等等。
然後是預測規劃控制模塊，調用感知模型處理過的信息，預測場景中人、車等動態目標接下來幾秒如何行動，結合模型和工程師提前寫入的規則，規劃安全的行駛路線，再控制方向盤、加速或剎車踏板，照路線行駛。

特斯拉在 2021 年 AI Day 上公布的 FSD 系統架構（圖片來自特斯拉）

為了盡可能應對路上遇到的各種情況，特斯拉數百名工程師寫了 30 萬行 C++ 代碼制定規則——相當於早期 Linux 操作系統代碼量的 1.7 倍。

這不是人學會開車的方式，人不需要認出一條路上可能出現的大量物體到底是什麼，也不需要為每個複雜場景提前制定各種規則，就能開車上路。

這樣做出來的自動駕駛系統，很難保證絕對安全。真實世界千變萬化，再多的工程師也難以窮盡。現在商業化的無人出租車，只能在有限區域運營，車內沒有安全員，只不過是運營方把他們轉移到雲端，遠程盯着。

直到 2021 年，在路上遇到一排交通錐，Google 無人駕駛子公司 Waymo 的無人車還是有可能停下來拒絕行駛。此時 Google 已經帶着整個行業投入上千億美元。一批公司在那兩年關停已經耗資數十億美元的無人駕駛項目。

“付出 20% 的努力，就能獲得 80% 的能力。” 小鵬原自動駕駛 AI 負責人劉蘭個川去年在一場學術活動上說，傳統自動駕駛方案開發簡單，但繼續提升困難。現在他加入英偉達智能汽車團隊。

特斯拉 FSD v12 學開車更像人。最大的改變是用了 “端到端” 架構：一端輸入攝像頭等傳感器獲得的數據，另一端直接輸出車該怎麼開。

訓練這套系統時，機器從大量車輛行駛視頻和人類司機在不同環境下打方向盤、踩加速踏板的數據中學習怎麼開車。

在 FSD v12 中，特斯拉工程師們寫的規則幾乎全被消滅，30 萬行規則代碼僅剩 2000 多行，不到原來的 1%。

端到端自動駕駛系統學開車的方式，也只是有一點像人，並沒有系統能像人類一樣真的理解世界。所以人學幾天，就能開車上路安全駕駛，但 FSD 要看海量的視頻學習。馬斯克去年在一次財報會上談到數據有多重要：“用 100 萬個視頻 case 訓練，勉強夠用；200 萬個，稍好一些；300 萬個，就會感到 Wow；到了 1000 萬個，就變得難以置信了。”

“傳統自動駕駛系統就像一個漏斗，信息一層層丟失。” 一位自動駕駛算法工程師說，傳統方案的感知階段，工程師們通常會設置 “白名單”，重點識別行人、車輛、車道線、紅綠燈等重要目標，以節省算力。到了預測規劃環節，工程師會提前設定，根據需求調用感知模塊輸出的信息完成工作，信息會再一次折損。因此傳統方案很難像人一樣用充分的信息決定怎麼開車，要依賴工程師們提前寫的規則。

而端到端方案中，攝像頭等傳感器獲得的信息全部傳遞到決策環節，“信息無損傳遞，模型可以從感知數據中捕捉更多信息完成決策，提升系統應對各種複雜場景的能力。” 上述自動駕駛算法工程師說，因為是端到端架構，模型的決策也會直接影響感知環節，讓它之後捕捉更多人意識不到但對駕駛有幫助的數據。

在許多場景，特斯拉 FSD v12 都有明顯提升。一位自動駕駛從業者（知乎 @EatElephant）告訴我們，他體驗后感覺到，與 v11 相比，v12 控制車輛的速度和轉向 “很絲滑”，“即使坐在後排，路口轉彎時幾乎感覺不到任何頓挫”。為了保證安全，傳統自動駕駛方案行車時，會時不時帶下剎車。

他在一篇文章中寫道，面對右前方有人騎自行車的場景，“v11 會過度小心，規劃出一條非常離譜的大幅繞行路線，v12 從容淡定，繞行幅度接近人類司機的選擇，速度控制和果斷程度也非常合理。”

那些難以用規則描述的場景，FSD v12 的應對方式有明顯進步。他舉例，比如遇到路邊開着雙閃的亞馬遜送貨卡車，能迅速判斷對向無車，立即借道繞行。而傳統的方案大多數情況下都會停下來，或者等一段時間才會考慮採取行動。

FSD v12.3 更新推送后，一批車主在 YouTube 上傳了車輛從容應對各種複雜的路況的視頻，比如晚間穿越擁擠的紐約第五大道，30 分鐘全程沒怎麼碰方向盤。

面對興奮的車主們，美國公路交通安全管理局在 5 月 6 日發函要求特斯拉詳細說明，如何防止車主濫用輔助駕駛系統，比如怎麼提醒駕駛員 “把手放在方向盤上”。

基礎：最難的幾年依然堅持預裝硬件、研發芯片、採集數據

2018 年初，特斯拉深陷產能危機、面臨生死考驗時，馬斯克發郵件給 OpenAI 管理層，希望 OpenAI 併入特斯拉，共同研發 “基於大規模神經網絡訓練的全自動駕駛方案”。

他認為，AI 研發需要巨資，而 OpenAI 需要建立盈利模式才能與巨頭抗衡。而特斯拉已經用 Model 3 和其供應鏈打造了火箭的 “第一級”，如果 OpenAI 能夠併入特斯拉，將會加速無人駕駛研發，打造火箭的 “第二級”，特斯拉會因此賣出更多車，OpenAI 也會有足夠的收入開展人工智能研究。

馬斯克的提議被拒絕，最後退出 OpenAI 董事會。但在此之前，他就已經從 OpenAI 挖來安德烈·卡帕蒂（Andrej Karpathy），負責自動駕駛技術研發，帶隊訓練效果更強的模型。

多位自動駕駛從業者認為，卡帕蒂加入特斯拉是其研發 v12 版端到端自動駕駛模型的開端。

1986 年出生的卡帕蒂，是過去十多年人工智能浪潮的親歷者，也是從中成長起來的人工智能科學家。他 2011 在斯坦福大學讀博士期間和導師李飛飛一起完善催生 AlexNet 的 ImageNet 競賽數據集，在各個學術會議上發表數篇計算機視覺論文，在斯坦福大學開設了第一門深度學習課。博士畢業后，他是最早一批加入 OpenAI 的人。

安德烈·卡帕蒂在特斯拉的 AI Day 上

2017 年 11 月，卡帕蒂發布著名的《軟件 2.0》文章，稱 “軟件吞噬世界，而人工智能為基礎的軟件 2.0 正在吞噬軟件”。那時經過大量數據訓練的計算機視覺模型，識別物體的準確率超過人眼。AlphaGo 從數據中學到了擊敗人類圍棋冠軍的方法。

他相信，靠着大量數據，人工智能在大部分有價值的垂直領域，“至少在涉及圖像 / 視頻和聲音 / 語音的領域，比你我能想出的任何代碼都要好。”

在卡帕蒂到來前，特斯拉已經完成了自動駕駛的數據基建。

用大量數據訓練更強的模型，是非常適合特斯拉的技術發展路線。但特斯拉要投入大量資源研發自動駕駛技術，馬斯克從不缺乏冒險的決心。

2016 年開始，每一輛出廠的特斯拉汽車都搭載能運行 Autopilot 輔助駕駛系統的硬件，花錢買了軟件才能開啟功能。到現在也沒幾個汽車品牌會這麼做，更常見的做法是把同一款車分成不同的版本，把搭載自動駕駛硬件車型賣給感興趣的客戶。

標配輔助駕駛的時候，特斯拉啟用 “影子模式”（Shadow Mode），就算駕駛員不購買 Autopilot 功能，這套系統也會在後台運行，記錄行車數據、規劃行車路線。馬斯克當時接受採訪說，它的作用是證明系統比人可靠，為監管機構批准技術提供數據支撐。

卡帕蒂加入后，影子模式成為特斯拉獲得訓練模型數據的核心來源——當系統選擇的路線與駕駛員的選擇有明顯偏差時，就會觸發數據回傳機制，系統會自動記錄攝像頭捕捉到的數據、車輛行駛數據等，等到連接 WiFi 後上傳到特斯拉的服務器中。到 2018 年底，特斯拉就靠這套系統採集 16 億公里數據，超過現在絕大多數研發自動駕駛技術的車企。

特斯拉的自動駕駛團隊把大部分精力放到數據上，搭建了一套數據處理系統，專門分析、篩選收集到的數據，一開始用人、後來絕大部分數據用機器打標籤，然後餵給模型，持續改進自動駕駛系統。為了用大量數據訓練模型，特斯拉在 2019 年之前，就採購大量 GPU 建設名為 Dojo 的算力中心，並持續擴大，到現在已經積累了等同 3.5 萬張 H100 的算力。

2019 年 4 月，特斯拉發布 HW 3.0 硬件，搭載兩顆 FSD 第一代芯片，算力達到 144 TOPS，是當時英偉達車載芯片 Xavier 的近 7 倍。和過去一樣，不論用戶是否購買輔助駕駛系統，特斯拉都這套硬件裝到每一輛特斯拉車上，而且免費幫買了輔助駕駛系統的老用戶升級。

“不僅讓我們能夠更快地運行當前的神經網絡（模型），更重要的是，它允許我們在車上部署更大、計算成本更高的模型。” 卡帕蒂說。HW 3.0 也是特斯拉現在能大規模推行 FSD v12 系統的基礎。

特斯拉搭建這套基礎設施的時候，也是它開始量產車輛以來資金最緊張的一段時間。從 2017 年到 2019 年初，特斯拉都深陷 Model 3 產能危機。

到 2019 年 3 月，特斯拉的現金儲備只剩 22 億美元，只夠再燒不到半年。《馬斯克傳》記錄，當時馬斯克對妻子說，“我們必須籌集到資金，否則就完蛋了。”

馬斯克想了幾夜后，決定面向投資人辦一場活動，即特斯拉 “自動駕駛日”。他告訴華爾街的投資人，無人駕駛汽車未來能幫特斯拉實現巨額盈利，接下來一年多時間會部署 100 萬輛無人出租車，重塑人們的日常生活。

沒人相信特斯拉的無人駕駛能很快到來。這場活動結束一個多月，特斯拉股價跌了 30%。靠着 Model 3 產能順利擴大，上海工廠迅速建成，特斯拉才緩了過來。但接下來的 5 年，是特斯拉自動駕駛基礎技術進步最快的階段。

實現：從模擬人眼開始，一步步擴展到整個系統

看視頻學開車的道理聽起來很簡單，但中間需要解決無數問題。

2020 年到 2022 年，特斯拉每年都會公開一版 “感知” 模型，每個版本都朝着模擬 “人眼” 更進一步。

2020 年 2 月，卡帕蒂在一場學術會議上展示了特斯拉訓練 48 個神經網絡組成的 “多任務模型”HydraNet，可以識別 1000 多個目標，比如汽車、自行車、車道線、學校區域等。

HydraNet 用微軟亞洲研究院 2015 年發布的 ResNet 模型當主幹，提取車身周邊 8 個攝像頭所捕捉畫面的通用特徵，交給不同的算法分支完成不同的任務。這麼做可以避免用不同的模型重複從相同的畫面提取特徵，節省算力。

這是當時學術界和多數開發大型計算機識別系統公司的選擇，特斯拉把它做得規模更大，並實現工程化。但這麼做有局限。HydraNet 只能從不同角度的攝像頭捕捉的畫面中各自提取信息，攝像頭可能只會捕捉到周邊物體的一部分。就像新手司機很難靠後視鏡流暢倒車入庫一樣，自動駕駛系統也很難靠它實現真正的無人駕駛，還得靠各種雷達、高精地圖輔助。

不用激光雷達的卡帕蒂團隊選擇使用一系列算法，將 8 個不同方向的攝像頭收集的畫面拼成一個 360° 的鳥瞰圖（Bird's Eye View，即 BEV）模式，再讓模型 “理解世界”，規劃行車路線。但想讓這套系統效果良好，得盡量保證地面是平的，而且車周圍環境要簡單，否則系統就難以準確理解不同攝像頭看到的圖片之間有什麼關聯。

“當我們用它實現 FSD 時，很快發現達不到預想中的效果。” 安德烈·卡帕蒂在 2021 年特斯拉 AI Day 上說，他介紹了用 Transformer 架構開發的新版模型，能準確地把跨越多個相機的目標拼得更準確、穩定。

動圖來自特斯拉 2021 年的 AI Day

上部三個視角是特斯拉車載攝像頭拍攝的畫面。左下是傳統方法拼出來的 BEV 道路圖，右下是 Transformer 方法拼接、預測的道路。

而且利用 Transformer 架構做成的模型，輸出的信息可以直接用到後續的預測規劃模塊，也為 FSD v12 做成端到端模型打下基礎。

與新模型配合，卡帕蒂還分享了一個名叫 “Spatial RNN” 的架構，用視頻訓練模型時，模型能獲得短暫的 “記憶” 能力，理解周圍的場景如何隨着時間變化，從而具備腦補攝像頭視野盲區、實時構建局部地圖的能力。

這次技術迭代，讓特斯拉的輔助駕駛系統不用高精地圖也能把車開好，再一次推高自動駕駛的能力上限，向人眼靠近。

等到 2022 年特斯拉 AI Day 舉辦時，卡帕蒂已經離開特斯拉。特斯拉的自動駕駛系統繼續迭代，繼任者阿肖克·埃盧斯瓦米（Ashok Elluswamy）介紹了 “佔用網絡”（Occupancy Network），在 Transformer 架構基礎上引入 “高度” 要素，能把不同角度攝像頭捕捉到的畫面還原成 3D 場景，計算出一個物體在空間中佔用多少點，從而推斷出它的形狀。

藉助 Occupancy Network，特斯拉的自動駕駛系統不用激光雷達，只靠攝像頭收集信息，就可以識別出它沒有見過的障礙物，被視為 “純視覺方案” 的勝利。

特斯拉多年研發，終於實現馬斯克多年前提出的第一個要求：人靠雙眼就可以識別、還原 3D 環境，車靠攝像頭也應該可以。

特斯拉 Occupancy Network 識別車輛周圍障礙物（圖片來自特斯拉 2022 年 AI Day）

在這個過程中，特斯拉還在逐步嘗試讓神經網絡決定車怎麼開。在 2021 年的 AI Day 上，特斯拉就展示了用大量數據訓練出來的 “神經網絡規劃模型”，當時只是作為輔助，為最終的規劃決策模塊提供參考。到 v12 版本，神經網絡正式接管預測規劃模塊，完成端到端拼圖。

疑問：自動駕駛現在能不能有 Scaling Laws

FSD v12 距離真正的無人駕駛還有距離。像 ChatGPT 一樣，它有閃光時刻，但也常犯錯。廣受好評的 v12.3 版本上線后，車輛時有撞到馬路牙、損壞輪轂的低級錯誤。而在上一代方案中，很少會出現類似的情況。

特斯拉也沒敢全面依賴 v12。一位特斯拉車主從 FSD 的軟件包中發現，v12 僅適用於城市街道，高速場景還是用 v11。

“端到端系統的下限其實很低。” 一位自動駕駛工程師說，高速行車速度更快，規則更簡單，經過長期打磨的傳統方案，可能比當前的端到端方案更安全。“只有把端到端方案下限提上來，處理簡單場景比原本方案更好，才是真正的性能提升。”

端到端需要更多投入才能達到傳統方案效果。圖片來自小鵬原自動駕駛 AI 負責人劉蘭個川在去年 CVPR 上的分享。

“端到端的模型上線之前一定會有 ‘護欄’。它像是未來會成為博士的學生，但成長過程中需要小學、初中老師去帶，需要時間成長。” 英偉達汽車事業部負責人吳新宙認為端到端模型成為主流之前，還需要和原有模型配合工作，保證安全。

馬斯克願意更快一點。今年 4 月，馬斯克在一季度財報會上說，他們可以看到三四個月後的模型效果，已經可以稱為 FSD v13，“比當前車上的版本更強，但有一些問題需要解決。”

他相信特斯拉已經找到適用於自動駕駛的 “Scaling Laws”（規模定律）：只要繼續擴大模型參數、投入更多數據和算力，不斷改進模型架構，就會有更好的效果。

過去多年，Scaling Laws 被視為 OpenAI 有底氣開發規模更大、效果更好模型的秘訣。而自動駕駛所在的計算機視覺領域，因為訓練模型需要的數據是與物理世界中相關的視頻，需要模型理解更多物理規則，許多研究者擔心，用更多的數據、算力訓練更大的模型，會陷入瓶頸，能力不會提升，反而會下降。

“我們可以根據過去的趨勢估算未來的進展，從過去的數據來看，估算通常都是正確的。” 埃盧斯瓦米在財報會上說，特斯拉每周都會訓練數百個能夠生成不同駕駛路線的模型，再拿從用戶和測試人員那裡收集的數百萬視頻片段測試，如果效果更好，就會給專門的路測團隊和員工測試，最後推送給更多用戶，迭代速度會越來越快。

我們了解到，特斯拉的 v12 系統目前並不能像 GPT-4 等語言大模型那樣，可以解答訓練數據中沒有的問題，還要從大量的數據中學習如何應對複雜場景。

隨着模型能力提升，改進模型需要的數據更多。馬斯克今天說，每 10000 公里的行駛數據，只有 1 公里能訓練模型。而且每訓練一遍，都需要消耗大量算力。

這對於特斯拉不是問題。路上數百萬輛特斯拉車可以源源不斷為它提供各種各樣的數據。特斯拉還在開發更強的仿真系統，生成各種數據訓練模型。去年的計算機視覺學術會議 CVPR 上，埃盧斯瓦米展示了特斯拉用收集來的數據訓練成的 “世界模型”（World Model），它可以根據提示詞和過去的視頻，生成汽車繼續向前開會經歷什麼場景的視頻，比如不同視角的攝像頭中，車道線怎麼延續，路口怎麼變化。

但建立在端到端架構上的自動系統，是一個 “黑盒子”，就連它的創造者都搞不清楚它如何把一堆數據變成結果。人們能做的，是給它處理好的數據，讓算法自己提煉規律，並依此處理新的數據。如果出了問題，就給它更多的數據，讓它自己修正。

這不是自動駕駛獨有的問題，任何使用深度學習的應用都一樣。只是人們不那麼在意抖音的算法推給你幾個不感興趣的視頻，也能忍受 ChatGPT 有時 “胡說八道”，但非常在意 2 噸重的汽車為什麼在道路上失常。

“它可能會 ‘無聲地失敗’，當問題爆發出來時，通常難以分析和排查，因為模型已經變得非常龐大。” 卡帕蒂在《軟件 2.0》文章中談到了缺陷，這會是一個選擇題：“用我們理解的、效果達到 90% 的方法。還是我們不理解、效果達到 99% 的模型。”

特斯拉已經用行動做出選擇。他們相信，採用端到端神經網絡、經過數十億公里現實世界數據訓練的純視覺模型，是實現大規模無人駕駛的正確方法。

馬斯克給自動駕駛團隊下達的命令是，想盡辦法提高 FSD v12 不需要人類能夠行駛的距離。他們在辦公室放了一面鑼，每解決一個問題，鑼就會響一次。馬斯克認為，只要有確鑿的數據證明，自動駕駛比人開車更可靠，就不會有太多監管障礙。

過去幾個月，特斯拉降低 FSD 價格、讓美國的車主免費試用，激進地把 v12 版本推向市場，一個季度就行駛 5 億公里

從特斯拉開始研發輔助駕駛系統以來，馬斯克就對無人駕駛極其樂觀。2016 年，特斯拉第一次在車輛周圍放置了 8 顆攝像頭，擁有 360° 視角，馬斯克就安排團隊精心準備視頻，宣揚無人駕駛即將到來。

之後每隔一兩年，馬斯克就會更新一次無人駕駛即將到來的時間表，然後被證明是過於樂觀。但每一次，自動駕駛技術又會往前多走一步。

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。