Waymo 的 20 年是怎麼熬過來的?Dmitri Dolgov 拆解自駕車背後的系統架構

Waymo 的 20 年是怎麼熬過來的?Dmitri Dolgov 拆解自駕車背後的系統架構

發布於
·21 分鐘閱讀
AIPodcast產業觀察自駕車投資創業VC商業Google硬體

TL;DR

  • Waymo 現在每週做 50 萬趟全自駕接送,每週累積 400 萬哩完全無人駕駛里程,在美國 11 個城市營運,2026 年要進軍倫敦和東京
  • 他們的架構很像 LLM 世界現在在做的事:一個大的 off-board foundation model,分別特化出 driver、simulator、critic 三個 teacher,再 distill 成車上能即時跑的 student 模型
  • 純 end-to-end(pixel in、trajectory out)可以讓你起步很快,但要做到 full autonomy 的安全水位做不到。必須用中間表示 augment 系統,才能做 simulation、RLFT、critic 評估
  • LiDAR、Radar、Camera 三種感測器物理特性互補,不是誰取代誰的問題,是融合在同一個 encoder 裡讓系統在各種天候下都穩
  • Dmitri 認為 driver assist 系統不會自然演化成 full autonomy,兩者是本質上不同的問題,不是 continuum
  • 十五年後大部分里程會是自駕的,parking lot 會消失,城市規劃會被重寫
  • Google 二十年前就開始做這件事,走過很多技術世代的演進(ImageNet、Transformer),沒有哪一波技術是 silver bullet,關鍵是 iterative learning 加上 Larry、Sergey 的耐心

這集 podcast 是誰在聊什麼

這集在 2026 年 4 月 17 日重播於 a16z Podcast,原本是 Stripe 共同創辦人 John Collison 主持的《Cheeky Pint》節目。Cheeky Pint 的定位很有意思,John 每集找一位科技圈的大人物,在家裡一邊喝酒一邊聊產業技術細節,氣氛比一般創投 podcast 放鬆,但問題常常直接切到最底層的架構設計。

來賓 Dmitri Dolgov 是 Waymo 的 co-CEO,也是 Google 自駕車專案 2009 年的創始工程師之一。他在俄羅斯出生,莫斯科物理技術學院(MIPT)拿了物理和應用數學的學士、碩士,之後到密西根大學讀 CS 博士,Stanford 博士後待的是當年 DARPA Urban Challenge 團隊,那一屆是自駕車研究的黃金年代。他從 CTO 一路升到 2021 年接下 co-CEO 這個位子。

Waymo 是 Alphabet 旗下最成功的 moonshot 專案,2026 年 2 月剛募了 160 億美元、估值 1260 億美元,現在每週跑 50 萬趟全自駕。這集聊的就是把這一切撐起來的系統架構。

Waymo 怎麼想他們在蓋的東西:「我們蓋的是一個 driver」

Dmitri 一開場就丟了一個很有意思的 framing。他說 Waymo 蓋的不是車,是一個 driver(司機)。車只是這個 driver 的載具,driver 本身是一個由感測器、compute、軟體組成的「抽象」,可以被裝進不同的車體。這個思路對應到他們的六代硬體演進,也對應到他們為什麼能把同一套軟體裝到 Jaguar I-Pace、Zeekr OJAI、Hyundai Ioniq 上。

當你坐上 Waymo 的時候,三種感測器在 360 度同時掃描:

  • Camera:高解析度,在亮的環境看最細,但遇到逆光、全黑、雨刷水霧就退化
  • LiDAR:用雷射打出去,秒掃百萬點雲,把世界的 3D 結構取樣得非常精細。不受光線影響
  • Radar:解析度低,但物理上對惡劣天氣最抗打。濃霧、大雪、暴雨,radar 照樣能看到前方的車

這三種的 noise 特性完全不同,不是互相替代的關係。Dmitri 講了一個很關鍵的設計決策:Waymo 不是各別判斷然後投票,而是三種 sensor 各自有 encoder,把所有訊號 fuse 到同一個模型裡,讓系統對世界「共同地」產生最好的理解。這個細節決定了後面所有事情。

三個 Teachers:Waymo 跟 LLM 世界的平行架構

這集最精彩的一段是 Dmitri 拆解 Waymo 的訓練與部署架構。他用的語言跟現在 LLM 圈用的幾乎一模一樣,讀起來會有一種「喔,所以大家都在做同樣的事」的頓悟感。

整個系統長這樣:

  1. Foundation Model(離線、大容量):一個理解物理世界、理解駕駛的社交性、理解「好駕駛 vs 壞駕駛」差別的通用模型
  2. 三個特化 Teacher:從 foundation model fine-tune 出來
    • Driver:在車上要做的判斷
    • Simulator:生成合成世界,讓其他 agent 有真實的行為
    • Critic:找出有趣的事件、對好壞行為給出意見
  3. Students(車上、即時):每個 teacher 都 distill 成一個小的 student,車上跑的是 student

這個架構很漂亮的地方在於,三個 teacher 共享同一個 foundation。因為不管是「預測前方行人下一步會做什麼」、「模擬路人要怎麼走才逼真」、還是「判斷這個決策好不好」,背後要的都是同一種世界模型能力。

這跟我之前在搜尋所有可能的材料:Max Welling 和 CuspAI 想做材料科學的 Google聊到的 AI for Science 的邏輯其實一樣。現在各個領域都在做類似的事:先蓋一個大的基礎模型,再特化成專業用途。差別只在 Waymo 要處理的是物理世界的連續決策,而且不能出錯。

「Pixel in、Trajectory out」的誘惑,以及為什麼會撞死人

Twitter 上長年有一個論戰:要做純 end-to-end(純端到端)還是模組化?Dmitri 直接說這個辯論失去了太多細節。他的實務答案很妙。

他承認,純 end-to-end 系統非常容易起步。你拿一個現成的 VLM(視覺語言模型),它本來就有 camera encoder 和 decoder,你只要把 decoder 的輸出從「文字」改成「軌跡」,fine-tune 一下,車就會開了。Waymo 之前發過一篇叫 AMA 的論文就是這樣做的,「在一般情況下開得非常好,impressively 好」。

但他緊接著說:「請不要在街上試。這離你需要的水平差了好幾個數量級。」

這個數量級差在哪?差在 long tail。一般情況開得好不難,難的是那些極少數會出事的情境。要解 long tail,你需要做三件事:

  • 在 simulator 裡跑 closed-loop 探索(RLFT,reinforcement learning based fine-tuning)
  • 有一個 reward function 告訴模型什麼是好行為
  • 能夠評估系統到底好到什麼程度

這三件事,純 pixel-to-trajectory 的 end-to-end 系統都做不到,或者做了會貴到無法 scale。Simulator 要你去生成完整的像素世界,這在計算上不合理。Critic 要你對一個高維的軌跡打分數,訊號太雜。

所以 Waymo 的解法是:架構還是 end-to-end,但 augment 以中間表示。系統裡會保留「這裡有個物體」、「這裡是馬路」、「這是速限標誌」這些結構化概念。這些東西在物理世界是正確的、不會 limit generality,但會給你額外的 knob 去做 simulation、去做安全驗證、去設計 reward function。

看穿公車的行人:一個 emergent behavior 的故事

Dmitri 講了一個讓我聽到很有畫面的故事。舊金山的某個路口,Waymo 停紅燈,一台公車從前方橫切過去然後停下,擋住了紅綠燈。綠燈亮了,Waymo 開始慢慢繞過公車,突然車速放慢、轉彎角度變大。接著一個行人從公車後方走出來。Waymo 順利避開。

工程師看 log 的時候傻住了。Waymo 怎麼「看穿」一台公車?Camera 會被反光擋住,公車上還有乘客,看不見另一邊。Radar 對著一個金屬大箱子基本無效。LiDAR 的雷射理論上也穿不過。

他們逆推之後發現:Waymo 車體周邊的 peripheral LiDAR 在公車底部反射了一些噪訊,剛好捕捉到行人腳部移動的微弱 pattern。AI 模型從這個幾乎被當成雜訊的訊號裡推論出「公車後面有個人」,而且還能預測行人會繼續往前走。

這個故事完美示範了兩件事。第一,多感測器融合的價值不是「其中一個壞了還有備援」,而是在模糊訊號中組合出原本任何單一感測器都看不到的理解。第二,中間表示的重要性。「公車後面的那個人」這個概念,在純 pixel 空間裡根本不存在,你要有一個世界模型層去 reason about 它。

Dmitri 講了一句讓我記在筆記本上:「想像用一個純黑盒、open-loop、imitation learning 的系統要解決這個問題。不是不可能,但實務上非常非常困難。」

第六代硬體:終於開始為乘客設計車

Waymo 的硬體演進滿有意思。Gen 4 是那台 Chrysler Pacifica 廂型車,在 Chandler, Arizona 跑,打底所有端到端的 operation 能力。Gen 5 是現在在路上跑的 Jaguar I-Pace,主要的跳躍在軟體,把 AI 從「一堆小 ML 模型」變成「AI 是 backbone」。

Gen 6 是今年要上線的 OJAI 平台。兩個重點:

車體重新設計:傳統汽車是圍繞駕駛者設計的(駕駛座位置最好、儀表板在前方)。OJAI 是圍繞乘客設計的。滑門、平地板、超大空間,外觀看起來比 I-Pace 大不了多少,但坐進去像客廳。這件事大家講了十年,但因為做一台自訂車非常貴,Waymo 選擇先把軟體搞定,再投資在硬體上。

感測器簡化 + 降本:三種感測器模態保留,但每一種都做了大量簡化。Dmitri 提到一個關鍵數字:Gen 6 的硬體成本已經「接近一套高階 driver assist 系統」。Radar 多年前還是給飛機用的,笨重昂貴,現在幾十美元就買得到汽車級 radar。Imaging radar(比一般 radar 豐富但比 LiDAR 粗糙的中間選項)也在快速降價。LiDAR 也沿著很可預期的價格曲線往下走。

軟體幾乎沒變。換句話說,Waymo driver 的 generalizability 不只是「跨城市」、「跨天氣」,還包括「跨車體平台、跨感測器配置」。這個 abstraction 的乾淨程度,是他們能這麼快講出「今年底進倫敦、東京」的底氣。

Driver Assist 不會自然升級成 Full Autonomy

John 問了一個我也很好奇的問題:既然 Tesla、各家車廠都在做 driver assist,會不會從 level 2 一路升上去就達到 full autonomy?

Dmitri 的答案很直接:不會。他刻意用了「qualitative jump」這個詞。Driver assist 跟 full autonomy 是兩個本質不同的問題,不是 continuum 上兩個點。

為什麼?因為兩者的容錯要求差了好幾個 order of magnitude。工程界有個 rule of thumb:每多一個 nine(99.9% → 99.99%)要花 10 倍的努力。Driver assist 可以容忍司機接手,所以架構可以簡單、可以用便宜感測器、可以省掉 simulator 和 critic。Full autonomy 沒有 fallback,每一個極端 case 都要有答案。

這個觀點跟我之前在Aaron Levie 聊 Agent 時代的企業軟體生死題提到的邏輯很像:從「人類在迴圈裡」到「Agent 獨立運作」,整個系統要重新設計。不是把現有系統升級就好。

當然,Dmitri 也說硬體層面兩邊會收斂。Driver assist 會變聰明、會裝更多感測器;full autonomy 的感測器會變便宜、變簡單、變整合。Product line 也會收斂(ride hailing 跟個人擁有的 Waymo 會並存)。但底層技術路線是兩個世界。

自駕車普及後,世界會長什麼樣

他們聊到一個我很喜歡的話題:二階效應。

Dmitri 舉的例子是 traffic jam。大部分塞車的成因是「三小時前有個老太太過馬路」,那一個擾動引發的 shockwave 在整條路上往後傳。如果路上都是平穩可預測的司機,這種 shockwave 的衰減時間會大幅縮短。同樣數量的車,實際塞車時間會變少。

更大的改變是停車場。現在城市最精華的土地有一大塊是停車場,為什麼?因為你的車 90% 的時間都在停著。當 full autonomy 普及,車可以跑去別的地方接客,停車場的需求大幅下降。

住在台灣都市的人大概很難想像,但在美國,parking minimum(每個建物要配多少停車位)是城市規劃的核心變數。John 舉了一個例子:他家旁邊的咖啡店想擺戶外座位,但法規規定要先留夠停車位,所以擺不下。這種隱形的土地浪費會被自駕車改寫。

這個「看似 AI 問題,實際是城市問題」的連鎖,讓我想到OpenAI 要讓全球免費用 AI 看醫生的邏輯。真正改變世界的 AI 不是停留在螢幕上的 chatbot,是滲進物理世界、滲進制度的那些應用。自駕車是其中之一。

二十年耐心:Google 到底在供什麼?

John 最後問了一個產業圈一直在問的問題。Google 自駕車從 2009 年做到今天,期間好幾次外界都覺得「再兩年就要 commercial」但一直跳票。這麼多年、這麼多燒錢,怎麼撐下來的?

Dmitri 的答案很簡單,也很誠懇。他把功勞歸給 Larry、Sergey 和 Alphabet leadership,說「這是公司 DNA 的一部分:有遠見、有耐心、有 conviction 走完整段路」。

然後他補了一句讓我想很久的話:「這個問題的特性就是很容易起步,deceptively easy,但要跑完最後一哩非常難。不會有一個魔法時刻,讓問題的複雜度消失、你可以直接拿 off-the-shelf 的組件組裝好。如果真的那樣,這個產業今天會長得很不一樣。」

這跟我在Ben Horowitz 談偉大創辦人的共同特質聽到的觀察可以放在一起看。真正難的事情,靠的不是某個時刻的聰明,是跨越多次技術世代的 conviction。ImageNet 2013、Transformer 2017、VLM 2023,這些浪潮每一波都重塑了 Waymo 的內部架構,但沒有任何一波是 silver bullet。

Dmitri 自己也承認:「我不能說 Google 太早開始了。也許有更優路徑,但我看不到哪個時刻複雜度會突然消失。」

我的幾個 takeaway

聽完這集,有幾個點我覺得值得劃下來:

第一,Waymo 現在講的架構語言,已經跟 LLM 圈完全同步。 Foundation model、distillation、teacher-student、RLFT、reward function。這代表物理世界 AI 跟數位世界 AI 正在用同一套 playbook 收斂。對投資人來說這是好事,因為同樣一套工具可以跨領域應用。對從業者來說這是壞事,因為你無處可逃,每個領域都在玩同一套遊戲。

第二,中間表示的 revival 很關鍵。 過去兩年大家都在吹 end-to-end,但 Waymo 的實戰經驗告訴你,純 end-to-end 達不到真正 deploy 的水準。你一定要有某種結構化的世界表示來支撐 simulation 和 evaluation。這個觀察對做 Agent 的人特別重要:純 VLM 跑 task 可以 demo,但要 production-grade,你需要設計中間層。

第三,Dmitri 說的 qualitative jump 值得反覆思考。 很多技術路線看起來像 continuum,但其實隔著一道門檻。SaaS 變 Agent 是一道;driver assist 變 full autonomy 是一道。跨不過去的不會自然升級,只會停在原地被跨過去的人取代。

第四,長期主義真的很貴。 Waymo 燒了 16 年才到今天這個位子。這不是每間公司都能做的。Alphabet 的特殊性在於有一個夠大的現金流(搜尋廣告)可以養,加上 founder 有那個耐心。沒有這兩個條件的公司,自駕車這條賽道根本不用想。


這類產業深度訪談我會持續整理,有興趣的可以訂閱 wilsonhuang.xyz,每週都會有新的一集 podcast 拆解文章上線。

Sources:

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件