Waymo 的 20 年是怎麼熬過來的？Dmitri Dolgov 拆解自駕車背後的系統架構

TL;DR

Waymo 現在每週做 50 萬趟全自駕接送，每週累積 400 萬哩完全無人駕駛里程，在美國 11 個城市營運，2026 年要進軍倫敦和東京
他們的架構很像 LLM 世界現在在做的事：一個大的 off-board foundation model，分別特化出 driver、simulator、critic 三個 teacher，再 distill 成車上能即時跑的 student 模型
純 end-to-end（pixel in、trajectory out）可以讓你起步很快，但要做到 full autonomy 的安全水位做不到。必須用中間表示 augment 系統，才能做 simulation、RLFT、critic 評估
LiDAR、Radar、Camera 三種感測器物理特性互補，不是誰取代誰的問題，是融合在同一個 encoder 裡讓系統在各種天候下都穩
Dmitri 認為 driver assist 系統不會自然演化成 full autonomy，兩者是本質上不同的問題，不是 continuum
十五年後大部分里程會是自駕的，parking lot 會消失，城市規劃會被重寫
Google 二十年前就開始做這件事，走過很多技術世代的演進（ImageNet、Transformer），沒有哪一波技術是 silver bullet，關鍵是 iterative learning 加上 Larry、Sergey 的耐心

這集 podcast 是誰在聊什麼

這集在 2026 年 4 月 17 日重播於 a16z Podcast，原本是 Stripe 共同創辦人 John Collison 主持的《Cheeky Pint》節目。Cheeky Pint 的定位很有意思，John 每集找一位科技圈的大人物，在家裡一邊喝酒一邊聊產業技術細節，氣氛比一般創投 podcast 放鬆，但問題常常直接切到最底層的架構設計。

來賓 Dmitri Dolgov 是 Waymo 的 co-CEO，也是 Google 自駕車專案 2009 年的創始工程師之一。他在俄羅斯出生，莫斯科物理技術學院（MIPT）拿了物理和應用數學的學士、碩士，之後到密西根大學讀 CS 博士，Stanford 博士後待的是當年 DARPA Urban Challenge 團隊，那一屆是自駕車研究的黃金年代。他從 CTO 一路升到 2021 年接下 co-CEO 這個位子。

Waymo 是 Alphabet 旗下最成功的 moonshot 專案，2026 年 2 月剛募了 160 億美元、估值 1260 億美元，現在每週跑 50 萬趟全自駕。這集聊的就是把這一切撐起來的系統架構。

Waymo 怎麼想他們在蓋的東西：「我們蓋的是一個 driver」

Dmitri 一開場就丟了一個很有意思的 framing。他說 Waymo 蓋的不是車，是一個 driver（司機）。車只是這個 driver 的載具，driver 本身是一個由感測器、compute、軟體組成的「抽象」，可以被裝進不同的車體。這個思路對應到他們的六代硬體演進，也對應到他們為什麼能把同一套軟體裝到 Jaguar I-Pace、Zeekr OJAI、Hyundai Ioniq 上。

當你坐上 Waymo 的時候，三種感測器在 360 度同時掃描：

Camera：高解析度，在亮的環境看最細，但遇到逆光、全黑、雨刷水霧就退化
LiDAR：用雷射打出去，秒掃百萬點雲，把世界的 3D 結構取樣得非常精細。不受光線影響
Radar：解析度低，但物理上對惡劣天氣最抗打。濃霧、大雪、暴雨，radar 照樣能看到前方的車

這三種的 noise 特性完全不同，不是互相替代的關係。Dmitri 講了一個很關鍵的設計決策：Waymo 不是各別判斷然後投票，而是三種 sensor 各自有 encoder，把所有訊號 fuse 到同一個模型裡，讓系統對世界「共同地」產生最好的理解。這個細節決定了後面所有事情。

三個 Teachers：Waymo 跟 LLM 世界的平行架構

這集最精彩的一段是 Dmitri 拆解 Waymo 的訓練與部署架構。他用的語言跟現在 LLM 圈用的幾乎一模一樣，讀起來會有一種「喔，所以大家都在做同樣的事」的頓悟感。

整個系統長這樣：

Foundation Model（離線、大容量）：一個理解物理世界、理解駕駛的社交性、理解「好駕駛 vs 壞駕駛」差別的通用模型
三個特化 Teacher：從 foundation model fine-tune 出來
- Driver：在車上要做的判斷
- Simulator：生成合成世界，讓其他 agent 有真實的行為
- Critic：找出有趣的事件、對好壞行為給出意見
Students（車上、即時）：每個 teacher 都 distill 成一個小的 student，車上跑的是 student

這個架構很漂亮的地方在於，三個 teacher 共享同一個 foundation。因為不管是「預測前方行人下一步會做什麼」、「模擬路人要怎麼走才逼真」、還是「判斷這個決策好不好」，背後要的都是同一種世界模型能力。

這跟我之前在搜尋所有可能的材料：Max Welling 和 CuspAI 想做材料科學的 Google聊到的 AI for Science 的邏輯其實一樣。現在各個領域都在做類似的事：先蓋一個大的基礎模型，再特化成專業用途。差別只在 Waymo 要處理的是物理世界的連續決策，而且不能出錯。

「Pixel in、Trajectory out」的誘惑，以及為什麼會撞死人

Twitter 上長年有一個論戰：要做純 end-to-end（純端到端）還是模組化？Dmitri 直接說這個辯論失去了太多細節。他的實務答案很妙。

他承認，純 end-to-end 系統非常容易起步。你拿一個現成的 VLM（視覺語言模型），它本來就有 camera encoder 和 decoder，你只要把 decoder 的輸出從「文字」改成「軌跡」，fine-tune 一下，車就會開了。Waymo 之前發過一篇叫 AMA 的論文就是這樣做的，「在一般情況下開得非常好，impressively 好」。

但他緊接著說：「請不要在街上試。這離你需要的水平差了好幾個數量級。」

這個數量級差在哪？差在 long tail。一般情況開得好不難，難的是那些極少數會出事的情境。要解 long tail，你需要做三件事：

在 simulator 裡跑 closed-loop 探索（RLFT，reinforcement learning based fine-tuning）
有一個 reward function 告訴模型什麼是好行為
能夠評估系統到底好到什麼程度

這三件事，純 pixel-to-trajectory 的 end-to-end 系統都做不到，或者做了會貴到無法 scale。Simulator 要你去生成完整的像素世界，這在計算上不合理。Critic 要你對一個高維的軌跡打分數，訊號太雜。

所以 Waymo 的解法是：架構還是 end-to-end，但 augment 以中間表示。系統裡會保留「這裡有個物體」、「這裡是馬路」、「這是速限標誌」這些結構化概念。這些東西在物理世界是正確的、不會 limit generality，但會給你額外的 knob 去做 simulation、去做安全驗證、去設計 reward function。

看穿公車的行人：一個 emergent behavior 的故事

Dmitri 講了一個讓我聽到很有畫面的故事。舊金山的某個路口，Waymo 停紅燈，一台公車從前方橫切過去然後停下，擋住了紅綠燈。綠燈亮了，Waymo 開始慢慢繞過公車，突然車速放慢、轉彎角度變大。接著一個行人從公車後方走出來。Waymo 順利避開。

工程師看 log 的時候傻住了。Waymo 怎麼「看穿」一台公車？Camera 會被反光擋住，公車上還有乘客，看不見另一邊。Radar 對著一個金屬大箱子基本無效。LiDAR 的雷射理論上也穿不過。

他們逆推之後發現：Waymo 車體周邊的 peripheral LiDAR 在公車底部反射了一些噪訊，剛好捕捉到行人腳部移動的微弱 pattern。AI 模型從這個幾乎被當成雜訊的訊號裡推論出「公車後面有個人」，而且還能預測行人會繼續往前走。

這個故事完美示範了兩件事。第一，多感測器融合的價值不是「其中一個壞了還有備援」，而是在模糊訊號中組合出原本任何單一感測器都看不到的理解。第二，中間表示的重要性。「公車後面的那個人」這個概念，在純 pixel 空間裡根本不存在，你要有一個世界模型層去 reason about 它。

Dmitri 講了一句讓我記在筆記本上：「想像用一個純黑盒、open-loop、imitation learning 的系統要解決這個問題。不是不可能，但實務上非常非常困難。」

第六代硬體：終於開始為乘客設計車

Waymo 的硬體演進滿有意思。Gen 4 是那台 Chrysler Pacifica 廂型車，在 Chandler, Arizona 跑，打底所有端到端的 operation 能力。Gen 5 是現在在路上跑的 Jaguar I-Pace，主要的跳躍在軟體，把 AI 從「一堆小 ML 模型」變成「AI 是 backbone」。

Gen 6 是今年要上線的 OJAI 平台。兩個重點：

車體重新設計：傳統汽車是圍繞駕駛者設計的（駕駛座位置最好、儀表板在前方）。OJAI 是圍繞乘客設計的。滑門、平地板、超大空間，外觀看起來比 I-Pace 大不了多少，但坐進去像客廳。這件事大家講了十年，但因為做一台自訂車非常貴，Waymo 選擇先把軟體搞定，再投資在硬體上。

感測器簡化 + 降本：三種感測器模態保留，但每一種都做了大量簡化。Dmitri 提到一個關鍵數字：Gen 6 的硬體成本已經「接近一套高階 driver assist 系統」。Radar 多年前還是給飛機用的，笨重昂貴，現在幾十美元就買得到汽車級 radar。Imaging radar（比一般 radar 豐富但比 LiDAR 粗糙的中間選項）也在快速降價。LiDAR 也沿著很可預期的價格曲線往下走。

軟體幾乎沒變。換句話說，Waymo driver 的 generalizability 不只是「跨城市」、「跨天氣」，還包括「跨車體平台、跨感測器配置」。這個 abstraction 的乾淨程度，是他們能這麼快講出「今年底進倫敦、東京」的底氣。

Driver Assist 不會自然升級成 Full Autonomy

John 問了一個我也很好奇的問題：既然 Tesla、各家車廠都在做 driver assist，會不會從 level 2 一路升上去就達到 full autonomy？

Dmitri 的答案很直接：不會。他刻意用了「qualitative jump」這個詞。Driver assist 跟 full autonomy 是兩個本質不同的問題，不是 continuum 上兩個點。

為什麼？因為兩者的容錯要求差了好幾個 order of magnitude。工程界有個 rule of thumb：每多一個 nine（99.9% → 99.99%）要花 10 倍的努力。Driver assist 可以容忍司機接手，所以架構可以簡單、可以用便宜感測器、可以省掉 simulator 和 critic。Full autonomy 沒有 fallback，每一個極端 case 都要有答案。

這個觀點跟我之前在Aaron Levie 聊 Agent 時代的企業軟體生死題提到的邏輯很像：從「人類在迴圈裡」到「Agent 獨立運作」，整個系統要重新設計。不是把現有系統升級就好。

當然，Dmitri 也說硬體層面兩邊會收斂。Driver assist 會變聰明、會裝更多感測器；full autonomy 的感測器會變便宜、變簡單、變整合。Product line 也會收斂（ride hailing 跟個人擁有的 Waymo 會並存）。但底層技術路線是兩個世界。

自駕車普及後，世界會長什麼樣

他們聊到一個我很喜歡的話題：二階效應。

Dmitri 舉的例子是 traffic jam。大部分塞車的成因是「三小時前有個老太太過馬路」，那一個擾動引發的 shockwave 在整條路上往後傳。如果路上都是平穩可預測的司機，這種 shockwave 的衰減時間會大幅縮短。同樣數量的車，實際塞車時間會變少。

更大的改變是停車場。現在城市最精華的土地有一大塊是停車場，為什麼？因為你的車 90% 的時間都在停著。當 full autonomy 普及，車可以跑去別的地方接客，停車場的需求大幅下降。

住在台灣都市的人大概很難想像，但在美國，parking minimum（每個建物要配多少停車位）是城市規劃的核心變數。John 舉了一個例子：他家旁邊的咖啡店想擺戶外座位，但法規規定要先留夠停車位，所以擺不下。這種隱形的土地浪費會被自駕車改寫。

這個「看似 AI 問題，實際是城市問題」的連鎖，讓我想到OpenAI 要讓全球免費用 AI 看醫生的邏輯。真正改變世界的 AI 不是停留在螢幕上的 chatbot，是滲進物理世界、滲進制度的那些應用。自駕車是其中之一。

二十年耐心：Google 到底在供什麼？

John 最後問了一個產業圈一直在問的問題。Google 自駕車從 2009 年做到今天，期間好幾次外界都覺得「再兩年就要 commercial」但一直跳票。這麼多年、這麼多燒錢，怎麼撐下來的？

Dmitri 的答案很簡單，也很誠懇。他把功勞歸給 Larry、Sergey 和 Alphabet leadership，說「這是公司 DNA 的一部分：有遠見、有耐心、有 conviction 走完整段路」。

然後他補了一句讓我想很久的話：「這個問題的特性就是很容易起步，deceptively easy，但要跑完最後一哩非常難。不會有一個魔法時刻，讓問題的複雜度消失、你可以直接拿 off-the-shelf 的組件組裝好。如果真的那樣，這個產業今天會長得很不一樣。」

這跟我在Ben Horowitz 談偉大創辦人的共同特質聽到的觀察可以放在一起看。真正難的事情，靠的不是某個時刻的聰明，是跨越多次技術世代的 conviction。ImageNet 2013、Transformer 2017、VLM 2023，這些浪潮每一波都重塑了 Waymo 的內部架構，但沒有任何一波是 silver bullet。

Dmitri 自己也承認：「我不能說 Google 太早開始了。也許有更優路徑，但我看不到哪個時刻複雜度會突然消失。」

我的幾個 takeaway

聽完這集，有幾個點我覺得值得劃下來：

第一，Waymo 現在講的架構語言，已經跟 LLM 圈完全同步。 Foundation model、distillation、teacher-student、RLFT、reward function。這代表物理世界 AI 跟數位世界 AI 正在用同一套 playbook 收斂。對投資人來說這是好事，因為同樣一套工具可以跨領域應用。對從業者來說這是壞事，因為你無處可逃，每個領域都在玩同一套遊戲。

第二，中間表示的 revival 很關鍵。 過去兩年大家都在吹 end-to-end，但 Waymo 的實戰經驗告訴你，純 end-to-end 達不到真正 deploy 的水準。你一定要有某種結構化的世界表示來支撐 simulation 和 evaluation。這個觀察對做 Agent 的人特別重要：純 VLM 跑 task 可以 demo，但要 production-grade，你需要設計中間層。

第三，Dmitri 說的 qualitative jump 值得反覆思考。 很多技術路線看起來像 continuum，但其實隔著一道門檻。SaaS 變 Agent 是一道；driver assist 變 full autonomy 是一道。跨不過去的不會自然升級，只會停在原地被跨過去的人取代。

第四，長期主義真的很貴。 Waymo 燒了 16 年才到今天這個位子。這不是每間公司都能做的。Alphabet 的特殊性在於有一個夠大的現金流（搜尋廣告）可以養，加上 founder 有那個耐心。沒有這兩個條件的公司，自駕車這條賽道根本不用想。

這類產業深度訪談我會持續整理，有興趣的可以訂閱 wilsonhuang.xyz，每週都會有新的一集 podcast 拆解文章上線。

Sources: