comma.ai 用開源打自駕這場仗,而且他們可能走對了路

comma.ai 用開源打自駕這場仗,而且他們可能走對了路

發布於
·8 分鐘閱讀
AIPodcast產業觀察自駕車開源機器人創業產品商業深度學習

TL;DR

  • comma.ai 做了一個你可以裝在現有車上的裝置,搭配開源軟體 OpenPilot,讓你的車獲得自動駕駛輔助功能
  • 他們的 CTO Harald Schäfer 待了九年,核心策略是 end-to-end 機器學習:影片輸入、動作輸出,中間沒有人工標註的偵測層
  • 最大突破是用 diffusion world model(擴散世界模型)當模擬器來訓練駕駛 agent,OpenPilot 0.11 是第一個完全在學習式模擬環境中訓練的機器人 agent
  • 他們用不到 Tesla FSD 百分之一的算力,在高速公路上已經達到超過 50% 的里程由系統駕駛
  • 三個還沒解的核心難題:controls、RL、continual learning

節目與來賓背景

Practical AI 是由 Daniel Whitenack 和 Chris Benson 共同主持的 AI 應用導向 Podcast,隸屬 Changelog Media,專門聊 AI 在真實世界的落地場景。這集請到的是 comma.ai 的 CTO Harald Schäfer。comma.ai 是一間做消費級自駕輔助裝置的公司,創辦人是在駭客圈很有名的 George Hotz(geohot)。Harald 在 comma.ai 待了九年,基本上公司的技術方向就是他在扛。他們的核心產品是一個裝在擋風玻璃上的裝置,搭配開源軟體 OpenPilot,目前是 GitHub 上最受歡迎的機器人專案。

用百分之一的資源跟 Tesla 打

老實說,我覺得 comma.ai 最有意思的地方不是技術本身,是他們的生存策略。

Tesla FSD 有自己的車、自己的晶片、海量的標註資料和算力。Waymo 有 Google 的錢燒。comma.ai 呢?他們自己經營資料中心,算力大概是 Tesla 的百分之一,然後要做出一個「裝在別人車上」的自駕系統。

這個限制反而逼出了一條不同的路。因為沒資源養一堆人去手動標註資料、建偵測管線,他們從很早就押注 end-to-end(端到端)訓練。簡單講就是:模型吃進攝影機影片,直接輸出方向盤角度和加速度。中間沒有「先偵測車道線、再偵測紅綠燈、再規劃路徑」這種層層疊疊的管線。

Harald 說得很直白:這條路不是因為比較酷才選的,是因為窮。end-to-end 需要的人力投入最少,能最大化利用既有的駕駛數據。他們有數億英里的人類駕駛資料,讓模型直接從裡面學「人在這個情境下會怎麼開」。

World Model 是真正的突破

光做 imitation learning(模仿學習)是不夠的,模型會在遇到沒見過的情況時崩潰。你需要讓它在訓練時就接觸「犯錯後如何修正」的情境。

comma.ai 的解法是建一個 diffusion world model(擴散世界模型)當模擬器。跟你想的那種手工建 3D 場景的模擬器不一樣,這個模擬器本身就是一個機器學習模型,能生成逼真的駕駛影片,而且會根據你的操作指令做出正確反應。你告訴它「方向盤左轉 10 度」,它生成的下一幀影像就真的會反映這個左轉。

這裡有兩個關鍵挑戰:影像要夠逼真(不然模型會學到不存在的 artifacts),以及對輸入的反應要準確。前者因為近年 video generation 的進展已經大致解決,後者是 comma.ai 自己啃下來的硬骨頭。

2026 年 3 月發布的 OpenPilot 0.11,是第一個完全在這種學習式模擬環境中訓練出來的駕駛 agent。這個里程碑滿值得記一筆的。

三個還沒解的問題

Harald 很坦率地列了三個目前機器學習在機器人領域還搞不定的問題:

Controls(控制):因為 comma.ai 是裝在別人的車上,每台車對方向盤和油門的回應都不一樣,而且通常回應得很爛。他們目前用古典控制理論解決,機器學習在這個低階即時回饋的場景完全不行。他們甚至需要即時學習每台車的輪胎剛性和摩擦係數。

RL(強化學習):imitation learning 能搞定的事情有極限,真正需要緊密回饋迴路的控制問題,理論上需要 RL。但目前 RL 在真實世界的嘈雜環境中,連「不要讓方向盤振盪」這麼簡單的 reward function 都很難優化。

Continual Learning(持續學習):下雨了、輪胎充了氣、路面狀況變了,人類駕駛會即時調整,但現在的模型做不到這種「開著開著自己學」的事。

我覺得這段是整集最有價值的部分。多數公司在講自駕都是報喜不報憂,Harald 直接說「這三個東西目前完全不 work」,這種坦率在業界不常見。

開源不只是情懷

最後聊一下為什麼開源很重要。OpenPilot 支援超過 300 款車型,這些車型的適配很大一部分是社群貢獻的。如果是閉源系統,要每台車都自己逆向工程 CAN bus,根本不可能以他們的規模做到。

Harald 的態度很明確:你買了一個裝置,如果你不能知道上面跑什麼程式、不能控制它,那你到底算不算擁有這個東西?

這個哲學放在 AI 越來越滲透日常生活的今天,我覺得值得想一想。

想看更多 AI 和自駕相關的產業觀察,歡迎訂閱 wilsonhuang.xyz,後續有新的東西都會放上去。

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件