
W讀Podcast|人類 100 分 AI 0.37 分:Keras 之父用迷你遊戲戳破 AI 的智力泡泡
TL;DR
- François Chollet 發布 ARC-AGI v3,全新互動式 AI 基準測試,把 AI agent 丟進沒有說明書的迷你遊戲裡,人類解題率 100%,最強 AI 只有 0.37%
- Coding agent 之所以爆發,核心原因是程式碼提供了「可驗證的獎勵信號」(verifiable reward signal),任何可以被正式驗證的領域都能被當前技術全面自動化
- Chollet 離開 Google 創辦 Ndea,走一條跟整個產業完全相反的路:用 program synthesis(程式合成)取代 deep learning 的參數曲線擬合,目標是找到「最短的符號模型」來解釋數據
- 他預測 AGI 大約 2030 年到來,但他定義的 AGI 跟產業主流不一樣:是「能像人類一樣高效學習任何新事物」,而非「能自動化大部分經濟工作」
- 給所有人的建議:你擋不住 AI 進步,問題是你怎麼乘浪而上
Podcast 與來賓背景
這集是 2026 年 3 月底在 Y Combinator 的 Lightcone Podcast 上線的訪談,主持人包括 YC CEO Garry Tan 和 Group Partner Diana Hu。Garry Tan 本人最近也在 AI 開源圈很火,他做的 G-Stack(一套 Claude Code 的工作流配置)兩週內衝到 4 萬顆 GitHub star,節目裡他自己還在跟 Chollet 討教怎麼當好開源專案的維護者。
來賓 François Chollet 是 Keras 的創造者。如果你寫過 Python 的深度學習模型,幾乎不可能沒用過他做的東西。他在 Google 待了將近十年,2025 年初離開,跟 Zapier 共同創辦人 Mike Knoop 一起成立了 Ndea(唸作 "Endia"),一間走完全不同技術路線的 AGI 研究實驗室。他同時是 ARC Prize 的創辦人,ARC-AGI 基準測試是目前公認最能測試 AI「流動智力」的標竿之一。
當所有人都在 LLM 上面加蓋樓層,他想重蓋地基
現在 AI 產業的共識是:拿 LLM 當地基,在上面加 reasoning、加 agent、加 tool use,一層層疊上去。Chollet 做的事完全反過來。他想把地基本身換掉。
Ndea 在做的是 program synthesis(程式合成),聽起來很像在做 coding agent,但層次完全不同。Coding agent 是整個技術棧的最頂層應用,Ndea 要做的是拆掉整個棧的底層然後重建。
用最簡單的方式講:現在的 deep learning 就是拿一條有很多參數的曲線去擬合數據,靠 gradient descent(梯度下降)一點一點調整參數讓曲線越來越準。Chollet 的做法是把參數曲線換成「符號模型」(symbolic model),目標是找到「最小的、最簡潔的模型來解釋數據」。因為模型是符號化的,gradient descent 用不了,所以他們造了一個叫 symbolic descent 的東西,在符號空間裡做跟 gradient descent 等價的操作。
為什麼要這樣搞?因為越小的模型泛化能力越強。這就是最小描述長度原則(minimum description length principle):能解釋數據的最短模型,最有可能在新數據上也管用。Chollet 認為你用參數學習永遠找不到這種最優解,必須走符號學習。
他自己承認成功機率大概只有 10% 到 15%。
但他的邏輯是:如果他不做,沒有人會做。加上如果做成了影響巨大。這個「低機率高回報、沒人做我來做」的思維,說穿了就是 YC 一直在對創辦人講的那套。
我覺得這段很有意思。整個產業都在 LLM 上面堆東西,Chollet 直接說「這個方向 50 年後不會是主流」。他可能錯,但如果他對了,那現在投入的數千億美元 GPU 基礎建設,回頭看就是一段壯觀的繞路。
Coding Agent 為什麼爆發:一切都回到「能不能自動打分」
這集有一段我覺得是整場最值得記下來的洞察。
Chollet 說 coding agent 之所以突然爆發,核心原因就一個:程式碼天生有「可驗證的獎勵信號」。寫完一段 code,跑 unit test,過了就是對,沒過就是錯。信號是確定的,不是另一個模型在猜。
有了這個確定信號,你就能讓模型在 RL(reinforcement learning,強化學習)環境裡大量試錯、自我改進,不需要人類一筆一筆標註。模型因此學會了一個關鍵能力:在腦中執行程式碼。它開始追蹤變數的值、理解執行流程,就像人類工程師讀 code 的時候在心裡跑過一遍一樣。
這就是為什麼之前在 Codex、Claude Code、Cursor:AI Coding Agent 的三座燈塔,誰會活到最後? 那篇聊的那些工具進步這麼快。底層邏輯就是可驗證的獎勵信號讓 RL post-training 變得可行。
但反過來想。寫作呢?法律文件呢?
你怎麼「正式驗證」一篇散文寫得好不好?沒辦法。所以 Chollet 預測,在這些不可驗證的領域,LLM 的進步會非常慢,甚至可能停滯。
這段讓我想到一個很直覺的判斷框架:當你在評估 AI 會不會吃掉某個領域的時候,就問一個問題。這個領域的輸出,能不能被程式自動判斷對錯?可以的話,只是時間問題。不行的話,短期內還安全。
ARC-AGI 三個版本:一部 AI 能力的編年史
ARC-AGI 的三個版本,基本上就是一部 AI 能力演進的縮影。
V1(2019 年發布):靜態推理。給你一些圖案,找出因果規則。基礎 LLM 在上面只能拿到不到 10% 的分數,模型規模放大 50,000 倍也沒明顯改善。直到 2024 年底 OpenAI 推出 O1/O3 reasoning model,分數才出現階梯式跳升。V1 是第一個清楚告訴世界「reasoning model 跟之前的東西本質上不同」的基準測試。
V2(同格式但更難):需要更複雜的推理鏈組合。Chollet 提到 YC W26 batch 裡的 Confluence Labs 只花幾個月就把 V2 打到 97.9%。方法就是讓模型自己生成類似題目、自己解、驗證答案、用成功的推理鏈去 fine-tune,然後重複百萬次。這個 RL loop 就是 coding agent 爆發背後的同一套邏輯。
V3(2026 年 3 月 24 日發布):完全不一樣了。
他們搞了一個遊戲工作室,找了一群遊戲產業出身的開發者,用自己打造的遊戲引擎做了 250 多個原創迷你遊戲。AI agent 被丟進遊戲裡,沒有說明書、沒有目標提示、連按鍵是幹嘛的都不知道。它必須像人類第一次拿到一個陌生遊戲一樣,自己摸索規則、找到目標、然後通關。
更狠的是評分標準。V3 用了一個叫 RHAE(Relative Human Action Efficiency,相對人類行動效率)的指標。不只看你能不能通關,還看你花了多少步。人類大概幾百到幾千個動作就能搞定,AI 如果想用暴力搜索跑遍所有可能的遊戲狀態,就算最後通關了分數也極低。
結果:人類 100%,Gemini 3.1 Pro 拿 0.37%,GPT 5.4 拿 0.26%,Opus 4.6 拿 0.25%,Grok 直接 0%。
人類贏在哪?贏在「探索效率」。我們天生就能在陌生環境裡快速嘗試、建立心智模型、推斷規則。這是 fluid intelligence(流動智力),是目前 AI 最缺的東西。
而且 V3 刻意讓 private test set 跟 public set 差異很大,你在公開題目上練再多,對私有題目的幫助也有限。這讓它比 V2 更能抵抗「砸錢硬練」的策略。
Chollet 對 AGI 的定義:你以為的那個可能不是他說的那個
產業主流對 AGI 的定義是「能自動化大部分有經濟價值的工作」。Chollet 說這根本是在講自動化,跟智力沒關係。
他的定義:AGI 是一個系統,能像人類一樣高效地學會任何新事物。重點在「一樣高效」。人類學東西需要的數據量很少,AGI 也應該如此。
這兩個定義的差別很大。第一個定義,我們可能很快就達到,因為只要把夠多可驗證的領域自動化就行了。第二個定義需要完全不同的技術突破。
他有一個很狂的預測:AGI 的核心程式碼會是不到一萬行的 codebase。回過頭來看,你會發現 1980 年代的電腦就能跑。答案一直就在我們眼前,只是沒人看到。
老實說這個預測我半信半疑。但我理解他的邏輯:科學本身就是符號壓縮的過程,把一大堆觀察數據壓縮成一條簡潔的方程式。牛頓力學、Maxwell 方程式都是這樣。如果 AGI 的本質是「終極科學」,那它的形式確實應該很精簡。
ARC 的未來,和他給所有人的建議
ARC 4 會延續 V3 的互動精神,但聚焦在持續學習和課程學習(curriculum learning)。遊戲數量變少,但每個遊戲的關卡多很多,而且關卡之間是遞進的,必須用上一關學到的東西來解下一關。ARC 5 則是關於「發明」(invention),他沒展開說,但光聽就覺得會很精彩。
時間表?他猜 AGI 大約 2030 年初,大概是 ARC 6 或 7 的時候。
對於想探索 LLM 以外路線的研究者,他建議去讀 70、80 年代的論文。那時候的研究者在嘗試更多元的方向,很多想法被後來的「共識」埋掉了。他舉 genetic algorithm(基因演算法)為例,認為如果投入跟 deep learning 一樣的資源去 scale up,成果會很驚人。
不管選什麼路線,關鍵條件是:你的系統必須能在沒有人類瓶頸的情況下持續改進。Deep learning 之所以成功,就是因為加更多數據和算力模型就會變好,不需要工程師一個一個手動改。如果你的方法每一步都需要人類介入,注定走不遠。
至於給一般人的建議,他講得很直白:你擋不住 AI 進步,太晚了。所以問題是你怎麼用 AI 來強化自己。你對一個領域懂得越多,你就越能把 AI 變成自己的放大器。
這跟我在跑在 AI 的輪圈上,停不下來也不敢停那篇講的焦慮是同一件事的兩面。焦慮是真的,但方向也是明確的:學就對了。
Chollet 這個人有意思的地方在於,他是 deep learning 的早期推手之一,卻願意公開承認這條路有根本性的侷限,然後拿自己的職涯去賭一個成功率只有 10% 的方向。
ARC-AGI v3 的結果到底告訴我們什麼?我覺得它說的是:目前的 AI 在「按既有模式處理已知類型問題」上已經很強了,但在「面對完全陌生的環境、從零開始搞清楚狀況」這件事上,跟人類差距還是巨大的。你的價值不在你能處理多少已知問題,在你面對全新狀況時能多快建立判斷。這個能力,AI 短期內追不上。
這類 AI 產業趨勢的拆解,我會持續寫在 wilsonhuang.xyz,有興趣的可以訂閱追蹤,不會漏掉更新。
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


