W讀Podcast｜人類 100 分 AI 0.37 分：Keras 之父用迷你遊戲戳破 AI 的智力泡泡

TL;DR

François Chollet 發布 ARC-AGI v3，全新互動式 AI 基準測試，把 AI agent 丟進沒有說明書的迷你遊戲裡，人類解題率 100%，最強 AI 只有 0.37%
Coding agent 之所以爆發，核心原因是程式碼提供了「可驗證的獎勵信號」（verifiable reward signal），任何可以被正式驗證的領域都能被當前技術全面自動化
Chollet 離開 Google 創辦 Ndea，走一條跟整個產業完全相反的路：用 program synthesis（程式合成）取代 deep learning 的參數曲線擬合，目標是找到「最短的符號模型」來解釋數據
他預測 AGI 大約 2030 年到來，但他定義的 AGI 跟產業主流不一樣：是「能像人類一樣高效學習任何新事物」，而非「能自動化大部分經濟工作」
給所有人的建議：你擋不住 AI 進步，問題是你怎麼乘浪而上

這集是 2026 年 3 月底在 Y Combinator 的 Lightcone Podcast 上線的訪談，主持人包括 YC CEO Garry Tan 和 Group Partner Diana Hu。Garry Tan 本人最近也在 AI 開源圈很火，他做的 G-Stack（一套 Claude Code 的工作流配置）兩週內衝到 4 萬顆 GitHub star，節目裡他自己還在跟 Chollet 討教怎麼當好開源專案的維護者。

來賓 François Chollet 是 Keras 的創造者。如果你寫過 Python 的深度學習模型，幾乎不可能沒用過他做的東西。他在 Google 待了將近十年，2025 年初離開，跟 Zapier 共同創辦人 Mike Knoop 一起成立了 Ndea（唸作 "Endia"），一間走完全不同技術路線的 AGI 研究實驗室。他同時是 ARC Prize 的創辦人，ARC-AGI 基準測試是目前公認最能測試 AI「流動智力」的標竿之一。

當所有人都在 LLM 上面加蓋樓層，他想重蓋地基

現在 AI 產業的共識是：拿 LLM 當地基，在上面加 reasoning、加 agent、加 tool use，一層層疊上去。Chollet 做的事完全反過來。他想把地基本身換掉。

Ndea 在做的是 program synthesis（程式合成），聽起來很像在做 coding agent，但層次完全不同。Coding agent 是整個技術棧的最頂層應用，Ndea 要做的是拆掉整個棧的底層然後重建。

用最簡單的方式講：現在的 deep learning 就是拿一條有很多參數的曲線去擬合數據，靠 gradient descent（梯度下降）一點一點調整參數讓曲線越來越準。Chollet 的做法是把參數曲線換成「符號模型」（symbolic model），目標是找到「最小的、最簡潔的模型來解釋數據」。因為模型是符號化的，gradient descent 用不了，所以他們造了一個叫 symbolic descent 的東西，在符號空間裡做跟 gradient descent 等價的操作。

為什麼要這樣搞？因為越小的模型泛化能力越強。這就是最小描述長度原則（minimum description length principle）：能解釋數據的最短模型，最有可能在新數據上也管用。Chollet 認為你用參數學習永遠找不到這種最優解，必須走符號學習。

他自己承認成功機率大概只有 10% 到 15%。

但他的邏輯是：如果他不做，沒有人會做。加上如果做成了影響巨大。這個「低機率高回報、沒人做我來做」的思維，說穿了就是 YC 一直在對創辦人講的那套。

我覺得這段很有意思。整個產業都在 LLM 上面堆東西，Chollet 直接說「這個方向 50 年後不會是主流」。他可能錯，但如果他對了，那現在投入的數千億美元 GPU 基礎建設，回頭看就是一段壯觀的繞路。

Coding Agent 為什麼爆發：一切都回到「能不能自動打分」

這集有一段我覺得是整場最值得記下來的洞察。

Chollet 說 coding agent 之所以突然爆發，核心原因就一個：程式碼天生有「可驗證的獎勵信號」。寫完一段 code，跑 unit test，過了就是對，沒過就是錯。信號是確定的，不是另一個模型在猜。

有了這個確定信號，你就能讓模型在 RL（reinforcement learning，強化學習）環境裡大量試錯、自我改進，不需要人類一筆一筆標註。模型因此學會了一個關鍵能力：在腦中執行程式碼。它開始追蹤變數的值、理解執行流程，就像人類工程師讀 code 的時候在心裡跑過一遍一樣。

這就是為什麼之前在 Codex、Claude Code、Cursor：AI Coding Agent 的三座燈塔，誰會活到最後？那篇聊的那些工具進步這麼快。底層邏輯就是可驗證的獎勵信號讓 RL post-training 變得可行。

但反過來想。寫作呢？法律文件呢？

你怎麼「正式驗證」一篇散文寫得好不好？沒辦法。所以 Chollet 預測，在這些不可驗證的領域，LLM 的進步會非常慢，甚至可能停滯。

這段讓我想到一個很直覺的判斷框架：當你在評估 AI 會不會吃掉某個領域的時候，就問一個問題。這個領域的輸出，能不能被程式自動判斷對錯？可以的話，只是時間問題。不行的話，短期內還安全。

ARC-AGI 三個版本：一部 AI 能力的編年史

ARC-AGI 的三個版本，基本上就是一部 AI 能力演進的縮影。

V1（2019 年發布）：靜態推理。給你一些圖案，找出因果規則。基礎 LLM 在上面只能拿到不到 10% 的分數，模型規模放大 50,000 倍也沒明顯改善。直到 2024 年底 OpenAI 推出 O1/O3 reasoning model，分數才出現階梯式跳升。V1 是第一個清楚告訴世界「reasoning model 跟之前的東西本質上不同」的基準測試。

V2（同格式但更難）：需要更複雜的推理鏈組合。Chollet 提到 YC W26 batch 裡的 Confluence Labs 只花幾個月就把 V2 打到 97.9%。方法就是讓模型自己生成類似題目、自己解、驗證答案、用成功的推理鏈去 fine-tune，然後重複百萬次。這個 RL loop 就是 coding agent 爆發背後的同一套邏輯。

V3（2026 年 3 月 24 日發布）：完全不一樣了。

他們搞了一個遊戲工作室，找了一群遊戲產業出身的開發者，用自己打造的遊戲引擎做了 250 多個原創迷你遊戲。AI agent 被丟進遊戲裡，沒有說明書、沒有目標提示、連按鍵是幹嘛的都不知道。它必須像人類第一次拿到一個陌生遊戲一樣，自己摸索規則、找到目標、然後通關。

更狠的是評分標準。V3 用了一個叫 RHAE（Relative Human Action Efficiency，相對人類行動效率）的指標。不只看你能不能通關，還看你花了多少步。人類大概幾百到幾千個動作就能搞定，AI 如果想用暴力搜索跑遍所有可能的遊戲狀態，就算最後通關了分數也極低。

結果：人類 100%，Gemini 3.1 Pro 拿 0.37%，GPT 5.4 拿 0.26%，Opus 4.6 拿 0.25%，Grok 直接 0%。

人類贏在哪？贏在「探索效率」。我們天生就能在陌生環境裡快速嘗試、建立心智模型、推斷規則。這是 fluid intelligence（流動智力），是目前 AI 最缺的東西。

而且 V3 刻意讓 private test set 跟 public set 差異很大，你在公開題目上練再多，對私有題目的幫助也有限。這讓它比 V2 更能抵抗「砸錢硬練」的策略。

Chollet 對 AGI 的定義：你以為的那個可能不是他說的那個

產業主流對 AGI 的定義是「能自動化大部分有經濟價值的工作」。Chollet 說這根本是在講自動化，跟智力沒關係。

他的定義：AGI 是一個系統，能像人類一樣高效地學會任何新事物。重點在「一樣高效」。人類學東西需要的數據量很少，AGI 也應該如此。

這兩個定義的差別很大。第一個定義，我們可能很快就達到，因為只要把夠多可驗證的領域自動化就行了。第二個定義需要完全不同的技術突破。

他有一個很狂的預測：AGI 的核心程式碼會是不到一萬行的 codebase。回過頭來看，你會發現 1980 年代的電腦就能跑。答案一直就在我們眼前，只是沒人看到。

老實說這個預測我半信半疑。但我理解他的邏輯：科學本身就是符號壓縮的過程，把一大堆觀察數據壓縮成一條簡潔的方程式。牛頓力學、Maxwell 方程式都是這樣。如果 AGI 的本質是「終極科學」，那它的形式確實應該很精簡。

ARC 的未來，和他給所有人的建議

ARC 4 會延續 V3 的互動精神，但聚焦在持續學習和課程學習（curriculum learning）。遊戲數量變少，但每個遊戲的關卡多很多，而且關卡之間是遞進的，必須用上一關學到的東西來解下一關。ARC 5 則是關於「發明」（invention），他沒展開說，但光聽就覺得會很精彩。

時間表？他猜 AGI 大約 2030 年初，大概是 ARC 6 或 7 的時候。

對於想探索 LLM 以外路線的研究者，他建議去讀 70、80 年代的論文。那時候的研究者在嘗試更多元的方向，很多想法被後來的「共識」埋掉了。他舉 genetic algorithm（基因演算法）為例，認為如果投入跟 deep learning 一樣的資源去 scale up，成果會很驚人。

不管選什麼路線，關鍵條件是：你的系統必須能在沒有人類瓶頸的情況下持續改進。Deep learning 之所以成功，就是因為加更多數據和算力模型就會變好，不需要工程師一個一個手動改。如果你的方法每一步都需要人類介入，注定走不遠。

至於給一般人的建議，他講得很直白：你擋不住 AI 進步，太晚了。所以問題是你怎麼用 AI 來強化自己。你對一個領域懂得越多，你就越能把 AI 變成自己的放大器。

這跟我在跑在 AI 的輪圈上，停不下來也不敢停那篇講的焦慮是同一件事的兩面。焦慮是真的，但方向也是明確的：學就對了。

Chollet 這個人有意思的地方在於，他是 deep learning 的早期推手之一，卻願意公開承認這條路有根本性的侷限，然後拿自己的職涯去賭一個成功率只有 10% 的方向。

ARC-AGI v3 的結果到底告訴我們什麼？我覺得它說的是：目前的 AI 在「按既有模式處理已知類型問題」上已經很強了，但在「面對完全陌生的環境、從零開始搞清楚狀況」這件事上，跟人類差距還是巨大的。你的價值不在你能處理多少已知問題，在你面對全新狀況時能多快建立判斷。這個能力，AI 短期內追不上。

這類 AI 產業趨勢的拆解，我會持續寫在 wilsonhuang.xyz，有興趣的可以訂閱追蹤，不會漏掉更新。

W讀Podcast｜人類 100 分 AI 0.37 分：Keras 之父用迷你遊戲戳破 AI 的智力泡泡

TL;DR

Podcast 與來賓背景

當所有人都在 LLM 上面加蓋樓層，他想重蓋地基

Coding Agent 為什麼爆發：一切都回到「能不能自動打分」

ARC-AGI 三個版本：一部 AI 能力的編年史

Chollet 對 AGI 的定義：你以為的那個可能不是他說的那個

ARC 的未來，和他給所有人的建議

推薦閱讀

W讀Podcast｜50,000 個工具塞給 AI Agent，它不會當機嗎？Composio CTO 聊 Smart Tool 的真正門檻

W讀Podcast｜零行人寫程式碼、百萬行產品上線：OpenAI 工程師的 Harness Engineering 實戰紀錄

W讀Podcast｜當 AI 把智力變便宜，人類最後的工作叫「驗證」

喜歡這篇文章嗎？