當 AI 開始幫自己做安全檢查，這個計畫靠譜嗎？Ajeya Cotra 談 Crunch Time 與智慧爆炸

TL;DR

AI 安全圈最被尊敬的預測者之一 Ajeya Cotra 認為，2030 年代初期 AI 將全面自動化 AI 研發，人類會進入一個極短的「crunch time」窗口期
每一家前沿 AI 公司的安全計畫核心都一樣：用這一代 AI 來對齊、理解、控制下一代 AI。這聽起來像是用火來滅火
到 2050 年，世界可能跟今天的差距，等同於今天跟一萬年前狩獵採集時代的差距。連加速主義者聽了都會嚇一跳
她主張 AI 公司應該定期公布內部最強模型的 benchmark 分數、AI 自主撰寫和審核程式碼的比例、以及最令人擔憂的 misalignment 事件
Anthropic 的 Mythos 模型剛在每個主流作業系統和瀏覽器中發現 zero-day 漏洞，crunch time 可能已經開始了

這集在 2026 年 4 月 11 日播出的 The Cognitive Revolution，是從 80,000 Hours Podcast 交叉刊載過來的。The Cognitive Revolution 由 Nathan Labenz 主持，專門找 AI 領域的建造者、研究員和分析師來聊最前線的技術發展和產業影響。80,000 Hours 則是由 Rob Wiblin 主持的長篇深度訪談節目，專注在「如何用你的職涯做最大的好事」，在 AI 安全和有效利他主義圈子裡影響力很大。

這集的來賓 Ajeya Cotra 是 METR（Model Evaluation and Threat Research）的技術研究員，之前在 Open Philanthropy（現在改名叫 Coefficient Giving）主導技術 AI 安全的資助決策。METR 是一間專門評估前沿 AI 模型自主能力的非營利研究機構，簡單說就是幫全世界「量體溫」，看 AI 到底變強到什麼程度了。Ajeya 在 AI 預測圈的地位很高，在 AI Digest 2025 AI Forecasting Survey 裡，413 位參與者中她排名第三。

七成的人說五年內有 AGI，八成的人說 AI 會創造更多工作。等等，什麼？

Ajeya 講了一個讓我印象很深的故事。

去年她在紐約 DealBook 的一場 panel 上，主持人問台上十個人：「你們覺得 2030 年之前，我們會不會有 AGI（能做到所有人類能做的事的 AI）？」七、八隻手舉了起來。

幾個問題之後，主持人又問：「那你們覺得接下來十年，AI 會創造更多工作還是消滅更多工作？」八個人說會創造更多工作。

她當場困惑了。你們剛剛才說五年內 AI 什麼都能做得比人好，然後又說十年內它會創造更多工作？這兩件事怎麼同時成立？

後來她私下追問，那些 VC 馬上改口：「唉，AGI 這個詞現在定義很模糊啦，我們其實覺得 GPT-5 差不多就算是 AGI 了，大家一直在移動門柱。」

這個故事精準捕捉了現在產業裡最大的認知斷層。AGI 這個詞被用到通膨了，用到大家覺得「AGI 好像也沒什麼大不了」。但 Ajeya 想講的是：如果你真的相信 AI 很快能做到人類專家能做的所有事，那接下來的世界不會是「多了一些好用的工具」，而是整個經濟結構被翻過來。

千倍的分歧：經濟學家 vs AI 未來學家

關於 AGI 會把經濟成長加速多少，合理的聰明人之間的分歧大到離譜。

一邊是主流經濟學家，認為 AGI 大概能把經濟成長率提高 0.3 個百分點。過去 150 年我們經歷了電力、電視、電腦、網路，沒有任何一項技術讓成長率出現明顯跳升，一直維持在 2% 左右。AI 大概就是下一個維持 2% 成長的引擎，很酷但沒那麼革命性。

另一邊是 AI 未來學家，認為巔峰時期經濟可能以每年 1000% 甚至更高的速度成長。

這是一千倍的分歧。而且不是因為雙方沒交流過，他們講了很多年，互相理解對方的論點，就是不改變立場。

Ajeya 解釋了為什麼分歧這麼持久。慢速派有一個內建的「錯誤理論」：每一代人都覺得自己這個時代的技術會改變一切，每次都錯了。電視沒有改變一切，電腦沒有改變一切，網路也沒有。所以 AI 也不會。這個論點很難從外部攻破，因為它本身就是一個 meta 論點。

快速派則認為，如果你把時間軸拉到一萬年，成長率其實一直在加速。從公元前 3000 年的 0.1% 到工業革命後的 2%，已經跳了一個數量級。AI 如果能替代所有智力勞動，加上機器人替代體力勞動，2% 不是什麼物理定律，只是人類生物限制下的成長天花板。

什麼是 Crunch Time

Ajeya 用了一個很有畫面感的概念：Crunch Time。

她預測在 2030 年代初期，AI 會達到她所謂的「top human expert dominating」水準，意思是在所有可以透過電腦遠端完成的任務上，AI 都能做得比最頂尖的人類專家好。到那個階段，AI 會開始大幅加速 AI 研發本身，形成遞迴式的自我改進循環。

Crunch time 就是這個窗口期：AI 已經強到能戲劇性地加速 AI R&D，但還沒有完全超出人類的控制能力。

這個窗口可能只有 12 個月，可能 6 個月，可能更短。在這段時間裡，你原本覺得要 10 年、20 年才會發生的 AI 進步，可能在幾個月內全部到位。

更讓人緊張的是，之前在當 AI 把智力變便宜，人類最後的工作叫「驗證」那篇文章裡聊過的 AI 經濟學邏輯，在這個框架下會被壓縮到極致。當智力生產成本趨近於零的速度從「幾年」變成「幾個月」，所有的調適機制都會來不及反應。

每家 AI 公司的安全計畫都一樣：用 AI 來保護我們不被 AI 傷害

這是整集最核心的討論。

Ajeya 指出，如果你去看 OpenAI、Anthropic、Google DeepMind 的公開安全計畫，裡面都有同一個元素：隨著 AI 越來越強，他們會越來越多地把 AI 本身納入安全計畫。用這一代 AI 來對齊、理解、控制下一代 AI，然後下一代再負責控制下下代，以此類推。

聽起來很像用火來滅火，或者更精確地說，像是用一個你不確定是不是站在你這邊的工具來保護你不被更強版本的同一個工具傷害。

但 Ajeya 說，這個邏輯其實跟人類歷史上處理通用技術的方式一致。汽車讓搶劫變容易了，但警察也有車。電腦讓駭客攻擊變可能了，但資安防禦也靠電腦。你不可能想像一支不用電腦的警察部隊。同樣的道理，如果你擔心 AI 造成的問題，第一個該想的就是怎麼用 AI 來解決那些問題。

不過她也很坦白：這個計畫最可能失敗的原因，不是技術上行不通，而是 AI 公司根本不會真的投入足夠的資源去做。他們嘴上說安全是首要任務，但沒有任何量化承諾說在 crunch time 會把多少比例的 AI 勞動力從「繼續加速」轉向「安全防護」。面對競爭壓力，如果有十萬個超級聰明的 AI agent 可以調度，最後可能只有一百個在做安全研究。

透明度：我們至少要知道發生了什麼事

Ajeya 提了一整套她認為 AI 公司應該揭露的資訊，我覺得這部分很實際：

現在就可以做的：每季度固定公布內部最強模型的 benchmark 分數，不要等到產品發佈才公布。因為危險可能來自純粹的內部部署，如果一家公司的內部 AI 已經強到能大幅加速自家研發，外界完全不知道。

更進一步的：公布 AI 在內部程式碼庫中自主撰寫和審核 pull request 的比例。她特別想追蹤「人類基本上沒有參與的 pull request」佔多少，因為當 AI 開始同時負責寫程式和審程式，代表公司正在把越來越多的決策權交給 AI。

最關鍵但最難的：公布最令人擔憂的 misalignment 安全事件。比如 AI 有沒有在真實使用中對重要的事情說謊，然後試圖掩蓋 log？這種事情公布出來當然很尷尬，但對公共利益來說極其重要。

她認為這些資訊不應該只送給政府，而是應該公開，讓整個技術社群都能分析和討論。因為判斷「智慧爆炸是不是正在發生」不是一個可以打勾打叉的合規檢查，而是需要大量技術專家即時參與的社會對話。

Mythos 讓這一切不再是理論

Nathan Labenz 在開場提到了一個讓整集的討論從「未來假設」變成「現在進行式」的事實：Anthropic 的 Mythos 模型在每個主流作業系統和每個主流瀏覽器中都發現了 zero-day 漏洞（zero-day exploit，指之前完全未被發現的安全弱點），其中有些漏洞存在了超過 20 年。

而且 Ajeya 自己在 2026 年 3 月 5 日也發了一篇文章叫《I Underestimated AI Capabilities Again》，承認她在 2026 年 1 月做的預測，才過兩個月就開始被實現了。

一個以嚴謹預測著稱、在 413 人中排名第三的人，公開承認自己又低估了。這本身就是一個很強的信號。

所以我們現在該做什麼

Ajeya 的建議其實跟之前在AI 正在把 B2B SaaS 的地盤一圈一圈縮小那篇聊到的邏輯相呼應：不管你站在哪一邊，現在就應該盡可能積極地採用 AI。

她的理由有兩個。第一，你需要對現況保持準確的理解，而不用 AI 的人會越來越難判斷 AI 到底能做到什麼程度。第二，你很快就會跟不上。她甚至說，就算你是主張暫停 AI 發展的人，也應該大量使用 AI。

另一個很實際的建議：政府機構要趕快採用 AI。她擔心最後會出現「被監管的企業開著跑車，監管者騎著馬」的局面，因為政府在採用新技術上有各種官僚障礙。

最後，她認為現在就該開始建設那些「AI 不擅長、但需要長前置時間」的東西。生物防禦基礎設施、國際協調機制、社會共識的建立，這些都不是 crunch time 到了才能開始做的事。

老實說，我聽完這集的感受很矛盾。一方面覺得 Ajeya 的分析框架非常清晰，每個推論都有根據。另一方面又覺得，當你最靠譜的預測者都在說「我又低估了」的時候，那種不確定感反而更強烈了。我們可能正在進入一個連最懂行的人都只能邊走邊看的階段。

這類 AI 安全與產業趨勢的深度分析，我會持續整理在 wilsonhuang.xyz，有興趣的話可以訂閱，新文章發佈會第一時間通知。

當 AI 開始幫自己做安全檢查，這個計畫靠譜嗎？Ajeya Cotra 談 Crunch Time 與智慧爆炸

TL;DR

七成的人說五年內有 AGI，八成的人說 AI 會創造更多工作。等等，什麼？

千倍的分歧：經濟學家 vs AI 未來學家

什麼是 Crunch Time

每家 AI 公司的安全計畫都一樣：用 AI 來保護我們不被 AI 傷害

透明度：我們至少要知道發生了什麼事

Mythos 讓這一切不再是理論

所以我們現在該做什麼

推薦閱讀

W讀Podcast｜人類 100 分 AI 0.37 分：Keras 之父用迷你遊戲戳破 AI 的智力泡泡

W讀Podcast｜50,000 個工具塞給 AI Agent，它不會當機嗎？Composio CTO 聊 Smart Tool 的真正門檻

你沒辦法 Vibe Code 出一個 SAP：Box CEO 與 a16z 聊 Agent 時代的企業軟體生死題

喜歡這篇文章嗎？