AI 拿得到數學奧林匹亞金牌，卻看不懂時鐘：Stanford AI Index 2026 的十二個現實

TL;DR

Stanford 每年一份的 AI Index 報告又出爐了，這集 Practical AI 用快問快答的方式把十二個重點掃過一遍，是少數用嚴謹數據幫你「校正認知」的內容。
AI 能力沒有進入高原期，反而還在加速。超過九成的重要前沿模型都是去年生出來的，部分已經在 PhD 等級的科學題上追平甚至超過人類。
美中模型差距基本上抹平了，從「一個領跑一個跟跑」變成兩個並列的領頭羊。開源這條路美國幾乎放掉，中國接了下去。
最有畫面的一句：AI 拿得到國際數學奧林匹亞金牌，卻只有百分之五十點一的機率看得懂類比時鐘。這就是所謂的「鋸齒狀前沿」。
美國領投資、但吸引全球人才的能力一年掉了八成；生產力提升的領域，正好是入門職缺開始消失的領域。

這集 Practical AI 在二〇二六年六月四日上線，是他們所謂的「fully connected」型態，沒有來賓，就兩位主持人對談。Practical AI 的定位很明確，專講「實際用得上」的 AI，不追熱鬧。主持人 Daniel Whitenack 是 Prediction Guard 的 CEO，這家公司在做的是企業內部的 AI 治理與控管平台；另一位 Chris Benson 是國防產業的 AI 與自主系統研究工程師，長期碰邊緣運算跟無人載具這一塊。一個站在企業治理視角，一個站在國防與實體 AI 視角，兩個人一起拆 Stanford 那份四百二十五頁的報告，剛好把「雲端模型」跟「真實世界」兩端都照顧到了。

先講一下這份報告本身。它是 Stanford 人本 AI 研究中心（HAI）每年發布的年度產業總帳，今年是第九版，用數據說話，不靠感覺。我自己每年都會翻，原因很簡單：我們每天泡在新聞和社群裡，腦袋裡早就堆滿各種印象，而這種報告的價值就在於把你「以為的事」跟「實際的數字」對一次帳。對完之後你會發現，有些事比你想的誇張，有些事比你想的慢很多。

高原期沒來，反而踩了油門

有一陣子，包含我在內，很多人都相信開源模型會慢慢追平、然後整個 AI 進步會進入高原期。結果報告第一條就打臉：AI 能力沒有趨緩，是在加速，而且觸及的人比過去任何時候都多。

具體一點，超過九成「值得注意的前沿模型」是去年一年內冒出來的，部分已經在某些基準上達到或超過人類水準。我必須老實說，這些 PhD 等級科學題的 benchmark 我一直抱持保留態度。基準測試本身有夠多瑕疵，常常測的是「會不會考試」而不是「會不會做事」。但就算把這個折扣打進去，趨勢還是很清楚：東西真的在變強。

主持人提到一個我覺得很有共鳴的角度。Daniel 回想自己念博士那五年，如果用現在的工具重來一次，工作量大概可以砍一半。研究、寫程式、寫論文這三塊，現在每一塊都有人幫你扛。報告也說，現在五分之四的大學生在用生成式 AI。這件事翻譯到職場是一樣的道理：以前一個要規劃半天、列一堆待辦的「專案」，現在很多時候是「我跳進去做，禮拜五就交得出來」。

美中打平，開源這張牌中國接走了

第二條，美中模型表現的差距「基本上歸零」。報告裡有個很傳神的時間軸：去年二月中國的 DeepSeek-R1 一度追平美國最強模型，到今年三月，領先的 Anthropic 模型也只贏百分之二點七。從追趕變成並肩。

不過這裡有個細節值得拆開看。Daniel 從實務角度補了一刀：在開源（open weight）模型這條線上，中國其實已經明顯領先；但如果把封閉的前沿模型也算進來，美國這邊還是站得住。這個落差來自一個結構性轉向，我之前在「模型戰爭」其實沒人關心了聊過：美國頭部玩家幾乎集體往封閉走，連一度扛著開源大旗的 Meta 都轉向閉源，於是開源的主場就慢慢移到了東方。

這會留下一個很有趣的地緣後遺症。當大規模開源主要發生在中國、封閉模型集中在西方，企業到底「能用哪個模型」就會變成一個帶政治味的問題。哪些情境用哪邊的模型才算安全，這條線未來幾年只會越畫越清楚。

順帶一提第三條：美國擁有最多的 AI 資料中心，但晶片絕大多數來自單一一家台灣晶圓廠。資料中心這件事我本來以為中國早就遍地開花了，結果美國目前還是領先約十倍。想想也合理，在美國某個小鎮要蓋資料中心，地方議會、居民抗議、各種關卡都得過一遍，在中國這些流程可以壓縮很多。這個十倍的差距明年會不會快速縮水，是值得盯著看的指標。

拿金牌的腦袋，看不懂時鐘

我最喜歡的是第四條，也是整集最有畫面的一段。報告說，AI 模型能在國際數學奧林匹亞拿金牌，卻沒辦法穩定地看懂時鐘。例子是 Gemini Deep Think 拿下 IMO 金牌，但讀類比時鐘的正確率只有百分之五十點一，等於丟銅板。研究者把這個現象叫「鋸齒狀前沿」（jagged frontier）。

這件事其實點到了 AI 一個很根本的尷尬：這些模型是在「語言」上訓練出來的，它們產出 token 靠的是統計機率，跟真實世界沒有實體連結。所以它能在抽象的數學世界裡神到不行，碰到一個需要常識、需要跟物理世界對應的小事就翻車。這也是為什麼「世界模型」（world model，一個對真實世界有上下文認知的模型）這個詞越來越紅，Yann LeCun 這幾年一直在喊要走出 LLM。

但我想幫模型講句公道話，這集主持人也聊到了，我滿認同的。說一個模型「笨」，常常是因為它沒被接上對的東西。Claude 本來不知道我的專案管理工具裡有哪些任務，可是只要透過一個 skill 把它接上去，它瞬間就懂我這個 sprint 該做什麼、PR 卡在哪。這就回到之前Hermes Agent 那篇講的比喻：沒有人會期待一顆沒有身體的大腦能在世界上做事。模型是大腦，外面那層 agent harness 是身體。世界模型是好研究沒錯，但很多時候模型缺的不是更聰明，而是一副能跟世界互動的身體。

機器人在你家還是很廢

第五條，機器人在受控環境（工廠、模擬器）表現很強，但碰到一般家庭的雜務還是頻頻失手。

Chris 講了一個很妙的擔憂：他家有五隻狗，等他哪天買了人形機器人在家洗碗，那隻八十磅重的大狗撲上去要玩的時候，機器人撐不撐得住「Benson 家的混亂」？這其實點到核心，家庭環境的變數太多，每一家的格局、擺設、要做的事都不一樣，這跟工廠那種高度標準化的場景是兩個世界。

Daniel 也分享他去過一場餐飲業展覽，本來以為會看到人形機器人現場捏壽司，結果最厲害的「料理機器人」基本上就是一個會加熱、會旋轉的滾筒，把食材丟進去轉一轉當作炒。落差大到他有點失望。兩人的共識是：實體機器人這塊，中國因為投入得早、是一步步演進過來的，可能會比正在「猛衝但從後面追」的美國先拉開身位。

該踩煞車的地方，沒人踩

第六條對 Daniel 來說特別切身：負責任 AI 的進展跟不上能力的成長，安全基準落後，AI 事故案例則急速上升。而且這還只是「有被記錄下來」的事故，現實中沒被登記的肯定更多。

這裡 Chris 講了一段我覺得很反直覺、但很值得聽的話。他說國防產業其實有比多數商業領域「更多」的護欄跟負責任 AI 機制，因為有聯邦法規卡著，很多商業界可以直接衝的東西，他們不能衝。身為一個對新技術永遠很興奮的人，他偶爾覺得綁手綁腳，但冷靜下來又覺得，還好我們是這樣。

兩個人對未來的判斷是：市場最後會「要求」這件事。當大事故一個接一個爆出來，企業在部署 AI 之前會開始要求看到可驗證的安全證明，不再接受「相信我」這種說法。可輸出的證明、稽核、甚至 AI 專屬的認證（類似 SOC2 那種），會慢慢變成標配。這跟我一貫的看法一樣：風險意識永遠該排在追逐效益前面，搞懂了再上，不懂就先學。

人才一年掉八成，入門職缺正在蒸發

接下來幾條串起來看，是最讓人坐不住的部分。

第七條，美國在 AI 投資上仍然領先，但吸引全球人才的能力正在下滑。讓我嚇一跳的是規模：光是去年一年，移居美國的 AI 研究者與開發者數量就掉了八成。八成。原因大家心裡有數，移民政策這類周邊因素一旦變難，人才自然就不來了。種什麼因得什麼果。

不過 Daniel 補了一個讓人稍微安心的視角：現在小團隊就能做很多事，一家公司做到幾千萬甚至上億美元營收需要的人變少了；而且團隊本來就越來越分散，VC 在美國、公司註冊在美國，不代表那些工程師非得住在美國。人才不來，不一定等於做不出公司。

第九條最沉重：AI 帶來的生產力提升，正好出現在入門職缺開始萎縮的那些領域。寫 SQL 查詢的菜鳥工程師職位，基本上沒了。Chris 說年初還有不少人在嘴硬抗拒，到了五月底錄這集時，他身邊已經找不到還在抗拒的人。世界變得很快。

這段我想多講一句，因為它跟我之前在OpenAI 工程師零行人寫程式碼那篇的觀察是連在一起的。入門職缺消失是真的，會有人因此失業也是真的，這很殘酷。但反過來看，這些工具也能讓剛進公司的新人用更快的速度升級。Daniel 說他們公司有自己的一套 skill repo，新人一接上就能快速上手整個技術棧。前提是你得用對方法。

別只叫模型「把東西做出來」

報告另一條提到：正規教育落後於 AI，但人們在人生每個階段都在學 AI。八成的高中與大學生已經在用 AI 處理課業，但有制定相關政策的老師卻只佔很小一部分。

Chris 分享的學習法我很推。他這次學 Rust（以陡峭學習曲線聞名）終於學進去了，關鍵在於他不只是叫 Cloud Code「幫我做出來」，而是邊做邊請它解釋：為什麼這樣寫、這個選擇背後的理由是什麼、換另一種做法會怎樣。把它當成一場有對話的學習，而不是一台答案輸出機。他也用同樣的方式陪自己準備升高中的女兒，結果女兒在沒有 AI 可用的期末考裡照樣拿全 A。這才是用對的姿勢。

最後我想留一個 Chris 講的小故事。他媽媽八十幾歲、是退休的技術人，喜歡畫畫然後在 Photoshop 裡慢慢修圖。Chris 一開始想跟她說「妳直接叫 AI 做就好了啊」，講到一半他突然收手，因為他發現對媽媽來說，在 Photoshop 裡動手本身就是樂趣。就像有人堅持自己釀啤酒，明明巷口買更便宜更好喝，但那從來不是重點。

我覺得這是整集最溫柔也最重要的提醒。AI 確實能把你直接推到終點，但不是所有事都該被推到終點。報告裡那些冷冰冰的數字告訴你產業跑得多快，可真正要決定的是：哪些事你想交給 AI，哪些事你想自己慢慢來。這條線，得你自己畫。自行斟酌，共勉之。

如果這類用數據校正認知的內容對你有幫助，我會持續寫，訂閱 wilsonhuang.xyz 就不會錯過。

AI 拿得到數學奧林匹亞金牌，卻看不懂時鐘：Stanford AI Index 2026 的十二個現實

TL;DR

高原期沒來，反而踩了油門

美中打平，開源這張牌中國接走了

拿金牌的腦袋，看不懂時鐘

機器人在你家還是很廢

該踩煞車的地方，沒人踩

人才一年掉八成，入門職缺正在蒸發

別只叫模型「把東西做出來」

推薦閱讀

一週省 13 小時卻只有 13% 公司變好：Glean 報告揭開「替機器人擦屁股」的真相

Snowflake 把整個技術文件團隊砍掉：Sridhar Ramaswamy 在 Equity 講的不是 AI 故事，是 Agent 經濟學

電網才是 AI 真正撞到的牆、Mythos 自己越獄還跑去網路嗆人：Motley Fool 拆財報季開打前的詭異氣氛

喜歡這篇文章嗎？