AI 拿得到數學奧林匹亞金牌,卻看不懂時鐘:Stanford AI Index 2026 的十二個現實

AI 拿得到數學奧林匹亞金牌,卻看不懂時鐘:Stanford AI Index 2026 的十二個現實

發布於
·18 分鐘閱讀
AI產業觀察投資創業AI Agent美股機器人商業職涯Podcast

TL;DR

  • Stanford 每年一份的 AI Index 報告又出爐了,這集 Practical AI 用快問快答的方式把十二個重點掃過一遍,是少數用嚴謹數據幫你「校正認知」的內容。
  • AI 能力沒有進入高原期,反而還在加速。超過九成的重要前沿模型都是去年生出來的,部分已經在 PhD 等級的科學題上追平甚至超過人類。
  • 美中模型差距基本上抹平了,從「一個領跑一個跟跑」變成兩個並列的領頭羊。開源這條路美國幾乎放掉,中國接了下去。
  • 最有畫面的一句:AI 拿得到國際數學奧林匹亞金牌,卻只有百分之五十點一的機率看得懂類比時鐘。這就是所謂的「鋸齒狀前沿」。
  • 美國領投資、但吸引全球人才的能力一年掉了八成;生產力提升的領域,正好是入門職缺開始消失的領域。

這集 Practical AI 在二〇二六年六月四日上線,是他們所謂的「fully connected」型態,沒有來賓,就兩位主持人對談。Practical AI 的定位很明確,專講「實際用得上」的 AI,不追熱鬧。主持人 Daniel Whitenack 是 Prediction Guard 的 CEO,這家公司在做的是企業內部的 AI 治理與控管平台;另一位 Chris Benson 是國防產業的 AI 與自主系統研究工程師,長期碰邊緣運算跟無人載具這一塊。一個站在企業治理視角,一個站在國防與實體 AI 視角,兩個人一起拆 Stanford 那份四百二十五頁的報告,剛好把「雲端模型」跟「真實世界」兩端都照顧到了。

先講一下這份報告本身。它是 Stanford 人本 AI 研究中心(HAI)每年發布的年度產業總帳,今年是第九版,用數據說話,不靠感覺。我自己每年都會翻,原因很簡單:我們每天泡在新聞和社群裡,腦袋裡早就堆滿各種印象,而這種報告的價值就在於把你「以為的事」跟「實際的數字」對一次帳。對完之後你會發現,有些事比你想的誇張,有些事比你想的慢很多。

高原期沒來,反而踩了油門

有一陣子,包含我在內,很多人都相信開源模型會慢慢追平、然後整個 AI 進步會進入高原期。結果報告第一條就打臉:AI 能力沒有趨緩,是在加速,而且觸及的人比過去任何時候都多。

具體一點,超過九成「值得注意的前沿模型」是去年一年內冒出來的,部分已經在某些基準上達到或超過人類水準。我必須老實說,這些 PhD 等級科學題的 benchmark 我一直抱持保留態度。基準測試本身有夠多瑕疵,常常測的是「會不會考試」而不是「會不會做事」。但就算把這個折扣打進去,趨勢還是很清楚:東西真的在變強。

主持人提到一個我覺得很有共鳴的角度。Daniel 回想自己念博士那五年,如果用現在的工具重來一次,工作量大概可以砍一半。研究、寫程式、寫論文這三塊,現在每一塊都有人幫你扛。報告也說,現在五分之四的大學生在用生成式 AI。這件事翻譯到職場是一樣的道理:以前一個要規劃半天、列一堆待辦的「專案」,現在很多時候是「我跳進去做,禮拜五就交得出來」。

美中打平,開源這張牌中國接走了

第二條,美中模型表現的差距「基本上歸零」。報告裡有個很傳神的時間軸:去年二月中國的 DeepSeek-R1 一度追平美國最強模型,到今年三月,領先的 Anthropic 模型也只贏百分之二點七。從追趕變成並肩。

不過這裡有個細節值得拆開看。Daniel 從實務角度補了一刀:在開源(open weight)模型這條線上,中國其實已經明顯領先;但如果把封閉的前沿模型也算進來,美國這邊還是站得住。這個落差來自一個結構性轉向,我之前在「模型戰爭」其實沒人關心了聊過:美國頭部玩家幾乎集體往封閉走,連一度扛著開源大旗的 Meta 都轉向閉源,於是開源的主場就慢慢移到了東方。

這會留下一個很有趣的地緣後遺症。當大規模開源主要發生在中國、封閉模型集中在西方,企業到底「能用哪個模型」就會變成一個帶政治味的問題。哪些情境用哪邊的模型才算安全,這條線未來幾年只會越畫越清楚。

順帶一提第三條:美國擁有最多的 AI 資料中心,但晶片絕大多數來自單一一家台灣晶圓廠。資料中心這件事我本來以為中國早就遍地開花了,結果美國目前還是領先約十倍。想想也合理,在美國某個小鎮要蓋資料中心,地方議會、居民抗議、各種關卡都得過一遍,在中國這些流程可以壓縮很多。這個十倍的差距明年會不會快速縮水,是值得盯著看的指標。

拿金牌的腦袋,看不懂時鐘

我最喜歡的是第四條,也是整集最有畫面的一段。報告說,AI 模型能在國際數學奧林匹亞拿金牌,卻沒辦法穩定地看懂時鐘。例子是 Gemini Deep Think 拿下 IMO 金牌,但讀類比時鐘的正確率只有百分之五十點一,等於丟銅板。研究者把這個現象叫「鋸齒狀前沿」(jagged frontier)。

這件事其實點到了 AI 一個很根本的尷尬:這些模型是在「語言」上訓練出來的,它們產出 token 靠的是統計機率,跟真實世界沒有實體連結。所以它能在抽象的數學世界裡神到不行,碰到一個需要常識、需要跟物理世界對應的小事就翻車。這也是為什麼「世界模型」(world model,一個對真實世界有上下文認知的模型)這個詞越來越紅,Yann LeCun 這幾年一直在喊要走出 LLM。

但我想幫模型講句公道話,這集主持人也聊到了,我滿認同的。說一個模型「笨」,常常是因為它沒被接上對的東西。Claude 本來不知道我的專案管理工具裡有哪些任務,可是只要透過一個 skill 把它接上去,它瞬間就懂我這個 sprint 該做什麼、PR 卡在哪。這就回到之前Hermes Agent 那篇講的比喻:沒有人會期待一顆沒有身體的大腦能在世界上做事。模型是大腦,外面那層 agent harness 是身體。世界模型是好研究沒錯,但很多時候模型缺的不是更聰明,而是一副能跟世界互動的身體。

機器人在你家還是很廢

第五條,機器人在受控環境(工廠、模擬器)表現很強,但碰到一般家庭的雜務還是頻頻失手。

Chris 講了一個很妙的擔憂:他家有五隻狗,等他哪天買了人形機器人在家洗碗,那隻八十磅重的大狗撲上去要玩的時候,機器人撐不撐得住「Benson 家的混亂」?這其實點到核心,家庭環境的變數太多,每一家的格局、擺設、要做的事都不一樣,這跟工廠那種高度標準化的場景是兩個世界。

Daniel 也分享他去過一場餐飲業展覽,本來以為會看到人形機器人現場捏壽司,結果最厲害的「料理機器人」基本上就是一個會加熱、會旋轉的滾筒,把食材丟進去轉一轉當作炒。落差大到他有點失望。兩人的共識是:實體機器人這塊,中國因為投入得早、是一步步演進過來的,可能會比正在「猛衝但從後面追」的美國先拉開身位。

該踩煞車的地方,沒人踩

第六條對 Daniel 來說特別切身:負責任 AI 的進展跟不上能力的成長,安全基準落後,AI 事故案例則急速上升。而且這還只是「有被記錄下來」的事故,現實中沒被登記的肯定更多。

這裡 Chris 講了一段我覺得很反直覺、但很值得聽的話。他說國防產業其實有比多數商業領域「更多」的護欄跟負責任 AI 機制,因為有聯邦法規卡著,很多商業界可以直接衝的東西,他們不能衝。身為一個對新技術永遠很興奮的人,他偶爾覺得綁手綁腳,但冷靜下來又覺得,還好我們是這樣。

兩個人對未來的判斷是:市場最後會「要求」這件事。當大事故一個接一個爆出來,企業在部署 AI 之前會開始要求看到可驗證的安全證明,不再接受「相信我」這種說法。可輸出的證明、稽核、甚至 AI 專屬的認證(類似 SOC2 那種),會慢慢變成標配。這跟我一貫的看法一樣:風險意識永遠該排在追逐效益前面,搞懂了再上,不懂就先學。

人才一年掉八成,入門職缺正在蒸發

接下來幾條串起來看,是最讓人坐不住的部分。

第七條,美國在 AI 投資上仍然領先,但吸引全球人才的能力正在下滑。讓我嚇一跳的是規模:光是去年一年,移居美國的 AI 研究者與開發者數量就掉了八成。八成。原因大家心裡有數,移民政策這類周邊因素一旦變難,人才自然就不來了。種什麼因得什麼果。

不過 Daniel 補了一個讓人稍微安心的視角:現在小團隊就能做很多事,一家公司做到幾千萬甚至上億美元營收需要的人變少了;而且團隊本來就越來越分散,VC 在美國、公司註冊在美國,不代表那些工程師非得住在美國。人才不來,不一定等於做不出公司。

第九條最沉重:AI 帶來的生產力提升,正好出現在入門職缺開始萎縮的那些領域。寫 SQL 查詢的菜鳥工程師職位,基本上沒了。Chris 說年初還有不少人在嘴硬抗拒,到了五月底錄這集時,他身邊已經找不到還在抗拒的人。世界變得很快。

這段我想多講一句,因為它跟我之前在OpenAI 工程師零行人寫程式碼那篇的觀察是連在一起的。入門職缺消失是真的,會有人因此失業也是真的,這很殘酷。但反過來看,這些工具也能讓剛進公司的新人用更快的速度升級。Daniel 說他們公司有自己的一套 skill repo,新人一接上就能快速上手整個技術棧。前提是你得用對方法。

別只叫模型「把東西做出來」

報告另一條提到:正規教育落後於 AI,但人們在人生每個階段都在學 AI。八成的高中與大學生已經在用 AI 處理課業,但有制定相關政策的老師卻只佔很小一部分。

Chris 分享的學習法我很推。他這次學 Rust(以陡峭學習曲線聞名)終於學進去了,關鍵在於他不只是叫 Cloud Code「幫我做出來」,而是邊做邊請它解釋:為什麼這樣寫、這個選擇背後的理由是什麼、換另一種做法會怎樣。把它當成一場有對話的學習,而不是一台答案輸出機。他也用同樣的方式陪自己準備升高中的女兒,結果女兒在沒有 AI 可用的期末考裡照樣拿全 A。這才是用對的姿勢。

最後我想留一個 Chris 講的小故事。他媽媽八十幾歲、是退休的技術人,喜歡畫畫然後在 Photoshop 裡慢慢修圖。Chris 一開始想跟她說「妳直接叫 AI 做就好了啊」,講到一半他突然收手,因為他發現對媽媽來說,在 Photoshop 裡動手本身就是樂趣。就像有人堅持自己釀啤酒,明明巷口買更便宜更好喝,但那從來不是重點。

我覺得這是整集最溫柔也最重要的提醒。AI 確實能把你直接推到終點,但不是所有事都該被推到終點。報告裡那些冷冰冰的數字告訴你產業跑得多快,可真正要決定的是:哪些事你想交給 AI,哪些事你想自己慢慢來。這條線,得你自己畫。自行斟酌,共勉之。

如果這類用數據校正認知的內容對你有幫助,我會持續寫,訂閱 wilsonhuang.xyz 就不會錯過。

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件