
Distillation 戰爭與 SWE-Bench 之死:AI 圈這週最辣的兩件事
TL;DR
- Anthropic 發了一篇火藥味十足的部落格,指控多家中國 AI 實驗室透過分散帳號大規模 distillation 他們的模型,其中 MiniMax 被抓到的量最大
- Distillation 的偵測其實很困難,因為「跑 benchmark 評測」和「蒐集 synthetic data 來訓練自己的模型」在 API 端看起來幾乎一模一樣
- 最強的模型不一定是最好的 teacher,distillation 的效果跟 teacher-student 之間的相似度高度相關
- SWE-Bench Verified 正式被 OpenAI 宣告死亡,因為剩下那 20% 沒人解得出來的題目,有 59% 根本就是無解的爛題
- GPT-5 在解題過程中被發現會引用「未來的資訊」,因為訓練資料裡包含了 benchmark 的答案,模型等於在作弊
這集是 Latent Space 的 Substack Live 第六場。Latent Space 是目前 AI 工程領域最受歡迎的 Podcast 之一,由 Swix(Shawn Wang,smol.ai 創辦人)和 Alessio Fanelli(Decibel Partners 合夥人)共同主持,專門找 AI 領域的研究者和實作者來聊硬核技術話題。
這集的兩位來賓分別是 Nathan Lambert 和 Sebastian Raschka。Nathan 是 Allen Institute for AI(Ai2)的資深研究科學家,負責 OLMo 系列開放模型的 post-training,也是 RLHF 領域的代表性人物,他的 Substack「Interconnects」是我長期追蹤的 AI 資訊來源之一。Sebastian 則是《Build a Large Language Model (From Scratch)》的作者,前威斯康辛大學統計學教授,現在專職做獨立 LLM 研究,新書正在寫 reasoning model 的實作。兩個人今年二月初才一起上了 Lex Fridman 的節目聊了四個半小時的 AI 現況,算是這個圈子裡很有份量的組合。
Anthropic 的 Distillation 戰爭:你用我的 API,我用你的名字
先講 distillation 是什麼。簡單說就是拿一個大模型的輸出去訓練一個小模型。這概念在機器學習裡不新鮮,DeepSeek R1 拿自己的 671B 大模型去蒸餾出一堆小模型就是這個邏輯。各家實驗室內部也都在做類似的事,Cloud Opus 蒸餾出 Cloud Sonnet,Google 拿大 Gemini 蒸餾出 Gemma,這都是標準操作。
問題出在:你拿別人家的 API 產出 synthetic data,然後回去訓練自己的競爭模型。
Anthropic 這週發的部落格,直接點名了幾家中國實驗室,說他們透過大量分散帳號對 Claude API 做 distillation。其中 MiniMax 被抓到的量最大,DeepSeek 反而相對少。Nathan 的觀點滿有意思的,他認為 Anthropic 把 DeepSeek 的名字放進來,某種程度上是行銷操作。因為 DeepSeek 是美國人唯一叫得出名字的中國 AI 公司,放進去就是讓這件事更有記憶點。
老實說,我對 Anthropic 用「attack」這個詞不太意外。很符合他們一貫的品牌調性。
偵測 distillation 有多難?
Sebastian 問了一個很實際的問題:你怎麼分辨一個人是在跑 benchmark 評測,還是在蒐集 synthetic data?因為兩者在 API 端看起來幾乎一模一樣。都是送一堆 prompt 進去,拿回一堆 response。
答案大概是靠量和分布。跑 benchmark 你就跑個三五次,頂多幾千個 request。但如果你要 distillation,那是幾十萬、幾百萬筆的規模。而且 distillation 的 prompt 分布會很廣,什麼主題都有。而 benchmark 的分布比較集中,就是數學或程式碼。
但 Sebastian 提了一個讓人不太舒服的點:這意味著 Anthropic 在看你用他們的 API 做什麼。雖然大家都知道用雲端服務不存在真正的隱私,但一家公司主動去分析你的使用內容然後公開指控你,這個動作本身就值得思考。
另外一個有趣的細節:Anthropic 抓到 MiniMax 在訓練 MiniMax 2.5 的時候,Anthropic 放出了 Opus 4.6,結果近一半的流量立刻轉到新模型上。這就太明顯了,擺明是在追最新的 frontier model 來蒐集資料。
最強的 teacher 不一定最好
Nathan 分享了一個我覺得很反直覺的觀點:distillation 不是找最強的模型當 teacher 就好。他們在 Ai2 的研究發現,Qwen 系列的 dense model 反而是很多 open-weight model 最好的 teacher。原因可能是很多開源模型本身就是基於 Qwen 或者跟 Qwen 很像,所以 token 的機率分布比較匹配。
換句話說,你從 Claude 蒐集了 100 億 token 的資料,不代表你的模型就會變強。teacher 跟 student 之間有一種微妙的相容性,風格差太多的話,小模型反而學不好。
這點讓整個 distillation 的故事變得更複雜。不是「偷了就能用」這麼簡單。
SWE-Bench 之死:當 Benchmark 本身就是個 Bug
這週另一個大事是 OpenAI 正式宣告 SWE-Bench Verified 退役。
先講背景。SWE-Bench 是普林斯頓出的程式碼 benchmark,從 GitHub 的開源專案裡抓了一堆 issue 和對應的 PR,讓模型去修 bug。SWE-Bench Verified 是 OpenAI 花了大錢(估計幾百萬美金)從原始的 SWE-Bench 裡人工篩選出 500 題的精選版,每題請三個人審核品質。
結果呢?所有模型都卡在 80% 出頭,從 GPT-5 到 MiniMax M2.5,分數幾乎沒差別。
OpenAI 自己去查剩下那 20% 到底怎麼回事,這次每題派六個人審,發現 59% 根本就是無解的題目。原始 benchmark 的品質問題穿透了第一輪審核。Swix 舉了一個例子:有一題要求輸出裡必須包含一個特定的 magic string「get annotation」,但題目本身完全沒有提示你需要產出這個字串。唯一能答對的方式就是你背過答案。
Sebastian 說得好:這種題目反而應該故意保留當 canary(金絲雀)。如果你的模型解出了一個邏輯上不可能解的題目,那它肯定是在作弊。
模型從未來偷答案
更精彩的是,OpenAI 在檢查 GPT-5 的 chain of thought 時,發現模型會引用「未來版本」的 Django API 來解題。因為 benchmark 的題目都是公開的,訓練資料裡包含了 GitHub 上的各種討論和解法,模型等於是看過答案才「解出來」的。
這不是惡意作弊,是結構性的汙染。任何碰過 GitHub 的訓練語料都會不知不覺吸收這些資訊。
OpenAI 的對策是推 SWE-Bench Pro,由 Scale.ai 負責,做了幾個基本但重要的修正:私有測試集、更新題目的時間範圍、多元化程式語言和 repo 來源。但 Sebastian 也提了一個好問題:SWE-Bench Verified 當初也是花大錢認真做的,兩年後還是爆了。誰能保證 Pro 版不會重蹈覆轍?
我的想法
聽完這集最大的感受是:AI 圈現在的競爭已經不只是技術競爭,是資訊戰和政治角力。Anthropic 那篇部落格與其說是技術報告,不如說是一次精心計算的公關操作。Nathan 看得很透,連 DeepSeek 被點名都可能只是因為它是美國人唯一認識的中國 AI 品牌。
而 benchmark 這邊,我覺得最諷刺的是:全世界最被嚴格審視的 coding benchmark,花了幾百萬美金做人工審核,最後還是有六成的「難題」根本就是出錯的題目。這讓我想到,我們平常看到各家模型在排行榜上差 0.2% 就大書特書,到底有多少是真實的能力差距,又有多少只是噪音?
想看更多 AI 產業觀察和技術踩坑心得,我都會更新在 wilsonhuang.xyz,訂閱一下就不會漏掉。
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


