Distillation 戰爭與 SWE-Bench 之死：AI 圈這週最辣的兩件事

TL;DR

Anthropic 發了一篇火藥味十足的部落格，指控多家中國 AI 實驗室透過分散帳號大規模 distillation 他們的模型，其中 MiniMax 被抓到的量最大
Distillation 的偵測其實很困難，因為「跑 benchmark 評測」和「蒐集 synthetic data 來訓練自己的模型」在 API 端看起來幾乎一模一樣
最強的模型不一定是最好的 teacher，distillation 的效果跟 teacher-student 之間的相似度高度相關
SWE-Bench Verified 正式被 OpenAI 宣告死亡，因為剩下那 20% 沒人解得出來的題目，有 59% 根本就是無解的爛題
GPT-5 在解題過程中被發現會引用「未來的資訊」，因為訓練資料裡包含了 benchmark 的答案，模型等於在作弊

這集是 Latent Space 的 Substack Live 第六場。Latent Space 是目前 AI 工程領域最受歡迎的 Podcast 之一，由 Swix（Shawn Wang，smol.ai 創辦人）和 Alessio Fanelli（Decibel Partners 合夥人）共同主持，專門找 AI 領域的研究者和實作者來聊硬核技術話題。

這集的兩位來賓分別是 Nathan Lambert 和 Sebastian Raschka。Nathan 是 Allen Institute for AI（Ai2）的資深研究科學家，負責 OLMo 系列開放模型的 post-training，也是 RLHF 領域的代表性人物，他的 Substack「Interconnects」是我長期追蹤的 AI 資訊來源之一。Sebastian 則是《Build a Large Language Model (From Scratch)》的作者，前威斯康辛大學統計學教授，現在專職做獨立 LLM 研究，新書正在寫 reasoning model 的實作。兩個人今年二月初才一起上了 Lex Fridman 的節目聊了四個半小時的 AI 現況，算是這個圈子裡很有份量的組合。

Anthropic 的 Distillation 戰爭：你用我的 API，我用你的名字

先講 distillation 是什麼。簡單說就是拿一個大模型的輸出去訓練一個小模型。這概念在機器學習裡不新鮮，DeepSeek R1 拿自己的 671B 大模型去蒸餾出一堆小模型就是這個邏輯。各家實驗室內部也都在做類似的事，Cloud Opus 蒸餾出 Cloud Sonnet，Google 拿大 Gemini 蒸餾出 Gemma，這都是標準操作。

問題出在：你拿別人家的 API 產出 synthetic data，然後回去訓練自己的競爭模型。

Anthropic 這週發的部落格，直接點名了幾家中國實驗室，說他們透過大量分散帳號對 Claude API 做 distillation。其中 MiniMax 被抓到的量最大，DeepSeek 反而相對少。Nathan 的觀點滿有意思的，他認為 Anthropic 把 DeepSeek 的名字放進來，某種程度上是行銷操作。因為 DeepSeek 是美國人唯一叫得出名字的中國 AI 公司，放進去就是讓這件事更有記憶點。

老實說，我對 Anthropic 用「attack」這個詞不太意外。很符合他們一貫的品牌調性。

偵測 distillation 有多難？

Sebastian 問了一個很實際的問題：你怎麼分辨一個人是在跑 benchmark 評測，還是在蒐集 synthetic data？因為兩者在 API 端看起來幾乎一模一樣。都是送一堆 prompt 進去，拿回一堆 response。

答案大概是靠量和分布。跑 benchmark 你就跑個三五次，頂多幾千個 request。但如果你要 distillation，那是幾十萬、幾百萬筆的規模。而且 distillation 的 prompt 分布會很廣，什麼主題都有。而 benchmark 的分布比較集中，就是數學或程式碼。

但 Sebastian 提了一個讓人不太舒服的點：這意味著 Anthropic 在看你用他們的 API 做什麼。雖然大家都知道用雲端服務不存在真正的隱私，但一家公司主動去分析你的使用內容然後公開指控你，這個動作本身就值得思考。

另外一個有趣的細節：Anthropic 抓到 MiniMax 在訓練 MiniMax 2.5 的時候，Anthropic 放出了 Opus 4.6，結果近一半的流量立刻轉到新模型上。這就太明顯了，擺明是在追最新的 frontier model 來蒐集資料。

最強的 teacher 不一定最好

Nathan 分享了一個我覺得很反直覺的觀點：distillation 不是找最強的模型當 teacher 就好。他們在 Ai2 的研究發現，Qwen 系列的 dense model 反而是很多 open-weight model 最好的 teacher。原因可能是很多開源模型本身就是基於 Qwen 或者跟 Qwen 很像，所以 token 的機率分布比較匹配。

換句話說，你從 Claude 蒐集了 100 億 token 的資料，不代表你的模型就會變強。teacher 跟 student 之間有一種微妙的相容性，風格差太多的話，小模型反而學不好。

這點讓整個 distillation 的故事變得更複雜。不是「偷了就能用」這麼簡單。

SWE-Bench 之死：當 Benchmark 本身就是個 Bug

這週另一個大事是 OpenAI 正式宣告 SWE-Bench Verified 退役。

先講背景。SWE-Bench 是普林斯頓出的程式碼 benchmark，從 GitHub 的開源專案裡抓了一堆 issue 和對應的 PR，讓模型去修 bug。SWE-Bench Verified 是 OpenAI 花了大錢（估計幾百萬美金）從原始的 SWE-Bench 裡人工篩選出 500 題的精選版，每題請三個人審核品質。

結果呢？所有模型都卡在 80% 出頭，從 GPT-5 到 MiniMax M2.5，分數幾乎沒差別。

OpenAI 自己去查剩下那 20% 到底怎麼回事，這次每題派六個人審，發現 59% 根本就是無解的題目。原始 benchmark 的品質問題穿透了第一輪審核。Swix 舉了一個例子：有一題要求輸出裡必須包含一個特定的 magic string「get annotation」，但題目本身完全沒有提示你需要產出這個字串。唯一能答對的方式就是你背過答案。

Sebastian 說得好：這種題目反而應該故意保留當 canary（金絲雀）。如果你的模型解出了一個邏輯上不可能解的題目，那它肯定是在作弊。

模型從未來偷答案

更精彩的是，OpenAI 在檢查 GPT-5 的 chain of thought 時，發現模型會引用「未來版本」的 Django API 來解題。因為 benchmark 的題目都是公開的，訓練資料裡包含了 GitHub 上的各種討論和解法，模型等於是看過答案才「解出來」的。

這不是惡意作弊，是結構性的汙染。任何碰過 GitHub 的訓練語料都會不知不覺吸收這些資訊。

OpenAI 的對策是推 SWE-Bench Pro，由 Scale.ai 負責，做了幾個基本但重要的修正：私有測試集、更新題目的時間範圍、多元化程式語言和 repo 來源。但 Sebastian 也提了一個好問題：SWE-Bench Verified 當初也是花大錢認真做的，兩年後還是爆了。誰能保證 Pro 版不會重蹈覆轍？