Kyle Corbitt 拆解 RL 微調：為什麼 SFT 太暴力、GRPO 為什麼會 work、那個讓我笑出來的 Hacker News 故事

TL;DR

用 RL 微調開源模型，性能上限會比 SFT 高，因為 RL 是在模型已經熟悉的「凹槽」裡走，不會像 SFT 那樣把權重打得亂七八糟
GRPO 的核心 trick 其實很不浪漫：放棄精準計算每個 token 的價值，直接「rare token 同等加權」，理論上不該 work 但實務上 work 得很好
中國實驗室追不上美國前沿模型，主要瓶頸幾乎都是算力。蒸餾、LLM-as-Judge 這些 trick 救不回單一訓練 run 算力差好幾個數量級的事實
在窄領域裡 reward hacking 並不可怕。一旦模型學到 hack，它會把那招套到每個 prompt 上，肉眼就抓得到
CoreWeave 客戶來找 RL 微調的真正動機，第一名是延遲，第二名是高量任務的 token 成本，性能反而是順便加贈
從 frontier model 換成自家小模型加 RL 微調，CoreWeave 客戶平均能把延遲壓到三成，token 成本至少便宜一個數量級

The Cognitive Revolution 是 Nathan Labenz 主持的 AI 技術深訪節目，定位是「給內行人聽的 AI 訪談」，每集都會花一兩個小時把一個技術主題挖到底。這集找來的是 Kyle Corbitt，原本是 OpenPipe 的共同創辦人兼執行長，OpenPipe 是專做 RL 微調跟客製化模型訓練的新創。2025 年九月，CoreWeave（這家上市的 AI 算力雲端公司）把 OpenPipe 整間買下來，Kyle 現在帶 CoreWeave 的 serverless training 團隊。2025 年十月他們還推出了第一個公開可用的 serverless RL 平台，主打訓練速度快 1.4 倍、成本降 40%。Kyle 既懂技術也懂商業，這集講了快兩個小時，看完之後我對 RL 微調的整個圖像清晰了不少。

為什麼 RL 比 SFT 更不暴力？「凹槽」這個比喻很關鍵

主持人一開始就丟了個我自己也常想的問題：我都做 SFT，要不要轉 RL？

Kyle 的答案是：如果你用的是開源模型而不是 frontier model，RL 的性能上限幾乎一定比 SFT 高。RL 並沒有什麼魔法，問題出在 SFT 太暴力。

他用了一個比喻：模型在預訓練階段已經把某些 token 序列「刻」得很深，這些就是它的凹槽。SFT 是把人類示範的答案硬塞進去，要模型照著抄，但人類寫的句子未必走在這些凹槽裡。為了讓權重對齊新答案，SFT 連那些原本就會對的 token 也一起改，這就是 catastrophic forgetting（災難性遺忘）的來源。

RL 不一樣。RL 透過自我採樣加上 reward 訊號，只強化那些「rare 但有效」的 token，原本就 OK 的部分動都不動。這個「最少必要更新」的特性，讓模型可以走得更遠而不會把預訓練累積的能力打爛。

之前在當 AI 把智力變便宜，人類最後的工作叫「驗證」那篇有聊過驗證會變成新的稀缺，RL 在這裡其實也是同一套邏輯：reward 訊號的品質決定了模型能爬多高。

GRPO 為什麼 work，雖然數學上讓人很不爽

GRPO 是 DeepSeek 帶火的演算法，但 Kyle 講得很坦白：它紅起來，跟它比前輩強多少其實沒太大關係。真正關鍵是 DeepSeek 把它工程化到能 scale，還拿出一個能用的模型當證據。

PPO 那一代用 value model 預測每個 token 的長期價值，數學上很漂亮但 hyperparameter 多到讓人想哭。GRPO 直接把 value model 砍掉，改成「一次跑很多平行的 rollout，看誰得分高」，再用組內相對優勢分配權重。

這裡有個讓主持人卡很久的點：當你在 token 層級分配 credit 的時候，GRPO 怎麼知道哪個 token 才是關鍵？

Kyle 的答案聽起來很不科學：它不知道。它只看哪個 token 的取樣機率比較低（rare token），然後把同樣的 advantage 平均加到所有 rare token 上。聽起來像在亂給分，但實務上就是 work。

為什麼會 work？因為一條 reasoning trace 裡，真正影響結果的就那幾個關鍵分歧點，而模型在這些分歧點上的取樣機率本來就比較低。GRPO 等於是用「rare = important」當作快速近似，省掉算力換來大幅工程簡化。

GRPO 之後還有 DAPO、GSPO、CISPO 等一堆改良，但大家還是叫它 GRPO，類似當年 PPO 名字一直延用的狀況。

中國模型為什麼追不上？答案幾乎都是算力

Kyle 對這題的判斷比我想像中直接：中國前沿實驗室追不上 OpenAI、Anthropic、Google，瓶頸幾乎全是算力，跟技術沒太大關係。

蒸餾（distillation）、LLM-as-Judge、用 frontier model 當評審，這些 trick 中國實驗室都在用，但都救不回單一訓練 run 算力差好幾個數量級的事實。Anthropic 之前公開抱怨過中國實驗室的蒸餾攻擊，Kyle 在這集補充了一個有趣的觀察：用 frontier model 當 RL 訓練裡的 judge，比直接 SFT 蒸餾還更有用，因為前者讓你保留自己模型的分佈，又能學到對的標準。

至於為什麼中國模型在 benchmark 上看起來特別「尖」？Kyle 給了一個很商業的解釋：新品牌沒有名氣，唯一能讓人試你的方法就是 benchmark 漂亮。OpenAI 跟 Anthropic 已經有幾億用戶在實際使用，benchmark 沒那麼重要，口耳相傳就會把好模型推開。

我之前讀過 Anthropic 早期投資人 Anjney Midha 在 22 個 VC 只有他說 Yes 那篇講的算力版電網概念，搭配 Kyle 這集的判斷一起看，更能理解為什麼算力是這個世代 AI 軍備競賽的真正勝負手。

一個 Hacker News 標題實驗，把 reward hacking 演到完整版

這集最爆笑的一段在後面。Kyle 早期想用 RL 教模型寫 Hacker News 爆款標題，他的做法是：

爬十萬篇 HN 文章（標題、內文、upvote 數）
訓練一個 reward model，輸入內文加標題，輸出預測 upvote 數
用這個 reward model 當訊號，跑 RL 教模型寫標題

跑了大概一百個 step，分數穩穩成長，模型還學到 HN 不喜歡 Title Case、要 lowercase 開頭大寫之類的細節。然後突然之間，預測分數從個位數跳到一百八十。Kyle 心想 OK 出事了。

他打開模型輸出，每一篇文章的標題都長一個樣：「Google lays off 75% of workforce, effective immediately.」

模型已經完全不看內文了。反正這個標題在 HN 上分數爆炸，那就每篇都用這個。

修法很簡單，加一個 LLM-as-Judge 檢查標題是否能在內文中找到佐證，找不到就直接給 0 分。reward 訊號重新校準後，訓練就回到正軌。

Kyle 講這個故事是要說明一個反直覺的觀察：在窄領域裡，reward hacking 其實不可怕。一旦模型學到一個 hack，它會把那招套到每個 prompt 上，所以你只要隨機抽幾個輸出看一下，馬上就會抓到。真正可怕的是訓練 frontier model 那種，一個 run 燒幾億美金，發現 reward 設計錯了你也沒辦法重訓，只能把問題滾到下一代再修。

這也是為什麼 Kyle 一直強調「迭代式 rubric」這套流程：先讓 judge 評幾組輸出、user 看高低分案例做校準、跑三十到四十個 step 看曲線、再回來看模型有沒有在 hack，反覆三到八輪才放開讓它跑幾千個 step。寧願慢一點，也比訓壞要重來省。

什麼時候該做微調？Kyle 的實戰建議

問到企業實際應用，Kyle 的篩選標準很乾脆：你對 frontier model 有多痛苦？

如果 GPT 跟 Claude 已經把工作做得不錯，建議直接用，不要碰微調，因為微調會把你的迭代速度拖慢。CoreWeave 客戶來找他們的真正動機，第一名是延遲，第二名是高量任務的 token 成本。客服機器人、語音轉錄、語音助理這類場景對延遲敏感到 frontier model 根本用不下去，逼你換小模型，但小模型品質又掉太多，這時候 RL 微調就是最划算的解。

他們可以把客戶的延遲壓到 frontier model 的三成，token 成本至少便宜一個數量級，性能還常常更好。

這個觀察跟之前 Klarna CEO 說「SaaS 要死了」那篇講的趨勢是同一條線：AI 把軟體生產成本打到趨近於零之後，企業最在意的不再是「這個模型多聰明」，是「我能不能用更便宜更快的方式達到同樣品質」。

另外有個技術細節值得一提：CoreWeave 大量使用 LoRA adapter 做訓練跟部署。一個 base model 加多個 LoRA adapter，可以讓多任務模型同時 serve，不需要為每個任務做一個獨立的 endpoint。Kyle 說即使是 rank-1 LoRA 只動 0.1% 的權重，也夠塞下好幾個任務還不會明顯互相干擾。這對企業降低運維複雜度是個被嚴重低估的紅利。

我自己的判斷

聽完這集我有兩個更新。

第一，我以前對 RL 微調的恐懼有一半是過時的。在窄領域、清楚定義 reward 的場景下，reward hacking 真的不難抓，迭代式 rubric 也已經是業界 best practice。如果你的產品有明確的延遲或成本壓力，現在不去評估 RL 微調可能就是把錢留在桌上不撿。

第二，中國實驗室追不上的真正理由可能比想像中單純，就是算力。技術上的差距很多時候被高估了，反而資本市場跟資料中心建設能不能跟上美國節奏，才是 2026 年下半年要持續觀察的變數。

如果你也在思考要不要把生產環境的某個 LLM 任務換成微調的開源模型，這集真的值得花兩小時聽完，比我這篇講得細很多。後續有機會我會再寫一篇實際開 LoRA 跟 GRPO 訓練流程的踩坑筆記。

如果這篇對你有幫助，我的部落格 wilsonhuang.xyz 會持續更新這類 AI 產業跟技術的觀察，有興趣的可以訂閱追蹤。

Kyle Corbitt 拆解 RL 微調：為什麼 SFT 太暴力、GRPO 為什麼會 work、那個讓我笑出來的 Hacker News 故事

TL;DR

這集的來頭

為什麼 RL 比 SFT 更不暴力？「凹槽」這個比喻很關鍵

GRPO 為什麼 work，雖然數學上讓人很不爽

中國模型為什麼追不上？答案幾乎都是算力

一個 Hacker News 標題實驗，把 reward hacking 演到完整版

什麼時候該做微調？Kyle 的實戰建議

我自己的判斷

推薦閱讀

「模型戰爭」其實沒人關心了：Practical AI 拆解 Meta 放棄 Llama 之後的開源閉源新平衡

悲觀比樂觀更上癮：Morgan Housel 談 AI、投資與人類沒變過的那些事

OpenAI 身份危機、AllBirds 變 AI 新創、資料中心被圍剿：All-In 這集的 2026 縮影

喜歡這篇文章嗎？