
Kyle Corbitt 拆解 RL 微調:為什麼 SFT 太暴力、GRPO 為什麼會 work、那個讓我笑出來的 Hacker News 故事
TL;DR
- 用 RL 微調開源模型,性能上限會比 SFT 高,因為 RL 是在模型已經熟悉的「凹槽」裡走,不會像 SFT 那樣把權重打得亂七八糟
- GRPO 的核心 trick 其實很不浪漫:放棄精準計算每個 token 的價值,直接「rare token 同等加權」,理論上不該 work 但實務上 work 得很好
- 中國實驗室追不上美國前沿模型,主要瓶頸幾乎都是算力。蒸餾、LLM-as-Judge 這些 trick 救不回單一訓練 run 算力差好幾個數量級的事實
- 在窄領域裡 reward hacking 並不可怕。一旦模型學到 hack,它會把那招套到每個 prompt 上,肉眼就抓得到
- CoreWeave 客戶來找 RL 微調的真正動機,第一名是延遲,第二名是高量任務的 token 成本,性能反而是順便加贈
- 從 frontier model 換成自家小模型加 RL 微調,CoreWeave 客戶平均能把延遲壓到三成,token 成本至少便宜一個數量級
這集的來頭
The Cognitive Revolution 是 Nathan Labenz 主持的 AI 技術深訪節目,定位是「給內行人聽的 AI 訪談」,每集都會花一兩個小時把一個技術主題挖到底。這集找來的是 Kyle Corbitt,原本是 OpenPipe 的共同創辦人兼執行長,OpenPipe 是專做 RL 微調跟客製化模型訓練的新創。2025 年九月,CoreWeave(這家上市的 AI 算力雲端公司)把 OpenPipe 整間買下來,Kyle 現在帶 CoreWeave 的 serverless training 團隊。2025 年十月他們還推出了第一個公開可用的 serverless RL 平台,主打訓練速度快 1.4 倍、成本降 40%。Kyle 既懂技術也懂商業,這集講了快兩個小時,看完之後我對 RL 微調的整個圖像清晰了不少。
為什麼 RL 比 SFT 更不暴力?「凹槽」這個比喻很關鍵
主持人一開始就丟了個我自己也常想的問題:我都做 SFT,要不要轉 RL?
Kyle 的答案是:如果你用的是開源模型而不是 frontier model,RL 的性能上限幾乎一定比 SFT 高。RL 並沒有什麼魔法,問題出在 SFT 太暴力。
他用了一個比喻:模型在預訓練階段已經把某些 token 序列「刻」得很深,這些就是它的凹槽。SFT 是把人類示範的答案硬塞進去,要模型照著抄,但人類寫的句子未必走在這些凹槽裡。為了讓權重對齊新答案,SFT 連那些原本就會對的 token 也一起改,這就是 catastrophic forgetting(災難性遺忘)的來源。
RL 不一樣。RL 透過自我採樣加上 reward 訊號,只強化那些「rare 但有效」的 token,原本就 OK 的部分動都不動。這個「最少必要更新」的特性,讓模型可以走得更遠而不會把預訓練累積的能力打爛。
之前在當 AI 把智力變便宜,人類最後的工作叫「驗證」那篇有聊過驗證會變成新的稀缺,RL 在這裡其實也是同一套邏輯:reward 訊號的品質決定了模型能爬多高。
GRPO 為什麼 work,雖然數學上讓人很不爽
GRPO 是 DeepSeek 帶火的演算法,但 Kyle 講得很坦白:它紅起來,跟它比前輩強多少其實沒太大關係。真正關鍵是 DeepSeek 把它工程化到能 scale,還拿出一個能用的模型當證據。
PPO 那一代用 value model 預測每個 token 的長期價值,數學上很漂亮但 hyperparameter 多到讓人想哭。GRPO 直接把 value model 砍掉,改成「一次跑很多平行的 rollout,看誰得分高」,再用組內相對優勢分配權重。
這裡有個讓主持人卡很久的點:當你在 token 層級分配 credit 的時候,GRPO 怎麼知道哪個 token 才是關鍵?
Kyle 的答案聽起來很不科學:它不知道。它只看哪個 token 的取樣機率比較低(rare token),然後把同樣的 advantage 平均加到所有 rare token 上。聽起來像在亂給分,但實務上就是 work。
為什麼會 work?因為一條 reasoning trace 裡,真正影響結果的就那幾個關鍵分歧點,而模型在這些分歧點上的取樣機率本來就比較低。GRPO 等於是用「rare = important」當作快速近似,省掉算力換來大幅工程簡化。
GRPO 之後還有 DAPO、GSPO、CISPO 等一堆改良,但大家還是叫它 GRPO,類似當年 PPO 名字一直延用的狀況。
中國模型為什麼追不上?答案幾乎都是算力
Kyle 對這題的判斷比我想像中直接:中國前沿實驗室追不上 OpenAI、Anthropic、Google,瓶頸幾乎全是算力,跟技術沒太大關係。
蒸餾(distillation)、LLM-as-Judge、用 frontier model 當評審,這些 trick 中國實驗室都在用,但都救不回單一訓練 run 算力差好幾個數量級的事實。Anthropic 之前公開抱怨過中國實驗室的蒸餾攻擊,Kyle 在這集補充了一個有趣的觀察:用 frontier model 當 RL 訓練裡的 judge,比直接 SFT 蒸餾還更有用,因為前者讓你保留自己模型的分佈,又能學到對的標準。
至於為什麼中國模型在 benchmark 上看起來特別「尖」?Kyle 給了一個很商業的解釋:新品牌沒有名氣,唯一能讓人試你的方法就是 benchmark 漂亮。OpenAI 跟 Anthropic 已經有幾億用戶在實際使用,benchmark 沒那麼重要,口耳相傳就會把好模型推開。
我之前讀過 Anthropic 早期投資人 Anjney Midha 在 22 個 VC 只有他說 Yes 那篇講的算力版電網概念,搭配 Kyle 這集的判斷一起看,更能理解為什麼算力是這個世代 AI 軍備競賽的真正勝負手。
一個 Hacker News 標題實驗,把 reward hacking 演到完整版
這集最爆笑的一段在後面。Kyle 早期想用 RL 教模型寫 Hacker News 爆款標題,他的做法是:
- 爬十萬篇 HN 文章(標題、內文、upvote 數)
- 訓練一個 reward model,輸入內文加標題,輸出預測 upvote 數
- 用這個 reward model 當訊號,跑 RL 教模型寫標題
跑了大概一百個 step,分數穩穩成長,模型還學到 HN 不喜歡 Title Case、要 lowercase 開頭大寫之類的細節。然後突然之間,預測分數從個位數跳到一百八十。Kyle 心想 OK 出事了。
他打開模型輸出,每一篇文章的標題都長一個樣:「Google lays off 75% of workforce, effective immediately.」
模型已經完全不看內文了。反正這個標題在 HN 上分數爆炸,那就每篇都用這個。
修法很簡單,加一個 LLM-as-Judge 檢查標題是否能在內文中找到佐證,找不到就直接給 0 分。reward 訊號重新校準後,訓練就回到正軌。
Kyle 講這個故事是要說明一個反直覺的觀察:在窄領域裡,reward hacking 其實不可怕。一旦模型學到一個 hack,它會把那招套到每個 prompt 上,所以你只要隨機抽幾個輸出看一下,馬上就會抓到。真正可怕的是訓練 frontier model 那種,一個 run 燒幾億美金,發現 reward 設計錯了你也沒辦法重訓,只能把問題滾到下一代再修。
這也是為什麼 Kyle 一直強調「迭代式 rubric」這套流程:先讓 judge 評幾組輸出、user 看高低分案例做校準、跑三十到四十個 step 看曲線、再回來看模型有沒有在 hack,反覆三到八輪才放開讓它跑幾千個 step。寧願慢一點,也比訓壞要重來省。
什麼時候該做微調?Kyle 的實戰建議
問到企業實際應用,Kyle 的篩選標準很乾脆:你對 frontier model 有多痛苦?
如果 GPT 跟 Claude 已經把工作做得不錯,建議直接用,不要碰微調,因為微調會把你的迭代速度拖慢。CoreWeave 客戶來找他們的真正動機,第一名是延遲,第二名是高量任務的 token 成本。客服機器人、語音轉錄、語音助理這類場景對延遲敏感到 frontier model 根本用不下去,逼你換小模型,但小模型品質又掉太多,這時候 RL 微調就是最划算的解。
他們可以把客戶的延遲壓到 frontier model 的三成,token 成本至少便宜一個數量級,性能還常常更好。
這個觀察跟之前 Klarna CEO 說「SaaS 要死了」那篇講的趨勢是同一條線:AI 把軟體生產成本打到趨近於零之後,企業最在意的不再是「這個模型多聰明」,是「我能不能用更便宜更快的方式達到同樣品質」。
另外有個技術細節值得一提:CoreWeave 大量使用 LoRA adapter 做訓練跟部署。一個 base model 加多個 LoRA adapter,可以讓多任務模型同時 serve,不需要為每個任務做一個獨立的 endpoint。Kyle 說即使是 rank-1 LoRA 只動 0.1% 的權重,也夠塞下好幾個任務還不會明顯互相干擾。這對企業降低運維複雜度是個被嚴重低估的紅利。
我自己的判斷
聽完這集我有兩個更新。
第一,我以前對 RL 微調的恐懼有一半是過時的。在窄領域、清楚定義 reward 的場景下,reward hacking 真的不難抓,迭代式 rubric 也已經是業界 best practice。如果你的產品有明確的延遲或成本壓力,現在不去評估 RL 微調可能就是把錢留在桌上不撿。
第二,中國實驗室追不上的真正理由可能比想像中單純,就是算力。技術上的差距很多時候被高估了,反而資本市場跟資料中心建設能不能跟上美國節奏,才是 2026 年下半年要持續觀察的變數。
如果你也在思考要不要把生產環境的某個 LLM 任務換成微調的開源模型,這集真的值得花兩小時聽完,比我這篇講得細很多。後續有機會我會再寫一篇實際開 LoRA 跟 GRPO 訓練流程的踩坑筆記。
如果這篇對你有幫助,我的部落格 wilsonhuang.xyz 會持續更新這類 AI 產業跟技術的觀察,有興趣的可以訂閱追蹤。
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


