Fireworks AI 一天吃 13 兆 token：Benny Chen 拆解開源模型怎麼追上 OpenAI

TL;DR

Fireworks AI 一天處理超過 13 兆 token，比 Gemini 和 OpenAI 公開的 API 數字還多
2025 年十月 Series C 拿到 2.5 億美元，估值 40 億美元，2026 年二月年化營收 3.15 億美元，年增 416%
開源模型在 2026 年初已經追上閉源模型的價格戰線，OpenClaw 一推出就讓大家發現「模型很強但很貴」
Cursor 的 Fast Apply 功能是靠 Fireworks 的 speculative decoding（投機解碼）才跑到每秒 1,000 token
Benny Chen 在 Meta 待了八年，從 2017 年自研 ASIC 晶片到 PyTorch 推理部署全做過，這條路徑直接決定了 Fireworks 的技術選擇
Reinforcement Fine-Tuning（強化學習微調，RFT）是新槓桿，Vercel 用 RFT 做出 40 倍速度的 code fixing
多硬體策略很重要，Nvidia 缺貨的時候 AMD 就是你的備胎，這是雙供應商的老智慧
大部分客戶根本不在乎模型的國籍，做 fine-tune 的時候誰好用就用誰

這集是什麼節目

Software Engineering Daily 是長期經營軟體工程主題的老牌 podcast，內容偏深入技術訪談，主持人風格冷靜直白，不太搞煽情那一套。這集主持人是 Gregor Vand，新加坡的資安背景技術人，過去在資安、網路保險、軟體工程公司都當過 CTO，問起問題很有結構感。

來賓是 Benny Chen，Fireworks AI 的共同創辦人。Fireworks AI 是一間專做開源模型推理服務的基礎建設公司，2022 年底成立（剛好趕在 ChatGPT 推出前五六個月），2025 年十月由 Lightspeed、Index Ventures、Evantic 領投 2.5 億美元 C 輪，估值 40 億美元，Sequoia 持續加碼。客戶清單包含 Cursor、Perplexity、Notion、Sourcegraph、Uber、DoorDash、Shopify、Upwork 這些大牌。Benny 創業前在 Meta 待了八年多，從 2014 年的 Integrity Team 一路做到 ads infrastructure，2017 年還參與 Meta 自研 ASIC 的專案，是那種真的把 ML 基礎建設從晶片做到 PyTorch 部署都摸過一輪的人。

從 17 瓦的 ASIC 到 1,000 瓦的 Nvidia GPU

Benny 講了一段我覺得超有時代感的話。他 2017 年在 Meta 做的那顆 ASIC 晶片只有 17 瓦，現在 Nvidia 的新 GPU 是 1,000 瓦，「光是周邊配件就比那顆晶片還耗電」。

這不是炫耀，是在講一件事：產業的賭注規模在這九年裡翻了好幾個量級。當年 Facebook 跟 Intel 合作搞 in-house ASIC，是想複製 Google TPU 的路線，後來 Nvidia 推出 A100 大家才發現 ASIC 怎麼追都追不上。然後 Benny 改去做 PyTorch 在廣告模型上的部署，再然後就是 Nvidia 的天下。

我覺得這條職涯軌跡解釋了為什麼 Fireworks 會走「服務開源模型 + 多硬體支援」這條路。Benny 是親眼看著 Meta 在硬體選擇上踩過坑的人，他知道一個關鍵教訓：鎖死在單一供應商不是策略，是賭博。所以 Fireworks 從一開始就同時支援 Nvidia 和 AMD，這在 2022 年底還沒人這樣做。

順帶一提他自嘲了一句很 Wilson 風格的話：「我那時候要是直接買 Nvidia 股票，可能比做任何事都賺。」誠實到讓人想笑。

13 兆 token 的服務量是怎麼跑出來的

這個數字真的有點離譜。Benny 說他不能講最新的數字，但「上次公布的 13 兆 token 比 Gemini 和 OpenAI 公開的 API 數字還大，Gemini 那時候是 10、11 兆左右」。

為什麼一間 2022 年底才創業的公司可以做到這個量？答案是他們押對了一件事：開源模型會追上來。

這個押注在 2022 年其實很反共識。Benny 提醒我們，那時候大家在用的開源模型是 OPT、Llama 1、Falcon，「能維持三個 turn 的對話就已經很厲害了」，連 function calling 都還沒有。他們敢在 ChatGPT 還沒推出之前就成立公司專做開源模型服務，是賭信仰。

到了 2026 年初，這個賭注開花結果。Benny 說一個關鍵轉折點是 OpenClaw 推出之後，「大家發現一個訊息要花掉一百萬 token」，他有個朋友光是在 Telegram 上送一個訊息就燒掉一百萬 token，根本搞不清楚錢去哪了。當大家意識到 Sonnet 4.5 級別的模型用起來很燒錢的時候，便宜又夠用的開源模型自然就站起來了。

這個邏輯我之前在用過 Claude Sonnet 4.5 的 OpenClaw 再回頭看便宜模型裡有寫過實測心得。便宜模型省的錢常常被你浪費的時間吃掉，但這是個人玩家的視角；對於有量、有 fine-tune 能力、有專屬 workload 的企業客戶來說，開源模型的經濟學完全不一樣。

Cursor 的 Fast Apply 是怎麼跑到 1,000 token/秒的

Benny 講 Cursor 案例的時候態度很謙虛，「我們大多是在支援他們，他們團隊本身就很強」。但技術上其實有貓膩。

Cursor 的 Fast Apply 功能要在編輯器裡一次改一個大檔案，這對推理速度是極端的考驗。一般 LLM 是一個 token 一個 token 吐出來，速度有上限。Fireworks 給的解法是 speculative decoding（投機解碼）：用一個小模型先猜大模型會吐什麼 token，然後問大模型「你喜歡這些嗎？」如果大模型同意就一次性吐出來。

這個技巧讓 Cursor 的 Fast Apply 跑到每秒 1,000 token，比原本快了大約 13 倍。但 Benny 提到一個很多人忽略的細節：訓練那個小的 draft model（草稿模型）本身，跟訓練大模型一樣麻煩。資料品質、訓練基礎建設、開發效率全都重要。所以客戶如果只是 fine-tune 了一個自己的模型給 Fireworks，Fireworks 還要幫他們再訓練一個對應的 speculator 才能跑得快。

我覺得這裡藏著一個產業洞察：推理速度的差距已經不是「跑在哪個 GPU 上」決定的，而是「你願意為每個客戶 workload 客製多少」決定的。這跟我之前在前 OpenAI 工程師的 Coding Agent 使用心法裡寫過的觀察一致：CLI 為什麼贏 IDE？因為 context 管理才是真正的護城河，不是 UI。

多硬體策略：投資人是 Nvidia 跟 AMD 兩邊都有

Benny 在這裡有句蠻坦白的話：「我們的投資人裡 Nvidia 和 AMD 都有，所以我不想搞地圖砲。」

但他也直接承認多硬體策略是真的累。維護 AMD 的 fire attention kernel 要花掉本來可以拿去服務客戶的工程資源，這是 trade-off。為什麼還要做？三個原因：

第一，供應鏈可靠性。今年大家最缺的不是 Nvidia 的設計能力，是 Nvidia 的產能。當 Nvidia 拿不到的時候，AMD 就是你能不能交差的差別。

第二，雙供應商談判優勢。Benny 說在 Meta 的時候，CPU 採購就是 AMD 跟 Intel 同時用，這個策略在他做 ASIC 提供採購輸入的時候已經很成熟了。「兩個供應商通常就夠用了，三個就更舒服。」

第三，最大化客戶價值。客戶要的是便宜跟穩定，不是品牌忠誠度。

這個觀點放在現在的資料中心軍備競賽裡特別有意思。我之前寫過 Kevin O'Leary 把錢全砸進不接電網的資料中心，整個 AI 基礎建設的瓶頸正在從晶片移到電力。Fireworks 的多硬體策略某種程度上是在對沖這個瓶頸：你不是只挑一張 GPU 卡，你還在挑一條完整的電力供應鏈。

Eval 才是真正的資產

這集我覺得最有 takeaway 價值的是這段。Benny 說 Fireworks 在 eval 這塊投入「七成在基礎建設、三成在顧問」，他們開源了一個叫 Eval Protocol 的專案。

他的核心論點是這樣：很多公司不知道自己最值錢的東西是 eval，不是模型。

為什麼？因為 eval 可以跨世代用。今天用來評估 Llama 4 的 eval，明天可以拿來評估下一代模型，再來訓練自己的 RL 模型。但 SFT（supervised fine-tuning，監督式微調）的資料集就不行，每換一代模型可能都要重做。

Benny 講了一句我覺得超精準的：「就算你愛 Elon、想用 xAI 的模型，你怎麼知道什麼時候該用？沒有 eval 你連付錢給 Elon 都付不出去。」這個觀點跟我之前看 MIT 經濟學家 Christian Catalini 拆 AGI 經濟學的「驗證才是新稀缺」邏輯是同一條線。當 AI 能力本身變便宜，會驗證、會評估、能講清楚什麼是好的人，才是真正稀缺的。

最有意思的是 Benny 提到，很多客戶覺得寫 eval 很高深，其實沒有。「如果你能講清楚什麼是好、什麼是壞，你就完成 90% 了。剩下的就是把 production trace 拉出來，跑一個 LLM as a judge 就好。」這個門檻比想像中低很多，但很多 PM 還停在「我不是 ML 工程師我寫不出來」的心態。

Reinforcement Fine-Tuning：解鎖一個新槓桿

這部分是這集的重頭戲。Benny 認為 RFT 是 pre-training 紅利放緩之後產業找到的新槓桿。

他的觀點分兩層：

對產業來說，pre-training 還在進步，但是「需要指數成長的算力才能拉直線」，現實終究會踩煞車（電力會踩煞車）。RL 給了一條新路，就算是相對小的模型，只要 RL 推得對，可以拿到很好的結果。

對 Fireworks 來說，更關鍵的是 RFT 打通了從工程師到 tuned model 的客製化迴路。以前要做 SFT，你需要一隊 ML 工程師管 data labeler，要跟外包公司溝通什麼是好什麼是壞，還要做品質控管，到第一千個 label 還能維持一致。Benny 直白地說：「在 long context 設定下，我自己讀一輪對話都要花一小時，更別提標註了。」

RFT 把這個流程整個壓扁。你只要有一個 PM 能講清楚什麼是好、什麼是壞，寫一個 LLM as a judge，丟給 Fireworks，模型就會被教成那樣。Vercel 用 RFT 做 code fixing，速度提升 40 倍，而 Vercel 這種團隊「兩三個人就能對齊內部標準」，根本不需要 ML 團隊。

這對軟體產業的意涵很大。我之前在 Box CEO Aaron Levie 談 Agent 落地那篇有寫過，企業級 AI 的瓶頸不是模型不夠聰明，是資料混亂、權限複雜、Agent identity 是新挑戰。RFT 至少把「模型客製化」這一塊的門檻拉低到 PM 就能操作的程度，剩下的問題還在，但至少少一個。

競爭問題：先做到 Nvidia 的百分之一再說

主持人問了一個很尖銳的問題：Anthropic 把 Windsurf 給斷供了、OpenAI 推 Codex 直接打 Cursor、Google 搜尋擠壓 Perplexity，Fireworks 這種「服務商兼競爭者」的關係怎麼處理？

Benny 的答案非常實在：「我們連 Nvidia 的百分之一都還沒做到，現在擔心競爭太早了。」Nvidia 今年大概 4,000 億美元，Fireworks 連幾個百分點都不到，這個市場還在前期，不是搶餅階段。

他補了一個我覺得更深的觀察：客戶選 Fireworks 本質上選的是信任。信任他們把 numerics 做對、function calling 跑得正常、constraint generation 不出包、RL 設定不會踩雷。「我們的客戶都在賺很多錢，他們就是想要這些複雜性被處理掉。」

這個視角讓我想到 Klarna CEO 砍掉一半員工的故事，產業在 AI 時代的價值鏈正在重組。基礎建設供應商的價值不再是「我有最強的算力」，而是「客戶可以信任我幫他把所有複雜度藏起來，他們專心去服務自己的客戶」。

兩個月早一點，世界就不一樣

訪談最後 Benny 講了一句我特別有感的話：「我看到我們很多客戶之間的差別就是，他們早別人兩個月。這個兩個月就是天差地別。」

這句話拿來當創業者的鏡子蠻準的。AI 產業的速度真的快到誇張。OpenClaw 上線一個多月，作者 Peter Steinberger 就被 OpenAI 收編了，Benny 在錄音當下還說「不知道他薪水多少但他絕對值得」。

我自己也常常感受到這種跑步機效應。每天醒來都有新模型、新工具、新案例，停下來就怕被甩開（這個焦慮我在跑在 AI 的輪圈上，停不下來也不敢停有寫過）。但 Benny 給的解法很務實：不一定要做 OpenClaw，去 vibe code 一個東西也好，動起來比想清楚重要。

對開發者來說，這集的具體 action item 也很實在：裝個 OpenClaw、接上 Kimi 跑在 Fireworks 上，就能感受到開源模型在 agent workload 下的成本優勢。對企業決策者來說，更重要的是那個 eval 觀念：把寫 eval 當成基礎建設投資，不是 ML 專案。eval 寫好了，你選哪個模型、要不要 RFT、什麼時候該換供應商，這些決策才有基礎。

開源模型不會自動變強，但只要有 Fireworks 這種公司持續把推理基礎建設做好、把 RFT 流程簡化到 PM 能用的程度、把多硬體支援撐起來，「閉源模型必勝」這個假設就會繼續鬆動。我覺得 2026 年下半年看點之一，就是看美國的開源模型（GPT OSS、Nemotron）能不能追上中國這批 Kimi、GLM、MiniMax，把整個開源生態的火力再翻一倍。

如果你也對 AI 基礎建設、開源模型生態這類產業觀察有興趣，我的部落格 wilsonhuang.xyz 持續在追蹤這個賽道，歡迎訂閱。

Sources:

Fireworks AI 一天吃 13 兆 token：Benny Chen 拆解開源模型怎麼追上 OpenAI

TL;DR

這集是什麼節目

從 17 瓦的 ASIC 到 1,000 瓦的 Nvidia GPU

13 兆 token 的服務量是怎麼跑出來的

Cursor 的 Fast Apply 是怎麼跑到 1,000 token/秒的

多硬體策略：投資人是 Nvidia 跟 AMD 兩邊都有

Eval 才是真正的資產

Reinforcement Fine-Tuning：解鎖一個新槓桿

競爭問題：先做到 Nvidia 的百分之一再說

兩個月早一點，世界就不一樣

推薦閱讀

Pi 作者 Mario Zechner ＋ Flask 之父 Armin Ronacher：Coding Agent 不會感到痛，但你會

Power 才是 AI 的天花板：All-In 拆解 OpenAI 衝不到十億用戶背後的真相

你沒辦法 Vibe Code 出一個 SAP：Box CEO 與 a16z 聊 Agent 時代的企業軟體生死題

喜歡這篇文章嗎？