
Fireworks AI 一天吃 13 兆 token:Benny Chen 拆解開源模型怎麼追上 OpenAI
TL;DR
- Fireworks AI 一天處理超過 13 兆 token,比 Gemini 和 OpenAI 公開的 API 數字還多
- 2025 年十月 Series C 拿到 2.5 億美元,估值 40 億美元,2026 年二月年化營收 3.15 億美元,年增 416%
- 開源模型在 2026 年初已經追上閉源模型的價格戰線,OpenClaw 一推出就讓大家發現「模型很強但很貴」
- Cursor 的 Fast Apply 功能是靠 Fireworks 的 speculative decoding(投機解碼)才跑到每秒 1,000 token
- Benny Chen 在 Meta 待了八年,從 2017 年自研 ASIC 晶片到 PyTorch 推理部署全做過,這條路徑直接決定了 Fireworks 的技術選擇
- Reinforcement Fine-Tuning(強化學習微調,RFT)是新槓桿,Vercel 用 RFT 做出 40 倍速度的 code fixing
- 多硬體策略很重要,Nvidia 缺貨的時候 AMD 就是你的備胎,這是雙供應商的老智慧
- 大部分客戶根本不在乎模型的國籍,做 fine-tune 的時候誰好用就用誰
這集是什麼節目
Software Engineering Daily 是長期經營軟體工程主題的老牌 podcast,內容偏深入技術訪談,主持人風格冷靜直白,不太搞煽情那一套。這集主持人是 Gregor Vand,新加坡的資安背景技術人,過去在資安、網路保險、軟體工程公司都當過 CTO,問起問題很有結構感。
來賓是 Benny Chen,Fireworks AI 的共同創辦人。Fireworks AI 是一間專做開源模型推理服務的基礎建設公司,2022 年底成立(剛好趕在 ChatGPT 推出前五六個月),2025 年十月由 Lightspeed、Index Ventures、Evantic 領投 2.5 億美元 C 輪,估值 40 億美元,Sequoia 持續加碼。客戶清單包含 Cursor、Perplexity、Notion、Sourcegraph、Uber、DoorDash、Shopify、Upwork 這些大牌。Benny 創業前在 Meta 待了八年多,從 2014 年的 Integrity Team 一路做到 ads infrastructure,2017 年還參與 Meta 自研 ASIC 的專案,是那種真的把 ML 基礎建設從晶片做到 PyTorch 部署都摸過一輪的人。
從 17 瓦的 ASIC 到 1,000 瓦的 Nvidia GPU
Benny 講了一段我覺得超有時代感的話。他 2017 年在 Meta 做的那顆 ASIC 晶片只有 17 瓦,現在 Nvidia 的新 GPU 是 1,000 瓦,「光是周邊配件就比那顆晶片還耗電」。
這不是炫耀,是在講一件事:產業的賭注規模在這九年裡翻了好幾個量級。當年 Facebook 跟 Intel 合作搞 in-house ASIC,是想複製 Google TPU 的路線,後來 Nvidia 推出 A100 大家才發現 ASIC 怎麼追都追不上。然後 Benny 改去做 PyTorch 在廣告模型上的部署,再然後就是 Nvidia 的天下。
我覺得這條職涯軌跡解釋了為什麼 Fireworks 會走「服務開源模型 + 多硬體支援」這條路。Benny 是親眼看著 Meta 在硬體選擇上踩過坑的人,他知道一個關鍵教訓:鎖死在單一供應商不是策略,是賭博。所以 Fireworks 從一開始就同時支援 Nvidia 和 AMD,這在 2022 年底還沒人這樣做。
順帶一提他自嘲了一句很 Wilson 風格的話:「我那時候要是直接買 Nvidia 股票,可能比做任何事都賺。」誠實到讓人想笑。
13 兆 token 的服務量是怎麼跑出來的
這個數字真的有點離譜。Benny 說他不能講最新的數字,但「上次公布的 13 兆 token 比 Gemini 和 OpenAI 公開的 API 數字還大,Gemini 那時候是 10、11 兆左右」。
為什麼一間 2022 年底才創業的公司可以做到這個量?答案是他們押對了一件事:開源模型會追上來。
這個押注在 2022 年其實很反共識。Benny 提醒我們,那時候大家在用的開源模型是 OPT、Llama 1、Falcon,「能維持三個 turn 的對話就已經很厲害了」,連 function calling 都還沒有。他們敢在 ChatGPT 還沒推出之前就成立公司專做開源模型服務,是賭信仰。
到了 2026 年初,這個賭注開花結果。Benny 說一個關鍵轉折點是 OpenClaw 推出之後,「大家發現一個訊息要花掉一百萬 token」,他有個朋友光是在 Telegram 上送一個訊息就燒掉一百萬 token,根本搞不清楚錢去哪了。當大家意識到 Sonnet 4.5 級別的模型用起來很燒錢的時候,便宜又夠用的開源模型自然就站起來了。
這個邏輯我之前在用過 Claude Sonnet 4.5 的 OpenClaw 再回頭看便宜模型裡有寫過實測心得。便宜模型省的錢常常被你浪費的時間吃掉,但這是個人玩家的視角;對於有量、有 fine-tune 能力、有專屬 workload 的企業客戶來說,開源模型的經濟學完全不一樣。
Cursor 的 Fast Apply 是怎麼跑到 1,000 token/秒的
Benny 講 Cursor 案例的時候態度很謙虛,「我們大多是在支援他們,他們團隊本身就很強」。但技術上其實有貓膩。
Cursor 的 Fast Apply 功能要在編輯器裡一次改一個大檔案,這對推理速度是極端的考驗。一般 LLM 是一個 token 一個 token 吐出來,速度有上限。Fireworks 給的解法是 speculative decoding(投機解碼):用一個小模型先猜大模型會吐什麼 token,然後問大模型「你喜歡這些嗎?」如果大模型同意就一次性吐出來。
這個技巧讓 Cursor 的 Fast Apply 跑到每秒 1,000 token,比原本快了大約 13 倍。但 Benny 提到一個很多人忽略的細節:訓練那個小的 draft model(草稿模型)本身,跟訓練大模型一樣麻煩。資料品質、訓練基礎建設、開發效率全都重要。所以客戶如果只是 fine-tune 了一個自己的模型給 Fireworks,Fireworks 還要幫他們再訓練一個對應的 speculator 才能跑得快。
我覺得這裡藏著一個產業洞察:推理速度的差距已經不是「跑在哪個 GPU 上」決定的,而是「你願意為每個客戶 workload 客製多少」決定的。這跟我之前在前 OpenAI 工程師的 Coding Agent 使用心法裡寫過的觀察一致:CLI 為什麼贏 IDE?因為 context 管理才是真正的護城河,不是 UI。
多硬體策略:投資人是 Nvidia 跟 AMD 兩邊都有
Benny 在這裡有句蠻坦白的話:「我們的投資人裡 Nvidia 和 AMD 都有,所以我不想搞地圖砲。」
但他也直接承認多硬體策略是真的累。維護 AMD 的 fire attention kernel 要花掉本來可以拿去服務客戶的工程資源,這是 trade-off。為什麼還要做?三個原因:
第一,供應鏈可靠性。今年大家最缺的不是 Nvidia 的設計能力,是 Nvidia 的產能。當 Nvidia 拿不到的時候,AMD 就是你能不能交差的差別。
第二,雙供應商談判優勢。Benny 說在 Meta 的時候,CPU 採購就是 AMD 跟 Intel 同時用,這個策略在他做 ASIC 提供採購輸入的時候已經很成熟了。「兩個供應商通常就夠用了,三個就更舒服。」
第三,最大化客戶價值。客戶要的是便宜跟穩定,不是品牌忠誠度。
這個觀點放在現在的資料中心軍備競賽裡特別有意思。我之前寫過 Kevin O'Leary 把錢全砸進不接電網的資料中心,整個 AI 基礎建設的瓶頸正在從晶片移到電力。Fireworks 的多硬體策略某種程度上是在對沖這個瓶頸:你不是只挑一張 GPU 卡,你還在挑一條完整的電力供應鏈。
Eval 才是真正的資產
這集我覺得最有 takeaway 價值的是這段。Benny 說 Fireworks 在 eval 這塊投入「七成在基礎建設、三成在顧問」,他們開源了一個叫 Eval Protocol 的專案。
他的核心論點是這樣:很多公司不知道自己最值錢的東西是 eval,不是模型。
為什麼?因為 eval 可以跨世代用。今天用來評估 Llama 4 的 eval,明天可以拿來評估下一代模型,再來訓練自己的 RL 模型。但 SFT(supervised fine-tuning,監督式微調)的資料集就不行,每換一代模型可能都要重做。
Benny 講了一句我覺得超精準的:「就算你愛 Elon、想用 xAI 的模型,你怎麼知道什麼時候該用?沒有 eval 你連付錢給 Elon 都付不出去。」這個觀點跟我之前看 MIT 經濟學家 Christian Catalini 拆 AGI 經濟學的「驗證才是新稀缺」邏輯是同一條線。當 AI 能力本身變便宜,會驗證、會評估、能講清楚什麼是好的人,才是真正稀缺的。
最有意思的是 Benny 提到,很多客戶覺得寫 eval 很高深,其實沒有。「如果你能講清楚什麼是好、什麼是壞,你就完成 90% 了。剩下的就是把 production trace 拉出來,跑一個 LLM as a judge 就好。」這個門檻比想像中低很多,但很多 PM 還停在「我不是 ML 工程師我寫不出來」的心態。
Reinforcement Fine-Tuning:解鎖一個新槓桿
這部分是這集的重頭戲。Benny 認為 RFT 是 pre-training 紅利放緩之後產業找到的新槓桿。
他的觀點分兩層:
對產業來說,pre-training 還在進步,但是「需要指數成長的算力才能拉直線」,現實終究會踩煞車(電力會踩煞車)。RL 給了一條新路,就算是相對小的模型,只要 RL 推得對,可以拿到很好的結果。
對 Fireworks 來說,更關鍵的是 RFT 打通了從工程師到 tuned model 的客製化迴路。以前要做 SFT,你需要一隊 ML 工程師管 data labeler,要跟外包公司溝通什麼是好什麼是壞,還要做品質控管,到第一千個 label 還能維持一致。Benny 直白地說:「在 long context 設定下,我自己讀一輪對話都要花一小時,更別提標註了。」
RFT 把這個流程整個壓扁。你只要有一個 PM 能講清楚什麼是好、什麼是壞,寫一個 LLM as a judge,丟給 Fireworks,模型就會被教成那樣。Vercel 用 RFT 做 code fixing,速度提升 40 倍,而 Vercel 這種團隊「兩三個人就能對齊內部標準」,根本不需要 ML 團隊。
這對軟體產業的意涵很大。我之前在 Box CEO Aaron Levie 談 Agent 落地 那篇有寫過,企業級 AI 的瓶頸不是模型不夠聰明,是資料混亂、權限複雜、Agent identity 是新挑戰。RFT 至少把「模型客製化」這一塊的門檻拉低到 PM 就能操作的程度,剩下的問題還在,但至少少一個。
競爭問題:先做到 Nvidia 的百分之一再說
主持人問了一個很尖銳的問題:Anthropic 把 Windsurf 給斷供了、OpenAI 推 Codex 直接打 Cursor、Google 搜尋擠壓 Perplexity,Fireworks 這種「服務商兼競爭者」的關係怎麼處理?
Benny 的答案非常實在:「我們連 Nvidia 的百分之一都還沒做到,現在擔心競爭太早了。」Nvidia 今年大概 4,000 億美元,Fireworks 連幾個百分點都不到,這個市場還在前期,不是搶餅階段。
他補了一個我覺得更深的觀察:客戶選 Fireworks 本質上選的是信任。信任他們把 numerics 做對、function calling 跑得正常、constraint generation 不出包、RL 設定不會踩雷。「我們的客戶都在賺很多錢,他們就是想要這些複雜性被處理掉。」
這個視角讓我想到 Klarna CEO 砍掉一半員工的故事,產業在 AI 時代的價值鏈正在重組。基礎建設供應商的價值不再是「我有最強的算力」,而是「客戶可以信任我幫他把所有複雜度藏起來,他們專心去服務自己的客戶」。
兩個月早一點,世界就不一樣
訪談最後 Benny 講了一句我特別有感的話:「我看到我們很多客戶之間的差別就是,他們早別人兩個月。這個兩個月就是天差地別。」
這句話拿來當創業者的鏡子蠻準的。AI 產業的速度真的快到誇張。OpenClaw 上線一個多月,作者 Peter Steinberger 就被 OpenAI 收編了,Benny 在錄音當下還說「不知道他薪水多少但他絕對值得」。
我自己也常常感受到這種跑步機效應。每天醒來都有新模型、新工具、新案例,停下來就怕被甩開(這個焦慮我在跑在 AI 的輪圈上,停不下來也不敢停有寫過)。但 Benny 給的解法很務實:不一定要做 OpenClaw,去 vibe code 一個東西也好,動起來比想清楚重要。
對開發者來說,這集的具體 action item 也很實在:裝個 OpenClaw、接上 Kimi 跑在 Fireworks 上,就能感受到開源模型在 agent workload 下的成本優勢。對企業決策者來說,更重要的是那個 eval 觀念:把寫 eval 當成基礎建設投資,不是 ML 專案。eval 寫好了,你選哪個模型、要不要 RFT、什麼時候該換供應商,這些決策才有基礎。
開源模型不會自動變強,但只要有 Fireworks 這種公司持續把推理基礎建設做好、把 RFT 流程簡化到 PM 能用的程度、把多硬體支援撐起來,「閉源模型必勝」這個假設就會繼續鬆動。我覺得 2026 年下半年看點之一,就是看美國的開源模型(GPT OSS、Nemotron)能不能追上中國這批 Kimi、GLM、MiniMax,把整個開源生態的火力再翻一倍。
如果你也對 AI 基礎建設、開源模型生態這類產業觀察有興趣,我的部落格 wilsonhuang.xyz 持續在追蹤這個賽道,歡迎訂閱。
Sources:
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


