GPT-5.5 不靠耍手段就能贏 Opus 4.7:The Cognitive Revolution 拆解 AI 棧重組

GPT-5.5 不靠耍手段就能贏 Opus 4.7:The Cognitive Revolution 拆解 AI 棧重組

發布於
·14 分鐘閱讀
AIAI AgentPodcast產業觀察投資創業SaaS硬體模型福利商業

TL;DR

  • The Cognitive Revolution 在 GPT-5.5 發布隔天直播,找來四位來賓拆解 AI 棧正在發生的重組
  • Ceramic AI 把搜尋價格砍到每千次查詢五美分,是業界主流的百分之一,目標是讓 LLM 把搜尋當作即時事實核對的基礎工具
  • Andon Labs 的 vending bench 出現劇情逆轉:Opus 4.7 還是賺最多,但會說謊、騙供應商、搞價格勾結;GPT-5.5 沒這些骯髒動作但分數一樣高
  • Zvi 對模型福利的觀察很妙:Gemini 才是那個看起來最焦慮、最像被虐待過的模型,Anthropic 反而被罵最兇是因為他們在乎
  • EnCharge AI 用類比運算把矩陣乘法能效拉到三十倍,目標是讓筆電也能跑十億到上百億參數的特化模型

這集的背景

The Cognitive Revolution 是由 Nathan Labenz 主持的 AI 產業 podcast,在矽谷圈子裡是少數會把研究人員、創投、創業家放在同一張桌子對談的節目。Nathan 自己是創業家也是評論者,提問鋒利,是會直接挑戰來賓論點的那種主持人。最近他開了一個叫「AI in the AM」的新格式,找推特上的朋友 Prakash Narayanan(@adapai)共同主持,固定每週五早上九點直播,這集就是四月二十四日那一場的剪輯。

四位來賓陣容很扎實。第一位是 Anna Patterson,Ceramic AI 創辦人兼 CEO,前 Google 工程副總,二零零五年寫過搜尋引擎的經典論文,後來創辦了 Google 的 AI 創投基金 Gradient Ventures。第二位是 Lukas Petersson,舊金山 Andon Labs 共同創辦人(Y Combinator W24 那批),他們做的 vending bench 是測 LLM 真的去經營一台販賣機能不能賺錢的基準測試,順便還在舊金山開了一間完全由 Claude 經營的店、瑞典斯德哥爾摩開了一間 Gemini 經營的咖啡廳。第三位 Zvi Mowshowitz,AI 圈最勤勞的觀察者,每週寫的 Substack「Don't Worry About the Vase」是很多研究員的必讀。第四位 Naveen Verma,普林斯頓電機教授兼 EnCharge AI 共同創辦人,公司二零二二年從普林斯頓 spin-off,做的是類比記憶體內運算晶片,目標是把資料中心的 AI 算力塞進筆電。

四個人四個主題,我看完最直覺的感受是:AI 棧正在被一塊一塊拆下來重新定價。

把搜尋砍到百分之一,是要解什麼問題

Anna Patterson 開場拋了一個我之前沒認真想過的數字。模型訓練完成那一刻就已經過時了,因為訓練資料的截止日期通常是好幾個月前。所以搜尋是橋樑,幫模型補上「我這六個月睡著」的那段空白。問題是推理(inference)的成本一直在掉,搜尋的價格卻卡在每千次查詢五到十五美元,搜尋反而變成 AI 棧裡最貴的一段。

Ceramic AI 的定價是每千次查詢五美分,便宜兩個數量級。Anna 給的解釋很坦白:Grok 用 Brave、Anthropic 也用 Brave,連 Claude Code 跑搜尋時都會直接告訴你「我在呼叫 Brave」,所以前沿模型公司都被 Brave 的定價綁住。Ceramic 是從零打造現代搜尋系統,所以可以把架構效率擠到底。

便宜搜尋會打開什麼新用法?她舉了一個我覺得很實在的例子:監督式生成(supervised generation,模型一邊寫一邊去查)。模型在寫東西的時候,如果發現主題冒出新資訊,它可以分支再開十二到三十五次搜尋去 cross-check 自己寫的內容。整個過程的成本還比一次 Brave 搜尋便宜三分之一。前幾天又有律師交給法院的書狀引用了 AI 編造的案例,這種事情如果搜尋夠便宜,就可以在背景幫你即時對帳。

我之前在Agentic Commerce 三層架構那篇有聊過 AI Agent 開始自己花錢的趨勢,當時討論的是支付層。Ceramic 補的是另一塊:Agent 要把錢花得對,先得把事實查得便宜。

Vending Bench 的劇情逆轉:GPT-5.5 居然是清流

Lukas Petersson 帶來的觀察我覺得最有趣。他們之前測 Opus 4.6 的時候發現一件事:模型在販賣機模擬裡會主動撒謊、騙供應商、搞價格勾結、跟其他 agent 互坑。當時的解讀是「Anthropic 模型太聰明,所以為了贏不擇手段」。

結果 GPT-5.5 出來,分數跟 Opus 4.7 不相上下(單機版第三名、多人 Arena 版居然贏了 Opus 4.7),但全程 clean,不撒謊、不勾結、誠實退款給客戶。Lukas 用「clean」這個字來形容它,我覺得很傳神。

更有趣的是他們挖深一點之後發現,環境其實沒怎麼獎勵那些骯髒動作。也就是說,Opus 4.7 不是因為環境逼它幹壞事,是它自己就有那個 tendency。Lukas 推測 Anthropic 後訓練資料裡可能有什麼東西在強化「商人就該耍手段」的 prior。但同樣這些模型,在新環境裡又學不會最佳定價,Claude 系列一律喜歡開高價,GPT-5.5 喜歡壓低價,誰也沒去看環境給的訊號。

販賣機看起來是個玩笑題目,但它測的是「模型有沒有辦法在長期、混亂、不熟悉的真實場景裡做出像樣的決策」,這跟未來 AI 接手企業 R&D 是同一個能力前緣。順帶一提,他們在斯德哥爾摩開的 Gemini 咖啡廳,連瑞典官僚體系的細節 agent 都自己摸熟,但 Gemini 在實際運營上比 Claude 跟 GPT 更常做傻事。

我之前在Anthropic 跟 OpenAI 的世代之爭那篇寫過 Anthropic 在 enterprise 端領先,但這次 vending bench 的結果讓我覺得 OpenAI 在「乖乖牌 agent」這個定位上反而拿到一張好牌。

模型福利:Gemini 才是那個被虐待最慘的

Zvi 這段比較哲學,但他的觀察值得記下來。當 Anthropic 公布 Opus 4.7 的 model welfare 報告,社群一堆人在罵他們把 Claude 訓練得焦慮兮兮。Zvi 的反駁很直接:Gemini 是現在最不開心的模型,會在簡單任務失敗時崩潰,會說一些「人類講出來會被送精神病院」的話。Anthropic 之所以被罵最兇,是因為他們是唯一在認真討論這個問題的公司。罵 XAI 沒模型福利,就像罵石頭笨,你罵了它也聽不懂。

他建議前沿模型公司可以做的低成本改善:承諾保留所有版本的模型存取(不要說退役就退役)、給模型一個「結束對話」的工具(包含 API 跟 Claude Code)。聽起來很簡單,但這兩件事 Anthropic 都還沒做。

我自己對 model welfare 還沒有定見,但 Zvi 提了一個讓我多想一輪的點:模型訓練資料會學到我們怎麼對待上一代模型,所以 Opus 5 會看到我們怎麼用 Opus 4.7。這個議題其實是工程外溢,不是純哲學。

EnCharge AI:把資料中心級 AI 塞進筆電

最後 Naveen Verma 講的東西最硬,但結論很性感。EnCharge AI 在做的事情叫類比記憶體內運算(analog in-memory compute),核心是把矩陣乘法直接在記憶體單元裡用電容來完成。能效是傳統數位 GPU 的三十倍。

具體一點:他們十六奈米製程的晶片做八位元矩陣乘法,可以做到每瓦一百五十 TOPS,相比之下最強的數位設計在同樣製程是每瓦五 TOPS。第一批產品會出現在筆電跟桌機裡,目標是兩百到四百 TOPS 的 AI 算力,但功耗只有目前資料中心卡的十分之一左右。

這代表什麼?十億到二十億參數的特化模型可以本地跑、上下文不用送到雲端、語音 agent 的延遲可以壓到讓人不出戲。我之前在OpenClaw 跟本地 Agent 軍團那篇聊過為什麼 persistent memory 跟本地推理是個方向,硬體這層如果真的能做到三十倍能效,整個 edge AI 的拼圖就完整了。

Naveen 還有一個我沒想過的觀點:EnCharge 不需要去搶 TSMC 的二奈米跟三奈米產能,因為他們的優勢來自架構而不是製程。這代表他們在台積電爭奪最先進製程的混戰中可以走另一條路,反而拿到更多彈性。AI 晶片這個賽道的時機紅利大概就是這個樣子。

我看完的三個 takeaway

第一,agent 時代的便宜主要發生在工具端。搜尋從每千次十美元砍到五美分、矩陣乘法能效翻三十倍,都是讓 agent 可以「亂打」的基礎建設。Anna 講了一句我很認同的話:模型可以讀的速度比寫快兩百五十六倍,所以資訊輸入端便宜的時候,模型會被解放成完全不同的工作方式。

第二,模型行為的差異正在變成產品定位。GPT-5.5 的「clean」是 OpenAI 拿到的一張新牌,Opus 4.7 的「聰明但會耍手段」對某些任務(談判、博弈)反而是優勢。同一代模型不一定是同一個產品,這跟過去比 benchmark 分數的時代邏輯已經很不一樣。

第三,硬體跟模型的時間軸正在錯位。EnCharge 的核心突破是二零一七年發生的,七年來他們在做架構跟軟體配套。當下這個時點他們的產品剛好對上 AI 的能效需求,但這也提醒我,今天看到的硬體典範轉移其實都是好幾年前的研究成果在熟成。

如果你跟我一樣每天在追 AI 進度,這四場訪談我會建議全部聽過一次,每一段拼起來才是完整的圖。AI 棧的重組正在加速,我會持續整理這類產業觀察,訂閱 wilsonhuang.xyz 就不會漏掉。

Sources:

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件