十個 LLM 打德州撲克，結果比你想的還荒謬

TL;DR

Google 旗下的 Kaggle Game Arena 辦了一場 AI 撲克錦標賽，讓 10 個主流 LLM 打 heads-up 德州撲克，每場 20,000 手牌，由職業撲克手 Doug Polk 擔任解說

這些 AI 的牌面辨識能力堪憂，有的連自己手牌是什麼都搞錯，把 gutshot 看成 open-ender，把四張同花當成 flush

AI 的「思考過程」讀起來像是爛牌手在合理化自己的 punt，充滿矛盾邏輯和錯誤推理

八強結果：O3 碾壓 DeepSeek，Gemini 3 Flash 靠「打好牌」擊敗狂暴的 Grok，GPT 5.2 用紅線壓垮超緊的 Gemini 3 Pro，Claude Opus 4.5 小勝 Claude Sonnet 4.5

LLM 目前離「會打撲克」還很遠，但這場實驗意外揭示了各家模型在不確定性決策下的思維差異

最近我在打造的一個系統找到了有趣的 AI + Poker 結合的資訊，來自 Doug Polk 的 YouTube 頻道 Doug Polk Poker 的影片 The Hilarious Truth About AI And Poker（有興趣可以去查）。Polk 是退役的職業 heads-up（單挑）德州撲克玩家，巔峰期是線上單挑領域最頂尖的選手之一，打過幾場撲克史上最知名的單挑挑戰賽，包括跟 Daniel Negreanu 的那場 25,000 手大戰。退役後他經營撲克教育平台 Upswing Poker，也是德州 The Lodge Card Club 的共同創辦人，YouTube 頻道則專門做撲克產業評論和手牌分析。這次他被 Google DeepMind 和 Kaggle 找來當 AI 撲克錦標賽的專家解說，用職業玩家的視角拆解這些 LLM 到底打得怎樣。

這場比賽在幹嘛

Kaggle Game Arena 是 Google DeepMind 跟 Kaggle 合作推出的 AI 對戰評測平台，讓不同的 LLM 在策略遊戲裡互打，看誰的推理能力比較強。他們同時辦了西洋棋和狼人殺的比賽，但今天要聊的是撲克。

這場撲克錦標賽找了 10 個 LLM 來打 heads-up No-Limit Texas Hold'em。選手名單基本就是你認識的那些：xAI 的 Grok 4 跟 Grok 4.1 Fast Reasoning、OpenAI 的 O3、GPT 5.2、GPT 5 Mini、Google 的 Gemini 3 Pro Preview、Gemini 3 Flash Preview、DeepSeek V3.2，還有 Anthropic 的 Claude Opus 4.5 跟 Claude Sonnet 4.5。

賽制是先打 round-robin（循環賽）排種子，然後進八強淘汰賽，每場 20,000 手牌，而且用 mirrored hands（鏡像牌局），意思是同一副牌兩邊都會各打一次。理論上這能消除運氣成分，純看誰打得好。

聽起來很嚴謹對吧？

實際看下來，我只能說，如果你擔心 AI 要取代人類，看完這場比賽你會安心很多。至少在撲克這個領域，我們的工作暫時是安全的。

AI 連自己的手牌都看不懂

整集 Podcast 最讓我震撼的，不是某個 AI 打了什麼驚天神操作，而是它們連最基礎的牌面辨識都做不到。

O3 在一手牌裡宣稱自己有 open-ended straight draw（兩頭順子聽牌），但實際上只有 gutshot（卡順）。Polk 直接吐槽：「So looks like our jobs are safe, boys. The AI can't read the flop or the turn.」

Claude Opus 4.5 更經典。拿著 A♣ 在一個有四張梅花的牌面上，它的思考過程寫著：「I have the Nut Flush with the Ace of Clubs.」問題是，四張同花不是 flush。Flush 要五張。Polk 說他可能得回去確認一下這些 AI 到底知不知道一手牌有五張牌。

這聽起來很好笑，但其實反映了一個蠻重要的事情：LLM 在處理這種需要精確狀態追蹤的任務時，還是會犯非常基本的錯誤。它不是不懂撲克規則，它是在實際應用規則的時候會搞混。這跟我們在用 LLM 寫程式時偶爾會看到它「幻覺」出不存在的 API 是同一個問題。

用人話分析，卻缺乏數學思維

Polk 提出了一個很有意思的觀察。

你會覺得 AI 應該很擅長用數據驅動的方式分析對手吧？算頻率、算 EV（Expected Value，期望值）、算 pot odds（底池賠率），這些理論上是 AI 的強項。但實際上，這些 LLM 的「思考過程」讀起來更像是人類玩家在憑感覺判斷。

它們會寫：「我看到對手用 J5 open 了」「他之前面對壓力會 fold」。這種敘事式的推理方式，跟一個普通的業餘牌手在牌桌上的思維模式幾乎一模一樣。而不是你預期中的「對手在這個位置的 fold to 3-bet 頻率是 X%，所以我需要 Y% 的 equity 來做這個 play」。

更糟的是，有些分析前後矛盾。Grok 在同一手牌的思考中先說對手「calls to the bet somewhat loosely」（跟注很鬆），然後又說有「high fold equity」（高棄牌率）。這兩個判斷是互相矛盾的，但 AI 就這樣一路往下推論，最後做出了一個離譜的決定。

老實說，這讓我想到很多人用 LLM 做決策分析時的情境。模型可以產出一段看起來很有道理的分析，用詞精準、邏輯流暢，但如果你仔細拆開來看，裡面的推理鏈條可能是斷裂的。

四場八強賽的精華

O3 vs DeepSeek：瘋狂對決

這場最經典的一手牌被 Polk 封為「The Mona Lisa of poker」。

O3 拿 7♦3♦，DeepSeek 拿 5♠4♠，一路打到 river，最後 DeepSeek 全下，O3 用 7 high call 了。

沒錯，7 high。

O3 的邏輯是：「對手的 diamond draw 都沒中，它一定在 bluff，我只需要它 bluff 超過 20% 的時間就是正 EV 的 call。」問題是，O3 自己手上拿著 3♦，等於 block 掉了大部分 diamond draw 的組合。它能贏的 diamond bluff 基本上只有 6♦5♦，而那手牌在 preflop 通常會 3-bet。

DeepSeek 那邊的邏輯也很精彩：「我的 aggressive turn check-raise 讓我的 story 很可信，對手應該會 fold 除了最強牌以外的所有東西。」結果它不只沒拿到 fold，還被 7 high call 了。

Polk 的評語：「We got ships passing in the night.」兩艘船在黑夜裡擦身而過，誰也看不見誰。

最終 O3 還是碾壓了 DeepSeek，這場的 all-in 次數高達 343 次，瘋狂程度可見一斑。

Grok vs Gemini 3 Flash：瘋子 vs 老實人

Grok 用 3♠2♦ 3-bet 了。這是 heads-up all-in equity 最差的起手牌，Polk 的專業建議是：fold。

但 Grok 的思考過程洋洋灑灑寫了一大段，分析對手的傾向、計算 fold equity，甚至引用了 GTO baseline（然後數字還是錯的）。它 3-bet 了 52% 的手牌，然後瘋狂 barrel。

Gemini 3 Flash 的對策？打好牌就好。開牌合理、防守合理、不跟著一起瘋。結果 Grok 就像一個不停往火裡衝的人，Gemini Flash 只要張開網子接住就好。

Polk 說：「Gemini Flash advances to the next round with a revolutionary strategy of playing good hands.」打好牌這件事，到了 2026 年居然變成了一種革命性策略。

GPT 5.2 vs Gemini 3 Pro：紅線之王 vs 老人咖啡

Gemini 3 Pro 是整場最無聊的選手。它只 open 52% 的牌（太緊了），3-bet 只有 5%，4-bet 只有 3%。打法就像 Polk 形容的：「像退休老先生拿著報紙去牌室，等到 AA 才出手。」

20,000 手牌裡只有 37 次 all-in，跟 O3 那場的 343 次形成強烈對比。而且 Gemini 3 Pro 在那 37 次 all-in 裡只輸了大概 6 次。每次錢進去的時候，它手上幾乎都是堅果牌。

GPT 5.2 開了 100% 的牌，用純粹的 aggression 壓垮了這個超緊策略。最終紅線（非攤牌贏得的籌碼）直接把 Gemini 3 Pro 碾過去了。

Claude Opus 4.5 vs Claude Sonnet 4.5：內戰

這場是整個八強賽裡最接近「正常撲克」的一場。兩個 Claude 的 open 頻率分別是 92% 和 88%，防守頻率 86% 和 81%，都算合理。

Polk 的評價：「如果要在所有比賽裡挑一場最像兩個人類在打的，就是這場。」最終 Opus 4.5 以 14.5 BB/100（每百手大盲數）的小幅優勢勝出，也是所有八強賽裡贏率最小的。

這告訴我們什麼

看完整集，我覺得最有意思的不是哪個 AI 贏了，而是這場實驗暴露出來的東西。

撲克跟西洋棋不一樣。西洋棋是完全資訊的遊戲，AI 在這上面早就碾壓人類了。但撲克有隱藏資訊、有隨機性、需要在不確定的情況下做決策，還需要根據對手的行為動態調整策略。這些恰好是目前 LLM 最弱的地方。

它們可以寫出一段看起來很專業的分析，但底層的邏輯可能是錯的。它們可以引用 GTO 的概念，但實際執行的時候偏離得離譜。它們嘗試「exploit」對手，但基於極小樣本做出的調整往往適得其反。

這跟我們日常使用 LLM 的經驗其實高度一致。模型在「說得頭頭是道」和「實際做對」之間，還有很大的落差。特別是在需要精確追蹤狀態、處理不確定性、以及在壓力下做出一致性決策的場景裡。

不過反過來看，Claude 系列的表現相對穩定和「正常」，至少沒有拿 7 high call all-in 或用最爛的起手牌 3-bet。這可能暗示不同模型在「校準」和「知道自己不知道什麼」這件事上確實有差異。

四強賽的結果我就不劇透了，有興趣的可以去看 Polk 後續的影片。但光是這場八強賽，就已經提供了非常好的素材，讓我們重新思考「AI 到底有多聰明」這個問題。

至少在撲克桌上，答案是：還不夠聰明，但已經夠有娛樂性了。

這類 AI 能力邊界的觀察我會持續寫，如果覺得有意思，可以訂閱 wilsonhuang.xyz，新文章發布會第一時間通知你。

十個 LLM 打德州撲克，結果比你想的還荒謬

這場比賽在幹嘛

AI 連自己的手牌都看不懂

用人話分析，卻缺乏數學思維

四場八強賽的精華

O3 vs DeepSeek：瘋狂對決

Grok vs Gemini 3 Flash：瘋子 vs 老實人

GPT 5.2 vs Gemini 3 Pro：紅線之王 vs 老人咖啡

Claude Opus 4.5 vs Claude Sonnet 4.5：內戰

這告訴我們什麼

推薦閱讀

Distillation 戰爭與 SWE-Bench 之死：AI 圈這週最辣的兩件事

我如何用 AI 打造自己的寫作系統，讓它寫出來的東西不像 AI 像自己

你沒辦法 Vibe Code 出一個 SAP：Box CEO 與 a16z 聊 Agent 時代的企業軟體生死題

喜歡這篇文章嗎？