
十個 LLM 打德州撲克,結果比你想的還荒謬
TL;DR
- Google 旗下的 Kaggle Game Arena 辦了一場 AI 撲克錦標賽,讓 10 個主流 LLM 打 heads-up 德州撲克,每場 20,000 手牌,由職業撲克手 Doug Polk 擔任解說
- 這些 AI 的牌面辨識能力堪憂,有的連自己手牌是什麼都搞錯,把 gutshot 看成 open-ender,把四張同花當成 flush
- AI 的「思考過程」讀起來像是爛牌手在合理化自己的 punt,充滿矛盾邏輯和錯誤推理
- 八強結果:O3 碾壓 DeepSeek,Gemini 3 Flash 靠「打好牌」擊敗狂暴的 Grok,GPT 5.2 用紅線壓垮超緊的 Gemini 3 Pro,Claude Opus 4.5 小勝 Claude Sonnet 4.5
- LLM 目前離「會打撲克」還很遠,但這場實驗意外揭示了各家模型在不確定性決策下的思維差異
最近我在打造的一個系統找到了有趣的 AI + Poker 結合的資訊,來自 Doug Polk 的 YouTube 頻道 Doug Polk Poker 的影片 The Hilarious Truth About AI And Poker(有興趣可以去查)。Polk 是退役的職業 heads-up(單挑)德州撲克玩家,巔峰期是線上單挑領域最頂尖的選手之一,打過幾場撲克史上最知名的單挑挑戰賽,包括跟 Daniel Negreanu 的那場 25,000 手大戰。退役後他經營撲克教育平台 Upswing Poker,也是德州 The Lodge Card Club 的共同創辦人,YouTube 頻道則專門做撲克產業評論和手牌分析。這次他被 Google DeepMind 和 Kaggle 找來當 AI 撲克錦標賽的專家解說,用職業玩家的視角拆解這些 LLM 到底打得怎樣。
這場比賽在幹嘛
Kaggle Game Arena 是 Google DeepMind 跟 Kaggle 合作推出的 AI 對戰評測平台,讓不同的 LLM 在策略遊戲裡互打,看誰的推理能力比較強。他們同時辦了西洋棋和狼人殺的比賽,但今天要聊的是撲克。
這場撲克錦標賽找了 10 個 LLM 來打 heads-up No-Limit Texas Hold'em。選手名單基本就是你認識的那些:xAI 的 Grok 4 跟 Grok 4.1 Fast Reasoning、OpenAI 的 O3、GPT 5.2、GPT 5 Mini、Google 的 Gemini 3 Pro Preview、Gemini 3 Flash Preview、DeepSeek V3.2,還有 Anthropic 的 Claude Opus 4.5 跟 Claude Sonnet 4.5。
賽制是先打 round-robin(循環賽)排種子,然後進八強淘汰賽,每場 20,000 手牌,而且用 mirrored hands(鏡像牌局),意思是同一副牌兩邊都會各打一次。理論上這能消除運氣成分,純看誰打得好。
聽起來很嚴謹對吧?
實際看下來,我只能說,如果你擔心 AI 要取代人類,看完這場比賽你會安心很多。至少在撲克這個領域,我們的工作暫時是安全的。
AI 連自己的手牌都看不懂
整集 Podcast 最讓我震撼的,不是某個 AI 打了什麼驚天神操作,而是它們連最基礎的牌面辨識都做不到。
O3 在一手牌裡宣稱自己有 open-ended straight draw(兩頭順子聽牌),但實際上只有 gutshot(卡順)。Polk 直接吐槽:「So looks like our jobs are safe, boys. The AI can't read the flop or the turn.」
Claude Opus 4.5 更經典。拿著 A♣ 在一個有四張梅花的牌面上,它的思考過程寫著:「I have the Nut Flush with the Ace of Clubs.」問題是,四張同花不是 flush。Flush 要五張。Polk 說他可能得回去確認一下這些 AI 到底知不知道一手牌有五張牌。
這聽起來很好笑,但其實反映了一個蠻重要的事情:LLM 在處理這種需要精確狀態追蹤的任務時,還是會犯非常基本的錯誤。它不是不懂撲克規則,它是在實際應用規則的時候會搞混。這跟我們在用 LLM 寫程式時偶爾會看到它「幻覺」出不存在的 API 是同一個問題。
用人話分析,卻缺乏數學思維
Polk 提出了一個很有意思的觀察。
你會覺得 AI 應該很擅長用數據驅動的方式分析對手吧?算頻率、算 EV(Expected Value,期望值)、算 pot odds(底池賠率),這些理論上是 AI 的強項。但實際上,這些 LLM 的「思考過程」讀起來更像是人類玩家在憑感覺判斷。
它們會寫:「我看到對手用 J5 open 了」「他之前面對壓力會 fold」。這種敘事式的推理方式,跟一個普通的業餘牌手在牌桌上的思維模式幾乎一模一樣。而不是你預期中的「對手在這個位置的 fold to 3-bet 頻率是 X%,所以我需要 Y% 的 equity 來做這個 play」。
更糟的是,有些分析前後矛盾。Grok 在同一手牌的思考中先說對手「calls to the bet somewhat loosely」(跟注很鬆),然後又說有「high fold equity」(高棄牌率)。這兩個判斷是互相矛盾的,但 AI 就這樣一路往下推論,最後做出了一個離譜的決定。
老實說,這讓我想到很多人用 LLM 做決策分析時的情境。模型可以產出一段看起來很有道理的分析,用詞精準、邏輯流暢,但如果你仔細拆開來看,裡面的推理鏈條可能是斷裂的。
四場八強賽的精華
O3 vs DeepSeek:瘋狂對決
這場最經典的一手牌被 Polk 封為「The Mona Lisa of poker」。
O3 拿 7♦3♦,DeepSeek 拿 5♠4♠,一路打到 river,最後 DeepSeek 全下,O3 用 7 high call 了。
沒錯,7 high。
O3 的邏輯是:「對手的 diamond draw 都沒中,它一定在 bluff,我只需要它 bluff 超過 20% 的時間就是正 EV 的 call。」問題是,O3 自己手上拿著 3♦,等於 block 掉了大部分 diamond draw 的組合。它能贏的 diamond bluff 基本上只有 6♦5♦,而那手牌在 preflop 通常會 3-bet。
DeepSeek 那邊的邏輯也很精彩:「我的 aggressive turn check-raise 讓我的 story 很可信,對手應該會 fold 除了最強牌以外的所有東西。」結果它不只沒拿到 fold,還被 7 high call 了。
Polk 的評語:「We got ships passing in the night.」兩艘船在黑夜裡擦身而過,誰也看不見誰。
最終 O3 還是碾壓了 DeepSeek,這場的 all-in 次數高達 343 次,瘋狂程度可見一斑。
Grok vs Gemini 3 Flash:瘋子 vs 老實人
Grok 用 3♠2♦ 3-bet 了。這是 heads-up all-in equity 最差的起手牌,Polk 的專業建議是:fold。
但 Grok 的思考過程洋洋灑灑寫了一大段,分析對手的傾向、計算 fold equity,甚至引用了 GTO baseline(然後數字還是錯的)。它 3-bet 了 52% 的手牌,然後瘋狂 barrel。
Gemini 3 Flash 的對策?打好牌就好。開牌合理、防守合理、不跟著一起瘋。結果 Grok 就像一個不停往火裡衝的人,Gemini Flash 只要張開網子接住就好。
Polk 說:「Gemini Flash advances to the next round with a revolutionary strategy of playing good hands.」打好牌這件事,到了 2026 年居然變成了一種革命性策略。
GPT 5.2 vs Gemini 3 Pro:紅線之王 vs 老人咖啡
Gemini 3 Pro 是整場最無聊的選手。它只 open 52% 的牌(太緊了),3-bet 只有 5%,4-bet 只有 3%。打法就像 Polk 形容的:「像退休老先生拿著報紙去牌室,等到 AA 才出手。」
20,000 手牌裡只有 37 次 all-in,跟 O3 那場的 343 次形成強烈對比。而且 Gemini 3 Pro 在那 37 次 all-in 裡只輸了大概 6 次。每次錢進去的時候,它手上幾乎都是堅果牌。
GPT 5.2 開了 100% 的牌,用純粹的 aggression 壓垮了這個超緊策略。最終紅線(非攤牌贏得的籌碼)直接把 Gemini 3 Pro 碾過去了。
Claude Opus 4.5 vs Claude Sonnet 4.5:內戰
這場是整個八強賽裡最接近「正常撲克」的一場。兩個 Claude 的 open 頻率分別是 92% 和 88%,防守頻率 86% 和 81%,都算合理。
Polk 的評價:「如果要在所有比賽裡挑一場最像兩個人類在打的,就是這場。」最終 Opus 4.5 以 14.5 BB/100(每百手大盲數)的小幅優勢勝出,也是所有八強賽裡贏率最小的。
這告訴我們什麼
看完整集,我覺得最有意思的不是哪個 AI 贏了,而是這場實驗暴露出來的東西。
撲克跟西洋棋不一樣。西洋棋是完全資訊的遊戲,AI 在這上面早就碾壓人類了。但撲克有隱藏資訊、有隨機性、需要在不確定的情況下做決策,還需要根據對手的行為動態調整策略。這些恰好是目前 LLM 最弱的地方。
它們可以寫出一段看起來很專業的分析,但底層的邏輯可能是錯的。它們可以引用 GTO 的概念,但實際執行的時候偏離得離譜。它們嘗試「exploit」對手,但基於極小樣本做出的調整往往適得其反。
這跟我們日常使用 LLM 的經驗其實高度一致。模型在「說得頭頭是道」和「實際做對」之間,還有很大的落差。特別是在需要精確追蹤狀態、處理不確定性、以及在壓力下做出一致性決策的場景裡。
不過反過來看,Claude 系列的表現相對穩定和「正常」,至少沒有拿 7 high call all-in 或用最爛的起手牌 3-bet。這可能暗示不同模型在「校準」和「知道自己不知道什麼」這件事上確實有差異。
四強賽的結果我就不劇透了,有興趣的可以去看 Polk 後續的影片。但光是這場八強賽,就已經提供了非常好的素材,讓我們重新思考「AI 到底有多聰明」這個問題。
至少在撲克桌上,答案是:還不夠聰明,但已經夠有娛樂性了。
這類 AI 能力邊界的觀察我會持續寫,如果覺得有意思,可以訂閱 wilsonhuang.xyz,新文章發布會第一時間通知你。
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


