OpenAI 要讓全球免費用 AI 看醫生，這件事比你想的更近了

TL;DR

OpenAI 的 Health AI 負責人 Karan Singhal 分享了 ChatGPT Health 的產品策略：免費、無廣告、無速率限制，目標是讓全球所有人都能用上醫療級 AI
每週已有超過 2.3 億人用 ChatGPT 問健康相關問題，這個數字還在快速成長
HealthBench 是 OpenAI 跟 250+ 位醫師合作打造的評估基準，涵蓋 49,000 個評分標準，目前最難的子集 HealthBench Hard 模型表現從 GPT-4o 的 0% 進步到約 40%
在肯亞 Penda Health 的隨機對照試驗中，使用 AI 輔助的醫師在診斷和治療結果上有統計顯著的改善
主持人用三大 frontier model 平行對照兒子的癌症治療，發現 AI 的表現已經跟主治醫師（attending physician）同級，遠超住院醫師

The Cognitive Revolution 是由 Nathan Labenz 主持的 AI 深度訪談節目，專門找 AI 領域的 builder 和研究者聊最前線的技術進展和產業影響。Labenz 本身是連續創業者，也是 Waymark 的創辦人。這集的來賓 Karan Singhal 是 OpenAI 的 Health AI 負責人，2026 年剛入選 TIME 100 Health。他在加入 OpenAI 之前是 Google 的 Staff Research Scientist，主導了 Med-PaLM 和 Med-PaLM 2 的開發，這兩個模型基本上定義了「LLM 能不能當醫生」這個研究方向，論文發在 Nature 上。他 2024 年 4 月跳槽到 OpenAI，帶隊把 Health AI 從研究推到產品。

2.3 億人已經在用 AI 看病了

這個數字讓我停下來想了一下。每週 2.3 億人用 ChatGPT 問健康問題，這已經是一個巨大的現實，不管醫療體系準備好了沒有。

Singhal 把 OpenAI 在 Health AI 的工作分成三個階段：打基礎、推動採用、規模化影響。目前正從第二階段進入第三階段。打基礎的部分包括跟超過 260 位醫師合作、開發 HealthBench 評估基準、在肯亞做了第一個 LLM 臨床 copilot 的隨機對照試驗。

老實說，光是「第一個 AI 臨床 copilot 的 RCT（randomized controlled trial，隨機對照試驗）」這件事就值得單獨寫一篇了。Penda Health 的研究設計是：一組醫師有 AI 在旁邊即時輔助，另一組沒有，結果有 AI 輔助的那組在診斷和治療結果上有統計顯著的改善。這不是什麼玩具環境的測試，是真正的臨床場景。

HealthBench：49,000 個標準衡量 AI 醫生到底行不行

以前衡量 LLM 在醫療領域的表現，大家用的是醫學考試的選擇題。說白了那就像用筆試來判斷一個醫生好不好，明顯不夠。

HealthBench 的做法完全不同。5,000 個多輪對話，49,000 個由醫師制定的評分標準，涵蓋的面向包括：模型有沒有在該轉介時轉介、有沒有根據不同地區的流行病學調整建議、有沒有適當表達不確定性、bedside manner（醫病溝通態度）好不好。

有三個版本：HealthBench 完整版衡量「分數上升是否等於健康改善」；HealthBench Consensus 只看多位醫師共識的標準；HealthBench Hard 則是刻意挑現有模型最差的題目。GPT-4o 剛出來時在 Hard 版上是 0%，現在最新模型大約 40%。進步很大，但離飽和還很遠。

還有一個有趣的發現：他們用 LLM 來幫忙評分（model-based grader），結果這個 AI 評分員的表現比一般醫師評分員更好。你可以自行解讀這代表什麼。

主持人的親身經歷：AI vs 主治醫師

Labenz 的兒子確診癌症後，他每天把檢驗報告從 EMR（電子病歷系統）匯出，同時丟進 ChatGPT、Gemini、Claude 三個 frontier model 做平行比較。他的觀察：

AI 的表現已經穩定達到主治醫師等級，遠超住院醫師。三個月內大約只有六次 AI 跟醫師有分歧，而且都是很細微的判斷。醫師偶爾的優勢在於「看著病人當下的狀態」做直覺判斷，這是目前文字模型做不到的。

他對三個模型的「品嚐筆記」也很有意思：Gemini 最敢給意見、最會推你去跟醫生爭取；ChatGPT 最像臨床報告，資訊最完整但最長；Claude 介於兩者之間，簡潔但相對保守。（我自己覺得這個觀察跟我用這幾個模型在其他領域的感受滿一致的。）

免費、無廣告、無速率限制

這是整集最讓我驚訝的部分。ChatGPT Health 對所有用戶免費開放 reasoning model，沒有速率限制，不投放廣告。Singhal 說得很直接：廣告不會出現在 ChatGPT Health 裡面，因為他們要確保健康服務和商業利益之間有明確的分界線。

健康資料跟你 ChatGPT 裡的其他對話完全隔離，有額外的加密層，而且不會拿來訓練基礎模型。

Labenz 把這個叫做 Universal Basic Intelligence（通用基礎智能），我覺得這個詞用得好。如果全球任何人都能免費用上主治醫師等級的 AI 醫療諮詢，對全球健康的影響確實可能是歷史級的。

想看更多 AI 和產業觀察的內容，可以訂閱 wilsonhuang.xyz，這類主題我會持續追蹤。

OpenAI 要讓全球免費用 AI 看醫生，這件事比你想的更近了

TL;DR

節目與來賓背景

2.3 億人已經在用 AI 看病了

HealthBench：49,000 個標準衡量 AI 醫生到底行不行

主持人的親身經歷：AI vs 主治醫師

免費、無廣告、無速率限制

Chain of Thought 沒有變成外星語言

醫療界的 Move 37

我的觀察

推薦閱讀

Replit CEO 的創業哲學：不會寫程式，反而是你的優勢

當 AI Agent 學會「說話」：Cisco 的 Internet of Cognition 要解決什麼問題

AI 新創還有活路嗎？a16z 消費者 AI 報告的幾個關鍵判斷

喜歡這篇文章嗎？