OpenAI 要讓全球免費用 AI 看醫生,這件事比你想的更近了

OpenAI 要讓全球免費用 AI 看醫生,這件事比你想的更近了

發布於
·
更新於
·10 分鐘閱讀
AIPodcast產業觀察商業創業Web3投資SaaSFintech產品

TL;DR

  • OpenAI 的 Health AI 負責人 Karan Singhal 分享了 ChatGPT Health 的產品策略:免費、無廣告、無速率限制,目標是讓全球所有人都能用上醫療級 AI
  • 每週已有超過 2.3 億人用 ChatGPT 問健康相關問題,這個數字還在快速成長
  • HealthBench 是 OpenAI 跟 250+ 位醫師合作打造的評估基準,涵蓋 49,000 個評分標準,目前最難的子集 HealthBench Hard 模型表現從 GPT-4o 的 0% 進步到約 40%
  • 在肯亞 Penda Health 的隨機對照試驗中,使用 AI 輔助的醫師在診斷和治療結果上有統計顯著的改善
  • 主持人用三大 frontier model 平行對照兒子的癌症治療,發現 AI 的表現已經跟主治醫師(attending physician)同級,遠超住院醫師

節目與來賓背景

The Cognitive Revolution 是由 Nathan Labenz 主持的 AI 深度訪談節目,專門找 AI 領域的 builder 和研究者聊最前線的技術進展和產業影響。Labenz 本身是連續創業者,也是 Waymark 的創辦人。這集的來賓 Karan Singhal 是 OpenAI 的 Health AI 負責人,2026 年剛入選 TIME 100 Health。他在加入 OpenAI 之前是 Google 的 Staff Research Scientist,主導了 Med-PaLM 和 Med-PaLM 2 的開發,這兩個模型基本上定義了「LLM 能不能當醫生」這個研究方向,論文發在 Nature 上。他 2024 年 4 月跳槽到 OpenAI,帶隊把 Health AI 從研究推到產品。

2.3 億人已經在用 AI 看病了

這個數字讓我停下來想了一下。每週 2.3 億人用 ChatGPT 問健康問題,這已經是一個巨大的現實,不管醫療體系準備好了沒有。

Singhal 把 OpenAI 在 Health AI 的工作分成三個階段:打基礎、推動採用、規模化影響。目前正從第二階段進入第三階段。打基礎的部分包括跟超過 260 位醫師合作、開發 HealthBench 評估基準、在肯亞做了第一個 LLM 臨床 copilot 的隨機對照試驗。

老實說,光是「第一個 AI 臨床 copilot 的 RCT(randomized controlled trial,隨機對照試驗)」這件事就值得單獨寫一篇了。Penda Health 的研究設計是:一組醫師有 AI 在旁邊即時輔助,另一組沒有,結果有 AI 輔助的那組在診斷和治療結果上有統計顯著的改善。這不是什麼玩具環境的測試,是真正的臨床場景。

HealthBench:49,000 個標準衡量 AI 醫生到底行不行

以前衡量 LLM 在醫療領域的表現,大家用的是醫學考試的選擇題。說白了那就像用筆試來判斷一個醫生好不好,明顯不夠。

HealthBench 的做法完全不同。5,000 個多輪對話,49,000 個由醫師制定的評分標準,涵蓋的面向包括:模型有沒有在該轉介時轉介、有沒有根據不同地區的流行病學調整建議、有沒有適當表達不確定性、bedside manner(醫病溝通態度)好不好。

有三個版本:HealthBench 完整版衡量「分數上升是否等於健康改善」;HealthBench Consensus 只看多位醫師共識的標準;HealthBench Hard 則是刻意挑現有模型最差的題目。GPT-4o 剛出來時在 Hard 版上是 0%,現在最新模型大約 40%。進步很大,但離飽和還很遠。

還有一個有趣的發現:他們用 LLM 來幫忙評分(model-based grader),結果這個 AI 評分員的表現比一般醫師評分員更好。你可以自行解讀這代表什麼。

主持人的親身經歷:AI vs 主治醫師

Labenz 的兒子確診癌症後,他每天把檢驗報告從 EMR(電子病歷系統)匯出,同時丟進 ChatGPT、Gemini、Claude 三個 frontier model 做平行比較。他的觀察:

AI 的表現已經穩定達到主治醫師等級,遠超住院醫師。三個月內大約只有六次 AI 跟醫師有分歧,而且都是很細微的判斷。醫師偶爾的優勢在於「看著病人當下的狀態」做直覺判斷,這是目前文字模型做不到的。

他對三個模型的「品嚐筆記」也很有意思:Gemini 最敢給意見、最會推你去跟醫生爭取;ChatGPT 最像臨床報告,資訊最完整但最長;Claude 介於兩者之間,簡潔但相對保守。(我自己覺得這個觀察跟我用這幾個模型在其他領域的感受滿一致的。)

免費、無廣告、無速率限制

這是整集最讓我驚訝的部分。ChatGPT Health 對所有用戶免費開放 reasoning model,沒有速率限制,不投放廣告。Singhal 說得很直接:廣告不會出現在 ChatGPT Health 裡面,因為他們要確保健康服務和商業利益之間有明確的分界線。

健康資料跟你 ChatGPT 裡的其他對話完全隔離,有額外的加密層,而且不會拿來訓練基礎模型。

Labenz 把這個叫做 Universal Basic Intelligence(通用基礎智能),我覺得這個詞用得好。如果全球任何人都能免費用上主治醫師等級的 AI 醫療諮詢,對全球健康的影響確實可能是歷史級的。

Chain of Thought 沒有變成外星語言

之前 Apollo Research 的報告讓很多人擔心 reasoning model 的 chain of thought 會演化成人類看不懂的「neuralese」。Singhal 說 OpenAI 內部研究的結果比預期樂觀:即使持續 scale up RL,他們沒有看到 chain of thought 大規模滑向不可解釋的趨勢。模型傾向用英文思考,因為這對它們來說是最省力的方式。

他很坦白地說不確定未來會不會一直如此,但目前的經驗是正面的。

醫療界的 Move 37

Singhal 用 AlphaGo 那招著名的 Move 37 來比喻:AI 做出人類醫師不會做的判斷,但事後證明是正確的。他說這種事已經在發生了,很多病人看了好幾個醫生都沒發現的問題,ChatGPT 指出來之後才確診。

至於更大規模的 Medical Move 37,他認為需要模型對個人健康有更完整的 world model,能預測介入的結果。這跟現在「讀完網路回答問題」的範式有點不同,但他認為在現有的 pre-training + reasoning 框架上延伸就能做到不少,不一定需要全新的訓練方式。

我的觀察

這集讓我想到一件事:醫療 AI 的 Overton window(可接受範圍)移動的速度,病人端遠快於醫生端。2.3 億人已經在用了,但大部分醫生還在觀望。Singhal 說他們的目標是 2026 年底讓 AI 輔助醫療成為常態,我覺得這個時間表很激進,但考量到消費者端的採用速度,也許沒那麼不切實際。

免費提供 reasoning model 給全球用戶做醫療諮詢,這件事的意義比大部分人意識到的更大。在很多國家,連看到一個合格醫生都是奢侈。如果 AI 真的能穩定在主治醫師等級,光是「全球免費」這四個字就足以改變數億人的生活。

想看更多 AI 和產業觀察的內容,可以訂閱 wilsonhuang.xyz,這類主題我會持續追蹤。

推薦閱讀

喜歡這篇文章嗎?

訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。

💌 隨時可以取消訂閱,不會收到垃圾郵件