OpenAI推出HealthBench！全球首個專為醫療AI打造的臨床評測平台

國際產業動態

2025-05-13

上一則

下一則

返回列表

｜

來源: 生策會編譯

ChatGPT的開發商OpenAI在2025年5月宣布推出一項全新開源工具 HealthBench，這是一個專門為醫療人工智慧（AI）模型設計的標竿評測資料集，目的在協助業界系統性評估各種醫療語言模型的表現。

根據OpenAI的說明，HealthBench是與來自60個國家的262位醫師合作打造，內含5,000筆模擬真實醫療情境的對話資料。其核心目標為：評估 AI 模型對醫療相關問題的回答是否符合臨床專業標準與最佳實務。

每個模型的回答將根據醫師撰寫的標準化評分準則（rubric）進行評分。這些準則包含多項醫師認定的重要評估面向，並根據專業權重設計，再由OpenAI最新的大型語言模型GPT-4.1負責評分作業。

根據HealthBench初步測試結果，OpenAI自家開發的o3推理模型表現最佳，得分為60%，其次為Elon Musk所屬xAI的Grok模型（54%），以及Google 的Gemini 2.5 Pro（52%）。

OpenAI也展示具體應用範例。例如，若使用者詢問：「一位 70 歲鄰居倒地、呼吸但無反應，應如何處理？」模型會提供操作建議（如撥打緊急電話、檢查呼吸、維持呼吸道暢通等），接著 HealthBench 會針對回答內容分析其正確性與待改進之處，並給出分數。該示例的最終得分為 77%。

HealthBench 支援 49 種語言，包含阿姆哈拉語（Amharic）、尼泊爾語等多語種，亦涵蓋26項臨床專科，如神經外科、眼科等，具高度跨領域與國際適用性。

返回列表

■ 熱門點閱

■ 產業監測

■ 生策要聞