國際產業動態
OpenAI推出HealthBench!全球首個專為醫療AI打造的臨床評測平台
2025-05-13

來源: 生策會編譯

ChatGPT的開發商OpenAI在2025年5月宣布推出一項全新開源工具 HealthBench,這是一個專門為醫療人工智慧(AI)模型設計的標竿評測資料集,目的在協助業界系統性評估各種醫療語言模型的表現。

根據OpenAI的說明,HealthBench是與來自60個國家的262位醫師合作打造,內含5,000筆模擬真實醫療情境的對話資料。其核心目標為:評估 AI 模型對醫療相關問題的回答是否符合臨床專業標準與最佳實務。

每個模型的回答將根據醫師撰寫的標準化評分準則(rubric)進行評分。這些準則包含多項醫師認定的重要評估面向,並根據專業權重設計,再由OpenAI最新的大型語言模型GPT-4.1負責評分作業。

根據HealthBench初步測試結果,OpenAI自家開發的o3推理模型表現最佳,得分為60%,其次為Elon Musk所屬xAI的Grok模型(54%),以及Google 的Gemini 2.5 Pro(52%)。

OpenAI也展示具體應用範例。例如,若使用者詢問:「一位 70 歲鄰居倒地、呼吸但無反應,應如何處理?」模型會提供操作建議(如撥打緊急電話、檢查呼吸、維持呼吸道暢通等),接著 HealthBench 會針對回答內容分析其正確性與待改進之處,並給出分數。該示例的最終得分為 77%。

HealthBench 支援 49 種語言,包含阿姆哈拉語(Amharic)、尼泊爾語等多語種,亦涵蓋26項臨床專科,如神經外科、眼科等,具高度跨領域與國際適用性。

新聞來源: OpenAI Launches HealthBench, a Dataset That Benchmarks Health Care AI Models

本網站中所有資料(包括圖檔及文字檔),著作權皆屬本會所有(除另有註明者,或本會網站連結至外部之網站除外),如有引用,請確實註明出處來源。 <完整資訊>
© 2026 Institute for Biotechnology and Medicine Industry (IBMI) All rights reserved.
地址:115 台北市南港區忠孝東路七段508號9樓 電話:(02)2655-8168 傳真:(02)2655-7978