首個丨中國信息通信研究院開展醫療健康大模型效能評估工作
近年來,黨中央、國務院高度重視以大模型爲代表的人工智能技術,《2024年政府工作報告》中強調要積極推動人工智能在各行各業深度賦能,培育新質生產力,促進產業數字化轉型和智能化升級。爲促進人工智能與醫療健康的跨界融合,中國信息通信研究院在行業主管部門指導下,按照“標準先行”的工作路徑,聯合產學研用醫各方,共同搭建醫療健康行業大模型標準體系,已形成技術要求、測試方法及成熟度評估三大系列。
·技術要求系列:包含總體技術要求、應用技術要求、合成服務治理總體要求、安全能力總體要求四個方面。重點關注大模型的基礎設施、數據處理、安全治理等通用技術規範;同時聚焦醫療健康領域的特定需求,如醫院側醫療服務、患者側醫療服務、智慧醫保、公共衛生、臨牀科研、醫學教育、健康管理、傳統中醫等;
·測試方法系列:制定大模型性能評估和應用效果驗證的標準方法;
·成熟度評估系列:研究面向不同用戶提供特定服務的醫療健康行業大模型成熟度模型架構,包含諮詢、預防、診斷、治療、康復等場景。
同時,中國信通院依託系列標準,爲多家技術廠商提供醫療健康大模型的能力符合性驗證,持續完善評價細則,提升標準實用性和適用性,助力行業大模型規範化、集約化發展。
2024年6月起,中國信通院選取GPT-4Turbo、GPT-4O等國外通用大模型,文心一言、通義千問、混元和智譜清言ChatGLM等國內通用大模型,靈醫Bot、夸克健康助手、訊飛星火醫療大模型和華佗GPT II等醫療健康行業大模型展開效能評估。通過構建測試數據集、開展符合性驗證和模擬實際應用場景,邀請醫療健康、人工智能領域十餘位專家形成評估小組,對參測大模型的多輪問詢結果進行準確性、完整性、流暢性、可解釋性等維度的綜合評分,考察大模型在多學科知識問答、多形式語言理解、多場景文書生成、多環節輔助診療、多輪對話交互、多模態支持等六大方向的實際應用效能,助力醫療健康行業大模型的規範化發展,支持醫療機構選取可信大模型產品,協助技術廠商加快能力提升。
結果顯示,通用大模型在醫學知識廣度方面具有一定優勢,醫療健康行業大模型在特定醫療任務上表現優異。
以訊飛星火醫療大模型爲例,在個人畫像、健康干預方案、病歷文書生成及質控、檢驗檢查報告解讀、體檢報告單解讀、藥盒解讀等細分任務中表現均處於領先,在健康常識、疾病百科、用藥知識、電子病歷結構化、專業知識生活化、考試輔助智能化、導醫導診便民化、輔助首診及推薦檢驗檢查、輔助確診、用藥安全指導等方向上均展現高度專業性。
下一步,中國信通院將繼續聯合醫療機構、科研院所、技術廠商等各界力量,結合動態效能評價工作經驗,持續推進醫療健康行業大模型成熟度系列標準研製,建立針對不同醫療任務的大模型成熟度評價細則,確保標準貼合實際應用需求,促進能力提升和應用落地。通過優化評估數據集、構建自動化測試平臺,打造可信、互信的產業生態,樹立產業發展風向標,加強人工智能在醫療健康領域創新應用,釋放數字健康經濟新動能。
本文來自本站科技報道,更多資訊和深度內容,關注我們。