數百種醫療AI獲批,如何測試其安全有效性仍是問題

·“正確地測試用於醫療環境的人工智能系統是一個複雜的多階段過程。儘管研究人員知道人工智能干預的理想臨牀試驗應該是什麼樣子,但在實踐中,測試這些技術是具有挑戰性的。”

人工智能(AI)被認爲有助於提高診斷和治療的效率。當地時間2024年8月21日,《自然》(Nature)雜誌發佈的一篇文章顯示,美國食品藥品監督管理局(FDA)等監管機構已批准數百種用於醫院或診所的人工智能醫療設備,但在2020年至2022年間,僅有65項人工智能干預的隨機對照試驗發表。

“正確地測試用於醫療環境的人工智能系統是一個複雜的多階段過程。”文章寫道,“儘管研究人員知道人工智能干預的理想臨牀試驗應該是什麼樣子,但在實踐中,測試這些技術是具有挑戰性的。”

文章介紹,基於人工智能的醫療應用程序通常被藥品監管機構(包括美國FDA和英國藥品和保健產品監管機構)視爲醫療器械。因此,審查和授權使用它們的標準往往不如藥物嚴格。只有一小部分高風險的設備需要臨牀試驗數據才能獲批。

“很多人認爲這個標準太低了。”文章寫道,美國賓夕法尼亞大學(the University of Pennsylvania)的重症監護醫生加里·韋斯曼(Gary Weissman)審查FDA批准的AI設備時,發現10個設備中只有3個設備在授權書中引用了已發表的數據,只有4個提到了安全性評估,沒有一個包括偏倚評估。“令人擔憂的是,這些設備真的影響臨牀護理,而這關乎病人的生命。”他說。

“一種完美的算法可能失敗,因爲人類行爲具有可變性——無論是醫療專業人員還是接受治療的人。”文章寫道。

首先,人工智能系統的正確運行取決於醫療保健專業人員與算法的互動程度。美國梅奧診所(Mayo Clinic)測試了自己開發的檢測低射血分數心臟病的算法,這個工具可以標記那些疑似心力衰竭的高危人羣,他們往往沒有被診斷出來。臨牀試驗表明,該算法確實提高了診斷率,但初級醫療保健人員希望得到進一步的指導,以瞭解如何與患者談論算法的發現。也就是說,人工智能應用程序若廣泛推廣,應當包含與患者溝通的重要信息的要點,以節省醫生在臨牀上的溝通時間。

另一方面,臨牀醫生接觸到大量人工智能生成的警告時,可能產生“警報疲勞”,即當臨牀醫生接觸大量AI生成的警告時,他們可能會對這些警告變得麻木,從而無法迅速反應。

其次,AI臨牀測試的結果難以在不同人羣中推廣。英國伯明翰大學(University of Birmingham)人工智能和數字健康技術的臨牀科學家劉曉軒說:“一個衆所周知的事實是,人工智能算法在處理與訓練數據不同的數據時非常脆弱。只有當臨牀試驗參與者代表了該工具將要用於的人羣時,才能安全地推斷結果。”

此外,那些基於擁有大量資源的醫院的數據進行訓練的算法,在資源較少的環境中應用時可能表現不佳。文章舉例,谷歌健康開發的用於檢測糖尿病視網膜病變的算法,在泰國診所使用時性能顯著下降。一項觀察性研究顯示,泰國診所的照明條件導致低質量的眼睛圖像,從而導致該算法有效性降低。

還有一個問題是患者同意。據文章介紹,目前,大多數醫療人工智能工具都幫助醫療保健專業人員進行篩查、診斷或治療規劃,但患者可能不知道這些技術正在接受測試或經常用於他們的護理中,目前沒有任何國家要求提供商披露這一點。

隨着越來越多的人工智能工具和公司進入市場,探索在醫學領域使用和評估人工智能系統的方法迫在眉睫。健康人工智能聯盟(the Coalition for Health AI)提議建立一個健康人工智能保證實驗室網絡。該實驗室將使用一套商定的原則,以集中的方式評估模型。其成員,醫療人工智能專家肖娜·奧弗加德(Shauna Overgaard)說:“對大型組織來說,這(指自己測試醫療人工智能工具)已經很困難了;對小型組織來說,難度會大得多。”

對此,美國杜克健康創新研究所(Duke Institute for Health Innovation)的臨牀數據科學家馬克·森達克(Mark Sendak)持反對意見:“每個環境都需要有自己的內部能力和基礎設施來進行測試,這種集中的方法並不理想。”他所在的健康人工智能夥伴關係組織則提倡爲任何能夠在當地測試人工智能模型的組織培養能力並提供技術援助。

參考資料:

1.https://www.nature.com/articles/d41586-024-02675-0

2.https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2790164

3.https://www.nature.com/articles/s41467-024-45355-3