數據中毒攻擊:生成式人工智能的致命威脅

今年早些時候,軟件管理公司 JFrog 的研究人員在對上傳至 Hugging Face 的 AI/ML 模型進行常規掃描時,發現了一百個惡意模型,這讓一個被低估的網絡安全問題類別——數據中毒和操縱,成爲了關注焦點。

數據中毒的問題在於,其目標是用於構建人工智能(AI)/機器學習(ML)模型的訓練數據,就網絡攻擊而言,它是非常規的,在某些情況下,甚至無法檢測或阻止。以這種方式攻擊 AI 相對容易,甚至不需要傳統意義上的黑客攻擊來毒害或操縱像ChatGPT這樣流行的大型語言模型(LLM)所依賴的訓練數據。

數據中毒可用於讓 AI 模型聽從您的命令。或者可以通過修改發送到訓練模型中的數據來說服 AI 模型給出錯誤的輸出。這是兩種不同類型的攻擊——一種在 AI 模型部署之前進行,另一種在部署之後進行。兩者都極難發現和防範。

在其分析中,JFrog 指出嵌入模型中的“有趣”有效載荷看起來像是研究人員會上傳以展示漏洞或概念證明的東西。但上傳到 Hugging Face 的 AI 協作存儲庫中的那些惡意模型並非如此。研究人員可能是幕後黑手,因爲有效載荷與來自 KREOnet 或韓國研究環境開放網絡的 IP 地址有鏈接。

訓練數據操縱的例子可以追溯到機器學習的起源,十年前,研究人員展示了對輸入結果的微妙對抗性攻擊,導致模型以高置信度輸出錯誤答案。

甚至有可能,生成式人工智能模型在爬取互聯網的過程中最終會“坑害”自己

更讓情況複雜的是,人工智能模型的可重複性本身就是一個挑戰,因爲用於訓練模型的數據池非常龐大,研究人員和數據科學家甚至可能不完全清楚模型輸入了啥以及輸出了啥,這加大了惡意代碼檢測和追溯的難度。

在這場人工智能的淘金熱裡,雖說所有這些聽起來挺麻煩,但對數據中毒和數據操縱不管不顧,可能會促使攻擊者專注於對人工智能軟件搞隱秘的後門利用。結果可能會是惡意代碼執行,就像 Hugging Face 那種情況,成功實施網絡釣魚攻擊的新手段,以及依照攻擊者的目標緻使模型輸出錯誤分類進而產生意外行爲。

在一個日益被相互關聯的人工智能、生成式人工智能、大型語言模型和應用程序接口覆蓋的生態系統籠罩的世界裡,全球網絡安全行業應當集體警醒並採取行動,以防範針對人工智能模型的攻擊的增加。

專家建議運用多種技術來保護由人工智能驅動的系統,使其免受數據中毒或操縱活動的侵害。其中大多數聚焦於數據訓練階段和算法本身。

在其“LLM 應用程序十大要點”的列表裡,應用程序安全開源基金會(OWASP)給出了防止訓練數據中毒的步驟,首先得關注內部和外部來源的訓練數據的供應鏈,在預訓練、微調以及嵌入階段持續對數據源進行驗證,並標註出任何偏差或異常情況。

OWASP 還提議使用統計離羣值和異常檢測的方法來“清理”數據,以防任何對抗性數據有可能被輸入到微調過程當中。

要是訓練數據已經損壞,能夠使用替代的人工智能算法來部署受影響的模型。能夠運用多個算法來比較結果,並且在其他辦法都不管用時回退到預定義或平均的輸出。開發人員應當仔細查看相互作用或者爲其他算法提供輸入的 AI/ML 算法,因爲這可能會引發一系列意外的預測。

行業專家還提議,網絡安全團隊應通過開展滲透測試以及模擬數據中毒攻擊的方式,來檢驗其人工智能系統的健壯程度與恢復能力。

能夠利用訓練數據構建 100%網絡安全的人工智能模型,同時也能對其進行破壞。除了對所有預測輸出進行驗證外,別無其他防禦手段,而這在計算方面成本極高。

要是沒有信任和可靠性,技術領域中最偉大的創新或許會被迫停滯。

組織得把支撐 GenAI、LLMs 等的整個生態系統和供應鏈都視作整體威脅範疇的一部分,以此來防範人工智能代碼生成過程中的後門威脅。

通過監測這些系統的輸入和輸出,並藉助威脅情報來檢測異常情況,這些工作的發現和數據可以幫助開發人員在人工智能軟件開發週期中推廣和使用控制及保護措施。

總的來說,在更廣泛的業務流程中檢查人工智能系統的風險,包括檢查整個數據治理生命週期,以及監測人工智能在特定 應用程序 中的表現,您就可以在網絡安全所面臨的最具挑戰性的問題之一上先行一步。