WAIC發佈國內首份《大模型安全實踐白皮書》,定義大模型安全實踐總體框架

(原標題:WAIC發佈國內首份《大模型安全實踐白皮書》,定義大模型安全實踐總體框架)

7月5日下午,清華大學、中關村實驗室、中國信通院、螞蟻集團聯合撰寫的《大模型安全實踐白皮書(2024)》(白皮書)在2024世界人工智能大會上正式發佈。這也是國內首份“大模型安全實踐”研究報告,爲行業打造高價值參考體系。白皮書首次系統化提出安全實踐總體框架,從安全性、可靠性、可控性等維度給到了技術實施方案,同時提供了金融、醫療、政務等領域的大模型安全應用案例,以及“五維一體”協同共治的治理框架。

大模型技術正成爲推動社會進步和創新的關鍵力量。然而隨着大模型能力的不斷增強,其安全性、可靠性、可控性受到前所未有的挑戰,如研發過程中引發信息泄露、價值對齊、機器幻覺等問題,以及落地過程中面臨的數據、模型、算法及其運行的軟硬件環境安全風險。

面對以上挑戰,白皮書提出了大模型安全實踐總體框架。該白皮書確立了“以人爲本,AI向善”爲大模型安全建設的核心,確保技術進步服務於人類福祉;以“安全、可靠、可控”三個核心維度的大模型安全技術體系,並涵蓋了大模型安全測評與防禦的綜合技術方案;以及“端、邊、雲”爲大模型安全技術的主要承載實體。

作爲報告核心,大模型安全技術體系裡,安全性意味着確保模型在所有階段都受到保護,涉及數據安全、模型安全、系統安全、內容安全、認知安全和倫理安全等;可靠性要求大模型在各種情境下都能持續提供準確、一致、真實的結果;可控性關乎模型在提供結果和決策時能否讓人類瞭解和介入,可根據人類需要進行調適和操作。通過這三個維度,可提升大模型的魯棒性、可解釋性、公平性、真實性、價值對齊、隱私保護等方向的能力。

白皮書指出安全評測技術和安全防禦技術也是保障大模型安全的有效手段,但目前大模型的安全評測絕大多數是針對內容類場景,隨着大模型技術快速發展和廣泛應用,對Agent這類複雜大模型應用架構和未來通用AGI的評估是當下面臨的挑戰。制定標準建立面向未來的大模型可信測評體系將會變得越來越重要,這需要政府、高校等機構,聯合有相關經驗的企業共同合作。