專家訪談丨昝紅英:應形成跨學科研究團隊,共同解決大模型的安全和倫理問題

作爲生成式人工智能的代表,大模型已經進入全新的發展階段。

紅星新聞、紅星資本局與OpenEval平臺聯合發起“巢燧杯”大模型創新發展大賽,已於本月正式啓動。2024“巢燧杯”大模型創新發展大賽由通用大模型評測、行業大模型評測大賽、專項挑戰賽、大模型應用場景挑戰賽四個大賽組成。

近日,紅星資本局專訪了鄭州大學計算機與人工智能學院教授、博導,自然語言處理實驗室負責人昝紅英。她認爲近一年來,大模型的能力有了一定提升,研究者們也開始更多地關注模型的效率、可解釋性和倫理問題。關注重點也從大模型的參數數量和效果優化轉向如何實際進行應用,更加關注大模型的落地應用問題。

同時她認爲,大模型的安全和倫理問題複雜,需要多領域知識和技術,還需要形成跨學科的研究團隊,共同解決複雜的安全和倫理問題。

大模型要賦能千行百業

應打造行業合作生態

紅星資本局:現在我們說AI賦能各個行業,“AI+行業”,這和過去常提及的“互聯網+”有什麼區別,大模型如何賦能千行百業?

昝紅英:“AI+”注重的是通過人工智能技術的運用來改進和優化各種應用場景,使其具備更高的智能化水平。“互聯網+”關注的是如何利用互聯網技術改造傳統行業,創造新的商業模式和增長點,以及促進經濟的轉型升級。儘管兩者都強調了技術與其他領域的結合,但“AI+”更側重於人工智能技術的應用,而“互聯網+”更關注互聯網技術對傳統行業的影響和改造。

大模型要賦能千行百業,應該打造行業合作生態。比如引導人工智能企業與行業領軍企業開展定向合作。基於行業企業提供真實業務場景、數據和行業真實需求,開發核心算法和預訓練模型,共同研發落地應用大模型。

平臺方面,打造人工智能企業與行業企業的對接平臺。搭建人工智能企業與製造業、醫療、農業等行業企業的對接平臺,幫助雙方實現技術、模型、數據、場景等資源對接,孵化行業領域應用模式。

依託工業互聯網平臺,打造人工智能企業與行業企業的大模型合作生態。通過工業互聯網平臺實現兩者的快速對接,提供保障算法、模型、數據安全的人工智能要素線上交易服務,面向不同行業建立標準化的大模型開發環境。

紅星資本局:您如何看待垂類模型的趨勢,垂類大模型的挑戰是什麼?在應用落地方面還有什麼難度?

昝紅英:數據質量問題、算法調優難度、應用場景多樣性、跨行業合作難題,這些都是垂類大模型的挑戰。

垂直領域大模型需要大量的數據進行訓練,才能達到最佳效果。然而,在實際應用中,往往存在數據質量不高、數據量不足等問題,導致模型訓練效果不佳。

算法調優方面,難度也比較大。垂直領域大模型的算法較爲複雜,需要專業的技術人員進行調優。然而,不同行業、不同場景下的算法需求差異較大,如何根據實際情況進行有效的算法調優是擺在技術人員面前的一道難題。

垂直領域大模型的應用需要不同行業的合作,共同推進技術應用。但不同行業利益訴求、技術標準等存在差異,如何協調各方利益、推進合作是一個難題。

大模型落地應用之所以困難,主要是客戶對大模型價值和應用領域還缺乏明確認知,高昂的算力成本和數據治理、模型訓練與運維的投入使得企業猶豫,而且現階段技術的可靠性、經濟性和易用性尚未達到理想水平。數據共享不足也是阻礙大模型廣泛應用的關鍵問題。

模型的效率、可解釋性和倫理問題被更多關注

紅星資本局:您認爲2024“巢燧杯”相較去年有什麼變化?評測維度上又有哪些不同?經過一年這些大模型的總體表現有何進步和關鍵進展?

昝紅英:去年我們的評測主要聚焦於對通用大模型的多個維度進行評測,而2024“巢燧杯”大模型創新發展大賽則由通用大模型評測、行業大模型評測大賽、專項挑戰賽、大模型應用場景挑戰賽四個大賽組成。

其中,“通用大模型評測”將延續2023年聚焦開源和專有大模型展開通用測試,依託OpenEval平臺,對參賽的通用大模型從多個維度進行評測,根據相關大模型更新時間進行復測打榜。行業大模型評測大賽設有金融、醫療、法律、交通、水利、科學六個垂直行業,由北京交通大學、上海交通大學、鄭州大學、香港中文大學(深圳)等(排名不分先後)高校分別負責組織各垂直行業的比賽。

在基準評測外,金融和醫療行業還將分別舉辦產業交流活動。專項挑戰賽則聚焦大模型特定維度(如Agent能力、價值對齊等)進行專項評測。目前已確定三個方向:角色大模型專項挑戰賽(角色知識)、Agent大模型專項挑戰賽(真實場景App工具規劃與調用)、大模型道德對齊專項挑戰賽(中文道德倫理對齊)。而大模型應用場景挑戰賽計劃通過調研的方式,發掘企業大模型需求場景,在把部分數據進行隱私處理後,邀請大模型企業針對企業需求場景進行開發訓練、活動現場路演,由企業負責人進行打分,評選優秀獲獎項目。

大模型技術持續發展,我認爲現在模型規模不斷增大,除了模型的能力有了一定提升外,研究者們也開始更多地關注模型的效率、可解釋性和倫理問題。此外,關注重點從大模型的參數數量和效果優化轉向如何實際進行應用,更加關注大模型的落地應用問題。

紅星資本局:在水利行業的大模型評測時,您是如何確定評測標準的?水利行業在大模型評測中有哪些獨特的需求和挑戰?

昝紅英:數據複雜性是水利大模型的主要挑戰。水利大模型需要大量的地理、氣象、水文、環境等多源異構數據。數據的質量、完整性和可獲得性往往是限制模型性能的重要因素。

另外,將大模型應用到實際的水利資源管理及風險預警中,如何保證大模型輸出的正確性是一個重要挑戰。我認爲對於大模型確實不知道的內容,應該回答“不知道”,而不應該產生幻覺問題編造答案。

這一次的評測任務中包含了不同的題目類型。爲了提高評測效率,我們採用了自動化的評估指標。對於答案具有多樣性的問答式生成任務,我們通常採用ROUGE-L、BLEU和BERTScore等指標來評估大模型輸出與標準答案的匹配與相似程度。對於有固定答案的選擇式或填空式任務,我們主要採用準確率作爲指標。

應形成跨學科的研究團隊

共同解決大模型的安全和倫理問題

紅星資本局:本次測評還提到了大模型倫理、安全,目前我們在這方面還存在哪些欠缺,如何完善?

昝紅英:比如數據來源驗證不足、數據加密技術性能開銷大、防禦效果與模型性能之間的權衡、越獄攻擊和提示注入攻擊等問題。這種就需要改進數據加密技術、提高模型的魯棒性、總結並分享最佳實踐、持續進行防禦策略研究。

還存在缺乏全面的安全風險建模和評估系統、模型決策過程不透明,難以理解等問題。這種就需要構建系統化的安全評估系統,引入XAI(可解釋性AI)技術等方式來解決。

倫理原則都相對比較抽象,難以轉化爲具體的工程實踐。我認爲需要進行倫理嵌入設計,考慮不同文化和社會價值,探索新的對齊技術和策略。

此外我們還面臨着法律法規和監管措施不足,國際合作不充分等問題。我認爲需要加快推進人工智能監管立法,政府和監管機構加強對大模型安全和倫理的關注,促進國際合作,確保AI技術的開源開放和普惠發展。

因爲安全和倫理問題複雜,需要多領域知識和技術。我們還需要形成跨學科的研究團隊,共同解決複雜的安全和倫理問題,確保AI發展應用的負責任和安全可控。

紅星新聞記者 王田 實習生 劉川蒙

編輯 鄧凌瑤