中國用習思想訓練AI大模型 外媒稱Chat Xi PT
英國金融時報22日報導,中國近期透過官方文件訓練人工智慧,欲推出貫徹「習近平思想」的聊天機器人,除了期望與ChatGPT成爲競爭對手,更是爲了確保嚴格控制中國言論自由。
中共中央網絡安全和信息化委員會辦公室旗下雜誌「中國網信雜誌」20日發文宣佈,中國第一個網信研究大型語言模型(LLM)應用已正式上線並內部使用,擁有智慧問答、總結文章及中英文互譯等功能。
文章指出,該大型語言模型語料庫來源於「網信研究數據庫」等七大專業知識庫,其中包括「習近平新時代中國特色社會主義思想知識庫」,並稱語料庫的專業性、權威性保證了生成內容的專業性。
金融時報報導,中國政府正嘗試推出以「習近平思想」爲訓練對象的聊天機器人,除了期望與Open AI的ChatGPT競爭,更藉此控制人工智慧向中國網友提供訊息的方式,以嚴格控制中國境內的言論自由。
中國官方最新推出的LLM正在學習「習近平新時代中國特色社會主義思想」,以及中央網信辦的其他官方文獻。金融時報稱之爲Chat Xi PT。
據金融時報查閱的部分資料顯示,大量培訓材料來自政府法規、政策文件、國家媒體報導和官方出版物。
資料的幾十份文件當中,約有8萬6314處提到習近平,其中有這樣一句話:「讓我們更加緊密地團結在以習近平同志爲核心的黨中央周圍。」
報導引述一名參與該專案的人士稱,新模型目前正在強大的網路監管機構下屬的一個研究中心使用,最終可能會被廣泛使用。
不過,由於可用於訓練LLM的中文數據相對稀少,對模型開發人員形成挑戰,大多數小組也使用英語資訊進行訓練,但這可能導致人工智慧產生不符合中國規範的回覆。
爲幫助開發人員解決問題,與中央網信辦結盟的非營利組織─中國網絡空間安全協會於去年12月發佈第一個包含1億條「高質量、可信數據」的公共數據庫,供各團體在模型培訓中使用。
中央網信辦此前發佈生成式人工智慧規則,並引入許可制度,規定生成式人工智慧提供商必須體現「社會主義核心價值觀」,並要求生成內容不能包含「顛覆國家政權」的內容,公司須對自家人工智慧產出負責。
百度和阿里巴巴等科技巨頭已確保其模型嚴格控制生成與習近平或其他潛在敏感問題相關的內容。當被問及敏感話題時,這兩家公司的聊天機器人會要求用戶重啓聊天。
中國官方在設立這個LLM前,已用各種形式傳播習近平的政治、經濟和文化思想,包括習近平出版的書籍長期都是書展焦點;騰訊、網易等新聞平臺都將與習近平相關的新聞置頂;以及宣傳習思想的「學習強國」App。
「習近平新時代中國特色社會主義思想」於2017年10月中共19大寫入中共黨章,2018年3月又經第13屆全國人民代表大會一次會議通過寫入憲法。