天津大學“伏羲傳語”多語言大模型正式發佈並開源,應對大模型多語言能力不足

紅星資本局8月16日消息,日前,天津大學自主研發的“伏羲傳語”(FuxiTranyu)多語言大模型正式發佈並開源。

“大語言模型在各類任務中表現出了強大的能力,然而,許多大模型在應對不同語言時並不會表現出均衡的能力,這通常與預訓練的語料數據的配比有關。多數基準測試表明,大模型在多語言能力上仍然存在不足,尤其是面對低資源語言時。”研發團隊負責人、天津大學智能與計算學部教授、博士生導師熊德意告訴紅星資本局,該模型採用了多語言預訓練數據均衡策略,以應對大模型在不同語言間的性能差異問題及低資源語言性能低的挑戰。

熊德意介紹,模型完全從頭開始訓練,研發團隊完成了大規模多語言數據的收集和處理、8B基座模型預訓練、指令對齊訓練及多語言基準測評全過程。預訓練數據來源涵蓋互聯網、書籍、論文、百科、代碼數據。此次預訓練使用了研發團隊收集的28萬億詞元數據中的6060億詞元數據。

除了基座模型FuxiTranyu-8B,伏羲傳語還推出了兩個指令微調模型:FuxiTranyu-8B-SFT及FuxiTranyu-8B-DPO。前者在多樣化的多語言指令數據集上進行了有監督指令微調,後者則在人類偏好數據集上通過DPO技術進一步增強了模型的對齊能力。相比基座模型,指令微調模型在多語言能力、對齊能力上得到了顯著的提升,能夠更好地遵循人類指令,生成的回覆更符合人類價值觀。

紅星資本局瞭解到,伏羲傳語大模型支持“一帶一路”沿線、亞洲及歐洲多個國家及地區的語言,合計43種,包括漢語、英語、阿拉伯語、葡萄牙語等富資源語言,以及孟加拉語、緬甸語、泰米爾語等低資源語言,覆蓋漢藏語系、印歐語系、亞非語系等10大語系。除此之外,伏羲傳語還支持C++、Java、C、C#、Python等16種編程語言。

據悉,爲了進一步推進多語言大模型的研究與應用,研發團隊已將伏羲傳語基座模型、指令微調模型及58個預訓練檢查點在 HuggingFace平臺上開源。

紅星新聞記者 王田

編輯 楊程