元宇宙推出即時語音翻譯系統
參考消息網1月17日報道 據英國《自然》週刊網站1月15日報道,巴別魚——經典科幻系列電影《銀河系漫遊指南》中所設想的語言翻譯動物——離現實更近了一步。科技巨頭元宇宙平臺公司的研究人員創建了一個機器學習系統,它可以用語音合成器將101種語言的語音即時翻譯成36種目標語言中的任意一種。
這個“大規模多語言和多模式機器翻譯”(SEAMLESSM4T)系統還能夠實現語音到文本、文本到語音以及文本之間的翻譯。該研究成果1月15日發表在《自然》雜誌上。
總部位於美國加利福尼亞州門洛帕克的元宇宙公司運營着臉書網站、沃茨阿普和照片牆等社交媒體網站。該公司稱,它將以開源形式將SEAMLESSM4T提供給其他希望在此基礎上進行研究的研究人員。此前該公司已成功向全球開發人員發佈了其LLaMA大型語言模型。
過去的幾十年裡,機器翻譯取得了巨大進步,這在很大程度上要歸功於在大型數據集上訓練的神經網絡的引入。主要語言(尤其是英語)的訓練數據非常豐富,但其他許多語言的訓練數據卻非常稀少。這種不平等限制了機器可以通過訓練實現的語言翻譯範圍。美國康奈爾大學計算機科學家艾莉森·克內克在研究論文隨附的一篇“新聞與觀點”文章中寫道:“這會影響到互聯網上不經常出現的那些語言。”
元宇宙公司的團隊以之前的語音到語音翻譯研究成果爲基礎,也參考了一個名爲“一種語言也不落下”的項目,該項目旨在爲大約200種語言提供文本到文本的翻譯。通過積累的經驗,元宇宙公司和其他地方的研究人員發現,使翻譯系統支持多種語言可以提高其性能,即使在翻譯訓練數據有限的語言時也是如此;不過尚不清楚會出現這種情況的原因。
該團隊從互聯網和其他來源(如聯合國檔案)收集了數百萬小時的語音音頻文件以及人工進行的語音翻譯。研究人員還收集了其中一些語音的文本記錄。
該團隊還使用可靠的數據來訓練模型,以識別相互匹配的內容。這使得研究人員能夠將大約50萬小時的音頻與文本匹配,並自動將一種語言的每個片段與其他語言的對應片段進行匹配。
該系統可以將語音直接翻譯成(其他語言的)語音,而無需先將其轉換爲書面文本。語音合成器用於生成音頻。它可以翻譯101種語言的語音,不過截至目前,目標翻譯語言僅支持36種。該系統還可以執行其他翻譯任務,比如將不同語言的文本翻譯爲語音。
元宇宙公司計算機科學家、論文作者之一瑪爾塔·科斯塔-朱薩說,性能的提升不僅是通過增加語言數量,也是通過整合不同的文本和語音組合。她表示,“這些是改進的關鍵”,翻譯所需時間通常只有數秒鐘,與專業人工翻譯表現相當。
論文作者稱,他們對系統進行了微調,以限制性別偏見和“額外不良結果”(即當自動翻譯包含不反映原始措辭的冒犯性語言時)的發生。作者還對系統進行了控制,以防止它將一種語言中的無性別術語(例如英語中的“護士”)翻譯成其他語言中的性別對應詞。
克內克在其評論中寫道,爲進一步限制自動翻譯的潛在危害,“開發人員應該考慮如何以明確模型侷限性的方式顯示翻譯”,並考慮“在準確性有疑問時完全放棄輸出”。(編譯/王笛青)