北京達佳互聯申請語音合成模型相關專利,提高訓練效率和準確率

金融界2024年10月22日消息,國家知識產權局信息顯示,北京達佳互聯信息技術有限公司申請一項名爲“語音合成模型的訓練方法、語音合成方法、裝置及介質”的專利,公開號 CN 118762684 A,申請日期爲2024年8月。

專利摘要顯示,本公開提供了一種語音合成模型的訓練方法、語音合成方法、裝置及介質,屬於計算機技術領域。上述方法包括:通過編碼模塊對樣本音頻進行編碼,得到第一編碼序列,通過語言模型對樣本文本進行處理,得到第二編碼序列,通過解碼模塊對第一編碼序列進行處理,得到目標音頻;基於第一編碼序列和第二編碼序列,確定第一訓練損失;基於樣本音頻和目標音頻,確定第二訓練損失;基於第一訓練損失、第二訓練損失以及第三訓練損失訓練第語音合成模型得到第二語音合成模型上述技術方案能夠採用聯合訓練的方式對語音合成模型中的多個模塊進行訓練,簡化了訓練步驟,減小了訓練過程中的累積誤差,提高了訓練效率和準確率。

本文源自:金融界

作者:情報員