智源發佈原生多模態世界模型Emu3，實現圖像、文本、視頻大一統

智源研究院正式發佈原生多模態世界模型Emu3。該模型只基於下一個token預測，無需擴散模型或組合方法，即可完成文本、圖像、視頻三種模態數據的理解和生成。據瞭解，Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過了SDXL 、LLaVA、OpenSora等知名開源模型。

本文源自：金融界AI電報

相關資訊