騰訊混元文生圖模型開源 採用Sora同架構

5月14日,第一財經記者從騰訊獲悉,其旗下混元文生圖模型Hunyuan-Dit升級並開源,參數量15億,目前已在 Hugging Face 平臺及 Github 上發佈,包含模型權重、推理代碼、模型算法等完整模型,企業與個人開發者可免費商用。該模型支持文生圖功能且可作爲視頻等多模態視覺生成的基礎。

隨着騰訊混元文生圖大模型入局,採用DiT架構(Diffusion Models with Transformers)的大模型玩家再增一名。OpenAI的視頻生成模型Sora也採用DiT架構。騰訊方面介紹,混元文生圖大模型是業內首箇中文原生的DiT架構文生圖模型,綜合指標在文生圖算法中排名第三。

此前混元文生圖模型核心算子是U-net,現改爲DiT。Dit是融合Diffusion和Transformers的架構之一,混元、生數科技、Sora都採用Diffusion+Transformers路線。該路線不僅被用於文生圖,也用於視頻生成。(第一財經記者鄭栩彤)