全面AIGC時代,豆包模型家族準備好了
頭圖由豆包生成提示詞:金屬質感,賽博朋克,顯示AIGC字樣,高清細節
作者 | Yoky郵箱 | yokyliu@pingwest.com
AI時代,大模型更新的速度是多少?
火山引擎的答案是:兩個月。
今年5月,火山引擎一口氣推出了9款豆包大模型家族;緊接着,7月在「AI創新巡展」成都站中發佈了豆包·圖生圖模型;9月24日,「AI創新巡展」深圳站中,豆包模型家族再次全新發布兩款豆包·視頻生成模型:豆包視頻生成-PixelDance、豆包視頻生成-Seaweed,並面向企業市場開啓邀測。
活動中,火山引擎總裁譚待同時發佈了豆包·音樂模型及豆包·同聲傳譯模型,豆包通用模型pro和豆包·文生圖模型、豆包·語音合成模型等模型性能也迎來大幅升級。
一句話總結:豆包模型家族已經集齊了文本、語音、圖片、音樂、視頻的AIGC全家桶共計13款模型,不斷增加各類模態,並進入規模化調用時代。
在4個月2次迭代的過程中,據火山引擎披露,截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次發佈時猛增十倍,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。
這些真實數據背後,是豆包大模型通過火山引擎不斷深入產業的結果。同時,也證明了AIGC能力在企業中並非找不到場景落地,而是在基礎版圖未完整之前,很難綜合性地解決企業存在的痛點。
多家企業曾向硅星人反饋到:“企業內部做了很多AIGC的嘗試,但文本是一個工具、生圖是另一個工具、做視頻又要換,步驟仍然非常繁瑣、數據更加碎片化了。”
在AIGC發展的早期,功能的多樣性往往比性能更重要。而豆包的這次升級後,一站式打通各個內容場景,持續深耕細作,讓AIGC真正落到實處。
1
讓視頻生成真正做到可商用
今年2月Sora爆火後,國內外視頻生成模型和產品迎來了迭代高潮,但大多都存在於2C的娛樂場景中,並不能被應用到企業或者嚴肅的商業環境,核心的痛點在於生成效果不穩定和生成結果不可用。
這也是豆包·視頻生成模型要攻克的難題。
過往的視頻生成模型已經完成了單個主體的單場景和多場景變化,但物理環境往往更加複雜有多個主體間的相互作用,這對於人和AI來說都是更強的挑戰。
經測試,豆包·視頻生成模型能夠遵循更復雜的指令,讓不同人物完成多個動作指令的互動,精確理解語義關係,解鎖時序性多拍動作指令,而非單一主體的簡單動作。
如鏡頭前一位喝咖啡的男士,在他端起咖啡杯的同時身後一名女士從畫面右側出現,兩個主體的大幅度動作符合物理世界的規律和邏輯。
同時,基於DiT架構,豆包視頻模型通過高效地融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。
在這個過程中,根據剪映、即夢AI等業務場景打磨出來的經驗,讓豆包·視頻生成模型對於專業級光影佈局、色彩調和、畫面視覺美感和真實感都有了更成熟的判斷。
簡單的說,以前的視頻生成模型生成的是單一拍攝素材,而豆包·視頻生成模型則直接生成了有導演、美術指導、後期的大片片段,讓生成結果變得更可用。
在風格方面,基於深度優化的Transformer結構,則大幅提升了豆包視頻生成的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚塗等多種風格,適配電影、電視、電腦、手機等各種設備的比例,不僅適用於電商營銷、動畫教育、城市文旅、微劇本等企業場景,也能爲專業創作者和藝術家們提供創作輔助。
同時,在技術層面全新的擴散模型訓練方法攻克了多鏡頭切換的一致性難題,在鏡頭切換時可同時保持主體、風格、氛圍的一致性,可10秒講述一個起承轉合的故事。在一個prompt的多個鏡頭切換時,保持主體,風格,氛圍和邏輯的一致性。
目前,新款豆包·視頻生成模型正在通過火山引擎邀測中,未來將逐步開放給所有用戶。
多主體、多風格、豐富的運鏡切換、保持一致性,以上種種的技術手段,都大大增加了生成結果的信息密度,讓AIGC的效果變得真正可用。
舉幾個例子,在電商營銷場景的商品詳情視頻,能夠快速把商品變成3D多角度展示,基於一致性的功能,切換中秋、七夕、春節等不同營銷節點的風格,即不同尺寸快速上架。
在動畫教育行業:動畫製作成本較高,並且內容有大量超現實想象,同時文生視頻可以降低動畫的製作成本,低門檻地實現童話故事中的想象情景等超現實畫面。
沿着這個思路,能快速衍生到遊戲、城市文旅、音樂MV、短劇等更多的應用場景中。
1
大模型toB,要做六邊形戰士
今年5月,豆包進行了史上最大規模的降價,彼時,價格是影響大模型落地最難的大山。
作爲基礎設施提供商,譚待曾在採訪中提到,火山引擎的核心目的是通過更低的價格,讓企業擁有更低的試錯成本,從而敢嘗試、有創新。
從這個角度來看,無論是視頻生成模型還是音樂、同聲傳譯模型,雖然模型種類複雜,但其核心目的還是在解決企業智能化的問題:即將企業的使用門檻降到最低,把創造力提到最高。
而之所以會推出當前的幾款能力各異的模型,譚待總曾經告訴過我們,豆包團隊在後臺觀察企業調用模型能力的token次數,最高頻的也是使用最多的模型,將單獨打造爲一款模型爲企業提供服務。
在AI1.0時代,翻譯一直是檢驗AI能力的一個實戰場景,但經過多年迭代,也只能做到異步翻譯或者說延時翻譯,但在大部分的應用場景中,如跨國會議、線上直播、跨境電商客服等等都需要的都是更準確的實時翻譯,在嚴肅的商業場景中,一個細微的不準確可能會帶來嚴重誤差。
豆包·同聲傳譯模型便是從企業的場景出發,但這卻給模型層提出了更大的挑戰。
據譚待介紹,傳統的AI同聲傳譯通常採用級聯模型方法,即先進行語音識別再進行機器翻譯。但準確率低,實時性差,且翻譯的聲音體驗不好。而豆包·同聲傳譯模型採用了端到端模型架構,讓翻譯更加精準、質量更高、時延更低。同時會模擬說話人的真人發音,媲美真人同傳效果。
而對於音樂場景而言,是一個更復雜的場景,也是對多種技術的綜合考驗。從歌詞、旋律、編曲到音調唱法,因此豆包的音樂模型採用了全新的方案,實現了音樂生成的框架,從詞、曲、唱三個方面來生成高質量的音樂。
無論用戶是給出一段文字描述還是上傳一張圖片,基於豆包的文本能力都可以給出與旋律節奏匹配的歌詞,更注重情感表達和與音樂風格高度契合。
同時,全新的音樂模型支持10餘種不同的音樂風格和情緒表現,尤其在民謠、國風和流行方向適合國內聽衆的審美聽感,包括民謠、流行、搖滾、國風、嘻哈、R&B、朋克、電子、爵士、雷鬼、DJ等,風格可以自由切換。
配合匹配真人效果的音色延長,真實呈現氣口和真假音轉換,並支持高質量音質聽感。
目前,火山引擎AI創新巡展已經完成了第五站,在每一站中,模型的能力都會進一步提升。除了推出新的模型,基模能力也在不斷進步。
隨着企業大規模應用,大模型支持更大的併發流量正在成爲一個新的挑戰,據譚待介紹,業內多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數),難以承載企業生產環境流量。爲此,豆包大模型默認支持800K的初始TPM,遠超行業平均水平,客戶還可根據需求靈活擴容。
除了本身模型的更新,火山在模型的應用落地上,也提供了全套的方案,包括火山方舟、釦子專業版和HiAgent平臺,幫助企業打通擁抱大模型的最後一公里。
全模態的模型能力、市場更低的模型價格、超出行業的模型性能、配套的工具箱和生態,至此,豆包模型家族成爲了真正的「六邊形戰士」。
但活動中譚待也坦言大模型toB過程中的挑戰:“在企業應用場景裡,挑戰會更加複雜。我們不僅僅要考慮模型能力,還要考慮成本、性能、安全和易用性。”
這不僅需要突出的模型能力,對於企業來說,模型廠商的綜合能力意味着企業自由度、創造力各方面都會更高。
1
從企業中來,到企業中去
從企業痛點出發打磨出來的模型能力,最終,還是要回到企業中去,真正發揮效用。
有了更強的模型、更易落地的方式和更低的價格,讓企業開始能夠“用得上”,而這只是AIGC落地產業中的第一步。在探索的早期,不斷的試錯成本、新的模型、配套的生態能力,是培育的土壤,接下來纔是真正的實戰。
這不僅僅是模型廠商獨立能夠完成的挑戰,還需要與企業客戶更緊密的合作。
此前,火山引擎已經在重點行業:零售、汽車、智能終端成立了行業大模型聯盟,通過與合作伙伴一起探索大模型的產業應用。
比如,在零售大模型生態聯盟,通過AI交互重構零售效率和體驗。在商城導購助手、VOC(消費者需求)洞察分析、客服質檢、客服陪練、直播洞察、商品知識庫等場景中,都與聯盟成員展開了多維度的合作。
在模型能力上,豆包大模型作爲技術提供商獨立研發,但在產業落地中,卻一個個場景精細化打磨。
獨行快。衆行遠。這次升級後,豆包模型家族能力正式進入了get ready的狀態,也意味着開啓了下一個艱難的新賽段。