隨意平移輕鬆生成廣角視頻,開源方案VidPanos顛覆傳統手機全景拍攝
全景圖像拼接能夠提供超出相機視野的場景寬廣視角。 將平移視頻的幀拼接成全景照片在靜態場景中是一個相對成熟的問題,但當場景中有移動物體時,靜態全景無法完整捕捉到這些畫面。 傳統的拍攝方式往往無法捕捉到場景的全貌,特別是當我們拍攝動態場景時,常常只能得到一段有限的視角。(鏈接在文章底部)
谷歌和華盛頓大學聯合提出了一種從隨意捕捉的平移視頻合成全景視頻的方法VidPanos,就像原視頻是用廣角相機拍攝的一樣。將全景合成視爲一個時空擴展的問題,目標是生成與輸入視頻長度相同的全景視頻,彌補現有技術的不足。現有的視頻生成模型並不直接適用於全景合成,因此需要將視頻生成作爲全景合成系統的一個組成部分,還需要添加模擬廣角技術。
01 技術原理
簡單來說,VidPanos過程是這樣的:首先把普通的視頻變成一個全景的畫布,然後用智能算法來填補那些缺失的部分。因爲普通的視頻內容通常比較複雜,遠遠超過了許多現有技術能夠處理的範圍,VidPanos採用了特別的策略來逐步完善這個全景視頻,讓最終效果更加完美。
首先,將輸入視頻投影到一個全景畫布上。接着,減少視頻的時間細節,製作一個基礎的全景視頻。然後,逐步提升視頻的時間細節和畫面質量。最後,將原始視頻的一部分與處理後的結果結合起來,生成最終的全景視頻。這個過程確保了視頻既清晰又生動。
空間聚合的過程是這樣的:VidPanos想在兩個預測的區域重疊部分生成新的樣本。爲此,先把兩個概率分佈結合起來,然後從這個結合後的分佈中隨機選擇一個值。
爲了在重疊區域(紅色)生成樣本,對兩個預測的概率分佈(紫色和橙色)進行線性插值,然後從聚合的分佈(棕色)中進行採樣。使用基於令牌的方法時,分佈是一個離散的詞彙分佈。而在擴散模型中,分佈是一個關於像素值的高斯分佈,用 和 Σ 表示。
02 對比與實際效果
傳統的線性插值在靜止畫面上表現很好,但對運動物體無能爲力。ProPainter 和 E2FGVI 在靜態場景中表現不錯,但在移動場景中效果差強人意。MAGVIT 儘管是視頻生成方法,卻因爲不在統一的全景畫布上處理數據而丟失了一些信息。
VidPanos技術則通過粗到細的處理方式,生成了更一致、真實的全景視頻,能夠更好地反映實際情況。
歡迎交流~,帶你學習AI,瞭解AI