Diffutoon – 阿里推出的AI將視頻轉卡通風格的框架

AI工具1年前 (2024)發佈新公告 AI管理員

16 0 0

Diffutoon是什麼

Diffutoon是由阿里巴巴和華東師大的研究人員推出的一個將視頻轉換爲卡通動漫風格的AI框架，基於擴散模型的可編輯卡通着色技術，能夠將真實感視頻轉換成動漫風格。該技術通過分解爲風格化、一致性增強、結構引導和着色等子任務，實現了對視頻的高分辨率和長時間渲染。Diffutoon還具備內容編輯功能，可以根據文本提示調整視頻細節，在處理視頻時保持了高度的視覺效果和一致性，實現了對視頻動畫的高效、高質量處理。

Diffutoon的功能特色

卡通視頻渲染：Diffutoon利用擴散模型將現實風格的視頻轉換成具有卡通或動漫風格的視頻，實現視覺上的平面化和風格化效果。轉換不僅包括顏色和紋理的變化，還涉及對光影、輪廓等元素的藝術化處理，以模仿手繪動畫的視覺效果。
高分辨率支持：Diffutoon能夠處理高分辨率視頻，支持至少1536×1536像素的分辨率，確保在放大或高清顯示設備上也能保持清晰度和細節，適合高質量的視頻製作和展示需求。
視頻編輯：用戶可以通過文本提示對視頻內容進行編輯，Diffutoon能夠識別並根據這些提示調整視頻的特定部分。編輯功能支持對角色、場景元素的外觀和屬性進行修改，如更換服裝顏色、調整角色表情等。
幀間一致性：通過特定的算法和技術，Diffutoon確保視頻序列中的每一幀在風格和內容上保持一致性，避免了視頻播放時可能出現的閃爍、顏色突變或內容不連貫的問題，提高了觀看體驗。
結構保持：在視頻風格化的過程中，Diffutoon能夠識別並保留視頻的關鍵結構信息，如角色的輪廓和物體的邊緣，確保了即使在風格化之後，視頻的主要內容和形狀仍然清晰可辨。
自動着色：Diffutoon具備自動着色功能，能夠根據視頻內容和風格要求自動選擇合適的顏色進行填充。自動着色不僅提高了生產效率，還能確保顏色的協調性和視覺吸引力，使得最終視頻在色彩上更加和諧。

Diffutoon – 阿里推出的AI將視頻轉卡通風格的框架

Diffutoon的官網入口

官方項目主頁：https://ecnu-cilab.github.io/DiffutoonProjectPage/
GitHub代碼庫：https://github.com/modelscope/DiffSynth-Studio
arXiv技術論文：https://arxiv.org/abs/2401.16224

Diffutoon的技術原理

Diffutoon – 阿里推出的AI將視頻轉卡通風格的框架

擴散模型的應用：Diffutoon利用擴散模型作爲圖像合成的核心技術，通過學習數據集中的圖像和視頻的分佈特性，實現從高維潛在空間到圖像數據的轉換。
多模塊去噪：Diffutoon構建了一個多模塊去噪模型，該模型結合了ControlNet和AnimateDiff等技術，用於處理視頻中的可控性和一致性問題。
風格化、一致性增強、結構引導和着色：Diffutoon將卡通着色問題分解爲四個子問題，每個子問題由特定的模型解決：
- 風格化：使用個性化的Stable Diffusion模型實現動漫風格化。
- 一致性增強：通過在UNet中插入基於AnimateDiff的運動模塊，保持視頻幀之間的內容一致性。
- 結構引導：使用ControlNet模型提取和保留視頻的結構信息，如輪廓。
- 着色：另一個ControlNet模型用於上色，提高視頻質量，即使輸入視頻分辨率較低。
滑動窗口方法：採用滑動窗口方法迭代更新每一幀的潛在嵌入，這種方法有助於處理長視頻並保持幀間的連貫性。
編輯分支：除了主卡通着色管道外，Diffutoon還包含一個編輯分支，用於根據文本提示生成編輯信號，這些信號以彩色視頻的形式提供給主管道。
高效率的注意力機制：通過引入Flash Attention，減少GPU內存使用，提高處理高分辨率視頻的效率。
分類器自由引導：使用分類器自由引導機制，通過文本提示進行視覺質量的優化。
DDIM調度器：使用DDIM（Denoising Diffusion Implicit Models）去噪擴散隱式模型調度器控制視頻生成過程，平衡了生成質量和速度。
後期處理方法：採用如FastBlend等後期處理技術，進一步增強視頻的長期一致性和視覺效果。