SCAIL-2 – 智譜聯合清華開源的角色動畫模型

0 0 0

SCAIL-2是什麼

SCAIL-2是智譜聯合清華大學劉永進教授課題組開源的影視級角色動畫框架第二代。基於擴散變換器（DiT）架構，採用端到端訓練直接實現高質量動畫遷移，無需傳統姿態估計中間環節，避免骨架圖歧義。支持動畫生成與角色替換雙模式，通過SAM3掩碼增強實現精準匹配。能驅動人體，可處理動物、手繪角色等非人體目標，支持多人物交互，爲影視、遊戲、虛擬偶像等領域提供高效動畫解決方案。

SCAIL-2的主要功能

端到端動畫生成：基於DiT擴散變換器架構，直接繞過傳統姿態估計中間環節，實現從參考圖像到驅動視頻動作的高質量端到端遷移，避免骨架圖歧義問題。
動畫模式（Animation Mode）：將參考角色的外觀完整遷移到驅動視頻的動作序列上，實現角色動作復刻。
替換模式（Replacement Mode）：在驅動視頻中精準替換指定角色，同時保留原始動作軌跡與背景環境。
SAM3掩碼增強：採用SAM3爲參考圖像和驅動序列提取顯式掩碼作爲條件輸入，顯著提升角色與動作的匹配精度。
多樣化驅動源支持：不僅支持人體動作驅動，還能處理動物、手繪角色、機器人等非人體目標，甚至無需動物訓練數據即可控制四足動物。
多人物交互處理：支持多人場景中的角色動作協調與相對位置關係處理，實現複雜交互動畫。
三維一致性姿態表徵：保留深度信息與遮擋關係，確保生成動畫的空間合理性。
全上下文姿態注入：結合P-RoPE（Pose-shifted RoPE）實現時空聯合推理，提升長序列動畫的連貫性。

SCAIL-2的技術原理

擴散變換器（DiT）基礎架構：基於 Diffusion Transformer 構建生成模型，利用其強大的序列建模能力處理長時序動畫生成任務。
上下文學習驅動（In-Context Learning）：直接利用 DiT 固有的上下文學習能力進行運動遷移，無需依賴 NLFPose 等姿態估計作爲中間表示，避免骨架圖在複雜場景中的歧義問題。
三維一致性姿態表徵（3D-Consistent Pose Representation）：在模型內部保留深度信息與遮擋關係，確保生成動畫在空間維度上的合理性與一致性。
全上下文姿態注入（Full-Context Pose Injection）：通過 P-RoPE（Pose-shifted RoPE）機制，將姿態信息注入到全序列上下文中，實現時空聯合推理，提升長序列動畫的連貫性。
SAM3 顯式掩碼條件：採用 SAM3 爲參考圖像和驅動視頻序列提取精確掩碼，作爲顯式條件輸入，增強角色外觀與動作驅動之間的精準對齊。
端到端統一訓練：摒棄傳統的”姿態估計→動畫生成”兩階段流水線，採用端到端統一訓練策略，直接從驅動視頻學習動作並遷移到參考角色。
高質量數據篩選流水線：構建經過嚴格篩選與人工審覈的高質量訓練數據集，覆蓋人體、動物、手繪角色等多樣化目標，確保模型泛化能力與生成質量。

如何使用SCAIL-2

克隆倉庫並配置環境：從 GitHub 倉庫 https://github.com/zai-org/SCAIL-2 拉取代碼，按照 README 安裝依賴環境（通常包括 PyTorch、Diffusers 及相關視覺庫）。
下載預訓練模型：從 HuggingFace https://huggingface.co/zai-org/SCAIL-2 下載 SCAIL-2 的模型權重文件，放置到本地指定目錄。
準備輸入素材：準備一張參考角色圖像（Reference Image）和一段驅動視頻（Driving Video），驅動視頻包含目標動作序列。系統會自動通過 SAM3 提取參考圖像和驅動序列的顯式掩碼作爲條件輸入。
選擇生成模式：根據需求選擇 Animation Mode（將參考角色外觀遷移到驅動視頻動作上）或 Replacement Mode（在驅動視頻中替換指定角色並保留原始動作與背景）。
執行動畫生成命令：在終端運行對應模式的腳本，例如使用端到端動畫模式：python NLFPoseExtract/process_animation_aio.py --subdir <example_dir> --e2e_mode；或使用替換模式：python NLFPoseExtract/process_replacement.py --subdir <example_dir>。
獲取生成結果：腳本運行完成後，在輸出目錄中獲取生成的角色動畫視頻，可直接用於後期剪輯或進一步處理。

SCAIL-2的項目地址

項目官網：https://teal024.github.io/SCAIL-2/
Github倉庫：https://github.com/zai-org/SCAIL-2
HuggingFace模型庫：https://huggingface.co/zai-org/SCAIL-2

SCAIL-2的核心優勢

端到端無中間態：直接基於 DiT 擴散變換器實現動畫遷移，無需傳統姿態估計（如 NLFPose）作爲中間表示，避免骨架圖歧義，流程更簡潔，效果更可靠。
影視級生成質量：採用高質量數據篩選流水線與三維一致性姿態表徵，保留深度信息與遮擋關係，輸出結果達到影視級標準。
雙模式靈活應用：支持 Animation Mode（外觀遷移）和 Replacement Mode（角色替換），滿足動畫生成與視頻編輯兩種核心需求。
多樣化驅動能力：不僅支持人體動作驅動，還能處理動物、手繪角色、機器人等非人體目標，無需對應訓練數據即可控制四足動物。
精準掩碼對齊：集成 SAM3 提取顯式掩碼作爲條件輸入，顯著提升角色外觀與驅動動作之間的匹配精度。
多人物交互支持：具備多人場景下的角色動作協調與相對位置關係處理能力，適應複雜交互場景。
時空連貫推理：通過全上下文姿態注入（P-RoPE）機制實現時空聯合推理，確保長序列動畫的時序連貫性與動作一致性。

SCAIL-2的同類競品對比

對比維度	SCAIL-2（智譜×清華）	Viggle AI	MagicAnimate（阿里巴巴）
開發方	智譜 AI × 清華大學	Viggle 團隊	阿里巴巴通義實驗室
開源狀態	完全開源（模型+代碼+論文）	閉源商業產品	開源（代碼+模型）
技術架構	DiT 擴散變換器，端到端無中間件	自研閉源模型	基於 Stable Diffusion + 姿態控制網絡
驅動方式	直接視頻驅動，無需姿態估計	視頻/動作模板驅動	依賴 OpenPose 等姿態估計中間件
支持角色	人體、動物、手繪、機器人、多人物	以人體爲主，支持部分風格化角色	以人體爲主
核心模式	動畫遷移 + 角色替換雙模式	Mix / Animate / Move 等多模式	單一動畫生成模式
生成質量	影視級，三維一致性姿態，時空連貫	高質量，偏向社交娛樂場景	學術級，複雜動作易抖動
使用門檻	需本地 GPU 部署，技術門檻較高	網頁端即用，零門檻	需本地部署，配置較複雜