SCAIL-2 – 智譜聯合清華開源的角色動畫模型

AI工具1天前發佈新公告 AI管理員
0 0

SCAIL-2是什麼

SCAIL-2是智譜聯合清華大學劉永進教授課題組開源的影視級角色動畫框架第二代。基於擴散變換器(DiT)架構,採用端到端訓練直接實現高質量動畫遷移,無需傳統姿態估計中間環節,避免骨架圖歧義。支持動畫生成與角色替換雙模式,通過SAM3掩碼增強實現精準匹配。能驅動人體,可處理動物、手繪角色等非人體目標,支持多人物交互,爲影視、遊戲、虛擬偶像等領域提供高效動畫解決方案。

SCAIL-2 – 智譜聯合清華開源的角色動畫模型

SCAIL-2的主要功能

  • 端到端動畫生成:基於DiT擴散變換器架構,直接繞過傳統姿態估計中間環節,實現從參考圖像到驅動視頻動作的高質量端到端遷移,避免骨架圖歧義問題。
  • 動畫模式(Animation Mode):將參考角色的外觀完整遷移到驅動視頻的動作序列上,實現角色動作復刻。
  • 替換模式(Replacement Mode):在驅動視頻中精準替換指定角色,同時保留原始動作軌跡與背景環境。
  • SAM3掩碼增強:採用SAM3爲參考圖像和驅動序列提取顯式掩碼作爲條件輸入,顯著提升角色與動作的匹配精度。
  • 多樣化驅動源支持:不僅支持人體動作驅動,還能處理動物、手繪角色、機器人等非人體目標,甚至無需動物訓練數據即可控制四足動物。
  • 多人物交互處理:支持多人場景中的角色動作協調與相對位置關係處理,實現複雜交互動畫。
  • 三維一致性姿態表徵:保留深度信息與遮擋關係,確保生成動畫的空間合理性。
  • 全上下文姿態注入:結合P-RoPE(Pose-shifted RoPE)實現時空聯合推理,提升長序列動畫的連貫性。

SCAIL-2的技術原理

  • 擴散變換器(DiT)基礎架構:基於 Diffusion Transformer 構建生成模型,利用其強大的序列建模能力處理長時序動畫生成任務。
  • 上下文學習驅動(In-Context Learning):直接利用 DiT 固有的上下文學習能力進行運動遷移,無需依賴 NLFPose 等姿態估計作爲中間表示,避免骨架圖在複雜場景中的歧義問題。
  • 三維一致性姿態表徵(3D-Consistent Pose Representation):在模型內部保留深度信息與遮擋關係,確保生成動畫在空間維度上的合理性與一致性。
  • 全上下文姿態注入(Full-Context Pose Injection):通過 P-RoPE(Pose-shifted RoPE)機制,將姿態信息注入到全序列上下文中,實現時空聯合推理,提升長序列動畫的連貫性。
  • SAM3 顯式掩碼條件:採用 SAM3 爲參考圖像和驅動視頻序列提取精確掩碼,作爲顯式條件輸入,增強角色外觀與動作驅動之間的精準對齊。
  • 端到端統一訓練:摒棄傳統的”姿態估計→動畫生成”兩階段流水線,採用端到端統一訓練策略,直接從驅動視頻學習動作並遷移到參考角色。
  • 高質量數據篩選流水線:構建經過嚴格篩選與人工審覈的高質量訓練數據集,覆蓋人體、動物、手繪角色等多樣化目標,確保模型泛化能力與生成質量。

如何使用SCAIL-2

  • 克隆倉庫並配置環境:從 GitHub 倉庫 https://github.com/zai-org/SCAIL-2 拉取代碼,按照 README 安裝依賴環境(通常包括 PyTorch、Diffusers 及相關視覺庫)。
  • 下載預訓練模型:從 HuggingFace https://huggingface.co/zai-org/SCAIL-2 下載 SCAIL-2 的模型權重文件,放置到本地指定目錄。
  • 準備輸入素材:準備一張參考角色圖像(Reference Image)和一段驅動視頻(Driving Video),驅動視頻包含目標動作序列。系統會自動通過 SAM3 提取參考圖像和驅動序列的顯式掩碼作爲條件輸入。
  • 選擇生成模式:根據需求選擇 Animation Mode(將參考角色外觀遷移到驅動視頻動作上)或 Replacement Mode(在驅動視頻中替換指定角色並保留原始動作與背景)。
  • 執行動畫生成命令:在終端運行對應模式的腳本,例如使用端到端動畫模式:python NLFPoseExtract/process_animation_aio.py --subdir <example_dir> --e2e_mode;或使用替換模式:python NLFPoseExtract/process_replacement.py --subdir <example_dir>
  • 獲取生成結果:腳本運行完成後,在輸出目錄中獲取生成的角色動畫視頻,可直接用於後期剪輯或進一步處理。

SCAIL-2的項目地址

  • 項目官網:https://teal024.github.io/SCAIL-2/
  • Github倉庫:https://github.com/zai-org/SCAIL-2
  • HuggingFace模型庫:https://huggingface.co/zai-org/SCAIL-2

SCAIL-2的核心優勢

  • 端到端無中間態:直接基於 DiT 擴散變換器實現動畫遷移,無需傳統姿態估計(如 NLFPose)作爲中間表示,避免骨架圖歧義,流程更簡潔,效果更可靠。
  • 影視級生成質量:採用高質量數據篩選流水線與三維一致性姿態表徵,保留深度信息與遮擋關係,輸出結果達到影視級標準。
  • 雙模式靈活應用:支持 Animation Mode(外觀遷移)和 Replacement Mode(角色替換),滿足動畫生成與視頻編輯兩種核心需求。
  • 多樣化驅動能力:不僅支持人體動作驅動,還能處理動物、手繪角色、機器人等非人體目標,無需對應訓練數據即可控制四足動物。
  • 精準掩碼對齊:集成 SAM3 提取顯式掩碼作爲條件輸入,顯著提升角色外觀與驅動動作之間的匹配精度。
  • 多人物交互支持:具備多人場景下的角色動作協調與相對位置關係處理能力,適應複雜交互場景。
  • 時空連貫推理:通過全上下文姿態注入(P-RoPE)機制實現時空聯合推理,確保長序列動畫的時序連貫性與動作一致性。

SCAIL-2的同類競品對比

對比維度 SCAIL-2(智譜×清華) Viggle AI MagicAnimate(阿里巴巴)
開發方 智譜 AI × 清華大學 Viggle 團隊 阿里巴巴通義實驗室
開源狀態 完全開源(模型+代碼+論文) 閉源商業產品 開源(代碼+模型)
技術架構 DiT 擴散變換器,端到端無中間件 自研閉源模型 基於 Stable Diffusion + 姿態控制網絡
驅動方式 直接視頻驅動,無需姿態估計 視頻/動作模板驅動 依賴 OpenPose 等姿態估計中間件
支持角色 人體、動物、手繪、機器人、多人物 以人體爲主,支持部分風格化角色 以人體爲主
核心模式 動畫遷移 + 角色替換 雙模式 Mix / Animate / Move 等多模式 單一動畫生成模式
生成質量 影視級,三維一致性姿態,時空連貫 高質量,偏向社交娛樂場景 學術級,複雜動作易抖動
使用門檻 需本地 GPU 部署,技術門檻較高 網頁端即用,零門檻 需本地部署,配置較複雜

SCAIL-2的應用場景

  • 影視動畫製作:替代傳統動作捕捉流程,快速將角色設計遷移到預設動作上,降低動畫製作成本與週期。
  • 遊戲開發:爲遊戲角色生成行走、戰鬥、交互等動畫資源,或用於過場動畫(CG)的高效製作。
  • 虛擬偶像與數字人:驅動虛擬主播、數字員工進行直播互動或短視頻內容創作,實現實時或批量化動畫生成。
  • 廣告與品牌營銷:將品牌 IP 角色或虛擬代言人植入到動態廣告視頻中,支持角色替換模式快速適配多版本素材。
  • 社交媒體內容創作:將手繪形象、表情包或真人照片轉化爲動態視頻,用於短視頻平台的內容生產與傳播。
  • 教育與培訓:製作歷史人物重現、教學角色演示等動畫內容,增強在線課程的趣味性與表現力。
© 版權聲明

相關文章

暫無評論

暫無評論...