CutClaw – 灣大聯合北交大開源的 AI 視頻剪輯工具

0 0 0

CutClaw是什麼

CutClaw是大灣區大學GVC實驗室與北交大團隊開源的AI視頻剪輯工具。工具採用多智能體架構，通過”音樂驅動”方式將幾小時長視頻自動剪輯成節奏精準的短片。系統先解析音樂節拍與結構，再結合用戶文字指令，由AI編劇規劃鏡頭、剪輯師選取片段、審閱者質檢，最終渲染出適配多平台的電影感視頻。CutClaw支持一鍵素材解構與緩存複用，適合旅拍、營銷等場景。

CutClaw的主要功能

音樂驅動剪輯：分析音樂節拍、重拍、能量曲線，將視覺敘事嚴格對齊音樂結構，實現真正的音畫同步。
多智能體協作：模擬專業後期流程：AI 編劇（規劃故事節奏與鏡頭）、AI 剪輯師（選取片段時點）、AI 審閱者（質檢鏡頭長度與美學），形成閉環優化。
指令化控制：僅需一句文字描述（如”展現主角的瘋狂”），系統自動理解風格並執行，無需手動拉時間軸。
智能素材解構：一鍵將數小時長視頻拆解爲結構化鏡頭庫，標註攝影手法、人物情緒、敘事節點；音頻提取節拍與能量特徵，轉爲可搜索資產。
內容感知裁剪：自動識別畫面核心主體，智能調整畫面比例（9:16、16:9 等），適配抖音、小紅書等多平台發佈需求。
緩存加速：首次處理後緩存解構結果，後續同素材再剪輯時直接複用，大幅提升效率。

如何使用CutClaw

安裝環境：從 GitHub 克隆代碼倉庫後，創建 Python 3.12 虛擬環境並安裝項目依賴。
準備素材：在 resource/ 目錄下分別放入視頻、音頻文件，可選放入字幕文件跳過語音識別。
啓動運行：執行 streamlit run app.py 啓動可視化界面，或用命令行傳入文件路徑和指令參數直接運行。
配置模型：在配置文件中設置 LiteLLM 支持的 API 密鑰，分別指定視頻理解、音頻解析和智能體推理所用的大模型。
獲取成片：等待系統自動完成素材解構、鏡頭規劃與剪輯渲染，下載適配各平台的多種比例視頻文件。

CutClaw的關鍵信息和使用要求

項目背景：大灣區大學 GVC 實驗室與北京交通大學聯合開源的 AI 視頻剪輯系統，基於多智能體架構實現音樂驅動的長視頻自動剪輯。
核心機制：採用”編劇-剪輯師-審閱者”多智能體流水線，解構素材生成結構化字幕，依據音樂節拍（重拍/能量/音高）規劃鏡頭，最終渲染成節奏精準的電影感短片。
技術依賴：通過 LiteLLM 網關調用大模型 API，視頻理解推薦 Gemini-3/Qwen3.5，音頻解析推薦 Gemini-3，智能體推理推薦 MiniMax-2.7/Kimi-2.5。
環境配置：Python 3.12、Conda 環境、強烈建議 GPU（CUDA）加速視頻編解碼。
文件準備：需將視頻（.mp4/.mkv）和音頻（.mp3/.wav）放入 resource/ 目錄，可選 .srt 字幕跳過 ASR 節省時間和 API 費用。
API 配置：必須配置各模型提供商的 API 密鑰（OpenAI、Google、Moonshot 等），通過環境變量或配置文件設置。
運行方式：支持 Streamlit 可視化界面（streamlit run app.py，訪問 localhost:8501）或 CLI 命令行（python local_run.py 傳入路徑和指令參數）。

CutClaw的核心優勢

真·音樂驅動剪輯 區別於”先剪視頻再配BGM”的傳統工具，CutClaw 先深度解析音樂節拍、重拍與能量曲線，讓剪輯決策完全由音樂結構驅動，實現真正的音畫合一。
專業級多智能體協作 模擬影視後期全流程：AI 編劇規劃敘事節奏，AI 剪輯師選取精準片段時間點，AI 審閱者質檢（鏡頭長度、主角佔比、美學評分），形成自我修正的閉環，而非單次生成。
長視頻端到端處理 專爲”幾小時素材剪成幾分鐘短片”場景優化，一鍵解構海量素材爲結構化可搜索資產，配合緩存機制實現”首剪慢、復剪快”的高效工作流。
零門檻指令控制 無需專業知識，一句自然語言描述（如”展現小丑的瘋狂與優雅”）即可驅動風格化剪輯，自動理解情緒、節奏與視覺偏好。
平台原生適配 內容感知智能裁剪自動識別畫面主體，一鍵生成 9:16（抖音）、16:9（B站）、1:1（小紅書）等多比例版本，告別黑邊與畫面裁切失誤。

CutClaw的項目地址

GitHub倉庫：https://github.com/GVCLab/CutClaw
arXiv技術論文：https://arxiv.org/pdf/2603.29664

CutClaw的同類競品對比

對比維度	CutClaw	OpusClip	Mora
核心定位	長視頻電影感剪輯，音樂驅動敘事	長視頻轉短視頻，病毒式片段提取	視頻生成，多智能體場景協調
音樂同步方式	先解析音樂結構（節拍/能量/主副歌），再驅動視覺剪輯決策	支持音樂節拍對齊，側重內容高光提取後配樂	側重畫面一致性，音樂同步非核心功能
長視頻支持	數小時級（Hours-long）端到端處理	支持（播客/直播回放轉短視頻）	支持長序列生成
架構特點	多智能體閉環（編劇+剪輯師+審閱者協作）	單模型算法推薦	多智能體（與CutClaw架構相似）
開源性	是	否	是
控制方式	自然語言指令控制風格	自動提取+手動調整片段	文本提示控制生成
適用場景	旅拍/Vlog電影感製作、影視二創	社交媒體營銷、直播切片	創意視頻生成、虛擬場景構建