VideoPrism – 谷歌研究團隊推出的通用視頻編碼器

AI項目和框架2年前 (2024)發佈新公告 AI管理員

8 0 0

VideoPrism是什麼

VideoPrism是一個由谷歌研究團隊開發的通用視頻編碼器，旨在通過一個單一的預訓練模型來處理多種視頻理解任務。該模型能夠從視頻中提取豐富的語義表示，使其能夠在不同的視頻理解任務中實現高性能和準確率，例如視頻分類、定位、檢索、描述生成和問答等。

VideoPrism的核心設計理念在於預訓練數據和建模策略方面提出了創新，在大規模的異構視頻-文本數據集上進行預訓練，並採用兩階段訓練方法（視頻-文本對比學習和掩碼視頻建模）。

Arxiv研究論文：https://arxiv.org/abs/2402.13217

官方項目介紹：https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

VideoPrism的功能特性

VideoPrism – 谷歌研究團隊推出的通用視頻編碼器

視頻分類：VideoPrism可以對視頻內容進行分類，識別視頻中的主要活動或事件。例如，它可以將視頻分爲不同的類別，如運動、烹飪、遊戲等。
視頻定位：在視頻定位任務中，VideoPrism能夠識別視頻中特定動作或事件的開始和結束時間點，這對於理解視頻內容的時序信息非常重要。
視頻檢索：VideoPrism可以實現視頻-文本檢索，即根據文本描述找到相關的視頻片段，對於內容推薦、視頻數據庫搜索等應用場景很有幫助。
視頻描述生成：該模型能夠爲視頻生成描述性文字，有助於用戶快速理解視頻內容，也常用於視頻內容管理和索引。
視頻問答：VideoPrism可以處理關於視頻內容的問答任務，例如回答關於視頻中發生事件的問題，這要求模型對視頻內容有深入的理解。
科學視覺：在科學研究領域，VideoPrism可以應用於動物行爲分析、生態學研究等，幫助研究人員從視頻數據中提取有用的信息。
多模態學習：通過與大型語言模型（如PaLM）結合，VideoPrism可以在視頻和語言之間建立聯繫，進行更復雜的任務，如視頻內容的詳細描述和解釋。

VideoPrism的技術原理

VideoPrism – 谷歌研究團隊推出的通用視頻編碼器

預訓練（Pre-training）：VideoPrism首先在大規模的異構視頻-文本數據集上進行預訓練，讓模型學習到豐富的視頻表示，這些表示能夠捕捉視頻內容的語義信息。該數據集包含了3600萬個高質量的視頻-標題對和5.82億個帶有噪聲並行文本（如ASR轉錄文本）的視頻片段。
視頻-文本對比學習（Video-Text Contrastive Learning）：在預訓練的第一階段，VideoPrism通過對比學習來對齊視頻和文本的表示。模型會嘗試找到視頻內容和相關文本描述之間的對應關係，從而學習到能夠描述視頻內容的高質量特徵。
掩碼視頻建模（Masked Video Modeling）：在預訓練的第二階段，VideoPrism採用掩碼視頻建模來進一步提升對視頻內容的理解。這個過程包括隨機遮蔽視頻中的一部分（例如，某些幀或片段），然後讓模型預測這些遮蔽部分的內容，以此幫助模型學習到更加細緻和全面的視頻表示。
全局和局部蒸餾（Global and Local Distillation）：在第二階段，VideoPrism還進行全局和局部蒸餾，這涉及到從第一階段的模型中提取全局視頻表示，並將其與局部細節相結合。這種蒸餾過程使得模型能夠在保持語義信息的同時，更好地理解視頻的全局結構和局部動態。
打亂詞序（Token Shuffling）：爲了提高模型對視頻內容的理解，VideoPrism在第二階段的預訓練中引入了Token Shuffling策略。這要求模型在預測遮蔽部分時不考慮輸入樣本的順序，從而迫使模型更加關注視頻內容本身。
下游任務適配（Downstream Task Adaptation）：在預訓練完成後，VideoPrism可以通過簡單的適配來處理各種下游視頻理解任務。這通常涉及到在模型的輸出上添加特定的任務頭（例如：分類器、定位器或檢索器），而不需要對模型的主體部分進行微調。