VideoLLaMB – 開源的多模態長視頻理解框架

AI工具2年前 (2024)發佈新公告 AI管理員

20 0 0

VideoLLaMB

VideoLLaMB 是一種創新的長視頻理解框架，通過引入記憶橋接層和遞歸記憶令牌來處理視頻數據，確保在分析時不丟失關鍵視覺信息。模型特別設計用於理解長時間視頻內容，保持語義連續性，並在多種任務中表現出色，如視頻問答、自我中心規劃和流式字幕生成。能有效地處理視頻長度的增加，同時保持高性能和成本效益，適用於學術研究和實際應用。

VideoLLaMB的主要功能

長視頻理解：處理和理解長時間的視頻內容，包括複雜的場景和活動，不丟失關鍵的視覺信息。
記憶橋接層：基於帶有遞歸內存令牌的內存橋接層來編碼視頻內容，有助於模型在處理視頻時保持語義連續性。
自我中心規劃：在自我中心規劃任務中，如家庭環境或個人助理場景，VideoLLaMB 根據視頻內容預測下一步最合適的行動。
流式字幕生成：通過 SceneTilling 算法，VideoLLaMB 能實時生成視頻的字幕，無需預先處理整個視頻序列。
幀檢索：在長視頻中準確檢索特定幀的能力，對於視頻分析和檢索任務非常有用。

VideoLLaMB的技術原理

記憶橋接層（Memory Bridge Layers）：基於遞歸內存令牌（recurrent memory tokens）來編碼整個視頻序列。橋接層允許模型在不改變視覺編碼器和大型語言模型（LLM）架構的情況下，有效地處理和記憶視頻內容。
遞歸內存令牌：被用來存儲和更新視頻的關鍵信息。在處理視頻片段時，模型更新這些令牌，在保持長期依賴性的同時，也能反映當前處理的視頻內容。
SceneTilling 算法：用於視頻分割的算法，計算相鄰幀之間的餘弦相似度來識別視頻中的關鍵點，將視頻分割成多個語義段。有助於模型更好地理解和處理視頻中的場景變化。
內存緩存與檢索機制：爲緩解梯度消失問題並保持長期記憶，VideoLLaMB 採用內存緩存和檢索策略。允許模型在每個時間步存儲先前的記憶令牌，並在需要時檢索和更新記憶，維持對視頻內容的長期理解。