V-JEPA：Meta推出的視覺模型，可以通過觀看視頻來學習理解物理世界

AI工具2年前 (2024)發佈新公告 AI管理員

7 0 0

V-JEPA是什麼？

V-JEPA（Video Joint-Embedding Predictive Architecture，視頻聯合嵌入預測架構）是由Meta的研究人員推出的一種新型的視頻自監督學習方法，它專注於通過特徵預測來學習視頻的視覺表示。這種方法的核心思想是讓模型能夠預測視頻中一個區域（稱爲目標區域y）的特徵表示，這個預測基於另一個區域（稱爲源區域x）的特徵表示。這種預測過程是在沒有外部監督（如標註或預訓練圖像編碼器）的情況下進行的，完全依賴於視頻數據本身的結構和內容。

V-JEPA 的與衆不同之處在於它的自我監督學習方法，該方法可以預測抽象特徵空間內視頻的缺失部分，而不是填充缺失像素的生成方法。該技術不是通過手動標註，而是通過像人類一樣的被動觀察來建立對視頻片段的概念理解。

項目介紹：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
研究論文：https://scontent-hkg1-2.xx.fbcdn.net/v/t39.2365-6/427986745_768441298640104_1604906292521363076_n.pdf
GitHub代碼庫：https://github.com/facebookresearch/jepa

V-JEPA的主要特點

自監督學習：V-JEPA不依賴於預訓練的圖像編碼器、文本、負例、像素級重構或其他形式的外部監督。它完全通過視頻數據自身的特徵預測來學習視覺表示。
特徵預測目標：V-JEPA的核心目標是預測視頻幀之間的特徵表示。這種目標允許模型學習到視頻中的時間連續性和空間結構，而不僅僅是像素級別的信息。
聯合嵌入架構：V-JEPA採用了一種特殊的網絡架構，其中包括一個編碼器（x-encoder）和一個預測器（predictor）。編碼器負責提取視頻幀的特徵表示，而預測器則基於這些特徵來預測目標幀的特徵。
多塊掩蔽策略：在訓練過程中，V-JEPA使用多塊掩蔽策略來處理視頻幀。這種方法通過在視頻的不同時間點上掩蔽不同的區域，迫使模型學習到更加魯棒和全面的視頻表示。
高效的預訓練數據集：V-JEPA在由200萬個視頻組成的大規模數據集上進行預訓練，這些視頻來自多個公共數據集，如HowTo100M、Kinetics-400/600/700和Something-Something-v2。
無需模型參數調整：V-JEPA訓練出的模型在多種下游任務上表現出色，且無需對模型參數進行調整。這意味着模型可以直接在凍結的狀態下進行評估，或者通過少量的微調（fine-tuning）來適應新任務。
標籤效率：V-JEPA在有限的標註數據下也能取得良好的性能，這表明它在標籤效率方面具有優勢，這對於數據標註成本高昂的場景尤爲重要。
跨模態性能：V-JEPA不僅在視頻任務上表現出色，如動作識別和運動分類，而且在圖像任務上也有競爭力，如ImageNet圖像分類。
快速訓練：V-JEPA在訓練過程中表現出較高的效率，能夠在相對較短的時間內學習到有效的視覺表示，這使得它在大規模視頻數據集上的應用成爲可能。

V-JEPA的工作原理

V-JEPA的工作原理基於自監督學習，它通過預測視頻幀之間的特徵表示來訓練模型。

V-JEPA：Meta推出的視覺模型，可以通過觀看視頻來學習理解物理世界

以下是V-JEPA工作流程的詳細步驟：

視頻預處理：首先，從輸入視頻中隨機抽取一系列幀（例如16幀），並將這些幀轉換爲適合模型處理的格式。這通常包括將視頻幀的空間分辨率調整到模型所需的大小（如224×224像素），並將幀序列轉換爲一系列空間-時間（spatio-temporal）的“tokens”。
編碼器（Encoder）：視頻幀通過一個視覺Transformer（ViT）編碼器，這個編碼器將視頻幀轉換爲一系列特徵表示。編碼器通常由多個Transformer層組成，能夠捕捉視頻幀之間的空間和時間關係。
掩蔽（Masking）：在視頻幀的特徵表示中，隨機選擇一部分區域進行掩蔽（masking），這些掩蔽的區域將作爲預測目標。掩蔽可以是短距離（short-range）或長距離（long-range），以確保模型能夠學習到視頻內容的不同尺度特徵。
預測器（Predictor）：預測器網絡接收編碼器輸出的特徵表示，並嘗試預測被掩蔽區域的特徵。預測器通常是一個較窄的Transformer，它通過學習視頻幀之間的特徵關係來生成預測。
損失函數：V-JEPA使用一個損失函數來衡量預測特徵與實際特徵之間的差異。這個損失函數通常是L1損失，它計算預測特徵和目標特徵之間的平均絕對誤差。
訓練過程：在訓練過程中，模型通過反向傳播算法調整編碼器和預測器的權重，以最小化損失函數。同時，編碼器的權重會以指數移動平均（EMA）的方式更新，以保持模型的穩定性。
下游任務評估：預訓練完成後，V-JEPA模型可以在各種下游任務上進行評估，如動作識別、運動分類等。在這些任務中，模型可以通過一個稱爲“attentive probe”的輕量級網絡來提取視頻的特徵表示，然後用於分類或其他任務。
微調（Fine-tuning）：如果需要，V-JEPA模型可以在特定任務上進行微調。這通常涉及到在預訓練模型的基礎上添加一個或多個全連接層，並在有標籤的數據集上進行訓練。