V-JEPA:Meta推出的視覺模型,可以通過觀看視頻來學習理解物理世界

AI工具7個月前發佈新公告 AI管理員
6 0

V-JEPA是什麼?

V-JEPA(Video Joint-Embedding Predictive Architecture,視頻聯合嵌入預測架構)是由Meta的研究人員推出的一種新型的視頻自監督學習方法,它專注於通過特徵預測來學習視頻的視覺表示。這種方法的核心思想是讓模型能夠預測視頻中一個區域(稱爲目標區域y)的特徵表示,這個預測基於另一個區域(稱爲源區域x)的特徵表示。這種預測過程是在沒有外部監督(如標註或預訓練圖像編碼器)的情況下進行的,完全依賴於視頻數據本身的結構和內容。

V-JEPA:Meta推出的視覺模型,可以通過觀看視頻來學習理解物理世界

V-JEPA 的與衆不同之處在於它的自我監督學習方法,該方法可以預測抽象特徵空間內視頻的缺失部分,而不是填充缺失像素的生成方法。該技術不是通過手動標註,而是通過像人類一樣的被動觀察來建立對視頻片段的概念理解。

  • 項目介紹:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
  • 研究論文:https://scontent-hkg1-2.xx.fbcdn.net/v/t39.2365-6/427986745_768441298640104_1604906292521363076_n.pdf
  • GitHub代碼庫:https://github.com/facebookresearch/jepa

V-JEPA的主要特點

  • 自監督學習:V-JEPA不依賴於預訓練的圖像編碼器、文本、負例、像素級重構或其他形式的外部監督。它完全通過視頻數據自身的特徵預測來學習視覺表示。
  • 特徵預測目標:V-JEPA的核心目標是預測視頻幀之間的特徵表示。這種目標允許模型學習到視頻中的時間連續性和空間結構,而不僅僅是像素級別的信息。
  • 聯合嵌入架構:V-JEPA採用了一種特殊的網絡架構,其中包括一個編碼器(x-encoder)和一個預測器(predictor)。編碼器負責提取視頻幀的特徵表示,而預測器則基於這些特徵來預測目標幀的特徵。
  • 多塊掩蔽策略:在訓練過程中,V-JEPA使用多塊掩蔽策略來處理視頻幀。這種方法通過在視頻的不同時間點上掩蔽不同的區域,迫使模型學習到更加魯棒和全面的視頻表示。
  • 高效的預訓練數據集:V-JEPA在由200萬個視頻組成的大規模數據集上進行預訓練,這些視頻來自多個公共數據集,如HowTo100M、Kinetics-400/600/700和Something-Something-v2。
  • 無需模型參數調整:V-JEPA訓練出的模型在多種下游任務上表現出色,且無需對模型參數進行調整。這意味着模型可以直接在凍結的狀態下進行評估,或者通過少量的微調(fine-tuning)來適應新任務。
  • 標籤效率:V-JEPA在有限的標註數據下也能取得良好的性能,這表明它在標籤效率方面具有優勢,這對於數據標註成本高昂的場景尤爲重要。
  • 跨模態性能:V-JEPA不僅在視頻任務上表現出色,如動作識別和運動分類,而且在圖像任務上也有競爭力,如ImageNet圖像分類。
  • 快速訓練:V-JEPA在訓練過程中表現出較高的效率,能夠在相對較短的時間內學習到有效的視覺表示,這使得它在大規模視頻數據集上的應用成爲可能。

V-JEPA的工作原理

V-JEPA的工作原理基於自監督學習,它通過預測視頻幀之間的特徵表示來訓練模型。

V-JEPA:Meta推出的視覺模型,可以通過觀看視頻來學習理解物理世界

以下是V-JEPA工作流程的詳細步驟:

  1. 視頻預處理:首先,從輸入視頻中隨機抽取一系列幀(例如16幀),並將這些幀轉換爲適合模型處理的格式。這通常包括將視頻幀的空間分辨率調整到模型所需的大小(如224×224像素),並將幀序列轉換爲一系列空間-時間(spatio-temporal)的“tokens”。
  2. 編碼器(Encoder):視頻幀通過一個視覺Transformer(ViT)編碼器,這個編碼器將視頻幀轉換爲一系列特徵表示。編碼器通常由多個Transformer層組成,能夠捕捉視頻幀之間的空間和時間關係。
  3. 掩蔽(Masking):在視頻幀的特徵表示中,隨機選擇一部分區域進行掩蔽(masking),這些掩蔽的區域將作爲預測目標。掩蔽可以是短距離(short-range)或長距離(long-range),以確保模型能夠學習到視頻內容的不同尺度特徵。
  4. 預測器(Predictor):預測器網絡接收編碼器輸出的特徵表示,並嘗試預測被掩蔽區域的特徵。預測器通常是一個較窄的Transformer,它通過學習視頻幀之間的特徵關係來生成預測。
  5. 損失函數:V-JEPA使用一個損失函數來衡量預測特徵與實際特徵之間的差異。這個損失函數通常是L1損失,它計算預測特徵和目標特徵之間的平均絕對誤差。
  6. 訓練過程:在訓練過程中,模型通過反向傳播算法調整編碼器和預測器的權重,以最小化損失函數。同時,編碼器的權重會以指數移動平均(EMA)的方式更新,以保持模型的穩定性。
  7. 下游任務評估:預訓練完成後,V-JEPA模型可以在各種下游任務上進行評估,如動作識別、運動分類等。在這些任務中,模型可以通過一個稱爲“attentive probe”的輕量級網絡來提取視頻的特徵表示,然後用於分類或其他任務。
  8. 微調(Fine-tuning):如果需要,V-JEPA模型可以在特定任務上進行微調。這通常涉及到在預訓練模型的基礎上添加一個或多個全連接層,並在有標籤的數據集上進行訓練。
© 版權聲明

相關文章

暫無評論

暫無評論...