QLIP – 英偉達推出的視覺標記化方法

0 0 0

QLIP是什麼

QLIP（Quantized Language-Image Pretraining）是英偉達等推出的視覺標記化方法，結合高質量的圖像重建和零樣本圖像理解能力。QLIP二進制球形量化（BSQ）的自編碼器進行訓練，同時優化重建目標和語言-圖像對齊目標。QLIP能作爲視覺編碼器或圖像標記器，無縫集成到多模態模型中，在理解與生成任務中表現出色。QLIP爲統一多模態模型的開發提供新的思路。

QLIP的主要功能

高質量圖像重建：用較低的壓縮率重建高質量的圖像。
強大的語義理解：支持生成語義豐富的視覺標記，支持零樣本圖像分類和多模態理解任務。
多模態任務支持：作爲視覺編碼器或圖像標記器，無縫集成到多模態模型中，支持文本到圖像生成、圖像到文本生成等任務。
統一的多模態模型：支持一個模型同時處理純文本、圖像到文本和文本到圖像的任務。

QLIP的技術原理

二進制球形量化（BSQ）：用二進制球形量化（BSQ）技術，將圖像編碼爲離散的視覺標記。BSQ將高維空間中的點映射到單位球面上的二進制角點，實現高效的量化和壓縮。
對比學習目標：QLIP引入對比學習目標，基於圖像文本對齊的方式，讓視覺標記與語言嵌入對齊。QLIP用InfoNCE損失函數，學習將同一圖像和文本對的嵌入拉近，將不同對的嵌入推遠。對齊機制使視覺標記能重建圖像，理解圖像的語義內容。
兩階段訓練：
- 第一階段：優化重建損失、量化損失和對比損失的加權和。目標是學習語義豐富的視覺表示，保持圖像的重建質量。
- 第二階段：在第一階段的基礎上，進一步優化重建質量，基於微調量化瓶頸和視覺解碼器，恢復高頻細節。這一階段會丟棄文本編碼器並凍結視覺編碼器，避免在大批次訓練時的性能退化。
動態平衡損失：基於動態調整對比損失和重建損失的權重，解決兩種目標之間的競爭問題。具體方法是根據損失值的倒數調整權重，平衡兩種目標的收斂速度。
加速訓練與更好的初始化：從預訓練的模型（如Masked Image Modeling或CLIP）初始化視覺編碼器和文本編碼器，顯著提高訓練效率，減少訓練所需的樣本數量。