LongLLaVA – 香港中文大學推出的多模態上下文混合架構大語言模型

AI工具1年前 (2024)發佈新公告 AI管理員

0 0 0

LongLLaVA是什麼

LongLLaVA是的多模態大型語言模型（MLLM），是香港中文大學（深圳）的研究人員推出。基於混合架構，結合Mamba和Transformer模塊，提高處理大量圖像數據的效率。LongLLaVA能在單個A100 80GB GPU上處理多達1000張圖像，同時保持高性能和低內存消耗。模型基於2D池化技術壓縮圖像token，顯著降低計算成本，保留關鍵的空間關係信息。LongLLaVA在視頻理解、高分辨率圖像分析和多模態代理等應用場景中展現出卓越的性能，特別是在檢索、計數和排序任務中。

LongLLaVA的主要功能

多模態長上下文理解：處理包含大量圖像的長上下文信息，適於視頻理解、高分辨率圖像分析等場景。
高效圖像處理：在單個GPU上處理多達1000張圖像，展示在處理大規模視覺數據時的高效能力。
混合架構優化：結合Mamba和Transformer架構，平衡模型的效率和效果。
數據構建與訓練策略：基於特殊的數據構建方法和分階段訓練策略，增強模型對多圖像場景的理解能力。
優異的基準測試表現：在多個基準測試中，展現卓越的性能，尤其在檢索、計數和排序任務中。

LongLLaVA的技術原理

混合架構：基於混合架構，整合Mamba和Transformer模塊。Mamba模塊提供線性時間複雜度的序列建模能力，Transformer模塊處理需要上下文學習的複雜任務。
2D池化壓縮：用2D池化方法壓縮圖像token，減少token的數量，同時保留圖像間的空間關係。
數據構建：在數據構建時考慮圖像之間的時間和空間依賴性，設計獨特的數據格式，讓模型更好地理解多圖像場景。
漸進式訓練策略：模型採用三階段的訓練方法，包括單圖像對齊、單圖像指令調優和多圖像指令調優，逐步提升模型處理多模態長上下文的能力。
效率與性能平衡：在保持高性能的同時，基於架構和訓練策略的優化，實現低內存消耗和高吞吐量，展現在資源管理上的優勢。
多模態輸入處理：能處理多種多模態輸入，包括圖像、視頻和文本，有效地在內部混合架構中統一管理預處理輸入。