LLMDet – 阿里通義聯合中山大學等機構推出的開放詞彙目標檢測模型

AI工具1年前 (2025)發佈新公告 AI管理員

0 0 0

LLMDet是什麼

LLMDet是阿里巴巴集團通義實驗室、中山大學計算機科學與工程學院、鵬城實驗室等機構推出的開放詞彙目標檢測器，基於與大型語言模型（LLM）協同訓練提升目標檢測性能。LLMDet能收集包含圖像、定位標籤和詳細圖像級描述的數據集（GroundingCap-1M），用LLM生成的長描述豐富視覺特徵，基於標準的定位損失和描述生成損失進行訓練。LLMDet在多個基準測試中取得了優異的零樣本檢測性能，作爲強大的視覺基礎模型，能進一步構建更強大的多模態模型，實現與LLM的互利共贏。

LLMDet的主要功能

開放詞彙檢測：LLMDet能檢測出在訓練階段未見過的任意類別目標，基於文本標籤與視覺特徵的對齊，實現對新類別的識別。
零樣本遷移能力：在沒有目標類別標註的情況下，直接遷移到新的數據集上進行檢測，展現出強大的泛化能力。
圖像理解與描述生成：LLMDet能生成圖像級別的詳細描述（caption），包含豐富的細節信息，如對象類型、紋理、顏色、動作等，幫助模型更好地理解圖像內容。
提升多模態模型性能：作爲視覺基礎模型，與大型語言模型（LLM）結合，構建更強大的多模態模型，提升模型在視覺問答、圖像描述等任務中的表現。

LLMDet的技術原理

數據集構建：用GroundingCap-1M數據集，其中每張圖像都配有定位標籤和詳細的圖像級描述。描述包含豐富的細節，幫助模型更好地理解圖像中的對象及其關係。
模型架構：由標準的開放詞彙目標檢測器和LLM組成。檢測器負責提取圖像特徵和定位目標，LLM用這些特徵生成圖像級別的詳細描述和區域級別的短語。
協同訓練：LLMDet基於兩個階段的訓練實現與LLM的協同優化。首先，訓練投影器（projector）將檢測器的特徵映射到LLM的輸入空間。然後將檢測器、投影器和LLM作爲整體進行微調，訓練目標包括標準的定位損失和描述生成損失。
多任務學習：LLMDet引入圖像級別和區域級別的描述生成任務，基於生成詳細的描述豐富視覺特徵，提升模型對圖像的整體理解能力。多任務學習方式提升了檢測性能，增強了模型的開放詞彙能力。