LLMDet – 阿里通義聯合中山大學等機構推出的開放詞彙目標檢測模型

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

LLMDet是什麼

LLMDet是阿里巴巴集團通義實驗室、中山大學計算機科學與工程學院、鵬城實驗室等機構推出的開放詞彙目標檢測器,基於與大型語言模型(LLM)協同訓練提升目標檢測性能。LLMDet能收集包含圖像、定位標籤和詳細圖像級描述的數據集(GroundingCap-1M),用LLM生成的長描述豐富視覺特徵,基於標準的定位損失和描述生成損失進行訓練。LLMDet在多個基準測試中取得了優異的零樣本檢測性能,作爲強大的視覺基礎模型,能進一步構建更強大的多模態模型,實現與LLM的互利共贏。

LLMDet – 阿里通義聯合中山大學等機構推出的開放詞彙目標檢測模型

LLMDet的主要功能

  • 開放詞彙檢測:LLMDet能檢測出在訓練階段未見過的任意類別目標,基於文本標籤與視覺特徵的對齊,實現對新類別的識別。
  • 零樣本遷移能力:在沒有目標類別標註的情況下,直接遷移到新的數據集上進行檢測,展現出強大的泛化能力。
  • 圖像理解與描述生成:LLMDet能生成圖像級別的詳細描述(caption),包含豐富的細節信息,如對象類型、紋理、顏色、動作等,幫助模型更好地理解圖像內容。
  • 提升多模態模型性能:作爲視覺基礎模型,與大型語言模型(LLM)結合,構建更強大的多模態模型,提升模型在視覺問答、圖像描述等任務中的表現。

LLMDet的技術原理

  • 數據集構建:用GroundingCap-1M數據集,其中每張圖像都配有定位標籤和詳細的圖像級描述。描述包含豐富的細節,幫助模型更好地理解圖像中的對象及其關係。
  • 模型架構:由標準的開放詞彙目標檢測器和LLM組成。檢測器負責提取圖像特徵和定位目標,LLM用這些特徵生成圖像級別的詳細描述和區域級別的短語。
  • 協同訓練:LLMDet基於兩個階段的訓練實現與LLM的協同優化。首先,訓練投影器(projector)將檢測器的特徵映射到LLM的輸入空間。然後將檢測器、投影器和LLM作爲整體進行微調,訓練目標包括標準的定位損失和描述生成損失。
  • 多任務學習:LLMDet引入圖像級別和區域級別的描述生成任務,基於生成詳細的描述豐富視覺特徵,提升模型對圖像的整體理解能力。多任務學習方式提升了檢測性能,增強了模型的開放詞彙能力。

LLMDet的項目地址

  • GitHub倉庫:https://github.com/iSEE-Laboratory/LLMDet
  • arXiv技術論文:https://arxiv.org/pdf/2501.18954

LLMDet的應用場景

  • 智能安防:實時檢測攝像頭中的異常目標或行爲,適應性強,無需重新訓練。
  • 自動駕駛:幫助車輛識別道路上的各類障礙物和未見過的場景,提升安全性和可靠性。
  • 圖像內容審覈:自動審覈圖像內容,識別違規或不當內容,提高審覈效率。
  • 智能相冊管理:自動分類和標註照片,方便用戶搜索和管理,支持多種未見過的類別。
  • 醫療影像分析:分析醫學影像,快速識別異常區域,無需大量標註數據。
© 版權聲明

相關文章

暫無評論

暫無評論...