SAM 2 – Meta推出的AI對象分割模型

2 0 0

SAM 2是什麼

SAM 2（Segment Anything Model 2）是Meta推出的AI對象分割模型，專注於實時圖像和視頻對象分割。具備零樣本泛化能力，能準確分割未知對象，並通過統一架構同時處理圖像和視頻。SAM 2的設計支持交互式提示，允許用戶通過點擊或框選指導分割過程。SAM 2模型已開源，推動了AI在視頻編輯、自動駕駛、醫學成像等領域的應用發展。

SAM 2的主要功能

集成處理能力：SAM 2能同時處理靜態圖像和動態視頻的分割任務，提高了應用的靈活性和效率。
高效實時處理：SAM 2具備高效的實時處理能力，每秒能夠分析多達44幀的圖像，滿足了對快速反饋有高要求的應用場景，例如視頻編輯和增強現實技術。
適應性強：SAM 2具有出色的適應性，能夠識別和分割在訓練階段未曾出現過的新物體。
用戶交互改進：當你使用SAM 2並且告訴它哪裏做得好，哪裏做得不好時，它可以學習你的反饋，然後變得更好。
複雜場景解析：在面對複雜或模糊不清的場景時，SAM 2能提供多個分割選項，智能地解析並區分重疊或部分遮擋的對象。

SAM 2的技術原理

統一模型架構：SAM 2 將圖像和視頻分割功能集成在一個模型中，基於提示的界面，通過點、邊界框或掩碼指定感興趣的對象。
高級處理機制：SAM 2 包括管理視頻分割中常見難題的機制，如物體遮擋和重現。使用複雜記憶機制來跟蹤各幀中的物體，確保連續性。
模型架構：包括圖像和視頻編碼器、提示編碼器、記憶機制（記憶編碼器、記憶庫和記憶注意力模塊）以及掩碼解碼器。這些組件共同工作，提取特徵、處理用戶提示、存儲過去幀的信息，並生成最終的分割掩碼。
記憶機制和遮擋處理：記憶機制允許SAM 2 處理時間依賴性和遮擋問題。當物體移動或被遮擋時，模型可以依靠記憶庫來預測對象的位置和外觀。
多掩碼模糊解決：在存在多個可能的分割對象時，SAM 2 能夠生成多個掩碼預測，提高複雜場景的準確度。
SA-V 數據集：爲了訓練SAM 2，開發了SA-V數據集，它是目前最大、最多樣化的視頻分割數據集之一，包含51,000多部視頻和600,000多個掩碼註釋，提供了前所未有的多樣性和複雜性。
提示視覺分割任務：SAM 2 被設計爲可以接受視頻中任何一幀的輸入提示來定義要預測的時空掩碼（masklet），並能夠根據這些提示立即預測當前幀的遮罩，並在時間上傳播以生成目標對象在所有視頻幀中的masklet。