Oryx – 騰訊聯合清華和南洋理工大學推出的多模態大語言模型

AI工具2年前 (2024)發佈新公告 AI管理員

1 0 0

Oryx是什麼

Oryx是由清華大學、騰訊和南洋理工大學聯合推出的多模態大型語言模型（MLLM），基於兩項核心創新來處理視覺數據，預訓練的OryxViT模型和動態壓縮模塊。OryxViT將任意分辨率的圖像編碼爲適合LLM的視覺表示，動態壓縮模塊根據需求在1到16倍之間壓縮視覺標記。使Oryx能靈活地處理不同分辨率和時長的視覺輸入，無論是高清圖像還是超長視頻。Oryx在多個視覺-語言基準測試中展現卓越的性能，特別是在空間和時間理解方面。

Oryx – 騰訊聯合清華和南洋理工大學推出的多模態大語言模型

Oryx的主要功能

原生分辨率處理：Oryx能處理任意分辨率的視覺輸入，保留圖像的全部細節，適用於高精度視覺信息的任務。
動態壓縮：根據任務需求，Oryx能在1到16倍之間動態壓縮視覺數據，處理長視頻等大規模數據，提高計算效率。
多模態理解：理解和分析圖像、視頻和3D數據，提供豐富的空間和時間理解能力，適用於多種視覺-語言任務。
上下文檢索：強化對視頻內容的上下文理解，從廣泛的上下文中檢索特定信息。
空間感知：Oryx能準確把握3D空間中物體的位置和關係，增強對三維空間的理解。

Oryx的技術原理

OryxViT模型：預訓練的視覺編碼器，將不同分辨率的圖像轉換爲適合大型語言模型處理的視覺表示。
自適應位置嵌入：OryxViT使用自適應位置嵌入層，允許模型處理不同大小的圖像，而不需要調整到固定分辨率。
變長自注意力機制：允許模型並行處理不同尺寸的視覺數據，提高處理效率和靈活性。
區域注意力操作：在動態壓縮模塊中，用區域注意力操作交互高分辨率和低分辨率特徵圖，減輕下采樣的影響。
混合數據訓練：基於包括圖像、視頻和3D數據的混合數據集進行訓練，提高模型在多模態任務上的性能。

Oryx的項目地址

項目官網：oryx-mllm.github.io
GitHub倉庫：https://github.com/Oryx-mllm/Oryx
HuggingFace模型庫：https://huggingface.co/spaces/THUdyh/Oryx
arXiv技術論文：https://arxiv.org/pdf/2409.12961

Oryx的應用場景

智能監控：基於Oryx的視頻理解能力，實時監控和分析監控視頻中的事件和活動。
自動駕駛：在自動駕駛系統中，Oryx幫助解析和理解車輛周圍的環境，提供更精準的視覺識別。
人機交互：Oryx能理解圖像和視頻內容，使人機交互更加自然和高效。
內容審覈：在社交媒體和在線平台上，Oryx幫助自動識別和過濾不當內容。
視頻編輯和增強：Oryx能自動視頻編輯，如視頻摘要、高光片段生成等。
教育和培訓：在教育領域，Oryx提供圖像和視頻內容的智能分析，輔助教學和學習。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

FLUX1.1 – Black Forest Labs團隊推出的超寫實AI圖像生成模型，代號“藍莓”

earnbyshare2016

12 0

叨叨 – 虛擬AI伴侶，能記賬、背單詞、會聊天、可定製

earnbyshare2016

59 0

Perplexity – AI搜索引擎，使用聊天的方式進行搜索

earnbyshare2016

6 0

Sapiens – Meta推出的AI視覺模型，能理解圖片和視頻中的人類動作

earnbyshare2016

0 0

新TurboQuant – 谷歌推出的向量量化算法

earnbyshare2016

0 0

markmap – 解析Markdown生成可視化思維導圖的工具

earnbyshare2016

31 0

暫無評論

暫無評論...