Emu3 – 北京智源推出的統一輸入與生成多模態模型

AI工具2年前 (2024)發佈新公告 AI管理員

1 0 0

Emu3是什麼

Emu3是由北京智源人工智能研究院推出的一款原生多模態世界模型，採用智源自研的多模態自迴歸技術路徑，在圖像、視頻、文字上聯合訓練，使模型具備原生多模態能力，實現圖像、視頻、文字的統一輸入和輸出。Emu3將各種內容轉換爲離散符號，基於單一的Transformer模型來預測下一個符號，簡化了模型架構。Emu3在圖像生成方面，只需一段文本描述可創造出符合要求的高質量圖像，表現超越了專門的圖像生成模型SDXL。在圖像和語言的理解能力上，Emu3能準確描述現實世界場景給出恰當的文字回應，無需依賴CLIP或預訓練的語言模型。Emu3能延續現有視頻內容，自然地擴展視頻場景。

Emu3的主要功能

圖像生成：Emu3能根據文本描述生成高質量圖像，支持不同分辨率和風格。
視頻生成：Emu3能生成視頻，通過預測視頻序列中的下一個符號來創作視頻，不依賴複雜的視頻擴散技術。
視頻預測：Emu3能自然地延續現有視頻內容，預測接下來會發生什麼，模擬物理世界中的環境、人物和動物。
圖文理解：Emu3能理解物理世界並提供連貫的文本回應，無需依賴CLIP或預訓練的語言模型。

Emu3的技術原理

下一個token預測：Emu3的核心是下一個token預測，屬於一種自迴歸方法，模型被訓練預測序列中的下一個元素，無論是文本、圖像還是視頻。
多模態序列統一：Emu3將圖像、文本和視頻數據統一到一個離散的token空間中，使單一的Transformer模型處理多種類型的數據。
單一Transformer模型：Emu3用一個從零開始訓練的單一Transformer模型處理所有類型的數據，簡化模型架構並提高效率。
自迴歸生成：在生成任務中，Emu3通過自迴歸方式，一個接一個地預測序列中的token，從而生成圖像或視頻。
圖文理解：在圖文理解任務中，Emu3能將圖像編碼爲token，然後生成描述圖像內容的文本。

Emu3的項目地址

項目官網：emu.baai.ac.cn/about
GitHub倉庫：https://github.com/baaivision/Emu3
HuggingFace模型庫：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
技術論文：https://baai-solution.ks3-cn-beijing.ksyuncs.com/emu3/Emu3-tech-report.pdf