SEED-Story – 騰訊推出的多模態故事生成模型

AI項目和框架2年前 (2024)發佈新公告 AI管理員

2 0 0

SEED-Story是什麼

SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基於多模態大語言模型（MLLM），能預測文本和視覺token，通過視覺de-tokenizer生成風格一致的圖像。SEED-Story引入了多模態注意力機制，支持生成長達25個序列的連貫故事。SEED-Story還提供了StoryStream，一個大規模高分辨率數據集，用於模型訓練和評估。

SEED-Story的主要功能

多模態故事生成：SEED-Story 能根據給定的起始圖像和文本生成包含連貫敘事文本和風格一致的圖像的長故事。
多模態注意力匯聚機制：SEED-Story 提出了一種多模態注意力匯聚機制，以高效自迴歸的方式生成故事，可以生成長達25序列的故事。
大規模數據集 ：SEED-Story 發佈了一個名爲 StoryStream 的大規模、高分辨率數據集，用於訓練模型並從不同方面定量評估多模態故事生成任務。
故事指令調整：在故事生成的過程中，SEED-Story 通過指令調整過程，對模型進行微調，可以預測故事的下一個圖像和下一句文本。
可視化和交互：SEED-Story 還提供了可視化比較，展示了生成的圖像與其他基線模型相比具有更高的質量和更好的一致性。

SEED-Story的技術原理

多模態大語言模型（MLLM）：利用大型語言模型來理解、生成和預測文本和視覺標記。這種模型能夠處理和生成文本數據，同時理解和生成視覺內容。
文本和視覺標記預測：SEED-Story模型能夠預測文本標記（文本中的元素或單詞）和視覺標記（圖像中的元素）。
視覺de-tokenizer：將語言模型生成的文本和視覺標記轉換爲圖像，通過視覺de-tokenizer生成具有一致性和風格的圖像。
多模態注意力機制：引入多模態注意力機制，使模型在生成故事時能夠關注文本和圖像之間的相互關係。這種機制允許模型更有效地處理長序列的生成任務。
自迴歸生成：模型採用自迴歸方式生成故事，即每個新生成的標記依賴於之前生成的所有標記，以保持故事的連貫性。
長序列生成能力：通過多模態注意力機制，SEED-Story能夠生成比訓練序列更長的故事序列。
StoryStream數據集：提供一個大規模的高分辨率數據集，用於訓練模型並評估多模態故事生成任務。數據集包含視覺上引人入勝的高分辨率圖像和詳細的敘述文本。
訓練流程：包括預訓練去標記器以重建圖像，採樣交錯圖像文本序列進行訓練，以及使用MLLM的迴歸圖像特徵來調整生成的圖像。