SEED-Story – 騰訊推出的多模態故事生成模型

AI項目和框架1個月前發佈新公告 AI管理員
0 0

SEED-Story是什麼

SEED-Story是騰訊聯合香港科技大學、香港中文大學推出的多模態故事生成模型。基於多模態大語言模型(MLLM),能預測文本和視覺token,通過視覺de-tokenizer生成風格一致的圖像。SEED-Story引入了多模態注意力機制,支持生成長達25個序列的連貫故事。SEED-Story還提供了StoryStream,一個大規模高分辨率數據集,用於模型訓練和評估。

SEED-Story – 騰訊推出的多模態故事生成模型

SEED-Story的主要功能

  • 多模態故事生成:SEED-Story 能根據給定的起始圖像和文本生成包含連貫敘事文本和風格一致的圖像的長故事。
  • 多模態注意力匯聚機制:SEED-Story 提出了一種多模態注意力匯聚機制,以高效自迴歸的方式生成故事,可以生成長達25序列的故事。
  • 大規模數據集 :SEED-Story 發佈了一個名爲 StoryStream 的大規模、高分辨率數據集,用於訓練模型並從不同方面定量評估多模態故事生成任務。
  • 故事指令調整:在故事生成的過程中,SEED-Story 通過指令調整過程,對模型進行微調,可以預測故事的下一個圖像和下一句文本。
  • 可視化和交互:SEED-Story 還提供了可視化比較,展示了生成的圖像與其他基線模型相比具有更高的質量和更好的一致性。

SEED-Story的技術原理

  • 多模態大語言模型(MLLM)利用大型語言模型來理解、生成和預測文本和視覺標記。這種模型能夠處理和生成文本數據,同時理解和生成視覺內容。
  • 文本和視覺標記預測SEED-Story模型能夠預測文本標記(文本中的元素或單詞)和視覺標記(圖像中的元素)。
  • 視覺de-tokenizer將語言模型生成的文本和視覺標記轉換爲圖像,通過視覺de-tokenizer生成具有一致性和風格的圖像。
  • 多模態注意力機制引入多模態注意力機制,使模型在生成故事時能夠關注文本和圖像之間的相互關係。這種機制允許模型更有效地處理長序列的生成任務。
  • 自迴歸生成模型採用自迴歸方式生成故事,即每個新生成的標記依賴於之前生成的所有標記,以保持故事的連貫性。
  • 長序列生成能力通過多模態注意力機制,SEED-Story能夠生成比訓練序列更長的故事序列。
  • StoryStream數據集提供一個大規模的高分辨率數據集,用於訓練模型並評估多模態故事生成任務。數據集包含視覺上引人入勝的高分辨率圖像和詳細的敘述文本。
  • 訓練流程包括預訓練去標記器以重建圖像,採樣交錯圖像文本序列進行訓練,以及使用MLLM的迴歸圖像特徵來調整生成的圖像。

SEED-Story – 騰訊推出的多模態故事生成模型

SEED-Story的項目地址

  • GitHub倉庫:https://github.com/TencentARC/SEED-Story
  • HuggingFace模型庫:https://huggingface.co/TencentARC/SEED-Story
  • arXiv技術論文:https://arxiv.org/abs/2407.08683

SEED-Story的應用場景

  • 創意寫作輔助:幫助作家和內容創作者生成故事大綱、角色描述和情節發展,激發創意靈感。
  • 教育和學習:作爲教學工具,幫助學生理解故事敘述結構,提高寫作和創意思維能力。
  • 娛樂和遊戲開發:在視頻遊戲中生成動態故事線和角色背景,提供沉浸式體驗。
  • 廣告和營銷:快速生成吸引人的廣告故事或營銷材料,提高廣告內容的吸引力和個性化。
  • 電影和動畫製作:輔助劇本創作,生成角色對話和場景描述,加速製作流程。
© 版權聲明

相關文章

暫無評論

暫無評論...