GameGen-O – 騰訊推出的遊戲視頻生成模型，自動生成角色、場景、動作和事件

50 0 0

GameGen-O是什麼

GameGen-O 是騰訊推出的一款基於 Transformer 架構的遊戲視頻生成模型，專門用於生成開放世界視頻遊戲。模型能模擬遊戲引擎的多種功能，包括生成遊戲角色、動態環境、複雜動作等，支持交互控制，支持用戶通過文本、操作信號和視頻提示來控制遊戲內容。GameGen-O 的開發涉及大規模的數據收集和處理，創建首個開放世界視頻遊戲數據集（OGameData），經過兩階段的訓練過程，包括基礎模型預訓練和指令調整。模型的推出會對遊戲開發行業產生重大影響，它能降低開發成本和時間，同時爲玩家提供更多的創作自由度。

GameGen-O的主要功能

角色生成：能根據用戶的文本指令生成各種角色，如西部牛仔、太空人、魔法師等。
環境生成：能創造出動態的遊戲環境，適應不同的遊戲風格和場景。
動作生成：支持生成複雜的角色動作，如駕駛、飛行、射擊等。
事件生成：能生成遊戲中的各種事件，如天氣變化、自然災害等。
交互控制：用戶可以通過文本、操作信號和視頻提示來控制遊戲內容，實現交互式遊戲體驗。

GameGen-O的技術原理

開放域生成：GameGen-O 能生成各種類型的遊戲元素，如角色、環境、動作和事件，擴展了遊戲的可能性。
交互式可控性：模型能生成遊戲內容，支持用戶通過 InstructNet 分支進行交互式控制，例如改變角色行爲、環境佈局、事件發生等。
OGameData 數據集：爲了訓練 GameGen-O，研究團隊構建了大規模的開放世界電子遊戲數據集 OGameData，包含來自150多個遊戲的4000多個小時視頻片段，覆蓋多種遊戲類型和風格。
兩階段訓練：模型採用了兩階段訓練策略。第一階段是基礎模型預訓練，學習生成高質量的遊戲視頻；第二階段是通過指令微調，賦予模型根據用戶指令生成和控制內容的能力。
技術創新：GameGen-O 採用了多種先進技術，如2+1D VAE視頻壓縮、混合訓練策略、掩碼注意力機制等，確保模型的穩定性和生成質量。
數據集構建和訓練過程：從互聯網上收集了32,000個原始視頻，經過人類專家篩選和GPT-4o標註，形成了高質量的訓練數據。模型的基礎訓練階段使用了變分自編碼器來壓縮視頻片段，採用了不同幀速率和分辨率的混合訓練策略。
InstructNet：在模型的微調階段，使用了可訓練的 InstructNet 來接受多模態輸入，包括文本、操作信號和視頻提示，實現對生成內容的交互式控制。