FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架

AI項目和框架1個月前發佈新公告 AI管理員
1 0

FoleyCrafter是什麼

FoleyCrafter是上海人工智能實驗室和香港中文大學(深圳)共同推出的AI視頻配音框架,FoleyCrafter能自動聽出視頻中的動作,配上恰到好處的聲音效果。不管是視頻裏的人走路、跑步,還是動物的叫聲,甚至是環境裏的風聲、水聲,FoleyCrafter都能智能地加上去,讓原來沒有聲音的視頻瞬間變得生動起來。而且還可以給它一些提示,比如“聲音要高一點”或者“不要風聲”,FoleyCrafter都能聽懂並做到。這個技術不僅讓視頻製作更簡單,還能讓視頻看起來更真實、更有感覺。

FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架

FoleyCrafter的主要功能

  • 自動配音:FoleyCrafter能給無聲的視頻加上各種聲音,比如腳步聲、關門聲,讓視頻聽起來更真實。
  • 聲音同步:不管視頻裏的動作多快或多慢,FoleyCrafter都能讓聲音和動作完美對上節奏。
  • 理解視頻:FoleyCrafter很聰明,能看懂視頻裏的內容,然後配上最合適的聲音效果。
  • 時間精準:FoleyCrafter有一個特別的時間控制器,確保聲音的開始和結束都和視頻裏的動作完全同步。
  • 聽你指揮:用戶可以通過寫一些簡單的文字提示,比如“大聲點”或者“輕一點”,FoleyCrafter能自動調整聲音效果。
  • 多樣的聲音:無論是自然的聲音、遊戲的聲音還是動畫的聲音,FoleyCrafter都能根據視頻內容創造出相應的音效。

FoleyCrafter的技術原理

  • 預訓練的音頻模型:FoleyCrafter基於一個已經學會怎麼生成好聲音的模型。就像一個已經知道怎麼唱歌的人,我們只需要告訴它什麼時候唱什麼歌。
  • 語義適配器:這個部分是FoleyCrafter的大腦,它通過觀看視頻來理解裏面正在發生什麼。比如,如果視頻裏有人跑步,語義適配器就會知道需要生成腳步聲。
  • 並行交叉注意力層:這是一種特殊的技術,讓FoleyCrafter能夠同時關注視頻裏的視覺信息和可能的文本描述,然後決定生成什麼樣的聲音。
  • 時間控制器:這個部分確保聲音效果在正確的時間點出現。就像一個指揮家,告訴樂隊什麼時候開始演奏,時間控制器告訴FoleyCrafter什麼時候開始發出聲音。
  • 起始檢測器:這是時間控制器裏的一個工具,它能夠檢測視頻中的聲音應該何時開始。比如,如果視頻中的球剛剛碰到地面,起始檢測器就會知道這是發出撞擊聲的正確時機。
  • 時間戳適配器:這個工具使用起始檢測器的信息來調整聲音的生成,確保聲音與視頻中的動作完美同步。
  • 文本提示兼容性:FoleyCrafter還可以根據你給出的文字提示來生成聲音。比如,你寫“輕柔的風聲”,它就會生成相應的聲音效果。

FoleyCrafter – 上海人工智能實驗室推出的AI視頻配音框架

FoleyCrafter的項目地址

  • 項目官網:https://foleycrafter.github.io/
  • GitHub倉庫:https://github.com/open-mmlab/foleycrafter
  • HuggingFace Demo:https://huggingface.co/spaces/ymzhang319/FoleyCrafter
  • YouTube視頻:https://www.youtube.com/watch?v=7m4YLrSBOv0

FoleyCrafter的應用場景

  • 電影和視頻製作:在電影、電視劇或網絡視頻的後期製作中,FoleyCrafter可以自動爲各種動作場景生成逼真的音效,如腳步聲、關門聲、物體碰撞聲等。
  • 遊戲開發:在電子遊戲中,FoleyCrafter可以爲角色動作、環境互動等生成相應的音效,增強遊戲的沉浸感和真實性。
  • 動畫製作:動畫中的動作往往需要音效來配合,FoleyCrafter能根據動畫內容自動生成匹配的聲音效果。
  • 虛擬現實(VR)體驗:在VR環境中,聲音的空間感和同步性尤爲重要,FoleyCrafter能爲VR體驗提供精確的音效,提升用戶的沉浸體驗。
© 版權聲明

相關文章

暫無評論

暫無評論...