琴樂大模型是什麼
琴樂大模型是由騰訊AI Lab與騰訊TME天琴實驗室共同研發的人工智能音樂創作大模型,該模型通過輸入中英文關鍵詞、描述性語句或音頻,能夠直接生成立體聲音頻或多軌樂譜。琴樂大模型支持自動編輯,如續寫、重新生成指定音軌或小節,以及修改樂器類型和節奏。目前,琴樂大模型的技術已經上線騰訊音樂啓明星平台,用戶可以免費註冊體驗。未來,研究團隊還計劃在模型中加入人聲、歌詞等要素的生成能力,以更好地服務音樂創作需求。
琴樂大模型的功能特色
- 音樂生成:模型能夠根據用戶提供的中英文關鍵詞、描述性語句或音頻輸入,智能生成音樂。這種生成不僅基於文本描述,還能夠理解音頻內容,實現音樂的自動創作。
- 樂譜生成:除了生成音頻,「琴樂大模型」還能生成詳細的樂譜,這些樂譜包含旋律、和絃、伴奏和打擊樂等多個軌道,爲用戶提供了豐富的音樂結構。
- 自動編輯:模型支持對生成的樂譜進行一系列自動編輯操作,包括但不限於續寫樂譜、重新生成特定的音軌或小節、調整配器、修改樂器類型和節奏,這大大提高了創作的靈活性和效率。
- 音頻文本對齊:通過對比學習技術,模型構建了一個共享特徵空間,將音頻標籤或文本描述與音頻本身進行對齊,爲生成模型提供條件控制信號,增強了音樂生成的相關性和準確性。
- 樂譜/音頻表徵提取:模型能夠將樂譜或音頻轉換成一系列離散的特徵(token)序列,這些序列爲大語言模型的預測提供了基礎。
- 大語言模型預測:使用decoder-only結構,模型通過特徵預測(next token prediction)訓練,預測出的序列可以轉換回樂譜或音頻,實現了從文本到音樂的轉換。
- 音頻恢復:通過流匹配和聲碼器技術,模型能夠將預測出的音頻表徵序列恢復成可聽音頻,增強了音頻的真實感和質量。
- 音樂理論遵循:在生成音樂的過程中,「琴樂大模型」遵循音樂理論,確保旋律、和絃、節拍等元素符合音樂邏輯和人類審美。
如何體驗和使用琴樂大模型
- 註冊與登錄:訪問騰訊音樂啓明星平台(https://y.qq.com/venus/#/venus/aigc/ai_compose),並註冊一個賬戶或使用現有賬戶登錄。
- 輸入創作條件:在體驗頁面上,輸入音樂關鍵詞、語句或描述,這些將作爲模型生成音樂的依據。
- 選擇音樂模型:目前僅有琴樂音樂生成大模型v1.0供選擇。
- 選擇音樂時長:可選擇10秒至30秒的音樂時長
- 生成音樂:點擊開始生成,等待1分鐘左右音樂即可生成,生成後的音樂可以進行播放和下載
琴樂大模型的技術原理
- 音頻文本對齊模型:這一模塊使用對比學習構建音頻標籤或文本描述與音頻之間的共享特徵空間。通過這種方式,模型能夠理解文本和音頻之間的語義關係,並在生成過程中使用這些信息作爲條件控制信號。
- 樂譜/音頻表徵提取:模型將樂譜或音頻轉換爲離散的特徵序列,這些序列可以是MIDI屬性的表徵,也可以是預先訓練的音頻頻譜的編碼和壓縮後的表徵。
- 大語言模型:使用decoder-only結構的大語言模型,進行特徵預測(next token prediction)訓練。這種模型能夠根據輸入的特徵序列預測下一個特徵,從而生成連續的音樂元素。
- 流匹配與聲碼器技術:在生成音頻的過程中,模型使用流匹配技術與聲碼器模塊,將預測出的音頻表徵序列轉換爲可聽音頻,增強音頻的真實感。
- 多模塊協同工作:「琴樂大模型」包含了多個模塊,這些模塊協同工作以實現音樂生成的效果。例如,音頻文本對齊模型在訓練過程中提供條件控制信號,而在推理過程中則使用文本表徵作爲控制信號。
- 音樂理論遵循:在生成音樂的過程中,模型需要遵循音樂理論,包括旋律、和絃、節奏等元素的合理性,以確保生成的音樂符合人類的聽覺習慣和審美標準。
- 自動編輯與調整:模型支持對生成的樂譜進行自動編輯操作,如續寫、重新生成指定軌或小節,以及修改樂器類型和節奏,這使得音樂創作過程更加靈活。
- 端到端的生成流程:從文本輸入到音頻輸出,「琴樂大模型」實現了端到端的生成流程,減少了人工干預,提高了音樂創作的效率。
- 大規模雙盲聽測:通過大規模雙盲聽測,模型的生成質量得到了驗證,其多維度主觀評分超越了業內標準。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...