豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

AI教程1天前發佈新公告 AI管理員

0 0 0

你可能也在煩惱：用 AI 生成大片，畫面質感已經很到位了，可角色一開口，瞬間讓人出戏。

畫面裏明明在經歷生死關頭，配音聽起來卻像在四平八穩地念產品說明書；好不容易有點情緒起伏，也全靠生硬的大喊大叫…更難受的是，不同的片段裏角色的音色完全不一樣，很難保持音色一致性。

更別說後面還需要自己添加環境音、音效、背景音樂，對口型…非常折騰。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

前不久的火山引擎 FORCE 原動力大會上，字節正式發佈了豆包音頻生成模型 1.0，豐富且有情緒的聲音素材也能端到端生成了。

我們輸入一段提示詞，豆包音頻生成模型1.0 就能把人聲、音效、配樂、場景聲一次性打包生成。不僅省去了繁瑣的多軌混剪，還能模擬出真人說話時細微的呼吸和情緒變化，讓 AI 聲音聽起來更自然、更有人味兒。

在真實創作中表現怎麼樣呢？今天我們一起實測看看。

01. 多場景下的 AI 聲音魔法

我們打開火山方舟體驗中心，選擇豆包音頻生成模型1.0，普通用戶有 30 分鐘的免費體驗額度，後續可通過 API 調用。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

我們輸入效果提示詞和合成文本，點擊生成就可以得到一段包含人聲和環境音的完整聲音片段。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

單人配音

我試着生成了一段小說人物獨白。

背景音樂輕微鋪底，以低沉絃樂、遠處鼓聲和空靈女聲吟唱爲主，開頭壓抑肅穆，像風雪前的寂靜；隨着人物情緒推進，音樂逐漸增強，但不要蓋過人聲，整體氛圍從孤身赴局到破局立道，莊嚴、悲壯、剋制而高燃。謝長安（青年女聲，音色清冷通透，聲線穩定，略帶壓抑感，後段逐漸堅定高燃）狀態平靜、剋制、像在萬衆注視下立下自己的道一般說道：“滿朝貴人都愛惜己身，那就只能由我這樣一個小人物來動手，我的道，是衆生道，衆生，人人可走。有局必有破局之法，與其順應而行，不如絕地求生，說不定柳暗花明，就在意想不到的第三條路。”

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

一開始我寫青年女聲，清冷通透，結果聲音偏軟，仙氣有了，壓迫感不夠。後來我把提示詞改成青年女中音、不要甜美、不要軟萌、不要少女感，效果就很接近大女主了。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0.m4a

同步生成的背景音樂也很有氣勢，和人物聲音、情緒很貼合。

多角色配音

我們上傳一段雙人相聲，設置了2個差異比較大的角色：

背景音樂極輕，以小劇場開場鑼鼓和短促三絃點綴爲主，開頭有輕微觀衆環境聲，整體氛圍熱鬧、輕鬆、接地氣。笑聲可以少量出現，但不要頻繁，不要蓋住對白，人聲必須清晰靠前。

女逗哏（青年女聲，聲音明亮清脆，語速快，嘴皮子利索，帶一點京味兒和俏皮感，情緒外放但不尖銳）狀態興奮、得意，像發現新工具一樣說道：“我跟你說，現在 AI 配音可厲害了，我把稿子一輸進去，它直接給我說出來。”

男捧哏（中年男聲，聲音低沉厚實，語速慢半拍，語氣穩，帶一點冷幽默和懷疑感）狀態淡定、質疑地接話說道：“這有什麼新鮮的？以前也能說。”

女逗哏（青年女聲，語氣抬高，誇張但可愛）說道：“以前那叫說嗎？以前那叫電梯播報。”

男捧哏（中年男聲，慢半拍，認真接梗）說道：“還挺有紀律。”

女逗哏（青年女聲，快速接住，帶笑）說道：“紀律是有了，感情是一點沒有。”

男捧哏（中年男聲，低聲笑一下）說道：“主打一個衆生平等。”

女逗哏（青年女聲，繼續興奮，語速快）說道：“現在不一樣了。你讓它說兒童故事，它能溫柔；你讓它說懸疑短劇，它能壓低聲音；你讓它說大女主，它還能帶點破局的勁兒。”

男捧哏（中年男聲，故意懷疑）說道：“那讓它說相聲呢？”

女逗哏（青年女聲，停頓一下，認真）說道：“這不正說着呢嗎？”

男捧哏（中年男聲，慢半拍，突然反應過來）說道：“合着我也被生成了？”

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-01.m4a

兩人對話實測下來，雙人對話的自然度比普通 TTS 好很多。

女逗哏的節奏更快，情緒轉換非常自然，男捧哏的反應更慢，每個音色都很有特點，音色一致性也保持的很棒。

重點是豆包音頻生成模型1.0 還直接生成了相聲表演現場的觀衆笑聲，非常自然。

一句話就能感受到身臨其境的場景，AI 配音的效率提升可見一斑。

有聲書長文本

複雜的有聲書，往往需要多角色、多環境聲的配合。我們嘗試了一段複雜的古風懸疑羣像：

背景音樂輕微鋪底，以低沉絃樂、遠處鼓聲和冷調古琴爲主，整體氛圍肅殺、冷冽、壓抑，帶古風權謀感。第一章宮門與朝堂場景，音樂莊嚴緊繃，像風雪壓城；第二章偏殿密談場景，音樂更低、更暗，增加輕微懸疑感。環境音包括風雪聲、宮門開啓聲、衣料摩擦聲、殿內燈芯爆響、遠處禁軍腳步聲。人聲必須清晰靠前，音樂和環境音不要蓋過對白。旁白（成年女聲，低沉沉穩，敘事感強，語速中等偏慢，聲音有畫面感和懸疑感，不要播音腔）狀態冷靜、剋制，像在講述一場風雪夜裏的朝堂殺局。沈照雪（青年女中音，聲線冷冽、穩定、偏低，有胸腔支撐，咬字清晰，尾音乾淨，不要甜美、不要軟萌、不要少女感）狀態隱忍、冷靜、鋒利，前期壓着怒意，後期逐漸顯露破局的決絕和掌控感。蕭承（青年男聲，低沉清冷，語速不快，聲音剋制，帶東宮太子的疏離感和試探感）狀態謹慎、沉穩、壓抑，像多年蟄伏的人在試探一把可能傷人的刀。裴敬之（中老年男聲，低沉薄冷，語速慢，咬字穩，帶權臣的壓迫感和審視感）狀態從容、傲慢、危險，像習慣了掌控朝局的人第一次遇到失控變量。小皇帝（少年男聲，聲音偏稚嫩但努力端正，語氣有緊張和不安）狀態被朝局壓住，既想問真相，又害怕真相。周侍郎（中年男聲，聲音略虛，語速先穩後亂）狀態心虛、驚慌、強撐鎮定。禁軍/守將（成年男聲，聲音低沉短促，語氣服從、緊張）狀態肅穆、戒備。小太監（少年男聲，聲音發抖，氣息不穩）狀態恐懼、崩潰、求生。沈照雪進京那日，北境的訃告比她先到。訃告上寫得明白：鎮北軍糧道使沈照雪，押送軍糧途中遇匪，連人帶車墜入黑峽，屍骨無存。可黃昏時分，她披着一件洗得發白的狐裘，牽着一匹瘦馬，站在了朱雀門外。守門的禁軍看見她腰間那枚半裂的銅雀符，臉色當場變了。銅雀符是先帝賜給鎮北軍的調兵信物，一半在北境，一半在御案。天下人都知道，北境那半枚，十年前隨沈家滿門入獄後便失蹤了。沈照雪抬手，把銅雀符放在守將掌心。“煩請通傳。”她說，“死人回京，想見一見活着的諸公。”風雪灌進宮門，守將的手一抖。半個時辰後，太極殿燈火盡燃。殿中站滿了人。左相裴敬之披着紫袍，手裏的象牙笏板壓在袖中。他年過五旬，眼皮很薄，抬眼看人時，總像在看一頁將要燒掉的紙。太子蕭承坐在御階下首，指尖緩慢摩挲茶盞。他身旁的小皇帝只有十二歲，肩上的龍袍寬得像借來的。沈照雪跪在殿中，雪水從衣角滴到青磚上。裴敬之先開口。“沈氏罪女，既未死，何不先去刑部投案？”沈照雪抬起頭。她臉色很白，眼神卻穩。“臣女若先去刑部，今晚諸位大人就聽不見北境的消息了。”殿上有人冷笑。“你一個罪臣之後，能帶什麼消息？”沈照雪從袖中取出一卷油布，雙手呈上。“十七萬石軍糧，三個月前出了洛倉，賬上寫着已入北境。可鎮北軍收到的，只有五萬石。”殿中一靜。裴敬之沒有動。太子蕭承卻輕輕放下茶盞。“繼續說。”沈照雪道：“缺的十二萬石，換成白銀，足夠養三萬私兵一年。”有人當場斥道：“放肆！你可知自己在說什麼？”“知道。”沈照雪看向那人，“戶部右侍郎周大人，您批的出倉文書，印泥裏摻了硃砂。臣女從黑峽撿回來的半截糧牌上，正好也有這個印。”周侍郎臉上的血色褪得乾乾淨淨。裴敬之終於抬眼。“沈姑娘墜崖未死，倒是長了一張利口。”沈照雪笑了笑。“墜崖前，臣女也不愛說話。”殿外風聲更重。小皇帝攥緊龍椅扶手，小聲問：“那糧呢？”這句話落下，滿殿官員都低了頭。沈照雪看着那個少年皇帝。“糧沒了。”她頓了頓。“北境也快沒了。”太子蕭承的眼神沉下去。“鎮北軍如何？”“七日前，羌戎破了霜河口。鎮北軍退守沉沙城，城中只餘兩日糧。”小皇帝站了起來。“爲何無人奏報？”沈照雪沒有立刻答。她從懷中拿出第二樣東西。一支斷箭。箭桿上纏着半截紅布，紅布已經被血浸成黑色。“因爲送奏報的人，死在入京前三十里。”她把斷箭放到地上。“這是第六個。”殿中無人再笑。太子蕭承緩緩起身，走下御階。他停在沈照雪三步外，視線落在她肩頭那片未融的雪上。“你想要什麼？”“開倉。”“只要開倉？”“還要一隊禁軍，護我去洛倉提糧。”裴敬之終於笑了一聲。“你要兵？”沈照雪看向他。“裴相說錯了，我要的是路。”裴敬之的笑意淡了。“洛倉在京畿，守倉兵馬皆歸戶部調度。一個罪臣之女，憑什麼開倉？”沈照雪將手伸進袖中。禁軍齊齊按刀。她取出的卻是一封血書。血書上的字已經糊了大半，只剩最後一行仍看得清楚。臣沈懷山，願以滿門性命，換北境三年無戰。沈懷山是她父親。十年前，他被定爲私通羌戎，滿門下獄。沈照雪那年十五歲，跪在刑部門口三日，沒人敢給她一口水。如今那封從未送到御前的血書，躺在殿上，像一塊遲來的骨頭。小皇帝臉色發白。裴敬之的手指在袖中動了一下。沈照雪看見了。她俯身叩首，聲音不高，卻壓過了殿外風雪。“臣女憑沈家十年前沒能送到的一封奏疏，憑北境七萬將士的命，憑沉沙城中尚未斷氣的百姓。”她抬起頭。“若仍不夠，臣女願立軍令狀。”蕭承問：“幾日？”“三日。”“若糧不到沉沙城？”沈照雪看着他，一字一句道：“我死在城門前。”殿上安靜得能聽見燈芯爆響。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-02.m4a

豆包音頻生成模型1.0 會自動識別有聲書內容，比如文本中風雪灌進宮門的描寫，自動去推理和匹配適合的音效。

女主聲音冷靜、剋制，大臣聲音慢、帶有壓迫感，旁白、不同的角色聲線都有較高的辨識度。

人聲、環境音和背景音樂的音量比例也相對適中，省去了我們在剪輯軟件裏反覆拉音量條的繁瑣步驟。

不過豆包音頻生成模型1.0 單次最多生成 2 分鐘的音頻。如果要做完整有聲書，需要分段生成。

長文本生成效果一般，部分對話的順序會顛倒，多音字的識別效果不太穩定，需要備註讀音。

AI 短劇配音

我們再試試生活化 AI 短劇。普通 TTS 只能讀台詞，但短劇需要聲音有空間感。

背景音樂輕微鋪底，以溫暖鋼琴、輕柔絃樂和微弱城市環境音爲主，整體氛圍真實、生活化、帶一點溫情和反轉，不要懸疑恐怖。環境音包括咖啡店輕微人聲、杯子碰撞聲、門鈴聲、手機震動聲、雨後街道車輛聲。人聲必須清晰靠前，音樂不要蓋過對白。旁白（成年女聲，音色溫和沉穩，語速中等，帶生活故事敘事感）狀態平靜、細膩，像在講述一件發生在普通人身上的小事。林夏（青年女聲，聲音乾淨清亮，語氣有點疲憊但很剋制）狀態從失落、強撐體面，到後半段慢慢釋然。周硯（青年男聲，音色低沉溫和，語速不快，語氣真誠但有點笨拙）狀態小心、愧疚、努力解釋，不要霸總腔。店員（青年女聲，聲音輕快自然，語氣禮貌）狀態短促出現，生活化。章節內容：《靠窗的位置》旁白：“林夏和周硯約在那家咖啡店，是分手後的第七天。”旁白：“雨剛停，窗外的樹葉還在滴水。林夏坐在靠窗的位置，桌上放着兩杯咖啡。一杯熱的，一杯已經涼了。”店員：“您好，需要幫您換一杯熱的嗎？”林夏：“不用了，謝謝。”旁白：“她說完，看了一眼手機。周硯遲到了二十六分鐘。”旁白：“門口風鈴響起時，林夏已經把那句‘以後別再聯繫了’在心裏排練了三遍。”周硯：“對不起，我來晚了。”林夏：“你一直都很會來晚。”周硯：“今天是真的堵車。”林夏：“上次是加班，上上次是臨時會議。周硯，我不是來聽理由的。”旁白：“周硯站在桌邊，手裏拎着一個紙袋。袋口被雨打溼了一點。”周硯：“我知道。”林夏：“那就坐下，把話說完。”旁白：“他坐到她對面，卻沒有碰那杯已經冷掉的咖啡。”周硯：“你那天說，我從來沒有把你放在第一位。”林夏：“難道不是嗎？”周硯：“是。”旁白：“林夏抬眼看他。這個答案太乾脆，反倒讓她準備好的責備卡在喉嚨裏。”周硯：“我總覺得，先把工作做好，先把房貸攢夠，先把生活穩定下來，我們就會好一點。”林夏：“可我等到的，是你一次又一次缺席。”周硯：“所以我今天不是來求你原諒。”林夏：“那你來幹什麼？”旁白：“周硯把那個紙袋推到她面前。”周硯：“還你東西。”旁白：“林夏打開紙袋。裏面不是她落在他家的圍巾，也不是鑰匙。”旁白：“是一疊車票、電影票根，還有十幾張外賣小票。”林夏：“這是什麼？”周硯：“你說我什麼都不記得。其實我記得，只是沒說。”旁白：“林夏翻到最下面，看見一張已經褪色的便利貼。”旁白：“上面是她兩年前寫的字：如果以後吵架了，就去靠窗的位置和好。”林夏沒有說話。周硯：“我知道，現在說這些有點晚。”林夏：“確實晚。”周硯：“嗯。”旁白：“窗外有車經過，水聲輕輕濺起來。”周硯：“但我想把它們還給你。不是爲了讓你回頭，是想告訴你，那些日子我沒有忘。”林夏：“那你爲什麼不早點說？”周硯：“因爲我一直以爲，做比說重要。”林夏：“後來呢？”周硯：“後來我發現，只做不說，也會讓人覺得自己不重要。”旁白：“林夏低頭看着那張便利貼。紙角已經翹起來，字卻還清楚。”林夏：“周硯，我不想再等一個總是遲到的人了。”周硯：“我知道。”林夏：“但這杯咖啡，我可以陪你喝完。”旁白：“周硯愣了一下，慢慢笑了。”周硯：“它已經涼了。”林夏：“那就換一杯熱的。”旁白：“店員走過來收走冷咖啡。窗外的雲散開一點，陽光落在靠窗的位置上。”結尾音效：杯子輕輕放下，門鈴響起一聲，背景音樂溫柔收束。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-03.m4a

人物的對白非常自然，能夠讓人感受到情緒的流動。雨聲、卡片翻動的聲音都在幫我們建立畫面。

聲音不再是視頻做完後最後貼上去的配件，而是可以從腳本階段就參與創作。

復刻聲音

豆包音頻生成模型1.0 目前單次最多生成 2 分鐘的音頻。如果我們要創作長音頻，或者做續集，怎麼保證聲音不串戲呢？

我們可以上傳參考音頻，或者將歷史生成的音頻作爲參考音頻，單次最多支持3條，在提示詞裏指定某個角色使用某種音色。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

比如，我們嘗試復刻一下豆包的聲線：

音樂開頭由輕快爵士鼓點、短促貝斯和幾下俏皮鋼琴進入，背景有小劇場觀衆低聲聊天、杯子輕碰、零星笑聲。整體氛圍鬆弛、熱鬧、都市夜場脫口秀感。演員開口後音樂迅速降低，只保留極輕的貝斯律動。觀衆笑聲、起鬨聲和掌聲可以自然出現，但不要蓋過人聲。

脫口秀演員（青年女聲，普通話，音調偏低，聲音略沙啞，語速中等偏快，吐槽節奏強，有自然停頓和包袱停頓，不要播音腔，扮演者爲）狀態鬆弛、自嘲、像在小劇場和觀衆聊天一樣說道：“我最近發現，AI 最大的影響不是替代工作，是讓我媽終於確認了，我確實沒什麼用。”

觀衆輕笑。

脫口秀演員（認真鋪墊）繼續說道：“以前我媽遇到問題會喊我。手機壞了喊我，電視沒聲音喊我，微信找不到羣喊我。現在不一樣了，她先問 AI。”

停頓半秒。

脫口秀演員（語氣突然低一點）說道：“問完 AI，再喊我。”

觀衆笑。

脫口秀演員（無奈）說道：“她說，AI 給了答案，但她不放心，想讓我確認一下。我說媽，你這是把我從技現音樂開頭由輕快爵士鼓點、短促貝斯和幾下俏皮鋼琴進入，背景有小劇場觀衆低聲聊天、杯子輕碰、零星笑聲。整體氛圍鬆弛、熱鬧、都市夜場脫口秀感。演員開口後音樂迅速降低，只保留極輕的貝斯律動。觀衆笑聲、起鬨聲和掌聲可以自然出現，但不要蓋過人聲。脫口秀演員（青年女聲，普通話，音調偏低，聲音略沙啞，語速中等偏快，吐槽節奏強，有自然停頓和包袱停頓，不要播音腔，扮演者爲 @音頻1 ）狀態鬆弛、自嘲、像在小劇場和觀衆聊天一樣說道：“我最近發現，AI 最大的影響不是替代工作，是讓我媽終於確認了，我確實沒什麼用。”觀衆輕笑。脫口秀演員（認真鋪墊）繼續說道：“以前我媽遇到問題會喊我。手機壞了喊我，電視沒聲音喊我，微信找不到羣喊我。現在不一樣了，她先問 AI。”停頓半秒。脫口秀演員（語氣突然低一點）說道：“問完 AI，再喊我。”觀衆笑。脫口秀演員（無奈）說道：“她說，AI 給了答案，但她不放心，想讓我確認一下。我說媽，你這是把我從技術支持，降級成了人工複覈。”觀衆笑聲增強。脫口秀演員（語速加快）說道：“最可怕的是，她現在會用 AI 寫朋友圈。以前她朋友圈是：今天包餃子。現在是：歲月在麪粉裏沉澱，親情在褶皺中發光。”停頓。脫口秀演員（壓低聲音）說道：“我爸看完問她，今天這餃子是能喫，還是要展覽？”觀衆大笑。脫口秀演員（繼續吐槽）說道：“我媽還特別認真地問我，這樣發會不會太普通。我說不會，挺好的，就是不像你。她說哪裏不像？我說你平時發朋友圈，標點符號都不放，突然親情在褶皺中發光，親戚會以爲你被麪粉奪舍了。”觀衆笑。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-04.m4a

生成的音色與參考音色有較高的相似度，並且保留了脫口秀所需的自嘲與鬆弛感，包袱點的停頓和觀衆笑聲的穿插非常自然。

豆包音頻生成模型1.0 不僅能克隆音色，還能代入更多的情緒，更像是用音色在完成一場表演。