豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

AI教程1天前發佈新公告 AI管理員
0 0

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

你可能也在煩惱:用 AI 生成大片,畫面質感已經很到位了,可角色一開口,瞬間讓人出戏。

畫面裏明明在經歷生死關頭,配音聽起來卻像在四平八穩地念產品說明書;好不容易有點情緒起伏,也全靠生硬的大喊大叫…更難受的是,不同的片段裏角色的音色完全不一樣,很難保持音色一致性。

更別說後面還需要自己添加環境音、音效、背景音樂,對口型…非常折騰。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

前不久的火山引擎 FORCE 原動力大會上,字節正式發佈了豆包音頻生成模型 1.0,豐富且有情緒的聲音素材也能端到端生成了。

我們輸入一段提示詞,豆包音頻生成模型1.0 就能把人聲、音效、配樂、場景聲一次性打包生成。不僅省去了繁瑣的多軌混剪,還能模擬出真人說話時細微的呼吸和情緒變化,讓 AI 聲音聽起來更自然、更有人味兒

在真實創作中表現怎麼樣呢?今天我們一起實測看看。

 

01. 多場景下的 AI 聲音魔法

 

我們打開火山方舟體驗中心,選擇豆包音頻生成模型1.0,普通用戶有 30 分鐘的免費體驗額度,後續可通過 API 調用。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

我們輸入效果提示詞和合成文本,點擊生成就可以得到一段包含人聲和環境音的完整聲音片段。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

單人配音

我試着生成了一段小說人物獨白。

背景音樂輕微鋪底,以低沉絃樂、遠處鼓聲和空靈女聲吟唱爲主,開頭壓抑肅穆,像風雪前的寂靜;隨着人物情緒推進,音樂逐漸增強,但不要蓋過人聲,整體氛圍從孤身赴局到破局立道,莊嚴、悲壯、剋制而高燃。謝長安(青年女聲,音色清冷通透,聲線穩定,略帶壓抑感,後段逐漸堅定高燃)狀態平靜、剋制、像在萬衆注視下立下自己的道一般說道:“滿朝貴人都愛惜己身,那就只能由我這樣一個小人物來動手,我的道,是衆生道,衆生,人人可走。有局必有破局之法,與其順應而行,不如絕地求生,說不定柳暗花明,就在意想不到的第三條路。”

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

一開始我寫青年女聲,清冷通透,結果聲音偏軟,仙氣有了,壓迫感不夠。後來我把提示詞改成青年女中音、不要甜美、不要軟萌、不要少女感,效果就很接近大女主了。


https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0.m4a

同步生成的背景音樂也很有氣勢,和人物聲音、情緒很貼合。

多角色配音

我們上傳一段雙人相聲,設置了2個差異比較大的角色:

背景音樂極輕,以小劇場開場鑼鼓和短促三絃點綴爲主,開頭有輕微觀衆環境聲,整體氛圍熱鬧、輕鬆、接地氣。笑聲可以少量出現,但不要頻繁,不要蓋住對白,人聲必須清晰靠前。

女逗哏(青年女聲,聲音明亮清脆,語速快,嘴皮子利索,帶一點京味兒和俏皮感,情緒外放但不尖銳)狀態興奮、得意,像發現新工具一樣說道:“我跟你說,現在 AI 配音可厲害了,我把稿子一輸進去,它直接給我說出來。”

男捧哏(中年男聲,聲音低沉厚實,語速慢半拍,語氣穩,帶一點冷幽默和懷疑感)狀態淡定、質疑地接話說道:“這有什麼新鮮的?以前也能說。”

女逗哏(青年女聲,語氣抬高,誇張但可愛)說道:“以前那叫說嗎?以前那叫電梯播報。”

男捧哏(中年男聲,慢半拍,認真接梗)說道:“還挺有紀律。”

女逗哏(青年女聲,快速接住,帶笑)說道:“紀律是有了,感情是一點沒有。”

男捧哏(中年男聲,低聲笑一下)說道:“主打一個衆生平等。”

女逗哏(青年女聲,繼續興奮,語速快)說道:“現在不一樣了。你讓它說兒童故事,它能溫柔;你讓它說懸疑短劇,它能壓低聲音;你讓它說大女主,它還能帶點破局的勁兒。”

男捧哏(中年男聲,故意懷疑)說道:“那讓它說相聲呢?”

女逗哏(青年女聲,停頓一下,認真)說道:“這不正說着呢嗎?”

男捧哏(中年男聲,慢半拍,突然反應過來)說道:“合着我也被生成了?”

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-01.m4a

兩人對話實測下來,雙人對話的自然度比普通 TTS 好很多。

女逗哏的節奏更快,情緒轉換非常自然,男捧哏的反應更慢,每個音色都很有特點,音色一致性也保持的很棒。

重點是豆包音頻生成模型1.0 還直接生成了相聲表演現場的觀衆笑聲,非常自然。

一句話就能感受到身臨其境的場景,AI 配音的效率提升可見一斑。

有聲書長文本

複雜的有聲書,往往需要多角色、多環境聲的配合。我們嘗試了一段複雜的古風懸疑羣像:

背景音樂輕微鋪底,以低沉絃樂、遠處鼓聲和冷調古琴爲主,整體氛圍肅殺、冷冽、壓抑,帶古風權謀感。第一章宮門與朝堂場景,音樂莊嚴緊繃,像風雪壓城;第二章偏殿密談場景,音樂更低、更暗,增加輕微懸疑感。環境音包括風雪聲、宮門開啓聲、衣料摩擦聲、殿內燈芯爆響、遠處禁軍腳步聲。人聲必須清晰靠前,音樂和環境音不要蓋過對白。旁白(成年女聲,低沉沉穩,敘事感強,語速中等偏慢,聲音有畫面感和懸疑感,不要播音腔)狀態冷靜、剋制,像在講述一場風雪夜裏的朝堂殺局。沈照雪(青年女中音,聲線冷冽、穩定、偏低,有胸腔支撐,咬字清晰,尾音乾淨,不要甜美、不要軟萌、不要少女感)狀態隱忍、冷靜、鋒利,前期壓着怒意,後期逐漸顯露破局的決絕和掌控感。蕭承(青年男聲,低沉清冷,語速不快,聲音剋制,帶東宮太子的疏離感和試探感)狀態謹慎、沉穩、壓抑,像多年蟄伏的人在試探一把可能傷人的刀。裴敬之(中老年男聲,低沉薄冷,語速慢,咬字穩,帶權臣的壓迫感和審視感)狀態從容、傲慢、危險,像習慣了掌控朝局的人第一次遇到失控變量。小皇帝(少年男聲,聲音偏稚嫩但努力端正,語氣有緊張和不安)狀態被朝局壓住,既想問真相,又害怕真相。周侍郎(中年男聲,聲音略虛,語速先穩後亂)狀態心虛、驚慌、強撐鎮定。禁軍/守將(成年男聲,聲音低沉短促,語氣服從、緊張)狀態肅穆、戒備。小太監(少年男聲,聲音發抖,氣息不穩)狀態恐懼、崩潰、求生。 沈照雪進京那日,北境的訃告比她先到。訃告上寫得明白:鎮北軍糧道使沈照雪,押送軍糧途中遇匪,連人帶車墜入黑峽,屍骨無存。可黃昏時分,她披着一件洗得發白的狐裘,牽着一匹瘦馬,站在了朱雀門外。守門的禁軍看見她腰間那枚半裂的銅雀符,臉色當場變了。銅雀符是先帝賜給鎮北軍的調兵信物,一半在北境,一半在御案。天下人都知道,北境那半枚,十年前隨沈家滿門入獄後便失蹤了。沈照雪抬手,把銅雀符放在守將掌心。“煩請通傳。”她說,“死人回京,想見一見活着的諸公。”風雪灌進宮門,守將的手一抖。半個時辰後,太極殿燈火盡燃。殿中站滿了人。左相裴敬之披着紫袍,手裏的象牙笏板壓在袖中。他年過五旬,眼皮很薄,抬眼看人時,總像在看一頁將要燒掉的紙。太子蕭承坐在御階下首,指尖緩慢摩挲茶盞。他身旁的小皇帝只有十二歲,肩上的龍袍寬得像借來的。沈照雪跪在殿中,雪水從衣角滴到青磚上。裴敬之先開口。“沈氏罪女,既未死,何不先去刑部投案?”沈照雪抬起頭。她臉色很白,眼神卻穩。“臣女若先去刑部,今晚諸位大人就聽不見北境的消息了。”殿上有人冷笑。“你一個罪臣之後,能帶什麼消息?”沈照雪從袖中取出一卷油布,雙手呈上。“十七萬石軍糧,三個月前出了洛倉,賬上寫着已入北境。可鎮北軍收到的,只有五萬石。”殿中一靜。裴敬之沒有動。太子蕭承卻輕輕放下茶盞。“繼續說。”沈照雪道:“缺的十二萬石,換成白銀,足夠養三萬私兵一年。”有人當場斥道:“放肆!你可知自己在說什麼?”“知道。”沈照雪看向那人,“戶部右侍郎周大人,您批的出倉文書,印泥裏摻了硃砂。臣女從黑峽撿回來的半截糧牌上,正好也有這個印。”周侍郎臉上的血色褪得乾乾淨淨。裴敬之終於抬眼。“沈姑娘墜崖未死,倒是長了一張利口。”沈照雪笑了笑。“墜崖前,臣女也不愛說話。”殿外風聲更重。小皇帝攥緊龍椅扶手,小聲問:“那糧呢?”這句話落下,滿殿官員都低了頭。沈照雪看着那個少年皇帝。“糧沒了。”她頓了頓。“北境也快沒了。”太子蕭承的眼神沉下去。“鎮北軍如何?”“七日前,羌戎破了霜河口。鎮北軍退守沉沙城,城中只餘兩日糧。”小皇帝站了起來。“爲何無人奏報?”沈照雪沒有立刻答。她從懷中拿出第二樣東西。一支斷箭。箭桿上纏着半截紅布,紅布已經被血浸成黑色。“因爲送奏報的人,死在入京前三十里。”她把斷箭放到地上。“這是第六個。”殿中無人再笑。太子蕭承緩緩起身,走下御階。他停在沈照雪三步外,視線落在她肩頭那片未融的雪上。“你想要什麼?”“開倉。”“只要開倉?”“還要一隊禁軍,護我去洛倉提糧。”裴敬之終於笑了一聲。“你要兵?”沈照雪看向他。“裴相說錯了,我要的是路。”裴敬之的笑意淡了。“洛倉在京畿,守倉兵馬皆歸戶部調度。一個罪臣之女,憑什麼開倉?”沈照雪將手伸進袖中。禁軍齊齊按刀。她取出的卻是一封血書。血書上的字已經糊了大半,只剩最後一行仍看得清楚。臣沈懷山,願以滿門性命,換北境三年無戰。沈懷山是她父親。十年前,他被定爲私通羌戎,滿門下獄。沈照雪那年十五歲,跪在刑部門口三日,沒人敢給她一口水。如今那封從未送到御前的血書,躺在殿上,像一塊遲來的骨頭。小皇帝臉色發白。裴敬之的手指在袖中動了一下。沈照雪看見了。她俯身叩首,聲音不高,卻壓過了殿外風雪。“臣女憑沈家十年前沒能送到的一封奏疏,憑北境七萬將士的命,憑沉沙城中尚未斷氣的百姓。”她抬起頭。“若仍不夠,臣女願立軍令狀。”蕭承問:“幾日?”“三日。”“若糧不到沉沙城?”沈照雪看着他,一字一句道:“我死在城門前。”殿上安靜得能聽見燈芯爆響。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-02.m4a

豆包音頻生成模型1.0 會自動識別有聲書內容,比如文本中風雪灌進宮門的描寫,自動去推理和匹配適合的音效。

女主聲音冷靜、剋制,大臣聲音慢、帶有壓迫感,旁白、不同的角色聲線都有較高的辨識度。

人聲、環境音和背景音樂的音量比例也相對適中,省去了我們在剪輯軟件裏反覆拉音量條的繁瑣步驟。

不過豆包音頻生成模型1.0 單次最多生成 2 分鐘的音頻。如果要做完整有聲書,需要分段生成。

長文本生成效果一般,部分對話的順序會顛倒,多音字的識別效果不太穩定,需要備註讀音。

AI 短劇配音

我們再試試生活化 AI 短劇。普通 TTS 只能讀台詞,但短劇需要聲音有空間感。

背景音樂輕微鋪底,以溫暖鋼琴、輕柔絃樂和微弱城市環境音爲主,整體氛圍真實、生活化、帶一點溫情和反轉,不要懸疑恐怖。環境音包括咖啡店輕微人聲、杯子碰撞聲、門鈴聲、手機震動聲、雨後街道車輛聲。人聲必須清晰靠前,音樂不要蓋過對白。旁白(成年女聲,音色溫和沉穩,語速中等,帶生活故事敘事感)狀態平靜、細膩,像在講述一件發生在普通人身上的小事。林夏(青年女聲,聲音乾淨清亮,語氣有點疲憊但很剋制)狀態從失落、強撐體面,到後半段慢慢釋然。周硯(青年男聲,音色低沉溫和,語速不快,語氣真誠但有點笨拙)狀態小心、愧疚、努力解釋,不要霸總腔。店員(青年女聲,聲音輕快自然,語氣禮貌)狀態短促出現,生活化。章節內容:《靠窗的位置》旁白:“林夏和周硯約在那家咖啡店,是分手後的第七天。”旁白:“雨剛停,窗外的樹葉還在滴水。林夏坐在靠窗的位置,桌上放着兩杯咖啡。一杯熱的,一杯已經涼了。”店員:“您好,需要幫您換一杯熱的嗎?”林夏:“不用了,謝謝。”旁白:“她說完,看了一眼手機。周硯遲到了二十六分鐘。”旁白:“門口風鈴響起時,林夏已經把那句‘以後別再聯繫了’在心裏排練了三遍。”周硯:“對不起,我來晚了。”林夏:“你一直都很會來晚。”周硯:“今天是真的堵車。”林夏:“上次是加班,上上次是臨時會議。周硯,我不是來聽理由的。”旁白:“周硯站在桌邊,手裏拎着一個紙袋。袋口被雨打溼了一點。”周硯:“我知道。”林夏:“那就坐下,把話說完。”旁白:“他坐到她對面,卻沒有碰那杯已經冷掉的咖啡。”周硯:“你那天說,我從來沒有把你放在第一位。”林夏:“難道不是嗎?”周硯:“是。”旁白:“林夏抬眼看他。這個答案太乾脆,反倒讓她準備好的責備卡在喉嚨裏。”周硯:“我總覺得,先把工作做好,先把房貸攢夠,先把生活穩定下來,我們就會好一點。”林夏:“可我等到的,是你一次又一次缺席。”周硯:“所以我今天不是來求你原諒。”林夏:“那你來幹什麼?”旁白:“周硯把那個紙袋推到她面前。”周硯:“還你東西。”旁白:“林夏打開紙袋。裏面不是她落在他家的圍巾,也不是鑰匙。”旁白:“是一疊車票、電影票根,還有十幾張外賣小票。”林夏:“這是什麼?”周硯:“你說我什麼都不記得。其實我記得,只是沒說。”旁白:“林夏翻到最下面,看見一張已經褪色的便利貼。”旁白:“上面是她兩年前寫的字:如果以後吵架了,就去靠窗的位置和好。”林夏沒有說話。周硯:“我知道,現在說這些有點晚。”林夏:“確實晚。”周硯:“嗯。”旁白:“窗外有車經過,水聲輕輕濺起來。”周硯:“但我想把它們還給你。不是爲了讓你回頭,是想告訴你,那些日子我沒有忘。”林夏:“那你爲什麼不早點說?”周硯:“因爲我一直以爲,做比說重要。”林夏:“後來呢?”周硯:“後來我發現,只做不說,也會讓人覺得自己不重要。”旁白:“林夏低頭看着那張便利貼。紙角已經翹起來,字卻還清楚。”林夏:“周硯,我不想再等一個總是遲到的人了。”周硯:“我知道。”林夏:“但這杯咖啡,我可以陪你喝完。”旁白:“周硯愣了一下,慢慢笑了。”周硯:“它已經涼了。”林夏:“那就換一杯熱的。”旁白:“店員走過來收走冷咖啡。窗外的雲散開一點,陽光落在靠窗的位置上。”結尾音效:杯子輕輕放下,門鈴響起一聲,背景音樂溫柔收束。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-03.m4a

人物的對白非常自然,能夠讓人感受到情緒的流動。雨聲、卡片翻動的聲音都在幫我們建立畫面。

聲音不再是視頻做完後最後貼上去的配件,而是可以從腳本階段就參與創作。

復刻聲音

豆包音頻生成模型1.0 目前單次最多生成 2 分鐘的音頻。如果我們要創作長音頻,或者做續集,怎麼保證聲音不串戲呢?

我們可以上傳參考音頻,或者將歷史生成的音頻作爲參考音頻,單次最多支持3條,在提示詞裏指定某個角色使用某種音色。

豆包音頻生成模型1.0實測 – 多角色配音、有聲書一鍵生成

比如,我們嘗試復刻一下豆包的聲線:

音樂開頭由輕快爵士鼓點、短促貝斯和幾下俏皮鋼琴進入,背景有小劇場觀衆低聲聊天、杯子輕碰、零星笑聲。整體氛圍鬆弛、熱鬧、都市夜場脫口秀感。演員開口後音樂迅速降低,只保留極輕的貝斯律動。觀衆笑聲、起鬨聲和掌聲可以自然出現,但不要蓋過人聲。

脫口秀演員(青年女聲,普通話,音調偏低,聲音略沙啞,語速中等偏快,吐槽節奏強,有自然停頓和包袱停頓,不要播音腔,扮演者爲)狀態鬆弛、自嘲、像在小劇場和觀衆聊天一樣說道:“我最近發現,AI 最大的影響不是替代工作,是讓我媽終於確認了,我確實沒什麼用。”

觀衆輕笑。

脫口秀演員(認真鋪墊)繼續說道:“以前我媽遇到問題會喊我。手機壞了喊我,電視沒聲音喊我,微信找不到羣喊我。現在不一樣了,她先問 AI。”

停頓半秒。

脫口秀演員(語氣突然低一點)說道:“問完 AI,再喊我。”

觀衆笑。

脫口秀演員(無奈)說道:“她說,AI 給了答案,但她不放心,想讓我確認一下。我說媽,你這是把我從技現音樂開頭由輕快爵士鼓點、短促貝斯和幾下俏皮鋼琴進入,背景有小劇場觀衆低聲聊天、杯子輕碰、零星笑聲。整體氛圍鬆弛、熱鬧、都市夜場脫口秀感。演員開口後音樂迅速降低,只保留極輕的貝斯律動。觀衆笑聲、起鬨聲和掌聲可以自然出現,但不要蓋過人聲。脫口秀演員(青年女聲,普通話,音調偏低,聲音略沙啞,語速中等偏快,吐槽節奏強,有自然停頓和包袱停頓,不要播音腔,扮演者爲 @音頻1 )狀態鬆弛、自嘲、像在小劇場和觀衆聊天一樣說道:“我最近發現,AI 最大的影響不是替代工作,是讓我媽終於確認了,我確實沒什麼用。”觀衆輕笑。脫口秀演員(認真鋪墊)繼續說道:“以前我媽遇到問題會喊我。手機壞了喊我,電視沒聲音喊我,微信找不到羣喊我。現在不一樣了,她先問 AI。”停頓半秒。脫口秀演員(語氣突然低一點)說道:“問完 AI,再喊我。”觀衆笑。脫口秀演員(無奈)說道:“她說,AI 給了答案,但她不放心,想讓我確認一下。我說媽,你這是把我從技術支持,降級成了人工複覈。”觀衆笑聲增強。脫口秀演員(語速加快)說道:“最可怕的是,她現在會用 AI 寫朋友圈。以前她朋友圈是:今天包餃子。現在是:歲月在麪粉裏沉澱,親情在褶皺中發光。”停頓。脫口秀演員(壓低聲音)說道:“我爸看完問她,今天這餃子是能喫,還是要展覽?”觀衆大笑。脫口秀演員(繼續吐槽)說道:“我媽還特別認真地問我,這樣發會不會太普通。我說不會,挺好的,就是不像你。她說哪裏不像?我說你平時發朋友圈,標點符號都不放,突然親情在褶皺中發光,親戚會以爲你被麪粉奪舍了。”觀衆笑。

https://ai-bot.cn/wp-content/uploads/2026/07/doubao-seed-audio-1.0-04.m4a

生成的音色與參考音色有較高的相似度,並且保留了脫口秀所需的自嘲與鬆弛感,包袱點的停頓和觀衆笑聲的穿插非常自然。

豆包音頻生成模型1.0 不僅能克隆音色,還能代入更多的情緒,更像是用音色在完成一場表演。

 

02. 一些分享

 

以前的 AI 配音,我們只是把文字餵給它;現在,我們需要在提示詞裏像導演一樣給角色講戲——寫清楚角色年齡、音色特徵、當下的情緒、動作氣口以及背景裏該有什麼動靜。給出的細節越具象,生成的效果往往越貼近預期。

以往配音、配樂、找音效、對齊混音的繁瑣工作流,現在可以通過一個合理的 Prompt 快速跑出第一版完整小樣,效率提升顯而易見。短劇、廣告、課程、虛擬 IP 的生產速度會明顯變快。

目前,火山方舟體驗中心已經開放了豆包音頻生成模型1.0 的體驗,普通用戶可以獲得 30 分鐘的免費體驗額度。未來還將接入剪映、番茄小說等日常工具,普通人做音頻內容的門檻會繼續下降。

如果說過去 AI 配音解決的是有沒有聲音,那豆包語音模型1.0 開始解決的是聲音有沒有戲的問題。

當然,作爲 1.0 版本,豆包音頻生成模型1.0 在一些較爲複雜的物理聲場變化、多音、重音細節上,依然有可以雕琢和優化的空間。但豆包語音模型1.0 展現出的端到端生成潛力,已經讓我們看到了音頻生產力變革的雛形。

當圖像、視頻、文案和音頻的 AI 工具鏈變得越來越完整,AI 配音也會成爲提升內容體驗的關鍵一環。

原文鏈接:聲音從“能聽”到“有戲”,AI 配音這次真的進步了

© 版權聲明

相關文章

暫無評論

暫無評論...