6月24日,火山引擎宣布推出豆包音频生成模型1.0(Doubao-Seed-Audio1.0),这是一款创新的音频生成工具,能够将文本或音频作为输入,端到端生成目标音频。该模型特别适用于长时音频生成场景,能够保持多角色音色的一致性,减少后期修音工作量。用户可以在单条Prompt中编排角色对白、情绪语气、背景音乐和环境氛围,直接产出具有叙事张力的完整音频作品,颠覆了传统的音频制作流程。
豆包音频生成模型1.0支持影视级音频创作,通过全要素生成技术,告别了人工剪辑。它能够在单条指令中定义多个角色的台词、语气和情绪节奏,并保持声音一致性。此外,模型还能精准还原笑声、叹息、停顿和方言口音等非语言表达细节,以及将背景音乐、环境音效与人声统一生成,无需额外混编,输出即成品。
目前,豆包音频生成模型1.0支持2分钟的音频创作,并能通过参考输入延长音频,保持音色的高度一致性。模型还支持0样本多模态音频创造,无需额外训练即可生成高质量目标音频。创作者可以通过文本prompt定义角色音色与表达风格,或结合参考音频快速生成贴合需求的声音效果,降低声音创作的门槛。火山方舟已开启豆包音频生成模型1.0 API邀测,个人用户可以在火山方舟体验中心直接体验,享有30分钟的创作额度。面向音频创作者,该模型也即将上线剪映、即梦、番茄等产品。
