今日,火山引擎发布了豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),该模型在推理能力上得到显著提升,通过深度理解上下文实现精准识别,上下文关键词召回率提高了20%。豆包2.0支持多模态视觉识别,能够结合视觉信息输入提高文字识别的准确性,并且支持包括日语、韩语、德语、法语在内的13种海外语种的精准识别。
豆包语音识别模型2.0基于Seed混合专家大语言模型架构构建,对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了优化升级。模型通过PPO方案进行强化学习,不依赖目标词汇的历史出现记录,而是通过深度理解上下文完成识别,使语音识别更适应动态变化的真实交互场景。例如,在讨论历史人物生平时,模型能够通过上下文推理锁定特定地名,实现对多音字地名的精准识别。
此外,豆包语音识别模型2.0将上下文理解范围扩展至视觉层面,通过辅助理解单图和多图内容,帮助用户在搜拍或图片创作场景中识别易混淆字词,提升识别准确性。在图片创作场景中,模型能够智能结合当前图像内容进行辨析与纠错,确保图片生成贴合用户预期的画面。目前,豆包语音识别模型2.0已上线火山方舟体验中心,并对外提供API服务。


