火山引擎发布豆包语音识别2.0:多语种精准识别,图像辅助更智能!
创始人
2025-12-05 16:34:15
0

今日,火山引擎发布了豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),该模型在推理能力上得到显著提升,通过深度理解上下文实现精准识别,上下文关键词召回率提高了20%。豆包2.0支持多模态视觉识别,能够结合视觉信息输入提高文字识别的准确性,并且支持包括日语、韩语、德语、法语在内的13种海外语种的精准识别。

豆包语音识别模型2.0基于Seed混合专家大语言模型架构构建,对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了优化升级。模型通过PPO方案进行强化学习,不依赖目标词汇的历史出现记录,而是通过深度理解上下文完成识别,使语音识别更适应动态变化的真实交互场景。例如,在讨论历史人物生平时,模型能够通过上下文推理锁定特定地名,实现对多音字地名的精准识别。

此外,豆包语音识别模型2.0将上下文理解范围扩展至视觉层面,通过辅助理解单图和多图内容,帮助用户在搜拍或图片创作场景中识别易混淆字词,提升识别准确性。在图片创作场景中,模型能够智能结合当前图像内容进行辨析与纠错,确保图片生成贴合用户预期的画面。目前,豆包语音识别模型2.0已上线火山方舟体验中心,并对外提供API服务。

相关内容

热门资讯

乐道汽车换电网络电池翻倍,春运... 今日,乐道汽车宣布启动全国换电站电池翻倍计划,计划向换电网络增投超过8000块全新电池包,预计在明年...
雷克萨斯LFA概念车震撼回归!... 今日,雷克萨斯宣布LFA概念车正式发布,标志着该品牌传奇超跑系列的回归。新车与丰田GR GT共享全铝...
广州海珠湿地出品!广东上架首款... 2025年是“绿水青山就是金山银山”理念提出20周年。守好绿水青山能够创造持续生态价值的观点,正在逐...
“高冷”经济看发展|鲜行千里!... 青海地处青藏高原,年均气温不到5℃,凭借昼夜温差大、光照足、病虫害少的天然优势,2024年产出70多...
香港大埔火灾综述丨同心同向 共... 香港新界大埔宏福苑火灾已经熄灭一个星期,沉重的社会情绪逐渐云开雾散,生活仍在继续。作为香港社会政治架...
全新展陈持续火爆,在这里遇见更... 近日,孙中山曾孙孙国雄、曾外孙林山立等后裔专程回到中山孙中山故居谒祖,并参观了自今年5月1日起重新向...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
豆包AI助手紧急下线微信操作功... 12月3日,豆包手机助手针对用户反馈的问题发布声明。声明中提到,12月2日有用户报告在使用nubia...
火山引擎发布豆包语音识别2.0... 今日,火山引擎发布了豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),该模型在推理能...
AI教母李飞飞:极端论调误导公... 12月5日,斯坦福大学计算机科学教授、AI领域知名学者李飞飞在一场讲座中提出,当前关于人工智能的讨论...