火山引擎发布豆包语音识别2.0:多语种精准识别,图像辅助更智能!
创始人
2025-12-05 16:34:15
0

今日,火山引擎发布了豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),该模型在推理能力上得到显著提升,通过深度理解上下文实现精准识别,上下文关键词召回率提高了20%。豆包2.0支持多模态视觉识别,能够结合视觉信息输入提高文字识别的准确性,并且支持包括日语、韩语、德语、法语在内的13种海外语种的精准识别。

豆包语音识别模型2.0基于Seed混合专家大语言模型架构构建,对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了优化升级。模型通过PPO方案进行强化学习,不依赖目标词汇的历史出现记录,而是通过深度理解上下文完成识别,使语音识别更适应动态变化的真实交互场景。例如,在讨论历史人物生平时,模型能够通过上下文推理锁定特定地名,实现对多音字地名的精准识别。

此外,豆包语音识别模型2.0将上下文理解范围扩展至视觉层面,通过辅助理解单图和多图内容,帮助用户在搜拍或图片创作场景中识别易混淆字词,提升识别准确性。在图片创作场景中,模型能够智能结合当前图像内容进行辨析与纠错,确保图片生成贴合用户预期的画面。目前,豆包语音识别模型2.0已上线火山方舟体验中心,并对外提供API服务。

相关内容

热门资讯

赛力斯动力携手一汽铸锻,开创“... 5月10日,赛力斯集团执行董事、副总裁康波在重庆广电第一眼的采访中分享了赛力斯动力工厂的最新进展。康...
中国汽车零部件崛起:美市场超4... 近日,中国汽车产业在全球市场的影响力显著提升,中国车企已跃居全球销量冠军。专家西蒙指出,海外车企和零...
宝马2027年推中国特供长轴距... 近日,北京国际车展上宝马品牌多款新车重磅首发,其中三款全新车型成为焦点。宝马7系/i7改款车型即将登...
粤菜,分轮点菜吃更爽 | 茶楼... 朋友聚会时点菜,你会不会把菜一股脑点完,就赶紧进入开吃、聊天环节?其实,如果一大帮人聚餐,把要吃的完...
今晚11时起,广州荔湾蓬莱路部... 为确保车行道路面沥青刨铺工程以及标注交通标线顺利推进,经有关部门批准,广东省第一建筑工程有限公司将对...
晚霞落“镜”中 稻乡入画来 晚霞映照下的富锦市万亩水稻公园(5月9日摄,无人机照片)。时下,黑龙江省三江平原陆续进入水稻插秧时节...
蓝厅观察丨自卫队右倾化 日本恐... 2026年美菲“肩并肩”联合军事演习自4月20日起在菲律宾多地举行。这场演习从一开始就引发了菲律宾民...
单月出口表现强劲 中国外贸延续... 海关总署5月9日发布数据,今年前4个月,我国货物贸易进出口总值16.23万亿元,同比增长14.9%,...
金观平:理解把握好“更大力度”... 近期召开的中央政治局会议,在分析研究当前经济形势和经济工作时,明确提出“要增强信心,以更大力度和更实...
国产咖啡有“咖位”(经济新方位... 图为李金合在咖啡园采摘咖啡果。  杨 磊摄(人民视觉)“一、二、三,开始!”咖啡师李金合打开喷枪,加...