京东开源JoyAI-Echo长音视频生成框架,宣称进入全球第一梯队
创始人
2026-06-04 00:53:05
0

6月3日,京东宣布开源JoyAI-Echo长音视频生成框架。该框架聚焦AI长视频生成的核心瓶颈——分钟级视频生成中角色形象难以稳定一致、音色变化难以控制、生成速度过慢三大行业痛点,以四大技术创新实现了长视频生成“又快又好”。

JoyAI-Echo最关键的突破在于内置了一个跨模态音视频记忆库,能在多镜头生成过程中持续保存并调用角色的外观特征和说话人音色信息,在长达5分钟的视频里保持角色身份、视觉形象和声音音色的高度一致。同时,框架创新采用记忆驱动后训练流程,结合SFT、跨模态RLHF和Distribution Matching Distillation等技术,其中DMD技术即带来约7.5倍的推理速度提升。此外,JoyAI-Echo还引入了智能“导演助理”Director Agent,支持用自然语言对话式编辑视频——用户只需说明修改意图,系统只重新生成有问题的局部镜头,无需重跑整条视频,实现了从“静态一次性生成”到“动态协作”的创作模式升级。框架还配套了轻量化实时超分模块,支持两档分辨率提升,即使在流式延迟约束下也能保持稳定的高清输出。

在性能评测方面,研发团队基于100个故事、3000个镜头构建了长音视频生成评测集。测试结果显示,JoyAI-Echo在所有核心指标上均取得领先表现,其中语音内容准确率高达0.8646,大幅领先其他同类模型。在与行业同类模型的对比中,用户对其音频质量的偏好比例为81.7%,提示词遵循偏好为80.6%,视觉美学偏好为63.6%。据智通财经报道,该框架的推出标志着京东在长视频生成领域进入全球第一梯队。JoyAI-Echo的代码与权重已全部开源,可广泛应用于数字人直播、品牌营销视频快速生成、教育内容和游戏内容生产等场景。

相关内容

热门资讯

5月新能源车市回暖:零售销量环... 今日,乘联分会发布的最新数据显示,5月份全国乘用车新能源市场零售量为97.4万辆,相较于去年同期下降...
鸿蒙智行尚界H5焕新升级款亮相... 6月3日,鸿蒙智行尚界汽车官方宣布尚界H5焕新升级款开启预售,预售价16.98万元起。新车在2026...
广汽集团5月销量逆势增长,新能... 6月3日消息,广汽集团发布最新产销数据。2026年5月,广汽集团汽车产量为122,675辆,同比下降...
享界硬派方盒子SUV曝光:华为... 今日,享界品牌的方盒子SUV路试车被曝光,新车采用了方正硬朗的外观设计,并拥有全新造型的大灯,摆脱了...
豆包将推针对专业人群的专业版,... 6月3日,豆包通过其官方公众号宣布即将推出针对专业人群的豆包专业版。该版本将涵盖软件开发、数据分析、...
摩根士丹利开放AI智能体财富管... 6月3日,摩根士丹利宣布将向数千家公司的AI智能体开放其关键财富管理渠道,成为华尔街大型投行中首批向...
京东开源JoyAI-Echo长... 6月3日,京东宣布开源JoyAI-Echo长音视频生成框架。该框架聚焦AI长视频生成的核心瓶颈——分...
全球37国电动车销量创新高,中... 近日,全球37个国家在3月或4月创下电动汽车单月销量纪录。受中东地缘冲突影响,燃油价格大幅上涨,导致...
微软发布WebIQ:AI智能体... 6月3日,微软宣布推出Microsoft WebIQ服务,这是一套专为AI智能体设计的搜索API。W...
迈凯伦庆祝1000场F1发车,... 6月2日,迈凯伦车队为纪念其在摩纳哥大奖赛上的第1000场一级方程式大奖赛发车,宣布推出限量版超跑A...