2月11日,蚂蚁集团宣布开源发布全模态大模型Ming-Flash-Omni2.0,该模型在视觉语言理解、语音可控生成、图像生成与编辑等多个领域表现出色。Ming-Flash-Omni2.0是业界首个全场景音频统一生成模型,能够在同一音轨中同时生成语音、环境音效与音乐,用户可以通过自然语言指令精细控制音色、语速、语调、音量、情绪与方言等参数。模型在推理阶段实现了3.1Hz的极低推理帧率,支持分钟级长音频的实时高保真生成,保持了业界领先的推理效率与成本控制。
Ming-Flash-Omni2.0基于Ling-2.0架构(MoE,100B-A6B)训练,全面优化了“看得更准、听得更细、生成更稳”三大目标。在视觉方面,模型融合了亿级细粒度数据与难例训练策略,显著提升了对复杂对象的识别能力;音频方面,实现了语音、音效、音乐同轨生成,并支持自然语言精细控制;图像方面,增强了复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能。百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用,开源后,开发者可以基于同一套框架复用视觉、语音与生成能力,降低多模型串联的复杂度与成本。
Ming-Flash-Omni2.0的模型权重、推理代码已在HuggingFace等开源社区发布,用户也可通过蚂蚁百灵官方平台LingStudio在线体验与调用。
