3月19日,小米公司宣布推出三款大模型——MiMo-V2-Pro、Omni和TTS,这些模型已在多个平台上线,并提供限时免费体验一周的服务。MiMo-V2-Pro模型专为高强度Agent工作场景设计,拥有超过1T的总参数量,支持1M超长上下文长度,并在ArtificialAnalysis排行榜上位列全球第八,国内第二。该模型在智能体框架中能够无人工干预完成复杂工作流编排,且模型API定价较低,降低了前沿智能的使用门槛。
XiaomiMiMo-V2-Omni模型则针对复杂的多模态交互与执行场景,支持音频、图像和视频理解,实现了从理解到操控的跨越。在音频理解方面,它支持超过10小时连续长音频的深度理解,而在图像理解方面,展现出强大的视觉推理与图表分析能力。视频理解方面,模型支持原生音视频联合输入,具备情境感知与未来推理能力。
XiaomiMiMo-V2-TTS是小米自主研发的语音合成大模型,基于自研AudioTokenizer和多码本语音-文本联合建模架构,实现了高度可控的多粒度语音风格控制。该模型支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变,真实还原人类说话的自然韵律。MiMo-V2-TTS还支持多种方言的自然发音和高质量的歌声合成,展现了丰富的多元表达能力。


