2025年12月9日,阿里Qwen团队宣布推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型在Qwen3-Omni基础上进行了全面升级,支持文本、图像、音视频的无缝输入与实时流式输出。新模型不仅能够处理多种输入形式,还能通过实时流式响应同步生成高质量的文本与自然语音。针对口语化场景中的“降智”问题,Qwen3-Omni-Flash大幅增强了对音视频指令的理解与执行能力,显著提升了多轮对话的稳定性与连贯性,语音表现自然度与拟人化程度已逼近真人水平。
Qwen3-Omni-Flash-2025-12-01最引人注目的功能是系统提示(SystemPrompt)控制能力的飞跃。Qwen团队全面开放了SystemPrompt自定义权限,用户可以精细调控模型的行为模式。此外,模型的多语言能力也更加可靠,支持119种文本语言交互、19种语音识别语言及10种语音合成语言,确保在跨语言场景下响应准确一致。在客观性能指标上,该模型在逻辑推理任务、代码生成、多学科视觉问答等方面均展现出强大的统治力,得分显著提升。

