1月26日,阿里巴巴集团旗下的千问科技发布了最新的旗舰推理模型Qwen3-Max-Thinking。该模型在多个关键维度上实现了显著提升,包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。在19项权威基准测试中,Qwen3-Max-Thinking的性能可与GPT-5.2-Thinking、Claude-Opus-4.5和Gemini3Pro等顶尖模型相媲美。模型总参数超过万亿,经过更大规模的强化学习训练,并采用了一系列创新的推理技术,实现了性能的大幅飞跃。
Qwen3-Max-Thinking在多项关键性能基准测试中表现出色,特别是在科学知识(GPQADiamond)、数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench)等领域达到了国际领先水平。模型现已上线QwenChat,用户可以直接与模型及其自适应工具调用功能进行交互。同时,Qwen3-Max-Thinking的API也已开放,模型名称为qwen3-max-2026-01-23。该模型拥有两项核心创新:自适应工具调用能力和测试时扩展技术。自适应工具调用能力允许模型在对话中自主选择并调用内置的搜索、记忆和代码解释器功能,而测试时扩展技术则通过在推理阶段分配额外计算资源来提升模型性能。

