1月27日,谷歌DeepMind团队宣布在Gemini3Flash模型基础上推出“智能体视觉”功能。这一功能通过结合视觉推理与代码执行,模仿人类“思考、行动、观察”循环处理图像,从而确立答案的视觉证据。与传统AI模型相比,Gemini3Flash能够主动调查图像,生成基于事实的最终回复。
“智能体视觉”功能的核心在于形成“思考-行动-观察”闭环。模型首先分析用户查询和初始图像,制定多步计划;然后生成并执行Python代码来主动操作图像或进行分析;最后,变换后的图像被追加到模型的上下文窗口中,利用更新后的数据和更佳的语境进行二次检查。这一机制让Gemini3Flash在多数视觉基准测试中质量提升了5-10%。
例如,在建筑图纸验证平台PlanCheckS网页链接上,利用“智能体视觉”功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了5%。此外,在处理视觉数学问题时,模型通过编写代码识别原始数据并调用Matplotlib库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。


