谷歌DeepMind革新AI视觉:Gemini3Flash模型让机器“思考、行动、观察”
创始人
2026-01-28 14:32:52
0

1月27日,谷歌DeepMind团队宣布在Gemini3Flash模型基础上推出“智能体视觉”功能。这一功能通过结合视觉推理与代码执行,模仿人类“思考、行动、观察”循环处理图像,从而确立答案的视觉证据。与传统AI模型相比,Gemini3Flash能够主动调查图像,生成基于事实的最终回复。

“智能体视觉”功能的核心在于形成“思考-行动-观察”闭环。模型首先分析用户查询和初始图像,制定多步计划;然后生成并执行Python代码来主动操作图像或进行分析;最后,变换后的图像被追加到模型的上下文窗口中,利用更新后的数据和更佳的语境进行二次检查。这一机制让Gemini3Flash在多数视觉基准测试中质量提升了5-10%。

例如,在建筑图纸验证平台PlanCheckS网页链接上,利用“智能体视觉”功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提高了5%。此外,在处理视觉数学问题时,模型通过编写代码识别原始数据并调用Matplotlib库绘制精确图表,有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。

相关内容

热门资讯

知情人士称中方已批准首批英伟达... 路透社 1 月 28 日援引多位知情人士报道称,中国已批准首批英伟达 H200 人工智能芯片进口。这...
比亚迪天神之眼5.0发布:AI... 1月28日,比亚迪汽车宣布推出天神之眼5.0辅助驾驶系统,该系统搭载最新大模型版本,并新增强化学习能...
视频丨入境游持续火热 “到中国... 眼下,春节旅游市场已迎来预订热潮。数据显示,融合文艺演出、民俗非遗、特色餐饮的综合性文旅体验备受青睐...
大转折!2025年制造业利润大... 21世纪经济报道记者冉黎黎 北京报道 1月27日,国家统计局发布数据显示,2025年全国规模以上工业...
枕星河入梦,“钢铁丝路”赓续绿... 近年来,循着乌梁素海鸿雁的踪迹,一路向西,穿越包兰铁路绿意盎然的防护林带,鸟瞰临哈铁路两侧绿洲覆盖的...
人民财评:政策“组合拳”助推服... 商务部数据显示,2025年我国服务零售额同比增长5.5%,快于商品零售额1.7个百分点,居民人均服务...
从课堂到家庭,广州南沙横沥镇垃... 为进一步深化垃圾分类宣传教育,培养幼儿环保意识,引导其从小养成垃圾分类良好习惯,近日,广州市南沙区横...
华为乾崑|启境猎装轿跑呼伦贝尔... 1月28日,启境汽车CEO刘嘉铭宣布,公司与华为智能汽车解决方案BUCEO靳玉志在呼伦贝尔进行了华为...
英国全民AI培训启动,释放1.... 1月28日,英国科学、创新和技术部宣布将向全国成年人提供免费的在线AI课程,旨在普及实用AI工作技能...
AI便利性背后隐藏灾难风险?O... 1月28日,OpenAI首席执行官山姆·奥尔特曼在开发者问答环节中提出了对AI智能体潜在风险的警告。...