谷歌DeepMind革新AI视觉：Gemini3Flash模型让机器“思考、行动、观察”_知识学习_花城资讯网

谷歌DeepMind革新AI视觉：Gemini3Flash模型让机器“思考、行动、观察”

创始人

2026-01-28 14:32:52

0次

1月27日，谷歌DeepMind团队宣布在Gemini3Flash模型基础上推出“智能体视觉”功能。这一功能通过结合视觉推理与代码执行，模仿人类“思考、行动、观察”循环处理图像，从而确立答案的视觉证据。与传统AI模型相比，Gemini3Flash能够主动调查图像，生成基于事实的最终回复。

“智能体视觉”功能的核心在于形成“思考-行动-观察”闭环。模型首先分析用户查询和初始图像，制定多步计划；然后生成并执行Python代码来主动操作图像或进行分析；最后，变换后的图像被追加到模型的上下文窗口中，利用更新后的数据和更佳的语境进行二次检查。这一机制让Gemini3Flash在多数视觉基准测试中质量提升了5-10%。

例如，在建筑图纸验证平台PlanCheckS网页链接上，利用“智能体视觉”功能让模型通过代码裁剪并分析屋顶边缘等高分辨率细节，使准确率提高了5%。此外，在处理视觉数学问题时，模型通过编写代码识别原始数据并调用Matplotlib库绘制精确图表，有效解决了大型语言模型在多步视觉算术中常见的“幻觉”问题。

上一篇：AI革命来袭！Hyper3D发布首个3D生成编辑商用模型

下一篇：长城魏牌V9X亮相：5.3米巨无霸SUV搭载Hi-4动力系统

相关内容

热门资讯

知情人士称中方已批准首批英伟达... 路透社 1 月 28 日援引多位知情人士报道称，中国已批准首批英伟达 H200 人工智能芯片进口。这...

比亚迪天神之眼5.0发布：AI... 1月28日，比亚迪汽车宣布推出天神之眼5.0辅助驾驶系统，该系统搭载最新大模型版本，并新增强化学习能...

视频丨入境游持续火热 “到中国... 眼下，春节旅游市场已迎来预订热潮。数据显示，融合文艺演出、民俗非遗、特色餐饮的综合性文旅体验备受青睐...

大转折！2025年制造业利润大... 21世纪经济报道记者冉黎黎北京报道 1月27日，国家统计局发布数据显示，2025年全国规模以上工业...

枕星河入梦，“钢铁丝路”赓续绿... 近年来，循着乌梁素海鸿雁的踪迹，一路向西，穿越包兰铁路绿意盎然的防护林带，鸟瞰临哈铁路两侧绿洲覆盖的...

人民财评：政策“组合拳”助推服... 商务部数据显示，2025年我国服务零售额同比增长5.5%，快于商品零售额1.7个百分点，居民人均服务...

从课堂到家庭，广州南沙横沥镇垃... 为进一步深化垃圾分类宣传教育，培养幼儿环保意识，引导其从小养成垃圾分类良好习惯，近日，广州市南沙区横...

华为乾崑|启境猎装轿跑呼伦贝尔... 1月28日，启境汽车CEO刘嘉铭宣布，公司与华为智能汽车解决方案BUCEO靳玉志在呼伦贝尔进行了华为...

英国全民AI培训启动，释放1.... 1月28日，英国科学、创新和技术部宣布将向全国成年人提供免费的在线AI课程，旨在普及实用AI工作技能...

AI便利性背后隐藏灾难风险？O... 1月28日，OpenAI首席执行官山姆·奥尔特曼在开发者问答环节中提出了对AI智能体潜在风险的警告。...