腾讯联合UCLA发布OpenSearch-VL，AI智能体开启多模态深度搜索新时代_知识学习

腾讯联合UCLA发布OpenSearch-VL，AI智能体开启多模态深度搜索新时代

创始人

2026-05-07 15:11:18

0次

5月7日，腾讯混元（TencentHunyuan）联合加州大学洛杉矶分校（UCLA）、香港中文大学等学府发布了OpenSearch-VL开源多模态训练方案。该方案通过强化学习技术，旨在打造能够处理图像、文本等多种模态输入，并主动调用外部工具进行多步骤推理、证据验证与知识检索的深度搜索智能体。这一研究聚焦于解决知识密集型的复杂视觉问答问题，报告于5月6日在arXiv平台发表。

OpenSearch-VL方案的核心在于构建高质量数据管道，通过维基百科路径采样与模糊实体重写减少检索捷径，产出SearchVL-SFT-36k等数据集。研究团队指出，高质量训练数据是多模态搜索智能体进化的最大瓶颈，而现有顶尖系统的数据来源、过滤标准与工具使用轨迹均属私有，限制了先进能力的复现与系统性研究。因此，OpenSearch-VL提供了从数据、工具到训练算法的完整开源方案，以促进研究发展。

在工具环境方面，OpenSearch-VL不仅包括文本搜索、图像搜索，还整合了OCR、裁剪、锐化、超分辨率与透视校正等功能，使智能体能在查询外部知识前先处理模糊、低分辨率或倾斜的视觉输入。实验结果显示，OpenSearch-VL-30B-A3B模型在VDR、MMSearch等基准上取得了显著增益，平均得分从47.8提升至61.6，消融实验也验证了各组件的贡献。

上一篇：雷克萨斯发布全新纯电SUV：5.1米车身，95.82kWh电池，300千瓦动力！

下一篇：雷克萨斯旗舰纯电SUV TZ冬季上市，300kW双电机四驱，640km续航！

腾讯联合UCLA发布OpenSearch-VL，AI智能体开启多模态深度搜索新时代

相关内容

热门资讯