5月7日,腾讯混元(TencentHunyuan)联合加州大学洛杉矶分校(UCLA)、香港中文大学等学府发布了OpenSearch-VL开源多模态训练方案。该方案通过强化学习技术,旨在打造能够处理图像、文本等多种模态输入,并主动调用外部工具进行多步骤推理、证据验证与知识检索的深度搜索智能体。这一研究聚焦于解决知识密集型的复杂视觉问答问题,报告于5月6日在arXiv平台发表。
OpenSearch-VL方案的核心在于构建高质量数据管道,通过维基百科路径采样与模糊实体重写减少检索捷径,产出SearchVL-SFT-36k等数据集。研究团队指出,高质量训练数据是多模态搜索智能体进化的最大瓶颈,而现有顶尖系统的数据来源、过滤标准与工具使用轨迹均属私有,限制了先进能力的复现与系统性研究。因此,OpenSearch-VL提供了从数据、工具到训练算法的完整开源方案,以促进研究发展。
在工具环境方面,OpenSearch-VL不仅包括文本搜索、图像搜索,还整合了OCR、裁剪、锐化、超分辨率与透视校正等功能,使智能体能在查询外部知识前先处理模糊、低分辨率或倾斜的视觉输入。实验结果显示,OpenSearch-VL-30B-A3B模型在VDR、MMSearch等基准上取得了显著增益,平均得分从47.8提升至61.6,消融实验也验证了各组件的贡献。

