3月26日,苹果公司与威斯康星大学麦迪逊分校联合发布了名为RubiCap的AI训练框架,旨在优化密集图像描述模型的训练流程。这项技术能够识别图片中的各个局部区域,并为每个细节生成精准的文字说明,对于训练视觉语言模型、文本生成图像以及改善无障碍工具等领域具有重要意义。
RubiCap框架通过创新的强化学习机制,解决了传统训练方法中人工标注成本过高的问题。系统首先从数据集中抽取5万张图像,并利用GPT-5、Gemini2.5Pro等大模型生成候选描述。随后,系统通过Gemini2.5Pro分析候选内容,提炼共识与遗漏点,转化为清晰的评分标准。最后,Qwen2.5模型根据这些标准对描述进行打分,为模型提供结构化的精准反馈。
基于RubiCap框架,苹果训练出了参数量分别为20亿、30亿和70亿的三个模型。测试数据显示,这些紧凑型模型展现出了惊人的效率,其中70亿参数模型在盲测中获得了最高的排名,并实现了最低的“幻觉”错误率,全面超越了参数量高达720亿的前沿大模型。30亿参数的微型模型在部分测试中甚至反超了70亿参数版本,证明高质量的图像描述模型可以摆脱对庞大参数量的绝对依赖。


