12月2日,商汤科技宣布与南洋理工大学S-Lab合作研发的多模态模型架构NEO正式开源。NEO被标榜为行业首个实现深层次融合的原生多模态架构,旨在突破传统模块化范式,通过核心架构层面的多模态深层融合,提升性能、效率和通用性。该架构摒弃了传统的“视觉编码器+投影器+语言模型”模式,采用原生图块嵌入、三维旋转位置编码和多头注意力等创新技术,实现了视觉与语言的统一处理能力。
NEO架构在数据效率上表现出色,仅需业界同等性能模型1/10的数据量即可开发出顶尖的视觉感知能力。在多项视觉理解任务中,NEO架构的性能可与Qwen2-VL、InternVL3等顶级模块化旗舰模型相媲美。此外,在0.6B-8B的参数区间内,NEO在边缘部署方面展现出显著优势。商汤科技已开源基于NEO架构的2B与9B两种规格模型,以促进多模态研究的进一步发展。


