2月21日,苹果研究团队发布了一篇论文,介绍了他们最新研发的Ferret-UILite端侧AI模型。这款模型仅有30亿参数,却能在性能上匹敌甚至超越体积大24倍的大型模型。Ferret-UILite是一款专为移动设备设计的多模态大语言模型,能够在算力有限的手机端精准理解与操作复杂的图形用户界面(UI)。
Ferret-UILite通过引入“推理时裁剪”技术,解决了通用大模型难以识别手机屏幕上微小图标和文本的问题。该技术使模型在处理任务时,先进行粗略预测,然后智能地剪切并放大相关区域,再次进行精准识别。这种策略让小模型无需处理海量图像数据,也能捕捉到界面中的关键信息,从而更好地理解屏幕元素。
在训练方面,苹果研究团队构建了一套合成数据生成系统,包含“任务生成器”、“规划器”、“执行者”和“批评者”四个角色,让AI在模拟环境中不断尝试操作、犯错并自我修正。这种机制不仅生成了海量训练样本,还让模型学会了如何应对现实操作中的错误与意外情况。测试结果显示,Ferret-UILite在执行短流程、基础UI操作时表现优异,但在处理复杂的多步长任务时仍有提升空间。重要的是,Ferret-UILite能够完全在本地运行,无需将屏幕截图上传至云端服务器,这在赋予手机“自动操作App”能力的同时,最大程度地保障了用户隐私。


