近日,微软研究院AIFrontiers实验室发布了Fara1.5系列模型,这是一系列专为浏览器场景下的计算机使用智能体设计的人工智能模型。Fara1.5系列包含4B、9B和27B三个不同参数规模的版本,它们能够与MagenticLite沙盒浏览器界面配合使用,直接读取浏览器截图并输出鼠标和键盘操作以完成网页任务。
Fara1.5系列模型基于Qwen3.5基础检查点,采用“观察—思考—行动”循环机制。在每一步操作中,模型会结合历史对话和最近3张浏览器截图,输出推理内容和下一个动作。在性能测试中,Fara1.5-27B在Online-Mind2Web基准上取得了72%的任务成功率,该基准覆盖了136个热门网站和300项任务。与其他模型相比,如OpenAIOperator(58.3%)、Gemini2.5ComputerUse(57.3%)和YutoriNavigatorn1(64.7%),Fara1.5-9B也达到了63.4%的任务成功率。
在训练方面,Fara1.5使用了约200万条样本进行Fine-tuning(微调),样本来源多样,包括网页轨迹、合成环境、表单填写与用户交互、事实锚定(Grounding)以及视觉问答等。在安全与协作方面,Fara1.5模型能够在缺少个人信息、任务描述含糊或即将执行未经批准的不可逆操作时主动停下并询问用户,所有动作记录在MagenticLite中,沙盒浏览器界面也构成了智能体与用户设备之间的安全边界。


