AI基座模型GLM-PC助智能体“解码”屏幕内容
近日,智谱技术团队在其官方公众号上宣布了一项重要开源成果——基座模型CogAgent-9B-20241220的发布。这一模型基于GLM-4V-9B训练,专为智能体(Agent)任务而设计,具有显著的创新性和实用性。
CogAgent-9B-20241220的最大特点在于其强大的GUI感知能力。它仅需屏幕截图作为输入,无需依赖HTML等文本表征,即可根据用户指定的任务和历史上的操作,预测出下一步的GUI操作。这一特性使得CogAgent在个人电脑、手机、车载设备等多种基于GUI交互的场景中,具有广泛的应用潜力。
相较于2023年12月首次开源的CogAgent版本,新版本的模型在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升。此外,CogAgent-9B-20241220还支持中英文双语的屏幕截图和语言交互,进一步拓宽了其应用范围。
该模型的输入信息仅包含三部分:用户的自然语言指令、已执行的历史动作记录和GUI截图。它无需任何文本形式表征的布局信息或附加元素标签,大大简化了使用过程。
CogAgent-9B-20241220的输出包括以下四个方面:
1. 思考过程(Status & Plan):模型会明确输出其理解GUI截图并决定下一步操作的思考过程,包括状态(Status)和计划(Plan),用户可以通过参数控制输出内容。
2. 下一步动作的自然语言描述(Action):模型会将动作描述加入历史操作记录,便于理解已执行的动作步骤。
3. 下一步动作的结构化描述(Grounded Operation):模型以类似函数调用的形式,结构化地描述下一步操作及其参数,便于端侧应用解析和执行。
4. 下一步动作的敏感性判断:模型会将动作分为“一般操作”和“敏感操作”两类,后者可能带来难以挽回的后果,如发送邮件任务中的“发送”按钮点击。
在多个数据集上进行的测试表明,CogAgent-9B-20241220在GUI Agent领域表现出强大的性能,其在Screenspot、OmniAct、CogAgentBench-basic-cn和OSWorld等数据集上均取得了领先的结果。此外,与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型相比,CogAgent也展现出了卓越的竞争力。
智谱技术团队的这一开源成果将为智能体领域的研究和应用带来新的可能性,有望推动GUI交互技术的进一步发展。