高校新突破:AI助手机任务自动执行

随着人工智能技术的飞速发展,一项名为“移动任务自动化”的新兴研究领域正在逐渐兴起。这项技术通过AI精准捕捉和解析人类意图,在移动设备上高效执行多样化任务,极大地提升了用户体验,尤其是对于那些因认知局限、身体条件限制或身处特殊情境下的用户。

西安交通大学智能网络与网络安全教育部重点实验室(MOE KLINNS Lab)的蔡忠闽教授和宋云鹏副教授团队,在智能人机交互、混合增强智能、电力系统智能化等领域的研究基础上,近期推出了一项创新的基于视觉的移动设备任务自动化方案——VisionTasker。该方案不仅为普通用户带来了更智能的移动设备使用体验,同时也展现了对于特殊需求群体的关怀与支持。

VisionTasker方案融合了基于视觉的UI理解和LLM任务规划的两阶段框架,旨在逐步实现移动任务自动化。该方案突破了传统UI对视图层级结构的依赖,提高了对不同应用界面的适应性。值得一提的是,VisionTasker无需大量数据训练大模型,通过用户自然语言提出的任务需求,Agent便能够理解并执行指令。

具体工作流程如下:
1. 用户界面理解:VisionTasker通过视觉方法解析和解释用户界面,Agent识别并分析界面上的元素及布局,如按钮、文本框、文字标签等,并将这些视觉信息转换为自然语言描述。
2. 任务规划与执行:Agent利用大语言模型进行导航,根据用户指令和界面描述信息进行任务规划,将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。
3. 持续迭代:每一步完成后,Agent都会根据最新界面和历史动作更新其对话和任务规划,确保决策基于当前上下文,持续迭代直至任务完成或达到预设限制。

用户不仅能从交互中解放双手,还能通过可见提示监控任务进度,并随时中断任务,保持对整个流程的控制。VisionTasker首先识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。对于没有文本标签的按钮,利用CLIP模型基于视觉设计推断其可能功能。随后,系统根据UI布局的视觉信息进行区块划分,并对每个区块生成自然语言描述。这一过程还包括文本与小部件的匹配,确保正确理解每个元素的功能。最终,所有信息被转化为自然语言描述,为大语言模型提供清晰、语义丰富的界面信息。

在实验评估方面,该项目提供了对三种UI理解的比较分析。结果显示,VisionTasker在多个维度上优于其他方法,尤其是在处理跨语言应用时表现出了良好的泛化能力。此外,在处理真实世界任务时,VisionTasker在147个不同应用中的表现达到了与人类相当的水平,甚至在某些任务中超越了人类。

VisionTasker的成功不仅在于其对用户界面理解的突破,更在于其通过集成编程演示(PBD)机制,在任务自动化方面实现了显著的性能提升。该成果已正式发表于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议UIST上,这是专注于人机界面软件和技术创新的CCF A类顶级学术会议。

这一创新成果不仅为AI领域带来了新的研究方向,也为广大用户带来了更加便捷和智能的生活体验。

发表回复