AI赋能移动端,清华AutoDroid-V2双模自动化升级

2024年12月24日,清华大学智能产业研究院(AIR)宣布发表最新研究成果,推出名为AutoDroid-V2的人工智能模型。该模型旨在通过小语言模型(SLM)在移动设备上实现对自然语言控制的自动化,从而显著提升用户操作效率和设备使用体验。

在传统自动化控制设备的过程中,我们普遍采用“逐步GUI智能体”的方式,这种方式通过不断查询GUI状态,由云端的大型语言模型(LLM)做出动态决策和反思,并持续处理用户的任务。然而,这种依赖云端的模型方式存在诸多弊端,如隐私泄露风险、高用户端流量消耗以及昂贵的服务器端集中服务成本等,这些都成为大规模部署GUI智能体的障碍。

AutoDroid-V2项目的研发,正是为了解决这些问题。该系统采用基于脚本的方法,通过设备端的小型语言模型(SLM)来实现用户指令的高效执行。与依赖云端LLM的传统方法相比,AutoDroid-V2在效率、隐私和安全性方面展现出显著优势。

AutoDroid-V2模型在离线阶段构建应用程序文档,对GUI状态进行AI引导的压缩、自动生成元素XPath和GUI依赖分析,为脚本的生成奠定了基础。在用户提交任务请求后,本地LLM将生成多步骤脚本,由特定域解释器执行,确保了任务的可靠和高效运行。

性能测试显示,在23个移动应用上对226项任务进行测试,与AutoDroid、SeeClick、CogAgent和Mind2Web等基线模型相比,AutoDroid-V2的任务完成率提高了10.5%-51.7%。同时,在资源消耗方面,输入和输出token消耗分别减少了至43.5分之一和5.8分之一,LLM推理延迟降低至5.7~13.4分之一。在跨LLM测试中,AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B上的表现均保持一致,成功率在44.6%-54.4%之间,反向冗余比为90.5%-93.0%。

这一研究成果为移动设备上的自然语言控制提供了新的解决方案,有望进一步推动智能化移动设备的普及和发展。

发表回复