微软推出 Windows Agent Arena 基准框架：评估 AI 代理在主流 Windows 应用中的性能

15 9 月 2024

微软推出 Windows Agent Arena 基准框架：评估 AI 代理在主流 Windows 应用中的性能

近日，微软官方推出了一项名为“Windows Agent Arena”的基准框架，旨在评估在Windows PC上运行的生成式AI代理的性能。该框架采用了OSWorld框架，涵盖了一系列多样化的Windows任务，如Microsoft Edge和Chrome浏览器，Visual Studio Code等编程应用，以及记事本、时钟和画图等预装Windows应用，VLC等主流媒体播放器。

微软官方表示，Windows Agent Arena基准测试可以衡量AI代理在主流Windows应用中的使用能力和速度。此外，该框架还具有可扩展性，可以在Azure上实现并行化，以在短短20分钟内完成全面的评估。

微软研究院还开发了自己的一款多模态代理人Navi，并在Windows Agent Arena基准测试中对其进行了尝试。结果显示，Navi的平均任务成功率仅为19.5%，与人类74.5%的表现相比，这一结果仍然较低。

总体而言，Windows Agent Arena基准框架为评估生成式AI代理在Windows PC上的性能提供了一个有力的工具。尽管目前AI代理的表现仍有待提高，但这一领域的发展前景广阔，有望在未来带来更多的创新和进步。

分秒AI研究院

分秒AI研究院

微软推出 Windows Agent Arena 基准框架：评估 AI 代理在主流 Windows 应用中的性能

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

微软推出 Windows Agent Arena 基准框架：评估 AI 代理在主流 Windows 应用中的性能

微软推出 Windows Agent Arena 基准框架：评估 AI 代理在主流 Windows 应用中的性能

分秒AI

发表回复 取消回复

发表回复取消回复