微软推出 Windows Agent Arena 基准框架:评估 AI 代理在主流 Windows 应用中的性能

近日,微软官方推出了一项名为“Windows Agent Arena”的基准框架,旨在评估在Windows PC上运行的生成式AI代理的性能。该框架采用了OSWorld框架,涵盖了一系列多样化的Windows任务,如Microsoft Edge和Chrome浏览器,Visual Studio Code等编程应用,以及记事本、时钟和画图等预装Windows应用,VLC等主流媒体播放器。

微软官方表示,Windows Agent Arena基准测试可以衡量AI代理在主流Windows应用中的使用能力和速度。此外,该框架还具有可扩展性,可以在Azure上实现并行化,以在短短20分钟内完成全面的评估。

微软研究院还开发了自己的一款多模态代理人Navi,并在Windows Agent Arena基准测试中对其进行了尝试。结果显示,Navi的平均任务成功率仅为19.5%,与人类74.5%的表现相比,这一结果仍然较低。

总体而言,Windows Agent Arena基准框架为评估生成式AI代理在Windows PC上的性能提供了一个有力的工具。尽管目前AI代理的表现仍有待提高,但这一领域的发展前景广阔,有望在未来带来更多的创新和进步。

发表回复