智能体2.0爆发:OpenAI错失7月良机?
近年来,随着人工智能技术的飞速发展,智能体(Agent)逐渐成为AI领域的热点。在经历了从概念到实践的蜕变之后,智能体正引领着AI进入一个崭新的2.0时代。本文将探讨智能体在AI界引发的变革,以及其在二级市场激发的狂热。
2024年3月,OpenAI宣布关闭仅运营两个月的GPT Store。然而,仅仅七个月后,OpenAI现任董事会主席Bret Taylor创立的新公司却以45亿美元融资震惊业界。在此背景下,整个AI界开始了一场“抛弃”OpenAI的狂欢,各大公司纷纷推出自己的智能体产品。
10月26日,微软开源了基于纯视觉的GUI屏幕解析工具OmniParser,谷歌的同类产品“Project Jarvis”也计划在12月上线。除大模型厂商外,荣耀也在一个月后交出了自己的智能体YOYO,展示了其自主处理任务的能力。通过一句简单的指令“订2000杯咖啡”,YOYO即可自主下单,引发咖啡店和外卖员的忙碌。
与传统只能提供建议的智能体相比,AutoGLM实现了从1.0到2.0的飞跃。二级市场也因智能体的兴起而热度攀升,投资、参股或与智谱深度合作的公司股价明显上涨,形成“智谱概念股”走强的现象。
华泰证券指出,AI Agent已突破大模型从“言”到“行”的难题。与上一代只能“动嘴”的Agent不同,新一代智能体如Computer Use和Phone Use等产品,实现了AI端的自主操作,包括点击、输入等交互功能。
以Anthropic发布的“Computer Use”为例,它无需人类干预,即可完成填写公司表格数据的任务。而智谱的AutoGLM在手机端的操作应用同样丝滑,可自主打开应用、搜索商品并加入购物车。
在AI Agent进化的道路上,多模态模型的发展功不可没。微软的OmniParser和智谱的AutoGLM均借助多模态能力完成对UI的识别解读,提升了操作准确度。
在克服了精准交互操作难题后,智能体还需要具备即时规划和纠正能力。智谱的AutoGLM应用了“自进化在线课程强化学习框架”技术,使智能体在手机和电脑环境中不断学习和提升应对能力。
AI Agent的2.0时代,意味着人工智能正从单体智能向使用工具的方向迈进。正如哲学家恩格斯所言,人类与动物的最本质区别在于能否制造和使用工具。智能体2.0的升级,标志着人类在通往AGI的道路上又迈出了一大步。
展望未来,端侧大模型将成为AI落地的新高地。终端硬件与大模型厂商正双向奔赴,通过智能体将AI能力深度植入硬件系统,实现原生能力。手机、电脑等终端将成为AI大模型落地的最佳场景,助力大模型公司积累工程化能力和边缘数据。
未来,在智能终端上的落地将是大模型技术和商业化的新高地。随着AI技术的不断进步,我们期待智能体在未来能够发挥更大的作用,引领AI进入更加广阔的应用领域。