文 | 极智GeeTech
如果说AIGC开启了内容生成的智能时代,那么AI Agent则有望把AIGC的能力真正产品化。与ChatGPT等AI应用相比,AI Agent像一位更具象的全能员工,被视为人工智能机器人的初级形态,软硬件兼顾的智能体能够如同人类一般观察周围的世界、做出决策并自动采取相应的行动。AI Agent的想象力到底在哪?“大语言模型只能编个贪吃蛇,而AI Agent可以整出一个‘王者荣耀’。”这是网上盛传的回答,似乎并不夸张。比尔·盖茨也曾说过,“谁能主宰AI Agent,那才是大事。因为你将永远不用去搜索网站或者亚马逊。”
从技术到场景,摸着石头过河
从AIGC发展看,大致经历了三波浪潮。第一波是以GPT为代表的大模型的出现;第二波是应用层的快速创新,如微软Copilot,使智能化从Chat向Work转化;第三波则是深度业务场景的应用,打通业务数字化全流程,服务实体经济。在满足企业智能化需求、打通业务场景的过程中,AI Agent作为一种理想的产品化落地形态,正在承接日益复杂的提质增效需求,并强化内外部协同效能,释放组织核心生产力,对抗组织熵增带来的挑战。
AI Agent通常被视为一种融合感知、分析、决策和执行能力的智能体,它可以具备相当显著的主动性,成为人类的理想智能助手。例如,AI Agent可以根据个人在线互动和参与事务处置时的信息,了解和记忆个体的兴趣、偏好、日常习惯,识别个体的意图,主动提出建议,并协调多个应用程序去完成任务。
Agent的概念由Minsky在其1986年出版的《思维的社会》一书中提出,Minsky认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是Agent。他还认为,Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域,并迅速成为研究热点。但苦于数据和算力限制,想要实现真正智能的AI Agents缺乏必要的现实条件。
AI Agent和大模型的区别在于,大模型与人类之间的交互是基于提示词(prompt)实现的。ChatGPT诞生后,AI从真正意义上具备了和人类进行多轮对话的能力,并且能针对相应问题给出具体回答与建议。用户提示是否清晰明确会影响大模型回答的效果,例如ChatGPT和这些Copilot都需要明确任务才能得到有用的回答。当AI从被使用的工具变成可以使用工具的主体,这种具备任务规划和使用工具能力的AI系统可被称为Auto-Pilot主驾驶,即AI Agent。
在Co-Pilot模式下,AI是人类的助手,与人类协同参与到工作流程中;在Auto-Pilot模式下,AI是人类的代理,独立地承担大部分工作,人类只负责设定任务目标和评估结果。AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建提示词,来实现目标。
从1997年“深蓝”战胜国际象棋世界冠军卡斯帕罗夫开始,沃森在智力问答节目《危险边缘》中战胜人类冠军、ResNet在ImageNet图像识别比赛中的准确率超过人类、AlphaGo在围棋比赛中战胜李世石、OpenAI Five在多人策略游戏Dota2中战胜人类职业战队冠军、AlphaFold的蛋白质结构预测准确率超过人类等,完成这些任务背后的能力涵盖了人类智能感知、认知、决策的各个方面,也不断塑造着AI Agent的技术内核。
实际上,人工智能自诞生之初就开始探索AI Agent的解决方案。最近经历了基于规则设计、基于强化学习和目前基于预训练大模型三种范式。其中基于强化学习的AI Agent代表是AlphaGo和OpenAI Five,这类方法仍然是面向专用任务的特定环境进行交互。预训练大模型学习到了通用世界知识,并可以通过语言的形式输入和输出,因而可以泛化到不同任务和环境。基于预训练大模型的AI Agent又包括两类,即智能代理和智能体。预训练大模型的“通用”能力不仅体现在内容理解和生成上,还扩展到了规划和使用工具这类思考和决策任务。比如,我们对着一张有几个孩子和一些小面包的图片问“每个孩子可以平均分到几个小面包”,大模型可以将任务规划成检测小面包、检测孩子、做除法三步,并在每一步调用对应的目标检测模型或除法工具来完成。
在图灵奖得主Yoshua Bengio设计的AGI五个层次中,AI Agent目前大致处于第三个层次——多模态感知和第四个层次——具身与行动之间。第一个层次是小数据训练小模型,过去几十年的传统方法都处于这个阶段。第二个层次是用互联网规模的海量数据训练大模型,以GPT-3为代表。第三个层次是从单模态到多模态,比如GPT-4o和Gemini是文字视觉语音的多模态大模型。第四个层次是从开环系统到闭环控制,就是说考虑环境反馈并结合自身状态,给出下一步操作对环境产生影响同时更新自身状态,比如以AutoGPT为代表的智能体和具身智能机器人。第五个层次是从单智能体到多智能体协作,也包括机器与人类的协作,由群体智能完成复杂任务,比如多智能体原型AutoGen模拟软件公司的不同职位协作从而实现高质量的代码自动开发和文档自动生成。
从应用场景来看,AI Agent能够帮助未来企业构建以“人机协同”为核心的智能化运营新常态。越来越多的业务活动都将被委托给AI,而人类则只需要聚焦于企业愿景、战略和关键路径的决策上。人与大量AI实体之间的协同工作模式,将颠覆当前企业的运行基础,让企业运营成效获得成倍提升。比如在电商领域,AI Agent能够根据用户的购物历史、浏览行为和偏好提供个性化的产品推荐,这不仅能提高用户满意度,还能增加销售额和客户忠诚度;AI Agent还可以作为智能客服,通过自然语言处理和机器学习技术自动回答用户咨询,处理订单问题和退货请求,从而提高客户服务效率。在教育领域,AI Agent可以根据学生的学习进度、兴趣和能力提供个性化的学习资源和辅导;而在金融领域,AI Agent可以帮助用户管理个人财务,提供投资建议,甚至预测股票走势。在交通领域,AI Agent可以通过分析交通数据和实时路况提供最佳的路线规划和交通建议。在医疗领域,AI Agent可以帮助医生进行疾病诊断和治疗方案的制定。在社会交互方面,AI Agent的一个重要场景是虚拟陪伴,从任务复杂度和容错率两方面看都是短期容易实现的,已经出现的是像Character.ai、Talkie、Linky等面向成年人的IP类和交友类应用,未来面向老年人和儿童的AI Agent虚拟陪伴可能是更具社会价值的。
从技术的角度看,提升大模型的角色扮演能力、分析和调整大模型的性格特征等都是兼具研究意义和应用价值的方向。
大数据,进化之路的最大变量
从AI发展角度看,大模型为AI Agent和机器人领域所带来的是更强大的感知能力,这种强感知能力是建立在大参数模型和巨量数据展现出来的智能。AI Agent的出现,使得大模型从“超级大脑”进化为人类的“全能助手”。
AI Agent不仅需要具备处理任务和问题的智能能力,还需要拥有与人类进行自然交互的社交智能。在AI Agent和机器人领域,一个最大的难点便是缺乏与物理世界的真实数据,而得不到这些数据,就无从进行训练;即使是互联网上得到的信息,在过去也很难根据这些信息进行扩展,并使AI Agent和机器人更好地理解世界。而大模型则很好地解决了这一问题。
如今的大模型已经实现了视觉语言上的智能涌现,这就意味着,通过互联网上的数据,机器人的感知已经出现了相当强的泛化,因此能够更好地理解真实的物理世界。实际上,除了AI Agent,被大模型随之带火的还有自动驾驶。像英国自动驾驶独角兽Wayve在融资当天,不惜花大量笔墨描绘了一个属于“AI Agent”的未来,类似的言论也同样出现在不少机器人公司的内部。
AI大模型对于AI Agent能力提升的重要性,主要体现在三个方面。首先,大模型显著提升了AI Agent解决复杂任务的能力,根据理解,把复杂任务拆解成一系列可执行的任务。之后,在多模态大模型的能力下,AI Agent可以依托视觉、触觉等在更复杂的场景里做事。最后,体现在运动能力上,AI Agent可以根据AI合成的数据做模拟训练。如果没有大模型,机器人实现的功能会相对受限。
由此也看出,数据是除了大模型技术外,制约机器人下一步进化最为关键的要素。目前的AI Agent还远未达到数据飞轮的启动时刻。一方面真实数据的成本极高,AI Agent当前还达不到自动驾驶般的普及度。在真实数据足够多之前,厂商需要花长时间和配备数据标准团队来一点点积累。而对于仿真数据而言,最大的问题还是现实仿真不够真实。AI Agent在模拟世界能成功,但导入到现实世界就会有一定的失败率。
现阶段,对AI Agent最大的一个限制,还是数据质量、数据规模、应用场景不足。AI模型、AI训练数据集、AI场景落地部署,都远远不够。而随着更高效的算法和算法的泛化能力提升,未来AI Agent学习一个技能的数据量将会从现在的几千、几万,下降到一千甚至几百几十的数量级。
参考自动驾驶行业由量产带来的数据飞轮,为了进一步解决数据问题,不少机器人厂商正在探索从量产中获取数据。
迈出实验室,还要答好几道题
AI Agent的想象力不言而喻,但现在的情况是厂商都在说自己是做Agent的,那么现阶段Agent到底能做什么,没人可以说得清楚。虽然与大模型相比,Agent更贴近产业,但不论是对客户还是对开发者,Agent带来的收益是否迈过了成本的门槛仍是未知数。Agent的发展基于大模型,而当前大模型赛道的特点是技术门槛高、资金投入多、商业模式尚且发展不成熟。
首先,现有的技术条件下,如何解决大模型幻觉是大模型走向全面产业应用的难点。所谓大模型幻觉,主要指的是模型输出了和现实世界不一致的内容,例如捏造事实、分不清虚构与现实、相信谣言和传说等,也就是常说的“一本正经的胡说八道”。这个问题若不解决,在实际应用场景中,这不仅会影响模型的准确性和稳定性,还制约了大模型在真实场景中的广泛应用的可靠性,这就还有很长的一步路走。
众所周知,AI Agent发展的前提条件是多模态。在很多情况下,如智能客服场景,用户可能会通过多种方式提供信息,多模态具有很好的感知价值。但至今在解决一些逻辑、推理等核心问题上,Agent的能力还有偏弱。因此,Agent各模块之间如何配合、多个Agent如何交互、人类与Agent如何互动等方面,Agent技术尚处于早期阶段。
其次,如何控制高昂的调用成本是摆在AI Agent面前的另一大难题。接入Agent后,所有需要处理的业务场景,都会转化成需要底层大模型理解的数据,产生高昂的推理成本。举个例子,斯坦福的虚拟小镇框架开源后,每个Agent一天就需要消耗20美金的Token数,比用人成本还要高。
第三,国内智能算力较为短缺的现状下,各家大模型在持续投入人力、算力、资金并实现商业化落地方面,可能会面临较大挑战。因此,Agent想要真正实现规模化落地,道阻且长。
还有很重要的一点,Agent如何保证用户的数据安全和隐私。Agent一旦投入应用,势必会接触到客户的核心数据,倘若数据泄漏,可能让用户和社会蒙受巨大损失。对于AI Agent,一个很残酷的现实是,看项目的大有人在,投项目的屈指可数。
如今,各行各业都已不是PPT融资的时代了,无论多么前沿的技术,也只有落地走通盈利模式才能实现价值。AI Agent的未来一定是一场马拉松,只有扎实做好大模型技术和找到商业化落地的路径,才能在未来有机会不被赶下“牌桌”。