AI Agent的任务,是让我们每天最多工作四个小时
- 2024年,满城尽带AI Agent。上个月还说自己在做AI Copilot的人,这个月就说自己做的是Agent了。现在流行AI黑客马拉松,一场下来,至少能看见几十个所谓的“AI Agent”。
- 大语言模型爆发这一年,我们在“概念陷阱”里鬼打墙,满嘴跑火车,大侃各种新名词:Agent、Copilot、RAG、Reasoning、Grounded、Alignment……说实话我有点烦了,嘴上不挂着这些词,就不配搞AI么?更重要的是,当人们讨论一个名词的时候,他们讲的是一回事么?
- 比如“AI Agent”:你做了一个自动写小红书文案的GPTs,说这是写作Agent;我做了一个基于大语言模型的RPG游戏角色模拟器,说它是游戏开发Agent……这时候有人说:这些都是AI辅助工具,充其量也就是Copilot(副驾驶),你看斯坦福大学和Google搞的“斯坦福小镇”,25个AI互相沟通和协作,那才是真正的AI Agent。究竟谁说的对?什么才是AI Agent?这其实就是我们的现状:当下讨论一个AI概念,人们缺乏共识的定义作为前提,在认知从来没“对齐”(align)过。
- 很多人拿“AI Agent”当成一个大语言模型时代的新名词讨论,殊不知“Agent”是一个骨灰级的人工智能概念。我钩沉了一下,“Agent”第一次作为人工智能术语的出现,是1995年出版的经典人工智能教科书《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)。这本书对人工智能的定义是:“智能代理的研究和设计”(study and design of intelligent agents)。这么看,“Agent”被视作人工智能发展的终极目标,至少也是快30年前的事了。它折射了人类发展人工智能的初衷,即寻找人类的一切行为的“代理人”。
- 不少人还忽略了“Agent”其实也是人们耳熟能详的经济学和组织行为学的概念。现代经济社会充斥着各种各样的“Agent”,比如我们熟悉的公关代理公司(PR Agency)、旅行社(Travel Agency)等,它们具备一个机构代表一方行动和交易的意涵。人工智能定义的“Agent”,意义与经济学和组织行为学是接近的——即AI作为一个人或一个组织的代表,进行某种特定行为和交易,降低一个人或组织的工作复杂程度,减少工作量和沟通成本。
- 人工智能真正具备成为“Agent”的能力,靠的是大语言模型。AI Agent 这个古老的概念在2023年的翻红并不是个巧合。OpenAI 安全团队负责人Lilian Weng的著名文章《LLM Powered Autonomous Agents》,被普遍视作是 OpenAI 对 “AI Agent” 的官方定义。该文将 Agent 定义为大语言模型(LLM)、记忆(Memory)、任务规划(Planning Skills)和工具使用(Tool Use)的集合,其中 LLM 是核心的大脑,记忆、任务规划和工具使用是 Agent 的三个核心组件。值得注意的是,该文强调 Agent 自主调取外部 API 的工具使用,自主对任务进行子目标分解,自主建立思维链(CoT)、以及自我批评和自我反馈的能力——它们都指向了文章标题的关键词“autonomous”,即 Agent 的自动化。
- 人工智能革命被普遍称作是“第四次工业革命”,前三次分别依次是19世纪初的蒸汽机革命、19世纪末的电力革命、20世纪中叶的信息技术革命。贯穿前三次人类工业革命的关键词当属“自动化”(automation)。蒸汽机和电力革命实现了围绕工业生产的体力劳动的自动化,提高了生产效率。信息技术革命在进一步提高工业生产自动化程度的同时,也可以代替人类进行一部分脑力劳动。作为第四次工业革命的人工智能革命,一方面将工业生产的自动化进行得更加彻底(比如机器人和传感器遍布的无人工厂),另一方面前所未有开启了脑力劳动的自动化进程。而脑力劳动自动化的载体,就是 AI Agent。
- 从这个意义上,对什么是 AI Agent 的争论是有些无聊的。“斯坦福小镇”是基于论文的先锋实验,将它作为评判一个 AI 应用是不是“Agent”的坐标,无助 AI Agent 提高智力密集型工作的效率。我下一个暴论:AI Agent 本质上就是“automation of human action”(人类行为的自动化)。只要它不是在人类手把手要求下完成任务,就像在ChatGPT的对话框输入prompt、启动 Office 365的“副驾驶”(Copilot)完成每一项具体工作那样,而是具备了一定程度的完成任务的自主性甚至是不完全可控性,它就是一个 AI Agent。
- 现在一个比较尴尬的局面是:可能你读过不下20篇关于 AI Agent 的论文和公众号推文,也没真正上手过一个用得顺手的Agent,这恐怕是 Agent 作为一个新物种注定经历的阶段。一直以来,人们经常提到 AI Agent 典范是接入了GPT能力的AutoGPT。不过现在,无论是在美国还是中国,已经有了一些更好用的 AI Agent 的雏形。可以趁机安利一下了。
- 第一个是 ChatGPT 新进推出的升级付费版——ChatGPT Team。它提供了在一个小型企业内部,用个人的 ChatGPT账号实现协作的“私域空间”,ChatGPT Team 的用户数据不会被用来反向训练GPT模型,用户还可以创建企业内部的 GPTs,让这些 GPTs 互相协作。讲真,我觉得 ChatGPT Team 比 GPT Store 更重要,也更实用。现在的 GPT Store 太乱了,大多数 GPTs 粗糙不堪 ,对话框指令什么它帮你做什么,而且基本不能调用 API 。但私密环境使用的 ChatGPT Team,GPTs 互相调用接口、彼此协作也顺利成章多了。ChatGPT Team 是 ChatGPT 这个全世界有着最多用户的超级 AI 平台,走向 AI Agent 的第一步(毕竟ChatGPT已经有15万企业客户了)。
- 第二个是智谱 AI 的 GLM 模型智能体(GLMs)。清华色彩强烈的智谱 AI 是中国最像 OpenAI 的公司,刚推出的 GLM-4 全面对标 GPT-4,在诸多评测基准上达到了GPT-4 85%以上。GLMs 是 GLM-4 的副产品,也是 GLM-4 模型能力的外溢。GLM-4 的“All Tools”支持 GLM-4 依据用户的需求,自主决定用绘图、搜索、制作表格还是代码编程解决问题——这本身就具备了 AI Agent 的属性。与 Open AI 只追求通用性不同,智谱 AI 针对金融、医疗和教育等垂直行业都有一系列定制部署服务,积累了一定的 to B 客户基础和行业 know-how,这让智谱的客户基于 GLM-4 部署 GLMs 智能体变得更合理,也更容易些。
- 第三个是同属清华背景的“面壁智能”:面壁智能是有自己的“斯坦福小镇”的,它基于面壁智能的 ChatDev 框架。但面壁智能的“小镇”不是一个虚拟社会,而是一个 AI 版的软件公司。不同的 AI 智能体被设计为程序员、产品经理、测试工程师和设计师等角色,它们可以彼此协作,还能站在自己的立场上互相博弈——就跟办公室里每天发生的事一样。面壁智能的ChatDev框架支持开发者搭建属于自己的 AI Agent,把单体智能和群体智能结合起来,让AI Agent 成为每一个员工都可以用起来的,可以“逃避”很多狗屎工作的办公自动化工具。顺便提一句,ChatDev框架的成形并不比“斯坦福小镇”的论文发布晚,它给人们最大的启示在于原生 AI 应用开发的一个可能性—— AI Agent 实现 AI 应用开发的自动化。
- 第四、五个分别是钉钉和飞书的“智能体”实践。AI Agent 本质更接近产品而非技术,如果我们认为 AI Agent 是生产力工具,那就不能忽略在钉钉和飞书上已经存在的上亿用户,百万政企组织,海量的文档、会议纪要、沟通记录、多维表格和自建工具——这些工具让钉钉的“智能助理”和飞书的“智能伙伴”,更容易化身成每一个使用它们的打工人的嘴替和脑替,能部分自主地完成一些事务性的狗屎工作,如工作总结、会议纪要、走报销和出差流程、跟进一件事的反馈,甚至可能帮人代理扯皮和撕X。作为钉钉和飞书的双料用户,我必须说:现在的钉钉智能助理和飞书智能伙伴离“好用”还差得远——这恐怕是通义大模型和云雀大模型的锅。但论场景丰富、数据真实、用户数量,钉钉的“智能助理”和飞书“智能伙伴”更容易被真正“用起来”。Agent 也是在被用起来的过程中具备更好的理解能力的。一旦模型进步了,钉钉和飞书的 Agent 化就会往前走一大步。我再下一个暴论——钉钉和飞书会成为国内 AI Agent 重要的产品。
- 在“好用”和“好玩”之间,我坚信对 AI Agent 而言,“好用”比“好玩”重要。它首先是一个生产力工具。那些 AI 陪伴的纸片男女友也有理解能力和情绪价值,但它们可以被叫作“智能体”或“智能玩偶”,但不是“智能代理”,因为它们不具备代理人类完成某项任务或使命的功能。所以 AI Agent 被翻译成“智能体”是不合适的,它就是“智能代理”,“代理”是 AI Agent 的经济学和组织行为学属性,也是它推动脑力劳动自动化的本质。
- 在不久前结束的CES上,斯坦福大学著名人工智能学者李飞飞提出了一个重要观点:应该明确 AI Agent 取代的是人类的“任务”而不是“工作”。在达沃斯论坛上,OpenAI CEO Sam Altman 在面对“AI 让人失业”这一老生常谈的诘问时,表达了一个更直接的观点:“AI 取代的是人们工作的方式,而不是工作本身”。
我非常同意李飞飞和 Sam Altman两位老师的观点,脑力劳动工作者的工作是由一个个具体的关键任务组成的,但这不是工作的全部。目标设定、创造性、资源获取和分配、设定更高的目标、组织不同的任务、判断力、说服力与表现力……我们的工作中有太多更有意义的元素了。把工作中流程、事务性和常规操作的“任务”交给 Agent,少写几行常规代码,少发几封battle 邮件,少做一些机械操作的表格,少调几次 PPT 格式,少复制粘贴,少亲自发起和审批一些常规的出差和报销流程,我们的工作应该愉快得多,也有创意得多。
- 当然,AI Agent 的普及,也许会让一些“白领工人”无所适从甚至失去工作,但它会极大限度地提升很多岗位——甚至包括基层岗位上面的聪明的人的创造性、格局感、整体感和生产力,在提高工作效率,创造更多生产力的同时,更重要的是减少工作时长。
- “八小时工作制”在全球成为通用标准已经是差不多100年前的事了。人们之所以能每天只工作8个小时,是工人阶级抗争的结果,也是电力工业革命以来生产力大爆发的产物。在更高的生产效率面前,人们有底气为自己争取更少的工作时间、更高的工资和更多的学习、休闲、旅游消费时间。但是,计算机革命以来,人类的生产效率又前所未有地提升了,为什么人们的工作时长没有进一步减少,反而在一些号称是最高智力密集的科技和互联网公司还增加了呢?还搞起了996呢?这里面是不是一定出了什么问题?
- 请允许我再来一个暴论:未来衡量一个 AI Agent 的智能化程度如何,可以看它是不是能让我们每天只工作四个小时。那些重复性的、流程化的、条件反射式的、经验主义奏效的、强化学习可以理解的,甚至表演性的工作,交给 AI Agent ——它们可能是钉钉和飞书,可能是面壁智能的工作坊,也可能是 GLM 和 GPT 上的企业版。反正“我只要结果”,因为我真的每天只想工作四个小时。
- 前不久我跟钉钉的总裁叶军聊,我感觉到钉钉有一种想“洗心革面,重新做人”的紧迫感,特别想把自己从“小学生天敌”和“压榨员工神器”的名声里择(zhai)出来。于是它们搞了一个钉钉智能助理。我问这玩意儿能让我们每天只工作四个小时么?他说:如果可能的话每天就工作一个小时吧。事后,我觉得叶老师还是有点儿上头了。不过他说 AI Agent 能让更多人成为自己的老板,这个我倒是同意的。Agent 帮了你,你还会不会骂自己是傻X。