AI Agent的任务，是让我们每天最多工作四个小时

4 2 月 2024

AI Agent的任务，是让我们每天最多工作四个小时

2024年，满城尽带AI Agent。上个月还说自己在做AI Copilot的人，这个月就说自己做的是Agent了。现在流行AI黑客马拉松，一场下来，至少能看见几十个所谓的“AI Agent”。
大语言模型爆发这一年，我们在“概念陷阱”里鬼打墙，满嘴跑火车，大侃各种新名词：Agent、Copilot、RAG、Reasoning、Grounded、Alignment……说实话我有点烦了，嘴上不挂着这些词，就不配搞AI么？更重要的是，当人们讨论一个名词的时候，他们讲的是一回事么？
比如“AI Agent”：你做了一个自动写小红书文案的GPTs，说这是写作Agent；我做了一个基于大语言模型的RPG游戏角色模拟器，说它是游戏开发Agent……这时候有人说：这些都是AI辅助工具，充其量也就是Copilot（副驾驶），你看斯坦福大学和Google搞的“斯坦福小镇”，25个AI互相沟通和协作，那才是真正的AI Agent。究竟谁说的对？什么才是AI Agent？这其实就是我们的现状：当下讨论一个AI概念，人们缺乏共识的定义作为前提，在认知从来没“对齐”（align）过。
很多人拿“AI Agent”当成一个大语言模型时代的新名词讨论，殊不知“Agent”是一个骨灰级的人工智能概念。我钩沉了一下，“Agent”第一次作为人工智能术语的出现，是1995年出版的经典人工智能教科书《人工智能：一种现代方法》（Artificial Intelligence: A Modern Approach）。这本书对人工智能的定义是：“智能代理的研究和设计”（study and design of intelligent agents）。这么看，“Agent”被视作人工智能发展的终极目标，至少也是快30年前的事了。它折射了人类发展人工智能的初衷，即寻找人类的一切行为的“代理人”。
不少人还忽略了“Agent”其实也是人们耳熟能详的经济学和组织行为学的概念。现代经济社会充斥着各种各样的“Agent”，比如我们熟悉的公关代理公司（PR Agency）、旅行社（Travel Agency）等，它们具备一个机构代表一方行动和交易的意涵。人工智能定义的“Agent”，意义与经济学和组织行为学是接近的——即AI作为一个人或一个组织的代表，进行某种特定行为和交易，降低一个人或组织的工作复杂程度，减少工作量和沟通成本。
人工智能真正具备成为“Agent”的能力，靠的是大语言模型。AI Agent 这个古老的概念在2023年的翻红并不是个巧合。OpenAI 安全团队负责人Lilian Weng的著名文章《LLM Powered Autonomous Agents》，被普遍视作是 OpenAI 对 “AI Agent” 的官方定义。该文将 Agent 定义为大语言模型（LLM）、记忆（Memory）、任务规划（Planning Skills）和工具使用（Tool Use）的集合，其中 LLM 是核心的大脑，记忆、任务规划和工具使用是 Agent 的三个核心组件。值得注意的是，该文强调 Agent 自主调取外部 API 的工具使用，自主对任务进行子目标分解，自主建立思维链（CoT）、以及自我批评和自我反馈的能力——它们都指向了文章标题的关键词“autonomous”，即 Agent 的自动化。
人工智能革命被普遍称作是“第四次工业革命”，前三次分别依次是19世纪初的蒸汽机革命、19世纪末的电力革命、20世纪中叶的信息技术革命。贯穿前三次人类工业革命的关键词当属“自动化”（automation）。蒸汽机和电力革命实现了围绕工业生产的体力劳动的自动化，提高了生产效率。信息技术革命在进一步提高工业生产自动化程度的同时，也可以代替人类进行一部分脑力劳动。作为第四次工业革命的人工智能革命，一方面将工业生产的自动化进行得更加彻底（比如机器人和传感器遍布的无人工厂），另一方面前所未有开启了脑力劳动的自动化进程。而脑力劳动自动化的载体，就是 AI Agent。
从这个意义上，对什么是 AI Agent 的争论是有些无聊的。“斯坦福小镇”是基于论文的先锋实验，将它作为评判一个 AI 应用是不是“Agent”的坐标，无助 AI Agent 提高智力密集型工作的效率。我下一个暴论：AI Agent 本质上就是“automation of human action”（人类行为的自动化）。只要它不是在人类手把手要求下完成任务，就像在ChatGPT的对话框输入prompt、启动 Office 365的“副驾驶”（Copilot）完成每一项具体工作那样，而是具备了一定程度的完成任务的自主性甚至是不完全可控性，它就是一个 AI Agent。
现在一个比较尴尬的局面是：可能你读过不下20篇关于 AI Agent 的论文和公众号推文，也没真正上手过一个用得顺手的Agent，这恐怕是 Agent 作为一个新物种注定经历的阶段。一直以来，人们经常提到 AI Agent 典范是接入了GPT能力的AutoGPT。不过现在，无论是在美国还是中国，已经有了一些更好用的 AI Agent 的雏形。可以趁机安利一下了。
第一个是 ChatGPT 新进推出的升级付费版——ChatGPT Team。它提供了在一个小型企业内部，用个人的 ChatGPT账号实现协作的“私域空间”，ChatGPT Team 的用户数据不会被用来反向训练GPT模型，用户还可以创建企业内部的 GPTs，让这些 GPTs 互相协作。讲真，我觉得 ChatGPT Team 比 GPT Store 更重要，也更实用。现在的 GPT Store 太乱了，大多数 GPTs 粗糙不堪，对话框指令什么它帮你做什么，而且基本不能调用 API 。但私密环境使用的 ChatGPT Team，GPTs 互相调用接口、彼此协作也顺利成章多了。ChatGPT Team 是 ChatGPT 这个全世界有着最多用户的超级 AI 平台，走向 AI Agent 的第一步（毕竟ChatGPT已经有15万企业客户了）。
第二个是智谱 AI 的 GLM 模型智能体（GLMs）。清华色彩强烈的智谱 AI 是中国最像 OpenAI 的公司，刚推出的 GLM-4 全面对标 GPT-4，在诸多评测基准上达到了GPT-4 85%以上。GLMs 是 GLM-4 的副产品，也是 GLM-4 模型能力的外溢。GLM-4 的“All Tools”支持 GLM-4 依据用户的需求，自主决定用绘图、搜索、制作表格还是代码编程解决问题——这本身就具备了 AI Agent 的属性。与 Open AI 只追求通用性不同，智谱 AI 针对金融、医疗和教育等垂直行业都有一系列定制部署服务，积累了一定的 to B 客户基础和行业 know-how，这让智谱的客户基于 GLM-4 部署 GLMs 智能体变得更合理，也更容易些。

第三个是同属清华背景的“面壁智能”：面壁智能是有自己的“斯坦福小镇”的，它基于面壁智能的 ChatDev 框架。但面壁智能的“小镇”不是一个虚拟社会，而是一个 AI 版的软件公司。不同的 AI 智能体被设计为程序员、产品经理、测试工程师和设计师等角色，它们可以彼此协作，还能站在自己的立场上互相博弈——就跟办公室里每天发生的事一样。面壁智能的ChatDev框架支持开发者搭建属于自己的 AI Agent，把单体智能和群体智能结合起来，让AI Agent 成为每一个员工都可以用起来的，可以“逃避”很多狗屎工作的办公自动化工具。顺便提一句，ChatDev框架的成形并不比“斯坦福小镇”的论文发布晚，它给人们最大的启示在于原生 AI 应用开发的一个可能性—— AI Agent 实现 AI 应用开发的自动化。
第四、五个分别是钉钉和飞书的“智能体”实践。AI Agent 本质更接近产品而非技术，如果我们认为 AI Agent 是生产力工具，那就不能忽略在钉钉和飞书上已经存在的上亿用户，百万政企组织，海量的文档、会议纪要、沟通记录、多维表格和自建工具——这些工具让钉钉的“智能助理”和飞书的“智能伙伴”，更容易化身成每一个使用它们的打工人的嘴替和脑替，能部分自主地完成一些事务性的狗屎工作，如工作总结、会议纪要、走报销和出差流程、跟进一件事的反馈，甚至可能帮人代理扯皮和撕X。作为钉钉和飞书的双料用户，我必须说：现在的钉钉智能助理和飞书智能伙伴离“好用”还差得远——这恐怕是通义大模型和云雀大模型的锅。但论场景丰富、数据真实、用户数量，钉钉的“智能助理”和飞书“智能伙伴”更容易被真正“用起来”。Agent 也是在被用起来的过程中具备更好的理解能力的。一旦模型进步了，钉钉和飞书的 Agent 化就会往前走一大步。我再下一个暴论——钉钉和飞书会成为国内 AI Agent 重要的产品。
在“好用”和“好玩”之间，我坚信对 AI Agent 而言，“好用”比“好玩”重要。它首先是一个生产力工具。那些 AI 陪伴的纸片男女友也有理解能力和情绪价值，但它们可以被叫作“智能体”或“智能玩偶”，但不是“智能代理”，因为它们不具备代理人类完成某项任务或使命的功能。所以 AI Agent 被翻译成“智能体”是不合适的，它就是“智能代理”，“代理”是 AI Agent 的经济学和组织行为学属性，也是它推动脑力劳动自动化的本质。
在不久前结束的CES上，斯坦福大学著名人工智能学者李飞飞提出了一个重要观点：应该明确 AI Agent 取代的是人类的“任务”而不是“工作”。在达沃斯论坛上，OpenAI CEO Sam Altman 在面对“AI 让人失业”这一老生常谈的诘问时，表达了一个更直接的观点：“AI 取代的是人们工作的方式，而不是工作本身”。

我非常同意李飞飞和 Sam Altman两位老师的观点，脑力劳动工作者的工作是由一个个具体的关键任务组成的，但这不是工作的全部。目标设定、创造性、资源获取和分配、设定更高的目标、组织不同的任务、判断力、说服力与表现力……我们的工作中有太多更有意义的元素了。把工作中流程、事务性和常规操作的“任务”交给 Agent，少写几行常规代码，少发几封battle 邮件，少做一些机械操作的表格，少调几次 PPT 格式，少复制粘贴，少亲自发起和审批一些常规的出差和报销流程，我们的工作应该愉快得多，也有创意得多。

当然，AI Agent 的普及，也许会让一些“白领工人”无所适从甚至失去工作，但它会极大限度地提升很多岗位——甚至包括基层岗位上面的聪明的人的创造性、格局感、整体感和生产力，在提高工作效率，创造更多生产力的同时，更重要的是减少工作时长。
“八小时工作制”在全球成为通用标准已经是差不多100年前的事了。人们之所以能每天只工作8个小时，是工人阶级抗争的结果，也是电力工业革命以来生产力大爆发的产物。在更高的生产效率面前，人们有底气为自己争取更少的工作时间、更高的工资和更多的学习、休闲、旅游消费时间。但是，计算机革命以来，人类的生产效率又前所未有地提升了，为什么人们的工作时长没有进一步减少，反而在一些号称是最高智力密集的科技和互联网公司还增加了呢？还搞起了996呢？这里面是不是一定出了什么问题？
请允许我再来一个暴论：未来衡量一个 AI Agent 的智能化程度如何，可以看它是不是能让我们每天只工作四个小时。那些重复性的、流程化的、条件反射式的、经验主义奏效的、强化学习可以理解的，甚至表演性的工作，交给 AI Agent ——它们可能是钉钉和飞书，可能是面壁智能的工作坊，也可能是 GLM 和 GPT 上的企业版。反正“我只要结果”，因为我真的每天只想工作四个小时。

前不久我跟钉钉的总裁叶军聊，我感觉到钉钉有一种想“洗心革面，重新做人”的紧迫感，特别想把自己从“小学生天敌”和“压榨员工神器”的名声里择（zhai）出来。于是它们搞了一个钉钉智能助理。我问这玩意儿能让我们每天只工作四个小时么？他说：如果可能的话每天就工作一个小时吧。事后，我觉得叶老师还是有点儿上头了。不过他说 AI Agent 能让更多人成为自己的老板，这个我倒是同意的。Agent 帮了你，你还会不会骂自己是傻X。

分秒AI研究院

分秒AI研究院

AI Agent的任务，是让我们每天最多工作四个小时

分秒AI研究院

发表回复取消回复

分秒AI研究院

分秒AI研究院

AI Agent的任务，是让我们每天最多工作四个小时

AI Agent的任务，是让我们每天最多工作四个小时

分秒AI研究院

发表回复 取消回复

发表回复取消回复