近日,谷歌DeepMind的研究团队提出了一种名为“苏格拉底式学习”(Socratic Learning)的新方法,该方法使得人工智能系统能够在封闭系统中自主进行递归增强,突破初始训练数据的限制。这一研究成果迅速引起了业界的广泛关注。
在传统的人工智能训练模式中,模型的进化往往依赖于大量的外部数据和明确的反馈。而苏格拉底式学习则通过一种独特的方式,使AI能够在没有外部数据的情况下自我进化。
研究团队指出,只要满足以下三个条件,在封闭系统中训练的智能体就能够掌握所需的能力:首先,智能体需要接收足够的信息量和一致的反馈;其次,其经验或数据覆盖范围要足够广泛;最后,智能体需要有足够的能力和资源。
在假设第三个条件不是瓶颈的情况下,研究团队深入探讨了第一个和第二个条件在封闭系统中的限制。苏格拉底式学习的核心是“语言游戏”,即一种结构化的交互方式。在这个过程中,智能体通过交流、解决问题,并以分数的形式接收反馈。智能体在封闭系统中自我游戏、生成数据、改进自身能力,无需人工干预。甚至,当游戏变得枯燥时,AI还能自己创造新游戏,解锁更多抽象技能。
苏格拉底式学习消除了固定架构的局限,使得AI的表现可以远超其初始数据和知识,仅受时间的限制。这种方法为迈向真正自主的AI迈出了重要一步。
研究团队进一步探讨了在一个随时间演变的封闭系统中,如何实现智能体的自我提升。他们提出,智能体输出可以影响未来的智能体输入,并使性能得到提高。这种自我改进的过程是递归的,例如自我博弈就是一种典型的例子。
在封闭系统中,智能体的学习反馈只能来自系统内部。这对系统来说是一个挑战:如何让反馈与外部观察者的评估保持一致,并在整个过程中保持一致性。
苏格拉底式学习与输出仅影响输入分布的一般情况相比,递归的自我提升更具限制性,但中介作用更少。这种类型的递归是许多开放式流程的一个属性,而开放式改进正是自主智能系统(ASI)的一个核心特征。
研究团队选择在语言空间中研究智能体的递归自我提升过程。他们认为,语言是人类广泛行为的介质,特别是在认知领域。语言的可扩展性使得在现有语言中开发新的语言成为可能,如自然语言中的形式数学或编程语言。
在自我提升的三个必要条件中,覆盖率和反馈对于苏格拉底式学习是适用的,且不可简化。从长远来看,即使计算和内存保持指数级增长,规模限制也只是一个暂时的障碍。另一方面,即使在资源受限的场景下,苏格拉底式学习也可能产生有效的高级见解。
在苏格拉底式学习中,覆盖率意味着系统必须不断生成数据(语言),同时随着时间的推移保持或扩大多样性。反馈则要求系统继续产生关于智能体输出的反馈,这需要一个能够评估语言的批评者,且应与观察者的评估指标保持充分一致。
目前,现有的语言模型训练范式都没有适用于苏格拉底式学习的反馈机制。例如,下一个标记预测损失与下游使用情况不一致,且无法推断训练数据之外的情况。
苏格拉底式学习模仿了哲学家维特根斯坦提出的“语言游戏”概念。维特根斯坦认为,捕捉意义的不是文字,而是需要语言的互动性质。在苏格拉底式学习中,语言游戏作为交互协议,为无限的交互式数据生成提供了一种可扩展的机制,同时自动提供反馈信号。
与使用单一通用语言游戏相比,使用许多狭义但定义明确的语言游戏具有优势。对于每个狭义的游戏,都可以设计一个可靠的分数函数(或评论家),这对于通用游戏来说非常困难。
苏格拉底式学习的整个过程就是一个元游戏,一个安排智能体玩游戏和学习的语言游戏。然而,苏格拉底过程并不能保证与外部观察者的意图保持一致。语言游戏作为一种机制也没有回避这一点,但它需要的不是在单个输入和输出的细粒度上对齐的批评家,而是一个可以判断应该玩哪些游戏的“元批评家”。
那么,如果从苏格拉底和他的弟子开始,数千年来一直不受干扰地思考和改进,会产生什么样的文化产物、知识和智慧呢?这是一个值得深思的问题。