“AI成诺奖宠儿:Hinton对话催生物理领域AI热潮”

在昨日公布的诺贝尔物理学奖结果中,全球物理界和AI界为之震动。得主Geoffrey Hinton在得知这一消息后,甚至开玩笑说:“这不会是诈骗电话吧?”如此意外的获奖者,让原本对诺奖物理学奖的严谨预测瞬间成为笑谈。诺贝尔奖官方账号也因此被网友热议,纷纷留言表示:“这根本不是物理学!”“数据科学或神经网络是『用于』物理学的工具,但绝不是物理学本身。”

与此同时,AI界则呈现出一片欢腾景象。众多AI领域的专家和从业者纷纷为Hinton送上祝福。被誉为AI“教母”的李飞飞表示:“AI的深远影响才刚刚开始。”MIT博士生Ziming Liu直言:“Physics (Science) for AI”是一个被严重低估的领域。他认为,规模化可以实现一对多的效果,但唯有科学才能带来从无到有的突破。

业内人士Jim Fan更是创作了一个有趣的“AI-物理学对照表”,鼓励AI领域的学者们不断学习和进步。

那么,为何诺贝尔物理学奖要颁给AI学者呢?这还得从深度学习爆发的那一年讲起。

2012年,深度学习迎来了革命性的突破。早在1986年,Geoffrey Hinton等人在Nature上发表的论文,就使训练多层神经网络的“反向传播算法”闻名于世。当时,人们普遍相信这将是人工智能的未来。经过多年的努力,Hinton等人成功地证明了这一点。神经网络在经历了第一波寒冬之后,重新走向了AI舞台。

1989年,LeCun率先使用了反向传播和卷积神经网络,他同样相信Hinton的观点。他表示:“我毫不怀疑,最终我们在上世纪80-90年代开发的技术将被采用。”

然而,反向传播算法的热潮在1995年被统计机器学习所掩盖。统计机器学习风头一时无两,即使2006年Hinton在Science上首次提出“深度学习”,业内也反响寥寥。

直到2012年9月,一篇题为“用深度卷积神经网络进行ImageNet图像分类”的论文,让沉寂多年的AI领域再次掀起热潮。文中提出的AlexNet深度卷积神经网络,在当年的ImageNet比赛中以压倒性的优势夺冠,将top-5错误率降低到了15.3%,比第二名高出10多个百分点。

ImageNet数据集由斯坦福李飞飞团队在2007年创建。AlexNet的辉煌战绩,让研究人员对大型卷积深度神经网络架构的威力惊叹不已,这篇论文也成为了深度学习和人工智能自“AI寒冬”后重新成为热门领域的重要里程碑。

自2012年以来,深度学习的发展堪称“一场惊人的革命,令人做梦都没想到”。人们开始相信,大数据、算力、深度模型是走向通用人工智能的关键三要素。深度模型也从最初的卷积神经网络,迭代为递归神经网络、Transformer、扩散模型,直至今天的GPT。

从生理学、哲学到AI:大脑如何思考

年轻时,为了弄清楚人类大脑如何工作,Hinton先是在剑桥学习生理学,后又转向哲学,但最终都没有找到满意的答案。于是,他前往爱丁堡,开始研究AI,通过模拟事物的运行来测试理论。

Hinton认为,大脑学习的方式一定不是通过将各种事物编程到大脑中,然后使用逻辑推理。他坚信,必须弄清楚大脑如何修改神经网络中的连接,以便它可以完成复杂的事情。

某个周日,Hinton坐在办公室,突然有人敲门。正是这位敲门者Ilya,他的到来,使得AI命运的齿轮开始转动。

Ilya曾对Hinton表示:“我不懂你为啥不用个更好的优化器来处理梯度?”这句话让Hinton眼前一亮,这是他们花了好几年时间在思考的问题。Ilya坚信,只要把神经网络模型做得更大,就能得到更好的效果。Hinton当时认为这是一种逃避,但最终他同意了Ilya的观点。

2011年,Hinton带领Ilya和另一名研究生James Martins发表了一篇字符级预测的论文。他们使用维基百科训练模型,尝试预测下一个HTML字符。这是首次将嵌入(embedding)和反向传播应用于字符预测,模型将每个符号转换为嵌入,然后让嵌入相互作用以预测下一个符号的嵌入,并通过反向传播来学习数据的三元组。

当时,人们不相信模型能够理解任何东西,但实验结果令人震惊,模型仿佛已经学会了思考——所有信息都被压缩到了模型权重中。

AI如何“蹭”上物理学

那么,这些与物理学有什么关系呢?诺奖委员会的解释是,人工神经网络是用物理学工具训练的。Geoffrey Hinton曾以Hopfield网络为基础,创建了一个使用不同方法的新网络:玻尔兹曼机。在这个过程中,Hinton使用了统计物理学的工具来学习和识别数据中的模式。

John Hopfield与物理学的关系更为紧密。Hopfield网络是按物理学上能量函数最小化来构建的,可以看作是物理学中“自旋玻璃模型”的扩展。Hopfield网络利用了材料由于其原子自旋而具有的特性——这种特性使每个原子成为一个微小的磁铁。整个网络的描述方式等同于物理学中发现的自旋系统中的能量,并通过找到节点之间连接的值来训练,使保存的图像具有低能量。

统计力学原理是Hopfield Network和玻尔兹曼机的核心。它们都使用来自统计力学的能量函数来建模和解决与模式识别和数据分类相关的问题。能量函数在前者中被用来寻找与所存储的模式相对应的最稳定状态;在后者中,能量函数通过调整节点之间连接的权重来帮助学习数据的分布。

至此,诺奖委员会就自圆其说了。

John Hopfield:一个想法,波及三大学科

20世纪80年代初,John Hopfield在加州理工学院创建了一个简单的计算机模型——Hopfield Network。其行为方式不太像当时的计算机,而更像人脑。这是因为,Hopfield Network模拟了人脑储存信息的结构。它由相互连接的节点组成,正如人脑中的神经元一样。节点中的连接强度具有可塑性,可强可弱,而强连接进而形成了我们所说的“记忆”。

Hopfield学生,现Caltech计算机科学、计算与神经系统以及生物工程教授Erik Winfree解释道:Hopfield Network是物理学中“自旋玻璃模型”(the spin glass model)的扩展。自旋玻璃有两种磁化状态,可以称之为它的“记忆”。Hopfield扩展了这一模型,让其有了更复杂的连接模式。简言之,他使用一个简单的规则,让每对单元(每个节点)之间有不同的连接强度,而不再局限于两种状态。他的工作证明了,这种网络可以储存多种复杂的模式(记忆),而且比之前的方法更接近大脑运作方式。

Hopfield以一种跨学科的视角阐述这个模型,解释了人工神经网络与物理学之间的联系。复旦大学计算机科学教授张军平认为,Hopfield Network与物理学领域的关联在于,它的设计思路模拟了电路结构。“假设网络每个单元均由运算放大器和电容电阻组成,而每个单元就代表着一个神经元。”

在普林斯顿大学新闻发布会上,Hopfield表达了同样的观点。他认为,长远来看,新科学领域通常产生于大量科学知识的交叉点上。你必须愿意在这些“缝隙”中工作,找出你的知识局限性,以及让这些学科更丰富、更深入、更好被理解而采取的行动。

来自MIT-IBM实验室物理学家Dmitry Krotov分享道,Hopfield Network一个想法至少对三大学科产生了巨大的影响:统计物理学、计算机科学和人工智能、神经科学。2023年,他曾发表一篇Nature论文,对Hopfield Network在统计物理、神经科学和机器学习等多个学科中进行了分析。论文地址:https://www.nature.com/articles/s42254-023-00595-y

Krotov也与Hopfield合作过多篇研究,因此他对Hopfield Network工作了解得非常清楚。在统计物理学中,Hopfield Model成为最常被研究的哈密顿量(Hamiltonian)之一。哈密顿量在物理学中描述了系统的总能量,是理解系统行为的关键。这一模型已经催生了数以万计的论文、几本书籍。它为数百名物理学家进入神经科学和人工智能提供了切入点。

在计算机科学中,Hopfield Network终结了AI寒冬(1974-1981),并开启了人工神经网络的复兴。Hopfield在1982年发表的论文,标志着现代神经网络的开始。论文地址:https://www.pnas.org/doi/10.1073/pnas.79.8.2554

就连如今的顶会NeurIPS,起源也可以追溯到1984-1986年在加州理工学院举行的被称为“Hopfests”的会议。这个名字直接致敬了Hopfield,彰显了他的早期工作在神经网络研究中的核心地位。John Moody在1991年的NeurIPS论文集中记录了这段历史。

Hopfield Network还成为了限制玻尔兹曼机(Restricted Boltzmann Machine)发展的主要灵感来源。RBM在早期深度学习中发挥着重要的作用。还有基于能量的模型(Energy Based Model),代表着人工智能领域中一个重要的范式。它也是从Hopfield基于能量和记忆的模型发展而来。

在神经科学领域,Hopfield Network成为后来许多计算记忆模型的基础。它将记忆回忆概念化,即能量景观中滚下山坡的想法,已成为神经科学中的经典隐喻。

这次“诺奖风波”后,许多人也对如今的学科分类有了全新的思考。不可否认的是,AI已经融入了全学科、全领域。而这次诺贝尔物理学奖颁给AI,也是AI大爆发对人类社会颠覆影响的一个真实写照。

发表回复