AI领域惊爆大揭秘:Nature论文高价售出喂养AI

近年来,人工智能(AI)技术的飞速发展引起了广泛关注。在这个过程中,许多学术出版商开始寻求与科技公司合作,将论文等学术资源用于训练AI模型。然而,这一行为引发了关于论文作者权益的讨论。据英国学术出版商泰勒·弗朗西斯(Taylor & Francis)上月披露,已与微软达成一项价值1000万美元的协议,允许微软使用其数据训练AI模型。同样,美国出版商威利(Wiley)在今年初的一项投资者更新中表示,已允许某家公司使用其内容训练模型,随后该公司的市值一夜之间暴增2300万美元。然而,这些巨大的利润并未惠及论文作者,他们的权益受到了忽视。

此外,研究人员还发现,即使论文不在可公开访问的数据库中,也可能被AI模型所使用。例如,一篇论文从构思到完成的每一个细节都包含了作者的心血,但在模型训练完成后,它是无法删除的。如何确保论文不被未经授权的使用,成为了当前亟待解决的问题。

为了解决这一问题,一些研究人员已经开始尝试利用已有的学术资源,如学术预印本平台arXiv。例如,ACL 2024接收了一篇论文,探讨了如何利用arXiv中的图文构建高质量多模态数据集。此外,纽约大学的谢赛宁教授和Yann LeCun等人发布的Cambrian模型也使用了这一数据集。通过利用arXiv的大量多样数据进行训练,AI模型的数学推理能力得到了显著提高。

然而,论文作者的权益仍然受到侵犯。尽管论文可以为AI模型提供丰富的训练数据,但大多数出版商在用户订阅条款中并未明确规定,用户是否可以将论文用于模型的训练。因此,论文作者在发现自己的作品被用于训练AI模型后,往往难以维护自己的权益。

综上所述,AI技术的发展带来了许多机遇,但也引发了一系列伦理和法律问题。如何保障论文作者的权益,确保他们在AI技术繁荣中所获得的利益,值得我们深入思考。

发表回复