复旦大学肖仰华谈AI泡沫与天花板

复旦大学计算机科学技术学院教授肖仰华认为,当前AI大模型技术正朝着加大训练数据、加大算力投入、堆积参数等方向发展。他强调,高质量的数据对于训练模型的可靠性至关重要,未来应着力提高数据质量。

肖仰华指出,随着人类产生的新数据量的增加,预计到2028年,AI大语言模型将耗尽人类数据。这意味着,无论是有质量的人类开放语料,还是互联网开源流通的信息语料,都将面临数据瓶颈,影响模型的进一步发展。

为应对这一挑战,肖仰华提出了一种解决方案:发展合成数据、私域数据和个人数据训练。他认为,通过这些方式可以进一步提升大模型的技术能力。同时,他还强调了合理利用数据的重要性,避免陷入过度依赖数据的困境。

对于未来的AI大模型发展,肖仰华认为需要关注以下几个方面:首先,要解决大模型生成不正确、无意义或不真实的文本的“幻觉”问题;其次,要提高数据的质量和多样性,避免“水分”;最后,要在保证数据质量的前提下,提高训练效率,推动AI大模型技术的发展与应用。

发表回复