“FrontierMath发布,AI数学题库挑战,多项未见题型多胜出”
近日,知名研究机构Epoch AI发布了一项名为“FrontierMath”的全新AI模型数学基准测试集,这一测试集旨在对AI模型的数学推理能力进行全面评估。与现有的GSM-8K、MATH等测试题集相比,FrontierMath中的数学题目难度更高,覆盖了数论、代数和几何等多个现代数学领域,其复杂性甚至让一些数学专家解答起来也需要耗费数小时甚至数天的时间。
据悉,FrontierMath的题目设计由AI领域的资深专家负责,其要求AI模型不仅需要理解数学概念,还需具备在复杂情境下进行推理的能力,以此避免模型通过以前学习过的类似题目来获取答案。研究机构强调,这一测试集的设立旨在避免AI模型简单地利用已知的相似题目进行比对作答。
Epoch AI通过FrontierMath对市场上现有的AI模型进行了初步测试,结果显示,包括曾在这类测试中取得极高分数的Claude 3.5和GPT-4等模型,在FrontierMath中的解题成功率都低于2%。研究团队指出,AI在解决高级数学问题时的主要障碍在于,这些模型通常依赖于训练数据中的类似题目来生成答案,而不是对问题本身的逻辑结构进行深入理解和推理。
这一发现意味着,目前市场上的许多AI模型在面对未见过的问题时,容易出现错误。而要解决这一根本性问题,并非单纯依靠扩大模型的规模,而是需要从模型推理架构的层面进行根本性的改进。Epoch AI的这一研究成果将对AI模型的未来发展产生重要影响,为AI领域的研究者和开发者提供了新的思考和方向。