“SimpleQA开源基准,破解大模型胡言乱语难题”

【IT之家报道】10月31日,知名人工智能研究公司OpenAI在近日宣布了一项重要举措,即开源一个名为SimpleQA的新基准工具。该工具旨在评估语言模型在回答事实性问题方面的准确性,从而助力解决当前AI领域中普遍存在的“幻觉”问题。

在AI技术不断发展的今天,如何训练模型生成准确无误的答案成为了一个挑战。当前的语言模型有时会产出错误或未经核实的回答,这一问题被称为“幻觉”。而SimpleQA的推出,有望为解决这一问题提供有力支持。OpenAI表示,SimpleQA旨在构建一个具备以下特点的数据集:

1. 高正确性:SimpleQA中的问题参考答案由两位独立的AI训练师进行验证,确保评分的公正性。
2. 主题多样性:涵盖了从科学技术到电视节目、电子游戏等多个领域的广泛主题。
3. 前沿挑战性:相比早期的TriviaQA(2017年)或NQ(2019年)等基准,SimpleQA更具挑战性,特别是在评估GPT-4等前沿模型时,其得分往往不足40%。
4. 高效用户体验:SimpleQA的问题和答案简洁明了,便于快速操作和评分。

SimpleQA包含4326个问题,旨在评估模型在事实准确性方面的表现。值得注意的是,SimpleQA虽然准确,但仅在短查询的特定场景下进行事实准确性测量。OpenAI指出,模型在短回答中表现出的准确性是否与其在长篇、多事实内容中的表现相关,仍是一个待解的研究课题。

OpenAI希望通过开源SimpleQA,进一步推动AI领域的研究发展,使模型更加可信和可靠。IT之家为您提供以下相关信息:

– 开源链接:https://github.com/openai/simple-evals/
– 论文链接:https://cdn.openai.com/papers/simpleqa.pdf

发表回复