AI大语言模型“幻觉”评测新基准发布

近日,谷歌DeepMind团队在官方博客上宣布推出一项名为FACTS Grounding的新基准测试。该测试旨在评估大型语言模型(LLMs)在根据给定材料准确作答、避免捏造信息(即“幻觉”)方面的能力,从而提高LLMs的事实准确性,增强用户信任,并扩大其应用领域。

新发布的ACTS Grounding数据集包含1719个示例,覆盖金融、科技、零售、医疗和法律等多个领域。每个示例都包括一篇文档、一条系统指令和相应的提示词,要求LLM基于文档内容进行回答。文档长度各异,最长可达32000个token(约20000字)。任务类型包括摘要、问答生成和改写等,不包括需要创造力、数学或复杂推理的任务。

数据集分为860个“公共”示例和859个“私有”示例。目前,公共数据集已对外开放,用于评估测试;私有数据集则用于排行榜评分,以防止基准污染和排行榜作弊现象。

评估方案方面,FACTS Grounding使用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet 3款模型作为评委,从答案的充分性、事实准确性和文档支持性等方面进行评估。评估过程分为两个阶段:首先,判断答案是否充分回答了用户请求;其次,评估答案的事实准确性,判断是否存在“幻觉”现象。最后,根据模型在所有示例上的平均得分,计算出最终的评估结果。

在此次基准测试中,谷歌的Gemini模型在事实准确的文本生成方面取得了最高分。这一成果标志着在提升LLMs事实准确性的道路上,我们又迈出了重要的一步。更多关于FACTS Grounding Benchmark的信息,请访问Google DeepMind的官方博客。

发表回复