谷歌开源数据统计分析AI工具“DataGemma”

近日,谷歌推出了其精心打造的大型数据库——Data Commons,以及基于此数据库开发的大模型——DataGemma,旨在解决大语言模型在处理统计数据时产生的幻觉问题。这一举措标志着谷歌在知识库和数据处理领域迈出了新的步伐。

Data Commons 是一个开放的数据库,汇集了来自联合国、疾病控制与预防中心、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的统计数据,总量超过2500亿个数据点和2.5万亿个三元组。

为了使Data Commons中的庞大数据库能够被大语言模型有效利用,DataGemma模型采用了创新的架构,并解决了三个关键问题:LLM在何时使用自身知识库,何时从外部获取信息;如何从众多信息源中选择合适的来源;以及如何生成查询以获取所需数据。此外,DataGemma还开发了用于外部数据和服务的单一通用API,简化了数据检索过程。

面对现实挑战,DataGemma需处理涉及逻辑、算术或比较运算的用户查询,如排名、经济规模、疾病发病率等。同时,公共统计数据的多模式和格式也需要大量的背景知识才能正确解读。为此,DataGemma利用检索增强生成(RAG)和检索交错生成(RIG)技术,以提高数据检索的准确性。

在数据共享方面,Data Commons通过创新方法实现了数据规范化,并利用自然语言界面,使用户能够用通用语言提出问题,并通过图表等方式探索庞大的数据库。值得注意的是,LLM在查询转换过程中仅负责将查询转换为Data Commons中的词汇表,不会与底层数据直接交互,避免了幻觉等问题。

在RIG和RAG两种方法中,RIG通过将LLM进行微调以生成自然语言数据共享查询,随后将查询转换为结构化数据查询,从而检索答案。而RAG则通过小型、经过微调的LLM生成与用户查询相关的自然语言查询,并通过Data Commons的自然语言接口获取相关表格。然后,将原始用户查询和检索到的表格交给长上下文LLM进行分析。

经过实际应用,RIG方法将真实性从5-17%提高至约58%,而RAG方法在引用数字时的准确率高达99%。这些成果展示了DataGemma在处理统计数据时的潜力和优势。

总之,Data Commons和DataGemma的推出,将为大语言模型在处理统计数据时提供更为可靠和准确的支持,进一步推动人工智能技术在各个领域的应用。

发表回复