三万亿Token！AIlen AI发布史上最大文本数据集Dolma，已开源

22 8 月 2023

三万亿Token！AIlen AI发布史上最大文本数据集Dolma，已开源

随着科技的飞速发展，大型语言模型已经成为了人工智能领域的热门话题。近日，AI研究机构Allen Institute for AI发布了一个名为Dolma的开源语料库，这个语料库包含了3万亿的token，成为了迄今为止最大的开源数据集。

1、Dolma的诞生背景

从今年3月开始，Allen Institute for AI开始创建一个名为OLMo的开源语言模型，旨在推动大规模NLP系统的研究。他们的主要目标是以透明和开源的方式构建OLMo，通过发布工程中的各种成果和文档来记录整个项目的进展。而Dolma就是这个项目中发布的第一个数据成果。这个数据集包含了来自网络内容、学术出版物、代码、书籍和维基百科材料的3万亿token。这个数据集已经在HuggingFace Hub上公开，任何人都可以下载。

地址：https://huggingface.co/datasets/allenai/dolma2、Dolma的目标

开源：AI2希望创建一个数据集，使其他研究者有机会独立地创建更好的版本，研究数据与其上训练的模型之间的关系，并报告他们在检查数据时观察到的任何问题。
代表性：Dolma的语料库应该与其他语言模型使用的数据集相当。
大小：AI2希望收集一个大型数据集，以研究模型和数据集大小之间的关系。
可复制性：在准备数据集时开发的所有工具都应该公开提供，供其他人复制他们的工作。
风险缓解：Dolma应该在满足可复制性和代表性的要求的同时，尽量减少对个人的风险。

3、Dolma数据集的设计原则

在创建Dolma时，需要遵循四个原则：

遵循现有的实践：通过匹配用于创建其他语言建模数据集的方法，A使广大研究社区能够使用数据集和生成的模型工件来间接研究（并审查）今天正在开发的语言模型，即使那些在封闭的门后开发的模型。
信任评估套件：AI2为OLMo开发的评估套件可以提供模型在多种任务上的能力指标；当做出直接影响这些任务之一的数据相关决策时，我们选择改进指标的干预。例如，AI2在Dolma中包括Wikipedia文本，因为它提高了K-12科学知识任务的性能，例如ARC。
支持AI2的核心研究方向：不是所有的数据集策划决策都是关于基准性能的。事实上，许多理想的干预措施彼此相互矛盾。例如，AI2希望OLMo既能处理代码任务，也能处理文本任务，但添加包含代码的文档会降低许多文本基准的性能，反之亦然。
采取基于伤害的风险缓解方法：为了研究的利益，某些界限不应该被越过，即使它们在大规模语言建模项目中是常见的实践。AI2在项目的早期与法律和伦理专家进行了接触，并根据他们的反馈对数据设计决策进行了评估。

4、Dolma的创建过程

Dolma的创建涉及从多个来源获取的原始数据转化为清洁的纯文本文档。这些数据处理步骤通常分为两类：特定于来源和与来源无关。如下图所示，预训练语料库的创建需要这两种操作的组合；多个转换按顺序在一个管道中执行。

5. Dolma与封闭数据集的比较

以下表格提供了不公开其预训练数据的语言模型的高级摘要。为了使表格不至于过大，AI2将其限制为65B+参数规模的全密集、自回归模型。✔ 表示引用的作品明确描述了论文中报告的处理步骤，？表示缺少报告，~表示仅存在部分信息。

6. Dolma与其他数据集的比较

Dolma与其他开源数据集的主要区别在于，它的大小远远超过其他开源数据集，并且它是在AI2的ImpACT许可下发布的，这是为了平衡易于访问与分发大型数据集的潜在风险。

7. Dolma的发布

Dolma在AI2的ImpACT许可下作为中等风险工件发布。根据此许可，研究者必须：

提供他们的联系信息，并声明他们访问Dolma的预期用途；
披露基于Dolma创建的任何衍生物；
根据ImpACT许可的相同限制分发衍生物；
同意不利用Dolma进行一系列禁止的用途，如军事监视或生成假信息。

8.未来展望

Dolma的发布不仅仅是一个技术上的里程碑，更是对开放研究和透明度的一次重要承诺。随着技术的不断进步，我们期待看到更多的创新和突破，为人工智能和机器学习的未来铺设坚实的基石。Dolma的出现，为我们揭示了一个充满无限可能的未来。

参考链接：https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友，扫下方二维码加入我们人工智能交流群

分秒AI研究院

分秒AI研究院

三万亿Token！AIlen AI发布史上最大文本数据集Dolma，已开源

分秒AI研究院

发表回复取消回复

分秒AI研究院

分秒AI研究院

三万亿Token！AIlen AI发布史上最大文本数据集Dolma，已开源

三万亿Token！AIlen AI发布史上最大文本数据集Dolma，已开源

分秒AI研究院

发表回复 取消回复

发表回复取消回复