《自然》子刊公布首个中文脑电图数据集研究成果
近日,我国南方科技大学刘泉影教授与澳门大学伍海燕教授联合领导的研究团队发布了一项具有里程碑意义的研究成果——首个专注于中文语言的脑电图数据集“ChineseEEG”。这一数据集对于神经科学、语言学等相关领域具有重要意义,同时在脑机接口、语义解码等领域具有广泛应用前景。
研究团队表示,ChineseEEG数据集的建立不仅是天桥脑科学研究院(TianQiao & Chrissy Chen Institute, TCCI)资助的首个中文脑电图数据集研究项目,也是TCCI发起的MindD数据支持计划的第一个资助项目。此外,该数据集还是《Nature》子刊上首个用于语义对齐和神经解码的中文语言的脑电图数据集。
由于语言是人类交流的核心,无论使用母语还是学习新语言,大脑都能迅速理解和表达。为了更好地研究大脑语言处理机制,科学家们需要大量的神经信号数据。然而,目前针对中文的脑电图数据集相对较少。为了填补这一空白,刘泉影教授和伍海燕教授的研究团队决定使用两部经典中文小说《小王子》和《狼王梦》作为实验材料。
参与实验的每位志愿者都进行了长达12小时的中文文本阅读。在这期间,研究团队记录了志愿者的脑电图等数据。实验分为一个练习阅读阶段和两个正式的阅读阶段,每个阶段包含多个实验运行。通过对这些数据的分析,研究者可以深入了解大脑如何处理和理解中文。
ChineseEEG数据集的优势在于,它不仅提供了多种预处理后的脑电图传感器级数据,还提供了由BERT-base-chinese模型生成的中文文本嵌入,为研究自然语言处理模型中的文本表示与大脑神经活动之间的关系提供了新的视角。研究人员可以利用这些数据集深入分析大脑如何处理中文,推动跨语言神经科学研究的发展。
ChineseEEG数据集有望在以下几个方面得到应用:1. 脑电图的时频分析,帮助提取神经振荡的不同频段;2. 脑电图源重建,揭示大脑活动的源头;3. 文本嵌入,利用预先训练好的技术计算小说的嵌入,探索脑电图与文本之间的关系;4. 数据对齐,帮助研究者更好地理解他们收集到的数据,将脑电图数据与文本内容和眼动追踪数据对齐。
未来,随着技术的进一步成熟和数据集的不断丰富,我们预期会有更多创新研究成果涌现,深化人类对大脑如何处理语言和其他复杂任务的理解。MindD数据支持计划也将继续助力相关领域突破数据瓶颈,为“AI+脑科学”的发展奠定坚实基础,同时吸引更多国际合作和跨学科研究,加速AI技术在医疗和健康领域的实际应用。