AI对话困境：难辨插话时机

11 11 月 2024

AI对话困境：难辨插话时机

据最新研究，图夫茨大学的语言学家和计算机科学家发现，当前的大型语言模型在对话中处理“插话”的问题上存在明显不足，这一发现揭示了人工智能在对话交互能力上的局限性。该研究成果将在11月12日至16日在迈阿密举办的自然语言处理经验方法会议（EMNLP 2024）上被详细介绍，并已在arXiv预印本服务器上发表。

研究指出，人类在对话中通常会遵循一定的规则，即避免同时发言，轮流发言并倾听。人们通过评估多种线索来确定“话轮转换点”（TRP），即何时适当地插话。长期以来，人们认为对话中的“副语言”信息，如语调、音长、停顿和视觉线索，是识别TRP的关键。然而，图夫茨大学的JP de Ruiter教授的研究发现，当移除文本内容，仅提供韵律信息时，人们无法准确感知到TRP。相反，当仅以单调语音提供语言内容时，参与者能够在其中找到与自然语音中相似的TRP。这一结果表明，对话中轮流发言的关键线索是语言内容本身，而非停顿或其他辅助信号。

目前的人工智能模型，包括ChatGPT等，都是基于大量网络书面内容进行训练的。这些训练数据中缺乏大量的口语对话转录，而这些对话是即兴的，使用更简单词汇和短句，其结构与书面语言截然不同。由于AI没有在真实的对话环境中“成长”，因此它无法以更自然、更人性化的方式模拟或参与对话。

研究人员认为，通过对现有基于书面内容训练的大型语言模型进行微调，并结合对话内容的额外训练，有望提高其对话的自然度。然而，他们发现这种尝试仍然存在局限性，无法完全复制人类的对话能力。研究人员警告说，AI在自然对话上可能存在根本性的限制，因为它们主要基于浅层次的统计相关性来预测下一个单词，而轮流发言则需要从对话的深层语境中获取信息。

尽管研究人员提出，通过对大型语言模型进行预训练，使其在更大规模的自然口语语料库上训练，有可能克服这些限制，但收集如此大规模的数据来训练当前的AI模型仍然是一个巨大的挑战。与互联网上的书面内容相比，可用对话录音和转录的数量要少得多。

分秒AI研究院

分秒AI研究院

AI对话困境：难辨插话时机

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

AI对话困境：难辨插话时机

AI对话困境：难辨插话时机

分秒AI

发表回复 取消回复

发表回复取消回复