AI对话困境:难辨插话时机
据最新研究,图夫茨大学的语言学家和计算机科学家发现,当前的大型语言模型在对话中处理“插话”的问题上存在明显不足,这一发现揭示了人工智能在对话交互能力上的局限性。该研究成果将在11月12日至16日在迈阿密举办的自然语言处理经验方法会议(EMNLP 2024)上被详细介绍,并已在arXiv预印本服务器上发表。
研究指出,人类在对话中通常会遵循一定的规则,即避免同时发言,轮流发言并倾听。人们通过评估多种线索来确定“话轮转换点”(TRP),即何时适当地插话。长期以来,人们认为对话中的“副语言”信息,如语调、音长、停顿和视觉线索,是识别TRP的关键。然而,图夫茨大学的JP de Ruiter教授的研究发现,当移除文本内容,仅提供韵律信息时,人们无法准确感知到TRP。相反,当仅以单调语音提供语言内容时,参与者能够在其中找到与自然语音中相似的TRP。这一结果表明,对话中轮流发言的关键线索是语言内容本身,而非停顿或其他辅助信号。
目前的人工智能模型,包括ChatGPT等,都是基于大量网络书面内容进行训练的。这些训练数据中缺乏大量的口语对话转录,而这些对话是即兴的,使用更简单词汇和短句,其结构与书面语言截然不同。由于AI没有在真实的对话环境中“成长”,因此它无法以更自然、更人性化的方式模拟或参与对话。
研究人员认为,通过对现有基于书面内容训练的大型语言模型进行微调,并结合对话内容的额外训练,有望提高其对话的自然度。然而,他们发现这种尝试仍然存在局限性,无法完全复制人类的对话能力。研究人员警告说,AI在自然对话上可能存在根本性的限制,因为它们主要基于浅层次的统计相关性来预测下一个单词,而轮流发言则需要从对话的深层语境中获取信息。
尽管研究人员提出,通过对大型语言模型进行预训练,使其在更大规模的自然口语语料库上训练,有可能克服这些限制,但收集如此大规模的数据来训练当前的AI模型仍然是一个巨大的挑战。与互联网上的书面内容相比,可用对话录音和转录的数量要少得多。