大模型警示:OpenAI o1准确率剧降36.3%
近日,普林斯顿大学与纽约大学的研究团队对思维链(CoT)在大语言模型(LLM)性能中的影响进行了深入研究。研究发现,尽管CoT在许多任务上显著提升了LLM的表现,但在特定情境下,CoT甚至可能导致模型性能下降。
该研究团队受到对人类认知过程的影响的启发,认为可以借鉴对人类“性能”产生负面影响的情况,来推测CoT可能对模型产生的负面影响。他们选取了心理学中六个已被充分研究的任务类型,以探究CoT对LLM性能的影响。
研究发现,在隐性统计学习、面部识别和含例外模式的数据分类等三种情况下,CoT甚至会导致SOTA模型的性能明显下降。此外,该研究还揭示了通过心理学研究大模型的可能性。
研究方法基于两个关键条件:言语思考或深思熟虑会损害人类“性能”,以及将制约人类“性能”的因素推广到语言模型。研究团队基于此设计了六种任务场景,包括隐性统计学习、面部识别、含例外模式的数据分类、解释逻辑不一致、空间直觉和特征聚合决策。
实验结果表明,在隐性统计学习和面部识别任务中,CoT提示的使用导致模型表现显著下降。在含例外模式的数据分类任务中,CoT提示使得模型在处理异常情况时需要更多的学习轮次。在解释逻辑不一致任务中,CoT增加了模型忽视矛盾的可能性。
然而,在空间直觉和特征聚合决策任务中,CoT对模型表现的影响并不明显。在空间直觉任务中,CoT提示对模型表现无明显影响,这可能是因为模型在推理方式上与人类的直觉存在差异。在特征聚合决策任务中,CoT提示在高上下文记忆任务中提高了模型表现。
尽管该研究存在一些局限性,如推理类型和应用范围的限制,但它为未来优化LLM的提示策略提供了新的思路,并为我们理解人类与模型在推理过程中的相似性与差异性带来了新的见解。研究团队表示,未来需要更多的跨学科合作,以形成更全面的AI评估和改进策略。