“Qwen2.5升级再突破，RAG地位遭挑战！

国产大型语言模型（大模型）领域近日迎来了一场激烈的竞争。就在不久前，Qwen2.5系列模型在代码处理能力上创造了新的SOTA（最先进技术水平），而其新成员Qwen2.5-Turbo近日又进行了重大更新，展现了惊人的上下文处理能力。

Qwen2.5-Turbo的创新之处在于其卓越的文本处理能力，它能在45秒内快速总结出《三体》三部曲共69万个token（文本标记单元）的主要内容。这一成果通过“大海捞针”实验得到了验证，在100万个token的上下文中，Qwen2.5-Turbo表现出了近乎完美的理解能力。

这一新版本显著提升了上下文长度，从原先的128k扩展至1M，相当于100万个英文单词或150万个汉字。这意味着，Qwen2.5-Turbo能够一次性处理10部长篇小说、150小时的语音记录或30000行代码。

在推理速度方面，Qwen2.5-Turbo得益于稀疏注意力机制，处理百万级别上下文时的首字返回时间缩短至68秒，相比之前提升了4.3倍。更重要的是，其成本仅为0.3元/1M tokens，是GPT-4o-mini的3.6倍。

这一系列更新引起了网友的热烈讨论，有人认为，在如此长的上下文和快速速度下，传统的检索式助手（RAG）技术已经显得过时。同时，也有网友对Qwen2.5-Turbo在开源领域的潜力表示期待，认为它甚至比Llama更有潜力。

除了卓越的文本总结能力，Qwen2.5-Turbo还能快速掌握整个代码库的信息，甚至对大量论文进行分类和摘要。在更复杂的长文本任务上，如RULER和LV-Eval基准测试中，Qwen2.5-Turbo的表现同样出色，超越了GPT-4o-mini和GPT-4。

值得一提的是，Qwen2.5-Turbo在扩展上下文长度时，并未牺牲短文本处理性能。在短文本任务上，它甚至超越了其他上下文长度为1M tokens的开源模型，同时能够处理8倍于GPT-4o-mini和Qwen2.5-14B-Instruct的上下文。

在推理速度方面，Qwen2.5-Turbo利用稀疏注意力机制，将注意力部分的计算量压缩至原来的2/25，在不同硬件配置下实现了3.2-4.3倍的加速比。

目前，Qwen2.5-Turbo的Demo已在HuggingFace和魔搭社区上线，API服务也已在阿里云大模型服务平台上线，与OpenAI API兼容。

关于模型权重的开源计划，阿里通义开源负责人林俊旸表示，目前还没有具体计划，但团队正在努力中。HuggingFace联合创始人Thomas Wolf也积极呼吁开源。

想要体验Qwen2.5-Turbo的强大功能，可以访问以下链接：https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

更多详情请参考：https://qwenlm.github.io/zh/blog/qwen2.5-turbo/