国产大型语言模型(大模型)领域近日迎来了一场激烈的竞争。就在不久前,Qwen2.5系列模型在代码处理能力上创造了新的SOTA(最先进技术水平),而其新成员Qwen2.5-Turbo近日又进行了重大更新,展现了惊人的上下文处理能力。
Qwen2.5-Turbo的创新之处在于其卓越的文本处理能力,它能在45秒内快速总结出《三体》三部曲共69万个token(文本标记单元)的主要内容。这一成果通过“大海捞针”实验得到了验证,在100万个token的上下文中,Qwen2.5-Turbo表现出了近乎完美的理解能力。
这一新版本显著提升了上下文长度,从原先的128k扩展至1M,相当于100万个英文单词或150万个汉字。这意味着,Qwen2.5-Turbo能够一次性处理10部长篇小说、150小时的语音记录或30000行代码。
在推理速度方面,Qwen2.5-Turbo得益于稀疏注意力机制,处理百万级别上下文时的首字返回时间缩短至68秒,相比之前提升了4.3倍。更重要的是,其成本仅为0.3元/1M tokens,是GPT-4o-mini的3.6倍。
这一系列更新引起了网友的热烈讨论,有人认为,在如此长的上下文和快速速度下,传统的检索式助手(RAG)技术已经显得过时。同时,也有网友对Qwen2.5-Turbo在开源领域的潜力表示期待,认为它甚至比Llama更有潜力。
除了卓越的文本总结能力,Qwen2.5-Turbo还能快速掌握整个代码库的信息,甚至对大量论文进行分类和摘要。在更复杂的长文本任务上,如RULER和LV-Eval基准测试中,Qwen2.5-Turbo的表现同样出色,超越了GPT-4o-mini和GPT-4。
值得一提的是,Qwen2.5-Turbo在扩展上下文长度时,并未牺牲短文本处理性能。在短文本任务上,它甚至超越了其他上下文长度为1M tokens的开源模型,同时能够处理8倍于GPT-4o-mini和Qwen2.5-14B-Instruct的上下文。
在推理速度方面,Qwen2.5-Turbo利用稀疏注意力机制,将注意力部分的计算量压缩至原来的2/25,在不同硬件配置下实现了3.2-4.3倍的加速比。
目前,Qwen2.5-Turbo的Demo已在HuggingFace和魔搭社区上线,API服务也已在阿里云大模型服务平台上线,与OpenAI API兼容。
关于模型权重的开源计划,阿里通义开源负责人林俊旸表示,目前还没有具体计划,但团队正在努力中。HuggingFace联合创始人Thomas Wolf也积极呼吁开源。
想要体验Qwen2.5-Turbo的强大功能,可以访问以下链接:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo
更多详情请参考:https://qwenlm.github.io/zh/blog/qwen2.5-turbo/