“苹果英伟达合作开源新工具,LLM推理加速翻倍”

近日,苹果公司宣布与英伟达达成合作,共同推动人工智能大语言模型(LLM)的推理速度显著提升。这一合作成果源于苹果公司开源的Recurrent Drafter(ReDrafter)推测解码方法,该方法已成功集成至NVIDIA的TensorRT-LLM推理加速框架中。

据苹果官方博文介绍,ReDrafter的应用使得LLM在NVIDIA GPU上的每秒生成tokens速度最高提升了2.7倍,从而有效降低了用户的延迟和计算成本。随着LLM在驱动生产应用程序中的广泛应用,提升推理效率对于降低成本和减少用户延迟显得尤为重要。

ReDrafter采用了RNN草稿模型,结合了波束搜索与动态树注意力机制,使得开源模型每步生成最多3.5个tokens,性能超越了之前推测性解码技术。为了将ReDrafter应用于生产环境,苹果与NVIDIA携手合作,将其集成到NVIDIA TensorRT-LLM框架中。

英伟达为这一合作项目提供了支持,通过添加新的运算符并公开现有运算符,增强了TensorRT-LLM对复杂模型和解码方法的适应性。基准测试结果显示,在NVIDIA GPU上使用集成ReDrafter的TensorRT-LLM框架,数百亿参数规模的生产模型的解码速度提升了2.7倍。这一成果不仅降低了用户体验延迟,还减少了GPU的使用数量和功耗。

此次合作展现了苹果公司在AI领域的技术创新与突破,也进一步推动了LLM技术的发展。通过开源ReDrafter推测解码方法,苹果与英伟达共同为LLM的推理速度提升做出了贡献,为未来LLM在更多领域的应用奠定了基础。

发表回复