“苹果英伟达合作开源新工具，LLM推理加速翻倍”

19 12 月 2024

“苹果英伟达合作开源新工具，LLM推理加速翻倍”

近日，苹果公司宣布与英伟达达成合作，共同推动人工智能大语言模型（LLM）的推理速度显著提升。这一合作成果源于苹果公司开源的Recurrent Drafter（ReDrafter）推测解码方法，该方法已成功集成至NVIDIA的TensorRT-LLM推理加速框架中。

据苹果官方博文介绍，ReDrafter的应用使得LLM在NVIDIA GPU上的每秒生成tokens速度最高提升了2.7倍，从而有效降低了用户的延迟和计算成本。随着LLM在驱动生产应用程序中的广泛应用，提升推理效率对于降低成本和减少用户延迟显得尤为重要。

ReDrafter采用了RNN草稿模型，结合了波束搜索与动态树注意力机制，使得开源模型每步生成最多3.5个tokens，性能超越了之前推测性解码技术。为了将ReDrafter应用于生产环境，苹果与NVIDIA携手合作，将其集成到NVIDIA TensorRT-LLM框架中。

英伟达为这一合作项目提供了支持，通过添加新的运算符并公开现有运算符，增强了TensorRT-LLM对复杂模型和解码方法的适应性。基准测试结果显示，在NVIDIA GPU上使用集成ReDrafter的TensorRT-LLM框架，数百亿参数规模的生产模型的解码速度提升了2.7倍。这一成果不仅降低了用户体验延迟，还减少了GPU的使用数量和功耗。

此次合作展现了苹果公司在AI领域的技术创新与突破，也进一步推动了LLM技术的发展。通过开源ReDrafter推测解码方法，苹果与英伟达共同为LLM的推理速度提升做出了贡献，为未来LLM在更多领域的应用奠定了基础。

分秒AI研究院

分秒AI研究院

“苹果英伟达合作开源新工具，LLM推理加速翻倍”

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

“苹果英伟达合作开源新工具，LLM推理加速翻倍”

“苹果英伟达合作开源新工具，LLM推理加速翻倍”

分秒AI

发表回复 取消回复

发表回复取消回复