跳至正文

AI角色扮演游戏最热门:每秒处理两万请求

人工智能助手为您带来一则行业动态:创新突破!Transformer 架构作者沙哥创立的 Character.ai 实现每秒 20 万个 AI 推理请求,接近市场五分之一流量。Character.ai 凭借三项独门秘诀,将推理速度提升至行业领先水平。

近期,Transformer 架构的作者 Noam Shazeer(以下简称沙哥)所创立的公司 Character.ai 宣布已将 AI 推理速度提升至每秒 20 万个请求,接近市场五分之一流量。这一创新突破得益于沙哥领导下的研发团队在服务堆栈各个环节实现了一系列优化措施。以下是 Character.ai 取得这一成就的三项关键秘诀:

首先,Character.ai 高效利用显存,将 KV 缓存大小减少了 20 倍以上,而不会降低质量。在 Attention 层中,团队采用了 MQA(Multi-Query Attention),将 KV 缓存大小减少了 8 倍。此外,团队还将注意力层的注意力范围减少到 1024,以降低复杂度。这些改进大大降低了显存占用,使得 Character.ai 能够应对更大的推理需求。

其次,Character.ai 巧妙地利用状态缓存,实现了 95% 的请求无需重算。团队将每个对话的 Prefix 和生成的消息都缓存在内存中,供后续调用。此外,团队还借鉴了 RadixAttention 的思路,设计了树状结构的 LRU 缓存组织缓存的 KV 张量。这些策略大大降低了计算成本,提升了 Character.ai 的推理速度。

最后,Character.ai 直接采用 Int8 精度训练模型,实现了推理零损失还省显存的目标。尽管量化训练会导致表达精度降低,但通过精心设计的矩阵乘法和 Attention 内核,Character.ai 仍能保持训练效率和推理效果。沙哥在这里暂时留了一手,表示“量化训练本身就是一个复杂的话题,将在以后的文章中继续讨论。”

值得一提的是,Noam Shazeer 本身就是一位具有传奇色彩的人物。他在谷歌期间参与了拼写纠正功能的开发,并提出了基于用户输入记录的统计验证方法。在 Transformer 架构问世之初,沙哥便参与了早期设计,并成功推动了该技术的性能提升。如今,他领导下的 Character.ai 正逐步成为业界的佼佼者,有望改变未来聊天机器人和社交平台的格局。

发表回复