苹果揭秘AFM AI模型:挑战谷歌TPU芯片训练

近日,苹果公司对外发布了一份名为《Apple Intelligence》的论文,详细阐述了其自研的大规模预训练模型——Apple Foundation Model(AFM)的相关技术细节。据悉,该模型的部分性能已超越了OpenAI的GPT-4。

AFM模型分为两种:AFM-on-device和AFM-server。其中,AFM-on-device模型主要在iPhone、iPad等移动设备上运行,而AFM-server模型则是在服务器端运行。苹果表示,该模型的训练数据来源于多个渠道,包括出版商授权的数据、公开或开源的数据集,以及通过网络爬虫抓取的公开信息等。值得一提的是,苹果非常重视用户隐私的保护,因此,数据混合物中并未包含任何用户的私人数据。

在训练硬件方面,苹果使用了大量的TPUv4和TPUv5p芯片,以加速模型的训练过程。据论文显示,使用8192片TPUv4芯片训练的AFM-server模型在有害输出违规率方面优于GPT-4(28.8%),同时在设备上的表现也超过了Llama-3-8B(21.8%)和Gemma(均由Meta训练)。

总的来说,苹果的AFM模型在训练数据、硬件选择以及模型性能等方面都有显著的优势。然而,相较于其他大型语言模型,如Meta的Llama-3-8B和Google的PaLM,AFM的参数量仅为后者的约一半。这也意味着,在未来可能需要进一步提高模型大小才能达到更高的性能水平。

此次发布的论文详细记录了AFM模型的设计思路、训练方法、评估指标等方面的信息,为业内同行提供了宝贵的参考资料。同时,这也是苹果在人工智能领域的一次重要突破,标志着其在自然语言处理领域的地位进一步提升。

发表回复