北大字节推出图像生成新技术

15 4 月 2024

北大字节推出图像生成新技术

近日，我国北京大学与字节跳动AI Lab联合推出了一项重要的研究成果——视觉自回归模型VAR。这一模型在图像生成领域取得了重大突破，不仅大幅提升了生成图像的质量，还显著提高了推理速度和数据效率，展现出强大的可扩展性和泛化能力。

VAR模型是一种基于自回归的方法，其创新之处在于采用了预测下一级分辨率的新型策略，而非传统的预测下一个token。VAR模型可分为两个阶段进行训练。首先，利用VQ-VAE将连续图像编码为一系列具有不同分辨率的离散token map；其次，借助Transformer对更高分辨率的token map进行预测，从而逐步生成完整的图像。在这一过程中，VQ-VAE为VAR提供了“参考答案”，以提高预测精度。

经过实验验证，VAR在图像生成质量、推理速度、数据效率等方面均优于传统自回归模型，并将FID降低了近10倍，IS提高了近5倍。此外，VAR在大规模数据集上的性能提升表明其在实际应用中的广泛适用性。

VAR的研究成果得到了业内的广泛关注和好评。然而，也有一些声音提出了关于VAR模型的局限性和未来发展的建议。例如，VAR模型相对较为固定，缺乏扩散模型的灵活性，同时在分辨率方面的扩展仍需进一步完善。

总的来说，VAR模型的推出标志着我国在图像生成领域取得了重要突破，有望推动相关技术的进一步发展和应用。

分秒AI研究院

分秒AI研究院

北大字节推出图像生成新技术

分秒AI

发表回复取消回复

分秒AI研究院

分秒AI研究院

北大字节推出图像生成新技术

北大字节推出图像生成新技术

分秒AI

发表回复 取消回复

发表回复取消回复