北大字节推出图像生成新技术
近日,我国北京大学与字节跳动AI Lab联合推出了一项重要的研究成果——视觉自回归模型VAR。这一模型在图像生成领域取得了重大突破,不仅大幅提升了生成图像的质量,还显著提高了推理速度和数据效率,展现出强大的可扩展性和泛化能力。
VAR模型是一种基于自回归的方法,其创新之处在于采用了预测下一级分辨率的新型策略,而非传统的预测下一个token。VAR模型可分为两个阶段进行训练。首先,利用VQ-VAE将连续图像编码为一系列具有不同分辨率的离散token map;其次,借助Transformer对更高分辨率的token map进行预测,从而逐步生成完整的图像。在这一过程中,VQ-VAE为VAR提供了“参考答案”,以提高预测精度。
经过实验验证,VAR在图像生成质量、推理速度、数据效率等方面均优于传统自回归模型,并将FID降低了近10倍,IS提高了近5倍。此外,VAR在大规模数据集上的性能提升表明其在实际应用中的广泛适用性。
VAR的研究成果得到了业内的广泛关注和好评。然而,也有一些声音提出了关于VAR模型的局限性和未来发展的建议。例如,VAR模型相对较为固定,缺乏扩散模型的灵活性,同时在分辨率方面的扩展仍需进一步完善。
总的来说,VAR模型的推出标志着我国在图像生成领域取得了重要突破,有望推动相关技术的进一步发展和应用。