Stability.ai开源全新文生图模型,性能超越Stable Diffusion!
2月13日,知名的大模型开源平台Stability AI在其官方网站上公布了一款全新的文本生成图像模型——Stable Cascade(简称“SC”)。
据报道,SC基于最新的Würstchen基础模型开发,显著降低了推理和训练过程中的算力需求。举例来说,尽管训练Würstchen模型仅需约25,000小时,其性能却优于Stable Diffusion 2.1,后者的训练时间高达约200,000小时。
因此,SC模型的部署极为方便,特别适合中小企业和个人开发者在如4090、4080、3090等消费级GPU上进行调整。目前,SC模型仅限于学术研究使用不可商业化,未来会逐步开放。开源地址:https://github.com/Stability-AI/StableCascade
自Stability AI推出Stable Diffusion系列的文生图模型以来,全球已有数十万开发者采用了其产品,其在Github上的项目获得了超过60,000个星标,使其成为开源扩散模型领域的佼佼者。
然而,Stable Diffusion的一个缺点是对AI算力资源的高需求,这对普通开发者进行模型微调来说是一大挑战。为了解决这一问题,在保证提升性能的同时,Stability AI推出了新一代的文生图模型SC。
Stable Cascade模型介绍SC模型是在Würstchen基础上开发的。AIGC未来岛将根据其发布的论文,为大家深入解读其技术原理和功能特性。
与之前的Stable Diffusion系列相比,SC模型采用了一种新颖的核心技术思路,即通过将文生图的过程细分为A、B、C三个阶段来完成。
这种方法的优势在于,它允许在不牺牲图像质量的前提下进行极限的图像分层压缩。通过利用高度压缩的潜在空间来优化图像输出,从而减轻了对传输、算力和存储的需求。
A阶段:利用VQGAN模型作为潜在图像解码器,解码出潜在的图像,并生成高分辨率的输出。
VQGAN包含一个编码器和一个解码器,编码器将原始图像转换为低分辨率但信息丰富的离散向量而解码器则能够根据这些向量重构出与原图非常相似的图像,实现了16倍的数据压缩。
B阶段:在A阶段得到的潜在表示基础上,结合语义压缩器的输出和文本嵌入进行条件生成。
在扩散过程中,重构了A阶段训练得到的潜在空间,并受到语义压缩器提供的详细语义信息的强烈引导,这种条件引导确保了生成的图像能精确反映文本提示,提升了模型对文本的语义理解能力。
C阶段:在B阶段生成的潜在图像和输入文本的基础上,生成更低维度的潜在表示。
通过在低维空间中训练和推理,进一步提升了扩散模型的训练和生成效率,显著降低了计算资源需求和时间成本。
因此,SC模型通过这三个相互关联的模块,训练了一个在低维潜在空间上的高效扩散模型。结合高度压缩的潜在表示和文本条件,以及向量量化的生成对抗网络(VQGAN),实现了高效且低消耗的文本到图像的合成过程。
Stable Cascade特色功能
除了文本生成图像的核心功能,Stable Cascade还支持图像变化和图像到图像的转换功能:
图像变化:在保持原始图像的颜色和基本结构不变的情况下,基于原图衍生出更多变化形态的图像。
其背后的技术原理是利用CLIP模型从给定图像中提取特征嵌入,然后将其反馈到模型中进行创新性的图像生成。
图像到图像生成:允许用户上传一张图像,并在此基础上生成具有相似形态但不同颜色或类型的图像。技术原理是向给定图像添加噪声,使其成为生成过程的起点。
Stable Cascade实验数据为了验证SC模型的性能,研究人员对其与SDXL、SDXL Turbo、Playground v2及Würstchen v2等主流扩散模型进行了全面的比较。
结果表明,Stable Cascade在即时对齐和图像质量方面均表现出色,且在推理步骤上较SDXL和Playground v2更为高效。
此外,在训练Würstchen基础模型时,尽管参数总量比SDXL多出14亿,但训练成本仅为其八分之一,突显了SC模型在性能和效率上的双重优势。