腾讯优图发布动态条件选择AI新架构
近日,腾讯优图、南洋理工大学和浙江大学等研究机构联合推出了一项名为DynamicControl的新框架,该框架旨在大幅提升文本生成图像(T2I)任务的可控性,同时保持图像质量和文本对齐的准确性。
DynamicControl框架的核心创新在于其动态条件选择机制,该机制能够将多模态大语言模型(MLLM)的推理能力直接集成到T2I任务中。通过引入一种新颖的多控制适配器,该框架能够自适应地选择不同类型的条件,实现动态多控制对齐,从而显著提升图像生成的可控性。
传统的控制方法,如UniControl和ControlNet++,在处理多条件时存在效率低下的问题,而DynamicControl通过优化条件评估器,能够更有效地利用多种控制条件,避免生成图像与输入条件不一致的情况。
DynamicControl的算法流程首先通过双循环控制器对多个输入条件进行初步评估,然后利用多控制适配器将这些条件与预训练条件评估器的选择分数进行动态编码,最终实现可控的图像生成。
双循环控制器的设计包括条件一致性和图像一致性两个维度,通过对生成图像和源图像之间的像素和语义差异进行最小化,确保了图像生成的质量与文本对齐的准确性。
此外,DynamicControl通过引入多模态大语言模型,解决了传统方法在测试过程中源图像不可用的问题,进一步增强了框架的实用性。
实验结果表明,DynamicControl在保持图像质量的同时,显著提升了图像生成的可控性,为可控视觉生成领域提供了新的解决方案。
论文链接:[DynamicControl 论文](https://arxiv.org/abs/2412.03255)
项目主页:[DynamicControl 项目主页](https://hithqd.github.io/projects/Dynamiccontrol/)