苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑
苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑日前,苹果推出一款开源人工智能模型 MGIE,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。
据悉,该模型由苹果和美国加利福尼亚大学圣芭芭拉分校的研究团队合作完成。相关论文以《通过多模态大语言模型指导基于指令的图像编辑》(Guiding Instruction-based Image Editing via Multimodal Large Language Models)为题在 arXiv 上发表 [1]。
作者包括加利福尼亚大学圣芭芭拉分校研究助理 Tsu-Jui Fu、博士后 Wenze Hu和William Yang Wang 教授,以及苹果机器学习研究员 Xianzhi Du、Yinfei Yang 和 Zhe Gan。
如上所说,MGIE 能够对图像进行全方位编辑,包括照片全局优化、本地编辑、Photoshop 风格修改和依托于指令的编辑等功能。
具体来说:
其一,能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。
其二,既能够对目标图像中的目标区域或对象(服饰、人脸、眼睛等)进行修改,又能够改变这些区域或对象的性质,比如颜色、样式、大小等。
其三,能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且应用更改背景、添加或删除对象,以及混合对象等更高级的编辑。
其四,能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验。
对于用户而言,由于该模型的设计非常易用、灵活定制,因此用户只需要提供自然语言指令,就能够实现对图像的编辑。
在此基础上,用户也可以向该模型提供反馈,以更好地完善编辑。此外,该模型还能够与需要图像编辑功能的其他应用程序或平台集成。
那么,具体到实际场景,用户又是如何使用 MGIE 的呢?
面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更健康”的指令,后者便会使用常识推理,给披萨添加西红柿、香草等蔬菜配料。
而面对下图中的左图所显示的多余的女性人物主体,用户可以通过 Photoshop 风格的修改,要求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。
在掌握使用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。
据了解,它主要基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知响应生成方面表现优异,但尚未广泛地在图像编辑任务中获得应用。
MGIE 则通过以下两种方式,成功地将 MLLM 集成到图像编辑的过程中。
第一步,利用 MLLM 从用户输入的指令中总结出尽可能简单的说明,以更好地指导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。
第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的指导。
总的来说,该模型采用了一种全新的端到端的训练方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。
据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预训练模型均已实现开源。不仅如此,还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示,方便用户在线试用。
综上可以看出,MGIE 不但是一项基础研究成果,更是在各种图像场景下都能适用的实用工具。
也就是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化,还能让用户通过图像表达自己的想法和情感,进而激发他们的创造力。
正如该论文中提到的那样,“MGIE 不是简单但模糊的指导,而是得出明确的视觉感知意图,并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 引导的框架,可以为未来的视觉和语言研究做出贡献”。
基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。