“2024 AI图像生成项目精选集”

随着人工智能(AI)技术的飞速发展,图像生成领域正经历着颠覆性的变革。AI图像生成技术,作为由AI大模型驱动的AIGC应用方向,正逐渐改变着传统的内容创作和艺术设计模式,让每个人都能成为“绘画大师”。2024年,这一领域涌现了众多研究成果,丰富了图像内容创作的生态,涵盖了头部科技大厂、高校院所实验室和个人开发者等多个领域,部分研究甚至已实现开源。

以下是18个备受关注的AI图像生成项目,它们以不同的技术创新和实用性,为图像生成领域带来了新的突破:

1. **InstantID**:秒级零样本保真图像生成
InstantID项目由InstantX和小红书研究团队提出,基于扩散模型,仅需单张面部图像即可实现个性化图像合成,同时确保高保真度。

2. **PhotoMaker**:高效个性化定制人像照片
南开大学、腾讯公司和东京大学的研究团队开发的PhotoMaker,能够将任意数量的输入ID图像编码成一个堆叠的ID嵌入,以保留ID信息,实现高效个性化定制。

3. **ConsiStory**:无需额外训练的一致性文生图
英伟达和特拉维夫大学的研究团队提出的ConsiStory,通过共享预训练模型的内部激活,实现一致的主题生成,无需对模型进行额外训练。

4. **FlashFace**:只需一张图,轻松定制个性化照片
香港大学、阿里巴巴和蚂蚁集团的研究团队开发的FlashFace,用户只需提供一张或几张参考人脸图像和文字提示,即可轻松定制个性化照片。

5. **PixArt-Σ**:直接生成4K分辨率图像
华为诺亚方舟实验室、大连理工大学、香港大学和香港科技大学的研究团队提出的PixArt-Σ,能够直接生成4K分辨率图像,支持制作高质量视觉内容。

6. **CogView3**:通过Relay Diffusion实现精细、快速的“文生图”
清华大学和智谱AI的研究团队开发的CogView3,是首个在文本到图像生成领域实现Relay Diffusion的模型,降低训练和推理成本。

7. **SPRIGHT**:提高“文生图”模型的空间一致性
亚利桑那州立大学、Intel Labs的研究团队开发的SPRIGHT,通过重新标注图片并创建首个以空间为重点的大规模数据集,提高“文生图”模型的空间一致性。

8. **RLCM**:通过强化学习微调一致性模型
康奈尔大学的研究团队提出的RLCM,将一致性模型的迭代推理过程构建为一个强化学习过程,实现快速训练和推理。

9. **MultiBooth**:文生图定制生成新方法
清华大学和Meta的研究团队提出的MultiBooth,将多概念生成过程分为两个阶段,提高概念保真度和推理效率。

10. **Inf-DiT**:无限超分辨率模型
清华大学和智谱AI的研究团队提出的Inf-DiT,采用单向块注意力机制和DiT结构进行上采样,生成超高分辨率图像。

11. **无需矢量量化的自回归图像生成**
MIT CSAIL和Google DeepMind的研究团队提出的方法,无需使用离散值tokenizers,在连续值空间中应用自回归模型。

12. **StoryMaker**:实现“文生图”的特征整体一致
小红书团队推出的StoryMaker,不仅保持面部一致性,还能保持服装、发型和身体的一致性,促进故事创作。

13. **SANA**:高效生成高分辨率图像
英伟达研究团队提出的SANA框架,可以高效生成分辨率高达4096×4096的图像,并具有很强的文生图对齐能力。

14. **Kandinsky-3**:一种新型文生图扩散模型
SberAI的研究团队提出的Kandinsky-3,具有很高的质量和逼真度,可适应多种类型的生成任务。

15. **FlipSketch**:将静态图纸变为文本引导的草图动画
萨里大学SketchX团队推出的FlipSketch,只需画出想法并描述运动方式,即可生成草图动画。

16. **OneDiffusion**:一个扩散生成所有
AI2和加州大学尔湾分校的研究团队提出的OneDiffusion,可以无缝支持不同任务中的双向图像合成和理解。

17. **DiffSensei**:“自定义漫画生成”框架
北京大学的研究团队提出的DiffSensei,是一个专门用于生成动态多角色控制漫画的创新框架。

18. **SnapGen**:极小、快速的高分辨率“文生图”
Snap的研究团队提出的SnapGen,在移动设备上生成高分辨率和高质量的图像,并实现了几步生成。

这些项目的涌现,为AI图像生成领域带来了新的活力,也预示着这一领域的未来发展趋势。

发表回复