阿里云推出文本生成图片大模型——通义万相

10 7 月 2023

阿里云推出文本生成图片大模型——通义万相

在2023世界人工智能大会上，大模型成为绝对焦点，有30多个大模型团队集体亮相，不少通用和行业垂直模型都是首次登场。7月7日，在上海召开的2023世界人工智能大会上，阿里云宣布AI绘画创作大模型通义万相开启定向邀测。（官方网址：https://wanxiang.aliyun.com/）

据介绍，该模型可辅助人类进行图片创作，未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示，这是阿里云大模型全面掌握多模态能力的关键一步，该能力将逐步向行业客户开放。

记者了解到，通义万相首批上线三大能力：

其一，基础文生图功能，可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像；

其二，相似图片生成功能，用户上传任意图片后，即可进行创意发散，生成内容、风格相似的AI画作；

其三，在业内率先支持图像风格迁移，用户上传原图和风格图，可自动把原图处理为指定的风格图。

先看功能一，记者特意写了很长的文字描述，有61个字，系统显示可读字数达到500字。底下可以选择画风以及画面比例。

可以看到，生成结果包含四张图，对选择困难症患者还是……很友好的？

除了画面主人公姿态的变换，在宠物的数量、宠物与人大小对比等方面，通义万相给出了不同答案。你也可以选择“复用创意”，微调文本或选择生成其他画风。

记者给出的第二题，是看看杭州西湖——

“雨后夏天的杭州西湖，湖面微风飘过、水波荡漾，游船游人如织，画面采用新海诚风格或者油画风。”

看起来，核心要素都体现了，就是画面风格还是自己选更靠谱。

下一题，“各色奥特曼环成一圈，举手欢呼的场景”。

这道题，以前记者也测试过百度的文心一言，结果很离谱。通义万相的理解相对接近，虽然和记者脑补图不是一回事，但初次测试表现来看还算是很出彩。

通过语义文字的不断细化、调整，还可以让画风更接近心目中的理想型。

素描风（通义万相）

3D卡通风（通义万相）

最后一题，“城市核心商业区的摩天大楼，仰视视角，二次元风。”

无论是哪个大模型，都需要在不断地学习和训练中“变强”。据悉，基于阿里研发的组合式生成模型Composer，通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合，提供高度可控性和极大自由度的图像生成效果，仅需一个模型即可支持多类图像生成类任务能力，该研究成果已在国际AI顶会ICML 2023上发表。

作为业内最早布局大模型的科技公司之一，在去年的世界人工智能大会上，阿里云“通义”大模型系列首次亮相。此后，通义千问、通义听悟等模型和产品相继推出，家族新成员通义万相的亮相，意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。

阿里云方面的数据显示，目前已有超过30万企业申请测试通义千问，通义听悟累计用户数达到36万。

在大会演讲中，阿里云CTO周靖人表示：“阿里云将把促进中国大模型生态的繁荣作为首要目标，向大模型创业公司提供全方位的服务，包括最强大的智能算力和开发工具，并在资金和商业化探索方面提供充分支持。”

“多模态是大模型演进的必然路径，我们希望用不同模态的能力服务千行百业，帮助企业全面拥抱智能化时代。”周靖人表示。

本文来源浙江日报，如有侵权请联系删除

分秒AI研究院

分秒AI研究院

阿里云推出文本生成图片大模型——通义万相

分秒AI研究院

发表回复取消回复

分秒AI研究院

分秒AI研究院

阿里云推出文本生成图片大模型——通义万相

阿里云推出文本生成图片大模型——通义万相

分秒AI研究院

发表回复 取消回复

发表回复取消回复