跳至正文

阿里云推出文本生成图片大模型——通义万相

在2023世界人工智能大会上,大模型成为绝对焦点,有30多个大模型团队集体亮相,不少通用和行业垂直模型都是首次登场。7月7日,在上海召开的2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测。(官方网址:https://wanxiang.aliyun.com/)

据介绍,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。

记者了解到,通义万相首批上线三大能力:

其一,基础文生图功能,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;

其二,相似图片生成功能,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;

其三,在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。

先看功能一,记者特意写了很长的文字描述,有61个字,系统显示可读字数达到500字。底下可以选择画风以及画面比例。

可以看到,生成结果包含四张图,对选择困难症患者还是……很友好的?

除了画面主人公姿态的变换,在宠物的数量、宠物与人大小对比等方面,通义万相给出了不同答案。你也可以选择“复用创意”,微调文本或选择生成其他画风。

记者给出的第二题,是看看杭州西湖——

“雨后夏天的杭州西湖,湖面微风飘过、水波荡漾,游船游人如织,画面采用新海诚风格或者油画风。”

看起来,核心要素都体现了,就是画面风格还是自己选更靠谱。

下一题,“各色奥特曼环成一圈,举手欢呼的场景”。

这道题,以前记者也测试过百度的文心一言,结果很离谱。通义万相的理解相对接近,虽然和记者脑补图不是一回事,但初次测试表现来看还算是很出彩。

通过语义文字的不断细化、调整,还可以让画风更接近心目中的理想型。

素描风(通义万相)

3D卡通风(通义万相)

最后一题,“城市核心商业区的摩天大楼,仰视视角,二次元风。”

无论是哪个大模型,都需要在不断地学习和训练中“变强”。据悉,基于阿里研发的组合式生成模型Composer,通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。

作为业内最早布局大模型的科技公司之一,在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相。此后,通义千问、通义听悟等模型和产品相继推出,家族新成员通义万相的亮相,意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。

阿里云方面的数据显示,目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。

在大会演讲中,阿里云CTO周靖人表示:“阿里云将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。”

“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。

本文来源浙江日报,如有侵权请联系删除

发表回复