AIGC风暴来袭:4万亿服装产业掀起巨浪

AIGC大热后,设计师林俪和版师张宇都觉得自己混得比对方惨,经营模特摄影工作室的“浪猪灰头”也觉得正在失去生意。

4万亿服装行业,正在被新一波AI技术改变,且冲击和机遇并存——麦肯锡分析,未来3到5年,生成式AI可能会帮助服装、时尚及奢侈品行业的营业利润创造1500亿美元的增量,乐观估计可高达2750亿美元。
记者注意到,AIGC对服装行业的影响主要集中于商品企划、产品设计、零售终端三个环节,AIGC提升设计师效率、数字人+3D服装给消费者带来新体验,这些新内容都将给服装行业带来新机会。
只不过,要想解决行业内从设计到生产到营销多环节的难题,并非易事。服装行业也曾经过几轮AI洗礼,从RNN(递归神经网络,1990年提出)到GAN(生成对抗网络,2014年提出)到如今的Diffusion(扩散模型),每一波AI都试图打通整个产业链。那么,这一轮生成式AI会对服装行业产生哪些影响?AIGC将影响哪些岗位就业?AI能力外溢到供应链,能够产生多大影响?

01设计师、版师、模特,谁被冲击?

 1 AIGC干不掉设计师
设计师和版师是服装设计中的主要岗位,一个负责将天马行空的灵感变成一张张图纸,一个负责将图纸变成样衣。
Midjourney和Stable Diffusion一度给设计师林俪带来很大的职业生涯危机,输入提示词,5秒内生成六张设计图,还可以不停更新。林俪从事快时尚设计快5年,见过不少设计高手,还是被Stable Diffusion的生成效果惊艳了一把,“关键是速度快且量大,感觉分分钟要失业。”
“上新”是快时尚的命脉,品牌企业对创造力

和效率有极致追求。坚持用了半年Midjourney和Stable Diffusion,林俪放心下来,“大模型确实在生成速度上远超设计师,但AIGC只是一个素材生成方式,输入什么提示词,需要哪些元素,到底要用哪张,这些都需要我们来做选择。我现在的灵感图都由AIGC完成,效率大概提升了3倍。”
而且,AIGC目前只是在单款服装的设计上提供了灵感。除了单款设计,设计师还需要做一些系列企划——比如当季主推的款有哪些系列,哪些款式搭配起来好看,常规款和主推款怎么搭配。甚至这些款式在门店的陈列,都得在设计师企划时去规划——主推款式放在什么位置,效果如何,在门店如何陈列。显然这些工作内容都超出AIGC的范围。
“单从款式设计上来说,其实绝大多数服装企业都有自己的版型基础,也就是大体‘规矩’,在这个‘规矩’内,设计师会去判断用什么样的颜色、辅料、装饰性元素。AIGC就是在这个环节给出灵感和帮助。”林俪补充。
AIGC到底能帮服装设计师做什么?知衣科技创始人兼CEO郑泽宇认为主要有三方面:
第一,提供灵感;第二,快速生成出大量符合提示词的图片;第三,降低设计的成本,提高设计的精度和投产效率比。
“但目前AIGC能够达到的效果只有第二点,第一和第三步还在测试中,1-2年内实现还有困难。”郑泽宇补充。
郑泽宇也认为,AIGC还远远谈不上取代设计师,“AIGC只是一个素材生成方式,判断这些图是否是设计师或品牌方想要的,到底用哪张,这才是最重要的问题。”


 2 20年后再无版师?
AIGC取代不了设计师,但可以取代版师。这是凌迪科技Style3D首席科学家王华民对本轮AI的预判。
版师指从事服装制版工作的人,制版在整个服装生产流程中承上启下——对上,要和设计师沟通样衣的工艺细节;对下,要向样衣工或生产工厂交代缝制样衣的注意事项,把控样衣(非大货)质量。
一件衣服的设计图出来后,还得经历“打版-修改-再打版-再修改”的过程。“有时候一个装饰是要2.5厘米还是3.5厘米,得样衣出来之后再看效果,因为这就是一个感觉的东西,就是大一点小一点,左一点右一点,得来回调整。”林俪回了一个不忍直视的表情。
这个过程往往耗时耗力,“设计师很多是不懂打版的,或者懂得不多,他需要和版师反复沟通,时间成本和沟通成本就会很高。”王华民认为。


和林俪在同一公司的版师张宇也认同AIGC对版师们的威胁,版师要将设计师的2D稿子变成生产需要的CAD图,同时生产出样衣,供设计师进行修改。“2D转3D,这个活儿很专业也很套路化。现在一些复杂的版,我们已经不用自己立裁,而是把3D效果给到设计师去看,让他们直接在3D上做调整。”张宇说。
在凌迪的Style3D AI产业大模型中,只要将相应的服装拖入设计框,点击AI生成版片,几秒内可以将版片和3D效果独立出来。

图片来源:凌迪科技Style3D官网
“20年后,当我们的模型足够大,设计师会变得更全能,因为他的工具更多了。”王华民补充,“到时候,最完美的情况是设计师自己设计,自己打版,甚至人人都可以成为设计师。
 3 电商不需要模特了?
除了设计师和版师,模特界也开始“地震”。
在电商平台的款式的详情页背后,是十几个人的分工协作,需要从请模特、摄影师、造型师、助理等+准备服装+影棚租赁or出外景+选片+修片+配图说明,成本百元到千元不等。
微博账号“浪猪灰头”曾发出一张模特摄影工作室的价格表:一天8小时拍摄,需要支出3.6万元。其中摄影费(包含400张修图)1万,男模和女模费用超2万,化妆费2000元,搭配费4000元。

图片:来自网络
“请多个模特的话,得同时照顾几个模特的档期,大量的服装也需要提前熨烫和整理。而且照片数据大,数量也多,下载、制作、挑选的过程至少5天。我们一个服装专场至少10天就要上线,经常得招20个兼职人员才够用。”“浪猪灰头”补充。
而在凌迪科技推出的AI产业模型中,这些人员和费用都可以省略,只需输入关键词,就可以生成“数字模特”。
输入“欧洲女子的脸型,中分长发,典雅气质,妆容干净”,就能生成对应脸型。

图片来源:凌迪科技Style3D官网
上传一个模特姿势图,就能生成对应姿势的模特图。

图片来源:凌迪科技Style3D官网
输入背景关键词“超现实主义背景,极简主义的建筑风格,画面充满活力,具有梦幻般的建筑空间”,就能得到多张对应风格的背景图。

图片来源:凌迪科技Style3D官网
数字人+3D服装的AI组合拳,正在把一个款式的传播成本,拉低到无法想象。未来也许品牌方提供一件衣服的照片就可以组织一场走秀和直播。
“AI+3D技术将改变传统的人货场模式。”王华民认为,“通过文生图,我们可以生成模特、生成背景、生成姿势,具体能省多少还没有衡量。我们主要是工具给到他,至于他们怎么使用,应用在哪些场景,能节约多少钱,就看他们如何使用这个工具。”

02AI技术路径之于服装,有何不一样设计、打版、营销,在这三个环节,已经有“服装设计+AIGC”产品相继面世。

  • 万事利丝绸与无界AI合作,探索AIGC +丝巾设计;
  • 知衣科技与西湖心辰合作,推出服装产业模型“FASHION DIFFUSION”,要做服装行业的Midjourney,在找款、改款与设计等场景中提升设计效率;
  • 供应链服务企业魔鱼发布“魔鱼GPT”,提高服装设计师提高工作效率;
  • 凌迪科技Style3D发布的Style3D AI产业模型,提供AI预测趋势、AI生成图案/版片/材质/图像等功能,试图构建起数字时尚产业的“基础设施”。

服装设计在过去也一直被AI赋能,这一轮AI与此前有什么不同?王华民认为,虽然都是AI,但是10年前的AI、5年前的AI和这2年的AI各不相同,“一个人说自己是AI从业者,你得看看他干的是哪一个AI。”
AI行业经历了RNN、GAN、Diffusion等多轮迭代,此前的服装AI都基于GAN,即用生成模型和判别模型相互竞争,生成模型用于创造一个看起来像真图片的图片,判别模型用于判断一张图片是不是真实的图片,两个模型一起对抗训练,最终两个模型的能力越来越强,最终达到稳态。
和GAN相比,Diffusion模型只需要训练生成模型,训练目标函数简单,可以实现更优的图像样本质量和更好的训练稳定性。
王华民指出,“GAN的可控性较差,很多东西停留在学术上或者论文上,Diffusion比GAN更容易训练,同时将可控性整体上了一个台阶,训练效果也有了很大提升。”
基于Diffusion模型的AIGC有两个明显优势:
 1 降低设计工具的使用门槛,提高行业渗透率
以往的服装设计工作,需要掌握绘画、PS技能,而在本轮AI产业模型中,通过自然语言描述,就能直接生成设计图。
比如打开知衣科技的FASHION DIFFUSION使用界面,风格、款式、特征一目了然,只需选择款式、颜色、材质等选项,10多秒,AI就能生成T台走秀风格、淘宝抖音商品风格,以及INS小红书社媒风格等各种风格的款式图片。

图片来源:知衣科技官网
这样的便利性和“低门槛”背后,是知衣科技超10亿的服饰图片与500+服装设计标签的行业沉淀,以及西湖心辰在深度学习方面的积累。
 2 一个模型满足多个任务
传统AI的工作方式是一个任务训练一个算法模型,且各个模型之间彼此独立。比如要做图片搜索,训练一个模型;要做图片生成,再训练一个模型。
而大模型可以一个模型解决多个任务,比如Style3D AI 产业模型提供AI生成图片、AI生成版片、AI生成材质、AI生成图片等多种功能。
服装行业的设计图需要在2D、3D之间反复切换:

  • 2D:是设计师最初在纸面上设计的内容,如草图或款式图。
  • 2.5D:是版师基于款式图进行制版,是连接二维和三维的桥梁,可以称作2.5D。
  • 3D:3D数字服装与数字人(Avatar)结合起来,有了可交互的方式。
  • 2D:在服装展示环节,图形学技术通过渲染,把三维物体变成2D视觉效果,例如输出电商上新的图片或视频。

王华民认为,“一个模型可以完成这些模态之间的设计和转化——我想要干什么,我直接告诉他就行了,只需要在出口端设立不同的出口形式,这是理想状态。但也需要2-3年才能完成。”
目前AI生成的设计图,在精度、分辨率、细节、算力成本、制作成本、投产效率比都在测试中,距离商用还有距离。
郑泽宇认为,尽管有海量数据支持,但设计师到底想要什么,提示词怎么来,如何清晰描述出你想要的东西?还是一个问题,还需要通过关注趋势预测或者捕捉灵感去实现。
同时,大模型的可控性始终是隐患。王华民认为,怎么保证它出的图是你想要的,而且可以修改、怎么样去提升可控性稳定性,是AIGC商用的重要一环。“只不过我个人觉得,AI里面的很多问题可能都是因为数据不够导致。”

03AI能否深入服装供应链?“没有一个万亿级的行业能够像服装行业这样来适应AIGC。”Style3D创始人刘郴认为。
尽管这一波人工智能被冠以“第四次工业革命”,但郑泽宇觉得,相比起工业革命,目前AIGC对服装行业的改变还差点意思。
“工业革命发生在生产制造维度上,AIGC更多在设计和时尚维度上,它确实会加速品牌迭代,但想要推动整个产业转型升级,我觉得它还不够。服装的周期长环节多,推动产业转型升级,还得是整个产业的数字化,而不是单一环节的调整。”郑泽宇指出。
“尽管我们希望以后人人都是设计师,消费者在C端通过AIGC设计一件自己喜欢的衣服,然后通过C2M直接生产,但中间还有很多环节没有打通。”王华民认为。
中国服装供应链已经从传统模式走向快反模式。亿邦智库认为,在小单、快反、个性定制等消费新需求驱动下,数字技术重构服装产业生态,倒逼工厂及上下游走向敏捷响应。
不断推广的3D技术、AR制版、虚拟试衣也在不断缩短设计师的时间,提高产业链反应速度。

图源:亿邦智库 
供应链的数字化似乎超出了AIGC的范畴,但郑泽宇认为,从设计师切入是牵引供应链升级的很好抓手,“设计定了,供应链、工艺、面料这些东西才能定。掌控了设计,就有对后端供应链的引导力。”

如何从设计出发,牵引供应链变革?郑泽宇认为,数据打通和流转仍然是核心问题——服装行业的数据极度分散,掌握在不同参与者手上,几乎不共享也不传递,这是服装行业数字化的瓶颈。对整个产业变革来说,数据打通是更急迫和更瓶颈的那个环节。


阻力是多方面的。“首先,大家不想要被打通的动力要远远大于打通的动力。”有从业者指出,“毕竟,一个工厂也不愿意告诉你产能是多少,如果告诉你,你就不会派超过我产能的订单;面料厂也不愿意把最新款出上传平台,防止抄袭。所以其中有很多的阻力。”
其次,有些环节的工艺始终难以数字化。比如面料环节很多企业没有ERP,更不用提数字化。有服装品牌负责人告诉亿邦动力,“目前设计和生产的快反可以实现,但在面料环节,还是得提前备货,还是传统方式,因为面料涉及物理和化学等过程,还没有太强的快反能力,这个问题短期内也无法解决。”
究其根源,服装行业庞大而分散——这个行业是就业大户,能提供约3亿的就业岗位,但企业分散度极高,品牌存活周期平均不超过一年。“大家都生存在一个高度不确定的环境下,都有很强的危机感。”郑泽宇认为。


在这一背景下,如何实现服装从设计、生产、销售的局部协作与闭环?郑泽宇指出,SheIn做了一个好示范——从订单的维度去打通整个产业链。SheIn可以给工厂提供稳定的订单,工厂可以安心出货;SheIn会把面料提前给到工厂,品牌也可以放心合作。
设计与生产打通的好处也立竿见影,从设计草稿到打版到下大货,如果品牌内部流程快,2~3天可以实现下大货。


目前,知衣科技也在进行这样的数字化协作——从设计师构思开始,设计师选款时看了哪些图,选到哪个款,用了哪个供应商,用了哪些面料,谁来打版,线稿展样板图是什么样子,在哪个展厅,存放了多久,哪些品牌借出,最后谁下了单,下了多少订单,被分发到哪一个工厂,什么时候面料到仓,什么时候开始生产,什么时候出厂,工厂如何交付,这些所有流程都能用数据串联起来。一个设计师的款式,从设计到交付,全流程一两个月内完成。
在这个局部的产业链协同中,前端是数字化设计,中间是数字化款式匹配,后端是数字化供应链平台,“只有在这种协同下,才可以将AIGC的效率优势发挥出来。我们距离人人都可以当设计师的时间,才会越来越近。”郑泽宇认为。
对于AI技术的迅猛发展,您的职业有危机感吗?您认为它真的可以取代设计师,版师,模特……吗?欢迎留言分享。

人工智能落地应用AIGC交流会

AI技术的浪潮已经席卷全球,越来越多的企业都在探索其领域与AI技术的深度融合,AIGC将企业数字化的步伐推进了一大步,被不少企业家认为是未来提升企业核心竞争力的必经之路。

人工智能落地应用AIGC交流会正是基于此而诞生,主要探索AI在各行各业的落地化应用,并提供各种大模型训练技术支持,帮助企业快速落地AI的应用。

目前已有的AIGC落地方案:

1、AI大模型+企业知识库训练,本地部署,安全性高,全面提高企业对外服务和对内学习的效率

2、AI真人视频,10分钟的视频就可以还原一个真实的你!主要用于短视频、直播方案

3、AI真人音频,10分钟的声音就可以还原你的声音!主要用于音频直播、妈妈讲故事!

4、AI课件,一个PPT加一段10分钟的声音,就可以自动生成你的AI课件!

5、机器视觉:主要服务于工厂制造业,用于半成品和成品的外观缺陷检测、产品定位等;

6、更多AIGC方案,等你来发掘!

AI为企业发展带来了全新的挑战,也为企业转型升级带来了史无前例的机遇!错过AI,错过未来!

本次活动将邀请到各行业老板、智能AI技术专家等行业大咖进行交流探讨,从电商、软件、教育等不同领域的视角和维度,分享关于AI的前沿新技术、商业洞察、研究成功和事件经验,一起探索AI技术对企业带来的机遇与挑战。

活动主题:人工智能落地应用AIGC交流会

活动时间:2023-07-22 14:00-16:30

活动地点:深圳福田区八卦四路华晟达大厦B座413

活动流程:

14:00-14:30 参会人员签到入场,主办方介绍;

14:30-16:00 参会人员自我介绍

16:00-16:30 自由交流、资源深度对接、进群线上交流

报名后请加微信:c1011709 ,审核后进群!

吹上天的AIGC,就业情况到底如何

【导读】猎聘大数据研究院重磅发布《AIGC就业趋势大数据报告2023》,招聘平均年薪已达40万,博士需求量同比增长超100%。

不用赘述,大家都知道,最近半年ChatGPT是有多么火爆。随着ChatGPT的全球爆火,AIGC也已成功从科技领域破圈,成为跨越所有圈层的全民话题。AIGC对图文、视频创作的颠覆,对相关行业已经产生了深远影响,各种预测层出不穷。而在众说纷纭的讨论中,计算机/AI等相关专业也成了高考志愿的热点。

就在最近,猎聘大数据研究院重磅发布了最新的《AIGC就业趋势大数据报告2023》。

报告针对AIGC领域的就业机会、薪资状况、人才储备和投递情况进行全面分析,并结合相关专家访谈,揭示进入AIGC领域必备的技能和素质。

一、AIGC人才需求分析

1. 2023一季度AIGC人才需求是三年前同期的5.6倍,而AI不到2倍

猎聘大数据研究院将2020一季度AIGC和AI的新发职位数作为基数,将从该季度至2023一季度期间各季度两个领域的新发职位数与各自的基数相除,从而观察它们的人才需求增长趋势。

对比发现,2020一季度至2021年一季度,AIGC和AI的职位增长不相上下。

此后,AIGC总体处于持续增长态势,2023一季度其新发职位数是2020一季度的5.63倍。

相比之下,AI新发职位数增速相对放缓,是2020一季度的1.95倍。

2. 近一年AIGC新发职位同比增长超43%,招聘平均年薪超40万

近一年(2022年6月-2023年5月)AIGC的新发职位增长较为显著,较上年(2021年6月-2022年5月)增长43.66%。

而近一年AIGC新发职位招聘平均年薪为40.12万,比同期AI的招聘平均年薪(为32.03万)高8.09万。

3. AIGC就业机会方向分析

1)近5成AIGC职位分布在互联网行业,招聘平均年薪为43万

近一年AIGC职位分布最多的三大行业是IT/互联网/游戏、汽车、电子/通信/半导体,占比为49.13%、17.59%、6.63%;其对应的招聘平均年薪为43.23万、34.65万、42.83万。

2)科研技术/商务服务行业AIGC职位同比增长最快,增速超200%

从近一年AIGC新发职位同比增长最快的三大行业来看,科研技术/商务服务行业的AIGC职位增长居首,为211.86%。

科研技术/商务服务的根基在于研发、服务的质量,而AIGC为其提供了更为有效、便捷的路径。

能源/化工/环保、IT/互联网/游戏行业AIGC的职位同比增长位居第二、第三,为120.99%、61.88%。

这三个行业AIGC职位招聘平均年薪较高,分别为50.35万、33.76万、43.23万。

3)AIGC领域算法工程师需求最大,招聘平均年薪达45万

从近一年AIGC新发职位三级热招职能分布TOP10来看,位居前三的是算法工程师、自然语言处理(NLP)、产品经理,占比为14.67%、7.37%、5.40%。

在这TOP10职能中,招聘平均年薪最高的是图像算法,为55.62万;深度学习、自然语言处理(NLP)、机器视觉、机器学习的招聘平均年薪均超50万;算法工程师位居第六,为45.05万。

这十大职能招聘薪资普遍较高,尤其技术类职能更具优势,这与AIGC正值风口、进入门槛高而人才稀缺密切相关。

4) 京沪AIGC职位最多,北京AIGC职位招聘平均年薪超47万居首

在近一年AIGC新发职位城市分布TOP10中,北京、上海职位最多,占比位居第一、第二,为22.21%、20.37%。

深圳、杭州位居第三、第四,占比为11.75%、10.15%。广州、苏州以3.90%、3.84%的占比位居第五、第六。

在这TOP10城市的招聘平均年薪方面,北京、深圳、南京、上海位居前四,分别为47.19万、46.35万、43.06万、42.74万。

杭州、广州以39.44万、37.50万的招聘平均年薪位居第五、第六。

出门问问创始人兼CEO、前Google总部科学家李志飞表示,AIGC工具属性重构了知识创作类内容的工作流,并为AI行业带来了全新的可能性和商业模式,而对于内容制作的降本提效则为规模化生产构建市场增量。

二、AIGC招人门槛分析

1. 要求3-5年经验的职位占比超36%,5-10年经验的人才需求同比超70%

从近一年AIGC新发职位对工作经验的要求分布来看,3-5年工作经验的职位最多,占比36.23%;其次是5-10年工作经验,占比23.29%。

AIGC对5-10年的人才需求增长最快,近一年同比增长70.75%;3-5年经验的AIGC人才需求增速位居第二,同比增长57.61%。

可见,AIGC招聘方更青睐有一定工作经验的从业者。

2. AIGC对高学历人才更为渴求,博士人才需求同比增长超100%

近一年,AIGC和AI新发职位对本科人才需求占比为70.80%、70.43%。

在对高学历需求方面,AIGC明显高于AI,前者对硕博的需求占比合计21.56%;后者为14.24%。

AIGC对博士人才更为渴求,其需求在各学历中增长最快,近一年同比增长108.11%。

3. AIGC企业感兴趣的人才分析

1)AIGC企业最有好感的职能:算法工程师

在近一年AIGC相关企业主动沟通的人才三级职能分布TOP10中,算法工程师以10.83%的占比领先。

产品经理位居第二,占比3.37%;自然语言处理(NLP)、智能网联工程师排名第三、第四,占比为2.38%、2.16%。

可见,算法工程师最受AIGC企业青睐。

2)AIGC企业对科技大厂人才最有兴趣,触达的人数中以华为背景的居首

从近一年AIGC企业主动沟通的人才来源公司分布TOP5来看,华为位居第一。

位居第二至第五是百度、腾讯、字节跳动、美团。

4. 进入AIGC需要的硬技术和软能力

据李志飞介绍,进入AIGC需要具备的硬性技能包括:

– 熟悉机器学习和深度学习的基本原理和算法;

– 了解自然语言处理的基本概念和技术,包括文本分析、文本生成等;

– 具备良好的数据处理和数据分析能力,包括数据清洗、特征工程等;

– 具备良好的编程能力,熟练使用Python、Java、C++等编程语言,以及良好的软件工程能力,包括版本控制、代码规范、测试和调试等;

– 能够不断探索新的技术和应用的创新思维;

– 以及解决问题、沟通和团队协作的能力。

三、AIGC人才储备分析

1. 近一年AIGC领域25岁以下人才同比增长最多,超60%

近一年AIGC整体人才同比增长为19.53%。

分年龄段来看,30岁以下人才占比从此前的31.64%增加到35.61%,数量较上年增长了31.70%。

其中,25岁以下的人才数量上同比增长61.90%,在各年龄段中增长最多;25-30岁的人才数量上较上年增长了27.62%。可见,AIGC的人才中年轻人有明显增多趋势。

尽管如此,30-35岁的人才仍然占比最多,为35.77%。

2. AIGC人才学历背景优于AI,硕博占比近45%

在近一年AIGC人才学历分布中,本科占比最多,为48.49%。硕士、博士占比分别为42.20%,2.79%,合计44.99%。

而AI人才中本科占比为54.09%,硕博占比合计23.90%(硕士22.32%,博士1.58%),远远低于AIGC。

3. 京沪AIGC人才最多,合计近50%

在近一年AIGC人才城市分布TOP10中,北京、上海位居前二,占比为26.01%、23.34%,合计为49.35%。

深圳位居第三,占比为11.90%。杭州、广州以5.78%、5.27%的占比位居第四、第五。

杭州是互联网重镇,又是好几个互联网大厂的总部,同时还有不少AI相关企业,因而AIGC人才储备相对较多。

4. AIGC人才高学历、资深从业者薪资更高

1)AIGC人才平均年薪超40万,博士平均年薪超75万

近一年AIGC人才平均年薪为40.12万元,比AI(27.93万)高12.19万元。

AIGC人才的薪资与其学历的高低成正比,大专、本科、硕士、博士学历平均年薪逐级升高,分别为25.11万、35.82万、44.33万、75.86万。

2)AIGC人才满15年经验后薪资迎来大爆发,平均年薪超67万

AIGC人才薪资与从业经验呈水涨船高的态势。5年以下的AIGC人才平均年薪不足26万。

5-8年突破30万大关,达到32.77万;10-15年经验的AIGC人才平均年薪逼近50万,为49.03万。

15年以上的AIGC人才平均年薪高达67.41万。从这点而言,经验就是财富。

5. AIGC人才来源分析

1)来自互联网行业的人才占比居首,互联网大厂人才比重较高

从近一年AIGC人才上份工作所在的二级行业分布TOP10来看,来自互联网行业的人才最多,占比12.67%;计算机软件和整车制造位居第二、第三,占比为9.78%、9.47%。

AIGC人才上份工作所在的公司TOP5依次是字节跳动、华为、阿里巴巴、百度、腾讯,与AIGC企业主动沟通的人才公司分布TOP5有四家重合,这进一步印证了具备高科技大厂的从业经历更易进入AIGC领域。

2)上份工作从事产品经理和算法工程师的人最多

从近一年AIGC人才上份工作的三级职能分布TOP10来看,产品经理和算法工程师位居前二,占比为6.91%、5.35%。其他职能的占比均小于5%。

对此李志飞表示,由于AIGC对人才的需求越来越多元化。除了需要传统的计算机科学和数据科学方面的人才,AIGC还需要具备AI模型优化、自然语言处理、机器人操作系统等方面知识和经验的专业人才。

四、投递AIGC的人才求职行为分析

1. 近一年投递AIGC的人才同比增长超270%,是投递AI人数增速的13倍

由于AIGC在全球范围内升温,投递该领域的人才呈激增态势,投递人数增速远超AI。

猎聘大数据显示,近一年投递AIGC的人才同比增长274.73%,其增速是同期投递AI人数增速(21.09%)的13倍。

2. 投递AIGC领域自然语言处理和产品经理的人最多,占比合计近20%

从近一年AIGC收到投递人数最多的三级职能分布TOP10来看,位居前三的职能为自然语言处理(NLP)、产品经理、算法工程师,占比为9.35%、9.30%、8.15%。

值得注意的是,内容运营和新媒体运营也跻身TOP10之列。

从显性影响上来看,AIGC对于内容和新媒体的帮助较大,因而相关岗位对求职者而言较有吸引力。

比如说新智元的编辑岗,就正在招人的。

3. 求职AIGC的人才所投递的公司:互联网与人工智能公司占据大半江山

在近一年投递发布AIGC职位的公司的人数分布TOP10中,互联网大厂占据四席,其中百度、阿里、字节跳动、腾讯分别位居第二、第五、第六、第八。

其中,计算机硬件公司鸿合科技位居第一;AI公司商汤科技、聆心智能及AI机构粤港澳大湾区数字经济研究院(福田)位居第三、第七、第十;互联网公司昆仑万维位居第四。

制造业公司三一集团位居第九。由此可见,求职者投递AIGC职位的人数集中于互联网和人工智能类公司。

在AIGC强大的技术威力面前,不少职场人对如何保住「饭碗」而深深担忧。

李志飞指出,AIGC最容易替代的职业有两类,一类是在电脑上即可完成工作闭环,并且工作内容存在大量重复环节的职业,如基础美工/设计;另一类是易于标准化的职业,如采用固定话术的客服、营销文案等。

而最不易被取代的是那些需要面对面互动和依靠身体技能的职业,如泥水匠、电工、机械师等手艺人,以及美发师、厨师、医生和护士等服务人员。

李志飞建议职场人应有意识地培养AIGC难以取代的技能,比如创新思维、解决复杂问题的能力以及人际交往等技巧。

ChatGPT火了,但学校里教的和它关系不大

无独有偶,前段时间登上知乎热搜一个问题,也体现出AIGC领域对学历要求的进一步提升——大模型都火成啥样了,学AI的还能找不着工作?

对此,一位知友一语中的地点出了原因:我学的是手动织布,结果现在珍妮纺织机火了……

ChatGPT的核心技术「Transformer」2017年论文问世,而今年毕业的人工智能专业的本科生,则是2019年入的学。

国内高校的人工智能专业的课程和计算机专业的课程设置又十分类似。

大一,几乎所有的人工智能专业学生都会学习基础的编程语言,到了大二开始接触网页设计、前端、数据结构等课程。

直到大三才开始接触神经网络、深度学习、智能语音、图像识别这类有人工智能专业「烙印」的课程。

很大概率和「Transformer」相关的内容可能根本就没有机会学到。

所以影响AI专业本科生就业的最大问题在于,学校学的内容和行业要求的实际能力脱节太严重。

而且,这种脱节还体现在人工智能企业同样招不到好用的员工上。

教育的滞后性被放大,导致了严重的产学脱钩。

现在的很多岗位,要的是熟练掌握编程、数据结构与算法、高数线代概率论、编译原理、机器学习、深度学习……的人才,综合素质要求极高。

另一方面,人工智能行业今年的爆发式发展,是由一批高端技术人才带来的。

而行业本身现在的发展阶段,急缺高端技术人才。

本科生的知识储备和实践经验,都很难达到行业对于人才的要求。

行业技术发展本就是一日千里,本科生大部分时间学习的内容,可能还没学懂呢,就已经没用了。

而且人工智能和互联网不一样,赢家通吃的模式对技术和人才都要求更高,反而不太需要很多基础岗位的劳动力。

这就导致了学历不占优势的本科毕业生处于「高不成低不就」的尴尬位置。

来源:公众号《啥都会一点的研究生

阿里云推出文本生成图片大模型——通义万相

在2023世界人工智能大会上,大模型成为绝对焦点,有30多个大模型团队集体亮相,不少通用和行业垂直模型都是首次登场。7月7日,在上海召开的2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测。(官方网址:https://wanxiang.aliyun.com/)

据介绍,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。

记者了解到,通义万相首批上线三大能力:

其一,基础文生图功能,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;

其二,相似图片生成功能,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;

其三,在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。

先看功能一,记者特意写了很长的文字描述,有61个字,系统显示可读字数达到500字。底下可以选择画风以及画面比例。

可以看到,生成结果包含四张图,对选择困难症患者还是……很友好的?

除了画面主人公姿态的变换,在宠物的数量、宠物与人大小对比等方面,通义万相给出了不同答案。你也可以选择“复用创意”,微调文本或选择生成其他画风。

记者给出的第二题,是看看杭州西湖——

“雨后夏天的杭州西湖,湖面微风飘过、水波荡漾,游船游人如织,画面采用新海诚风格或者油画风。”

看起来,核心要素都体现了,就是画面风格还是自己选更靠谱。

下一题,“各色奥特曼环成一圈,举手欢呼的场景”。

这道题,以前记者也测试过百度的文心一言,结果很离谱。通义万相的理解相对接近,虽然和记者脑补图不是一回事,但初次测试表现来看还算是很出彩。

通过语义文字的不断细化、调整,还可以让画风更接近心目中的理想型。

素描风(通义万相)

3D卡通风(通义万相)

最后一题,“城市核心商业区的摩天大楼,仰视视角,二次元风。”

无论是哪个大模型,都需要在不断地学习和训练中“变强”。据悉,基于阿里研发的组合式生成模型Composer,通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。

作为业内最早布局大模型的科技公司之一,在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相。此后,通义千问、通义听悟等模型和产品相继推出,家族新成员通义万相的亮相,意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。

阿里云方面的数据显示,目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。

在大会演讲中,阿里云CTO周靖人表示:“阿里云将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。”

“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。

本文来源浙江日报,如有侵权请联系删除

华为盘古大模型3.0正式发布,重塑千行百业!

近日,华为召开了2023开发者大会,在本次大会上华为云 CEO 张平安宣布,盘古大模型 3.0 正式发布。华为盘古大模型 3.0 是一个完全面向行业的大模型系列,包括 5+N+X 三层架构。

具体来说:

第一层 L0 层是盘古的 5 个基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,它们提供满足行业场景的多种技能。

盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 亿参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。

第二层 L1 层是 N 个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的 L0 和 L1 上,为客户训练自己的专有大模型。

第三层 L2 层是为客户提供更多细化场景的模型,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。

盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。

在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

据介绍,盘古可以一己之力做到网络搜索、请教专家、参考案例、查阅书籍等,让每个开发者都拥有一个自己的编程助手,甚至还可以实现一句对话代码生成、一个按键用例测试、一次点击自动注释、一条指令智能部署,极大地简化了开发的流程。

在气象领域,盘古气象大模型号称是首个精度超过传统数值预报方法的 AI 预测模型,同时预测速度也有大幅提升。原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台服务器上单卡配置,10 秒内就可以获得更精确的预测结果。

目前,盘古气象大模型在国际上带来了不小的震撼。欧洲中期预报中心将华为云盘古气象大模型与欧洲中期天气预报中心的实时运行了对比,得出了盘古预报实力更胜一筹的结论。就在昨天,国际顶级学术期刊《自然》正刊发表了华为云盘古大模型研发团队独立研究成果。这是中国科技公司首篇作为唯一完成单位发表的《自然》正刊论文,《自然》审稿人对该成果给予高度评价:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”

总的来说,盘古大模型 3.0 围绕“行业重塑,技术扎根,开放同飞”三大方向,持续打造自己的核心竞争力。此外,华为还首次提出打造“世界AI另一极”,在漂亮国围堵中国AI芯片背景下,华为喊出“打造世界AI另一极”,有望成为世界AI的另一极

AI科技资讯周刊:AI助手竞争激烈!Google计划超越GPT-4

Google对于ChatGPT的成功感到不满,因此计划推出自己的聊天机器人Bard,并整合AI资源,合并Google Brain和DeepMind两个研究团队,创建Google DeepMind。DeepMind的原CEO Demis Hassabis表示,Google有80%或90%的AI创新来自这两个团队。

ChatGPT 的大火,可把 Google 急坏了。

要知道 ChatGPT 中的「T」表示的是 Transformer 模型,出自于 Google 研究团队,而现在这一技术在竞争对手 OpenAI 的手上发光发热,这令 Google 颇感尴尬。

为应对这一挑战,Google 迅速推出了自己的聊天机器人 Bard,并且开始整合 AI 资源,合并了两大研究团队 Google Brain 和 DeepMind,创建了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 领导。

Hassabis 表示 Google 有 80% 或 90% 的 AI 创新都出自于这两个团队。

在 上个月的 Google I/O 大会上,Google CEO Sundar Pichai 官宣了一个重磅消息:Google DeepMind 正在研究一个全新的大语言模型,代号为 Gemini(双子座),这也是这两只团队合并后首次合作的项目。

近日,Demis Hassabis 在接受 Wired 的采访了透露了更多与 Gemini 有关的消息,这可能是 Google 向 OpenAI 反击的关键战役。

正在追赶的 Google

此前大家猜测,Gemini 和 GPT 模型类似,都是有着出色文本处理能力的大语言模型,两者的差异可能会体现在训练参数的规模上,模型规模越大,处理能力可能就会越强。

然而 Hassabis 表示,Gemini 有很多不太一样地方,例如 Google DeepMind 团队正在将 AlphaGo 中使用的技术结合语言模型,以赋予更强的规划或解决问题能力等等。这可能会成为 Gemini 的「杀手锏」技能。

抽象来看,你可以将 Gemini 看作是将 AlphaGo 型系统的一些优点与大模型的语言能力相结合。我们还有一些新的创新,这将非常有趣。

2016 年,横空出世的 AlphaGo 击败了围棋冠军李世石,让全世界第一次真切地感受到 AI 技术的震撼。

AlphaGo 的技术基于一种名为「强化学习」的训练方法,通过反复试验和反馈来学习如何解决问题,它还使用了一种称为树搜索的方法,探索并记住可能的走法。

Google DeepMind 团队希望将这些技术应用到语言模型中,使它们能够在互联网和计算机上执行更多任务。

DeepMind 在机器学习和强化学习有着丰富的经验,开展过多项重要的研究,包括:

AlphaGo:第一个击败人类世界冠军的围棋程序。AlphaGo 的成功标志着 AI 在处理复杂策略游戏方面的重大突破。

AlphaZero:AlphaZero 是一个通用的强化学习算法,可以在没有任何先验知识的情况下,仅通过自我对弈学习如何玩棋类游戏。AlphaZero 已经证明了其在国际象棋、将棋和围棋等游戏中的超强实力。

AlphaFold:AlphaFold 是一个可以预测蛋白质结构的深度学习系统。这个系统的准确性在生物学领域引起了广泛关注,因为它可以帮助科学家更好地理解疾病,并加速药物的发现和开发。

WaveNet:WaveNet 是一个深度生成模型,用于生成自然 sounding 的语音。它已经被广泛应用于语音合成和音乐生成等领域。

MuZero:MuZero 是一个无模型强化学习算法,它可以在没有环境模型的情况下,通过预测其动作的结果来学习策略和价值函数。MuZero 已经在多个任务和游戏中表现出了超强的性能。

DeepMind 在强化学习方面的深厚经验可能会为 Gemini 带来超越 ChatGPT 的新能力。

Hassabis 表示,Gemini 模型仍在开发中,这个过程将需要几个月的时间,可能花费数千万或者上亿美元。作为对比 OpenAI CEO Sam Altman 在四月份表示,创建 GPT-4 的成本超过了 1 亿美元。

Gemini 不仅仅是对 ChatGPT 做出的防御之举,还将是 Google 未来部署搜索等产品的技术基础。

Hassabis 表示,AI 的非凡潜在益处,例如健康或气候等领域的科学发,人类必须不停地发展这项技术。如果运用恰当的话,AI 将是对人类最有益的技术。

我们必须大胆且勇敢地去追求那些东西。

Google 不为人知的「护城河」

在 AI 研究方面,Google 还有一张盖住的王牌——全球最大的视频网站 YouTube。

视频是个非常多元的内容载体,我们可以把它分解成图像、音频和文字记录。Google 拥有 YouTube,也就意味着拥有最丰富的图像、音频训练内容。

根据 The information 报道,有内部人士透露 OpenAI 早已经悄悄地使用 YouTube 上的内容来训练其人工智能模型。

Google 自然不会忽视这座「金山」,The Information 继续爆料称 Google 的研究团队也在利用 YouTube 训练 Gemini 模型,并且 Google 能够比竞争对手们获得更完整的内容数据。

对于大语言模型来说,高质量的训练数据比黄金还要宝贵。

由于 YouTube 很多都是真实的对话,Google 可以利用 YouTube 视频的音频文本或描述作为训练 Gemini 的另一个文本来源,从而提高它的语言理解能力,并产生更加真实的对话反馈。

利用 YouTube 的视频内容,Google 还可以开发出类似于 Runway 用文本生成视频的多模态功能,用户只需要输入他们的描述就能生成出一条精美的视频。

除了制作视频,多模态模型还可以有更多的可能性,例如可以根据 YouTube 视频直接总结出球赛的亮点,或者根据视频帮助机械师诊断汽车修理问题。

OpenAI 在发布 GPT-4 模型时,曾展示过从草图生成网站代码的功能,这也是多模态模型的一个重要应用领域。

前 YouTube 高管 Shishir Mehrotra 表示,对 Google 来说,YouTube 视频简直就是一座数据金矿。

这不仅仅是因为视频的存在,而是因为视频存在于一个生态系统中。

YouTube 上的视频向 AI 展现了了人类是如何进行对话,这和书面化的文本有很大的不同,可以帮助模型更好的理解人类对话的逻辑,并生成更恰当的反馈。

不仅如此,Google 还收集大量的用户互动数据,清楚用户对视频的那些部分最感兴趣、哪些部分容易跳出、哪些内容会吸引用户评论等等。

据统计,YouTube 每分钟就有 500 小时的视频上传到网站上,Google 可以说是坐在了一座会源源不断生产金子的金山上,这或许会成为 Google 真正的护城河。

多模态才是未来

随着多模态模型越来越受到重视,未来会有更多的开发人员选择用视频训练语言模型。AI 教父、Meta AI 首席研究员 Yann LeCun 在近日一条推文中称:「通过视觉学习世界如何运转的系统,将对现实有更深刻的理解」,并称赞了 Meta 在这一领域的研究成果。

著名风投机构 A16Z 在最近采访了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和创始人,探讨出生成式 AI 当前最需要突破的四个方向,分别是操控、记忆、四肢(访问浏览器等)和多模态。

这四项关键关键创新将主导 AI 在未来 6 个月到 12 个月的发展,这也会影响公司和开发者改变构建产品的方式。

Cohere 的 CEO Aidan Gomez(著名论文《Attention is all you need》的主要作者之一)表示,AI 系统的能力终究是有限的,因为并非所有的内容都是文本形式,因此多模态能力对于大语言模型来说是个重要的发展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等模型已经在处理和生成图像、音频等内容。

我们现在的模型确实是字面意义上的「盲人」,这需要改变。

Aidan Gomez 在采访中总结道。

多模态模型能够极大地拓宽 AI 的应用场景,例如可以用在自动驾驶汽车或其他需要与物理世界实时交互的场景上。此前,Google 在 I/O 大会发布的 Med-PalM-2 模型便展示过可以分析 X 光照片的能力。

这也让人更加期待,更强大的 Gemini 能在多模态领域给我们多大的惊喜。现在看来,暂时取得领先的 OpenAI,远没有到停下来休息的时刻。

微软希望将 Windows 完全迁移到云端,十分看好 Windows 365

IT 之家 6 月 27 日消息,一份新的微软内部演示文档揭示了该公司对于 Windows 的长期目标。

从商业方面的变化大家也能看到,微软正在将越来越多的内容迁移到云端,拓展 Microfoft 365 等服务。

在 2022 年 6 月的一次内部 ” 业务状况 ” 演示中,微软讨论了如何将完整的 Windows 操作系统迁移到云端,并以此串流到任何设备上。

实际上,这份 PPT 是正在联邦贸易委员会目前与诉微软举行的听证会的一部分,因为它包括微软的整体游戏战略以及该战略与公司其他业务的关系。

简单来说,” 将 Windows 11 越来越多地迁移到云端 ” 被微软认为是 ” 现代生活 ” 消费领域中的长期机遇,包括利用 ” 云和客户端的力量,实现改进的人工智能服务,并实现人们数字体验的全面漫游 “。

在另一张 PPT 中,微软提到了为 2022 财年 ” 现代工作 ” 优先事项 ” 加强 Windows 商业价值并应对 Chromebook 威胁 ” 的需要,而 ” 商业方面的长期机会包括通过 Windows 365 增加云 PC 的使用 “。

得益于 Windows 365,微软可以将完整版本的 Windows 串流到任意设备上,但目前仅限于商业客户使用,不过微软已经将其深度集成到 Windows 11 中。

Windows 365 未来的更新将包括 Windows 365 Boot,这可以使 Windows 11 设备在启动时能够直接登录到云 PC 而不是本地 Windows。

今年 5 月,微软已经开始邀请用户测试其 Windows 365 Boot 云服务,所有升级到 Win11 22H2 的设备都可尝试访问这项服务。如图所示,你可以开机直接登录到 Windows 365 Cloud PC。

此外,Windows 365 Switch 也已内置于 Windows 11 中,以将云 PC 集成到 Task View ( 虚拟桌面 ) 功能中。

微软还提出了将消费者端的 Windows 完全迁移到云端的想法,同时也需要投资于定制芯片合作伙伴关系。

据称,微软已经在为其基于 Arm 的 Surface Pro X 设备做一些这方面的工作。

根据外媒 2020 年底的报道,微软正在考虑为服务器设计自己的 Arm 处理器,甚至可能会引入到 Surface 系列设备中。此外,最近还有消息称微软正在开发自己的 AI 芯片。

微软表示 Windows 365 Boot 云服务的初衷是,用户开机之后直接进入云 PC 登录界面,不需要启动其它应用的情况下,立即访问云账号服务。

微软表示不需要其它的步骤就可以访问 Windows 365 Cloud PC,用户登录其账号之后,立即可以使用虚拟桌面。对于需要在多个位置访问某台 PC 的用户来说,这项服务是非常有用的。

微软并未对所有用户开放 Windows 365 Boot,硬性要求如下:

Win11 终端设备(Win11 专业版或者企业版)

需要加入 Dev 频道 Windows Insider 成员

Microsoft Intune Administrator 权限

Windows 365 Cloud PC 许可证

重磅!龙岗区这个产业利好+1

7月6日下午,龙岗区在大运AI小镇举办“开放城市赛道 领跑智能时代”——龙岗区算法训练基地启用仪式暨龙岗区智慧城市产业联盟第一次代表大会

据了解

为深入贯彻落实

《深圳经济特区人工智能产业促进条例》

《深圳市加快推动人工智能

高质量发展高水平应用行动方案》

龙岗区积极探索实践

推出了

“一平台、一基地、一清单、一联盟”

四项具体举措

助力人工智能产业高质量发展

具体如下

↓↓↓

在全市率先搭建全国产架构的AI赋能平台,基于全区超10万路公共视频资源开展全天候智能分析,推动智慧城管、智慧交通、智慧市监等6大领域31个场景的智能化治理应用;

在全市率先搭建算法训练基地,全面开放政府数据、算力和应用场景,鼓励人工智能企业和机构创新创业,已有3家企业参与试用且研发完成20项算法成果,算法平均准确度超90%,比以往算法训练周期压缩约80%;

发布人工智能应用场景需求清单,首批梳理发布了50项人工智能应用场景清单,涵盖政府管理、政务服务、公共服务、城市治理等10大领域,动员科技企业“揭榜挂帅”定向研发,促进人工智能技术落地;

引导区智慧城市产业联盟发挥“桥梁纽带”作用,推动45家会员企业组团协作,促进产业链上下游资源共享,助力相关产业聚集发展。

接下来

龙岗区将以算法训练基地的启用

和智慧城市产业联盟代表大会的召开为契机

进一步推进政府数据、算力

和应用场景的全面开放

为科研机构、高校、科技企业搭建平台

助力创新创业和技术研发

促进人工智能技术应用和产业发展

活动中,区智慧城市产业联盟秘书处还发布了“企业服务贴心秘书、行业交流权威平台”两个方面10项服务新举措,并邀请了区工信部门和人工智能专家现场讲解产业政策和人工智能技术发展应用趋势,获得联盟会员企业一致好评。

2023世界人工智能大会:国产AI大模型加速落地,算力芯片企业争相“秀肌肉”

7月6日,以“智联世界、生成未来”为主题的2023世界人工智能大会(WAIC)在上海世博中心拉开帷幕。展会首日,一位参展人员笑称“不跟大模型沾点边都不好意思来参会”。

今年以来,AI大模型在全球掀起一轮开发热潮,眼下正处于快速应用落地的关键期。《证券日报》记者从现场参展公司获悉,在AI大模型向实际场景落地过程中,算力芯片企业重要性加速凸显。
在此次展会上,登临科技、燧原科技、瀚博半导体、沐曦等多家参展商或推出新品,或带来了产品最新落地成果。
算力芯片企业争相“秀肌肉”
无论从参展企业数量,还是展览面积来看,2023世界人工智能大会均创历届之最。5万平方米的世博主展览馆吸引了超过400家参展企业,首发首展新品达到30余款。值得一提的是,大模型以及为之提供算力支撑的芯片、智能计算企业是一众参展商中的“亮点”。
在展会现场,瀚博半导体、燧原科技、登临科技等国内芯片均利用自家产品演示运行大语言模型、AI绘画、文生PPT等。
高端GPU芯片公司瀚博半导体已连续三年参与世界人工智能大会。此次,瀚博半导体“一口气”发布了包括SG100全功能GPU芯片、LLM大模型AI加速卡以及高性能生成式AI加速卡等6款新品,为AI大模型、图形渲染和高质量内容生产提供完整解决方案。
据公司工作人员向《证券日报》记者介绍,AI大模型和元宇宙需要GPU强大的AI并行算力和图形渲染力支撑,为云端大芯片企业打开了广阔的市场前景。未来,具有并行计算能力的GPU芯片作为大模型计算的“大脑”将为大模型生成学习提供源源不断的算力支撑。
同样作为芯片设计企业,燧原科技在此次展会上发布了文生图MaaS平台服务产品——燧原曜图,能够为用户提供大模型的微调和MaaS服务并提升大模型应用的上线速度和效率。登临科技和天数智芯则“抢先一步”,直接带来了应用落地的实际案例。
记者在登临科技展台注意到,公司此次一并推出了大模型、智算中心、创新应用以及创新硬件四个展区。在大模型展示区域,登临科技特别展示了最新一代创新通用GPU产品-Goldwasser II系列以及基于开源大语言模型可交互界面。
在此次展会上,作为国内首家量产通用GPU企业,天数智芯对外宣布公司天垓100芯片在日前完成百亿级参数大模型训练后,将继续完成更大参数规模的大模型训练。
除通用算力芯片外,基于高性能芯片的AI模型应用也是行业未来“重头戏”。一直以来,汇纳科技通过AI传感器、人工采集、互联网以及AI模型生产四大渠道,为实体商业领域的购物中心、零售品牌等用户以及各级政务提供标准化或定制化的数据支持服务。下一步,公司将基于现有数据底座推动更多企业、政务部门数字化转型。
“人均算力”市场前景广阔
展会上的火热程度仅仅是国内大模型快速发展的一隅。近年来,北京、上海、深圳等多地纷纷出台相关支持举措,开展大模型创新算法及关键技术研究,加强人工智能算力基础设施布局,加速人工智能基础数据供给,从而构筑人工智能创新高地。
按中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%。从短期来看,AI大模型无疑将成为人工智能核心产业发展“新引擎”。
在此次世界人工智能大会上,不少算力芯片参展商较为看好AI大模型发展过程中的国产化机遇。
“大模型应用发展直接将英伟达带入万亿美元市值俱乐部。对于我们国内厂商来说的话,其实也存在一个比较好的发展前景。”上述参展人员向《证券日报》记者表示,未来在算力中心或者其他的细分领域,人工智能的应用必然是一个趋势,至少往后5-7年,相关企业还是会保持比较高速的增长。
不过,区别于海外大模型发展路线,登临科技市场部相关负责人在接受《证券日报》记者采访时表示,“我们认为未来中国大模型的发展跟海外是不一样的。海外是主要是面向C端,比如亚马逊、谷歌、OpenAI这些,那么中国会有很多公司主要做B端,像在医疗、国央企的应用。因此,整体解决方案的性能、功能和性价比格外重要。”
面对AI大模型对于底层算力需求与日俱增,天数智芯董事长兼CEO盖鲁江向《证券日报》记者表示,大家现在能看到很多从事大模型开发的企业,少的需要百亿参数,多的需要几千亿参数,所以未来对算力的需求一定是越来越多。用同行的话来说,未来应该是按人均算力,即每天需要消耗多少算力,就像现在计算每天人均消耗多少电量一样。
多家券商在近期研报中表示,大模型催生算力需求,AI产业需求持续爆发。国内大模型自研AI大模型进入“百花齐放”阶段,大模型的涌现开启了算力“军备赛”。同时,大模型参数呈现指数规模,进一步引爆海量算力需求。随着国内外科技企业持续对AI大模型领域的投入,AI产业相关的芯片产业链将有望迎来快速发展。

上下游的“冰与火”:AI拐点在哪?

近期,年内持续火爆的AI行情短期熄火,截至7月5日,软件开发板块10个交易日遭资金净流出超过240亿元,文化传媒、游戏、计算机设备等行业板块净流出资金也均超过百亿元。

除了二级市场,AI上下游产业链也出现了微妙的偏差,上游硬件持续火爆,光模块、HBM等依旧有大批企业“抢滩”,而游戏等AIGC应用端却有走冷趋势。目前一个整体判断的是,人工智能行业正在渡过一个关键的发展瓶颈——即技术实力何时能够全面转化为商业红利?

01上游火热:企业抢滩算力、存力、运力

AI的快速发展一直受限于算力(信息计算能力),但是拥有先进芯片并不意味着拥有更高的算力,单个AI服务器的算力有限,亟需通过高性能网络连接多个AI服务器和存储系统,构建大规模计算集群。

存力(数据存储能力)、运力(网络运载能力)两大概念也应运而生。

中国工程院院士倪光南提出了广义算力和存算比两个概念:广义算力=存力+算力+运力,存算比=存力/算力。经测算,我国的存算比为0.42TB/GFLOPS,表明存力相对不足,存在重算力、轻存力的倾向。

为了在AI浪潮中占据一席之地,算力里的CPO、存力里的HBM成了企业“抢滩”重点。

首先是算力方向。

AI算力的需求对光模块的需求带来较大增长,据悉,AI服务器所用的A100、H100等GPU,需用200G以上的高速率光模块8—10个/片。AI算力建设与云计算需求共振,800G光模块开启规模量产新周期,800G 大客户需求指引有望持续超预期,光模块龙头厂商持续产能扩张以应对高涨需求。

自3月以来,北美厂商已经多次追加800G光模块订单,追加频率及数量超市场预期。根据国金证券研报,目前英伟达等海外几大巨头给到800G光模块供应商的预期2024年已上升至1000万只,光模块厂商正在大力扩产,以应对爆发时需求增长。中际旭创近日也在互动平台回复称,公司用于AI场景的800G光模块正在持续出货和取得收入。

其次是存力方向。

高带宽存储器(HBM)正成为AI时代的“新宠”。HBM是一种基于3D堆叠工艺的DRAM内存芯片,具有更高带宽、更低功耗、更小尺寸等优点。它突破了内存内容与宽带瓶颈,能为GPU提供更快的并行数据处理速度,被视为GPU存储单元的理想解决方案。

近来,继英伟达之后,全球多个科技巨头都在竞购SK海力士的第五代高带宽存储器HBM3E。据证券日报消息,半导体行业内部人士称,各大科技巨头已经在向SK海力士请求获取HBM3E样本,包括AMD、微软和亚马逊等。申请样本是下单前的必要程序,目的是厘清存储器与客户的GPU、IC或云端系统是否兼容。此举意味着,HBM3E良率已经很稳定、能够大量生产,已来到交货前的最后阶段。

对于AI上游硬件的后续发展,天风证券认为,AI硬件投入将继续保持强劲的发展势头。服务器部署反映算力需求,大部分公司有服务器扩张计划。不同公司在计算资源的使用量、成本和供应商选择上存在差异,反映出它们在AI技术发展上的投入和战略规划。

02下游冰冷:AIGC遭应用端抵制?

与上游正相反,AI下游应用端似乎有“结冰”趋势。

首先是此轮AI行情的导火索——ChatGPT,其访问量正在下滑。

据证券日报消息,网络分析公司Similarweb统计数据显示,2023年前5个月,ChatGPT全球访问量环比增幅分别为131.6%、62.5%、55.8%、12.6%、2.8%,增长幅度明显下降;6月份ChatGPT的访问量环比下滑9.7%,为其推出以来首次。市场认为,(通用AI大模型)产业泡沫化风险在一定程度上已经出现。

其次是被视为AI将最先落地的应用端——游戏领域,出现了抵制AI的事件。

据南方都市报消息,游戏平台Steam的母公司valve在审核游戏时,拒绝了一部使用AI生成内容的游戏。valve表示,由于AI生成内容的版权归属不清楚,他们无法发布这些游戏,除非开发者能证明他们拥有用于训练AI的数据的权利。

目前,AI技术在游戏开发中已经广泛应用,比如用来生成地形、角色、音效等。一些大型游戏公司,如育碧、EA等,也都在积极探索AI技术在游戏中的可能性。然而,AI技术也带来了一些版权和伦理上的挑战和争议——AI生成,是否是创新的,是否是真实的?

事实上,上述两件事,恰恰证明了AI在应用端的同质化问题,短时间内可以引发使用者的兴趣,但缺乏能留存用户的实用性和创新性,这也是近期AI大模型热议的要重视“垂直化”和“行业验证”。

从当前产业发展情况来看,AI应用层依旧处于初级阶段。简单来说,就是广度够了,类似当年的互联网,AI可以在各行各业都沾点边,但缺少深度,主要局限于文字、图片或视频的生成,信息的真实性也难以保证。这主要受制于四方面:

一是技术问题,AI技术需要涉及到机器学习、深度学习、自然语言处理等多个领域,技术成熟度尚未达到预期,很多应用场景仍然需要更多的研究和开发。

二是数据问题,AI落地是一个知易行难的过程,AI模型想实现应用,需要大量、统一、标准、高质量的数据来进行训练,数据的广度、深度、安全性等问题都需要重视。

三是硬件问题,更智能的AI需要更高的计算能力,正如前文所属,当前AI上游硬件端还处于发展阶段,算力、存力、运力都亟待提升,否则难以支撑商业落地。

四是交流问题,在大部分的场景下,都是工程师、科学家讲一套语言,而业务负责人讲另外一套语言,AI产业链上下游战线过长,供应端与应用端尚未形成良性交流,这种状态进一步导致了AI的落地难。

03AI商业化拐点何时到来?

往后看,AI上下游的“错配”还会持续多久?商业化拐点何时能够出现?

其一,要看从技术能力到场景应用的转化,何时实现通用化、适配化、量产化、规模化。如果服务的每一个客户,都需要为其单独定制解决方案,就意味着商业模式没跑通,不能实现边际成本的持续走低。

其二,单位成本和效率能否持续优化?AI对于各个行业最直接的意义,当然是“降本增效”,市场认为,AI对游戏、传媒等领域的效率提升有望达10倍。但如今AI硬件和软件成本依旧高昂,在上游产业化有实质进展前,“降本增效”仍然只是空谈。

其三,相关法律法规的落地。归根结底,人工智能技术其实取决于两大变量,一是算法,二是数据。而市场对数据安全的担忧,正是制约AI进化的原因之一。随着AI相关法规进一步完善,商业化落地才有了基础。

当然,AI的红利是清晰可见的,它可以与各行各业相结合,但到底是“AI产业化”还是“产业AI化”还待定论。总体而言,AI发展的方向是有的——自动驾驶技术就是AI在汽车领域的一种极致演绎,但走向成熟的道路必然艰难。在未来商业化的求解上,各大企业也势必要经历一番波折。归根结底,AI已是时代风向,与时代为友,就需要给予更大的耐心,才有机会享受时代的红利。

04二级市场的AI热度到头了?

从二级市场来看,今年以来,AI概念股走出一波大行情,几只大牛股被炒出“天价”。股价炒得过高的一个基础也在于,新模式、新技术的估值方式还没有共识。新的题材,尤其是尚未能落到商业化、收入层面的技术突破,它的估值不适用传统的市盈率、市净率等方式,如何给这些概念股估值,市场还在摸索中,形成共识需要时间。

事实上,每种新技术都有一个成熟度曲线,其发展可以分为5个阶段,即技术萌芽期、期望膨胀期、泡沫破裂低谷期、稳定成长期和成熟期。

在不同发展阶段,市场具有不同的期望,例如“技术萌芽期”的期望值随时间逐步提升,在“期望膨胀期”达到阶段性顶峰,在“泡沫破裂低谷期”期望值持续下行,直至产业化来临,迎来“稳定成长期”,最终在渗透率大幅提升之后,进入“成熟期”。

目前而言,AI技术还在期望膨胀期,二级市场行情则处于概念炒作阶段(后续还有技术炒作阶段、业绩炒作阶段)。接下来市场将上演大浪淘沙——二级市场的信息披露更加完善,上市公司是真的具备AI硬实力,还是单纯蹭概念,不久就会真相大白,投资者要做的是密切关注。

重磅,GPT-4 API 全面开放使用!

遥想今年 3 月刚推出 GPT-4 的 OpenAI 仅邀请了部分提交申请的开发者参与测试。眼瞅 OpenAI 联合创始人 Greg Brockman 在当时现场演示“史上最为强大”的 GPT-4 模型,轻松通过一张手绘草图生成一个网站、60 秒就能搞定一个小游戏开发等这些功能,一众开发者却不能使用。

而就在今天,GPT-4 的适用性进一步被拓展。OpenAI 正式发布 GPT-4 API,现对所有付费 API 的开发者全面开放!

OpenAI 路线图:本月底前向新开发者拓展推出 GPT-4

在上线的这四个月里,相信很多人通过技术解析论文(https://cdn.openai.com/papers/gpt-4.pdf),对于 GPT-4 也不太陌生。

据 OpenAI 透露,自今年 3 月份发布 GPT-4 以来,数以百万计的开发者要求访问 GPT-4 API,且利用 GPT-4 的创新产品的范围每天都在增长。

与其前身 GPT-3.5 相比,GPT-4 的不同之处在于它增强了生成文本(包括代码)的能力,同时还接受图像和文本输入。

该模型在各种专业和学术基准上表现出“人类水平”。此前,OpenAI 研究人员也做过测试,称,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。

与 OpenAI 以前的 GPT 模型一样,GPT-4 是使用公开的数据进行训练的,包括来自公共网页的数据,以及 OpenAI 授权的数据。从技术维度上来看,GPT-4 是一个基于 Transformer 的模型,经过预训练,可以预测文档中的下一个 token。这个项目的一个核心部分是开发了基础设施和优化方法。这使 OpenAI 能够根据不超过 GPT-4 的 1/1000 的计算量训练的模型,准确地预测 GPT-4 的某些方面的性能。

不过,目前有些遗憾的是,图像理解能力还没有提供给所有 OpenAI 用户。还是像今年 3 月份 OpenAI 宣布的那样,它只是与其合作伙伴 Be My Eyes 进行测试。截至目前,OpenAI 还没有表明何时会向更广泛的用户群开放图像理解能力。

现如今,所有具有成功付费记录的 API 开发者都可以访问具有 8K 上下文的 GPT-4 API,当然,这一次还不能访问 32 K 上下文的。

同时,OpenAI 也有计划在本月底向新的开发者开放访问权限,然后根据计算的可用性,开始提高速率限制。

值得注意的是,虽然 GPT-4 代表了生成式 AI 模型发展的一个重要里程碑,但是这并不意味着它是 100% 完美的。就 GPT-4 而言,它还有可能产生“幻觉”,并理直气壮地犯一些推理性错误。

在未来,OpenAI 表示也正在努力为 GPT-4 和 GPT-3.5 Turbo 安全地启用微调功能,预计这一功能将在今年晚些时候推出。

 Chat Completions API 

在公告中,OpenAI 还宣布将普遍向开发者提供 GPT-3.5 Turbo、DALL-E 和 Whisper APIs。

同时也向开发者分享了目前广泛使用的 Chat Completions API 现状。OpenAI 表示,现在 Chat Completions API 占了其 API GPT 使用量的 97%。

OpenAI 指出,最初的 Completions  API 是在 2020 年 6 月推出的,为语言模型进行互动提供了一个自由格式的文本提示。

Chat Completions API 的结构化界面(如系统消息、功能调用)和多轮对话能力能够使开发者能够建立对话体验和广泛的完成任务,同时降低提示注入攻击的风险,因为用户提供的内容可以从结构上与指令分开。

OpenAI 表示,当前也正在弥补 Chat Completions API 的几个不足之处,例如completion token 的日志概率和增加可引导性,以减少回应的 “聊天性”。

旧模型的废弃

另外,OpenAI 也发布了旧模型的弃用计划。即从 2024 年 1 月 4 日开始,某些旧的 OpenAI 模型,特别是 GPT-3 及其衍生模型都将不再可用,并将被新的 “GPT-3 基础”模型所取代,新的模型计算效率会更高。

根据公告显示,具体淘汰的模型包含 Completions API 中的一些旧模型,包含我们熟悉的 davinci:

  • 使用基于 GPT-3 模型(ada、babbage、curie、davinci)的稳定模型名称的应用程序将在 2024 年 1 月 4 日自动升级到上述的新模型。在未来几周内,通过在 API 调用中指定以下模型名称,也可以访问新模型进行早期测试:ada-002、babbage-002、curie-002、davinci-002。
  • 使用其他旧的完成模型(如 text-davinci-003)的开发者将需要在 2024 年1月4日之前手动升级他们的集成,在他们的 API 请求的 “模型 “参数中指定 gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct 是一个 InstructGPT 风格的模型,训练方式与 text-davinci-003 类似。这个新的模型是 Completions API 中的一个替代品,并将在未来几周内提供给早期测试。

与此同时,OpenAI 表示,希望在 2024 年 1 月 4 日之后继续使用他们的微调模型的开发者,需要在新的基于 GPT-3 模型(ada-002、babbag-002、curie-002、davinci-002)或更新后的模型(gpt-3.5-turbo、gpt-4)之上进行微调替换。

随着 OpenAI 在今年晚些时候开启微调功能,他们将优先为以前微调过旧型号的用户提供 GPT-3.5 Turbo 和 GPT-4 微调服务。具体原因是,OpenAI 深谙从自己的数据上进行微调的模型上迁移是具有挑战性的,对此他们会为「以前微调过的模型的用户提供支持,使这种过渡尽可能顺利」。

除了淘汰一些 Completions API  旧模型之外,OpenAI 表示,旧的嵌入模型(如 text-search-davinci-doc-001)的用户也需要在 2024 年 1 月 4 日前迁移到 text-embedding-ada-002。

最后,使用 Edits API 及其相关模型(如t ext-davinci-edit-001 或 code-davinci-edit-001)的用户同样需要在 2024 年 1 月 4 日前迁移到 GPT-3.5 Turbo。Edits API 测试版是一个早期的探索性 API,旨在使开发人员能够根据指令返回编辑过的提示版本。

OpenAI 在公告中写道,“我们认识到这对使用这些旧型号的开发者来说是一个重大变化。终止这些模型不是我们轻易做出的决定。我们将承担用户用这些新模式重新嵌入内容的财务成本。”

OpenAI 表示将在未来几周,与受影响的用户联系,一旦新的模型准备好进行早期测试,他们也将提供更多信息。

预告:下周,所有 ChatGPT Plus 用户可用上代码解释器

最为值得期待的是,OpenAI 官方还在 Twitter 上预告:代码解释器将在下周向所有 ChatGPT Plus 用户开放。

它允许 ChatGPT 运行代码,并且可以选择访问用户上传的文件。开发者可以直接要求 ChatGPT 分析数据、创建图表、编辑文件、执行数学运算等。

不知大家期待否?

调用 GPT-4 API 可以做的 10 件事

最后,随着此次 GPT-4 API 的放开,开发者再也不用费尽心思地购买 Plus 服务了,调用迄今业界最为强大的 GPT-4 API,无疑也让相关的应用更加智能。

那么,我们到底能用 GPT-4 API 来做什么,对此外媒总结了常见的 10 种用法:

  • 基于 GPT-4 API 的叙事能力,可以快速生成复杂情节、人物发展等小说内容,彻底改变文学创作领域。
  • GPT-4 API 为模拟极其真实的对话铺平了道路,反映了人类交互的真实性和精确性。
  • GPT-4 API 展现了即时语言翻译的能力,有效地弥合了各种语言和文化之间的沟通差距。
  • GPT-4 API 在数据分析方面有很强的能力,可以为数据分析市场参与者提供了宝贵的洞察力。
  • GPT-4 API 能够打造与现实世界动态相呼应的高度逼真的虚拟环境,增强了游戏和虚拟现实等领域的沉浸感。
  • GPT-4 API 生成复杂计算机代码的能力,使其成为软件开发人员不可或缺的盟友。
  • GPT-4 API 可以解释和分析医疗数据,帮助准确诊断和预测各种健康状况。
  • 利用其先进的语言生成能力,GPT-4 API 可确保快速、准确地生成法律文件。
  • GPT-4 API 展示了解释消费者数据和生成定制营销内容的能力,有效地与目标受众产生共鸣。
  • GPT-4 API 有可能通过分析大量的科学数据来推动科学创新,在化学、物理学和生物学等不同领域发现新的见解。

2023年7月总结-国内外大模型集合

国内大模型列表

序号公司大模型省市官网说明
1百度文心一言北京试用需账号
2科大讯飞星火安徽合肥试用需账号
3达观数据曹植上海试用需账号
4阿里云通义千问浙江杭州试用需账号
5复旦大学MOSS上海试用需账号
6清华大学ChatGLM北京开源6B,智谱AI
7华为盘古广东深圳华为+鹏城
8智源人工智能研究院悟道·天鹰北京悟道3.0,视界视觉,AQUILA天鹰座,Aquila-7B,AquilaChat-7B,AquilaCode-7B-NV,AquilaCode-7B-TS
9哈尔滨工业大学本草黑龙江哈尔滨医学;基于LLaMA;另有基于 ChatGLM 的Med-ChatGLM
10贝壳BELLE北京基于BLOOMZ或LLaMA的多个模型
11百川智能baichuan北京开源可商用
12OpenBMBCPM北京面壁智能,智源
13上海人工智能实验室书生·浦语, OpenMEDLab浦医上海技术报告,上海AI实验室+商汤+港中文+复旦+上海交大
14云知声山海北京
15东北大学TechGPT辽宁沈阳基于BELLE->LLaMA,图谱构建和阅读理解问答
16港中文深圳华佗,凤凰广东深圳香港中文大学(深圳)和深圳市大数据研究院,医学,Demo,华佗和凤凰都基于BLOOMZ
17中科院紫东太初北京紫东太初2.0号称100B参数,全模态
18虎博科技TigerBot上海基于BLOOM
19IDEA研究院封神榜MindBot广东深圳
20微盟WAI上海
21360智脑,一见北京
22度小满轩辕北京基于BLOOM
23华南理工大学未来技术学院ProactiveHealthGPT,扁鹊,灵心SoulChat广东广州
24西北工业大学+华为秦岭·翱翔陕西西安流体力学大模型,湍流+流场
25奇点智源Singularity OpenAPI北京瑶光和天枢
26超对称技术公司乾元北京
27稀宇科技MiniMax上海GLOW虚拟社交,
28西湖心辰西湖浙江杭州
29晓多科技+国家超算成都中心晓模型XPT四川成都
30中国科学院计算技术研究所百聆北京基于 LLaMA,权重Diff下载7B和13B,demo
31北京语言大学桃李北京基于LLaMA,北语+清华+东北、北京交大
32商汤科技日日新上海
33国家超级计算天津中心天河天元天津
34星环科技无涯、求索上海无涯——金融;求索——大数据分析
35慧言科技+天津大学海河·谛听天津
36恒生电子LightGPT浙江杭州
37电信智科星河北京通用视觉,中国电信
38左手医生左医GPT北京医疗,试用需Key
39智慧眼砭石湖南长沙医疗领域
40好未来MathGPT北京学而思
41数慧时空长城北京自然资源,遥感
42理想科技大道Dao北京运维大模型
43硅基智能炎帝江苏南京
44中工互联智工北京与复旦NLP实验室联合,工业领域
45创业黑马天启北京创业黑马与360合作,科创服务行业
46追一科技博文Bowen广东深圳
47网易有道子曰北京
48网易伏羲玉言广东广州
49昆仑万维天工北京与奇点智源联合研发
50知乎知海图北京知乎和面壁科技合作
51医疗算网Uni-talk上海上海联通+华山医院+上海超算中心+华为
52蚂蚁集团贞仪浙江杭州据传语言和多模态两个
53中科创达魔方Rubik北京
54腾讯混元广东深圳
55拓尔思拓天TRSGPT北京
56乐言科技乐言上海
57清博智能先问北京基于结构化数据
58智子引擎元乘象江苏南京
59拓世科技拓世江西南昌
60循环智能盘古北京循环智能,清华大学,华为
61印象笔记大象GPT北京
62第四范式式说北京
63字节跳动Grace北京内部代号
64出门问问序列猴子北京
65数说故事SocialGPT广东广州
66云从科技从容广东广州
67电科太极小可北京党政企行业应用
68中国农业银行小数ChatABC北京
69麒麟合盛天燕AiLMe北京
70台智云福尔摩斯FFM台湾华硕子公司
71医联科技medGPT四川成都
72理想汽车MindGPT北京
73深思考人工智能Dongni北京
74长虹长虹超脑四川绵阳
75孩子王KidsGPT江苏南京
76中科闻歌雅意北京
77澜舟科技孟子北京
78京东ChatJD北京
79智臻智能小i上海小i机器人
80新华三H3C百业灵犀浙江杭州
81鹏城实验室鹏城·脑海广东深圳Peng Cheng Mind
82宇视科技梧桐浙江杭州AIoT行业
83中国联通鸿湖北京
84美亚柏科天擎福建厦门公共安全
85赛灵力科技达尔文广东广州赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心

国外大模型

公司大模型说明
OpenAIChatGPT
微软Bing Chat
GooglePaLM2
AnthropicClaude
MetaLLaMA
Stability AIStableLM
AmazonTitan
BloombergBloombergGPT
MosaicMLMPT
IntelAurora genAI
UC Berkeley, Microsoft ResearchGorilla

ChatGPT紧急下线联网搜索功能,用户:钱都付了就给我看这个?

一夜之间,ChatGPT 又回到了 2021 年。

OpenAI宣布暂停ChatGPT的Bing搜索功能。

根据通知,自2023年7月3日起,出于谨慎考虑,他们禁用了这一测试版功能。

OpenAI表示他们正在修复问题以保护内容所有者的权益,并努力尽快恢复测试版。

ChatGPT浏览Bing是ChatGPT Plus订阅者使用的一个功能,ChatGPT Plus是ChatGPT的高级版本,每月收费20美元,订阅者可以优先体验新功能和改进,并在对话中获得更快的响应时间。

然而,OpenAI意识到该功能有时会以他们不希望的方式显示内容,因此暂停了该功能。

今年3月,ChatGPT首次宣布拥有联网功能。

但最新更新中宣布停止了该功能,用户对此表达了不满。

一些付费用户表示,他们为了使用Bing搜索功能才付费订阅ChatGPT Plus,并质疑OpenAI的决定。

他们担心未来ChatGPT可能不再支持网站内容的翻译功能。同时,一些用户认为ChatGPT4.0的性能下降,甚至比3.5版本差。

有外媒就此事联系了 OpenAI,询问关于此项决定的几个问题。对方回复了邮件,但仅仅是列出一条与更新后的帮助页面内容相似的推文。

OpenAI 称:

我们了解到,ChatGPT 的“Browse”beta 版有时会以意外方式显示内容。例如,若用户坚持请求目标 URL 指向的全文,其可能在无意中满足这一请求。我们将暂时禁用 Browse 功能并修复相关问题,希望维护内容所有者的应有权益。

九大“镇馆之宝”亮相世界人工智能大会

2023世界人工智能大会7月6日在上海开幕,大会为期三天。

2023年世界人工智能大会有三大亮点。一是互动体验再度升级,智能化应用场景进一步拓展。二是参展企业数量和展览面积均创历届之最,5万平方米世博主展览涵盖智能终端、应用赋能、前沿技术、核心技术四大板块。三是为重视场景应用落地、产业需求对接和产业人才发展,大会邀请了国内外顶尖学府、科研机构、投资机构及各界相关代表深度交流,展现创新应用落地的突破性成果。

 ○ 九大镇馆之宝 ○

蚁鉴AI安全检测平台2.0

蚁鉴AI安全检测平台2.0,安全性方面,自研的诱导生成技术应用于AIGC安全性检测,助力AIGC的产出符合安全规范与社会伦理。可靠性方面,平台构建一套实战性攻击标准,对AI系统提供全面多维度的鲁棒性测评服务,有助于AI系统的改进和优化。透明性方面,融合逻辑推理、因果推断等技术,提供涵盖完整性、准确性等7个维度及20项评估指标,对AI系统的解释性进行全面和客观的量化分析。

Amazon Bedrock

 Amazon Bedrock是亚马逊云科技推出一项完全托管的生成式AI服务,通过 API 提供来自领先的 AI 初创公司和亚马逊自研的基础模型,帮助客户便捷安全的构建和扩展生成式AI应用。

客户可以从各种基础模型中进行选择,找到最适合自身业务场景的模型,同时借助 Amazon Bedrock 的无服务器体验,快速上手直接使用,或者在确保数据安全和隐私的前提下,使用自有数据进行微调,并通过熟悉的亚马逊云服务和产品工具轻松集成并部署到应用程序中,而无需管理任何基础设施。

文心一格

文心一格是百度推出的AI艺术和创意辅助平台,是百度依托于飞桨、文心大模型持续的技术创新,在“AI作图”方面发布的产品和技术工具。文心一格背后的文生图技术基于文心大模型打造,是全自研的原生中文文生图系统,并可提供多样的AI生图服务,包括图像编辑、骨骼和线稿识别、小样本训练等。

Graphcore C600 IPU处理器PCIe卡

Graphcore C600 IPU处理器PCIe卡主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。它在提供低延时、高吞吐量的同时不损失精度,帮助AI开发人员解决“精度与速度难两全”的痛点,为AI应用提供解锁IPU强大算力的新路径,以满足客户和机器智能从业者对于易用、高效以及更优TCO推理产品的强烈需求。C600在提供强大的算力、易用性和灵活性的同时,还实现了低时延和低功耗,在运行典型工作负载时的散热设计功耗仅为185瓦,可为运维人员大大减少数据中心运营开支。

昇腾AI“大模型超级工厂”

昇腾AI“大模型超级工厂”从大模型的数据&模型准备、算力准备&模型训练、模型部署上线&集成等阶段全流程使能大模型的开发与应用创新。

目前基于昇腾AI原生孵化了业界首个两千亿参数的中文NLP大模型鹏城.盘古、业界首个多模态大模型紫东.太初以及华为云盘古系列在内的20多个国产大模型。同时,昇腾AI也已适配支持了ChatGLM、LLaMA、GPT-3、BLOOM等数十个业界主流开源开放的大模型。

AI药物研发自动化解决方案

晶泰科技AI药物研发自动化解决方案实现了AI药物研发实验过程的高度自动化和智能化:不仅突破了药物研发DMTA循环中化学合成这一关键限速瓶颈,提升了药物研发实验效率和成功率,更进一步解决了AI药物研发实验中标准化过程数据缺失的问题,可全程记录标准化、可追溯的过程数据和正负结果数据,供AI模型学习迭代,更好的设计反应步骤,形成AI、自动化实验、数据的互相正反馈,实现automation for AI,AI for science的正向循环。

云燧智算集群

云燧智算集群是面向大型智算中心的高性能人工智能加速集群,旨在满足AIGC时代对超大规模算力的需求。目前基于该集群产品,已在国家级重点实验室之江落地千卡规模训练集群,提供超过 100P 的先进AI算力,以高效支撑包括融媒体、文本生成PPT的应用、跨模态图像生成等多个 AIGC应用,以及计算基因、计算制药、计算材料等多种的 AI4S 科学计算应用的开发和前沿探索。

智能换电无人驾驶商用车Q-Truck

 全球首款智能换电无人驾驶商用车 Q-Truck,配套智能能源服务PowerOnair,5分钟即可完成无人化电池补能,适用于海陆空铁、工厂等多个物流场景。Q-Truck,还曾作为唯一无人驾驶卡车参演《流浪地球2》电影。

腾讯多媒体实验室XMusic

腾讯多媒体实验室基于AIGC技术最新推出的XMusic生成式通用作曲框架,支持视频、图片、文字、标签、哼唱等多模态内容作为输入提示词,生成情绪、曲风、节奏可控的高质量音乐。

 ○ 科学前沿 ○

上海人工智能实验室单位联合发起大模型语料数据联盟

上海人工智能实验室、中国科学技术信息研究所、上海数据集团、上海市数商协会、国家气象中心以及中央广播电视总台、上海报业集团等单位联合发起的大模型语料数据联盟正式成立。

华为轮值董事长胡厚崑:盘古大模型3.0即将发布

2023世界人工智能大会开幕,华为轮值董事长胡厚崑发表演讲。胡厚崑表示,去年年底ChatGPT的出现,把人工智能推向了新的风口。人工智能将帮助我们改写身边的一切。他介绍了华为在人工智能方面的布局,推动人工智能走深向实:深耕算力;从通用大模型到行业大模型,服务好千行百业。他最后预告,在7月7日的华为云开发者大会上,盘古大模型3.0即将发布。

特斯拉“擎天柱”人形机器人亮相

据介绍,特斯拉人形机器人身高172cm,体重56.6kg,就是一个正常成年人的身形。机器人全身拥有28个自由度,就如同人体的关节。手部有11个自由度,可以更加灵活的抓握,且力大无比,可以单手举起一台钢琴。 

目前,这款人形机器人可以完成行走、上下楼梯、下蹲、拿取物品等动作,也已经具备保护自身和周边人安全的能力。未来还可以做饭、修剪草坪、帮助照看老人,或是在工厂里替代人类从事枯燥和有危险的工作。因为他搭载了与特斯拉汽车一样的具有全自动驾驶能力的电脑和视觉神经网络系统,在Dojo超级计算机的加持下,同样可以利用动作捕捉来“学习”人类。

WPS AI正式定名,官网同步上线

 金山办公携旗下基于大语言模型的智能办公助手WPS AI亮相2023世界人工智能大会,WPS AI官网(ai.wps.cn)同步上线,并开启招募智能办公体验官的通道,WPS Office个人用户和WPS 365企业用户均可申请。WPS AI 作为国内协同办公赛道首个类ChatGPT式应用,接入了金山办公多个办公产品组件,原有的轻文档、轻表格、表单接入WPS AI后实现产品升级,更名为WPS智能文档、WPS智能表格、WPS智能表单,进一步赋能智慧办公新场景。

  金山办公CEO章庆元在大会现场表示,金山办公将WPS AI定位为大语言模型的应用方,未来锚定AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三个战略方向发展。

商汤科技多款AI大模型亮相世界人工智能大会

商汤科技携多款人工智能大模型产品亮相。作为对标ChatGPT的语言大模型,“商量SenseChat”是商汤科技“日日新SenseNova”大模型体系下的千亿级参数语言大模型,拥有领先的语义理解、多轮对话、知识掌握、逻辑推理的综合能力。在展会现场,记者注意到,商汤科技还带来了基于“商汤日日新SenseNova”大模型体系推出的“商汤如影SenseAvatar”AI数字人视频生成平台。该平台基于AI数字人视频生成算法、语言大模型、AI文生图、AIGC等多种能力,能够轻松实现高质量、高效率的数字人视频内容创作。

傅利叶智能发布GR-1通用人形机器人

开幕式上,傅利叶智能在重大创新成果首秀环节发布了最新研发的一款通用人形机器人GR-1。据介绍,这款机器人有高度仿生的躯干构型、拟人的运动控制,具备快速行走、敏捷避障、稳健上下坡、抗冲击干扰等运动功能,结合认知智能,能够与人协同完成动作,在工业、康复、居家、科研等多应用场景潜能巨大。

○ 大咖观点 ○

马斯克:未来,地球上机器人的数量将超过人类

  在2023世界人工智能大会开幕式上,特斯拉创始人兼首席执行官埃隆马斯克表示,随着算力爆炸式增长,“机器计算”与“生物计算”的比例这一关键指标正在不断提高,这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。未来,地球上机器人的数量将超过人类。

马斯克预测,随着人工智能技术的快速发展,大约在今年年末,就会实现全面自动驾驶。“我之前也做过许多类似的预测,我承认之前的预测也不完全准确,但是这一次的预测,我觉得是比较接近的。”马斯克表示。

丁磊:用最快速度探索AI大模型的创新应用,是网易首要任务

在2023世界人工智能大会上,网易多款人工智能大模型落地产品首次亮相。网易CEO丁磊表示,用最快的速度探索AI大模型的创新、应用,是网易的首要任务。据了解,网易AI大模型正在加速覆盖百余个产业应用场景,其中,网易伏羲有灵众包平台今年将为10万人提供AI新职业,包含挖掘机远程驾驶员、AI绘画师、AI表情绑定师等人机协作的就业岗位。网易称,今年平台将帮10万人提供人机协作的就业机会。

腾讯汤道生:行业大模型是企业拥抱AI的更优路径

 在2023世界人工智能大会产业论坛上,腾讯高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生表示,人工智能发展的根本目标是落地于产业,服务于人,行业大模型是企业拥抱AI的更优路径,将开启产业升级“黄金时代”。汤道生还透露,不久前公布的腾讯云MaaS将迎来新的升级,科技成果将在腾讯论坛公布。

微软大中华区董事长侯阳:未来每一个应用程序将由人工智能驱动

在大会开幕式上,微软全球资深副总裁、微软大中华区董事长兼首席执行官侯阳表示,微软坚信,今后任何一家公司都需要具备驾驭数字技术的能力,“我们也看到随着生成式人工智能不断展现出的巨大潜力,今后每一家公司的每一个应用程序都将由人工智能来驱动。”

“AI教父”杨立昆:不喜欢AGI这个词,大语言模型不是通往人类智慧的道路

在开幕式中,杨立昆就以视频连线方式,与地平线创始人余凯就AI大模型相关话题进行对谈。杨立昆表示“我并不喜欢AGI这个词。”他进一步解释,每一个人工智能都是专项的,人类智能同样也是专项的,但LLM(大语言模型)只基于文本训练,而没有利用视频训练,这导致模型是不理解物理世界的。如果不理解物理世界,就没办法规划、推理,以及实现目标。

     “如果LLM(大语言模型)漏掉的是一些非常基本组件的话——那就意味着这个系统是不足的。LLM可能很有用,你可能希望让它做点什么,可以加载很多应用,但LLM不会是那条通往人类智能的道路。”他表示。

     针对AI大模型所引起的“AI威胁论”愈演愈烈,杨立昆提出了“目标驱动人工智能”的理念,即设定必须满足的目标,并逐步提高系统的智能水平,而不是喂给模型一两万个Token,让模型自己进行推理。最后,杨立昆也提到,严格监管人工智能发展并不能保证AI安全。相反,开源才是唯一让AI保持良善且实用的办法。“想象一下,在十年或者十五年之后,我们每个人都通过AI助手和数字世界来进行互动,所有的信息都会在其中流转,如果AI技术被少数控制公司来控制的话,这并不是好事。”

姚期智:ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力

圆桌会议中,姚期智谈及,ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力,能够在各种不同的环境中自主学习各种新技能。但现在问题是方法太慢了,新技术常常需要几个月时间才能做好。姚期智认为,强化学习、具身智能是一个很好的技术发展趋势,能够给智能机器人带来很好的发展。

香港科技大学首席副校长郭毅可:人工智能对教育的影响是根本性的

香港科技大学首席副校长、英国皇家工程院院士郭毅可在2023年世界人工智能大会科学前沿全体会议上表示,人工智能对教育的影响是根本性的。现在人工智能还处于初期,但这是革命性的开始,所有的一切都会发生改变。在教育层面,人工智能会给教学工具、考试方法乃至教学内容都带来巨大的影响。

中国电信研究院副院长:发展元宇宙,要提前布局GPU芯片、6G等算力产业

  2023世界人工智能大会6G智能网络与计算论坛上,中国电信研究院副院长李安民表示,元宇宙的发展将推动世界进入智能算力时代,元宇宙时代对智能算力、带宽的强劲需求,将为5G的规模发展以及国家“东数西算”战略实施以及人工智能和芯片的发展带来巨大机遇,“长期来看,千倍以上的算力需求、百以上的带宽需求是元宇宙得以健康发展的基础,因此需要提前规划布局万兆宽带、6G、智能算力网络的建设以及GPU芯片等智能算力产业。”李安民说。

马斯克:中国 AI 会很强,年底或实现自动驾驶

北京时间 2023 年 7 月 6 日上午,WAIC 2023 世界人工智能大会正式开幕,特斯拉创始人伊隆·马斯克再次亮相,不过这次是以远程视频的方式。

遥想 2019 年,同一场地,马斯克曾经和阿里巴巴创始人马云展开过一次巅峰对话。4 年之后,很多事情都变了,其中最重要的一个就是,因为大语言模型带起的新一波 AI 浪潮,让通用智能似乎距离人类更近了一步。

在当天的发言中,作为「AI 毁灭派」的代表之一,马斯克强调了通用人工智能 AGI、或者深度智能可能带来积极的未来,但也有概率出现负面的未来,人们应该确保不会发生后者。

在此次 WAIC 2023 大会的展区,特斯拉的机器人 Optimus 吸引了众多目光。马斯克认为,人形机器人还处于早期开发阶段,但是在未来,机器人的数量,或将超过人类数量。

同时,作为有限人工智能的一种,特斯拉一直在研发的全自动驾驶 FSD 或将在年底实现。

对于东道主,马斯克认为「中国下定决心去做一件事,他们一定能够做得非常出色,人工智能也不例外」。他相信「中国在人工智能方面将拥有强大的能力」。

以下为伊隆·马斯克在 WAIC 2023 大会上的演讲文字整理实录:

上海的朋友们,大家好!

人工智能将在人类文明进化中发挥非常深远的作用。当前。计算机的数量和算力正在爆炸式增长,地球上的数字计算机与「生物计算机」的比例一直在增大。这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。

这将是一场深刻的变革,我认为,人类正处于最深远的变革时期之一。

未来,地球上会有大量的机器人。一个值得思考的问题是,随着时间推移,机器人与人类的比例会是多少?在将来某个时刻,二者的比例可能超过 1:1,这意味着机器人将比人类多,甚至是多很多。这一趋势已经十分明显。

好的一面是,人类将生活在一个富足的时代,人们想要的任何商品和服务都可以轻易地拥有。在拥有大量机器人的未来,全球的生产效率将会提高到令人难以置信的水平。当然,我们需要非常谨慎地对待,确保机器人对人类是有益的。

特斯拉 Optimus 机器人在 WAIC 2023 上展出|极客公园

我相信,特斯拉将在这一进程中扮演重要的角色。特斯拉人形机器人正在开发中,其目标是帮助人们完成琐碎的工作,完成人类不愿做的无聊、重复或危险的任务。因此,它不需要很高的智能水平就可以胜任这些工作。

人工智能的一个重要应用是汽车的自动驾驶。在自动驾驶方面,特斯拉非常乐意将技术授权给其他汽车制造商。自动驾驶技术会把人们从枯燥的驾驶中解放出来,给人们更多的自由和时间。

同时,自动驾驶将大大提升车辆的利用率。一辆普通乘用车每周使用时长大概是 10 到 12 个小时,大部分时间它会停在停车场,而一辆拥有完全自动驾驶能力的车,每周的使用时间可以达到 50 到 60 个小时。自动驾驶车辆的利用率会是非自动驾驶车辆的 5 倍。特斯拉希望将这一类技术分享给更多企业使用。

目前,特斯拉的技术已经非常接近完全自动驾驶的目标。在美国道路上进行测试的特斯拉车辆,已经很少需要人工干预了。因此,当我们驾驶一辆具备最新版本完全自动驾驶能力测试版的特斯拉,从一个目的地到另一个目的地,我们几乎不需要人为操控。特斯拉可能在今年晚些时候就具备 L4 或 L5 级的完全自动驾驶能力。

相比自动驾驶、特斯拉人形机器人等人工智能,通用人工智能(AGI, Artificial General Intelligence)有很大不同。

通用人工智能是一种计算机智能,它能比所有人类都聪明。这并非特斯拉目前专攻的领域,有其他公司正在研究。但我认为,这也是我们应该关注的领域。尤其是面对深度人工智能的上万台,甚至数十万、数百万台最先进的计算机,我们需要有监管措施来确保这些计算机都可以协同并有序工作,以成就一个单一的综合「超级智能」(ASI, Artificial Super Intelligence) 。

未来,「超级智能」将比人类更有能力,也同时存在着风险。我们应该尽一切可能,确保担忧的事情不会发生,迎接积极未来的到来。

在中国,有很多非常聪明、有才华的人,我一直很钦佩他们的才华与干劲。我认为,中国在任何它想做的事情上都会完成得十分出色,这在许多领域都有体现,不论是经济还是人工智能领域。我相信,未来中国将拥有非常强大的人工智能能力。

最后,感谢大会邀请我来做分享,非常期待能跟大家见面!

0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!

【导读】谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。

这种自我修复背后的机制,究竟是怎样运作的?

对代码为什么是错误的,模型在多大程度上能提供准确反馈?

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

论文地址:https://arxiv.org/pdf/2306.09896.pdf

英伟达科学家Jim Fan强烈推荐了这项研究。

在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。

很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。

– GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。

– 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。

– 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。

– 基于专业人员的反馈,GPT-4本身能够编写更好的代码。

揭秘用于代码生成GPT修复

我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。

然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。

好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。

研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。

如图显示的是,基于自我修复方法的经典工作流程。

首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。

如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。

最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。

表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。

并且模仿人类软件工程师编写代码的试错方式。

然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。

而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。

目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

研究人员提出了一个新的评估策略,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。

从实验中,研究者发现:

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。

自我修复四阶段

自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。

阶段一:代码生成

阶段二:代码执行

阶段三:反馈生成

阶段四:代码修复

研究人员又进一步针对3个问题进行了测试:

1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?

2. 更强的反馈模型会提高模型的修复性能吗?

3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?

首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。

这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。

研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。

研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。

下图为提示词的实例之一。

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。

从实验可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4中,有几个值的自修复通过率明显优于基线。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。

这个实验的结果如上图(亮蓝色)所示。

在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。

人工反馈显著提高了GPT-4修复的成功率

在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。

研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。

每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。

每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。

然后,参与者被要求用他们自己的话解释这个程序做错了什么。

研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。

不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

法律大模型ChatLaw登场!北大学生团队,两天百万关注

有人做了统计,截止到今天,国内已经公布的大语言模型LLM已经达到93个,距离“百模大战”仅差一步之遥。

有意思的是,这些大模型的主体所在地有45%在北京,而其中最知名且开源的大模型莫过于清华的ChatGLM-6B/130B。作为中国两大顶级学府之一,清华的ChatGLM早就名声在外,成为了中文大模型的微调底模标配。

直到几天前,一街之隔的北大学子们终于拿出了他们自己的语言模型:ChatLaw

严格来说,ChatLaw不能算是大语言模型。一方面,它是在其他大模型基础之上做的专项训练;另一方面,显然你也不能指望法律模型给你写小红书写脚本,把它看成是垂直模型更恰当一些。

按理说,大模型发布了这么多,咱们早就看麻木了。但ChatLaw发布当晚就在知乎冲到了热榜第一的位置,很短的时间内话题浏览量就超过150万。

就连我随手回复个求内测名额,也能堆起50层回复。

在Github项目库里,点赞的星星数量仿佛旱地拔葱,直接腾空而起,目前已经有1.7K,妥妥的热门项目。

那么,这个模型究竟做对了什么,让见过市面的人们也争先恐后的排队体验?

除了最基础的法律条文问答,这三件事最让人眼前一亮:

其一,不仅是法律条文的问答,还能上传文档。比如在劳动纠纷中支持上传劳动合同,将重要信息结构化展示。

其二,支持上传对话录音。这很接近法律实践中的举证环节,ChatLaw抽取对话录音的信息,结构化展示,刚登场就是多模态级别。

其三,法律文书撰写。基于用户举证,结合判例和法条,为用户撰写法律文书,比如劳动仲裁申请书。

如果要用一句话评价这个项目团队,我只能说他们太会举例子了,简介视频都能拿捏社会热点,产品宣发在宣发上就已经遥遥领先其他大模型。

展开来说,可以分为模型技术层面和社会需求层面。

从模型技术上讲,ChatLaw并没有多先进,而是典型的应试教育+大力出奇迹的结合体。

项目团队已经训练出三个版本,底层大模型来自LLaMA,其中:

学术demo版ChatLaw-13B,基于姜子牙Ziya-LLaMA-13B-v1训练而来,中文表现很好,但是应对逻辑复杂的法律问答时效果不佳,需要用更大参数的模型来解决。

学术demo版ChatLaw-33B,基于Anima-33B训练而来,逻辑推理能力大幅提升,但是因为Anima的中文语料过少,导致问答时常会出现英文数据。

ChatLaw-Text2Vec,使用93万条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配,例如:

在训练数据上,项目团队的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。比如像下面这样的对话方式:

在类似这样的大量先验数据投喂下,ChatLaw在司法考试的大模型对比中成绩超过了GPT-4,虽然超过的不多,但证明了这种训练方式的有效性。更具体一点,在训练中加入大量司法考试的选择题作为训练数据,只要让模型牢牢“记住”答案,分数自然就上去了。

为此,团队模型训练上也总结出了三条经验:

一是引入法律相关的问答和法规条文的数据,能在一定程度上提升模型在选择题上的表现;

二是加入特定类型任务的数据进行训练,模型在该类任务上的表现会明显提升,比如问答题数据;

三是大力可以出奇迹,法律选择题需要进行复杂的逻辑推理,参数量更大的模型通常表现更优。

从社会需求上讲,ChatLaw团队做了一件大好事,既是为社会创造了普惠工具,又给大厂们好好上了一课。

自从ChatGPT问世,我们一直在思考一个问题,它对社会带来的具体贡献是什么?

是降本增效,是时代变革,是几天一个王炸的颠覆?

够了,不要再被这些只会贩卖焦虑吸引流量的媒体和视频洗脑。

就这么说吧,GPT引发的新一轮AI浪潮是一种显著的创新,但不足以跨越从好玩到好用的鸿沟。它能提升一部分工作流程的效率,但还不足以取代人类。

为什么ChatLaw要大费周章的投喂90多万条真实的司法数据,就是因为通用大语言模型看起来很厉害,实际上到了垂直领域并不能直接用。

比如在司法实践中就发生过这样的乌龙:

美国有一名旅客起诉航空公司,他的代理律师提交了诉状,并引用了六个判例论证起诉要求的合理性。每个判例有原告有被告有法官甚至还有判决书全文,看起来有模有样。

但无论是航空公司还是主审法官,都无法在数据库中查到这六个判例的任何一例。最后代理律师坦言,这些判例都来自ChatGPT之手。

美国人用美国人开发GPT都能胡编法律案例,想象一下用它来咨询中国法律会发生什么。

正应了那句话,你以为它懂得很多,直到有一天它说到了你擅长的领域。

或者换句话说,没有经过足够数量的数据微调或者再训练的大语言模型,充其量就是个社牛:你跟它说什么它都能接上话茬,但是不是胡说八道,请你自行判断。

我们对于生成式人工智能的心态,应当是战术上不要轻视,战略上不要迷信。

很快,我们就会有超过100个大模型,请不要再无谓的重复训练那些超越这个或者那个的模型了。

真的有那么多资金烧算力,不如想ChatLaw一样,做个本地化的,且社会大众都能用得上的AI工具。

就像Demo中预设的这些问题,普通人并不知道如何拿起法律武器保护自己权益,也不知道怎么找或者找什么样的律师帮自己维权。

也难怪ChatLaw刚宣布内测,就吸引如此之多的人去排队等待体验。

什么是刚需,这就是刚需!普法之路任重道远

再看看下面几个例子,请点开来仔细看。以后微博热搜再发小作文,多少先过一遍ChatLaw再评论不迟。

这群来自北大信息工程学院的学生们,清晰的勾勒出下一步的开发计划:

一方面法律场景的真实问答通常涉及很复杂的逻辑推理,为了提升逻辑推理能力,必须训练30B以上的中文模型底座;

另一方面法律是一个严肃的场景,在优化模型回复内容的法条、司法解释的准确性上还可以进一步优化,预计还需要两个月的时间,大幅减轻大模型幻觉的现象。

当大厂们还在挖空心思筑高墙炒概念,拿开源冒充原创,重复训练低质量闭源模型时,一群学生肩负起了为社会创造开源普惠工具的责任。

祝ChatLaw好运!

论文地址:

https://arxiv.org/pdf/2306.16092.pdf

Github:

https://github.com/PKU-YuanGroup/ChatLaw

官网:

https://www.chatlaw.cloud

开源Demo:

https://chatlaw.cloud/lawchat/#/

AI争霸,谷歌囤“数据”

数据作为AI技术发展的三大要素之一,一直是这场AI”诸神大战”中,科技巨头们“斗争”的焦点。

7月1日,谷歌更新了隐私权政策,明确表示公司保留了获取用户在网上发布的内容来训练其人工智能工具的权利。

谷歌隐私政策的更新内容如下:

谷歌将利用信息来改进我们的服务并开发新产品、功能和技术,使我们的用户和公众受益。例如,我们将使用公开信息来帮助训练谷歌的AI模型并构建Google Translate、Bard 和 Cloud AI等产品和功能。

而通过对比可知,在前一个谷歌隐私权政策的版本中,谷歌只提到了将这些数据将用于“语言模型”,而不是“人工智能模型”。

媒体分析指出,这一隐私政策条款与以往有很大的不同,通常来说,这些政策将说明企业如何使用用户在公司自己的服务器上发布的信息。但在这一项条款中,谷歌似乎保留了收集和利用在公共平台上发布的所有数据的权利,就好像整个互联网是该公司自己的AI游乐场。

此前尽管任何人都可以看到在线公开发布的内容,但这些信息的使用方式正在发生变化。公众对数据的关注点从谁可以访问数据转向如何利用数据

谷歌的Bard和ChatGPT可能早已利用了你已经遗忘的博客帖子或几年前的餐厅评论来训练自己。对于大众对于隐私权的担忧,谷歌并未立即发表评论。

谷歌向“卖水人”表达诚意

除了谷歌的用户外,数据提供商们成了想要囤“数据”的谷歌不得不“讨好的对象”。

数据提供商们被看作为AI时代中的“卖水人”。

马斯克不想被AI白嫖数据,限制访问,导致推特大宕机。同样是不想被白嫖数据的美国贴吧Reddit,付费API已经来了。直接导致了几个非常流行的第三方Reddit app下线。由此可见AI时代“卖水人”对自家“水”的保护。

而谷歌已率先向“卖水人”们拿出了自己的诚意。大型新闻出版商们的数据自然是首当其冲的焦点。

最近几个月,围绕AI的版权问题进行讨论从未停止,加剧了大型科技公司与出版界之间本已紧张的关系。而谷歌率先表态,愿意付费购买新闻内容。

媒体援引一位报业集团高管消息称,谷歌已制定了协议,愿意在未来付费购买新闻内容

AI争霸,谷歌囤“数据”“谷歌已经制定了许可协议,他们愿意接受需要付款购买内容的原则,但我们还没有讨论金额。谷歌方称,未来几个月里会进行金额方面的谈判,这是第一步。”

针对这一报道,谷歌澄清称关于许可协议的报道“不准确”,并补充说“现在还处于早期阶段,我们正在继续与生态系统合作,包括新闻发布商,获取他们的意见。”

据谷歌表示,他们正在与美国、英国和欧洲的新闻机构进行“持续对话”,同时他们的AI工具Bard也正在接受“公开可获得的信息”的培训,这可能包括需要付费的网站。

高清还原你大脑中的画面

将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。

清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。

论文地址:https://arxiv.org/pdf/2306.16934.pdf

项目地址:https://github.com/bbaaii/DreamDiffusion

AI 盈利,需要做两个备案

一个是公安部的照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》,https://www.beian.gov.cn/portal/topicDetail?id=79&token=1ff8d856-36ff-47e0-9dc3-ee175f7b226b

一个是《互联网信息服务算法推荐管理规定》,去互联网信息服务算法备案系统备案,https://beian.cac.gov.cn/#/index