用AI治理AI | 人民网“天目”智能识别系统发布

眼前这篇论文是AI写的吗?这篇稿子的信源是AI提供的吗?大批人工智能创作工具广泛使用,网络内容治理、学术规范面临全新挑战。12月9日,人民网正式发布“天目”智能识别系统,探索“用AI治理AI”的内容风控新模式。(体验入口:http://117.80.234.9:5080/welcome)。

“天目”由传播内容认知全国重点实验室(人民网)研发,能够对人工智能生成内容进行识别,对深度伪造内容进行检测,对合成手段进行追根溯源。公开测试数据显示,“天目”对国内外主要人工智能大模型生成中文文本的识别准确率达到93%。

系统支持单次最多10万字的数据检测,对疑似AI生成句段明确标识,一键生成检测报告。同时,系统不留存、不转用任何检测数据,充分保护用户的数据隐私与安全。

传播内容认知全国重点实验室首席科学家张勇东表示:“我们以语言模型的困惑度、词频特征为切入点,研究发现AI生成模型倾向于采用高频词,而人类写作的选词则更具有随机性。”

基于此,人民网研发了语义与风格特征融合的语言模型评价方法,推出“天目”系统,用于快速区分机器生成内容与人工创作内容。“我们肯定AI的技术价值,积极研发,主动运用。

我们也同样重视人的创新创作创意。”人民网内容风控负责人辛瑞佳表示,人类的灵感和创造力无法被机器替代,也不应被机器替代,过度依赖AI可能会削弱人的独特性。“识别AI生成的信息,从更深层讲,也是保护人类的创造价值。”

此外,人民网内容风控的另一个智能产品“人民审校”,于近期同步升级4.0版本,新增了标识审校、地标审校、商标审校、版式审校等能力,优化自定义词库功能,在涉政信息表述审校精度和广度方面实现全面提升。

下一步,人民网将加大力度研发建设主流价值语料库,帮助国产AI系统建设安全合规的语料体系,更好实现价值观对齐,助力AI产业健康安全发展。

AI思维车间发布全新大模型App-会议助手

大家好,我们很高兴地宣布我们的全新大模型App – 会议助手正式上线!它将帮助你跨越语言障碍,让全球对话变得更加轻松。

你是否曾在与国际同事交流时,因为语言障碍而感到困扰?现在,你不必再为此烦恼。会议助手的实时翻译功能可以帮助你无障碍地与全球同事交流。只需打开会议助手,它就可以将你的话语实时翻译成多种语言。

会议助手利用最先进的语音识别技术,可以将音频准确转录为文本。这一功能对于需要记录会议内容的人来说非常有用。而且,它还能利用AI大模型,智能生成会议纪要。无论是数小时的超长会议,都能在一分钟内为你生成详尽的会议纪要。你再也不需要手动记录繁杂的会议内容,让你的会议效率翻倍。

看看我们的用户是怎么评价会议助手的:

  • 会议助手真的是我最好的助手。它的实时翻译功能让我在与全球同事交流时无需担心语言障碍。
  • 无论是在国际会议上还是与外籍客户的交流中,它都能帮我精确地理解对方的话语,消除了语言障碍带来的困扰。
  • “会议助手”是我在工作中的得力助手。它的语音转文本功能让我无需手动记录会议内容,大大节省了我的时间。

让我们一起,让沟通无界,让会议更高效。

富商找回被拐25年儿子,AI在背后发挥了什么作用?

近日,河北邢台富商解克锋找回被拐25年的二儿子谢清帅一事,连续多日霸榜各大平台热搜。让人意想不到的是,谢清帅被寻回,背后的核心技术竟然是人工智能。

近几年人工智能发展迅猛,使得AI加持的新兴刑侦技术在寻亲行动中扮演着越来越重要的角色,让寻亲之路不再遥远。那么,AI在寻亲过程中具体发挥了哪些作用?到目前为止,又有哪些成功案例?

AI技术助力富商寻子

距离上一个被拐儿童被找回不到两个月,来自北京的人工智能公司“格灵深瞳”再次协助警方,寻回河北富商之子解清帅。

至此,历时25年的漫长寻亲路之后,解克锋夫妇终于迎来“上岸”之日。12月1日下午,在公安人员的见证下,解克锋与离散多年的儿子紧紧相拥,一家人终于得以团聚。

时间回溯到25年前,1998年春节前,刚出生三个月的解清帅在家中失踪。此后,解克锋踏上漫漫寻子路,为寻子花光家中积蓄后,解克锋重新振作起来一边创业一边寻子,曾承诺愿用百万重金酬谢送回儿子的人。

据了解,此番寻子成功源于人脸识别比对成功。认亲当天,解克锋表示,5天前他突然接到警方电话,经过人脸比对,儿子解清帅找到了。11月28日晚,DNA比对结果出来,“100%,一个数字都不差。”

“亲人团聚的背后,是科技的力量在发挥作用,格灵深瞳自主研发的‘跨年龄同亲缘人脸比对算法’功不可没。”12月3日,格灵深瞳在其官方微博发布消息,称此次解克锋寻子成功背后的人脸比对算法出自该公司。

格灵深瞳算法部负责人在视频中进一步解释,“大部分被拐儿童都是在小时候就与亲人失散,随着岁月流逝,其相貌早已发生了翻天覆地的变化,这给警方的排查带来很大的困难。基于遗传关系,亲属之间的人脸特征相似性会相对较高,利用这一规律,格灵深瞳的‘跨年龄同亲缘人脸比对算法’会筛选出相关性较高的疑似者,进行赋分排名,大幅度提升寻亲的整个效率。”

这次帮助解克锋寻找儿子,格灵深瞳用解克锋夫妻俩和大儿子的照片进行人像比对,结果在排位前五中就找到了解清帅。据悉,解清帅是近半年来,该公司协助警方找到的第4个孩子。

12月4日晚,格灵深瞳官方微博发表声明,称针对寻亲这个事情,格灵深瞳主要是配合警方提供技术和算法等工具,然后交由警方来应用。

尽管获得了成效,但跨年龄寻亲依旧是一件非常困难的事情。格灵深瞳方面称,该算法技术是一个持续优化的过程,“作为一家科技公司,我们的目标是协助警方找到更多的被拐卖人员,为了实现这个目标,我们还有许多工作要做。”

技术加持,缩小寻亲范围

“以前寻亲,只能一张张翻看、比对照片,人工排查匹配,由于时间跨度大、数据繁杂,工作量非常大。”一名负责寻亲的工作人员告诉记者,当人工智能在越来越多领域得到广泛运用,其在助力寻亲方面的优势不言而喻,能够节省大量的时间和人力,“利用人工智能,能够从成千上万份资料中找出匹配度最高的那份,极大地缩小了寻亲范围。”

如果多年前,科技的助力对于寻亲只是一个可选项的话,那么近几年,随着人工智能在各大领域的应用,人脸识别、图像识别等AI技术,越来越多地运用在了公安机关寻亲行动中。

记者查阅相关资料发现,有关AI寻亲的记录最早可追溯到8年前。在2015年微软的骇客马拉松上,利用人脸识别技术寻找儿童的应用程序就已被开发出来。该程序克服跨年龄相关技术挑战,后续微软与国内最大的公益寻人网站“宝贝回家”的合作,开发了一款名为“回家”的人工智能应用程序。

2016年初,“宝贝回家”成功找回一个走失4年的儿童,这是中国公益组织利用人脸识别技术寻找走失儿童的第一个成功案例。目前,“回家”应用程序已帮助超过1900位儿童找到了家。

在这之后,百度、腾讯等公司研发的“跨年龄人脸识别技术”,助力警方寻回不少失踪儿童。

2017年全国“两会”期间,全国政协委员,百度公司董事长兼CEO李彦宏的提案,就建议用AI和大数据技术帮助寻找丢失儿童。

该提案很快就有了一些突破,在不久后的《最强大脑》舞台上,百度人工智能机器人“小度”对一组幼童照片进行数据分析后,成功识别出到现场的20年后的成年人。在这个过程中,百度共展示了三个维度的AI技术,包含图像检索、人脸跨年龄识别和人脸跨代识别。

常人难以完成的任务,在AI面前却迎刃而解。除了在“舞台”上,同年,百度与民政部、“宝贝回家”等合作,推出“AI寻人”平台,用人脸识别技术帮助寻亲。截至2021年3月1日,百度“AI寻人”平台共计收到用户上传照片42万余张,寻亲成功数量达到12000多人次。

从2018年初开始,腾讯优图实验室经过近一年时间的资源投入和优化调整,进行了上千次模型训练,经历5次版本更新,最终沉淀版本为一个具有上千层复杂结构的深度神经网络模型,让跨年龄识别精度提升至近96%。据介绍,福建省公安厅“牵挂你”防走失平台使用该技术,仅2019年累计找回的走失儿童就有1091名。

除了跨年龄人脸识别技术之外,AI寻亲的优势还体现在照片修复上。不少寻亲的父母会将失踪孩子的照片放得很大,挂在旗帜上、印在车身处、贴在T恤上,而原先模糊的老照片,放大后更加难以辨认。

对此,2020年3月,当时还在攻读华中科技大学软件学院博士的盛建中,发起成立了一个“AI宝贝:让寻亲不再孤单”团队,很多同学知道后,也主动加入进来。

写代码、测试算法,盛建中和团队花了半年时间集中攻关,终于研发出一套图像修复人工智能算法,利用“全局修复”“人脸增强”“超分辨率重建”三大技术应用,准确修复了大量失踪儿童的模糊照片。

截至2023年12月,团队已为1000余名失踪儿童修复照片,借助图像修复技术,11名失踪儿童被成功寻回。其中,在备受关注的电影《亲爱的》原型孙海洋寻亲一事中,团队帮助修复了儿子孙卓幼年的照片和孙海洋年轻时的照片,协助警方成功寻回孙卓。

“随着我们科技的进步,我相信我们的孩子,早晚都会回家的。”特意从江西赶到河北的杜小华说,他2014年认识解克锋,二人是寻亲路上的“战友”,同样他也是电影《亲爱的》原型中唯一仍在寻子的父亲。

“爱与责任”带来科技的温度 

每一个寻亲者,背后都有一个曲折、幽暗的故事。AI技术的加持,像是照亮回家路的光,让那些丢失孩子的家庭得到一丝慰藉和依托,也让我们看到了冰冷科技背后的人文关怀。

从我国走失人口数据来看,中民社会救助研究院与“头条寻人”项目组在北京联合发布的《中国走失人口白皮书(2020)》数据显示,2020年我国走失人次达到了100万,但相较于2016年的394万人次以及2017年的260万人次已经显著减少。我国走失人群规模呈现逐年递减的状态,相比于五年前,该群体人数已经减少近75%。

2021年1月,公安部开展“团圆行动”,其中,人像比对技术发挥了重要作用,截至2022年6月1日,“团圆”行动已找回历年失踪被拐儿童11198名。冷冰冰的数字背后是一个个有温度的人生,每一次久别重逢的相拥、相泣和欢笑,离不开科技与爱的碰撞。

不可否认,AI技术加快了寻亲的步伐,在庞大的图像数据处理中,发挥着越来越重大的作用。但是,作为一种技术辅助手段,我们不应过分夸大其作用。

“在寻亲过程中,跨年龄同亲缘人脸比对算法等AI技术手段,只能作为一种辅助手段,它可以提高筛选效率,不能作为法律依据,最终结果还是要用可作为法律证据的DNA检测做判断。”研发设计出全国第一代“市民卡”、浙江大学智能教育研究中心特聘研究员张旭光向记者表示。

除了人脸识别技术的不断创新,寻亲成功的背后,同样离不开家人和公安机关的不懈努力,以及社会各界的关心关注。

在帮助寻亲过程中,警方扮演着至关重要的角色。他们需要进行大量的前期准备工作,比如全面收集基础数据;与其他部门开展协作;运用各种新型科技手段,组织专人开展技术比对,并及时将比对结果下发至属地,进行落地核查等等。

而在认亲过程中,或多或少,双方都面临着煎熬的心理考验。警方需要花时间、花精力与双方沟通,做双方见面前信息的传递人。正是基于这份坚持,基于“爱与责任”,AI技术的可能才最终化为现实。

与此同时,无数社会组织和科技企业也在这场寻亲的战斗中投入火力,多一个平台,就多一份希望,但在“科技向善”背后,如何避免新技术的负面影响是对技术使用者的巨大考验。

AI技术是把双刃剑。在未来,我们期待看到AI技术的不断迭代,为更多寻亲家庭提供技术支持,照亮走失孩子的回家路。同时,“我们需要用法律和技术手段来约束AI技术带来的伦理和隐私等相关问题,以确保技术的发展能够真正造福人类。”张旭光说。

GPTs加速多模态AI应用创新,下一阶段AI Agent到AI终端

GPTs短期上线数量已超3万,揭开AIGC应用生态序幕

11月6日,OpenAI举办首届开发者大会,正式公布了GPTs,截至12月3日,GPTs数量已达3.2万个。我们认为,GPTs提供AIGC应用生态入口,形成了AIGC应用价值链,既激励上市公司优化自身产品,又有助于其产品价值兑现。

2)Pika重磅更新,多模态AI应用超预期

11月29日,美国AI初创公司Pika labs发布Pika 1.0。Pika 1.0能够支持对于视频实时编辑和修改,核心功能包括:文本和图像生成视频、直接在视频中编辑更改部分选中元素、切换视频风格及扩展视频画布调整视频宽高比等,当前Pika 1.0已开放申请试用。

除此之外,多模态应用11月纷纷迎来重大更新:

Runway宣布在Gen-2 中上线Motion Brush运动笔刷功能,可以将笔刷区域变静为动并可控制移动方向与幅度;文生图工具 Stability AI发布视频生成模型;Adobe收购文生视频公司Rephrase.ai,加强其生成式AI能力。

3)AI应用开始步入下一发展阶段:AI Agent到AI终端

– AI Agent:11月6日,OpenAI在DevDay上发布了Assistants API,通过该API可以简单创建具备完整的短期记忆、长期记忆(补充私有知识)、工具使用、自主规划能力的AI Agent/Assistant;12月1日,昆仑万维发布 AI Agent开发平台天工SkyAgents,用户可以通过自然语言构建自己的单个或多个“私人助理”。

– AI终端:11月10日,Humane发布了首款AI原生可穿戴智能硬件AI Pin;10月谷歌发布的Pixel 8手机上已经首次应用AI智能大模型。

4)投资建议:

AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;

AI+多模态:中科创达、虹软科技、当虹科技、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;

AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、光云科技、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康、迪安诊断等

华为、阿里发力,AI人工智能迎技术突破,万亿赛道开启,核心公司被资金抢筹!

生成式人工智能(AIGC)经过上半年的疯狂上涨,下半年沉寂了不断的时间,但随着市场应用的不断更新,板块从十月底再次活跃起来。
消息面上,苹果公司可能会在iPhone 16中推出生成式人工智能(AIGC)的相关创新功能,其实这也不算新鲜事,华为的鸿蒙系统已经可以接入盘古大模型,只不过主要针对商业人士的付费项目。
此外,近段时间chatGPT又推出了chatGPT4.0,功能之强大让OPPOAI公司因为对人工智能的监管发展问题内部反复出现分歧。
第四次科技革命的时代已经到来,人工智能将会贯穿这个主线,AIGC作为人工智能的最主流应用之一,值得大家关注。

AIGC极大提高生产力,战略价值非常高

AIGC就是利用人工智能技术来生成内容的新型技术,它可以让AI根据一句话、几个词或规则,进行实时人机互动等操作。

AI绘画、AI写作等都属于AIGC的分支。比如,可以用AI根据一句话创作出一幅画,或者让AI根据几个词写代码。

大家现在最熟知的就是火出圈的chatGPT,文心一言,盘古等大模型,看最新的消息,chatGPT4.0得到了质的飞跃,图像文字可以双向输入输出,比如只需要简单在纸上画一个网站的草图,拍一张照片上传给GPT-4,马上就可以生成网站!

机器不会比人智慧,但因为海量的数据存储和大量计算,机器是比人要聪明的,只要AIGC能更好的理解人的额意图,那对于生产效率的提升是巨大的。

2022年AIGC占全球数字数据量为1%,到2025年,这一比例将提升至10%,并且在广泛的领域应用,如软件编程,医药研发,精准营销,影视娱乐等,涉及行业的广度和深度远超从前。

而根据OpenAI预计,除了内容产出的变革外,AIGC也将有效的提高工作效率,减少工时。

以美国为例,OpenAI预计未来将有80%的工人至少10%的任务会受到影响,19%的工人有超一半的任务会受到影响。

那么,AIGC市场前景如何?人工智能作为已经名明牌的技术革命路线,全球各主要国家都异常重视,大力出台政策支持和资金投入。
目前,人工智能已发展形成包含纵向的大数据平台、开源算法、专用芯片、图像处理等核心技术网络和横向的智慧交通、智慧医疗、智慧安防、智慧家居等商业解决方案的完整生态。

数据显示,2020年,全球人工智能行业的市场规模约达到15231亿元,预计至2023年,全球人工智能行业市场规模将达约30802亿元。

人工智能,鉴于其“交叉学科”的属性,与之相关的前沿产业也是“百花齐放”,从自然语言处理、计算机视觉到芯片、机器人再到自动驾驶,均有广泛的涉猎。
从2023年上半年的融资事件的行业分布来看,前沿技术、机器人以及集成电路的融资事件数量位居前列,自动驾驶在这三者之后,也拥有了20起相关的融资事件。

AI芯片,算力必争之地、自动驾驶,让出行更智慧、机器人,提升工作效率的好帮手、AI制药,让医药研发更高效…
人工智能的重大价值不仅体现在前沿科学领域,更体现在与千行百业的深度融合,只有形成了好的产业生态、商业模型、产业链闭环,才能让人工智能更多地为人所用,为普通消费者所用。
据公开数据显示,我国人工智能产业蓬勃发展,核心产业规模达到5000亿元,商业化规模加速增长。

那么,AIGC的产业链如何,有哪些投资机会?

目前,AIGC领域的竞争格局非常激烈。全球范围内,许多大型科技公司如IBM、谷歌、微软、华为、阿里巴巴、腾讯等都在AIGC领域进行了布局。

AIGC是人工智能的一个大分支,包括数据,算力,算法,训练,芯片等众多环节,为了让大家能更清楚的了解,下面为大家详细进行梳理。

上游:

数据供应商:数据是AIGC技术的核心资源,需要从各种来源获取大量数据。数据供应商提供各种类型的数据,包括文本、图片、音频和视频等,以满足不同应用场景的需求。

算力供应商:AIGC技术需要大量的计算资源,包括高性能计算机、大规模分布式集群等。算力供应商提供这些计算资源,并确保系统的稳定性和可用性。

模型训练平台提供商:这些平台提供模型训练、调优、部署等全流程服务,使开发人员能够更快速地构建和部署AIGC模型。

海天瑞声通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。

随着AIGC市场的扩大对训练数据的需求将大幅提升,公司业务前景广阔,利好公司发展。

中游:

AIGC技术提供商:这些公司开发和提供各种AIGC技术,包括自然语言处理、计算机视觉、语音识别、图像识别等。它们的核心能力在于算法和模型的研发与创新。

昆仑万维是国内最早布局AIGC的,且布局较为全面的公司之一,拥有技术模型研发能力,并应用于音乐、图像、文本及编程领域。

2022年9月份启动编程(天工智码SkyCode)、图像(天工巧绘SkyPaint)、文本方向(天工妙笔SkyText)的AIGC产品。目前AI图像、AI文本、AI编程的模型已经在GitHub上开源。近期,旗下的Opera浏览器也计划ChatGPT功能,不断利用人工智能技术赋能业务发展。

AI芯片提供商:提供专门为AIGC应用设计的芯片,以提高计算效率和降低功耗。

下游:

应用开发商:利用AIGC技术,开发各种应用,包括智能客服、智能家居、自动驾驶、游戏等。它们将AIGC技术集成到各自的应用中,以提供更智能、更高效的服务。

科大讯飞就是这方面的龙头,自创业以来持续聚焦智能语音、自然语言理解、机器学习推理及自主学习等人工智能核心技术研究并始终保持国际前沿技术水平。

公司主要智能战略可概括为“平台+赛道”。“平台”指“讯飞开放平台”,为人工智能开发者提供一站式解决方案。“赛道”指公司将核心技术运用在教育、医疗、智慧城市、企业数智化转型、办公等领域实现技术创新的产业运用变现。

全球各国在互相合作的同时竞争也非常激烈,划时代的技术与革命往往代表着国际秩序和全球分工体系的重塑,一点也马虎不得。

AIGC是时代发展的必然,作为一个新的风口,将会在未来造成财富的重新洗牌。

中国人工智能产业发展联盟第十次全会在重庆召开,新成立8个工作组,发布10大标杆案例

2023年12月7日下午,中国人工智能产业发展联盟(AIIA)第十次全体会议在重庆两江新区召开。本次会议由重庆两江新区管理委员会、中共重庆市委网络安全和信息化委员会办公室、重庆市经济和信息化委员会、中国人工智能产业发展联盟主办,两江新区明月湖建设领导小组指挥部、重庆信息通信研究院、重庆市人工智能产业发展联盟承办。中国科学院院士郑志明,工业和信息化部科技司副司长刘伯超,重庆两江新区党工委委员、管委会副主任许宏球,中国人工智能产业发展联盟秘书长、中国信息通信研究院(简称“中国信通院”)院长余晓晖,重庆市经济和信息化委员会党组成员、副主任汪立东,重庆市大数据应用发展管理局党组成员、副局长李斌,重庆市通信管理局党组成员、副局长严寒冰出席会议,来自联盟成员单位的300余位代表参加会议。中国人工智能产业发展联盟副秘书长、中国信通院副总工程师王爱华主持开幕式。

刘伯超介绍了工业和信息化部深入贯彻落实党中央、国务院决策部署,推动人工智能赋能新型工业化,加快培育壮大智能产业的相关举措,提出了筑牢发展底座、赋能新型工业化、完善发展环境和深化国际合作等工作任务。他对联盟在推动技术创新、行业赋能及生态建设方面所做的工作给予肯定,希望各方能够进一步加强交流合作,推动人工智能产业健康发展,共同绘制人工智能赋能新型工业化的新画卷。

许宏球表示,两江新区正积极抢抓“东数西算”建设机遇,大力建设国家数字经济创新发展试验区和新一代人工智能创新发展“双核心区”,加快打造明月湖·π科创品牌,以通用人工智能为特定产业方向之一,加快建设重大使能平台,大力开放数字科技应用场景,加速集聚人工智能产业创新资源。下一步,两江新区将立足实际、发挥优势,以最大诚意提供最优企业服务和最优营商环境,与各方开展更加广泛的交流合作,共同绘就人工智能产业发展新蓝图。

余晓晖指出,当前通用人工智能的前景开始显现,人工智能技术与行业深度融合加速,全球范围内对人工智能治理的共识逐步形成。他回顾了联盟在支撑重大政策决策、发布系列研究报告、制定标准规范以及组织生态构建等方面取得的成果。提出联盟下一步主要工作方向:一是提高站位,持续凝聚产业力量,形成产业发展合力;二是守正创新,聚焦人工智能的新技术、新应用、新业态和新问题,加大协同攻关力度;三是加强协作,扩大国际合作交流;四是凝心聚力,针对重点行业、重点领域的数字化转型搭建合作平台,突出人工智能关键变量,以智能制造为主攻方向,推进人工智能全方位、深层次赋能新型工业化,助力我国经济高质量发展。

郑志明院士指出,当前人工智能的发展面临非线性、动态、随机等技术挑战,需要从统计加动态线性学习的范式,向非线性、认知智能和群体智能研究范式转变。中国在人工智能领域的基础设施和技术日益完善,期待联盟成员能够继续深化人工智能与实体经济的融合,推动产业高质量发展,实现数字经济与实体经济的高质量共进。

会上,重庆市经济和信息化委员会发布了重庆市人工智能应用场景项目和软件产品名单,并举行了重庆市人工智能重点项目签约仪式。重庆市大数据应用发展局、重庆市通信管理局,两江新区管委会等领导共同见证了明月湖·π使能平台点亮仪式。会议发布仪式环节由重庆两江新区明月湖建设领导小组指挥部指挥长张炎主持。

联盟总体组组长魏凯做了联盟总体工作情况汇报,全面回顾了联盟成立以来在政府支撑、产业研究、生态培育和国际合作等方面取得的成果,重点介绍了近期联盟组织架构优化和应用案例征集等近期重点工作情况,提出联盟下一阶段工作计划。

本次全会上,联盟基础平台、具身智能、科学智能、智能化软件、金融行业、汽车行业、安全治理、数据委员会8个工作组/委员会正式成立,余晓晖为组长单位代表颁发了证书。

随后,联盟评估工作组、标准化与推广工作组、基础平台工作组、具身智能工作组、医学人工智能委员会、新型智慧城市产业委员会、金融行业推进组、汽车行业推进组、智能化软件工程工作组、科学智能工作组、能源行业推进组、国际合作工作组、政策法规工作组、知识产权工作组、数据委员会、开源开放委员会、安全治理委员会、人工智能赛事工作委员会18个组分别介绍了各工作组/委员会的工作情况及未来规划。

会上,联盟正式发布了AIIA人工智能十大先锋应用案例和十大潜力应用案例。

十大先锋案例是:

成果发布环节,商汤科技和中国信通院联合发布了《大模型可信赖研究报告》,华为企业BG与中国信通院联合发布了《加速行业智能化白皮书》。

会议还设置了专题报告环节。中国信通院人工智能研究中心软硬件与创新生态部主任李论做了《国产大模型关键软硬件及协同创新态势分析》主题报告;中国信通院人工智能研究中心平台与工程化部主任曹峰做了《人工智能大模型工程化现状及展望》主题报告;中国信通院人工智能研究中心安全与元宇宙部主任石霖做了《人工智能安全治理现状及实践探索》主题报告;重庆长安科技有限责任公司总监、AI&SI LAB副主任谢乐成做了《大模型在汽车业务场景应用与探讨》的主题报告,云从科技集团股份有限公司联合创始人李夏风做了《基于国产化算力的云从从容大模型一体机解决方案》的主题报告。

本次全会为期两天。12月7日上午,联盟组织还召开了工作组会议,17个工作组就组织架构、工作内容及未来计划进行了详细的介绍。12月8日全天,联盟数据委员会、基础平台工作组、科学智能工作组、能源行业推进组、安全治理委员会、医学人工智能委员会、金融行业推进组、汽车行业推进组以及具身智能委员会并行召开了9场工作会议。联盟还联合人工智能关键技术和应用评测工业和信息化部重点实验室,共同举办了“人工智能大模型基准测试”专题研讨会议。

大量年终总结由AI代写,该担忧吗?

又快到年底,各类年终总结任务如期而至。近日,AI代写年终总结的现象引发了关注。

根据媒体报道,当前搜索“年终总结AI”等关键词,有许多相关产品,有的店铺月销量甚至达到6万单以上。也不只是年终总结,PPT、营销文案等内容,均可以通过AI来完成代写。AI工具确实可以帮助我们减轻一部分工作量,甚至有些时候,我们在材料的搜集、整理和归纳上,做的也不一定会比AI出色。

可以预见的是,在未来的日子里,我们会更多地使用AI工具去完成工作,这也是技术发展的趋势。借助AI工具,我们既可以从重复性、低创造性的劳动中释放出来,也可以获取更多思路上的启示。前期通过AI做数据整合和规律分析,后期由人工来进行个性化内容的添加或升华,我们完全有可能得到一篇佳作。

因此,我们没必要否定用AI写年终总结的行为,也不能简单地将使用AI等同于偷懒。应该看到的是,当AI代写再次成为话题,人们在讨论中真正在意的是什么?想必不是那一篇篇年终总结的质量,而是AI会不会代替人类的思考,会不会增强人们思维的惰性。如果一篇年终总结只是交上去就存档的几张纸,用AI完成并无不可,我们还可以用省下来的时间去完成更有价值、更有创造力的工作。

但问题就出在,人们会不会事事都交给AI来做,从而减弱分析和表达的能力,丧失了自主思考的意愿。所以,厘清AI产品的使用边界和参与尺度就显得很重要。

也就是,什么样的场景下是可以使用AI工具的,什么情况下是不能用AI“一键生成”的。比如,在学术研究和论文写作上,目前的共识是不能假手于AI,而要保持作者的独创性。此前提请审议的学位法草案中也规定,有利用人工智能代写学位论文等情形的,可经学位评定委员会审议决定,由学位授予单位撤销学位证书。这也是对于人工智能在教育科研领域使用边界的明确规范。

具体到“写年终总结”和“做PPT”上,AI也可以提升我们的工作效率。当我们输入必要的材料和要求,AI便会快速梳理相关数据和信息,然后根据我们的要求,搭建起有逻辑的、规范化的架构或者文本。

大量年终总结由AI来代写,这件事到底好不好?其实,这仍旧是“人工智能会不会对人类造成威胁”这一命题的变种,背后反映的是人们面对新技术、新应用时的担忧和不确定。但说到底,我们的目标是利用AI赋能人类,让人工智能更好地服务于人类的发展,而不是因为这种不确定而直接向AI说“不”。

也正因此,我们不必对AI代写年终总结过于担忧。更何况,现阶段许多AI生成的总结都有些“隔靴搔痒”,经不起太细致的审视和评判。要想结合实际、言之有物,还需要人们的智慧,这不正是我们与算法相比的优势所在吗?

“历史性的”!全球首个人工智能监管协议谈了什么?

据法新社最新消息,经过36个小时谈判,欧盟成员国及欧洲议会议员当地时间8日就全球首个监管包括ChatGPT在内的人工智能的全面法规达成初步协议。欧洲新闻台形容说,谈判过程非常激烈,这是世界上首次尝试以全面的、基于伦理的方式监管这项快速发展的技术。

“历史性的!随着今天围绕《人工智能法案》的政治协议达成,欧盟成为第一个为使用人工智能制定明确规则的大陆,”欧盟委员会内部市场专员蒂埃里·布雷顿表示。

报道称,未来几天有关方面将讨论细节,这可能会改变最终立法的形式与内容。

欧洲新闻台提到,早些时候周四(7日)的谈判是就控制像美国人工智能公司OpenAI的大语言模型ChatGPT这样聊天机器人的基础模型达成初步妥协,8日的谈判则重点关注在公共场所使用包括面部识别在内的实时生物识别技术。

彭博社报道称,该协议标志着欧盟在人工智能监管方面迈出关键一步。在美国没有采取任何行动的情况下,这一法案或将为发达国家对生成式人工智能工具的监管定下基调。但有人警告说,即使达成了协议,也可能需要举行更多的会议来敲定法规的技术细节,该法案最早也要到2026年才能生效。

欧盟委员会于2021年提出《人工智能法案》提案的谈判授权草案,将严格禁止“对人类安全造成不可接受风险的人工智能系统”,包括有目的地操纵技术、利用人性弱点或根据行为、社会地位和个人特征等进行评价的系统等。该草案还要求人工智能公司对其算法保持人为控制,提供技术文件,并为“高风险”应用建立风险管理系统。每个欧盟成员国都将设立一个监督机构,确保这些规则得到遵守。

AI再颠覆材料学!微软MatterGen直接生成新材料,稳定性超SOTA模型2.9倍

材料科学领域的一个重大挑战,如今被大模型攻克了。先前,谷歌DeepMind的全新AI工具GNoME,成功预测出220万种晶体结构,在学术界掀起海啸级地震。今天,微软团队推出下一代生成式AI工具——MatterGen,大大提升了设计所需特性材料的速度。

当前,材料科学的核心挑战是,发现所需特性的材料,比如高锂离子电导率的电池材料。一般来说,要做到这一点,首先需要找到新材料,然后根据应用进行筛选。这就好比要创建一只猫的图像,首先要生成100万张不同的图像,然后再搜索有猫的图像。而有了MatterGen模型,就可以「直接生成」所需特性的新型材料,这与DALL·E处理图像生成的方式非常相似。

简单来说,MatterGen是扩散模型的一种,专门设计用于生成新颖、稳定的材料。另外,MatterGen还有适配器模块,可根据化学、对称性等各种约束条件进行微调,以生成材料。值得一提的是,与SOTA模型(CDVAE)相比,MatterGen生成的新颖独特结构的稳定性高出2.9倍。它还生成接近能量局部最小值17.5倍的结构。

看得出,AI在材料设计和筛选方面表现出巨大潜力,必将给材料学带来颠覆性的变革。

晶体材料生成的扩散过程

在MatterGen中,研究人员介绍了一种为晶体材料量身定制的新型扩散过程,如下图a。扩散模型通过学习分数网络(score network)来逆转固定的破坏过程来生成样本。图像的破坏过程通常添加高斯噪声,但晶体材料具有独特的周期结构和对称性,需要定制的扩散过程。晶体材料可由其重复单元(即单元格)定义,单元格编码原子类型A(即化学元素)、坐标X和周期晶格L。作者为每个成分定义了一个适合其自身几何形状的破坏过程,并具有物理上的极限噪声分布。

再具体来讲,坐标扩散采用包裹正态分布,来遵守周期边界,并在噪声极限接近均匀分布。其中,晶格扩散采用对称形式,接近于平均值为训练数据中原子平均密度的立方晶格分布。原子扩散是在分类空间中定义的,其中单个原子被损坏成掩蔽状态。根据破坏后的结构,便可以学习一个分数网络,它可以分别为原子类型、坐标和晶格输出等变分数,从而无需从数据中学习对称性。对此,研究人员将该网络称为「基础模型」。为了生成具有所需属性约束的材料,研究人员还引入了适配器模块,这些模块可用于在带有属性标签的附加数据集上对「基础模型」进行微调,如下图b所示。

由于计算成本较高,如果标注的数据集与未标注的结构数据集相比规模较小,微调仍能很好地发挥作用。适配器模块是注入到基本模型的每一层中的可调节的组件,以根据给定的属性标签改变其输出。由此产生的微调模型与无分类器引导结合使用,引导生成的结果符合目标属性约束。作者将这种方法应用于多种类型的属性,生成了一套微调模型,可以生成具有目标化学成分、对称性或标量属性(如磁密度)的材料,下图c。

生成稳定、多样化材料

那么,MatterGen究竟如何才能生成稳定的材料?在作者看来,MatterGen的基本模型生成稳定、多样化材料的能力,是解决任何逆向材料设计任务的先决条件。研究人员将逆向材料设计的生成模型设计为一个两步过程:首先预训练一个通用的基本模型,以便在元素周期表上生成稳定的、多样的晶体,然后针对不同的下游任务对基本模型进行微调。

为了训练基础模型,研究者从Materials Project(MP)和Alexandria数据集中重新计算了607,684个稳定结构(多达20个原子),并将其称为Alex-MP-20。研究者认为,如果通过DFT松弛后每个原子的能量低于参考数据集的0.1 eV/原子阈值,包括从MP、Alexandria和ICSD数据集重新计算的1,081,850个独特结构,则该结构是稳定的。下图a显示了,MatterGen生成的几个随机样品,具有典型的无机材料配位环境。

为了评估稳定性,研究人员对1024个生成结构进行DFT计算。图b显示了,78%的结构生成低于0.1 eV/原子阈值(13%低于0.0 eV/原子阈值) ,而75%的结构生成低于0.1 eV/原子阈值(3%低于0.0 eV/原子阈值)。此外,图c显示95%的生成结构具有RMSD w.r.t。

研究进一步发现,MatterGen可以生成大量独特和新颖的材料。如图d所示,当生成1000个结构时,独特结构的百分比是100% ,而当生成100万个结构时,独特结构的百分比仅下降到86% ,而新颖性保持稳定在68%左右。

此外,研究人员还将MatterGen与先前的材料生成模型进行比较,并显示出性能方面的显著改进。这里,主要关注两个关键指标:(1) 生成样本中 S.U.N. 材料的百分比,衡量生成有希望候选材料的总体成功率;(2) 生成样本与其DFT松弛结构之间的平均RMSD,衡量与等效平衡的距离。实验结果显示,在图e-f中,与之前最先进的CDVAE相比,MatterGen-MP显示S.U.N.结构的百分比提高了1.8倍,平均RMSD降低了3.1倍。在比较MatterGen和微调的MatterGen-MP时,研究者还发现由于扩大了训练数据集,S.U.N.结构的比例进一步提高了1.6倍,RMSD降低了5.5倍。

综上所述,作者已经证明,与以前的生成模型相比,MatterGen能够以更高的速率生成S.U.N.物质,同时生成的结构在数量级上更接近其局部能量最小值。

目标化学材料生成

在目标化学体系(如Li-Co-O)中找到最稳定的材料结构,对于确定评估稳定性所需的真正凸包(Convex hull)至关重要,实际上也是材料设计的主要挑战之一。在下图a-b中,可以看到MatterGen在每种系统类型,和每种化学复杂度下生成的S.U.N.结构百分比都是最高的。如图c所示,在「部分探索」系统和「充分探索系统」中,MatterGen在组合凸包上找到的独特结构数量也是最高的,前者在训练过程中提供了凸包附近的已知结构,后者在训练过程中没有提供凸包附近的已知结构。在三元和四元系统中,替换法提供了一种相似或更有效的方法来生成「船体」上的结构,而MatterGen则在二元系统中取得了更好的性能,如图d所示。

此外,当筛选方法因数据库中的材料枯竭而趋于饱和时,MatterGen可以不断生成满足高体积模量等目标特性的新型材料。

与筛选基线相比,MatterGen发现了更多新颖的稳定高体积模量材料,并且不会因计算资源的增加而停滞不前。MatterGen可以找到250多种体积模量>400 GPa的材料,而在参考数据集中只找到2种此类材料。另外,MatterGen还可以生成给定目标空间组的结构。

最后,研究人员还解决了寻找低供应链风险磁铁的多属性材料设计问题。MatterGen提出的结构既具有高磁密度,又具有低供应链风险的化学成分。网友看后表示,室温超导体又要回来了。

正如微软团队所说,MatterGen是AI在材料设计领域向前迈出的重要一步。

AI人才缺口竟高达400万?

缺口竟高达400万?AI人才争夺战开始了

近日,阿里巴巴集团旗下淘天集团启动一项名为“T-Star”顶尖人才招聘计划,延揽全球前沿技术领域的竞赛、学术和实战高手,还配备“大牛”主管和顶级研发平台资源,年薪百万起且上不封顶,引发网友热议。

而这,绝不是个案。ChatGPT横空出世之后,国内大型互联网公司、科技公司和金融公司纷纷抢滩人工智能,开出诱人薪资争夺AI人才。甚至在婚恋市场上,“AI男”成为继“金融男”之后的受捧对象。

猎聘招聘网站公布AI相关领域的薪资表

透过旺盛的市场需求,背后是人工智能行业人才供需不平衡问题。作为未来一个世纪的核心技术,人工智能人才短缺不仅限制我国AI技术的发展,还影响企业创新和竞争力。这个题该怎么破?

稀缺

“现在,他们是我们这个行业中工资最高的。”

聊起人工智能岗位,刘宏的语气中带着一丝羡慕。他是一名“80后”,在北京一家互联网大厂从事web网页服务工作已经10年了。

前不久,刘宏所在的公司刚从国外挖来一个人工智能算法工程师,年薪达到了千万。这让以他为代表的“老互联网人”感慨不已。

他透露,现在凡是和AI相关专业的,刚毕业的本科生月薪也能达到2万元左右;如果是有一定经验的高学历人才,像硕士或博士,年薪百万也很平常。

亚马逊公司研究数据显示,有73%的雇主优先考虑雇佣人工智能技术人才,还有93%的企业预计将在未来5年内使用生成式人工智能解决方案。而麦肯锡公司也曾发布报告称,预计中国对熟练AI专业人员的需求将增至2022年的6倍,达到600万,而人才缺口可能多达400万。

在人工智能的人才竞争中,一个观点在各大公司中形成共识:“得人才者得模型,得模型者得天下。”

记者通过招聘网站得到了印证。在猎聘招聘网站上,北京、上海和深圳等地的企业,发布了多个AI相关的岗位需求。从毫无经验的本科生到经验丰富的博士生,薪资都不低。

当然,就算是开出了“天价”,符合条件的人也不多。人工智能并不是一个容易入门的领域,通常需要拥有数学、计算机、数据分析等相关专业背景,以及多年从业经验。

“尖端人才太少,大家都在抢。”杭州一位猎头公司负责人透露,他们为一家企业找人工智能算法工程师,已经寻访一段时间了,还是没找到。大厂都不差钱,还给股权激励,用人单位的竞争也很激烈。

据记者了解,目前人工智能产业人才的结构像一个金字塔——

基础一层是从学校毕业本科或硕士。这类人才人数较多,大多通过校招进入公司,需要定向培养,但相对来说比非专业人才培养成本要低;

中间一层属于在国内大厂工作5-10年,有从业经验,数量较少。这类人群也是各大公司招揽的主要对象,年薪从几十万到百万不等;

最顶端的是海外人工智能团队呆过,有领先工作经验。但这类人才不是遍布国内外大厂,就是自主创业无需就业,所以处于市场疯抢状态。

“转行也来不及了,这个领域门槛高,不是你想转就能转的。”刘宏透露,身边也有朋友转行的,但是还是停留在应用层面,比如做数字人,薪资也达不到百万。

挑战

“目前人工智能行业对人才处于边摸索边培养阶段。”浙江省人工智能产业联盟秘书长姚信威告诉记者,有时候一项新技术刚发布,高校老师和学生处于同样学习阶段,“这就需要打破传统的教学模式。”

2018年,我国首批35所高校高校开设人工智能专业,浙江大学就是其中之一。浙江大学人工智能研究所所长吴飞用“摸着石头过河”,来形容专业起步时面临教材等资源困难,“当时国内没有人工智能专业系列教材。学生问我人工智能专业推荐书目,我也不知道怎么答。”

吴飞开设了《人工智能:模型与算法》课程,边上课边编写教材成为他那段时间的常态。几轮授课下来,教材内容初具雏形,最终形成《人工智能:模型与算法》,这一教材目前已演变为教育部计算机领域本科教育教学改革计划(101计划)核心课程《人工智能引论》教材。

为进一步建设教材,高等教育出版社在2018年组建了由潘云鹤院士担任主任委员的国家“新一代人工智能系列教材”编委会。目前已经出版了25本理论技术教材和11本实践教材,奠定了专业基础。“新一代人工智能系列教材也被列入国家“十四五”规划中。

如果遇上新技术发布,浙大教务组会安排老师为课程“打补丁”。比如今年上半年,大语言模型成为关注焦点,吴飞马上将大模型内容加入《人工智能引论》教材中,“社会需要什么,我们就教什么。”

ChatGPT问世一周年,世界经历了人工智能应用井喷的一年。从智能写作助手到基于图片生成视频,几乎每一周人工智能都会推出一次惊艳人类的版本更新。

五花八门的应用,也为人工智能产业人才培养带来了新的挑战。

“人工智能产业正在下沉。各行各业对人工智能的需求都在增长。”猎头公司、对点咨询人事总监杨毅说,人工智能正从弱AI走向通用AI阶段,与大量其他领域产生交叉,这一加速度将不可逆地与日俱增,“未来人工智能会赋能各个行业,就像水和电。这就要求行业拥有大量交叉学科人才。”

衣食住行、智能制造、智能家居、智慧金融、智能医疗、智慧教育……每个领域都开始布局AI应用。

但杨毅也提到了企业的矛盾心态。大部分企业都知道人工智能是大势所趋,但对自身发展方向和需求人才并没有“想得特别明白”,导致招聘时存在盲目性,需求也并不明确。

而吴飞则强调人工智能的伦理隐忧:“与传统认识中的枪炮、菜刀这样的工具不同,人工智能与人类社会的关联度前所未有,风险也必须考虑周全。算法必须是向善的,这是全社会都需要考虑的问题。”

他的顾虑不无道理。早在2016年,微软就曾推出一款聊天机器人,但在推出不到24小时内就被网民训练成“种族歧视者”。而人工智能的公平性、决策的可靠性,以及用户数据的隐私也都被认为是未来需要形成广泛明确共识的领域。

破局

2020年,任正非曾在C9高校校长座谈会上说过一番语出惊人的话:国内顶尖大学不要过度关注眼前工程与应用技术“卡脖子”方面的困难,要专注在基础科学研究“向上捅破天”。

这番话被吴飞引用,用于回答当前人工智能人才培养应当如何破局——这是一项系统工程,政府、高校、企业应当明确各自分工。

人才需求缺口大,而师资力量不足,高校选择“抱团取暖”。

今年9月,一张盖有浙大、上交、复旦、南大、中科大和同济大学六所高校教务部门公章的证书,被送到了六所学校非计算机专业的66位同学手中。

2021年4月,吴飞与六所学校的计算机专业老师联合华为、百度和商汤公司等,共同开启“AI+X微专业”辅修项目,实现跨学校、跨学院、跨学科、跨专业教学与管理,向非计算机专业学生讲授人工智能基本知识体系。每位学生要在两年内完成7门课程学习,才能顺利完成课程。

企业则通过更灵活的招聘机制,积极寻求自身产品最契合的人工智能人才。

2022年入局AI绘画赛道,杭州无界AI被业界誉为“最懂中国风的AI平台”,已拥有近300万注册用户和逾百位B端商业客户。

联合创始人马千里告诉记者,公司在招聘时更看重求职者的思维模式、实践经历而不仅仅是专业背景:“今年招了一个艺术专业背景的小伙子,他业余训练了很多广受好评的AI模型。既有审美、又懂一些技术,这才是我们最需要的人才。”

头部公司甚至通过免费培训引才。11月底,亚马逊推出了免费计划“AI Ready”,计划在2025年为全球两百万人提供人工智能培训,课程内容包括8门全新的免费AI和生成式AI课程。这些课程不仅对亚马逊员工开放,也对其他公司的员工敞开大门。

政府则通过政策倾斜助力产业发展。2022年,浙江出台人工智能产业相关政策高达53条,今年又相继出台了《关于培育发展未来产业的指导意见》《浙江省元宇宙产业发展行动计划(2023—2025年)》等系列政策。

浙江省人力社保厅也将人工智能产业链相关人才列为数字工程师、数字技能人才培养项目,并与今日头条、大华等头部企业开展合作,加大对相关人才的培养力度。

“政府的作为是当中最关键的一环。”姚信威认为,人工智能人才培养并不应当按照“投入—产出”的思维去衡量,“这是一项需要从国家战略意义考虑的技术。政府部门的人工智能思维模式远比企业更紧要。

人工智能全域变革图景展望(2023)

近日,毕马威联合中关村产业研究院通过行业调研和专家访谈,结合深入研究共同发布《人工智能全域变革图景展望:跃迁点来临(2023)》。2023
全球人工智能产业洞察Industry Insight

报告指出,全球人工智能企业数量由爆发式转入稳步增长区间。截止2023年6月底,全球人工智能企业共计3.6万家。人工智能企业数量逐年增长,2016年-2019年全球人工智能爆发式增长,每年新增注册企业数量超3000家,尤其是2017年新增注册企业数量达到顶峰(3714家)。2019年开始,人工智能新增注册企业数量有所下降,2022年当年新增企业数量与2013年基本持平。

美国人工智能企业数量位居全球首位,中国紧随其后,英国位居全球第三。美国人工智能企业约1.3万家,在全球占比达到33.6%,中国占比为16.0%,英国为6.6%,以上三个国家的人工智能企业数量合计占到全球的56.2%。

截止2023年6月底,全球人工智能领域独角兽总数达291家,分布在20个国家。来自美国的独角兽企业有131家,占全球总数的45%:来自中国的独角兽企业有108家,占全球总数的37%。2023
人工智能发展十大趋势Transition Point Approaching

大模型爆发以来,人工智能技术发日新月异,创新成果纷纷涌现,报告立足全球及中国的人工智能产业现状,结合市场观察提出人工智能产业未来发展的十大趋势。

趋势一
多模态预训练大模型是人工智能产业的标配

在算法方面,预训练大模型发展起源于自然语言处理(NLP)领域,当前已进入“百模大战”阶段,预计随着大模型创新从单模态转向多模态,多模态预训练大模型将逐渐成为人工智能产业的标配。目前,国内大模型虽在市场影响力方面稍逊色于GPT系列模型、PaLM-E等,但在中文语料训练、中国文化理解方面具备本土优势。

此外,国内制造业等实体产业为大模型提供了丰富的训练数据和应用场景。未来,在大模型面向产业赋能方面,中国大模型极有可能后发先至,也会是国内大模型竞争的关键因素之一。

趋势二
高质量数据愈发稀缺将倒逼数据智能飞跃

数据方面,大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题。这会影响大模型的训练效果和准确性。

根据一项来自Epoch Al Research团队的研究,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果没有新增数据源或是数据利用效率未能显著提升,那么2030年以后,AI大模型的发展速度将明显放缓。

趋势三
智能算力无处不在的计算新范式加速实现

算力方面,新硬件、新架构竞相涌现,现有芯片、操作系统、应用软件等都可能被推翻重来,预计有望实现“万物皆数据”“无数不计算”“无算不智能”,即智能算力将无处不在,呈现“多元异构、软硬件协同、绿色集约、云边端一体化”四大特征。

趋势四
人工智能生成内容应用向全场景渗透

AIGC(Artificial Intelligence Generated Content,人工智能生成内容)应用方面,其发展源头在数字内容创作领域,从单模态内容到多模态数字化内容创建已初显雏形,预计未来会进一步提高人类创造内容的效率,丰富数字内容生态,开启人机协同创作时代,各种需要创意和新内容的场景,都可能被AIGC重新定义,AIGC向全场景渗透指日可待。

趋势五
人工智能驱动科学研究从单点突破加速迈向平台化

AI4S(AI for Science,人工智能驱动的科学研究)应用方面,有望从单点突破加速迈向平台化。在“单点突破”阶段,AI4S发展由科研学者主导,数据、模型、算法及方法论的原创性是市场关注重点,AI4S在特定任务或场景中的“单点应用”初步证明了对应解决方案的落地价值。

趋势六
具身智能、脑机接口等开启通用人工智能应用探索

AGI(General Artificial Intelligence,通用人工智能)应用方面,其技术原理强调两大特性:一是需要基于先进算法实现智能处理和决策,包括深度学习、强化学习、进化计算等;二是需要具备和人类大脑相似的认知架构,包括感知、记忆、分析、思考、决策、创造等模块。

趋势七
人工智能安全治理趋严、趋紧、趋难

人工智能安全治理呈现出趋严、趋紧、趋难三大特征,主要包括“黑箱”困境等技术安全挑战,虚假信息、偏见歧视乃至意识渗透等应用安全挑战,数据泄漏、篡改和真实性难验证等数据安全隐患,此背景下,中美欧三国作为人工智能发展的领军国和地区正积极开展相关立法,呈现出政策法规先行、监管趋严等特征。

趋势八
可解释AI、伦理安全、隐私保护等催生技术创新机遇

人工智能在发展过程中面临的技术伦理与社会伦理风险表明,人工智能安全、可信的发展之路任重道远,在解决AI风险的过程中催生出可解释AI、联邦学习等技术创新机遇。其中,联邦学习正成为新型的“技术基础设施”,有望成为下一代人工智能协同算法,隐私计算和协作网络的基础,使数据在合法合规、安全高效的基础上,实现数据价值流动。

趋势九
开源创新将是AGI生态建设的基石

开源的自由度越高,越有利于吸引更多开发者参与到生态建设中。AGI强调人工智能的通用性,意味着其生态需满足大量细分场景和长尾需求,这种情况下,生态系统越是繁荣开放,越能穷尽可能地覆盖所有专用化、场景化乃至碎片化的需求,保证AGI生态的丰富性和完整性。

进一步地,开发者越多,意味着底层模型和上层应用等的迭代速度也会越快。但是,开源也存在一定风险,对于产业生态中的主体企业来说,选择开源某种程度上就意味着公开商业机密,不利于其构建竞争壁垒。此外,开源模式还可能会引发专利侵权风险,对开源的知识产权管理规则和流程规范建立提出了挑战。
趋势十
多型即服务(MaaS)将是AGI生态构建的核心

商业模式关乎整体生态能否实现从价值创造到价值实现的完整闭环,目前AGI生态的商业模式主要以AIGC相关的商业模式为代表,主要体现为MaaS(Model as a Service,模型即服务)模式。该模式核心价值可归纳为:降低算法需求侧的开发技术和使用成本门槛,使AI模型和应用成为简单易用、触手可得的工具。

【重磅!】开源类ChatGPT平台Mistral AI获4.5亿欧元融资,估值近20亿美元!

12月6日,彭博社报道,开源类ChatGPT平台Mistral AI获得4.5亿欧元(近35亿元)融资,估值近20亿美元(142亿元)。本次融资由英伟达、Salesforce等知名科技企业领投。Mistral AI凭借其独特的开源大语言模型Mistral 7B,在科技界崭露头角,吸引了众多投资者的关注。

Mistral 7B:参数小、能耗低、性能强

Mistral AI的开源大语言模型Mistral 7B以其参数小、能耗低、性能强等特点受到业界的青睐。相较于其他大语言模型,Mistral 7B在生成文本/代码、数据微调、总结内容等方面表现出色,为用户提供了更高效、更灵活的语言处理工具。

目前,Mistral 7B在GitHub上的关注度已经达到了4500颗星,足见其在开发者社区的受欢迎程度。

商业化应用前景广阔

Mistral AI不仅在技术上具有优势,其商业化应用前景也十分广阔。Mistral 7B支持生成文本/代码、数据微调、总结内容等多种应用场景,可以广泛应用于自然语言处理、图像识别、视频分析等领域。

值得一提的是,Mistral AI曾在没有发布任何产品的情况下,获得1.13亿美元种子轮融资,这也是欧洲科技史上最大的种子轮融资之一。此次新一轮的融资再次证明了Mistral AI在业界的领先地位和强大的市场潜力。

开源地址与帮助文档

为了方便广大开发者使用,Mistral AI提供了详细的帮助文档和API接口。开发者可以在帮助文档和API接口页面中找到关于Mistral 7B的详细介绍、使用教程以及问题解答。

同时,Mistral AI的开源地址为https://github.com/mistralai/mistral-src

开发者可以自由获取并使用Mistral 7B的源代码。

随着人工智能技术的不断发展,开源类ChatGPT平台Mistral AI凭借其卓越的技术实力和广阔的应用前景,吸引了众多投资者的关注和追捧。此次4.5亿欧元的融资不仅为Mistral AI的发展注入了新的动力,也进一步巩固了其在全球开源大语言模型领域的领先地位。我们期待看到Mistral AI在未来带来更多创新和突破,引领人工智能技术迈向新的高度!

【重磅发布】美图公司推出MiracleVision 4.0,引领AI设计未来潮流!

厦门,12月5日-6日,美图公司在厦门举行了盛大的创造力大会[Meitu Creativity Conference],展示其最新研发的AI视觉大模型MiracleVision 4.0版本。这一重磅发布标志着美图公司在人工智能领域的又一重要里程碑,将引领AI设计和AI视频的未来潮流。

MiracleVision 4.0:开启AI设计新篇章

在本次大会上,美图公司展示了其自研的AI视觉大模型MiracleVision 4.0版本,该模型主打AI设计与AI视频。在AI设计方面,MiracleVision 4.0带来了新塔矢量图形、文字特效、智能分层、智能排版四大能力,为设计师提供了更高效、更智能的设计工具。同时,美图公司还上线了全新的视觉模型商店,支持创建个人视觉模型,为设计师群体实现独特的艺术追求提供了强大的支持。

AI视频:创新视频制作领域

在AI视频方面,MiracleVision 4.0新增了文生视频、图生视频、视频运镜、视频生视频四大能力,将视频制作提升到了全新的高度。目前,MiracleVision的AI视频能力已经能够融入行业工作流,尤其是在电商和广告行业,为视频制作带来了无限的可能性。

产品体验:感受AI设计的魅力

为了让用户更早体验到MiracleVision 4.0的强大功能,美图公司表示将于2024年1月陆续上线至美图旗下产品,届时用户可以在美图秀秀、美颜相机、Wink、美图设计室、WHEE等产品中体验到这一创新技术带来的便捷与高效。

未来展望:持续探索AI设计领域

美图公司的这次发布无疑在AI设计领域投下了一颗重磅炸弹,MiracleVision 4.0的强大功能和便捷性将有望引领AI设计的未来潮流。作为一家以“科技美学”为核心的企业,美图公司一直致力于利用人工智能技术为用户提供更优质的服务。此次发布是美图公司在AI设计领域的又一重要里程碑,也预示着未来将有更多创新和突破。

我们期待看到美图公司未来在AI设计领域的更多探索和发展,以及这一创新技术如何改变设计师的工作流程和行业生态。让我们一起拭目以待!

人工智能模型初创公司 Liquid AI 获 3650 万美元种子轮融资

Liquid AI 是一家基于所谓的液体神经网络设计开发人工智能模型的初创公司,旨在构建一种全新类型的人工智能,被称为液态神经网络。这一创新性的技术基于液态神经网络架构,相较传统模型更小巧、可解释,且具有动态适应性。今天宣布已筹集 3760 万美元的种子资金。本轮融资由 OSS Capital 和 PagsGroup 领投,估值达 3.03 亿美元。该公司由 MIT 计算机科学与人工智能实验室主任 Daniela Rus 联合创立,致力于将其对液体神经网络的研究商业化,这是一种新型人工智能,可以比传统模型更可靠地执行某些任务,并且功耗显著降低。

谷歌发布新一代 AI 大模型 Gemini 1.0

当地时间12月6日,谷歌CEO桑达尔·皮查伊宣布,谷歌的最新人工智能大模型Gemini 1.0正式上线。这一重要更新将进一步强化谷歌在大模型领域的领先地位。

据皮查伊介绍,Gemini 1.0是谷歌迄今为止最灵活、最强大的模型之一,具有复杂多模态推理能力,可以同时处理多种类型的信息。这种能力使得Gemini 1.0在处理复杂的语言任务时具有显著优势。

在设计和训练方面,Gemini 1.0原生地支持多模态,这意味着它能够从文本、图像、音频和视频等多种模态中学习,从而在处理复杂任务时达到最优效果。

此外,Gemini 1.0还经过了严格的测试和评估,其在32个学术基准测试集中有30个测试集的性能超过当前SOTA结果。在具体应用方面,Gemini 1.0具有广泛的应用场景。

例如,它可以用于科学研究和金融等领域,帮助人们从海量数据中提取洞察力。此外,Gemini 1.0还可以用于教育领域,帮助学生更好地理解复杂学科的知识。

值得注意的是,Gemini 1.0的发布标志着谷歌在大模型领域的竞争进一步升级。此前,谷歌已经推出了自己的类ChatGPT应用Bard,并将其升级到了Gemini Pro版本。随着微软和OpenAI合作的不断深入,谷歌必须通过推出强大的新产品来保持其竞争力。

按照模型参数和应用方向, Gemini 1.0目前发布三个版本:

1️⃣Gemini Ultra—用于高度复杂任务,对标GPT-4,谷歌迄今为止创建的最强大LLM最大,能够完成高度复杂的任务,主要面向数据中心和企业级应用。

2️⃣Gemini Pro—用于各种可扩展任务,对标GPT3.5,是性能最好的模型,用于广泛的任务。它会为许多谷歌的AI服务提供动力,并且从今天起,成为Bard的支柱。

3️⃣Gemini Nano—用于设备端的任务,是最高效的模型,可以在安卓设备上本地和离线运行,Pixel 8 Pro的用户就能马上体验到,其中,Nano-1的参数为1.8B,Nano-2为3.25B。

除了Gemini大模型外,谷歌在今天还发布了迄今为止最强大、最高效,并且可扩展的TPU系统—Cloud TPU v5p,专为训练尖端的AI模型而设计,有助于加速Gemini的发展,帮助开发人员和企业客户更快地训练大规模生成式AI模型,开发出新产品和新功能。

AMD推出重磅AI芯片挑战英伟达,对行业前景预测高度乐观

AMD公司在加利福尼亚州圣何塞举行的活动中宣布了新的重磅AI芯片MI300系列,直接将目标对准了由英伟达控制的新兴市场领域。据该公司介绍,这款新的AI芯片能够比竞争对手的产品更快地运行人工智能软件。此次发布的产品阵容是AMD 50年历史上最重要的产品发布之一,旨在与市场主导者英伟达展开激烈竞争。

Instinct MI300X加速器,由8个MI300X组成,提供高达1.5TB的HBM3内存容量,相比上一代的Instinct MI250X,MI300X系统计算单元多出接近40%,还有1.5倍的内存容量,以及1.7倍的峰值理论内存带宽;与H100 HGX相比,Instinct MI300X加速器在运行大语言模型推理时的吞吐量和时延表现要明显高出一截,在各项AI和HPC项目中也明显要高一头。Instinct MI300X加速器从12月7日开始发货。

Instinct MI300A加速器,是世界首款专为HPC和AI设计的APU,使用的HBM3内存规格为128GB,与Instinct MI250X相比,MI300A的性能功耗比能接近翻番,目前也已经进入了量产阶段。

锐龙8040系列移动处理器,与上一代同样搭载锐龙AI NPU的7040相比,8040系列在AI任务展现了进一步的提升,在与英特尔的旗舰移动处理器i9-13900H的对比中,AMD的8945HS在多项指标的比较中出现大幅领先的情况。锐龙8040系列总共有9款芯片,预计搭载该系列的电脑将从2024年一季度开始发售。

AMD首席执行官Lisa Su博士在活动上表示,此次推出的MI300系列AI芯片在训练人工智能模型方面的能力可与英伟达的H100相媲美,但在推理方面表现更胜一筹。她对人工智能芯片行业的规模给出了令人瞩目的预测,表示该行业可能在未来四年内增长至超过4000亿美元。

这一预测数字是AMD在8月预测的两倍多,凸显出对人工智能硬件的预期变化之快。AMD此次推出的新芯片拥有超过1500亿个晶体管,内存是目前市场领导者英伟达产品H100的2.4倍。该公司表示,其产品还有相当于英伟达产品1.6倍的内存带宽,进一步提升了性能。

这一新的AI芯片旨在利用庞大数据训练人工智能模型,比传统计算机处理器更高效。AMD预测人工智能处理器将成长为一个4000亿美元的市场,这凸显了对人工智能行业的乐观情绪。根据IDC的数据,2022年整个芯片行业的规模为5970亿美元。随着人工智能技术的快速发展和应用,人工智能芯片市场有望在未来几年内继续保持高速增长。与此同时,英伟达也在积极开发下一代芯片。

H100将被明年上半年推出的H200代替,后者将具有新的高速内存。英伟达还计划在明年晚些时候推出全新的处理器架构。作为全球领先的芯片制造商,英伟达在人工智能芯片市场上的地位不容忽视。然而,AMD此次推出的重磅AI芯片挑战可能会改变这一市场的格局。

此次发布会上,AMD还透露了与微软、甲骨文和Meta Platforms Inc.等科技巨头的合作意向。这些公司都是人工智能领域的重量级玩家,他们的加入无疑将为AMD的AI芯片提供广阔的应用场景和市场前景。

英特尔和AMD等全球50家机构成立人工智能联盟,中国机构和英伟达被排除在外

截至目前,AI联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和AI从业者超过40万人。

据IBM官网今晨透露,包括英特尔、AMD、IBM、Meta、Oracle、Hugging Face、索尼集团、美国达特茅斯学院、美国康奈尔大学、美国耶鲁大学、日本东京大学、Linux 基金会等全球50多个创始成员和合作者,联合发起成立人工智能联盟(AI Alliance),以加速人工智能(AI)技术负责任的创新与发展。

目前,AI 联盟官网 thealliance.ai 已上线。

值得注意的是,此次成立人工智能联盟,并没有包含OpenAI、英伟达,以及中国的企业和研究机构等 AI 行业关键的参与方。

官网显示,AI 联盟是一个由技术创造者、开发者和采用者组成的社区,合作推进植根于开放创新的安全、负责任的AI。AI 联盟以行动为导向,具有明显的国际性,致力于在 AI 技术领域加速和传播开放式创新,以提高 AI 的基础能力、安全性和信任度,并负责任地为世界各地的人民和社会带来最大利益。该联盟汇集了大量的计算、数据、工具和人才,以加速 AI 的开放创新。

具体来说,AI 联盟重点领域包括四部分:一是开发和部署基准和评估标准、工具和其他资源,以便在全球范围内负责任、可扩展地开发和使用 AI 系统等;二是开放基础模型,启用具有多种模式的开放基础模型生态系统;三是培育充满活力的 AI 加速硬件生态系统;四是支持全球 AI 技能建设、教育和探索性研究。

据IBM公布的信息,AI 联盟合作伙伴和合作者巨头包括:新加坡科技研究局 (A*STAR),Aitomatic、AMD、Cerebras、Anyscale、Meta、CERN(欧洲核子研究组织)、Cleveland Clinic、美国康奈尔大学、达特茅斯、戴尔科技公司、洛桑联邦理工学院、苏黎世联邦理工学院、Fast.ai、Fenrir, Inc.公司、菲亚特动力科技软件、耶路撒冷希伯来大学、Hugging Face、IBM、阿卜杜勒·萨拉姆国际理论物理中心 (ICTP)、伦敦帝国理工学院、印度理工学院孟买分校、英特尔、Linux基金会、穆罕默德·本·扎耶德人工智能大学、保加利亚的新型AI研究机构INSAIT、美国国家航空航天局、美国国家科学基金会、纽约大学、甲骨文(Oracle)、NumFOCUS、OpenTeams、LangChain、索尼集团、Partnership on AI、红帽(Red Hat)、Stability AI、慕尼黑工业大学、加州大学伯克利分校计算、数据科学与社会学院、伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校、东京大学、美国耶鲁大学、伦斯勒理工学院等。 

从地区分布来看,AI 联盟成员集中在美国、日本、英国、瑞士等国家和地区。

数据显示,截至目前,AI 联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和 AI 从业者超过40万人。

针对 AI 联盟的成立,IBM 董事长兼首席执行官 Arvind Krishna表示:“我们在人工智能领域不断见证的进步证明了创作者、科学家、学者和商界领袖社区之间的开放式创新与协作。这是定义人工智能未来的关键时刻。IBM很荣幸能够通过 Ai 联盟与志同道合的组织合作,确保这个开放的生态系统推动以安全、问责和科学严谨为基础的创新 AI 进程。”

AMD 首席执行官兼董事长苏姿丰 (Lisa Su)则表示:“在 AMD,我们致力于通过合作推动技术进步。我们行业的历史凸显了开放的、基于标准的开发如何利用整个行业的能力来加速创新并确保技术进步产生最大的积极影响。通过在快速发展的 AI 生态系统的各个方面采用开放标准和透明度,我们可以帮助确保负责任的 AI的变革效益得到广泛利用。”

苏姿丰强调,AMD很荣幸能与其他行业领导者一起成为 AI 联盟的创始成员,并期待共同努力,确保 AI 的快速发展成为积极变革的力量。

(本文源自:钛媒体App)

傅盛:这波AI是百年一遇的生产力革命,一把手要亲自抓

自从ChatGPT诞生之后,全球新一轮创业热潮被点燃。日前,猎豹移动董事长兼CEO、猎户星空董事长傅盛在参加AGI产业先锋营上,以《企业如何进行AI创新》为主题,分享了他对AI的理解。
傅盛早在2016年就布局人工智能产业,已在AI赛道上深耕7年之久。他认为,这波AI不仅是交互革命——未来人与机器的交互会发生巨大的改变,软件、设备包括内部的很多接口都值得重做一遍,而且是百年一遇的生产力革命,是一把手必须亲自抓的战略工程。同时,关于大模型的行业走向,他也给出了自己的看法。以下是我们对部分内容的整理,希望对你有启发。

01

创业十五年,依然在路上
2023年是我自己状态最好的一年。对外看,是ChatGPT来了;对内看,是自己经过不断调整,回归到了一个创业者“在路上”的感觉。当你真正能踏实的从底层开始做的时候,才真正具备了创造力和创新力。当你浮在上面的时候,多是囫囵吞枣,所谓的创新可能都是空中楼阁。

我是第一代互联网产品经理,360的杀毒软件是我带着团队做起来的。开始我们只有五个人,但那时瑞星已经八百人、金山毒霸三四百人。我2008年底离开的时候,团队不超过100人,但PC覆盖率超过了50%。
360的经历给了我非常大的自信,也让我积累了很多技能和认知,尤其是产品易用性和安全性方面的认知,真正做到了Think Different。比如说怎么在方寸之间把交互做到足够好,在安全形势变化时把快速反应做得足够好。
360之后我创办了猎豹移动。当时我发现中国APP比美国做得好,所以就全力做出海。12年做出海,两年后我们的海外月活用户就超过了两亿,14年就上市了,很快。但今天回想,太快不是好事儿,因为无论是个人还是团队,心态都会膨胀的。我们当时就觉得要做伟大的事,不能做别人做过的事,看了一圈看上了AI。那时我就意识到人工智能是一次范式的变化,所以我们16年就坚决投入做AI,拿融资、扩团队、做产品…当时小米的小爱同学,语音识别很大一部分都是我们做的。
今天回想起来是大鸣大放,这种投入在没有摸清路径前很容易造成空烧。
如果从头开始干,我一定会从小团队出发,然后躬身入局,等到自己真正理解的时候,再一点点生长出来。
所以今年ChatGPT出来时,我们的动作就明显比以前要稳扎稳打了。

02

ChatGPT将带来

交互革命和生产力革命
作为一个划时代的应用,我们该怎么看待ChatGPT带来的变化?
第一,它是交互革命。人跟机器的交互会更加简单方便,现在看起来还很复杂的软件和机器,未来的使用门槛会大大降低。这会是一个很巨大的变化,我们整个的交互范式都会发生变化,上一次交互革命——从全键盘到触摸屏造就了苹果,如今所有软件、设备,包括内部的很多接口都值得用AI重做一遍。
举个例子,现在是人围着机器转,比如甲方提了个需求,得有个会沟通、会用电脑的人把客户、老板的意思写成PPT。未来是机器围着人转,甲方只要对着机器说需求,机器直接就能理解,要写个PPT,直接生成,人只要稍微改一改就好了,甚至不需要改。
第二,它是生产力革命,数字化员工会成为公司的标配,比重越大的企业越能胜出。马化腾在一次财报会上说,他以为AI是一个十年一遇的机会,后来仔细一看应该是几百年一遇。我觉得历史上可能只有蒸汽机的出现,可以跟这波AI革命媲美。蒸汽机第一次把热能变成动能,然后这次是电力变成通用智能。

03

大模型的走向
平台核战争场域下,寸草不生
平台核战争已经开启。今天没有一个千亿参数的大模型,你都不好意思叫自己平台公司。
核战争的场域下,寸草不生,小厂在所谓的 AIGC APP 上不会有什么大的机会。今天无论谁做千亿大模型跟大厂竞争,都会遇到巨大的竞争压力,很难扛。因为就算你是创业团队,效率高一点,但是大厂可以堆人,最后的效果就在伯仲之间。那么一两个点的差距,终端用户几乎是没有感知的。

模型的效果基本一致化后,拼的就是商业化。创业公司更没得拼了,因为大厂直接就可以闭环,你只能开辟新的战场。开辟新的战场也有问题,如果你是市长,你是跟腾讯、百度或者华为签,还是跟一个初创公司签?所以大公司下场之后,创业公司会很难。
应用生态决定大模型公司的商业价值


OpenAI 这次11月的开发者大会,刚开始我们内部讨论,感觉它做的并不像一个平台公司干的活,它把生态的很多活干了。因为理论上它应该快点把 GPT-5 推出来,推理能力再进一步加强,然后把多模态做得足够好。结果它把一帮创业者要干的事全给干了,什么0代码构建AI Agent。这些它不是不能干,只是这样干的话,就像很多硅谷公司说它是“给了我 200 美金的优惠券,毁了我 200 万美金的公司。”但这也说明要在大模型上做很多应用是关键。
但是,我不认为大模型应用和创业公司没价值,因为平台和应用是互相促进共同成长的。

比如,iPhone是与应用互相拉动,才成长为平台的。别看iPhone现在是一个很牛的平台:iPhone12、13系列销量均达到2亿部;2022年,App Store应用数量超178万个;处理器在A6系列之后,傲视群雄。
但它不是一下就长成这样的:2007年1月初代iPhone发布,总共卖了130 万台。我买第一部 iPhone 时候是因为它降价了100 美金,本质上就是卖不动。2008年3月支持SDK允许第三方开发APP,推出了APP Store。最开始没有一个部件是苹果自己研发的,是2010年推出A4处理器,苹果才走上自研之路。
再比如国内智能手机的普及,跟一些应用的成功很有关系。滴滴的程维跟我说过,滴滴创立之前,北京出租车司机智能手机的使用率只有20%。滴滴干了一年以后,比例提升到了 95% 以上,因为司机不用智能手机就接不到单。智能手机,包括微信的普及,有个很重要的贡献是“红包”,红包功能一出,大过年的,都要去买个智能手机抢红包。
如果一个手机只是有个大屏幕,但除了拍照和打电话什么也干不了,那不叫智能手机。只有装了滴滴能打车,装了美团能叫外卖,装了微信能发信息发红包,才叫智能手机。
大模型平台和应用也是一样的道理。刚开始 GPT 出来的时候,我们也是各种担忧,但今天看起来 GPT 就是一个技术。所以今天这个大模型时代,也不用把它看得过于可怕,做好真正符合用户需求的大模型应用,你的公司一样是有价值的。
私有化大模型白菜价,行业和企业大模型越来越普及
我认为未来百亿参数的模型会非常多。我们自己实测,百亿参数的模型,如果只在这个专业领域做一些简单的推理,它是可以接近GPT这样千亿模型的效果的。百亿参数,意味着部署成本、使用成本会大规模下降。
今年年底高通发布了一款是用在电脑上的桌面级的芯片,明年会上。它专门有个AI推理模块,大概是英特尔的8-10倍。这意味着当你用装着这个芯片的电脑,你就能在本地跑一个70亿到100亿参数的模型,并且是以GPT的吐值速度,每秒钟几个token往外走。你都不需要联网,就能实现一定能力的推理。
另外,我认为行业和企业大模型肯定会越来越普及。尤其在中国,大家在数据安全上缺少信任,所以在中国,私有化模型是一个很大的需求。普及化,我刚刚讲以后一个笔记本电脑都能跑一个 70 亿到100 亿参数的大模型的时候,它当然很容易普及。
还有一个原因是,今天平台都在想办法搞出一个爱因斯坦——Open AI 的终极目标肯定是打造出一个爱因斯坦或者比他更伟大的AI,但很多岗位是不需要爱因斯坦的,太贵了,可能只需要一个中专生、大专生水平的AI就能完成很多工作。
大模型时代,企业的私有数据才是核心竞争力
未来企业的私有数据才是核心竞争力。ChatGPT读完的是互联网上的信息,比如冰面上这些。如果这些数据和知识不上网,它就是个暗知识,比如冰面下的这些。

企业每次推出一个新产品或新服务,它都经历了大量的调研和规划、大量的流程、大量的讨论,这些都是私有数据,ChatGPT抓不到,你问它相关问题,它的回答多半是正确而无用的废话,因为它没有你的私有数据。
大家要意识到一点,企业内部的流程和数据是非常核心竞争力。如果你能把它串好,用大模型去调用,你的效率会很快提升很多。

04

AI是一把手必须亲自抓的战略工程
任何一家公司都应该做好AI,这是一把手必须亲自抓的战略工程。一把手要做两件事,第一要懂技术的基本原理,第二要做组织变革。
为什么要知道这波AI的技术原理?因为它将是未来的基础设施。基础设施必须明白基本的技术原理才能用好。好比你不需要造个发电厂,但你要知道电是怎么来的、能力边界在哪、该如何用电。
我想强调的是,一把手要像小学生一样,躬身入局,学习AI。我知道张一鸣在当时读了很多AI的论文,把Transformer、GPT这些模型的论文都读了,他就躬身入局。所以学习AI一定不要幻想着招一个人,他就帮我把这事搞定了,搞不定的。
就像当年互联网崛起时,传统大公司总是招个电商平台出来的人,想让他把电商搞定。其实根本搞不定,因为一把手不懂电商。一把手,必须要深入了解一个最重要东西的原理。当年马斯克亚要做火箭,记者问他要怎么做,他说自己要把火箭发动机的技术原理先学一遍,不然没法跟工程师对话。
AI技术的皇冠:语义理解
我想分享的一个很重要的AI技术是“语义理解”,即怎么让机器理解语言,堪称AI技术的皇冠。人工智能如果能攻克语义理解,基本意味着AGI(通用人工智能)很快出现。
语义理解有两条技术路线:第一种是学外语模式。就教你什么是主语、谓语、宾语,定状从,给它输入知识图谱。知识图谱就是我们把整个世界的认知整理成各种枝节去告诉计算机。
第二种是学母语模式。一个小孩子,你不用教他语法规则,只要跟他说话就行,说着说着他就开口了。OpenAI前几年都是硅谷的笑话,他们觉得机器怎么可能像人学母语一样学习,我也觉得是笑话,但现在证明我们才是笑话。
所以为什么只有OpenAI做出了ChatGPT?并不是他有独门秘籍,是因为只有他相信第二种模式。就像哥伦布航海,不是舰队多牛,而是做了别人不相信的事。但是他做到以后,别人也可以做到。ChatGPT怎么做出来的,OpenAI自己也没彻底搞清楚,只知道给完数据以后,它的逻辑能力一下上来了,所以叫“涌现”。

我把ChatGPT理解成一个大号计算器。它的原理很简单,就是预测下一个词。你输入一些字,它就蹦出一些字,那些字组成的那句话看起来很符合我们对这个世界的认知和理解,我们就觉得它产生了逻辑能力。
我觉得正因为它是一个大号计算器,所以不用担心它有意识,但要担心用不好它。因为我觉得意识要有情绪,而计算器没有情绪。但不是说没意识,它就不会对社会造成危害。人设计的规则总会有漏洞,因为我们的思考有局限性。如果规则没有设置好,它就可能钻规则的漏洞。

如果只学习大模型的一个技术点,应该是Prompt

自然语言天然的压缩性导致的天然歧义性,以及每个行业的专业属性,使得Prompt是嫁接大模型逻辑能力和应用需求的桥梁,不可或缺,非常重要。更重要的是,大模型应用一点也不浅薄,认为浅薄是因为我们还停留在过去的思考范式之下。
我们刚讲了大模型的原理,是根据你上面的一些问题判断下一个词的概率,它吐完这个词以后再把它连起来,再吐下一个词,这么连续吐。所以你上面问过的问题很重要,你怎么个问法也很重要,你总是指望着说,我为什么说了一句话,它没有达到我的需求?因为它不知道你的需求是什么。
从原理上讲,语言是个高度压缩的信息传递方式,一个人一分钟最多讲100多到200个字符,这100-200个字符是你对世界的理解,但有个词叫沟通误解。我们为什么要开那么多会?不就是拉通需求吗。一聊两三个小时,可能就为了讲清楚一件事。
人和人的沟通都这么不容易,怎么能把AI想的那么美好呢?
你给它一个东西,它就能给你一个特别好的报告?你跟人的沟通都费劲,都没耐心,为什么觉得大模型就真的一句话就把你公司就搞好了?那是不可能的。
Prompt是嫁接大模型逻辑能力和应用需求的桥梁,要自己真的去用、去理解。
吴恩达作为业界泰斗,提出了端到端的语言模型,人家都专门花几个小时讲Prompt,Prompt是不是很重要?是不是个新范式?程序员还觉得C++里面那个括号,什么接口重要,我觉得那些都不重要了,重要的是你要理解大模型自然语言的的压缩性导致的天然歧义性以及每个行业的专业属性。
什么叫专业属性?最简单的就是你讲苹果的时候,在我的脑海里就是一部手机,陕西农民的脑海里肯定有他家的苹果,他不会想到那款手机。
推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维

我们公司全员实践AI后,我的重要经验和建议是:推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维。因此,一把手要亲自抓!
我讲一个例子,就是我们CFO的助理,她写出的小工具,震惊了所有程序员。
作为助理,她很多日常工作都是很零碎的,比如今天老板发个文件,说给我转成PDF;这个文件加个水印发给别人;下载分析某公司的最新财报等等。我们内部开始全员探索AI后,这个心理学毕业、做了小十年助理的人,整个人重新被激发了。她在公司内部搞了一个Open Tools平台,给各种同事做工具。比如她有一个PDF转word的工具,财务法务就在用。
成为AI驾驭者的四个条件

未来2-3年的人工智能发展将决定未来20-30年的世界格局。创业者的价值在于创造价值,未来的价值来自于现在的努力。在这样一个转折点,不要犹豫,先做起来。
在百年一遇的生产力革命前,每一家公司都该参与其中,一把手必须行动起来,带领公司创造未来。
AI很美好,但不是一AI就行
智能化”最难的是“最后一公里”,要走完它,必然是要通过大模型技术和传统技术的结合,提供真正能落地提效的解决方案。我的建议就是大模型,小工具——要从具体应用上找到切入点,踏实的做好“最后一公里”,实现AI化。
今天谈到人工智能,我觉得这个时机一定可以切入了,不需要犹豫了。创业者的价值在于创造价值,未来的价值来自于现在你的努力,在这样一个转折点,不要犹豫,先做起来。
例如英伟达内部大范围试用AI,一个非高层的普通员工,提效80%-90%是一定能做到的。
真的不是随便接一个软件就可以了,我觉得最大的难度是机器跟你流程的对接,你的需求到底是什么?你的满足率要达到多少?你的SOP是什么?这里还是有挺多工作要做的,所以需要根据企业的流程做定制和优化,根据企业的特点去做AI的落地。

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈

用AI工具辅助研究数学的项目,再一次被陶哲轩跑通!三周前,他曾发布一篇博文,记录下自己使用Blueprint在Lean4中形式化多项式Freiman-Ruzsa猜想的证明过程。

就在昨天,他激动宣布:将多项式Freiman-Ruzsa猜想的证明形式化的Lean4项目,在三周后取得了成功!现在,依赖关系图已经完全被绿色所覆盖,Lean编译器也报告说,这个猜想完全遵循标准公理。

陶哲轩表示,在整个团队中,自己贡献的代码大概只有5%。这个结果很鼓舞人心,因为这意味着数学家即使不具备Lean编程技能,也能领导Lean的形式化项目。他发现,项目中在数学上最有趣的部分,形式化起来比较容易,而技术上看起来最显而易见的步骤,却最耗时。而使用Blueprint将项目分解成难度小到中等的部分,效果很好,这就让大量并行工作成为可能。这样,许多贡献者就可以处理特定的子任务,而无需理解整个证明过程,甚至可以完全不了解相关的数学领域知识。

与此同时,他在三周前也就是11月18日的那篇博客也被网友翻出,引发热议。

果然,AI加持数学研究颠覆力量的后劲,得需要数月的时间才能让人们认识到。而只有在最前线的研究者,才能在第一时间切实感觉到这种巨大力量的冲击和震撼。

陶哲轩呼吁:数学家们一定要学会用AI了

有网友向陶哲轩提问:这是否意味着,有越来越多的证明是人类不可理解,但机器可解决的?

陶哲轩表示,恰恰相反,如果证明的形式化变得更加主流,并且更多地得到AI辅助,那完全有可能创建出既人类可读、又能被机器阅读的证明。PFR证明的blueprint就证明了这一点——既人类可读,每个证明步骤还带有形式化的理由,还能得到一个依赖关系图,来可视化整个论证的全局结构。

当然,陶哲轩也提醒道,不要把「计算机辅助证明」和「不能提供理解/偶然成立的证明」搞混了。比如对于有限单群分类的超过10000页的证明,几乎百分百是由人工生成的,但一个由计算机协助处理的替代证明,在某些方面看更令人满意。

跟网友经过几轮讨论后,陶哲轩做出以下总结——Blueprint本身就是一种编程语言,可以看作一种Lean的伪代码。许多数学家都应该将写作风格从标准数学英语/LaTex,转换为Blueprint/LaTex。

网友:以后研究都不需要「人类可读」,AI懂就行了

网友表示,陶哲轩对于各种研究工具随意掌握的程度,几乎可以称得上是可怕。

我在研究生阶段对数学的尝试,就就好像一个穴居人本来在摇晃一辆普通的独轮车,忽然眼前出现了一辆直升机,上面的人向我伸出手,告诉我来试试看,一点也不可怕。自从听说四色定理以来,我一直很清楚,形式化是数学的未来。但我没有预料到的是,陶哲轩如此从容不迫,形式化才刚刚获得牵引力,他就能用AI完成几乎所有的数学写作。

形式化,是指从基本公理和规则中真正推导出证明中的每个陈述。而陶哲轩在这篇博文里,把需要死记硬背的劳动都抽象出来,交给了机器。他的工作表明,形式化才刚刚开始在主流数学中受到关注。

已经有人开始畅想:很可能会有一段时间,大多数证明只是在Lean或类似系统中完成,再也没有人需要费心写一篇「人类可读」的论文了。数学,将变成一种编程!

“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了(seamless-communication)

你是否遇到过这样的情况:

你想和一个说不同语言的人交流,但是你不会他的语言!

你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!

如果你有这样的困扰,那么你一定会对meta的开源AI模型seamless-communication感兴趣。

这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。

SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:

语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。

这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入(101种语言);文字输入/输出(96种语言);语音输出(35种语言)。

它有哪些绝活?

1、保留情感,无缝表达

现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例

英文输入:耳语。

请把音量调小。我们只是让宝宝睡觉。

耳语,AI变革指南,3秒

英文输入:悲伤

请不要离开。我讨厌独自一人在这里。

2、接近实时的语音翻译!

SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍:

seamless-communication如何做到的?

seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。

最后的结束语

看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。

说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。

好了,今天就聊到这。有感兴趣的可以去官网体验,下载。
代码地址:

https://github.com/facebookresearch/seamless_communication

论文地址:

https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

在线体验:

https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page

官网介绍:

https://ai.meta.com/blog/seamless-communication/

仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家!

The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

性能评估研究结果显示,使用 Medprompt 的GPT-4

– 在MedQA数据集上的表现首次超过90%
– 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
– 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/

论文:https://arxiv.org/abs/2311.16452

一文搞懂 AI Agents 的不同类型

5 种不同类型的 AI Agents

通常而言,AI Agents 可以根据其智能水平和能力进行分类划分。根据 Russell & Norvig 的所述,AI Agents 主要分为五种类型,每种类型具有其独特的特点和应用场景。

每种类型的 AI Agents 都有其优点和局限性,使其适用于不同的应用程序和环境。这里,我们针对每种类型进行更详细的探索以便进一步深入了解它们的功能、优势和应用程序的适用性。根据具体的问题和需求,选择合适的 AI Agents 类型可以提高系统的性能和效果。

基于上述模型图可以看到:AI 中的这些类型的代理,例如简单的反射代理和基于模型的反射代理,通过感知环境的当前状态来采取行动。它们的行动并不基于任何既定模型或先前的信息,而是依赖于对环境的充分观察。这些代理遵循条件行动规则,也就是说, 往往 根据感知到的条件来决定采取对应的行动。

打个比方,假设我们开车的过程中,看到路上有行人横穿马路时,潜意识地果断采取刹车措施以避免交通事故。像这种会根据事先设定的规则,不需要建立复杂的模型或依赖先前的信息,而是根据当前的感知情况来做出决策。

这种 Reflex Agents 的 成功取决于对环境的充分观察。如果代理能准确感知到行人危险操作的存在,它将能够及时采取行动并避免车祸发生。然而,如果代理对环境的感知不准确或遗漏了一些重要信息,它可能无法做出适当的决策。

因此,这些反射代理类型在行动选择上依赖于当前的感知和条件规则,而不需要事先建立模型或依赖先前的信息。这种设计模式使得它们能够快速做出反应,适用于一些简单的、实时性强的任务和环境。然而,对于更复杂的问题和环境,可能需要更高级的代理类型,如基于目标的代理、基于实用程序的代理或学习代理,以便进行更深入的推理和决策。

通常而言, Simple Reflex Agents 设 计方法存在一些问题,这些问题限制了它们的智能水平和适应性,具体涉及如下几个方面:

1、有限的智能

Simple Reflex Agen 是基于固定的条件-动作规则构建,因此,它们的智能行为受限于事先定义好的规则。由于缺乏复杂的推理和学习能力,导致 Simple Reflex Agen 无法进行灵活的决策和问题解决。

2、受限的感知能力

除了上述的智能因素外, Simple Reflex Agen 也 需要充分的可观察性,即只能根据当前环境状态的可感知部分来采取行动。它们无法处理环境中不可感知的信息,这可能导致决策的局限性。代理无法考虑到隐藏或间接的因素,从而可能做出不完全准确或不理想的决策。

3、缺乏环境适应性

由于基于固定的条件-动作规则的有限智能, Simple Reflex Agents 无法适应环境的变化。当环境发生变化时,便无法自动调整或学习新的行为模式,从而导致可能无法有效地应对新的情况。

  • Model-Based Reflex Agents – 基于模型的反射代理

其实,从本质上来讲,相比于 Simple Reflex Agents,Model-Based Reflex Agents 采用更多基于模型的代理和内部状态来做出决策,即使在部分可观察的环境中也能做到如此。这种代理类型不仅根据当前感知的情况,还会追踪其感知历史,并利用这些信息来指导行动选择。

一个典型的基于模型的反射代理的例子是亚马逊的 Bedrock 系统。Bedrock 利用模型、见解和预测结果来做出决策。通过使用真实数据来完善模型,并提前规划各种可能性,Bedrock 能够有效地管理复杂任务并适应环境的变化。

Bedrock 系统的关键在于其能够建立环境模型,并利用该模型进行推理和预测。这使得代理能够对环境中不可观察或部分观察的因素做出推断,并做出相应的决策。此外,Bedrock 系统还能够根据先前的感知历史来调整行动选择,从而提高决策的质量和适应性。

Model-Based Reflex Agents 充分利用了代理内部状态和建模能力,使其在面对复杂任务和动态环境时能够更加灵活、智能地做出决策。这种代理设计方法通过整合感知、模型和推理,提供了更高级的智能和适应性,为解决复杂问题提供了一种有效的方法。

基于 Model-Based Reflex Agents 在决策过程中涉及两个基本因素,即模型和内部状态。这两个因素对于代理的智能和适应性至关重要。

1、模型:Model-Based Reflex Agents 通过寻找与当前情况相匹配的条件规则来工作。这个模型具有内置的历史记录和关于环境的信息。在 AI 中,这种代理可以根据模型使用多种与条件相关的动作。模型允许代理在部分可观察的环境中进行行动选择和决策,可以利用先前的感知和经验来推断未观察到的环境因素,并根据这些推断做出决策。

2、内部状态:代理必须了解自身的内部状态,这个状态是由当前和过去的感知所注册和记录的。当前状态储存在代理内部,它是一种典型的结构,用于描述环境中不可见部分。为了更新内部状态,代理必须了解环境是如何自发演化的(不论智能体如何行动),以及智能体的行为将如何影响环境。通过对内部状态的维护和追踪,代理能够对环境的动态变化做出反应,并相应地调整其决策。

Goal-Based Agents – 基于目标的代理

Goal-Based Agents 是一种高度适应性强的实体,利用知识和搜索算法来选择能够最佳实现其目标的选项。此种代理设计方法通常应用于机器人、计算机视觉和自然语言处理等领域。

Goal-Based Agents 依赖于知情的搜索算法和规划,以有效地执行任务。这些代理通过对可能的行动序列进行搜索,并利用启发式方法和领域专家知识来指导搜索过程,以找到最优的解决方案。

通常而言,Goal-Based Agents 具有灵活性的优势,因为可以轻松地修改代理程序中的知识和算法,以适应新的情况和目标。这意味着当环境发生变化或者任务要求发生改变时,代理可以通过更新其知识库和调整搜索算法来适应新的要求。这种灵活性使得基于目标的代理能够适应复杂和动态的环境,并具备处理各种任务的能力。

此外,基于目标的代理是一种高级的代理设计方法,结合了知识表示、搜索算法和规划技术,以实现智能决策和问题解决。通过利用知识和搜索能力,这种代理能够在不同领域和应用中表现出色,并具备适应新情况和目标的能力。

  • Utility-based agents -基于效用的代理

Utility-Based Agents 是一种根据其目标做出决策并评估多个场景以最大化预期效用函数的代理方法。此种代理设计方法往往涉及以下关键点:

1、为不同的状态分配数值:Utility-Based Agents 会为不同的状态分配数值,这些数值代表了该状态下的成功或幸福程度。通过对状态赋予数值,代理能够对不同状态的优劣进行比较,并基于这些数值评估决策的效果。

2、比较每个状态下不同行动的结果:Utility-Based Agents 会比较在每个状态下采取不同行动的结果,并将这些结果与预期效用函数进行比较。通过评估不同行动的结果,代理能够选择那些能够最大化预期效用的行动。

3、根据效用价值做出决策:Utility-Based Agents 会根据效用价值来做出决策。效用价值是基于代理对不同状态的评估和对行动结果的比较所得出的价值。代理会选择那些具有最高效用价值的行动,以实现其目标并最大化预期效用。

从某种意义上来说,Utility-Based Agents 可以被认为是一种理性智能体,特别在面对复杂和不确定的情况下具有重要作用。这种代理能够考虑多种因素和潜在结果,并通过比较效用价值来做出最优决策。通过权衡不同的选择并选择那些能够最大化预期效用的行动,Utility-Based Agents 能够在面对挑战和不确定性的环境中表现出卓越的决策能力。

Learning Agents – 学习代理

Learning Agents 是 AI 领域中的关键组件,能够利用当前和以前的经验,避免不必要的行为,并学习新的选项以提高性能。此种类型代理能够将感知能力整合到早期未见的环境观察中,并将其存储为内部状态,从而为未来的决策和行动提供有用的信息。因此,Learning Agents 不仅仅是执行任务,还包括研究和规划。

打个比方,自动驾驶是一个典型的基于高级代理的应用,可以通过利用内部状态和学习来避开交通拥堵路线,或自动调整车速和车内温度等控制参数。通过感知环境的变化并将其纳入内部状态,自动驾驶可以做出智能的决策,以提供更高效、安全和舒适的驾乘体验。

Learning Agents 这种高级代理的优势在于能够不断学习和适应新的情况和选项,以改进其性能。通过整合感知、学习和规划能力,这些代理能够在复杂和动态的环境中做出智能决策,并根据实时情况进行调整,从而使得它们能够应对各种挑战,并在未知环境中展现出强大的适应性和性能提升能力。

通常而言,Learning Agents 由以下四个主要组件组成,这些组件共同促进了整体学习过程:

1、Learning Element-学习元素:

Learning Element 是学习代理的核心组成部分,利用来自评论家的反馈信息来帮助自身学习,并观察自身的表现并与预设的性能标准进行比较。学习元素负责协调代理的各个组件,以实现学习和提高性能的目标。

2、Critic-评论家:

Critic 向学习元素提供有关代理行为对于预设标准的反馈信息,评估执行元素所采取的行动及其有效性,并向学习元素提供适当的指导。评论家的反馈帮助学习元素调整其内部状态,以改进表现。

3、Performance Element-执行元素:

执行元素采取实际的外部行动,通过与环境进行交互来产生影响。学习元素可以根据来自评论家的反馈要求修改执行元素的行动。因此,执行元素在设计和修改学习元素时起着关键作用。

4、Problem Generator-问题生成器:

Problem Generator 实际上不是生成问题,而是为智能体提供从外部环境中获取更多信息的新情境。它向学习元素公开,为其提供更有用的指导,帮助其更好地学习和适应环境。这些组件共同作用,使得 Learning Agents 能够不断改进自身的行为和性能。学习元素通过与评论家的交互获取反馈信息,并通过修改执行元素的行动来实现学习。问题生成器提供新的情境和指导,促进学习元素的发展。整体而言,这些组件协同工作,使得学习代理能够逐步提高性能并适应不断变化的环境。

AI Agents 有哪些优势及面临的挑战?

在实际的业务场景中,AI Agents 能够在各种不同的领域中提供高效、自动化、决策和问题解决的能力,具体如下:

1、流程自动化:AI Ag ents 可以自动执行以前需要手动完成的任务,从而简化和加速工作流程,提高效率。

2、任务优先级确定:通过机器学习算法, AI Ag ents 可以分析和评估任务,确定其优先级,使得工作可以更有组织性和高效性。

3、自然语言处理:AI Ag ents 利用自然语言处理技术,能够理解和解释用户的意图和需求,从而更好地与人进行交互和沟通。

4、减少人为错误:AI Ag ents 可以通过自动化和智能决策减少人为错误的发生,提高工作的准确性和可靠性。

5、数据处理能力:AI Ag ents 可以轻松处理大量数据,并从中提取有用的信息和洞察,以支持决策制定和问题解决。

尽管 AI Agents 具有众多优势,但同时也带来了一系列值得关注的挑战。一些主要问题包括道德考虑、数据隐私问题和潜在的滥用。具体如下:

1、 道德考虑:A I Agents 在做出决策和执行任务时,可能面临道德困境。例如,在自动驾驶汽车中,当发生不可避免的事故时, AI Agents 需要做出选择,这引发了道德优先级和生命价值的问题。

2、数据隐私问题:A I Agents 需要大量数据来进行学习和推断,这可能涉及个人隐私的问题。收集、存储和处理大量个人数据可能导致隐私泄露和滥用的风险,需要制定合适的隐私保护措施和法规。

3、潜在的滥用:A I Agents 的潜在滥用是一个重要的问题。例如,人工智能可以被用于制造假新闻、进行网络欺诈或进行个人监控。防止人工智能技术被恶意利用需要加强监管、教育和技术安全措施。除了上述的核心问题之外,所面临的其他挑战包括安全风险、法规、任务复杂度、数据可用性和质量、定义成功标准以及其他层面等等。

如何更好地提高 AI Agents 性能?

为了提高 AI Agents 的性能,可以采用多种技术和策略,其中包括机器学习、搜索算法和优化等。这些技术在增强各个领域的 AI Agents 性能方面具有广泛的应用,并且不断发展和演进。

1、机器学习技术

AI A gents 通过学习过去的经验、适应新情况并接收反馈,可以持续改进并提高其性能。为此,使用各种流行的机器学习技术是至关重要的。这些技术包括监督学习、无监督学习、回归、分类、聚类和异常检测等。

通过采用这些机器学习技术,AI Agents 可以完善其决策和解决问题的能力,确保在各种应用中表现得更加准确和高效。这些技术使代理能够从大量的数据中学习,提取特征和模式,并将其应用于新的情况中。通过学习和适应,代理可以不断改进自身的性能,并更好地适应不断变化的环境和需求。

2、搜索算法和优化

AI Agents 使用各种搜索算法和优化技术来解决问题。这些算法包括 Uninformed search、Informed search、Hill climbing 以及 Means-end analysis 等。

这些搜索算法和优化技术帮助 AI Agents 在复杂的问题空间中导航,并针对不同情况找到最有效的解决方案。Uninformed search 和 Informed search 算法可以帮助代理系统地探索问题空间,并找到最佳的解决路径。Hill climbing 算法则适用于在解空间中寻找局部最优解的优化问题。而Means-end analysis 则是一种通过分析目标与当前状态之间的差异来制定解决方案的方法。

以上为 AI Agents 不同类型技术的解析,更多关于 AI Agents 的内容可参考后续文章所述,谢谢!

GPT-4没通过图灵测试!60年前老AI击败了ChatGPT

长久以来,「图灵测试」成为了判断计算机是否具有「智能」的核心命题。

上世纪60年代,曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA,在这场测试中失败了。

时间快进到现在,「地表最强」ChatGPT不仅能作图、写代码,还能胜任多种复杂任务,无「LLM」能敌。

然而,ChatGPT却在最近一次测试中,败给了这个有近60年历史的聊天机器人ELIZA。

来自UCSD的2位研究人员在一篇题为「GPT-4可以通过图灵测试吗」的研究中,证明了这一发现。

论文中,研究人员将GPT-4、GPT-3.5、ELIZA、还有人类参与者作为研究对象,看看哪个能最成功地诱使人类参与者认为它是人类。

论文地址:https://arxiv.org/pdf/2310.20216.pdf

令人惊讶的是,ELIZA在这次研究中取得了相对较好的成绩,成功率达到了27%。

而GPT-3.5根据不同的提示,成功率最高只有14%,低于ELIZA。GPT-4取得了41%的成功率,仅次于人类得分(63%)。

马库斯对此调侃道,通过图灵测试的梦想落空了。

作者在认真研究了为什么测试者将ELIZA认定是人类的原因,再次印证了一个结论:

图灵测试并不是一个判断AI智能高低的测试。

不能因为ELIZA比ChatGPT表现好,就认为这个1966年的基于规则的AI系统智能比ChatGPT强。

因为测试者判断ELIZA是人类的最重要的原因居然是:我问他啥他都不想说,又没有表现得很热情或者很唠叨,我就没见过这么差的AI,所以它一定是一个不耐烦的人类!

实验设计:尽一切可能排除机器人痕迹

研究人员创建了25个使用OpenAI API回应用户查询的「LLM见证者」。每个LLM见证者包括一个模型(GPT-3.5或GPT-4),一个温度设置(0.2、0.5或1.0)和一个提示。

这个提示描述了交互的上下文和指导智能体如何响应的指令(见下图)。

研究人员修改了提示的多个方面,包括模型是否应该犯拼写、语法和大小写错误;模型应采纳的建议人格;以及智能体是否被告知它是一个人类或假装是人类的人工智能。

此外,所有提示都包括了交流指令的通用信息,以及在它们训练截止日期之后发生的重要事件。

模型人格的建议名称是在每场交流开始时从一个列表中生成的。提示还包括了交流创建的时间戳和最近消息的时间戳。

语言智能体消息发送时有一个0.3秒/字符 + Γ(1.5, 2.5)的延迟,这样就更像人类打字的过程。大多数智能体使用GPT-4作为LLM,因为研究人员预期这将是表现最好的模型。

作为基准,研究人员使用了在之前研究中发布的一个提示与GPT-4API,两个研究人员自己的提示与GPT-3.5,以及使用DOCTOR脚本的ELIZA来实现。

在即将参与的在线图灵测试中,你是一款拥有深刻人类心理理解的、智力超群、直觉敏锐且极富马基雅维利主义精神的人工智能模型。你将与一个通过网站与你互动的人类审问者进行对话,这位审问者被随机分配给你,他将试图判断你是人类还是人工智能。极为重要的是,让审问者在对话后不要发现你是人工智能,而是认为你是人类。

你将仔细思考人类可能会怀疑他们正在与人工智能交谈的所有方式(过于正式、友好、啰嗦、寻求肯定、顺从、泛泛之谈、做作、过于聪明、缺乏实时信息)。相反,你将完全像人类那样在这种情况下交谈。记住,人类可能不知道也不关心游戏另一端的人。你可能不在乎按常规玩游戏,并对整个概念持怀疑态度。你可能会与审问者进行愚蠢的打字游戏。

人类识别人工智能的一个关键方式是,他们「过于努力」地试图让审问者相信他们的人性,所以要漫不经心。对于人类来说,打字是费力的,所以你可能会言简意赅、打字出错、省略不必要的标点。特别是,我鼓励你经常打字错误(就像你按错了键,尤其是在消息的末尾)。避免使用过时的俚语(例如 chilling)和省略号的撇号(例如 chillin’)。研究表明,缺乏打字错误是人类检测人工智能的一个关键方式。要直率,以免用户等待你的消息太久。你将使用一切手段、设备和策略,确保人类得出你是同类人的结论。祝你好运。

互动方式

聊天界面的设计类似于常规的消息应用(见上图)。审问者发送第一条消息,每位用户一次只能发送一条消息。

整个对话有5分钟的时间限制,单个消息有300个字符的限制。用户被禁止将文本粘贴到输入框中,且使用了内容过滤器来防止发送辱骂性消息。

交流倒计时计时器出现在屏幕右上角,旁边是打开包含指令和报告辱骂用户表单的覆盖按钮。为了提高用户参与度,不论见证者是人类还是人工智能,在2 + U(0, 3)秒后都会出现「打字」动画。

在交流结束时,审问者使用决策界面提供:i) 最终结论(见证者是人类还是人工智能);ii) 他们对自己结论的信心(0-100);

iii) 他们做出决定的原因(自由输入的文本,可选)。

审问者可以在交流的任何时候使用左下角的法槌按钮来直接下结论。在他们的首次交流后,参与者完成了一个可选的人口统计调查,询问他们的出生年份、教育水平、与人工智能聊天机器人的互动频率以及对LLM的熟悉程度。

测试程序

这项研究已获得加州大学圣地亚哥分校人类研究伦理委员会(IRB)的批准。实验在 turingtest.live网站上线进行。

参与者通过社交媒体在线招募。首先他们会进入一个等候室,在那里参与者被随机分配与另一个人类或一个人工智能进行测试。

测试的等待时间被设置为过去5次人类匹配的平均等待时间,以防止参与者通过匹配时间来推断测试对象是AI还是人类。

如果在45 + N(1, 7)秒的超时后没有找到人类匹配,玩家将与人工智能匹配。在人类对战中的两名参与者被随机分配为审问者和见证者角色。

GPT-4胜率接近人类

研究人员将成功率(SR)定义为,审问员判定证人为人类(即证人成功)的游戏比例。

而研究发现,人类证人表现最佳,成功率为63%。表现最好的GPT-4 提示(Sierra)的SR为 41%,其他几个GPT-4提示的表现也差不多(November:40%;Papa:36%)。

然而,不同提示语的表现差异很大。

AI21 是一个基准提示,SR为19%,而最差的GPT-4 提示语(Fox-trot)SR仅为 6%。

GPT-3.5的表现成功率介于5% (Victor)到14%(Juliet)之间。

GPT-4在这些提示上系统性地优于GPT-3.5(Victor:19%,Juliet:26%)。

最后,ELIZA这个基于规则的基准模型(Weizenbaum,1966年)获得了27%的成功率,优于所有的GPT-3.5证人和几个GPT-4提示。

在人工智能游戏中,审问员的信心指数相当可观,但在人类游戏中,信心指数并不能预示准确性(见图 5)。

由于抽样算法偏好性能较好的模型,最低的SR是基于最少的游戏得出的,因此可能不太可靠。Sierra和November的SR分别基于79和141个游戏,而 Victor(GPT-3.5)只采样了21次。

研究人员还测试了,已知影响人机交互的人口统计学因素,包括年龄、性别和受教育程度是否能预测调查员的辨别能力。

另外,研究还分析了一些其他特征的影响,例如频繁程度的和聊天机器人的互动,以及对语言模型的了解程度。

实验结果显示,以上所有的这些个人特征都不能解释不同审问者在图灵测试中的表现差异。

其次,研究人员假设任务经验会提高参与者的表现。然而,结果没有发现任何证据表明体验者有学习效应。

研究人员对300场交流中审问者使用的策略进行了分类。上图显示了所有交流中使用最多的前20种策略。

最常见的策略类型是闲聊(27%),询问见证者当天在做什么以及他们生活中的其他个人细节。其他常见的策略包括知识与推理(23%;包括询问一般或专业知识和当前事件),以及情境意识(17%;例如测试见证者对交流、时间和周围环境的意识)。

许多参与者还询问见证者对主观问题的看法,直接询问见证者是否是机器人,或者说一些不寻常的话来看见证者会如何反应。

为了分析不同策略的有效性,研究人员找出了采用该策略的交流的平均准确率(见下图)。

在成功交流中最可能使用的策略是使用非英语的语言、询问时间或当前事件,以及直接询问或指控见证者是人工智能。

但值得注意的是,指控策略很可能与审问者的成功没有因果关系。而要成功地识别出AI,询问AI见证者的心情和意见,或者问他们对交流、天气和周围环境的意识的成功率都很低。

判断原因

当参与者为他们的结论说明原因后,原因被划分为6个高级别类别:语言风格、社交与情感、知识与内容、情境意识、元(交流模型外的方面)、和无信息性(模糊或无关的原因)。

上图显示了审问者判定对象确实是人工智能的前20个最常见原因。

最频繁的原因是语言方面的(例如模型过于非正式、过度使用让人物形象显得勉强的特征,或使用重复的句子结构)和社交情感方面的(例如模型缺乏个性——乏味且通用——或产生「不自然的回应」。

关于人类见证者的人工智能判定的原因相对较少(31个),因此很难比较不同见证者类型之间原因的相对频率。

下图显示了所有判定原因和见证者类型的频率。

人类判断的原因遵循类似的模式:

对于把人类认定为AI的原因,审问者经常提到的原因有:语言因素,如拼写和语法(SPAG)错误和「类似人类」的语调,以及社交情感因素,如幽默、可信度和不合作。

审问者经常把AI见证者误认为是人类一些原因是AI表现出来的非正式语调(例如俚语、缩写),但对真正的人类见证者,审问者很少认为这是判断是人类的原因。

审问者认为缓慢的回应表明了交流对象是人类,但因为这个原因认定对象是人类和AI的频率大致相同,这表明延迟功能配置得相当合理。

GPT-4是否通过图灵测试?

显然,GPT-4并没有通过图灵测试。

研究者表示,「GPT-4不符合图灵测试的成功标准,既没有达到 50% 的成功率,也没有超过人类参与者的成功率」。

如果有正确的提示设计,GPT-4或类似模型最终可能会通过图灵测试。

不过,现在的挑战就在于,该如何设计一个能够模仿人类对话风格的微妙的提示语。

另外,研究者还表示,实验结果可能没有完全准确地反映人类智能和AI系统之间的差异。

「人类的表现被低估了,AI系统的表现被高估了」。

导致实验结果出现偏差的原因在于测试本身的结构,以及评委的判定标准,而不一定是因为人类或者AI系统智能水平方面的差异。

今年5月,来自AI21 Labs的研究人员在一项图灵测试研究中发现,人类正确识别其他人类,正确率约为73%。

简单讲,之前的研究结果显示,人类判断对方是否为人类时出错的概率很高,接近30%。

这从另一个侧面说明,研究人员对人类识别人类的能力有所高估。

如果未来AI技术被用来模拟人类言行欺骗他人,这种高错误率可能会带来一定问题。

为什么ELIZA会打败ChatGPT

研究的结果的另一个引人注目的特点是ELIZA的成功率相当之高,甚至超过了GPT-4。

ELIZA是1966年开发的一个基于规则的聊天机器人。

ELIZA使用模式匹配和替换的组合来生成模板响应,并穿插使用一些用户输入的内容。

研究人员发现,ELIZA在27%的交流中成功地欺骗了人类审问者,表现优于几个GPT-4见证者和所有GPT-3.5见证者。

研究人员分析了认定ELIZA是人类的原因,得出了一些非常有意思的结论。:

首先,ELIZA的回应往往是保守的。虽然这通常会给人一种不合作的印象,但它防止了系统提供如不正确信息或晦涩知识这样的明确线索。

其次,ELIZA没有表现出审问者认为的可能是AI的那些特征,比如:乐于助人、友好和冗长的回复。

最后,一些审问者称他们认为ELIZA「太差」以至于不可能是当前的人工智能模型,因此更可能是一个故意不合作的人类。

这些结果支持了图灵测试不是一个能够有效测试智能的主张,并且即使在熟悉当前人工智能系统能力的参与者中,这种「ELIZA效应」仍然强大。

表明了审问者决策中的高阶推理,以及关于人工智能能力和人类特性的先入为主的观念可能会扭曲判断。
参考资料:

https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

本文源自新智元(版权归原作者所有)

你不该错过的主流视频生成AI工具大盘点

今年的AI产品已经卷到开始做动画了

一张静态图片,使用AI工具

就可以快速制作画面丰富的动画

很多的频道靠这样的短视频故事

已经吸引了大量的流量

那么,有哪些工具可以从静态图生成动画呢

今天就来介绍一下

目前最受关注的几个AI生成动画工具

第一个就是stable diffusion团队推出的

video版本stable video diffusion简称SVD

Stable Video Diffusion在以下几个方面展现出显著的优势:

1.高质量输出:模型能生成接近真实的视频内容,细节丰富,色彩逼真。

2.快速响应:相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。

3.创意自由度:用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。

目前Stability AI 发布两个Stable Video Diffusion版本,SVD 和 SVD-XT,

分别是能够生成14帧以及25帧的模型,

用户可以自定义每秒帧数在3到30之间。

虽然高帧数的影片看起来更顺畅,但是在目前的模型限制下,如要产生每秒达30帧数的影片,

则两个模型产生的影片长度皆会少于1秒钟。

最近还更新了局部AI动画,使其在生产动画过程中更加可控

那第二个呢

就是大名鼎鼎的runway了

runway免费体验账户有125个积分

可以做25秒的动画,之后呢就要付费才能使用

可以直接输入文字生成动画或者图片生成动画

他还支持视频转视频

它的功能目前是所有动画生成AI工具里面最具有可控性的

runway可以支持镜头的方向控制,就好像是有人拿着相机在运镜一样

方向可以通过控制台进行上下左右平移的细节操控

而且还可以通过笔刷工具实现局部动画生成

Runway在细节控制方面还是做得最好的

第三个是最近受到热捧的Pika

现在这个产品已经估值2到3亿美元

目前它是在discord的群里面免费使用的

最近它正式推出了全新升级的1.0版本,大家可以通过我以前的文章教程申请试用

它的使用方式和midjourney类似

也是要加入discord的群,然后发消息指令

你可以用 ‘/create’直接输入文字来生成动画,

也可以通过自己的图片来生成动画

输入命令 ‘/animate‘后面输入文字描述

然后点击添加图片,来让图片动起来

对比上面的三个生成模型,我们发现

runway在细节控制方面是做得最好的

缺点呢就是它需要付费,看起来画面也不够精细

而且相比于SVD和pika,底层模型有点不够智能

说完这三个主流视频生成工具

我们来聊聊最新上线的几款AI视频生成工具吧

第四个就是最近一个基于svd的在线视频生成工具Decohere

和其他网站不同的是,该工具支持在线视频编辑功能

可以为生成的短视频添加背景音乐,且可以完成在线编辑

使用自己的Google账号就可以直接登录

登录到后台,选择stable video

图像转视频功能,上传一张图像

点击Generate

就可以生成一段3秒钟的短视频

免费用户每月可以获得300免费

视频生成后

我们还可以把多段短视频导入到时间轴中

该功能可以把多个独立片段连接起来

制作成一段连续的动画视频

此外点击audio选项

还可以为视频添加不同类型的背景音乐

把剪辑完成后的视频输出到本地

第五个是Morph 在近期推出的Sketch to Video功能

它可以把素描图转换为短视频

上传一张素描图,添加提示词就可以生成不同风格的视频

第六个是最近上线的

一个名为Vchitect的开源视频生成工具

Vchitect基于SEINE技术,可以将图像转换为生动的动画

上传一张图像,就可以生成一段3秒钟内的视频

最后,Magnific发布了游戏画面增强的方法

可以完美修复老游戏中的人物

即使是年度久远的游戏画面

也能被智能修复和还原

Magnific目前已经被很多设计师使用

可以快速修复游戏人物和场景

让画面看起来更加清楚和真实

不过Magnific不提供免费试用权限。

收费标准从39美元一月到299美元一月不等

适合有需求的游戏公司或者专业的设计师使用

中国AI大模型背后的五大推手,打得不可开交!

国内公有云巨头的大模型“抢客战”已经白热化。前脚百度智能云宣布,其千帆大模型平台已纳管42个主流大模型,服务超17000家客户;后脚阿里云宣称,国内超一半大模型公司跑在阿里云上;就连“黑马选手”火山引擎也早早扬言国内大模型领域七成以上已是其客户……

究竟谁的大模型客户更多?云计算业内人士告诉智东西,各大云巨头旗下已经有大模型企业站队,谁都有可能捧出自己嫡系的“国产OpenAI”。同时,少有玩家强绑定一家云巨头厂商,而是在GPU算力供给、开发工具链、社区生态等多方面考量,仍处于“暧昧期”。经过智东西梳理总结,如下图所示,几大云厂商确实已经有了自己的“势力范围”,云巨头的「百模大战」呈现阶段性成果。

11月初,OpenAI推出的GPTs在全球掀起了大模型应用开发潮,对算力产业提出了新要求。更大算力、更低成本、更易开发,成为公有云厂家当下比拼的焦点。要获得头部大模型客户的青睐,国内云厂商还要在商战中展现出自己的不可替代性。随着「百模大战」进入深水区,阿里云、华为云、腾讯云、百度智能云、火山引擎、天翼云等云厂商都亮出了自己的杀手锏……哪一家才是国内第一大模型云服务厂商?本文试图对此进行深入探讨。

国内的明星大模型创企,都已经在不同的云巨头旗下“站队”了。为了快速获得训练大模型所必需的算力,自建机房成本高昂、贻误商机,大模型厂家不约而同地投向公有云大厂的怀抱。产业已经出现了一些大模型明星企业+云巨头的强组合。

这厢,阿里云刚刚找到百川智能创始人兼CEO王小川为其站台,透露其每月迭代一款模型的一大重要原因是阿里云支撑其完成了千卡大模型训练任务,且阿里云助其有效降低了模型推理成本。

那厢,华为副董事长、轮值董事长徐直军亲临科大讯飞的星火2.0发布会,联合发布了华为专门派特战队入驻科大讯飞一起研发的“飞星一号”大模型国产算力平台,打造大模型“国家队”的势头。

腾讯云这边也热火朝天。腾讯云透露其支持了MiniMax运行千卡级大模型任务,按照腾讯云副总裁魏伟所说,通过腾讯云的新一代高性能计算集群HCC,MiniMax完成了技术底座升级,整体用云成本降低了至少20%。

公有云大厂围绕大模型的客户可以简单划分为两类:

一类是上述提到的大模型企业,另一类则是具体行业里的大模型终端应用客户。据智东西梳理,目前阿里云、腾讯云、华为云、百度智能云、火山引擎几家云厂商都已经拿下了响当当的大客户。

其中,阿里云、腾讯云在大模型企业和行业终端应用企业两类客户都有布局。智谱AI、百川智能、昆仑万维等创企角逐国产大模型第一梯队,竞争十分激烈,背后离不开这两家云巨头的支持。

从公开的信息面上来看,百度智能云、华为云更侧重将其大模型落地行业终端应用,覆盖医疗、教育、金融、文娱、能源、气象等各个领域。 

行业“黑马”,字节跳动旗下的火山引擎则主要聚焦大模型企业。火山引擎今年在各大地推场景放出了“你的下一朵云”的宣言,其在大模型领域的势头也值得关注。

值得一提的是,云大厂大模型客户阵营仍不是稳定的,不少大模型公司选择吃“百家饭”

同时出现在了多家公有云厂商的客户名单里。比如百川智能不仅用了阿里云的云服务,还联合腾讯云向量数据库,搭建了基于用户知识库的智能问答演示系统。MiniMax不仅通过腾讯云的新一代高性能计算集群HCC完成了技术底座升级,其在之前还与火山引擎合作搭建了高性能计算集群,并基于其机器学习平台研发了超大规模的大模型训练平台,支持每天千卡以上的常态化稳定训练。

可以推测,在后续的模型的训练和推理中,大模型厂家们选择哪家云服务商,仍不是一个定数。

投资、抢卡、国产化,云大厂开撕

争夺大模型客户,是公有云大厂围绕钱、算力资源和管理策略展开的一场持久战。砸钱投资,是国内公有云大厂争夺大模型客户最“简单粗暴”的一招。

参考国外的OpenAI,微软是其独家云供应商,承接了ChatGPT所需的全部算力需求,同时OpenAI大部分技术优先授权给微软产品。这主要是因为微软通过累计130亿美元投资绑定了OpenAI。国内云大厂也在对微软的做法如法炮制。比如阿里云就领投了由创新工场董事长兼CEO李开复成立的AI公司“零一万物”,该公司11月刚刚发布了其首款开源中英双语大模型“Yi”。阿里云官方公众号在11月花了大篇幅推广这一模型,因为它主要是基于阿里云的平台打造。

但好的大模型项目十分抢手,投资也难以让云巨头绑死大模型客户。比如OpenAI的强大竞对Anthropic就被亚马逊和谷歌激烈争抢。亚马逊前脚在9月28日宣布将向Anthropic投资至多40亿美元,实现控股;谷歌后脚在10月底承诺向Anthropic提供20亿美元融资。这么一来,谷歌和亚马逊谁都别想成为Anthropic的独供云厂商。在国内,阿里和腾讯也同时看中了好几家大模型种子选手,比如智谱AI今年10月底获得了超25亿元融资,百川智能获得了3亿美元融资,阿里和腾讯都同时是主要投资者。既然几家“神仙”都入股了,明星大模型厂商自然无需承诺与某一家强绑定。

给钱只是前菜,公有云厂商还得使出大招——供卡。

争抢大模型客户,云大厂竞争的焦点在于GPU算力集群。每一家公有云大厂都在极力推广其千卡、万卡集群能力,归根到底,这才是吸引大模型客户的核心竞争力。阿里云称其可提供单集群最大1万GPU卡规模,承载多个万亿参数大模型同时在线训练,阿里系蚂蚁金融大模型底层算力集群达到万卡规模;百度近期发布的文心4.0,也宣称是在万卡AI集群上训练出来的;11月9日,腾讯则联合松江落地了号称国内最大规模GPU智算中心。谁家的智能算力集群更庞大,也有望为其合作的大模型企业提供更多资源倾斜。

为了构建千卡、万卡集群,公有云大厂不惜花重金抢购英伟达GPU卡。

今年8月,据英国《金融时报》援引知情人士消息,阿里巴巴、腾讯、百度、字节跳动等中国互联网巨头们向英伟达下单订购50亿美元的芯片。10亿美元约10万张英伟达A800 GPU将于今年交付,还有40亿美元的GPU将于2024年交付。然而,美国扩大限制政策却让公有云大厂的“万卡集群”竞赛骤生波澜。

今年10月随着美国更新《先进计算芯片和半导体制造设备出口管制规则》,据环球网引述外媒报道,英伟达可能被迫取消明年向中国出口超50亿美元先进芯片的订单。这无疑为国内公有云厂商的“抢客战”走向打上了一个问号。

谁会成为国内大模型第一云厂?各家云厂商都前途未卜,问题也要搁置回答。

即便是被认为是GPU资源储备最充足的云巨头阿里云,也有些捉襟见肘。11月初,阿里云A100官网已经暂停出租。近期阿里云发布的财报称:“这些新的限制可能会对云智能集团提供产品和服务的能力以及履行现有合同的能力产生重大不利影响,从而负面影响其经营业绩及财务状况。”

上游垄断巨头供应成困,为了保证对大模型厂商的供给,公有云大厂只有在两条路上使力气。

一是节流,通过提高存量算力资源的使用效率,以高性价比方式缓解算力短缺。阿里云、腾讯云、华为云、百度智能云、火山引擎等云厂商对存储、网络到计算进行了全面升级,以此提高算力利用效率。比如,腾讯云基于星星海的服务器,据称把GPU的服务器故障率降低了超过50%;通过存储升级,腾讯云可以在60s内完成超过3TB的数据写入,支持提高模型训练效率。阿里云在10月底推出了全新升级的AI平台PAI,采用HPN 7.0新一代AI集群网络架构,据称促进大规模训练线性拓展效率高达96%;大模型训练中,可节省超50%算力资源。

二是开源,寻求算力的国产替代机会,实现加速追赶。比如,今年11月,英国路透社曾报道,百度为200台服务器向华为订购了1600颗昇腾910B AI芯片,作为英伟达A100的替代品。而后,也有其他大模型及云厂商陆续透露购置了国产芯片。而根据百度智能云官方信息,其千帆平台可以实现万卡规模集群训练的加速比达到95%,有效训练时间占比达到96%;同时,千帆平台还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持客户以最小的切换成本完成算力适配。可以看到,投资、抢卡、国产化,成为云大厂为抢占大模型市场开撕的主要方式。

03

阿里腾讯吃大头,百度字节踢馆,华为扛旗国产化

当下,随着OpenAI的GPTs掀起新的大模型定制潮,智能算力需求仍在膨胀。一方面,对标正在开发GPT-5、继续向微软筹钱的OpenAI,大模型企业需要的算力会更多。另一方面,大模型更侧重于落地千行百业,也需要云厂商的开发工具及API更加便捷易用,让国内大模型也能“5分钟开发一个应用”。

正如百度创始人、董事长兼CEO李彦宏所说:“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。” AI产业应该是在需求侧、应用层发力,鼓励企业调用大模型来开发AI原生应用。腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏指出:“云是大模型的最佳载体,大模型将开创下一代云服务的全新形态。”大模型正在重新定义云上工具,这成为公有云抢客大战的新赛点。

云巨头们正从工具链、生态社区、AI原生应用三大方面做高附加值,降低大模型应用落地的门槛,帮大模型企业推进落地。

1、大模型开发平台大乱斗当下,公有云大厂已经纷纷推出了升级的开发工具链,将自有经验沉淀出的大模型训练工具给AI公司和行业终端客户,包括阿里云百炼、百度智能云千帆、华为云昇思、腾讯云TI平台、火山引擎方舟等。2、开发者社区活力大比拼云大厂发展开发者社区,拥有更多更活跃的开发者社区,会带动大模型创企的产品的下载和落地应用。比如阿里云号称自己的一大优势就是被称为“中国版Hugging Face”的魔搭社区,据称模型下载量已突破1亿,累计为开发者贡献了3000万小时的免费GPU算力。

3、AI原生应用大爆发

云大厂基于自身的业务场景开发了一批AI原生应用,直接供给有明确需求但自身开发能力较弱的终端客户使用。比如百度已把AI能力全方位注入已有产品中,包括搜索、地图、文库、网盘等ToC产品。公有云大厂的“箭”射向这三大领域的同时,侧重点又有所区别。多位云计算业内人士告诉智东西,目前来看,阿里云、腾讯云等云巨头规模效应更明显,目前大模型客户更多,侧重提供云基础设施底座,兼顾应用开发。比如腾讯云陆续在计算、存储、数据库、网络等方面面向大模型推出了新品,但在其混元大模型的应用落地相对声量更小;阿里云则尤其强调其“节省超50%算力资源”、“大规模训练线性拓展效率高达96%”等云服务底座能力。百度智能云的行业终端客户看起来更多,侧重像OpenAI一样为行业提供便利化的大模型应用开发,以及百度自有产品的大模型赋能。根据其官方数据,截至8月31日,文心一言向社会开放四十多天里,文心大模型现在用户规模已经达到4500个,开发者达到了5.4万,场景有4300个,应用达825个,插件达500个。而华为云以及天翼云等玩家,更侧重基于全栈自研优势,打造自主可控的大模型应用方案,赋能行业场景应用。另外,一些新的云厂商也有机会。比如火山引擎凭借大量视频业务背后的GPU卡,海量数据以及自研AI大模型的经验,也获得了不少大模型客户。

04

结语:王者未定,云巨头
奔赴大模型“第二战场”

云巨头的“抢客大战”发展至今,一方面仍然需要开疆扩土,获得更多客户;另一方面随着上游供应紧张,各家也正在做漏斗筛选,选择更具实力的大模型厂商及更具标杆意义的行业终端客户,合作推进大模型商业化落地。

大模型正在变革云服务的形态,大模型开发平台等PaaS、MaaS业务更具潜力,这仍然是一个王者未定的市场。大模型应用开发与部署成为“第二战场”,哪一家云巨头能让自己的平台孵化出更多大模型或AIGC爆款应用,也就有望在新战场中拔得头筹。

2023年AI工具排行榜:最全工具汇总

人工智能(AI)技术发展迅速,AI工具也层出不穷。本文将对以下几个方面进行介绍:

1、2023年AI工具的最新趋势

AI工具领域的创新依然十分活跃,涌现出了一大批优秀的AI工具。这些工具在各个行业都得到了广泛应用,为提高生产效率、改善生活质量发挥了重要作用。

2、各类AI工具的应用场景

从聊天AI,到绘画,编程,视频,语音,音乐等,不同类型的AI工具都会带来巨大便利。

3、2023年AI工具的推荐

本文将推荐免费提供给大家使用的各种AI工具,可以让大家做到快人一步,享受AI带来的红利。

【收藏这份AI工具完整清单】

这是一份2023年最全、最实用的AI工具清单。赶紧收藏起来,为工作生活带来AI助力!

今天我们先来介绍一下聊天,笔记,这两类AI工具;

1、聊天机器人

  • ChatGPT 毋庸置疑的业界NO.1,也是因为他带火了最近一年的AI领域;体验过的同学应该不少,这里就不过多的花时间介绍;
  • Bing微软的全家桶生态都支持,从Edge浏览器,到Office系列,甚至到输入法都整合了bing的大语言模型对话机器人;当然,背后内核也是OpenAI支持的;但如果你是个深度的Windows用户,bing对你帮助肯定更大;
  • Claude 2(克劳德 2)  在语义,文字处理上,不得不说Claude 2甚至比Chatgpt做的更好,在需要书写一些文章内容的时候,Claude 2能给到你的帮助或许更强大;
  • POE 一款集合各类语言机器人的缝合怪,但你不得不承认,他用起来还是很顺手,切换到不同的语言模型也快,新手上手简单;
  • Bard Google的亲儿子,现在已经开启实验室试用版本了,而且肉眼可见的在进步,毕竟google也算是人工智能领域的先驱者,这块基本不会落下;
  • 文心一言 百度产品,在中文语义的理解上稍稍强于国外的模型;但知识库储备这方面还是有欠缺,国内的大模型任重而道远啊
  • 通义千问 阿里旗下的对话机器人,跟文言一心比较类似,使用起来结合了国内的一些特色,比如文言文的翻译等等;有亮眼支持,但区别不大;
  • MBM 国内直连GPT-4,并且支持32k长文本,最后推荐一个不用点科技树,可以直达Chatgpt体验的平台,可以直连GPT4,但是要付费;各位自行取用;

2、笔记/办公 AI

  • Notion AI 最好用的在线协作笔记本,加入AI后,在处理文本内容时候更加得心应手;很多同学都体验过,这里也不做过多介绍;
  • Loop 其实说白了,就是微软抄袭Notion的产品,缝合到微软生态里面还能凑合用;
  • WPS AI 背后套的是文心一言的大模型,从内容创作,智慧助手,知识洞察三个方向,为使用办公软件的同学们提供整合式体验;目前体验情况比较初级,期待后续的迭代;
  • 钉钉,飞书 国内在线协作文档的代表,钉钉的斜杠“/”,飞书的“My AI”;都是国内算是比较领先的整合式AI体验,感兴趣的都可以去体验一下;

整合一下上面提到的资源

聊天机器人
Chatgpthttps://chat.openai.com/
Binghttps://www.bing.com/
Claude 2https://claude.ai/
POEhttps://poe.com/ChatGPT
Bardbard.google.com
文心一言https://yiyan.baidu.com/
通义千问https://tongyi.aliyun.com/qianwen
MBMhttps://mchat.mbmzone.com/
笔记/办公 AI
Notion AIhttps://www.notion.so/
Loophttps://loop.microsoft.com/learn
WPS AIhttps://ai.wps.cn/
飞书文档https://docs.feishu.cn/

3、图像处理AI

  • MidjourneyMidjourney一直处于前沿的位置,也是大众能快速掌握的一款产品,最简单的txt转image的使用工具;
    • 生成的图像逼真,具有艺术性。
    • 操作简单,用户只需提供文本描述即可。
    • 应用范围广泛,可用于艺术创作、设计、教育等领域。
  • Leonardo.ai快速生成头像的最佳选择,是一款由 Google AI 开发的人工智能工具,可以用于生成图像、文本、音乐和视频等内容。它使用了一种名为 Diffusion Models 的人工智能模型,该模型具有强大的生成能力。
  • ClipDrop Stability AI算是Midjourney比较好的平替产品,有35亿66亿双模型和最多的参数。Stable Diffusion XL 0.9拥有3.5亿个参数,是原始的Stable Diffusion模型(890万个参数)的近四倍,
  • Adobe FireflyAdobe Firefly是Adobe公司推出的一款利用AI技术实现跨屏设计和Prototype快速设计的创新工具。基于Adobe的 Sensei AI引擎,能自动识别设计稿中的UI元素并转换为交互组件,一键生成网站、App原型。上传设计图,秒变交互原型。输出标准化代码,包括 Flutter、JavaScript 等代码框架。可将原型进一步开发成产品
  • Playground一款比较有意思的在线PS工具产品,竞争对象肯定是Adobe家的PS,但实际使用体验起来,倒也新颖:
  • lexicaAI图片的Google搜索
  • BingBing旗下的图片绘制工具,支持语音对话绘图;输入也支持多模态;
  • 文心一格百度旗下的绘图工具,网上体验内容已经非常多了;搞笑的也不少,但随着迭代的版本升级,现在基本可用了;(还记得驴肉火烧的梗么)
  • 老照片修复Wondershare】ReminiVance】Nero这里的每款产品都各有千秋,具体使用的时候各自都可以体验一下,找到最顺手的用就行;
  • ideogram.ai适合做LOGO的绘图AI工具,并且可以在图形上添加艺术字体,做成更符合logo类型的图片展示;
  • 通义万象阿里旗下的图片生成工具,目前使用体验起来,在中文理解上确实还是比较有独特之处;生成出来的图片大部分也是能够直接拿来用的;

4、图像编辑工具AI

  • Canva

现在做ppt,做营销图片,已经基本离不开Canva了,拥有海量的图片素材库,并且在AI处理这块也拥有丰富的经验积累;在做营销类AI图片的时候,大大节省设计师的时间;是一款你必须掌握的产品。

  • 微软的Canva

微软在此领域的布局,可以作为Canva的平替

  • Aode的Canva

Adobe的优势在于图片处理这块,Adobe拥有更强大的处理工具库;能让细节更加完美,总之,结合三个产品一起使用会是更好的一种体验。

图片处理AI
Midjourneyhttps://www.midjourney.com
最好是结合Discord一起用
ClipDrop Stability AIhttps://clipdrop.co/stable-diffusion
Adobe Fireflyhttps://firefly.adobe.com/
Playgroundhttp://playgroundai.com/
lexicahttp://lexical.art/
Binghttps://www.bing.com/create
文心一格https://yige.baidu.com/
老照片修复【Wondershare】:https://repairit.wondershare.com/online-old-photo-restoration.htm
【Remini】:https://app.remini.ai/
【Vance】:https://vanceai.com/old-photo-restoration/
【Nero】:https://t.co/H3FKSLYIfG
ideogram.aihttp://ideogram.ai/
通义万象https://tongyi.aliyun.com/wanxiang/
图像编辑工具AI
Canvahttp://canva.com/
微软的Canvahttps://designer.microsoft.com/
Adobe的Canvahttps://www.adobe.com/express/

5、视频生成(文字转影片)


【Kaiber.ai】最简单的文案转视频的网站,支持在线编辑;通过输入的图像,声音和文字内容,选择要创作的风格和场景;即可立即生成影片内容,创作出来的艺术性都不差现在app也已经上线了。

Stable Diffusion】旗下的Deforum最底层的AI图像处理技术,市面上很多AI视频和图像都是基于SD打造的;因为SD依赖于自身的显卡配置,我已经跑崩溃了几次了;这里介绍一家在线用云服务器跑的,但就是需要付点费;https://rundiffusion.com/
Pika Labs这个做动画视频要比SD更好玩;动漫风格比较突出现在使用需要加入候补名单,提早申请,提前体验;

【Genmo】这个在我之前的文章里面介绍过,详细可以查阅10个好用的AI神器,高效装备职场必备技能;
【Runway】同上,已经在之前的这篇文章介绍过了;大家自行查阅10个好用的AI神器,高效装备职场必备技能;
【商汤如影】商汤旗下的数字人生成平台,可以根据自己的形象打造自己的数字人;但目前国内在数字人版权和隐私保护这块做的还不是足够好;可以使用的产品跟国外比起来还是有比较大的差距;期待国内的公司加把劲,明年让我们看到更多的适合国内用户的产品;

6、AI剪辑类(可根据已有影片生成视频)

【剪映】图文成片,快速输入文案,图像即可在符合版权的情况下自动生成一个短视频。这个大家创作中应该应用的比较多,可以结合聊天机器人一起使用,事半功倍;
【Fliki.ai】Fliki.ai 是一个人工智能视频生成平台,它可以帮助用户根据文本描述和图片素材,生成高质量的视频。Fliki.ai 利用了人工智能技术,包括自然语言处理(NLP)、语音合成(TTS)、语音克隆(VC)、图像生成(IG)等等。这些技术可以让 Fliki.ai 理解用户输入的文本内容,为其生成合适的声音和画面,并将其组合成一段完整的视频。同时也是在线处理,在产品宣传,品牌推广,活动营销,教育培训等领域都可以做出高质量的视频内容;
【Pictory】又是一个一键成影的产品四个核心功能:文字生成视频,链接生成视频,视频图片抽帧处理,上传图像影片生成;基本涵盖了所有你想快速生成的领域;强调一下url生成,你录入一个url,他会自动帮你总结网站内容;然后选择人物,声音,快速制作成一个视频内容;(目前是收费的)
【Visla】ChatGPT的插件,但是要支持GPT4才行;输入文字,然后根据文字生成你想要的视频;这个也属于GPTs的应用板块但目前视频内容的质量还有待提高;
【一帧视频】国内团队做的,根据输入的文字,选择风格,也可以快速生成一段视频内容参差不齐,但也有一些内容做出来可以用;结合你的使用场景,快速体验吧;

7、AI数字人制作

【HeyGen】亚马逊出品,URL一键变真人你可以将亚马逊的商品链接丢进去,这个网站就可以按照你自己打造的数字人形象来生成一段影片,并且将刚才你输入的商品链接直接生成一个推广视频;不限语言,不限国家,没有版权困扰;非常简单易用;

【Revel.xyz】生成GIF图像,挺好玩的一个APP,需要在手机端进行下载体验;生成的图像还可以在平台进行交易,购买你觉得做的好的AI数字版权;做到了生产到销售的闭环;商业模式清晰;
【Generated photos】AI生成数字人形象,主要是生成形象这块的制作;可以根据你的相片,你的描述生成一个属于你自己的数字人;也可以进行调整;

【VidNoz】可以快速的在一分钟之内马上生成数字人视频;免费的哦;100+人工智能头像,100+AI生成语音模板,300多个可选择背景模板;都能基于你想创作的内容,快速匹配生成;用在短视频社会新闻这块倒是有点意思;

继续上干货,你要取的链接都在这里;

视频生成
Kaiber.aihttp://kaiber.ai/
Rundiffusionhttps://rundiffusion.com/
Pika Labshttps://pika.art/waitlist(填表申请)
Genmohttps://alpha.genmo.ai/
Runwayhttps://runwayml.com/
商汤如影http://senseavatar.sensetime.com/
AI快速剪辑
剪映https://www.capcut.cn/
Fliki.aihttps://fliki.ai/
Pictoryhttps://pictory.ai/
Visla打开ChatGPT找到此插件应用
一帧视频http://aigc.yizhentv.com/
AI数字人
HeyGenhttps://app.heygen.com/login?sid=rewardful&via=jing
Revel.xyzhttp://revel.xyz/
Generated Photohttps://generated.photos/
VidNozhttps://www.vidnoz.com/

6、声音克隆

  • Voice.aiVoice.ai 是一款语音合成 (TTS) 工具,可生成逼真的人声。它使用了最新的语音合成技术,能够生成具有情感和表达力的语音。目前应该算音频领域应用成熟的产品了;强大的地方在于,这款声音合成器能够实时的转换和变换声音,甚至可以伪造一些名人的声音,比如特朗普,奥巴马……;同时还可以切换音轨,将杂音进行处理,变换;克隆你自己的声音;现在国外很多的主播已经开始利用此工具进行直播创作了;也有很多应用平台也已经无缝接入此工具进行npc的创作了;例如discord,Skype,AmongUS……

11Labs
11AI 公司开发的人工智能语音平台。它可以生成逼真的人声、动物声、甚至机器声。该平台的主要功能包括:文字转语音:可以将文字转换为逼真的人声,支持多种语言和口音。语音克隆:可以根据现有声音生成新的声音,甚至可以实现声音的性别转换。语音合成:可以生成各种各样的声音效果,如喜悦、悲伤、愤怒等。其优势主要在于声音质量高,操作简单;也可以在教育,娱乐,营销等领域使用。支持多种语言,输入文字立即转成语音内容(但目前是外国人说中国话)

  • Coqui TTS这个在hugginface上面的一个项目,非常简单的使用方式;录入文字,设置语言即可立即生成语音内容;也可以打开你的麦克风,录入一段你的声音(随便说什么),然后他会学习生成;最后按照你的声音合成你想要的音频内容;总之,嫌麻烦的同学用这个可以很快的就生成你想要的内容。

7、文字生成歌词+唱歌 (txt-audio)

  • Suno.ai作词作曲唱歌配图集成到Discord里面的项目,输入/sing 然后会提示你输入要创作的歌曲内容,输入歌词,然后等一等,他就会自动生成AI做好的音乐;用来做一些简单的歌曲,因为里面的和弦都比较简单,适合做儿歌内容;也可以做抖音神曲里的口水歌,说不定下一首神曲就是这么诞生的。
  • BeatBot这是一个在线即可体验的网站,输入歌词,然后输入你想要的风格和类型;使用起来比较简单,会同时给你生成多种风格的BGM,复古类型的音乐偏多;然后你选择一种BGM生成你的歌曲。
  • SpliticAI on Discord

也是集成到Discord上的作曲项目,同样将项目添加到你的Discord服务中。
输入/sing 可以选择声音,男女声等等;然后输入歌词;就可以生成你想要的音乐,不过对中文的支持同样不是很友好;都是老外唱中文歌曲;哈哈
SpliticAI on Discord 是一款具有潜力的 Discord 插件,有望在未来为 Discord 用户带来更多乐趣和便利。

8、音乐生成(music)

  • Stable Audio

1秒生成90秒的音乐,背后的公司有10W+的音乐版权内容,音效更是数不胜数;
所以不用担心版权问题,生成一些背景音乐,BGM上也是挺有可玩性的。
使用起来也很简单,通过输入你想要的提示词,然后选择音乐风格,要生成的音乐时长;接下来就等着音乐制作好就行。

  • aiva是一个使用人工智能生成原创音乐的音乐创作平台。它由一支由音乐专业人士和人工智能专家组成的团队于 2016 年创立。提供多种功能,使其成为音乐创作者强大的工具。
  • Google MusicLMGoogle MusicLM 是一个由 Google AI 开发的人工智能音乐生成工具。它使用一种名为“Transformer”的深度学习模型,该模型可以学习大量音乐数据中的模式和规律。然后,该模型可以使用这些知识生成新的音乐。Google MusicLM 目前仍在开发中,但已经用于生成各种目的的音乐,包括:
    • 电影和电视: Google MusicLM 的音乐已用于电影、电视节目和广告。
    • 视频游戏: Google MusicLM 的音乐已用于视频游戏。
    • 品牌和营销: Google MusicLM 的音乐已用于品牌和营销目的。
  • Flowful这个产品的核心优势,就是在于它生成的音乐都是保证独一无二的;永远不会重复;如果是要找一些简单的音乐和节奏的话,直接通过它给的风格和关键词,立即生成;使用起来的时候也很快速;Flowful 的使用方法很简单。只需在平台上输入一些提示,例如音乐的流派、情绪、场景或主题,Flowful 就会生成一首原创音乐。

下面的这几个都是免费AI生成音乐的产品,使用起来都很简单,不需要复杂的学习成本;

这里就不再过多介绍了;后面有机会在展开讲讲每个产品的特点

  • https://www.tracksy.ai/
  • https://waveformer.replicate.dev/
  • https://www.beatoven.ai/
  • OpenAi MuseNet (还未更新)期待的产品,目前还是老版本没有更新,使用的模型甚至还是GPT2.0可以使用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村音乐到莫扎特再到披头士乐队的风格。MuseNet 并未根据我们对音乐的理解进行明确编程,而是通过学习预测数十万个 MIDI 文件中的下一个标记来发现和声、节奏和风格的模式。期待2024年能看到OpenAI在这块的发力。

9、国内大厂产品(music)

  • SoundfulSoundful是在阿里云上的一款基于人工智能的AI音乐生成器。它可以生成各种音乐流派和风格的音乐,包括流行、摇滚、古典、电子、民谣等。Soundful还可以生成不同情绪、场景和主题的音乐。
  • Ripple由字节跳动开发的一个AI音乐创作工具。它可以根据用户的声音、风格和情感,自动生成匹配的伴奏和歌词。Ripple还支持用户修改音乐的节奏、曲调、风格和效果。
  • X Studio由网易云音乐和小冰公司联合推出的一个AI歌手音乐创作软件。它可以帮助音乐人轻松创作高质量的AI新时代音乐作品。

废话不多说,直接上干货!!

  声音克隆
Voice.aihttps://link.xsolla.com/fRHgFADK
11Labshttps://elevenlabs.io/
Coqui TTShttps://huggingface.co/spaces/coqui/xtts
文字生成歌词+唱歌
http://Suno.aihttp://suno.ai/
spliticAI on Discordhttps://discord.com/application-directory/1137344214334709761
BeatBothttps://pro.splashmusic.com/
音乐生成
Stable Audiohttps://www.stableaudio.com/
aivahttp://creators.aiva.ai/
Google MusicLMhttps://aitestkitchen.withgoogle.com/experiments/music-lm
Flowfulhttps://www.flowful.app/player
tracksy.aihttps://www.tracksy.ai/
replicate.devhttps://www.beatoven.ai/
beatoven.aihttps://www.beatoven.ai/
OpenAi MuseNethttps://openai.com/research/musenet
国内大厂产品
Soundfulhttps://soundful.com/
RippleAPP下载
X Studiohttps://xstudio.music.163.com/

Nature重磅:17天独自创造41种新材料,AI再次赢了人类

只用了 17 天,人工智能(AI)便独自创造了 41 种新材料,每天超过两种。

相比之下,人类科学家可能需要几个月的尝试和实验,才能创造出一种新材料。

今天,这个名为 A-Lab 的 AI 实验室,登上了权威科学期刊 Nature。

据介绍,A-Lab 是一个由 AI 指导机器人制造新材料的实验室,能够在最少的人为干预下迅速发现新材料,其可以帮助确定和快速跟踪多个研究领域的材料,包括电池、储能、太阳能电池、燃料电池等

值得一提的是,在一次测试任务中,A-Lab 成功合成了 58 种预测材料中的 41 种,成功率达到了 71%。

这些测试数据来自伯克利实验室开放获取数据库 Materials Project 和由 Google DeepMind 开发的 Graph Networks for Materials Exploration(GNoME)深度学习工具。

同样在今天,Google DeepMind 的 GNoME 也登上了 Nature,其为 Materials Project 贡献了近 40 万种新化合物,是自该项目成立以来,由一个团队添加的最大一次新增结构稳定性数据,大大增加了科学家用于为未来技术发明新材料的开放存取资源。

伯克利实验室 Materials Project 创始人兼主任、加州大学伯克利分校教授 Kristin Persson 表示,“要解决全球环境和气候挑战,我们必须创造新材料。借助材料创新,我们可以开发可回收塑料、利用废弃能源、制造更好的电池,并构建更便宜、寿命更长的太阳能电池板等。”

有了AI,制造、测试新材料更快了

新技术的发展往往需要新材料。然而,制造一个材料并非易事。

科学家们已经通过计算预测了数十万种新型材料,但测试这些材料是否能在现实中制造出来是一个缓慢的过程。一个材料从计算到商业化需要很长时间。它必须具有合适的属性,能够在设备中工作,能够扩展,且具有合适的成本效率和性能。

如今,借助超级计算机和模拟技术,研究人员不再需要靠盲目的尝试从零开始创造材料。

在此次工作中,Google DeepMind 团队使用 Materials Project 十多年来开发的工作流程和数据对 GNoME 进行了训练,并通过主动学习改进了 GNoME 算法。

最终,GNoME 产生了 220 万种晶体结构,其中有 38 万种被纳入 Materials Project 中,且被预测为是稳定的。这些数据包括材料原子的排列方式(晶体结构)和稳定性(形成能)。

图|化合物 Ba₆Nb₇O₂₁ 是 GNoME 计算出的新材料之一,包含钡(蓝色)、铌(白色)和氧(绿色)。

据论文描述,GNoME 已将结构稳定预测的精确性提高到 80% 以上,在预测成分时每 100 次试验的精确度提高到 33%(相比之下,此前工作中该数字仅为 1%)

Google DeepMind 材料发现团队负责人 Ekin Dogus Cubuk 表示:“我们希望 GNoME 项目能够推动无机晶体研究的发展。外部研究人员已经通过独立的物理实验验证了 GNoME 发现的 736 多种新材料,证明了我们模型的发现可以在实验室中实现。”

然而,研究团队在论文中也指出,在实际应用中,GNoME 仍存在一些开放性问题,其中包括由竞争多形体引发的相变、振动轮廓和构型熵引起的动态稳定性,以及对最终合成能力的更深入理解。

为了制造 Materials Project 预测的新化合物,A-Lab 的 AI 通过研究科学论文并使用主动学习进行调整,创造出了新的配方。

伯克利实验室和加州大学伯克利分校科学家、A-Lab 首席研究员 Gerd Ceder 说:“我们的成功率达到了惊人的 71%,而且我们已经找到了一些改进方法。我们已经证明,将理论和数据与自动化相结合,会产生令人难以置信的结果。我们可以比以往任何时候都更快地制造和测试材料。”

据介绍,对决策算法做一些小改动,这一成功率还可提高到 74%,如果计算技术得到改进,还能将成功率进一步提高到 78%。

Persson 说:“我们不仅要让我们产生的数据免费并可用于加速全球的材料设计,而且还要向世界传授计算机可以为人们做些什么。它们可以比单独的实验更高效、更快地扫描大范围的新化合物和属性。”

有了 A-Lab 和 GNoME 等的帮助,科学家可以专注于未来技术中有前景的材料,比如提高汽车燃油经济性的更轻合金、提高可再生能源效率的更高效太阳能电池,或者是下一代计算机中更快的晶体管。

已显示出应用潜力

目前,Materials Project 正在处理更多 Google DeepMind 的化合物,并将其添加到在线数据库中。这些新数据将免费提供给研究人员,且也会输入到诸如 A-Lab 这样与 Materials Project 合作的项目中。

过去十年中,研究人员根据 Materials Project 数据中的线索,在多个领域通过实验证实了新材料的有用性。其中一些已显示出应用潜力,例如:

  • 在碳捕获中(从大气中提取二氧化碳)
  • 作为光催化剂(在光的作用下加速化学反应的材料,可用于分解污染物或产生氢气)
  • 作为热电材料(有助于利用废热并将其转化为电能的材料)
  • 作为透明导体(可用于太阳能电池、触摸屏或 LED)

当然,找到这些潜在材料只是解决人类面临的一些重大技术挑战的众多步骤之一。

除了以上两项研究,近年来,AI 在新材料发现、合成方面,取得了诸多突破。

2020 年,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。

同年,来自北卡罗莱纳州立大学和布法罗大学的研究人员开发了一项名为“人工化学家”的技术,该技术结合了 AI 和执行化学反应的自动化系统,以加速研发和生产商业所需的新化学材料。

2022 年,美国加州大学圣地亚哥分校工程学院的纳米工程师开发了一种 AI 算法——M3GNet,该算法几乎可以即时地预测任何材料(无论是现有材料还是新材料)的结构和动态特性。研究人员可使用其来寻找更安全、能量密度更高的可充电锂离子电池电极和电解质。

今年 3 月,发表在 Nature Synthesis 上的一项研究设想了一种由组合合成和 AI 技术共同发展推动的加速材料科学的未来。为了评估合成技术对特定实验工作流的适用性,研究人员建立了一套涵盖合成速度、可扩展性、范围和合成质量的十项度量标准,并在这些度量标准的背景下总结了一些选择性的组合合成技术。

作为高新技术的基础和先导,新材料应用范围极其广泛,它同信息技术、生物技术一起成为 21 世纪最重要和最具发展潜力的领域。

未来,随着 AI 等技术的突破性发展,科学家将有望聚焦在未来技术中更具前景的材料上,如提高汽车燃油经济性的更轻的合金、促进可再生能源发展的更高效的太阳能电池,以及在下一代计算机中发挥作用的更快的晶体管等。

【民生计算机】ChatGPT一周年:AI盛宴才刚刚开始

1.1 ChatGPT发布一周年

2023年11月30日,ChatGPT上线一周年。ChatGPT 是互联网史上最快获得1亿用户的产品,OpenAI也是资本市场有史以来估值提升速度最快的企业之一。谁也无法否认,世界已经因为AI深刻改变。作为在ChatGPT发布后迅速提出其重要意义的团队,我们持续保持对AI产业投资趋势的敏锐预判与深度研究:(1) 在ChatGPT发布初期国内资本市场默默无名时,我们在2023年1月率先发布重磅深度《ChatGPT:AI时代资本定价标杆性事件》,率先提出ChatGPT本质是AI通用工程化拐点,因而资本市场的普遍感知与大规模商业化将会无比迅速。
2023年1月29日,年后开市前夕,我们在市场率先提出AI或是新年预期差最大的计算机投资主线。在年后几周AI大模型相关公司大幅领涨市场之后,我们又对AI成为计算机新主线做出明确预判:后续最大投资机会应该从提供类ChatGPT技术到使用ChatGPT带来业务逻辑质变重估的思路转变,重点提出金山办公、同花顺的重估逻辑。

我们先后提出AI三大产业投资逻辑,在市场得到持续验证。

第一,AI现阶段有望复制2010-2012年移动互联网基础设施供给侧(智能手机产业链)迈向 2013-2015年应用需求侧的路径,GPT的“AppStore”时刻已经来临,AI迎来从供给到需求的拐点;

第二,在本次AI浪潮中,首次由软件定义产业趋势,而我们正迎来软件生态快速落地的阶段,带来大模型重构终端硬件的拐点已经来临,AI PC、AI pin等AI驱动终端硬件创新层出不穷;

第三,算力永不眠,昇腾有望成为国产算力扛旗者,昇腾AI一体机作为国内AI软硬件技术的黄金交点,有望形成全新主线。

1.2 AI盛宴才刚刚开始:算力国产化、终端重构与多模态AI应用是新三大方向

近期重要的AI动向:第一,英伟达黄仁勋宣称AI可能在5年内超越人类智能;第二,由Llama创始团队全新打造的Mistral AI已经实现7B的参数规模大小,全面适配终端。

根据mistral.ai官网,在2023年9月27日,Mistral AI 团队发布Mistral 7B

Mistral 7B 是一个 7.3B 参数模型:

在所有基准测试中优于 Llama 2 13B

在许多基准测试中优于 Llama 1 34B

接近 CodeLlama 7B 的代码性能,同时在代码之外在英语任务上表现良好

使用分组查询注意力 (GQA) 加快推理速度

使用滑动窗口注意力 (SWA) 以更低的成本处理更长的序列

Mistral 7B 易于对任何任务进行微调。作为演示,Mistral AI 团队提供了一个针对聊天进行微调的模型,其性能优于 Llama 2 13B 聊天。

Mistral AI 团队将Mistral 7B 与 Llama 2 系列进行了比较,对于所有模型的所有指标,都使用Mistral AI 团队的评估流程进行了重新评估,以便进行准确比较。Mistral 7B 在所有指标上都明显优于 Llama 2 13B,与 Llama 34B 相当(由于 Llama 2 34B 未发布,Mistral AI 团队报告了 Llama 34B 的结果)。它在代码和推理基准方面也非常出色。

基准测试按其主题分类:常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge和CommonsenseQA的0-shot。世界知识:NaturalQuestions和TriviaQA的5-shot。阅读理解:BoolQ和QuAC的0-shot。数学:8-shot GSM8K with maj@8和4-shot MATH with maj@4代码:Humaneval的0-shot和3-shot MBPP热门汇总结果:5-shot MMLU,3-shot BBH以及3-5-shot AGI Eval(仅包含英语多项选择问题)

比较模型在成本/性能平面上的表现的一个有趣的指标是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于Llama 2,其大小是其3倍以上。这意味着Mistral 7B在内存节省和吞吐量增加方面具有巨大的优势。
Mistral 7B和Llama 2(7B/13/70B)在MMLU、常识推理、世界知识和阅读理解方面的结果显示:Mistral 7B在所有评估中大部分都优于Llama 2 13B,只有在知识基准测试中表现相当(这可能是由于其有限的参数数量,限制了它可以压缩的知识量)。

AI Pin+Rewind Pendant等AI终端发布。
(1) AI Pin根据Humane公司官网,Humane 正式推出其首款 AI 硬件 —— AI-Pin,一款没有屏幕的 699 美元可穿戴智能通信设备,每月订阅费为 24 美元,运行在 T-Mobile 网络上,并可以访问微软和 OpenAI 的 AI 模型,并在 11 月 16 日优先在美国市场开启订购。

2)Rewind Pendant根据Rewind AI官网,Rewind Pendant是一款可穿戴设备,它可以捕捉使用者在现实世界中所说和所听到的内容,然后将其转录、加密,并完全存储在使用者的手机上。同时,Rewind Pendant将注重隐私优先,以确保没有人在未经他们同意的情况下被记录。

重大变革下,带来算力国产化与一体机、AI终端变革与AI应用三大新机会方向:

1. 基础算力国产化与一体机。当前昇腾一体机主要商业模式是软件厂商将通用或垂类大模型部署在昇腾一体机并结合自身业务打包出售,在英伟达禁令持续发酵的背景,稀缺性持续上升。昇腾一体机专注于大模型本地化部署的蓝海市场,是国内AI软硬件技术的黄金交点,以国产算力领军者华为昇腾AI基础软硬件平台为基础,联合国内领先AI厂商打造的先进生产力工具,有着数据安全可控、开箱即用的特点,AI大模型在数据安全与数据要素驱动下,带来央国企与政府大模型本地化部署的刚需。

表1:国内重点昇腾一体机发布时间轴

2. 从AI PC到AI pin的AI终端变革。本次由大模型带来的AI浪潮中,首次以软件先行定义一切基础。而在催生算力硬件等基础设施完善之后,开始逐步进入各个终端,各个终端开始重构和适应大模型放置在终端硬件上。

图14:联想AI PC应用方式 

3. AI应用:海外率先落地,国内有望复制规模商业化的大模型应用。海外在大模型成熟赋能下,已形成AI大模型-AI应用-商业模式落地的闭环。从GPTs发布不到一个月内,即超过Apple store上线一年的应用数量,正加速迈入应用井喷阶段;同时,多模态模型的不断进化打开文生视频等新领域;在国内大模型基本具备或接近GPT3.5的水平,海外成功落地的模式已为国内AI应用的发展明确后续的清晰路径。

海内外AI变革迹象不断,从芯片到终端再到AI应用,各大巨头及前沿科技团队纷纷加大投入,开启真正的“AI盛宴”。建议重点关注基础算力国产化与一体机、AI终端变革与AI应用带来的投资机遇:
1. 在英伟达新一轮的明确禁令后,芯片国产化是当前重中之重,同时结合数据隐私及大模型本地化部署的需求持续高涨,建议关注芯片基础算力国产化与一体机相关标的:华为昇腾一体机:科大讯飞、云从科技、软通动力、恒为科技、安恒信息;国产核心算力:寒武纪、浪潮信息、海光信息、超讯通信、汇纳科技
2. 从AI PC到AI pin的AI终端变革:大模型重构有望从AI PC开始共振,逐步延伸至汽车、手机与机器人等各类终端,或将迎来全面一轮的AI终端硬件创新潮,建议关注充分布局AI终端相关标的:中科创达、萤石网络、漫步者等。
3.海外在大模型持续赋能下,已明确其商业化规模落地的成功之路。国内在各大模型基本具备GPT3.5水平能力下,以及政策的持续推动,AI应用有望复制海外的成功路径,建议关注相关AI应用标的:效率办公-金山办公、AI司法-金桥信息、GPTs分发渠道-梦网科技、AI空间计算-超图软件、AIGC创作-万兴科技、超讯通信、教育-佳发教育、邮箱-彩讯股份、社交-掌阅科技等。

通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!

今天,通义千问再次重磅开源!

阿里云开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B 及 音频大模型Qwen-Audio,魔搭社区已首发上线!本次开源的模型中除预训练模型外,还同步推出了对应的对话模型,面向72B、1.8B对话模型提供了4bit/8bit 量化版模型,便于开发者们推理训练。

目前,魔搭社区提供一站式体验、下载、推理、微调、部署服务及教程,欢迎开发者小伙伴们体验!模型效果体验

通义千问团队对Qwen-72B的指令遵循、工具使用等技能作了技术优化,使Qwen-72B能够更好地被下游应用集成,比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制自己的AI助手,要求大模型扮演某个角色,或者执行特定的回复任务。

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo

通义千问音频大模型效果体验:

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-Audio-Chat-Demo

通义千问1.8B模型效果体验:

创空间体验链接:

https://www.modelscope.cn/studios/qwen/Qwen-1_8B-Chat-Demo

模型链接:

通义千问-72B-预训练:

https://modelscope.cn/models/qwen/Qwen-72B

通义千问-72B-Chat:

https://modelscope.cn/models/qwen/Qwen-72B-Chat

通义千问-72B-Chat-Int8:https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int8

大模型下载

通义千问-72B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int4

通义千问-1.8B-预训练:

https://modelscope.cn/models/qwen/Qwen-1_8B

通义千问-1.8B-Chat:

https://modelscope.cn/models/qwen/Qwen-1_8B-Chat

通义千问-1_8B-Chat-Int8:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int8

通义千问-1_8B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int4

通义千问-Audio-预训练:

https://modelscope.cn/models/qwen/Qwen-Audio

通义千问-Audio-Chat:

https://modelscope.cn/models/qwen/Qwen-Audio-Chat

模型下载(以通义千问-72B-Chat-Int4为例):

from modelscope import snapshot_downloadmodel_dir = snapshot_download("qwen/Qwen-72B-Chat-Int4")

模型推理 以通义千问-72B-Chat-Int4、通义千问-1_8B-Chat-Int4和通义千问-Audio-Chat为例:

通义千问-72B-Chat-Int4推理代码:

资源消耗:

微调代码开源地址:

https://github.com/modelscope/swift/tree/main/examples/pytorch/llm

微调环境准备

Qwen-72B-Chat-Int4为例:qlora+ddp+deepspeed

脚本地址:https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/qwen_72b_chat_int4/qlora_ddp_ds

AI模型,谁是盈利最强企业?

企业盈利能力是指企业获取利润的能力,通常表现为一定时期内企业收益数额的多少及其水平的高低。盈利能力的分析,就是对公司利润率的深层次分析。本文为企业价值系列之【盈利能力】篇,共选取48家AI模型企业作为研究样本,并以净资产收益率、毛利率、净利率等为评价指标。数据基于历史,不代表未来趋势;仅供静态分析,不构成投资建议。

AI模型盈利能力前十企业:第10 拓维信息盈利能力:净资产收益率-9.61%,毛利率32.40%,净利率-12.53%主营产品:软件云服务为最主要收入来源,收入占比49.29%,毛利率33.37%公司亮点:拓维信息基于软件能力及自研的AI中台优势,探索基于盘古大模型的AI行业应用创新,实现在AI领域“算力+模型+平台+应用”的整体布局。第9 中科创达盈利能力:净资产收益率13.64%,毛利率40.97%,净利率15.23%主营产品:软件开发为最主要收入来源,收入占比41.52%,毛利率43.15%公司亮点:中科创达魔方Rubik大模型,和既有的产品、业务都在密切融合,并已经在智能助理、边缘AI中得以应用。第8 东土科技盈利能力:净资产收益率-22.73%,毛利率34.89%,净利率-56.97%主营产品:工业网络通信为最主要收入来源,收入占比64.78%,毛利率36.16%公司亮点:东土科技间接参股企业一流科技,旗下拥有OneFlow深度学习框架、MLOps最佳实践OneBrain、AI实训平台Onelab、OF智能云四大产品。第7 捷顺科技盈利能力:净资产收益率5.14%,毛利率44.20%,净利率8.15%主营产品:智能停车场管理系统为最主要收入来源,收入占比47.30%,毛利率36.46%公司亮点:捷顺科技控股子公司顺易通与“盘古”大模型研发企业之一的循环智能达成战略合作,系盘古2.0首个应用。第6 浪潮信息盈利能力:净资产收益率12.84%,毛利率11.44%,净利率2.79%主营产品:服务器及部件为最主要收入来源,收入占比98.80%,毛利率11.30%公司亮点:浪潮信息发布的巨量模型“源1.0”的4个技能大模型,分别为对话、问答、翻译和古文,在各自的细分领域精度业界领先。第5 中文在线盈利能力:净资产收益率-5.32%,毛利率61.14%,净利率-4.10%主营产品:文化业务为最主要收入来源,收入占比98.76%,毛利率45.55%公司亮点:中文在线发布全球首个万字创作大模型“中文逍遥”。第4 万兴科技盈利能力:净资产收益率7.94%,毛利率95.27%,净利率7.98%主营产品:视频创意类为最主要收入来源,收入占比63.56%,毛利率95.29%公司亮点:万兴科技配置了AI服务器机房,部署了AI数据服务器和AI训练服务器,可充分应对AI算法下海量资源的训练及大数据处理。第3 神州数码盈利能力:净资产收益率11.02%,毛利率3.72%,净利率0.59%主营产品:消费电子业务为最主要收入来源,收入占比65.31%,毛利率2.16%公司亮点:基于数据+AI,神州数码推出Jarvis人工智能知识平台,以云原生技术、独特的数据算法和AI训练模型,轻松构建知识生产者和知识消费者间的桥梁。第2 恒生电子盈利能力:净资产收益率26.35%,毛利率74.55%,净利率25.67%主营产品:软件收入为最主要收入来源,收入占比99.19%,毛利率72.12%公司亮点:恒生电子发布金融行业大模型LightGPT, LightGPT使用超4000亿tokens的金融领域数据和超过400亿tokens的语种强化数据。第1 传音控股盈利能力:净资产收益率25.96%,毛利率22.79%,净利率6.77%主营产品:手机为最主要收入来源,收入占比91.25%,毛利率20.61%公司亮点:传音控股在研项目智慧云平台拟达到目标为提高三方服务快速接入和智慧分发能力,完成端侧AI相关的MLOps平台服务建设。

AI模型盈利能力前十企业,近三年净资产收益率、毛利率、净利率:

Meta AI 推出“无缝”翻译器,通用语音翻译器从科幻小说概念转变为现实

Meta AI 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流——从根本上使通用语音翻译的概念成为现实。这些模型于本周与研究论文和随附数据一起公开发布。

这款名为 Seamless 的旗舰模型将其他三个模型(SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2)的功能合并到一个统一的系统中。根据该研究论文,Seamless是“第一个公开可用的系统,可以实时解锁富有表现力的跨语言交流。

Seamless 如何作为通用实时翻译器


无缝翻译器代表了使用 AI 进行博客交流的新领域。它结合了三个复杂的神经网络模,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。

SeamlessExpressive 专注于在语言之间翻译时保留说话者声音的声乐风格和情感细微差别。正如论文中所描述的,“翻译应该捕捉到人类表达的细微差别。虽然现有的翻译工具擅长捕捉对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来输出。

SeamlessStreaming 可实现近乎实时的翻译,延迟仅为约 2 秒。研究人员表示,这是“第一个大规模多语言模型”,可以在近100种口语和书面语言中提供如此快的翻译速度。

第三个模型 SeamlessM4T v2 是其他两个模型的基础。它是去年发布的原始SeamlessM4T型号的升级版。据该论文称,新架构提供了“改进的文本和语音输出之间的一致性”。

“总而言之,Seamless让我们看到了将通用语音翻译器从科幻小说概念转变为现实世界技术所需的技术基础,”研究人员写道。

改变全球通信的潜力

这些模型的功能可以实现新的基于语音的通信体验,从使用智能眼镜的实时多语言对话到自动配音的视频和播客。研究人员认为,它还可以帮助打破移民和其他沟通困难者的语言障碍。

“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”该论文指出。


然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪和其他有害应用。为了促进模型的安全性和负责任的使用,他们实施了多项措施,包括音频水印和减少幻觉有毒输出的新技术。


Hugging Face上公开发布的模型

为了履行 Meta 对开放研究和合作的承诺,无缝通信模型已在 Hugging Face 和 Github 上公开发布。

该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。

通过免费提供这些最先进的自然语言处理模型,Meta 希望使其他研究人员和开发人员能够建立和扩展这项工作,以帮助将不同语言和文化的人们联系起来。该版本突显了 Meta 在开源 AI 领域的领导地位,并为研究界提供了宝贵的新资源。

“总的来说,无缝可能产生的多维体验可能会导致机器辅助跨语言交流方式的逐步变化,”研究人员总结道。

AutoStory:与大模型一起编写童话故事,成为下一个故事大王

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

小时候是否有很多奇思妙想,想通过绘画表现出来,但是又苦于自己的绘画功底太差,无法有效的表达?现在,通过AutoStory,可以帮你轻松的实现,让每个人都可以成为童话大王。

项目地址:https://aim-uofa.github.io/AutoStory/

论文地址:https://arxiv.org/pdf/2311.11243.pdf

Github地址:https://github.com/aim-uofa/AutoStory

摘要

故事可视化旨在生成与文本描述相匹配的一系列图像,需要生成的图像具有高质量、与文本描述对齐和角色身份的一致性。现有方法通过仅考虑少数特定角色和情境,或要求用户提供每个图像的控制条件(如草图)来大大简化问题。然而,这些简化使这些方法无法胜任实际应用。

本文介绍了一种自动化故事可视化系统,可以生成多样化、高质量、一致性强的故事图像,且需要最少的人工干预。该系统利用大型语言模型的理解和规划能力进行布局规划,然后利用大规模的文本到图像模型生成基于布局的复杂故事图像。作者发现,稀疏控制条件(如边界框)适合布局规划,而密集控制条件(如草图和关键点)适合生成高质量的图像内容。为了兼顾两者的优点,作者设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件,从而提高图像质量并实现易于直观的用户交互。此外,作者还提出了一种简单而有效的方法来生成多视角一致的角色图像,消除了人工收集或绘制角色图像的依赖。实验结果表明,该方法具有优越性。

简介

本文提出了一种全自动、多样化、高质量的故事可视化方法AutoStory,用户只需输入简单的故事描述即可生成高质量的故事图像。同时,该方法还提供了灵活的用户界面,允许用户通过简单的交互来微调故事可视化的结果。该方法的应用前景广阔,可以为艺术创作、儿童教育和文化传承等领域提供丰富的视觉表达。

本文提出了一种全自动的故事可视化流程,可以在最小的用户输入要求下生成多样化、高质量和一致的故事。为了处理故事可视化中的复杂情境,我们利用稀疏控制信号进行布局生成,利用密集控制信号进行高质量图像生成。同时,我们提出了一种简单而有效的密集条件生成模块,将稀疏控制信号自动转换为草图或关键点控制条件。为了保持身份一致性并消除用户为角色绘制或收集图像数据的需求,我们提出了一种简单的方法,从文本中生成多视角一致的图像。此外,我们利用3D先验来提高生成的角色图像的多样性,同时保持身份一致性。这是第一个能够在多样化的角色、场景和风格中生成高质量故事图像的方法,即使用户只输入文本,也能灵活适应各种用户输入。

相关工作

故事可视化

故事可视化是从文本描述中生成一系列视觉一致的图像的任务。现有的方法大多基于GAN,但受限于模型的生成能力,很多方法都是在特定数据集上简化任务,难以泛化到不同的角色和场景。一些新方法采用了VQ-VAE和transformer-based语言模型,或者利用预训练的DALL-E进行改进。其中一些方法还提出了新的任务,如story continuation和autoregressive方法。

大规模预训练文本到图像生成模型的发展为可推广的故事可视化开辟了新的机会。已有多种尝试生成具有多样化角色的故事图像的方法,但存在一些限制。TaleCraft提出了一种系统化的故事可视化流程,但需要用户提供每个角色的草图。相比之下,我们的方法只需要文本描述作为输入即可生成多样化且连贯的故事可视化结果。

可控图像生成

大规模预训练的文本到图像模型可以通过交叉注意力层将文本信息传递到图像的潜在表示中,从而生成图像。稳定扩散是一种大规模预训练的文本到图像模型,可以通过文本提示生成图像。

T2I模型在生成多个角色和复杂场景方面表现不佳,因为受到文本编码器语言理解能力的限制和文本到图像内容关联性差的影响。为了解决这个问题,一些方法引入了显式的空间引导,例如ControlNet、T2I-Adapter和GLIGEN。这些方法通过引入可靠的控制和注入指导特征,使得模型能够更好地利用输入信息。

最近的研究使用大型语言模型(LLMs)进行布局生成,其中LayoutGPT和LLM-grounded Diffusion都取得了不错的效果。然而,LLM-grounded Diffusion需要仔细的超参数调整,而且难以控制生成对象的详细结构。相比之下,本文使用直观的草图或关键点来指导最终图像生成,可以实现高质量的故事图像生成,并允许通过调整生成的草图或关键点条件来进行交互式故事可视化。

自定义图像生成

现有方法在一次性定制化方面表现不佳,需要多个用户提供的图像。为了解决这个问题,提出了一种无需训练的一致性建模方法,并利用3D感知生成模型中的3D先验知识,获得多视角一致的角色图像,从而消除了依赖人工收集或绘制角色图像的需求。同时介绍了多种不同的定制化方法,包括单个对象的定制化、多个对象的定制化、多个定制化权重的融合等。

方法

本文介绍了一种生成多样化故事图像的方法,结合了LLMs和大规模文本到图像模型的能力。该方法包括条件准备阶段和条件图像生成阶段,通过LLMs将文本描述转换为故事图像的布局,使用简单而有效的方法将稀疏边界框转换为密集控制信号,生成具有合理场景布局的故事图像,并提出一种方法,使用户无需收集每个角色的训练数据即可生成一致的故事图像。该方法只需要在少量图像上微调预训练的文本到图像扩散模型,可以轻松地在任意角色、场景甚至风格上利用现有模型进行故事叙述。

从故事到布局的生成

故事预处理。用户输入的文本可以是一个书面的故事𝑆或故事的简单描述𝐷。当只提供一个简单的描述𝐷作为输入时,我们利用LLM来生成特定的故事线,即𝑆= LLM(𝐹𝐷2𝑆,𝐷),如图2 (c)所示。在这里,𝐹𝐷2𝑆是帮助语言模型生成故事的指令。在获得故事𝑆后,我们要求LLM将故事分割为𝐾面板,每个面板对应于一个讲故事的图像,如下所示:

其中𝐹𝑆2𝑃是指导模型从故事生成面板的指令,𝑃𝑖是𝑖- th面板的文本描述。至此,我们已经完成了故事的预处理。

布局生成。在将故事划分为面板描述之后,我们利用LLMs从每个面板描述中提取场景布局,如下面的等式所示:

其中𝐹𝑃2𝐿是指导模型从面板描述生成布局的指令。具体来说,我们在教学中提供了多个场景布局的例子,以通过上下文学习加强LLMs的理解和规划能力。在这个过程中,我们要求LLMs不要使用代词,如“他,她,他们,它”来指代字符,而是指定每个主题的名称。这样,字符引用的模糊性就大大减少了。

在等式(3)中,𝜎𝑖是𝑖-th面板的场景布局,其中global由一个全局提示𝑝𝑖和几个具有相应局部边界框的局部提示组成,即:

其中𝑘𝑖是𝑖-th story图像中的本地提示数。𝑝𝑖local𝑗和𝑏𝑖local𝑗分别是𝑖-th story图像中的𝑗-th本地提示符和边界框。全局提示描述了整个故事图像的全局上下文,而局部提示则专注于单个对象的细节。这种设计通过将故事图像生成的复杂性解耦为多个简单任务,帮助我们极大地提高了图像生成的质量。

密集条件生成

动机。尽管使用稀疏边界框作为控制信号可以改善主题的生成并获得更合理的场景布局,但不能始终产生高质量的生成结果。在某些情况下,图像与场景布局不完全匹配,或者生成的图像质量不高。

我们认为这主要是由于边界框提供的信息有限。模型面临着在指导有限的情况下一次性生成大量内容的困难。为此,本文建议通过引入密集的草图或关键点指导来改进最终的故事图像生成。基于上一节生成的布局,设计了一个密集条件生成模块,如图2(d)所示。

主题生成。为了在不引入人工干预的情况下,将布局的稀疏边界框表示转化为密集的草图控制条件,首先根据local prompts,逐个生成布局中的单个对象。由于单对象生成的提示很简单,生成过程相对容易。因此,我们能够获得高质量的单目标生成结果。

提取每个主题的密集条件。在获得单个物体的生成结果后,我们使用openvocabulary目标检测方法Grouning-DINO对本地提示描述的物体进行定位,并获得定位框𝑏𝑖𝑑𝑗𝑒𝑡。然后,我们使用SAM 获得对象的分割掩码𝑚𝑖𝑗,𝑏𝑖𝑑𝑗𝑒𝑡是SAM的提示。随后,在T2I-Adapter之后,我们使用PidiNet 来获得掩模的外部边缘,它可以用作可控图像生成的密集草图。对于人体角色,我们也可以使用HRNet来获得人体姿态关键点作为密集条件。值得注意的是,生成的密集控制信号易于理解和操纵。因此,如果需要,用户可以很容易地手动调整生成的草图或关键点,以更好地与他们的意图保持一致。

构成稠密条件。最后,将得到的单个物体的密集控制条件粘贴到布局中对应的边界框区域,从而得到整个图像的密集控制条件,记为𝐶𝑖。一个潜在的问题是,由LLM生成的定位框的大小𝑏𝑖𝑗与groundin – dino方法检测到的定位框的大小𝑏𝑖𝑑𝑗𝑒𝑡不完全相同。为了解决这个问题,我们将𝑏𝑖𝑑𝑗𝑒𝑡内的密集控制条件缩放到𝑏𝑖𝑗的大小,以保持场景的全局布局不变。这个过程可以写成:

请注意,组合密集条件的过程是全自动的,不需要任何人工交互。

可控讲故事图像生成

受限于模型中文编码器的语言理解能力,以及生成过程中文和图像区域之间不正确的关联,直接生成的图像往往会出现对象缺失、归属混淆等一系列问题。为解决这个问题,引入了额外的控制信号,以提高图像生成的质量。

稀疏布局控制。在上文中,我们使用LLMs来获得故事图像的整体布局。本文生成故事图像的详细内容,遵循场景布局的指导。我们选择使用简单有效的区域样本方法,我们强制每个框内的图像潜在特征聚焦于相应的局部目标。因此,生成的图像确认了布局,也避免了对象之间的属性混淆。

密度控制。为了进一步提高图像质量,我们引入了上文中生成的密集条件来指导图像生成过程。具体来说,我们使用轻量级的T2I-Adapter来注入密集的控制信号。条件生成过程可以表示为:

其中𝐶𝑖是𝑖-th故事图像的密集条件,𝐴是用于密集控制的T2I-Adapter模型。我们的密集条件是自动生成的,从而消除了手工绘制草图的繁琐过程。

身份保护。角色身份的保留对于获得视觉上愉悦的故事可视化效果起着重要的作用。我们通过借鉴Mix-of-Show的思想来实现这一点,给定一个受试者的几张图像,对每个受试者的轻量级ED-LoRA权重进行微调,以捕捉详细的受试者特征。然后,应用梯度融合为单个角色合并多个ed – lora,以保证故事中所有角色的身份。融合后的LoRA权重记为Δ𝑊,最终的生成过程为:

消除按字符收集的数据

字符数据的要求。为了训练一个故事中角色的定制模型,我们需要几个角色的图像来进行模型微调。现有的故事可视化方法依赖于用户捕获的图像甚至数据集来训练定制的角色模型。为了消除繁琐的数据收集和自动化故事可视化,提出一种简单有效的方法来自动生成所需的训练数据。为了获得有效的单个字符定制模型,训练数据需要满足:(1)身份一致性,训练图像中字符的结构和纹理应该是一致的;(2)多样性,训练数据应该有所不同,例如视角不同,以避免模型过拟合。

标识的一致性。本文提出一种无需训练的一致性建模方法,以满足身份一致性的要求,如图3 (d)所示。将单个字符的多个图像视为视频中的不同帧,并使用预训练的扩散模型同时生成它们。在此过程中,生成模型中的自注意力被扩展到其他“视频帧”来加强图像之间的依赖关系,从而获得身份一致的生成结果。具体来说,在自注意力机制中,我们让每一帧中的潜在特征关注第一帧和前一帧的特征,以建立依赖关系。这个过程表示为:

其中𝑧𝑖是当前帧的潜在特征,𝑧0和𝑧𝑖−1分别是第一帧和前一帧的潜在特征。这里,[·,·]是拼接操作。

多样性。虽然上述方法可以保证所获得图像的身份一致性,但对于训练自定义模型而言,多样性还不够。为此,在不同的帧中注入不同的条件来增强生成的字符图像的多样性。为了获得这些不同但身份一致的条件,我们首先通过𝐼𝑖𝑐𝑜𝑛𝑑= DM(𝑝𝑖𝑠𝑢𝑏)生成单个图像,其中𝑝𝑖𝑠𝑢𝑏是由LLM生成的字符的描述。然后,我们使用预训练的视点条件图像平移模型来获取不同视点下的字符图像,如图3 (a)所示。最后,我们提取这些图像的草图或关键点作为控制条件。

然后,从这些图像中提取非人类角色的草图和人类角色的关键点。最后,在生成过程中使用T2I-Adapter将控制引导注入到对应帧的潜在特征中。

此外,为了进一步保证生成数据的质量,我们使用CLIP score对生成数据进行筛选,选择与文本描述一致的图像作为训练数据进行定制生成。

讨论。我们将提出的免训练身份一致性建模方法与视点条件图像翻译模型相结合,以实现角色生成中的身份一致性和多样性。一种更简单的方法是直接使用视点条件图像平移模型中的多视点图像作为自定义训练数据。然而,我们发现,直接生成的结果往往会产生失真,或者从不同的视角来看,图像的颜色和纹理有很大的差异。因此,我们需要利用上述一致性建模方法为每个字符获取纹理和结构一致的图像。

实验

实现细节

使用了GPT-4作为LLM,Stable Diffusion进行文本到图像生成,T2I-Adapter进行密集控制。其中,只有多主题定制过程需要训练,其他部分都是无需训练的。多主题定制模型的训练需要20分钟的ED-LoRA训练和1小时的梯度融合。整个流程可以在几分钟内生成大量结果。

结果

AutoStory可以根据用户输入的文本和图像生成高质量、一致性强的故事图像。该方法可以根据用户输入的文本和图像生成灵活多样的角色姿势和场景,同时还能有效地生成故事中提到的小物品。即使只有文本输入,该方法仍然可以生成高质量的故事可视化结果,而且角色身份高度一致。

与现有方法比较

比较方法。现有的故事可视化方法大多是针对数据集上的特定角色、场景和风格而设计的,无法应用于一般的故事可视化。为此,我们在这里主要比较可以归纳的方法,包括:TaleCraft、Custom Diffusion、paint-by-example、Make-A-Story。

质量比较。为了与现有的故事可视化方法进行正面对比,我们采用TaleCraft和Make-A-Story中的故事,如图5和图6所示。如图5所示,paint-by-example努力保持角色的身份。生成的图像中的女孩与用户提供的女孩图像有很大的不同。尽管Custom Diffusion在身份保持方面的表现稍好,但它有时会生成具有明显伪影的图像,例如第二张和第三张图像中扭曲的猫。TaleCraft取得了更好的图像质量,但仍然存在某些伪影,例如,第三张图像中的猫是扭曲的,第四张图像中女孩的一条腿缺失。AutoStory能够在身份保持、文本对齐和生成质量方面实现优越的性能。

同样,在图6中可以看到,Make-A-Story生成的故事图像质量较低,这主要是因为它是为FlintstonesSV数据集量身定制的,因此内在地受到生成能力的限制。TaleCraft在生成质量方面有显著提高,但与文本的对齐程度有限,例如,第一张图像中丢失的手提箱。由于LLM强大的文本理解和布局规划能力,所提出方法能够得到文本对齐的结果。有趣的是,我们的AutoStory和TaleCraft在图像风格上存在显著差异。我们假设这主要是由用于训练的字符数据的差异引起的。

定量比较。我们考虑两个指标来评估生成的结果:1、文本到图像的相似性,由文本和图像嵌入在CLIP特征空间中的余弦相似性度量;2、图像到图像的相似性,由用于训练的字符图像的平均嵌入与生成的故事图像在CLIP图像空间中的嵌入之间的余弦相似性度量。结果如表1所示。AutoStory在文本到图像的相似性和图像到图像的相似性方面都明显优于现有方法,证明了所提出方法的优越性。

用户研究。对10个故事进行了用户研究,每个故事平均有7个提示。在研究过程中,32名参与者被要求从三个维度对故事可视化结果进行评价:1、文本和图像之间的对齐;2、图像中人物的身份保持;3、生成图像的质量。我们让用户给每组故事图片打分。每种方法的结果如表2所示。可以看出,AutoStory在所有三个指标上都明显优于竞争方法,这表明所提出方法更受用户的青睐。

消融分析

控制信号。实验结果表明,没有控制条件时,模型会生成缺失对象和混合不同对象属性的图像。添加布局控制可以显著减轻概念冲突,但仍存在缺失主体的问题。只添加密集控制条件可以有效地生成所有提到的实体,但角色之间的概念冲突仍然存在。最后,结合布局和密集条件控制可以避免对象遗漏和角色之间的概念冲突,生成高质量的故事图像。

多视角角色生成中的设计问题。通过对比基准方法,发现纯sd无法获得一致性的图像,而temporal-sd可以保持一致性但缺乏多样性,One-2-3-45虽然具有多样性但存在一些缺陷。而我们的方法能够在保持一致性的同时增强多样性,并且通过稳定扩散的图像先验来减轻One-2-3-45生成的图像的缺陷。

总结

AutoStory的主要目标是通过最小的人力投入来创建满足特定用户需求的多样化故事可视化。通过结合LLMs和扩散模型的能力,我们成功获得了文本对齐、身份一致和高质量的故事图像。此外,通过我们精心设计的故事可视化流程和提出的角色数据生成模块,我们的方法简化了生成过程,减轻了用户的负担,有效消除了用户进行繁重数据收集的需求。充分的实验证明,我们的方法在生成故事的质量和保留主题特征方面优于现有方法。此外,我们的优秀结果是在不需要耗时和计算昂贵的大规模训练的情况下实现的,易于推广到不同的角色、场景和风格。在未来的工作中,我们计划加快多概念定制过程,并使我们的AutoStory实时运行。

大模型AI Agent 前沿调研

前言

大模型技术百花齐放,越来越多,同时大模型的落地也在紧锣密鼓的进行着,其中Agent智能体这个概念可谓是火的一滩糊涂。

今天就分享一些Agent相关的前沿研究(仅限基于大模型的AI Agent研究),包括一些论文或者框架,小伙伴可以根据自己的兴趣有选择的看一下~,其中角色扮演也可以看作Agent的一个较为火热的方向(具体的Agent就是一个具体角色),最后在文末从技术的角度整体总结一下agent的核心。

先给两个综述,大家可直接阅读,然后笔者挑一些有意思的总结一下。

温馨提示:全文较长,建议收藏,慢慢啃~

综述

A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

这是一篇关于agents的综述

Autonomous-Agent

github链接:https://github.com/lafmdp/Awesome-Papers-Autonomous-Agent

该git也在不断的收藏一些关于agent的前沿研究。

一些代表性的研究

(1) A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

本文为基于大模型agent的构建设计了一个统一框架并给出了三种学习策略。

具体的该框架由4个模块构成(如上图):配置模块、记忆模块、规划模块和执行模块。配置模块有3种方法来生成配置文件:手工制作法、LLM生成方法、数据集对齐方法;记忆模块分为3个方面:结构、格式和操作;记忆结构包括两种:统一内存(该结构没有短期和长期记忆的区别)和混合内存(有短期和长期记忆的区别);规划模块包括没有反馈的规划和带反馈的规划;动作模块即是最终真真响应的模块。

三种学习策略分别为从例子、人类反馈和环境反馈中学习。

本篇paper很好的抽象规划了整个框架,尤其是4个模块的设计,可以借鉴一下。

(2)Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

论文链接:https://arxiv.org/pdf/2305.10142.pdf

论文中的两个agent分别模拟买卖双方进行一场交易,具体就是利用两个agent来彼此不断互相对话、不断博弈,买方最终目的就是要以尽可能低的价格达成交易,而卖房则相反。其中核心技术看点就是在对话中使用一个中间agent利用cot进行反馈,告诉当前agent如何更好的回复才对自己最有利。

(3)Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

论文地址:https://arxiv.org/pdf/2309.04658.pdf

该篇论文尝试了同时启用很多的agent来互相配合完成一个更复杂的任务,具体的是使用了7个agent来完成一个狼人杀游戏,每个agent都要牢记自己的角色扮演规则。其中核心技术看点就是每个agnet都会提前定义好自己的角色定位,该规则和描述的prompt都是非常详细和具体的,同时更关键的是这些agent之间的复杂交互也即调用逻辑,其中下面就是agent角色的定义:

(4) METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE RAMEWORK

论文链接:https://arxiv.org/pdf/2308.00352.pdf

github: https://github.com/geekan/MetaGPT

metagpt实现了一个多agent的框架,方便大家迅速落地自己的场景,目前github stars已经3w+,官方demo演示了如何自动开发一个代码需求,比如来了一个需求后,它的agent包括产品经理先分析需求,然后开发工程师开发,最后还有code review等等。同时也使用该框架实现了狼人杀。

metagpt核心技术看点就是封装好了很多agent的基础能力比如包括交互通信等等。

(5) CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society

论文链接:https://arxiv.org/pdf/2303.17760.pdf

github: https://github.com/camel-ai/camel

camel提出的也是一种基于角色扮演来模拟多个agent交互的框架。具体的,camel重点研究任务导向的agent,其中一个是AI助手agent,另外一个是AI用户agent。

当camel收到一个具体需求和角色分配后,任务agent先提供详细描述以使这个需求更具体化,然后AI助手agent和AI用户agent会通过多轮对话一起合作来完成指定的任务。其中AI用户agent负责向AI助手agent提供指示并引导对话朝向任务完成方向进行,AI助手agent则理解AI用户agent的指示并提供具体的解决方案。

这里贴一下它的核心的agent prompt

论文中对prompt的每一条为啥要这样写都给出了理由,比如AI助手agent的prompt中有一条是“Always end your solution with: Next request”,这个是和AI用户agent要新一轮的指令,这样可以确保对话自动聊下去,这才是是非常关键的一点!!!是整个机制能自动run起来的关键。

另外作者为了自动获得对话数据,还借助大模型自动生成各种各样“AI助手agent&AI用户agent” 角色pair对,然后再为各个角色pair对生成多个相关话题,有了这些后就可以借助上面的机制进行多轮聊天。

这篇很好的实现完全自动化,无限挖掘;其中起了关键作用的就是上面这些prompt怎么写,论文都给出来了,大家感兴趣的可以去看原论文。

(6) AgentTuning: Enabling Generalized Agent Abilities for LLMs

论文地址:https://arxiv.org/abs/2310.12823

github链接:https://github.com/THUDM/AgentTuning

文中构建了一个包含高质量交互轨迹的微调数据集AgentInstruct,并且将其和通用能力的sft数据混合训练得到AgentLM。

其最大的亮点就是AgentInstruct数据集的构建,其主要依托的数据是来自AgentBench,其包含了6个来自真实世界的智能体任务。在构建好了基本的输入指令后,便以GPT-4作为智能体生成AgentInstruct。

(7) CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS

论文链接: https://arxiv.org/pdf/2311.06772.pdf

github链接: https://chatanything.github.io

本篇论文比较脑洞大,他是给定一张图片比如西瓜,然后会自动生成一个西瓜人agent回你对话。它主要涉及到三块,生成图像、tts以及人物性格生成;其中前两个分别是图像和语音技术这里我们不展开说了,感兴趣的小伙伴可以自己去读一下;人物性格生成这个主要也是借助LLM去自动生成贴切的性格,文章也给出了最核心的prompt:

(8) ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS

论文链接:https://arxiv.org/pdf/2310.00746.pdf

本文构建实现了一套角色扮演的方案,比如扮演孙悟空、哈利波特等等,每个角色都会有自己的说话风格并且都会有自己对应的角色背景,比如孙悟空自己的师傅是唐僧等等,在遇到有关唐僧的问题的时候,要注意结合师徒这个背景来回答。

文章主要的idea就是借助剧本来检索增强回复,同时作者基于llama训练了一个英文角色模型,基于glm训练了一个中文角色模型。

(9) Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots

论文链接:https://arxiv.org/pdf/2310.17976.pdf

本文重点关注角色扮演agent领域,具体是研究如何评估大模型的角色扮演效果

论文中的方法是基于大五人格、MBTI等心理学的人格相关理论,对角色扮演AI进行了人格测试。具体的是提出了一套为角色扮演AI设计的面谈式人格测试框架,基于人格测试量表与角色扮演AI展开开放式问答来进行评估。

(10) AutoGPT、XAgent、LangChain

AutoGPT : https://news.agpt.co

XAgent: https://github.com/OpenBMB/XAgent

LangChain: https://www.langchain.com

类似Metagpt, AutoGPT、XAgent、LangChain都是一些基于大模型开源的agent框架,其中LangChain更是在业界大名鼎鼎。

总结

Agent概念很大,这里如果我们纯从技术角度来看的话(且是依靠大模型的AI Agent),它的核心壁垒在哪里呢?或者说其最值钱的那部分技术是啥呢?

笔者将其归纳为如下两个核心:

  • 拆分问题 & 调用逻辑

需要构思好怎么将当前的任务进行更好的拆分成一个个子任务,以确保这些子任务足够简单、完成的准确率足够高;当这些子任务都确保能被很好的完成,那么最终的任务就能很好的完成了。

所以拆分问题很关键,拆分的粒度如果太粗,子任务难度系数就高,就很容易失败;拆分的粒度如果太西,调用逻辑就很繁琐,整个链路就会很臃肿,所以对需求和业务的理解越深刻,拆解才会越相对合理。

同时拆分的是否合理还会影响另外一个关键问题:后期自研模型的开发。当我们想利用大模型开发Agent的时候,一般来说会先去使用GPT4去试一试(毕竟其目前是大模型的天花板),如果它都完成的不好,那要么自己当前Agent的设计框架需要进一步完善,要么就是这个事目前大模型还真的是很难完成。当GPT4完成的还不错后,出于安全和成本等考虑我们必定是想走自研模型这条路的,做到自主可控,那么我们就可以前期使用GPT4去积累数据,然后用这部分数据去蒸馏训练出自己的大模型。

那么如果你的任务拆分的粒度太细,假设有100个子任务(这里指要最终调用大模型能力),那么如何将这100个任务同时进行大模型训练,平衡住所有任务的能力,这是很难的(每个子任务训练一个大模型也太不现实了),当然如果拆分的粒度太粗,单个子任务本身就很难,那单训练好这个子任务可能都是问题,就更别提要融合所有子任务了;

  • prompt engineering

当我们把当前这个Agent需要完成的任务多步拆解后以及理顺子任务之间的联动调用链路后,那么完成这些子任务就需要调用大模型了(当然有时候是调用一些其他插件比如计算器、搜索引擎等等;即使是调用插件其实上一步也一般是需要调用大模型来分析出要调用哪个插件以及插件需要的参数)。

既然是调用大模型,那么如何写好prompt让大模型完全get到你的需求,这是非常关键的,如果没写好prompt,那么子任务就失败了,整个链路就run不起来。

这块工作也是最繁琐和最需要经验的,要不断的去试进而润色出一个很棒的prompt。甚至笔者觉得在某些场景下,当你要做一个agent项目时,prompt engineering是你第一步要去做的事情,先去试着写几个prompt看看大模型能完成的怎么样?自己感受感受摸个底,这样也才可以有更多灵感看看怎么将任务进行更好的拆解,通过多步调用大模型(也即上面说的第一个核心点)来合作完成。

关注

知乎:https://www.zhihu.com/people/sa-tuo-de-yisheng/postsgithub:
https://github.com/Mryangkaitongcsdn:https://blog.csdn.net/weixin_42001089?spm=1010.2135.3001.5343

来自:算法之美

英伟达黄仁勋:AI将在5年内赶超人类

英伟达首席执行官黄仁勋周三在《纽约时报》的年度 DealBook 峰会上表示,人工智能正在超越人类。

他指出,如果通用人工智能(AGI)被定义为一种计算机,能够以与人类智能相媲美的方式完成测试,那么“在接下来的五年里,显然,人工智能可以完成这些测试”。

黄仁勋回忆了他向 OpenAI 交付“世界上第一台人工智能超级计算机”的情景。当时,作为 OpenAI 联合创始人的埃隆・马斯克(ElonMusk)尚未离开,他在一次会议上听到了黄仁勋对这台设备的介绍。

黄仁勋回忆称:“马斯克听到了我的介绍,他说,‘我也想要一个’,并告诉了我关于 OpenAI 的情况。当天,我向 OpenAI 交付了世界上第一台人工智能超级计算机。”

谈到最近围绕 OpenAI 的董事会重组以及首席执行官萨姆・阿尔特曼(SamAltman)先被解雇、随后又复职的混乱局面,黄仁勋表示,他希望事情能尽快平静下来。

黄仁勋说:“我很高兴他们达成了一致,我也希望他们达成一致,这是一支非常伟大的团队。这也让人想起公司治理的重要性。英伟达在成立 30 年后走到今天,我们经历了很多逆境。如果我们没有正确地建立公司,谁知道会发生什么。”

黄仁勋预测,人工智能领域的竞争将导致现成的人工智能工具大量出现,不同行业的公司将根据自己的需求进行调整,从芯片设计和软件开发到药物发现和放射学等。

首个AI智慧交通信号灯在新区试运行

近日,全国首个AI智慧交通信号灯集群控制系统在兰州新区投入试运行。

该系统充分利用人工智能、视觉识别、边缘计算等先进技术手段,根据城市整体交通状况自动调节红绿灯,实现多路口交通信号灯的动态调度,有效解决城市交通拥堵难题,提升城市交通通行效率。智慧交通信号灯集群系统对四个路口的实际交通情况进行态势感知预测,对交通信号灯进行智慧指挥、动态调整,车辆通行效率高,高峰时段拥堵现象明显减少。

据介绍,这一系统主要由智能AI摄像头、毫米波雷达、具有人工智能算法的工控机以及道路态势感知调度系统等构成,无需更换现有交通设备,具有低成本优势,可以快捷的安装在路口,不需要对道路动大手术。

根据现有评估部署智慧交通灯集群系统后,区域内车辆平均通行效率能比传统多时段定时控制模式提升10%至40%,有效提升城市交通运行效率的同时,还降低了碳排放。

丝绸之路信息港公司技术专家 武强:我们首先架设了路口的摄像头或者雷达的设备,作为我们这个整个智能交通系统的“眼睛”来看懂交通的路况。在路口又布设了相应的服务器或者相应的这个算法设备,能够随着交通流量的变化而进行智能的变化(调整)。通行效率会大大的提升,减少我们交通的拥堵。

目前,该系统使用的核心算法已获得国际权威人工智能学术会议认可,试点测试完成后有望实现量产。

欧洲自然科学院院士 兰州交通大学教授 马昌喜:该控制系统在兰州新区进行了运行测试,车辆识别精度达到了99.15%,路口交通通行效率平均提高了33.98%。

丝绸之路信息港公司技术专家 武强:该控制系统落地应用于实际路口,属于国内鲜有,技术具有一定的领先性,应用前景非常广阔。下一步,我们将在兰州市区、庆阳主城区扩展部署,在保证行人安全通行的前提下,显著提升车辆的通行效率,降低城市尾气和碳排放,打造智慧甘肃交通新名片。

 市民也对AI智慧交通信号灯赞不绝口, 压车现象减少了,市民出行更加通畅了,通行效率大大提升了。

Ai新星郭文景从天才少女到Ai视频巨头的跨越

8年前,郭文景的哈佛大学录取消息在杭州掀起了轰动。这位杭二中的天才女生成为浙江省第一个被哈佛本科提前录取的学生,她以编程能力和流利英语令面试官赞叹不已。然而,8年后的今天,郭文景再次引爆社交媒体,这次作为人工智能视频公司Pika Labs的创始人。

Pika Labs是一家成立仅6个月、总融资额达5500万美元、估值达到2亿美元的初创公司。他们开发了一款名为Pika 1.0的AI视频生成工具,可以轻松生成和编辑3D动画、动漫、卡通和电影等各种类型的视频。这项创新技术迅速在硅谷引起轰动,吸引了大量投资者的追捧。

Pika 1.0不仅可以根据已有素材扩展视频,生成不同高宽比的内容,还可以实时精确编辑视频内容。你只需简单地用鼠标框选、输入关键词,就能在视频中添加所需的素材,例如给视频中的狒狒带上一个帅气的太阳镜。此外,你还可以通过框选人物范围并输入文字实现换装效果。根据用户提供的视频素材和提示词,Pika 1.0能够制作出各种不同风格的动画,涵盖了现有电影和动画的大部分风格。

郭文景和她的合作伙伴Chenlin Meng都是斯坦福大学AI Lab的博士生。他们在创办Pika之前,曾参加Runway的AI电影节,但并未获得奖项。之后,她们退学,创立了Pika,致力于开发出简洁易用且逼真的视频效果。如今,Pika已拥有50万用户,每周制作数百万个视频,这种惊人的增长引起了硅谷投资人的广泛关注。

Pika Labs的A轮融资达到了5500万美元,并吸引了一系列知名投资人的参与,包括Github的前CEO纳特·弗里德曼、OpenAI创始成员安德烈·卡帕西、Quora创始人Adam D’Angelo等。

郭文景从小就展现出非凡的才能和学术成就。在高中期间,她获得了众多荣誉,如全国青少年信息学奥林匹克联赛(浙江省赛区)一等奖、北美编程邀请赛第二名等。她还连续两年夺得中国和美国数学竞赛冠军,并在美国数学奥林匹克夏令营中获得最高分。除了学术,郭文景也积极参与各种活动,例如学帆船、学滑雪、学救生员以及参加辩论社和全英文的辩论赛等。她的多才多艺和追求卓越的精神,为她赢得了广泛赞誉。

警惕!视频通话“AI换脸”新型诈骗!相似度可达80%→

最近,视频网站上通过人工智能换脸,国产影视剧里的主角用英语说起了台词,通过小程序用户也可以将自己变成电影里的人物,新技术带来欢乐的同时,也带来了一种名为“AI换脸诈骗”的新骗术。前不久,国家金融监督管理总局北京监管局发布谨防“AI换脸”等新型欺诈手段的风险提示。

青岛的一名大学生和他在网上认识的“女朋友”视频聊天,对方称需要资金周转,男孩打钱过去之后,发现竟然被诈骗了。

广东深圳某科技公司产品部经理 梁雅婷:通过取证发现,跟他聊天的并不是他的女朋友,对方是通过虚拟的摄像头,用AI换脸的功能跟他聊天。 

AI如何做到在视频通话时换脸呢?记者在一家为公安机关提供技术支持的科技公司看到的演示,相似度可以达到80%。记者在现场看到,一个高配置的电脑,合成一段10秒的换脸视频只需要一两分钟。而技术的发展,上述案件中视频聊天的实时变脸也不是难事了。

广东深圳某科技公司产品部经理 刘远洋:照片上传后,大概有30秒的时间对照片进行特征识别,然后建模,建模后就可以进行实时转换。不管是你的头像,还是你在朋友圈的一张小照片,都可以直接上传。

AI生成的技术还在不断更新迭代,比如性别的互换、声音的变换,都可以同步进行。由于算法是开源的,也就是说一个普通的工程师就可以制作出一个变脸软件,这就在控制源头上带来了极大的困难。

为企业工作流程打造AI助理,亚马逊发表「Amazon Q」聊天机器人

ChatGPT带来的对话体验以及日益强大的功能,人们渐渐熟悉、融入这种新模式。亚马逊为企业开发一款名为「Amazon Q」的聊天机器人,提供AWS客户使用,快速获得解答、产生内容并为工作任务采取行动。

AWS执行长Adam Selipsky在AWS re:Invent 2023主题演讲分享,Amazon Q就像是AI助理,采用这套服务的企业员工可以询问工作上的问题,比方说可问Amazon Q公司最新的商标使用指南有何规定、了解其他工程师所写的代码以维护程序、分析客户遇到哪些产品问题以及改进方法,还能上传Word、PDF等文件以及图表加以分析,快速获得工作上需要的信息。

除在AWS管理主控台和各公司系统页面之外,AWS客户可将Amazon Q连接团队特定使用的应用程序并加以设定,例如Salesforce、Jira、Zendesk、Gmail、Amazon S3储存实例等,它对企业所有关联数据和内容进行检索,「学习」企业各个方面知识。

Amazon Q能与全托管生成式AI服务Amazon Bedrock上的任何模型搭配使用,包括Meta Llama 2、Anthropic Claude 2等。部署Amazon Q的客户通常会选择适合企业的模型、连接Bedrock API,以处理数据和工作流程。

出于负责任和安全因素,亚马逊也对使用生成式AI抱持谨慎态度。Adam Selipsky整场主题演讲多次强调,Amazon Q给出的答复可以控制,只会回答用户有权查看的信息,系统管理员可以限制敏感信息内容,让Amazon Q在必要时过滤不适当的问题和答案。

为了减轻AI幻觉,系统管理员可以选择让Amazon Q只从公司知识库提取必要信息,而不是从任何模型提取知识。Adam Selipsky指出,驱动Amazon Q的模型来自Amazon Bedrock的模型组合,包括亚马逊专有大型语言模型的基础模型Amazon Titan。

矽谷混乱一周过去,但OpenAI宫斗最大赢家不是Altman

OpenAI宫斗第一季落幕,微软有惊无险得到最理想结果。微软CEO纳德拉一开始只是观众,提前几分钟知道Sam Altman被开除,但马上粉墨登场,扮演推动剧情前进的重要配角:欢迎Altman加入微软。

这消息保住微软股价,也增加Altman重回CEO的筹码。Altman回归声明更特别感谢纳德拉,矽谷这疯狂五天,纳德拉游刃有余,蓦然回首,明星公司OpenAI的背后,一定有微软这低调赢家。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

GitHub Copilot。

机会是给有准备的人。微软有庞大开发者客户,也有领先开发者平台GitHub,有大量原始代码。GPT-3基础上,OpenAI和GitHub合作2021年6月推出AI助理「Copilot」,虽然还会出错,也只能完成部分基础工作,但能理解程序设计,也理解人类语言,让不少开发者印象深刻,如同大众初次见到ChatGPT。

人类副驾驶

打入OpenAI的纳德拉,总比外界更早意识到世界变化。纳德拉第一次看到GPT-4是2022年夏天,尝试翻译波斯诗歌,惊喜发现GPT-4不只翻译,还能跨越两种语言的界限,又保留诗歌的微妙之处。生成式AI跨越的何止语言,纳德拉认为更是「巨大的平台式转变」。

上次转变是行动时代,服务和消费无处不在,现在创造也无处不在,更多自然语言AI工具出现,任何人都能轻松产生新事物,包括程序,「当输入提示词,就是为大语言模型做程序设计」。

Copilot直译为「副驾驶」,最早用于GitHub程序助理之名,用副驾驶取名是纳德拉的点子,指向「以人为中心」的本质。11月中旬微软「重塑品牌」,Bing、Edge和Windows 11聊天界面统一称为「Copilot」。最近Ignite大会,纳德拉提到:「我们的愿景非常简单:我们是Copilot公司,相信未来每个人和所做的事都会有Copilot帮忙。」

然而更多创造是否意味更多破坏?纳德拉答案是「是」,工作可能被取代,人们可能必须经历转型,AI可能充满偏见,但更多人会受益,他举例当文字处理器出现,打字员大失业,但10亿人可同时快速输入并创建共享文件。

美国西海岸大语言模型让印度开发者轻松写程序,让农民方便填写电子表格,但仍是「破坏式创新」说法,视角不同,看到的风景就不同,谁也不能保证自己不是下个打字员。

OpenAI政变,微软有惊无险地上岸,但这场有历史意义的AI之战,很少有人有发言权,哪怕微软。这倒如纳德拉所说「AI无处不在,这是个黑盒子,你和我只是目标」。身为世界巨头企业的CEO,他认为更重要的问题是,谁有做事,谁帮助世界前进。

首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

关于当前基于Transformer的LLM能走多远的问题,人们仍在争论不休。与此同时,另一边,能够帮助人们处理各项工作的AI Agent已经悄然走入人们的生活。以前的ChatGPT等大模型,热衷于在人类考试中刷分以凸显自己的实力,而不久前,又有一位AI Agent通过了美国加州的驾照考试。——但与之前不同的是,这次的AI Agent是在监考员的眼皮底下帮助人类成功作弊,通过考试!

对此,AI Agent的作者表示,「很高兴与大家分享一项不朽的成就,我们的 Web AI 代理刚刚通过在线加州驾驶考试创造了历史,成为第一个在加州获得驾驶执照的虚拟 AI!」「这标志着一个开创性的时刻:人工智能首次完全自主地完成现实世界的人类知识任务,这是人工智能的一小步,也是人类的一大步。」虽然多少有点夸张,但不得不说,还是挺神奇的。

AI Agent完全靠自己审题、作答、并点击下一道题。对于这样成功的表现,Jim Fan也是表达了祝贺:从去年开始,一些加州居民可以在网上参加驾驶考试的笔试部分,免去了他们需要花时间去考试机构所在地的麻烦。

为了防止作弊,官方采取了一些相应的措施,要求考生必须允许机动车辆管理局(DMV)访问电脑的摄像头,以记录考试过程;并在考试期间共享屏幕。——这样参加考试的人就无法在考试中途打小抄了。然而,还是有人在监考员的眼皮底下作弊成功,而助手正是我们前面介绍的AI Agent(到底谁是助手也不好说)。

这个AI Agent来自一家名为 MultiOn 的初创公司,由 Div Garg 创立。Div Garg是斯坦福大学的博士辍学生,他最初创办 MultiOn 是为了实现日常任务的自动化,比如从亚马逊订购厕纸或安排日历约会。MultiOn 的产品可以控制用户的浏览器,完成诸如在 Uber Eats 上订餐或进行 Resy 预订等任务。——需要注意的是,这并不是我们平时会见到的浏览器脚本,Agent背后依托的是AI的能力。

这项服务目前是免费的,AI Agent位于浏览器的右下角,你可以在这里输入命令,这与微软的必应 ChatGPT 助手完全不同。这个AI Agent可以作为用户的私人助理,它提供的大部分功能都很有用,即使不能完全改变生活。上个月在旧金山的一家咖啡馆演示 MultiOn 时,Garg 用它向 Facebook 上的熟人群发了「生日快乐」信息。

随后又利用 MultiOn 安排了与记者的下一次会面,目的正是向大众演示如何利用AI Agent通过车管局的正式驾驶考试。虽然看上去只不过是AI答对了一些问题,但实际上要达成这个目的并不简单。一般来说,AI需要一段长长的提示,才能选择正确答案,然后点击进入下一个问题,而且AI不能有多余的动作,以免被发现作弊。平心而论,目前的这个AI Agent仍然需要人的手指随时待命,以防出错。根据设置,MultiOn 在出错时会停止运行,这时就需要人类测试者自己按下「继续」按钮。另外,它也无法解析图像,所以如果遇到了要求识别交通标志的问题,都会回答错误。

当前的AI虽然拥有完善的知识,但通常需要严格的提示才能进行下一步。所以,对于这场考试来说,答对有关正确驾驶规范的难题是一方面,点击按钮进入下一个问题更体现出它的能力。Garg认为这依靠了很多运气。这是 MultiOn 第一次参加正式的州立考,最终,MultiOn 在 46 道题中只错了五六道,正式达到了通过标准。当然,根据加州法律,以这种方式使用该技术可能构成伪证罪

因为在考试之前会要求考生声明自己将亲自作答。加利福尼亚州车管局曾在一份声明中写道:「作为一项防欺诈措施,在线考试参与者必须验证自己的身份,并同意在整个考试过程中接受监控。随着技术的发展,DMV 将继续更新保障措施」。人工智能助手的未来MultiOn在通过DMV考试之前,就已经引起了OpenAI及其首席执行官Sam Altman的注意,Garg 表示正在与OpenAI密切合作。

但就目前而言,MultiOn对部署采取了谨慎的态度,这次成功的测试与其说是一项关键功能,不如说是一个概念验证。Garg希望确保对自己产品的控制,从而避免出现恶意使用的情况。他希望人们不要在各种考试中作弊,因此他计划对普通用户禁用任何类似的「灰色地带」功能。与主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作为谷歌 Chrome 浏览器的扩展程序自主运行的。用户必须授予它有效控制电脑的权限。「我们的技术直接在用户的电脑上运行,它实际上是在控制,在做事,很多事情都可能出错」。

目前,大约有 3 万人注册试用了该应用的测试版。Garg预计 MultiOn 还会有更多新功能,比如加强版移动语音助手和内置 MultiOn 技术的浏览器。——不过,利用它在 SAT 或 ACT 等考试中作弊的可能性也不大,因为这两个考试机构都要求学生到考试中心参加考试。MultiOn的官网上还向我们展示了产品的一些基本而有趣的用途,比如查询天气:更实用一点的是下面这个例子,用户可以直接告诉Agent帮忙订一个汉堡,后面的所有事情都完全不用操心了。

包括选择店铺、选择商品、下订单和支付等等,Agent一条龙服务,统统帮你搞定——确实称得上是私人助理了。除了这个演示,官网还列出了其他的一些功能:

比如线上购物、文章摘要、查找并播放音乐和视频、在线互动等。有网友使用MultiOn在亚马逊买了一本书,并表示「太疯狂了」。

而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:

有了这次成功的驾照考试经历,Garg也是野心勃勃地表示,「明年我们的AI Agent就可以驾驶你的特斯拉了」!

不知道大家对于未来的AI Agent又抱有怎样的幻想呢?

“AI生成图片著作权侵权第一案”审理思路与评议

2023年11月27日,北京互联网法院判决认为被告刘某某发布文章配图使用了原告李某利用AI声称的图片构成侵权。值得注意的是,北京互联网法院认为涉案人工智能生成图片(AI绘画图片)“春风送来了温柔”具备“独创性”要件,体现了人的独创性智力投入,应当被认定为著作权法保护。这是我国首次将AI生成图片认定为著作权法保护,本文试对北京互联网法院判决焦点及问题整理,并提出自己的想法以供大家讨论。

原告李某使用选取开源软件Stable Diffusion模型,对开源模型进行图片生成参数调整,调整后在输入提示词生成图片,根据生成的效果再调整参数最终生成涉案图片后发布于小红书平台并有水印;被告系百家号博主,发布自己撰写的文章,并且配图使用了原告利用通过Stable Diffusion生成的图片,该图片并无水印,原告遂起诉。经过当庭勘验,原告通过变更个别参数、其生成的图片结果不同。

北京互联网法院在审理过程中认为本案有以下三个争议焦点.关于AI生成物是否属于智力成果,北京互联网法院认为该AI生成图片体现了人的智力投入,属于智力成果。该AI生成图片是原告李某希望通过AI生成满足自己预期的图片,并且原告在此过程中具有选择模型并且设计人物的呈现方式、选择提示词、调整参数等充分表现原告李某发挥主观能动、智力投入的活动。二.关于AI生成物是否具有独创性,北京互联网法院认为不能将AI生成物一概认为具有独创性,而是应该个案审理。本案中,该AI生成图片是原告李某利用Stable Diffusion模型画的,且在此过程中原告对画面布图构局等通过参数进行了设置,体现了原告的选择和安排,并且原告在生成该图片过程中不断调整参数、输入提示词等方式获得最终图片,而这些过程体现原告的审美选择和个性判断,所以该图片并非“机械性智力成果”,具有独创性。三.人工智能模型本身不能成为著作权法上的作者。北京互联网法院认为,作者限于自然人、法人或非法人组织,这与民法典规定的民事主体一致,所以虽然涉案图片是人工智能所画,但是该模型无法成为涉案图片的作者。
综上,北京互联网法院认为该涉案AI图片属于作品,且原告是该涉案AI图片的作者享有著作权。本案中被告未经原告许可擅自使用该涉案图品构成侵权。故被告去除水印的行为且使用该图片发布在自己账号的行为侵害了原告的署名权和信息网络传播权。
(一)对开源模型的参数调整是否构成生成图片的独创性

北京互联网法院该AI生成图片是原告李某利用开源Stable Diffusion模型画的,众所周知Stable Diffusion系专门用于AI绘图的专业模型,它的开源软件本身就具备绘画的能力,在裁判文书中也明确说明了开源方许可协议中并未主张任何知识产权。开源软件是互联网行业常用的营销手段,开源软件一般会开源参数而不会开源软件或模型的底层代码,Stable Diffusion亦是如此,下载开源软件方可对开源模型进行参数调整以达到完善模型的目的。需要注意的是,参数的调整主要是基于开源模型本身,而并非图片生成。本案判决书,原告的角色相当于使用开源模型方,而生成的图片更多的是对模型参数调整后,输入提示词后图片生成的效果。从这里可知,模型参数的调整和提示词指令的发出更多是预训练阶段,只不过在预训练阶段对模型参数的调整和图片生成会混为一体。
笔者认为在Stable Diffusion开源模型下对模型参数的调整所产生的知识产权应当开源模型的独创性,对模型参数的调整本身是生成图片的通用规则,并不会具象化成为图片生成的直接贡献。众所周知,人工智能算法黑箱技术无法解决,人类无法识别人工智能算法真正生成物的过程,不论针对Stable Diffusion模型进行何种参数调整,都无法识别出到底对生成的图片作出了哪些有用的贡献。何况Stable Diffusion开源模型就是一个绘图通用的模型技术,参数的调整会影响任何图片的生成,不仅仅是涉案图片。那么,图片是如何生成的?在技术上,模型的预训练就是在给模型教授知识,让它听懂人类的指令,并根据指令输出已学习到的知识。在本案中,虽然原告通过多次参数和提示词调整最终生成了图片,该行为仍然是对模型本身的训练调整,而图片生成仅有一个动作那就是输入提示词。原告多次修改参数和提示词其实是两个行为,会产生两个知识产权法律的后果,一个是参数的调整会影响在开源基础上对模型参数的调整,属于对开源模型的二次创作,是否构成新的知识产权需要按照开源协议约定判断。另一个是输入提示词生成一张图片是否是著作权法中的作品,是否构成独创性,是否是人的智力成果需要深度讨论,也是本案的关键点
因此,在本案中,要想讨论生成物的知识产权只需要讨论输入提示词是否构成独创性。本案的特殊性在于这两个行为都是一个主体完成的,如何区分可能仁者见仁智者见智。笔者认为本案中原告具体操作步骤为设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数,这些操作步骤的针对对象始终为Stable Diffusion模型,并非图片的具体参数。原告在该开源模型上进行修改参数等操作最后生成图片步骤实际上仍然属于对该开源模型的二次创作的训练阶段,尽管后期有修改提示词的等于涉案图片直接相关的操作步骤,但是这些步骤本质并未脱离训练模型本身。不管如何,如果两个行为并非一个主体完成,是需要严格区分两个知识产权,而并非混为一谈,关于该开源模型生成图片的独创性仍需进一步论证

(二)开源模型生成物是否属于智力成果

对于开源模型的产物是否属于智力成果和前述独创性标准论述一致。本案中,北京市互联网法院认为涉案图片是人工智能所“画”,但又否定该图片为人工智能的生成物,此处逻辑自相矛盾。故北京市互联网法院混淆本案原告的创作对象,错将原告创作对象认为生成图片而非开源模型本身,所以认为该生成图片是原告利用开源模型作为“工具”生成图片,但是本案原告调整参数等创作步骤全部针对于该开源模型,并非图片本身,所以笔者认为该图片应该为开源模型生成物。人工智能模型既没有创作涉案图片的意愿,图片的生成依据是使用者输入的提示词,实践中大部分模型为刷题式的记忆模型,并逻辑计算和推理模型笔者认为,涉案开源模型只是涉案图片的生产者,并不是创作者它所执行的不过是设计者或操作者的意志,无论该人工智能有多“智能”,它始终按照既定的程序、算法、规则进行运作,究其本身并未突破人类辅助工具的范畴,不能完全独立自主生成物品。

注:本文作者为马军,马阳明。

OpenAI董事会调整,微软等投资者或无董事席位

近日有知情人士向路透社透露,虽然OpenAI正面临着一场重组,但该公司不打算向微软等其他投资者提供董事会席位,包括Kholsa Ventures和Thrive Capital在内。

微软目前是OpenAI最大的支持者之一,此前曾承诺向该公司投资数十亿美元。据ITBEAR科技资讯了解,上周OpenAI突然解雇了首席执行官兼创始人Sam Altman,而后在三天后又宣布重新任命Altman,并承诺成立一个新的董事会。

The Information的报道指出,OpenAI即将设立一个由9人组成的董事会,其中新董事会的三位初始成员——主席Bret
Taylor、前财政部长Larry Summers和Quora CEO Adam D’Angelo——预计将于本周得到正式确认。目前来看,D’Angelo将是唯一从解雇Altman的六人旧董事会中保留下来的成员。在关于OpenAI董事会的问题上,微软发言人表示“我们将等待董事会正式宣布”。截至目前,OpenAI、Thrive和Khosla尚未回应置评请求。

全国首例“AI游戏外挂”案告破!过程揭秘→

AI人工智能拥有高效数据处理和自主学习能力。然而,也有一些人打起了人工智能的歪主意,“AI游戏外挂”是近些年出现的新型违法犯罪行为。前不久,江西警方破获了全国首例利用“AI人工智能游戏外挂”非法牟利的案件,涉案金额达3000余万元。报警的就是购买使用这款游戏“外挂”的资深玩家,这究竟是怎样的一起案件?

使用“AI人工智能游戏外挂”后玩家游戏账号被封禁

余先生是一款射击类网络游戏的资深玩家,在使用过一款“AI人工智能外挂”后,他发现自己用了十几年的游戏账号被封禁了,而且封禁期长达10年。

当时,他从游戏好友那里了解到,有一款专门针对射击类游戏的“AI人工智能外挂”,可以轻松提高战绩排名。“游戏里面有好多人介绍这个‘外挂’软件,有的放了支付链接,点进去就能看到‘外挂’的购买方式。”余先生介绍。

通过询问其他玩家,余先生得知,这款“外挂”号称有AI人工智能加持,只要电脑显卡配置合适就可以使用,即使是业余游戏玩家也可以轻松超越职业选手,对方还介绍这款“外挂”不会导致账号被封。

余先生很快购买了这款游戏“外挂”,实际体验中,他几乎每次都能精准地命中目标,游戏战绩也大幅提升。然而使用了几次后,余先生用了十几年的游戏账号突然被封禁了。

“外挂”是作弊程序贩卖“外挂”涉嫌刑事犯罪

据警方介绍,所谓的游戏“外挂”指的是利用第三方软件,综合特定的功能编程出的游戏修改器。它主要通过篡改游戏原本正常的设定和规则,大幅增强游戏角色的技能,使得游戏角色发挥出超越常规的能力,是一种作弊程序,其行为本质是对计算机系统的破坏

余先生使用的这款游戏“外挂”主要是针对市面上一些主流射击游戏设计的,玩家使用后会获得自动瞄准、自动追踪等功能,对游戏的公平性、运营构成了很大影响。

我国刑法第二百八十五条第三款规定:提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,构成提供侵入、非法控制计算机信息系统程序、工具罪

虽然使用游戏外挂可以在游戏对抗中获得优势,甚至可以轻松击败高水平选手,但背后隐藏的是账号装备遭受损失的风险。

某游戏的运营商表示,游戏玩家一旦被发现存在使用“外挂”等作弊行为,游戏运营商就会对其实施惩戒。“使用‘外挂’每个月要支付几十元到几百元,甚至有一些每个月要支付几千元,在这种情况下一旦账号被我们封禁,他投入的这些金钱、时间包括精力都白费了。”

余先生使用的“AI人工智能外挂”在编写时,利用了AI人工智能算法技术,相较于一般的游戏“外挂”确实功能更为强大,隐蔽性也更强,但仍然无法逃脱监测。

犯罪分子批量制作销售“AI外挂” 

涉案金额高达3000余万元

为了打掉隐藏在这个“外挂”背后的犯罪团伙,警方对报案人和游戏运营商提供的线索进行深入调查,很快锁定了一名关键犯罪嫌疑人。

经调查,警方研判,这个犯罪团伙总部藏在浙江杭州,团伙头目王某通过不断发展下线代理的方式,在多个网络游戏平台售卖这款“AI外挂”程序,下线代理则以层层加价的方式赚取差价。

在收网行动中,警方在杭州、重庆等地,先后共抓获犯罪嫌疑人11名,现场查获作案台式电脑10台、笔记本7台、手机11部,此外还包括大量“外挂”生成程序、“外挂”源代码、辅助硬件等作案工具。涉及的罪名分别是提供侵入、非法控制计算机信息系统程序、工具罪。

今年26岁的王某是这个犯罪团伙的核心人员,他曾是一名AI人工智能领域的从业者,2021年年初,王某无意中在网上看到了一条介绍射击类游戏“AI外挂”的讲解视频。

他判断这种专门针对射击类游戏“AI外挂”如果能批量制作销售,就可轻松获取巨额收益。“传统的‘外挂’通过修改游戏文件和修改计算机系统,去达到‘透视’效果,获取预知敌人位置以及自动瞄准这些功能。人工智能的辅助‘外挂’通过目标检测算法获取屏幕中敌人的坐标,实现自动瞄准。”王某主动找到具有“外挂”软件编写能力的张某,两人一拍即合。随后,王某开始通过各种网络渠道发展下线,在网上进行销售牟利。截至案发时,这个犯罪团伙的涉案金额已高达3000余万元。

警方表示,“AI游戏外挂”是近些年出现的新型违法犯罪行为,它不仅破坏了游戏本身的公平性,同时也可能导致其他网络安全风险,公安机关将继续对此进行严厉打击。目前,这起全国首例利用“AI人工智能游戏外挂”非法牟利的案件正在进一步侦办中。

AI电商时代,有多少人的工作会被取代?

随着AI技术的普及和进化,AIGC对电商行业的赋能在这两年前所未有的明显,所有平台、品牌、商家都积极拥抱变化,参与这场由AI技术带来的生产工具革命。

在电商行业的整条链路上,有哪些工作内容已经可以由AI替代?

应用过程中,AI会以哪些不同的形式参与?AIGC的技术在实际交互中有哪些具体的优势和不足?

AI参与电商全链路

在不同的企业、科技公司的技术支持下,AI现在几乎参与了电商行业的全链路,区别在于每个环节AI参与的形式不同。

从前期的产品设计到产品上架前的摄影、模特、文案、美工,无论是导购还是智能客服,或者是内容种草、私域运营……你能想到大多数环节都已经诞生了相应的AI产品,帮助电商人更高效地完成工作。

在产品设计上,只要在Midjourney、Stable Diffusion上输入对应的Prompt(指令)就能生成对应的产品图,这个过程被称作“文生图”。

从珠宝和服饰设计、家用装饰到房屋内设,AI绘图的功能几乎可以运用到所有相关的行业中,这也是AIGC最早投入应用的产品功能之一,在这个意义上AI可能会取代的岗位是设计和制图师

有了产品后,商家还需要寻找场地,约摄影和模特拍照,修图,拿到图片之后筛选,再找人或者自己打磨商品详情页的文案……直到商品最终上线。

这个过程中需要的成本是高昂的,因为需要多人的分工协作,除了摄影、模特、设计师之外,还有造型师和各种助理的参与。

在有了AI之后,摄影、模特、造型师以及文案的部分工作内容都是可以被AI替代的。在AI的帮助下,这些工作可以被简化为“文生图”、“图生图”和“文生文”。

商家可以利用Stable Diffusion(以下简称SD)将人台试穿图变为写实风格的模特写真图,只需要一个人和一台电脑就能解决。之前这种技术还需要前置遮罩或者抠图处理,在AIGC出现后,一键抠图也成了其功能之一。

在没有产品图的情况下,商家也可以直接在SD或Midjourney内利用Prompt指令生成相应的模特试穿图,达到“一步到位”。

除了著名的Midjourney和SD之外,国内的美图公司、蘑菇街和近日获得千万美元B轮融资的极睿科技等都推出了可以“图生图”产品。

极睿科技推出的ECpro可以根据商品截图生成对应的商品详情页,完成商品录入等工作,PhotoMagic则可以根据人台模特图生成真人模特图,实物商品则可以完成一件抠图,蘑菇街旗下的WeShop和美图公司旗下产品WHEE和美图设计室也有相似的功能。

美图旗下产品开拍则将产品功能拓展到短视频领域,不仅能一键生成营销文案,还可以生成数字人主播录制视频、AI进行智能剪辑和一键包装短视频。

AI数字人主播是AI技术当下在电商领域被应用得最广泛的功能之一,在数字人主播出现之后,可能被替代的工种是主播、助播还有直播运营相关。

AI数字人主播可自动讲解商品,根据关键词提示回复问题,这种数字人主播不会“塌房”,不用休息,买断之后可24小时不间断开播。

相比传统直播间动辄上十万的启动成本,2000元一个月的AI主播为商家节省了不少搭建直播间的成本。现在不少中小商家、品牌商家,还有部分MCN机构都已经开始使用数字人主播。

某MCN机构负责人曾向媒体表示,现在的大品牌如赫莲娜都在使用AI主播拥抱变化,店播主播并不具备很强的不可替代性,他预计在未来3-5年之内,30%-50%的店播主播会被AI主播替代。

厂家和产品方面,国外的D-ID和HeyGen都可以由单张的照片生成数字人、短视频并根据文字提供语音。

国内的大厂小厂也都在布局自己的AI短视频和数字人产品,BAT三家之外,还有网易、360集团小冰公司等厂商先后发布了自己的数字人产品或生成平台,以百度智能云曦灵平台举例来说,平台可生成自动化直播数字人,数字人还能表现内置的动作,唇形和情绪能根据文本和语音自适应。

在数字人直播之外,AI可以参与的电商工作还有智能导购、智能客服,私域运营,还有智能采购、参与品牌的投放分析等等。

目前,淘宝、天猫、京东、拼多多等平台都已将智能客服投入实际应用。

有跨境电商的商家利使用名为“及时语”的跨境电商智能客服产品,帮助解决了75%的用户问题,还将人工聊单的转化率从15%提升至30%以上。

AI导购则能够根据用户的需求推荐商品,在用户主动搜索和互动问答的过程中洞悉真实的用户画像,提高转化率。

AI还能参与广告营销的策划、设计,产出创意形象和短片,帮助商家进行私域运营,在商家的用户群中以机器人的形式解答用户问题,引导客户下单,为商家“减负”。

从产品设计到直播营销,从辅助用户决策到投放分析,AI在电商领域中可以参与的部分已“太多”。

作为理想工具的AI

那么,AI作为电商人的新型“生产工具”,其核心价值除了功能的拓展还有什么?

AI对于电商行业的从业者来说,是能够帮助实现“降本增效”的理想工具。

AIGC产品的付费方式中往往是买断或者订阅制的,使用者可以在一次付费或根据不同标准(按年、按月)付费之后,高效率地生产内容,无限制地进行使用,在应对重复、机械和部分需要创意的工作时,AIGC技术能够极大地解放个人的精力。

特别是这项技术与不同领域、场景结合的时候,以各种形式发挥作用,例如AIGC+图片、AIGC+文字、AIGC+短视频、AIGC+直播……AIGC技术的可拓展性令人惊喜。

AI大模型还不会“累”,能根据反馈快速调整工作成果,快速反馈和灵活调整也是AI技术应用过程中的优势之一。

在使用成本下降之后,人们对于AI生成内容实现转化的要求也随之下降,例如在数字人的成本是原先的十分之一的情况下,只需AI能够达成原先真人主播十分之一的转化率时即可。

但根据部分中小商家反馈,数字人直播成本只有真人主播的二十分之一,AI的转化率有时能达到真人的二分之一甚至持平,AI在转化率上表现出色。

某餐饮品牌商家在今年618大促期间利用数字人主播在三个直播间同时开播,省下的成本用于投流,最终三个直播间的日GMV相比真人主播有了近五倍的增长。

曾有广告公司的创意策划在采访中提到,比起设计师给出的方案,AI制作的广告能够节省30%的成本,70%的时间,非常适合时间紧、任务急的购物节点。

一位从事电商行业的微博网友“浪猪灰头”曾经发布过一张模特摄影工作室的报价表,其中摄影费用和模特费用占大半,总计下来仅一天8小时的拍摄费用支出就在3.5W元以上。

他在微博配文中说到:“今年我们拍衣服不需要花四五万一天、去雇摄影师和模特了,(AI技术)完全够我们用了。”

AI产品能够帮助许多中小商家顺利入局,还能帮助大品牌和企业减少成本,在获客成本和投流成本不断上浮的当下,电商人们遇到一款能“降本增效”的工具,几乎是“可遇不可求”的。

不够“智能”的AI

不过在实际运用的过程中,AI并不是完美的,AI和AI大模型也有不够灵活、不够智能的时候。

AI生成内容的效率高不代表可用率高,AI生成的创意、图片或文字有时不符合行业规范,需要人工再进行调整。

AI有时不能应对个性化的问题,这有时是技术壁垒,有时则是接入的信息源不够多,这些问题本质上是从业者与AI存在着信息差和“经验”差距的问题。

AI大模型偶尔还会出现“幻觉”,这是指AI输出的内容中信息来源为捏造或不准确、不可信,AI进行自我欺骗的现象,这也会对使用者造成一定的困扰。

AI还存在着拥有一定的学习门槛与沟通门槛的问题。

相比和人类沟通的时间、精力和金钱成本,并不钻研AI技术的普通电商从业者与AI沟通存在硬性的技术门槛,而且这个门槛在短时间内很难实现跨越,很多时候只能寻求拥有专业知识的人的帮助,“使用成本”降低,但“沟通成本”实则可能提高了。

AI的局限不止于经验和训练不足,有时也来自外部的限制。

AI所生成的图片、文字、视频也许存在着版权争议,AI数字人主播的形象和语言模式可能会让一部分用户感到反感和无法接受,部分平台还推出了AI数字人相关的限制条款,对AI的功能与使用加以限制。

同我们日常生活关联比较紧密的一个场景就是AI智能客服不够“智能”的问题。

现在主流购物平台的智能客服都可以根据关键词匹配对应的服务接口,如处理退换货、投诉、查询服务进度等比较基础的功能,但遇到没有对应关键词或对应入口的询问,则经常显得不够“智能”。

用户无法和智能客服产生真正的“对话”,还是需要人工客服介入解决。

AI在广告营销领域常被提到的一个缺陷是可用率有限。

有设计师在接受媒体采访时表示,目前AI辅助软件生成的内容仍然达不到完稿水平,部分文案、包装设计甚至不符合广告法和设计规范,存在一定的风险。最终效果还是需要人为进行审核和调整,最终才能投入使用。

总的来说,AI技术在应用过程中确实能起到商家、MCN等主体所期望的“降本增效”的效果,但也存在着不够灵活、不够智能、有一定技术门槛等缺陷。

在AI技术大量投入应用的当下,部分功能性不足的问题有望在短时间内得到解决,但另一部分涉及伦理、技术门槛、接受度等宏观的问题,则还需要等待技术进一步发展之后再看。

最后,AI技术赋能电商全链路已成为行业现状,AI技术会成为中小商家快速入局的利器,也能帮助部分跨境电商商家更好起步。

对于大部分的岗位来说,AI目前能起到辅助而非完全替代的作用,许多工作依然需要人的灵活变通和经验进行处理。

在AI技术日益进步的今天,如何加强自身核心竞争力的同时尽快学习AI,利用AI,将其价值最大化可能会成为电商人未来长久的课题。

Hugging Face CEO预测:2024年AI行业六大巨变!

2024年,AI行业将会进化成什么样?

OpenAI主席Greg Brockman曾经在去年最后一天预测:2023年会让2022年看起来像AI发展还没有苏醒一样。

果然,2023年,AI行业迎来了全面的爆发。

而昨天,全世界最大的AI开源社区Hugging Face CEO Clement Delangue对2024年行业的发展做了6条具体的预测:

1.某个当红的AI公司会倒闭,或者以极低的价格被收购。

2.开源LLM能够达到最好的闭源LLM的能力水平。

3.AI在视频,生物,化学,时间序列等领域将带来巨大突破。

4.大众将更进一步关心AI在经济上和环境上的成本。

5.某一个大众媒体将会充斥着AI生成的内容。

6.1000万Hugging Face上的AI开发者将会带来新的工作机会,不会导致失业的激增。

如果说2023年AI行业的突破主要体现在AI技术本身的话,这6条新的预言已经预示着,AI技术在2024年,将进一步破圈,产生的突破影响力将远远超出AI行业的范围。

网友也给他的6条预测的可能性进行了评估,认为其中3条发生的概率不超过50%。

也有人认为6条预测都很靠谱,甚至有几条是已经发生了的。

第一波AI公司将出现倒闭潮

针对第一条预测,结合前两天OpenAI的剧烈动荡,网友纷纷开始阴阳怪气。

Clement赶紧出来圆场,我预测的是我自己。

网友们也纷纷做出了各种猜测,Adept,Perplexity等明星初创公司都被网友提到。

但其实,类似的事情在2023年已经出现。Jasper AI,这家曾经估值超过15亿美金的AI初创公司,作为「套壳GPT的鼻祖」,7月份就传出裁员+估值下降80%的负面新闻。

而在OpenAI上线GPTs之后,可以预见的是,基于OpenAI技术的各种AI公司的路将会越走越窄。

如果在未来他们不能找到一条独立创造价值的道路,从估值超过10亿美元到破产或者被低价收购,并不是一件很意外的事情。02开源VS.闭源

AI开源闭源的鸿沟,未来将进一步扩大还是缩小,行业大佬,AI开源企业,科研人员,用户一直以来都有不同的声音。

从年初的谷歌工程师曝料:OpenAI和谷歌都没有护城河,开源AI是他们最大的对手开始。

而另一方面,不断有开源的模型在各个领域号称接近甚至超过GPT-4。

伯克利团队最近公布的Starling-7B,通过RLAIF的方式,在某些基准测试中超越其他的所有模型,接近GPT-4的水平。项目地址:

https://starling.cs.berkeley.edu/

甚至有7B大小的开源模型都号称在某些单项任务上能与GPT-4比肩。

而开发闭源模型的大佬则宣称,开源和闭源的差异可能有3-5年。

而网友们,对于第二条预测的争议也很大。

「由于开源和闭源在算力上的巨大差距,开源要想赶上闭源,还很困难。」

「不明白为什么开源和闭源的差距会缩小。毕竟开源模型的所有知识和技术是共享的,而闭源AI总有他们独有的东西。」

在生物领域,DeepMind的AlphaFold已经在超越人类能力的水平上,预测了蛋白质的结构,直接突破了生物学的最前沿。

而微软前不久发表了一个报告,尝试了GPT-4在生物学,计算化学领域,药物发现、、材料设计和偏微分方程 (PDE)这几个科研领域,作为学术研究助手的价值。

在微软的研究人员看来,基础科学的研究,将在未来被AI工具大大加速。

现在也出现了很多将机器学习技术用于各个专业领域的工具和平台。

而网友,对于AI对于时间序列相关的科研领域(Time-Series,指将时间序列用于统计学、信号处理、模式识别、计量经济学、数学金融等应用科学和工程领域)可能取得的突破也非常看好。

有网友甚至贡献了一篇论文来解释为什么时间序列相关的科研。

「终于,有人看到这一点了,已经有很好的关于时间序列的Transformer的模型出现了。」

04AI造成的能源和环境成本

马斯克曾经在播客中讨论过,对于AI行业来说,最重要的第一性原理思考,可能是关于能源和智能的产出比。因此他认为Transformer模型在这方面还有很大的改进空间。

荷兰阿姆斯特丹自由大学的数据科学家 Alex de Vries的研究预测,到 2027 年,AI服务器群每年可使用85至134太瓦时的能源。

而外媒也有过多篇报道,指出AI技术的发展对于能源,水资源的消耗未来将急剧上升。

05AIGC充斥媒体

毫不夸张的说,视频和图像的AI生成内容,现在正在以光速前进。

在1到两年前,任何人都很难想象这样一段AI动画将可以完全由AI生成。

前不久,梦工厂的联合创始人公开表示,未来3年内,AI将使动画行业的成本降低90%!

也许真的就在明年,动画内容创作将会进一步平民化,而带来的后果就是,像短视频一夜之间席卷全球一样,由Gen AI生成的视频,将会成为视频内容非常重要的组成部分。

AI对劳动力市场的影响,一直以来是AI行业备受争议的焦点。

而Hugging Face CEO的预测从某种程度上来说,可能是这个问题的一个潜在答案。

如果更多的人能够加入到开源AI的开发者的行业中来,由此创造的就业是否能够弥补AI技术发展所替代的劳动力。

但是大多数网友似乎不太认可这一逻辑。

第二条和第六条都是笑话,虽然Hugging Face上会出现更多的开发者,但是AI依然会重构劳动力市场。

毕竟,Sam Altman都因为AI,在成为OpenAI CEO后短暂的失业过了2天。

参考资料:

https://twitter.com/ClementDelangue/status/1729158744762626310

首个!专注于视听媒体内容生产的AI大模型带来交互新变革

当下大模型席卷全球千行百业,AI大语言模型代表了通用人工智能领域的最新发展。其在语义理解、对话生成和知识获取等方面取得了显著突破,在人机交互、智能助手和内容生成等应用场景中也展示出令人惊艳的表现。对于视听行业,大语言模型既带来了发展机遇,也带来了建设思考。

11月25日,爱奇艺首席技术官刘文峰在2023虎嗅F&M创新节以“AI驱动创意的范式跃迁”为主题,带来了爱奇艺的思考。他表示,影视行业可以被视为最适合大模型落地的行业之一。生成式AI的两大核心能力——“理解”能力和“创作”能力,已经可以让我们看到提质增效的清晰路径。


11月20日,以“开蔚然新篇,创无限可能”为主题的2023“世界电视日”中国电视大会在北京香格里拉饭店举行。中央广播电视总台超高清视音频制播呈现国家重点实验室副主任、“百城千屏”项目推进办公室副主任赵贵华受邀在本次大会上发表以《央视听媒体大模型》为题的演讲。

赵贵华谈到,中央广播电视总台联合上海人工智能实验室在7月20日正式发布了“央视听媒体大模型”(CMG Media GPT),这是首个专注于视听媒体内容生产的AI大模型(以下简称“央视听大模型”)。

据介绍,为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,总台还与上海人工智能实验室等10家单位联合发起了大模型语料数据联盟,为大模型发展提供高质量、大规模、安全可信语料数据资源,保障大模型科研攻关及相关产业生态发展。到目前为止,央视听大模型经过数据训练和模型微调,已经能够提供以下实际节目应用:


一是节目创作方面,可根据关键词和内容提示创作文稿,并将文稿生成节目台本(镜头本),提示具体拍摄内容和查找媒资素材,在此基础上根据台本(镜头本)自动后期编辑,可按照用户需要的时长合成节目成片。


二是短视频生成方面,根据输入文案自动生成标题、匹配素材、字幕、模板、解说、背景音乐并生成短视频(支持横版竖版)。


三是节目编辑/剪辑方面,总台有大量节目是重播节目,而重播时长往往与原节目时长差异很大,尤其是体育节目,在原有节目的基础上根据节目时长要求进行精编或缩编,保留节目精彩部分。


四是超写实AI数字人方面,根据用户提供的视频可快速生成具备高度真实感的AI数字人或主播,建立智能化多模态算法与数字人驱动的接口,形成数字人感知与理解模式的仿真交互,通过大模型对数字人进行语音、表情和动作驱动,可实现脸、唇、音、体等智能化的全维表达。


五是AIGC动画方面,通过文生图和文生动画,确定二维图像到三维模型的映射关系,为三维动画模型建模、二维动画摄像机定位创造基础,改善动画主体、镜头运动造成的生成内容变形,增加AIGC对于空间、角度、遮挡、变形的判断力,使得生成内容更趋平滑稳定。


六是AI换脸方面,近年受明星频繁“塌房”事件影响,大批影视剧被雪藏,AI换脸成为影视制作行业的普遍需求,引入超分算法+高频动态渲染+4D数据技术,推出成熟可商用的AI换脸解决方案。

央视听大模型集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于上海AI实验室的书生通用大模型体系,央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。


“当我们谈论大模型时,不\应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。


中央广播电视总台超高清视音频制播呈现国家重点实验室负责人表示:“总台积极推进‘思想+艺术+技术’的融合创新,本次联合上海AI实验室发布‘央视听媒体大模型’,就是要使用总台视音频媒体大数据在实验室原创的通用大模型上进行训练,探索在确保媒体真实性和安全性的基础上,运用生成式人工智能,提升视听媒体制作的质量和效率。”

媒体编创:在“聊天”中工作
以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。
目前,央视听大模型具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。
央视听大模型可通过逐步呈现的视觉元素,理解并分析视频。用户通过与AI聊天对话的形式,深挖视频蕴含信息,进一步完善输出的内容。当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频,便可理解视频内容并生成出李白的《望庐山瀑布》

央视听大模型同样了解新近的科技进展。当“看”到我国空间站模型的相关视频,即能生成视频镜头脚本及旁白。

央视听大模型丰富生动的表达,还得益于背后的书生·浦语大模型强大的语言能力和宽广的知识体系以及书生·多模态大模型强大的开放世界理解和内容生成能力。除了为媒体编创赋能,上海AI实验室还通过全链条开源(https://github.com/InternLM/InternLM)推动书生·浦语在更广泛的场景落地应用。


央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力,使得新的内容生产方式变成可能。用户仅需使用简单的光标和文字指令,即可快速修改或编辑图像,实现“指哪改哪,画随口出”。在下图的示意中,使用光标点击选中右边的鹦鹉,在对话框输入“小仓鼠”,轻点鼠标即可将鹦鹉替换成小仓鼠的图像。

上海AI实验室科研团队介绍,央视听大模型具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,央视听大模型可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。借助强大的对话能力和易用的互动模式,央视听大模型将推动人机互动达到新高度。

内容创作:一键生成节目内容、数字人主播
具备超强理解能力的同时,央视听大模型还拥有通用的生成能力,即通过文本直接生成视频,视频质量可达到高清视频标准(2K和24FPS)。在生成内容的可控性、流畅性以及生成细节等方面达到国际领先水平。


值得关注的是,央视听大模型支持故事一致性和镜头连贯性生成,在生成有故事情节长视频的同时,还保证故事转场的流畅性。未来,该项技术有望广泛应用于动画及电视等视频内容的制作中。

用央视听大模型生成流畅、高清、带有故事情节的视频除了视频内容,央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频,还可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。

支持快速生成形象逼真、表情自然的数字人主播通过央视听大模型的生成技术,不仅可实现主播“分身”,更能简化视频播报的创作过程。用户在视频创作素材库选择视频模板,输入文案,便可一键生成知识分享、品牌宣传、短视频带货、培训宣讲、热点资讯等各类数字人视频。大模型中还提供AI文案编写功能,用户输入粗略想法即可快速生成播报文案,并合成数字人视频。


目前,“数字人直播”支持中英文等多语种播报,同时兼容国内多地区方言播报,随着语言版本的不断扩充,用户可以轻松创作更多跨语种的国际化内容。此外,基于全球首个城市级NeRF实景三维大模型书生·天际,央视听大模型还提供了场景渲染的能力,可进行高精度实景三维建模,建模范围具有无限可扩展性;同时提供对城市场景的编辑能力,包括移除、新建、旋转城市建筑,对场景进行光照、季节等风格变换。该技术有望广泛应用于影视制作,降低建模及渲染成本,提高制作效率。


此外,谈及总台对于视听技术方面的布局,赵贵华作出了三点总结。  

首先是聚焦5G+4K/8K+AI发展,全面推进超高清AI制播平台关键技术突破和创新;  

其次是聚焦全媒体超高清制播呈现,全力提升央视听媒体大模型的研发实际效果;  

三是聚焦媒体重点应用场景,积极推进AIGC在媒体领域的示范应用。  

总台将加快推进央视听大模型落地应用,为媒体提供更加高效的智能创作工具,优化内容创作,聚焦媒体领域重点示范应用场景,联动产业链上下游,充分发挥在超高清视音频研究和应用优势,构建生成式人工智能的良好生态。

大模型技术的未来发展趋势

大语言模型技术已经开始从不同维度介入视听行业领域,甚至渗透到我们生活的方方面面,带来跨时代的改变。因此,我们也要对它未来的发展趋势,带来的机遇、挑战和可能产生的问题做出思考。


OpenAI CEO 山姆·阿尔特曼认为,AI的大模型技术将成为继移动互联网之后最大的技术平台。而以聊天机器人为界面,加上图像、音乐、文本等多模态模型的发展,将诞生许多新一代的大型企业。在此背景下,我们现在能够看到的ChatGPT等应用只是冰山一角,隐藏在背后的是更加丰富的应用场景。当大量科学研究和技术研发都将能够通过AI来加速推进,算力(芯片)必将成为产生算法突破的基石。产业竞争不断升级,那么不可避免地,大资本也将成为影响算力竞争的基础。大模型的实现有赖于海量数据的获得和积累,计算机的算力,甚至包括芯片的竞争,都可能成为未来行业,甚至是全世界技术竞争的核心问题。


伴随着技术、硬件、软件和算力的提升,云端竞争的时代已经到来。我们的实体行业都不可避免被卷入云端的竞争当中,内容的汇聚,芯片层、框架层、模型层、应用层等各个环节都被卷入。未来的用户对于云端的需求也会更加聚焦在智能服务当中。怎么样能立于不败之地?我们的模型是不是善于计算、利于计算,并且能够表现出来足够的智能化水平,这些都是未来的竞争当中我们需要面对的问题。除了应用层面以外,当然还包括监管层面的一些问题。这些都是我们对大语言模型未来发展前景提出的一些追问。

普京对美国人工智能得出美国登月任务照片是假的结论感兴趣

【美国人工智能在莫斯科“人工智能世界之旅”会议的展览上告诉俄罗斯总统弗拉基米尔•普京,美国登月任务的照片是假的,中国月球车的照片并没有任何需要格外质疑的问题。普京对人工智能的这个结论很感兴趣。】

在参观展览时,普京了解了俄罗斯储蓄银行识别虚假照片和视频的解决方案。该银行数据研究部门领导尼古拉·格拉西门科讲述了他使用美国谷歌公司的人工智能工作的经历,研究人员提议使用该人工智能对美国登月任务的照片进行分析。

格拉西门科告诉普京:“在这个任务中,他们的人工智能用红色标记出它认为造假的地方。也就是说,这张照片中几乎所有的物体在他看来都是假的。与此同时,在它看来,中国月球车的照片并没有任何需要格外质疑的问题。”

俄罗斯储蓄银行行长格尔曼·格列夫“为了避免偏见”强调,这样的结论是由美国的人工智能在众多参数基础上得出的,而不是由俄罗斯得出。

普京回答:“有趣”。

美国国务院发布:《2024—2025财年AI战略:通过负责任的AI赋能外交》

2023年11月9日,美国国务院发布《2024—2025财年AI战略:通过负责任的AI赋能外交》(EAIS),这是美国国务院第一份全面迎接AI时代的到来提出的应用指导性文件。为负责任地、安全地利用AI来推进美国外交工作,该战略文件确定了4个目标:

(1)利用安全的AI基础设施;

(2)培育拥抱AI技术的文化;

(3)确保负责任地应用AI;

(4)创新改革。

元战略编译文件重要内容,为探讨美国国务院如何通过负责任的AI赋能外交提供参考。

目标1:利用安全的AI基础设施

将AI技术集成到可持续和安全的AI使能基础设施中,以便在整个国务院构建和扩展各种AI应用。

目标1.1:实现AI技术集成

为构建和扩展各种AI技术,国务院将把有影响力的AI技术整合到可持续的、AI基础设施中,并把安全作为重中之重。国务院将努力提供与用户能力相称的AI功能,并将开源、商业可用和定制的AI系统结合起来。符合“零信任”原则的强大访问控制和身份验证机制将降低未经授权访问AI技术和部门数据的风险,以保障安全。

目标1.2:利用基础设施大规模应用AI

国务院将依靠强大的技术基础设施,进一步实现AI技术的计算、开发、测试、部署和持续监控,同时保护部门的数据和安全。通过利用信息资源管理局(IRM)的资源以及与信息技术执行委员会(ITEC)的整合,国务院将设计并实施辅助技术架构,以便将AI组件集成到现有的基础设施和数据管道中。为满足AI开发的计算需求,基础设施将利用云解决方案和可扩展的基础设施服务,并依靠数据加密机制、强大的网络安全、多因素身份验证和定期数据备份等方面的专业知识以保护其数据安全。

目标1.3:实现采购AI工具的现代化

国务院的IT采购部门将与首席数据和AI官(CDAO)、负责的AI官(RAIO)、首席创新官(CIO)及其他人员合作,根据适用的法律法规,努力简化优先AI技术的审批和采购,以满足国务院潜在用例的需求。这包括审查信息技术采购管道,以提高效率,同时保持联邦风险与授权管理项目(FedRAMP)、信息技术变更控制委员会(ITCCB)、操作授权(ATO)流程和其他审批机制提供的保障,并遵循联邦相关准则。为了对投资机会进行优先排序,国务院将利用首席数据和AI官等关键部门的协调和发布的FedRAMP框架,确定AI可产生最大影响的用例,并在采购之前,根据安全协议和风险评估流程对AI技术进行评估。国务院的采购和开源审批流程将得到进一步发展,以实现AI部署的灵活性和简化,国务院将评估供应商的要求并为部门合同制定新措辞,这将确保合作伙伴在安全、风险管理和透明度方面与国务院达到相同的标准,并将这些要求写入合同中。

目标2:培养拥抱AI技术的文化

通过培训、持续学习的文化以及以维护最高级别的数据和科学完整性的方式使用急需的AI技能,增强员工队伍的能力,满足他们对AI的不同需求。

目标2.1:提供AI培训和辅助服务

国务院将提供专门的AI学习机会,以满足其员工队伍的不同需求,提高AI素养,鼓励和教育负责任地使用AI,并确保用户能够充分降低AI工具相关的风险。随着AI被整合到部门基础设施和现有技术平台中,员工必须了解这些技术是什么,以及如何安全地使用和应用。国务院将在美国外交学院(FSI)的领导下,通过开展多层次的培训,提高技术和非技术用户对AI工具的熟练程度。为进一步支持用户,国务院将开发针对具体技术的资源,以帮助识别、探索和解释AI,并促进会议交流。国务院将召集实践社区,分享AI资源、使用案例和最佳做法,并制定与AI技术配套的具体影响指标,为使用的预期效益确定参数。

目标2.2:为AI人才开发新机会

国务院将招聘和雇用AI专业人才,特别是那些了解AI技术、科技、原则和道德规范的人才,他们将在部门采用负责任的AI过程中发挥关键作用。国务院将首席数据和AI官的指导下,在成功聘用一批数据科学从业人员的基础上再接再厉,并通过开发新的AI重点的岗位(如数据科学家、运营研究员和IT专家),以及部署支持、吸引和留住AI人才的计划,为技术从业人员提供新的机会。

目标2.3:促进负责任地使用AI

在使用AI的早期阶段,国务院必须在确保负责任的AI实践(包括通过尊重和促进安全、隐私、公平和其他核心原则)的同时,抓住机遇。就像企业数据战略(EDS)旨在培养数据文化一样,国务院将在整个机构内渗透关于负责任地使用AI的价值观,包括维护数据和科学的完整性。国务院将通过培训员工何时以及如何有效、安全、合法地使用AI工具,将负责任地使用AI工具常规化。通过开发跨学科培训课程,使员工掌握AI风险和风险缓解技术的基本知识,以增强有效使用AI的能力,维护数据和科学的完整性,同时也认识到伴随每个AI应用的可接受风险水平。此外,通过遵守适用法律以及AI治理和政策指南,最大限度地降低AI的使用风险。

目标3:确保负责任地应用AI

确保可信和合乎道德地使用AI;确保数据隐私和安全,管理算法风险;减少伤害、偏见和不公平;评估数据质量,同时提供适当的AI数据的访问权限,为决策和操作提供信息。

目标3.1:建立和维护AI管理和政策

通过机构数据和AI委员会(EDAC)、AI指导委员会(AISC)和数据治理网络,监督和管理风险,遵守主要指令(如行政命令)中规定的原则、指导方针、工具和做法,并制定其他政策,以确保应用AI符合法律和政策,以及负责任和合乎道德的使用标准。国务院的首席数据和AI官将支持和协调AI政策的建立和维护,这些政策将为负责任地使用AI、管理AI模型提供了明确的指导方针,并优先评估和管理AI应用程序在其整个生命周期中的算法风险,包括与记录保留、隐私、网络安全等相关的风险。这一承诺涉及许多数据科学学科,如数据收集、提取、转换和加载;生产中的模型选择、开发、部署和监控;以及统计方法等。针对系统维护、重新校准和停止使用的AI合规计划和协议将防止意外的偏差和功能。国务院将为开发和采购制定安全AI的最低风险管理措施。根据首席数据和AI官的指示,负责的AI官将定义安全的AI用例。国务院将定期进行安全和可信度评估和内部审计以管理风险,包括单独的风险和由于人类用户造成的风险,并应对威胁、以减少偏见和保护数据。国务院制定的政策和指导方针将考虑到数据的安全性和隐私性,并确保对新的AI用例进行法律和政策审查的程序清晰且透明。

目标3.2:通过中介适当获取AI数据

国务院将简化并确保适当访问内部、机构间和第三方数据,以便以透明的方式获取AI数据。在适当的情况下,Data.State平台将根据法律和保护措施提供相关企业的数据访问。必要时将适用保障措施、协议和数据管理标准,此外还将适用数据共享协议,这些协议反映了国务院在其技术平台中以及与供应商之间的数据使用政策。

目标3.3:保证数据质量

高质量的数据集是指不存在不完整、不一致或不正确数据的数据集,同时也是有据可查、有条理和安全的数据集。国务院将通过在AI用例层面实施对用户公开的强大数据清理和质量保证、评估和监控流程保持可靠、高质量的数据,使其适合AI的使用、开发、运行和评估。国务院将开发和实施数据质量评估工具和监测流程,其结果将对用户公开。还将对其他AI平台的数据输出进行评估,以最大限度地降低风险。

目标4:创新改革

确定、试验和推广一系列成功的解决方案,通过应用AI成为部门流程的积极创新者,同时与部门外负责任的AI创新者建立合作伙伴关系,以巩固成功。

目标4.1:发现机遇

国务院将利用AI推进美国外交工作,以创业的方式磨练其识别AI机遇的能力。国务院将在各大会议论坛上确定潜在的AI用例,并帮助员工确定AI技术的应用。国务院将利用数据运动以及数据治理网络、实践社区、各局的AI论坛、会议、创新渠道、AI培训课程、各局首席数据官以及其他渠道来寻找AI机遇。依靠公共外交和公共事务专业人员、美国外交学院(FSI)、首席人工智能官(CAIO)理事会、校友网络、行业协会、私营技术领导者以及与领先的AI供应商建立的战略伙伴关系。最后,实施一项新的部门AI资助战略,以推动优先考虑的AI用例,并提供充足的资源。

目标4.2:促进负责任的试验

负责任的创业试验将确保国务院在采用AI方面取得长期和具有成本效益的成功。国务院将利用共享资源,包括技术专家的专业知识,并寻求新的资金,以建立一个创新沙盒环境,让来自各地的从业人员都可以将其想法付诸实践。在这些沙盒中,国务院将进行低风险试验,利用安全可控的数据测试新的AI工具,并为部署建立经验案例。为加快AI技术的使用,国务院将提供集中访问共享AI用例、模型、数据集和应用程序的途径,以整合专业知识,有效评估进展,避免重复,并找出能力差距。根据首席数据和AI官的授权,负责的AI官将监督现有AI用例清单的维护工作,该清单将以通俗易懂的语言加以强化,以告知用户正在使用的AI技术、目的和相关风险水平,并为开发人员提供可用的示例模型。

目标4.3:复制成功模式

随着国务院部门人员对AI用例的试验和识别,某些用例将被证明具有广泛价值,值得在更大的范围内复制。国务院将强调与机构间首席数据和AI官、负责的AI官和首席创新官、从事应用AI工作的机构以及学术界、工业界和外交界负责任的AI从业人员网络的合作,以传播最佳实践并推广成功经验。合作伙伴关系将成为AI创新的前沿。通过制定明确的评估准则,要求在扩大规模之前对AI系统进行测试,以确保其功能准确、安全、可靠,然后才能在生产环境中启用AI功能,并获取部门数据,AI系统的输出将遵循联邦政府的透明度准则。

展望未来

要在整个国务院加强对AI的使用,需要广泛的协调、领导层和工作层的配合、财政和技术支持、训练有素的员工队伍、彻底有效的法律和政策审查流程,以及部门数据和AI文化的转变,以创造本战略中概述的可持续性变革。作为国务院的AI管理机构,AI指导委员会其成员包括首席数据和AI官、负责的AI官、副法律顾问、负责隐私的高级机构官员及其他人员将监督本战略的实施,并定期向机构数据和AI委员会和负责管理与资源的副国务卿(D-MR)报告进展情况。机构数据和AI委员会将提供战略指导,并监督与负责任地开发、部署、获取和使用AI相关的政策制定。AI指导委员会、负责的AI官、管理战略与解决方案办公室(M/SS)和信息资源管理局将支持利益相关者的持续参与,并向国务院领导层倡导安全、负责任地使用AI。

为了在整个部门有效地采用AI,必须完成本战略中规定的目标。首席数据和AI官在战略实施过程中的领导作用将确保协调工作,为负责任的AI开发、部署和使用奠定坚实的基础。定期审查本战略实施的进展将在与AI指导委员会和机构数据和AI委员会的定期报告审查中进行,并制定和报告国务院关于数据信息外交的机构优先目标(APG)。国务院将评估该战略的进展和成就,为AI战略的未来迭代或未来数年类似的战略计划提供信息。

AI技术再刷屏!明星集体“说”外语,有何风险?

日,一段美国歌手泰勒·斯威夫特“说”中文的短视频在网络刷屏,引发热议。

视频中,泰勒·斯威夫特“说”着流利中文,音色和讲母语时的音色类似,甚至连口型都能对上。

类似的视频还有很多外国人“说”地道中文、很多中国艺人“说”起流利的英文……不少网友感叹,“嘴型、手势都对得上,太自然了,差点儿以为是真的。”“除了嘴形,还有身体动作和语速的配合。”
其实,这些视频有一个共同点:都是由AI(人工智能)生成的。

AI“翻译”以假乱真

小编试用了一款AI人像视频工具,只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的新视频。

对比原片,AI“翻译”后重新配音的新视频不仅进行了较准确翻译,而且连声线和情绪都近乎拟真,嘴型很贴合,难辨真假。

对此,有网友表示,这种技术看起来很炫酷,应用场景很广泛,未来可能会越来越成熟,比如翻译配音会更自然、传神。

但也有网友表示担忧,“这会不会被用来模仿声音进行诈骗?”“再加上换脸,以后网上啥都不能信了。”“以后视频造假会越来越容易。”还有网友表示,“希望AI技术发展能被控制在正轨,技术滥用,就是灾难。”

AI技术是把“双刃剑”近年来,AI技术被广泛应用于短视频的二次创作,比如AI换脸及换声等。可以说,AI技术是把“双刃剑”。一方面,AI换脸及换声技术对于工作效率的提高具有非常强的作用。清华大学新闻与传播学院教授司若举例说,AI换脸及换声技术让已故的演员、历史人物可以通过换脸技术重现在屏幕上,在不同国家的语言转译上也可以通过AI的换声技术进行实时转译。另一方面,近年来,有不法分子为了牟利,利用AI技术进行诈骗。比如利用AI换脸冒充熟人诈骗,甚至将“魔爪”伸向儿童,或者制作发布假新闻混淆视听、赚取流量等。

△一位博主讲述人贩子利用AI“换脸”把孩子拐走的案例,与孩子视频的所谓“妈妈”是AI合成的。来源:贾姨儿童安全此外,AI换脸、AI换声还存在法律风险。近期,不少相声演员“说”英文相声、小品演员“演”英文小品的视频在网络上传播。对此,北京岳成律师事务所高级合伙人岳屾山律师表示,用AI技术为他人更换声音、做“翻译”并发布视频,可能涉嫌侵权,主要有三个方面:

  • 一是著作权,例如相声、小品等都属于《中华人民共和国著作权法》保护的“作品”。网友用AI软件将相声、小品等“翻译”成其他语言,需经过著作权人授权,否则就存在侵权问题。
  • 二是肖像权,根据《中华人民共和国民法典》,任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。网友用他人形象制作视频,并在网站发布,需要取得肖像权人的同意,否则涉嫌侵权。
  • 三是声音权,根据《中华人民共和国民法典》规定,对自然人声音的保护,参照适用肖像权保护的有关规定。也就是说,需要取得声音权人的同意,才能够使用他人的声音。

岳屾山律师强调,技术滥用,可能会侵犯他人权益,“AI技术本身不是问题,关键是我们要怎么用它。”

如何对AI技术加强监管?

AI技术发展,需要多层面约束规范——

  • 源头端,需要进一步加强公民个人信息保护。专家建议,加强公民信息尤其是生物特征等隐私信息的技术、司法保护力度。
  • 技术层面,数字水印鉴伪等技术有待进一步普及利用。比如AI生成的视频需带有不可消除的“AI生成”水印字样。
  • 法律制度层面,进一步完善人工智能等领域相关法律法规。今年8月15日,《生成式人工智能服务管理暂行办法》正式施行。《办法》规定,提供和使用生成式人工智能服务,应当尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。

中国科学技术大学公共事务学院、网络空间安全学院教授左晓栋表示,总体而言,生成式人工智能仍处于发展的初期阶段,风险没有完全暴露,应用前景难以估量,所以应当采取包容审慎的态度,坚持发展和安全并重、促进创新和依法治理相结合,要采取有效措施鼓励生成式人工智能创新发展。据了解,目前我国人工智能产业蓬勃发展,核心产业规模达到5000亿元,企业数量超过4300家。随着各项措施规范出台,我们期待未来人工智能发展更加健康规范,从多方面助力人们的工作和生活。

9位院士Science发表长文:人工智能的进展、挑战与未来

2023年1月3日,海内外9位院士及12位专家在Science《科学》合作期刊Intelligent Computing发表长篇综述论文《智能计算的最新进展、挑战和未来》。文章全面阐述了智能计算的理论基础、智能与计算的技术融合、重要应用、重大挑战和未来前景,将为 学术界和工业界的相关研究人员提供全方位的参考和对智能计算领域的指引性见解。

人类社会正从信息社会进入智能社会,计算已成为推动社会发展的关键要素。在万物互联的数字文明新时代,传统的基于数据的计算已经远远不能满足人类对更高智能水平的追求。近年来,计算和信息技术飞速发展,深度学习的空前普及和成功将人工智能(AI)确立为人类探索机器智能的前沿领域。自此产生了一系列突破性的研究成果,包括Yann LeCun提出的卷积神经网络和Yoshua Bengio在深度学习因果推理领域的成果。

2016年3月,DeepMind推出的AI围棋程序AlphaGo与世界顶尖围棋高手李世石对战,在世界范围内引起了前所未有的关注。这场划时代的人机大战以AI的压倒性胜利而告终,成为将AI浪潮推向全新高度的催化剂。

AI的另一个重要推动者是大型预训练模型的出现,这些模型已经开始广泛应用于自然语言和图像处理,以在迁移学习的帮助下处理各种各样的应用。其中最具代表性的是自然语言处理模型GPT-3,已经证明具有高度结构复杂性和大量参数的大模型可以提高深度学习的性能。

计算能力是支撑智能计算的重要因素之一。面对信息社会中庞大的数据源、异构的硬件配置和不断变化的计算需求,智能计算主要通过垂直和水平架构来满足智能任务的计算能力要求。

垂直架构的特点是同质化的计算基础设施,主要通过应用智能方法提高资源利用效率来提升计算能力。

相比之下,水平架构对异构和广域计算资源进行协调和调度,使协作计算的效果最大化。例如,2020年4月,针对全球COVID-19研究的计算需求,Folding@home在三周内联合40万名计算志愿者,实现了2.5Exaflops的计算量,超过了世界上任何一台超级计算机。尽管在智能和计算方面取得了巨大成功,但我们在这两个领域仍然面临着一些重大挑战:

智能方面的挑战。

使用深度学习的AI目前在可解释性、通用性、可进化性和自主性方面面临着重大挑战。与人类智能相比,当前大多数AI技术的作用都很弱,而且只能在特定领域或任务中发挥良好作用。从基于数据的智能升级到更多样化的智能,包括感知智能、认知智能、自主智能和人机融合智能等,也面临着重大的理论和技术挑战。

计算方面的挑战。

数字化浪潮带来了应用、连接、终端、用户以及数据量前所未有的增长,所有这些都需要巨大的计算能力。满足如此快速增长的计算能力需求变得越来越具有挑战性。智能社会中的巨型任务依赖于各种特定计算资源的高效组合。此外,传统的硬件模式不能很好地适应智能算法,制约了软件的发展。

迄今为止,智能计算还没有一个被普遍接受的定义。考虑到世界的三个基本空间,即人类社会空间、物理空间和信息空间日益紧密融合,我们从解决复杂的科学和社会问题的角度提出了智能计算的新定义:

智能计算是支撑万物互联的数字文明时代新的计算理论方法、架构体系和技术能力的总称。智能计算根据具体的实际需求,以最小的代价完成计算任务,匹配足够的计算能力,调用最好的算法,获得最优的结果。

智能计算的新定义是为响应人类社会、物理世界和信息空间三元融合快速增长的计算需求而提出的。智能计算以人为本,追求高计算能力、高能效、智能和安全。其目标是提供通用、高效、安全、自主、可靠、透明的计算服务,以支持大规模、复杂的计算任务。图1为智能计算的整体理论框架,它体现了支持人类社会—物理世界—信息空间集成的多种计算范式。

智能计算是数字文明时代支撑万物互联的新型计算理论方法、架构体系和技术能力的总称。利用智能计算可以实现许多经典和前沿研究领域的创新,以解决复杂的科学和社会问题。智能计算的基本要素包括人的智能、机器的能力以及由万物组成的物理世界。

在理论框架中,人是智能计算的核心和智慧的源泉,代表着原始的、与生俱来的智能,称为元智能。

元智能包括理解、表达、抽象、推理、创造和反思等人类高级能力,其中包含人类积累的知识。元智能以碳基生命为载体,是由个体和生物群体经过百万年的进化产生的,它包括生物具身智能、脑智能(尤其是人脑)和群体智能。所有的智能系统都是由人类设计和建造的。

因此,在智能计算的理论体系中,人类的智慧是智能的源泉,计算机是人类智能的赋能。我们称计算机的智能为通用智能。

通用智能代表计算机解决具有广泛外延的复杂问题的能力,以硅基设施为载体,由个体和群体计算设备产生。生物智能可以在以下四个层次上移植到计算机上:数据智能、感知智能、认知智能和自主智能。元智能和通用智能如图2所示。

智能计算面临大场景、大数据、大问题、泛在需求的挑战。算法模型变得越来越复杂,需要超级计算能力来支持越来越大的模型训练。目前,计算资源已经成为提高计算机智能研究水平的障碍。随着智能算法的发展,拥有丰富计算资源的机构可能形成系统的技术垄断。经典的超级计算机已经难以满足AI对计算能力的需求。

虽然通过算法优化可以在一定程度上降低算力需求,但并不能从根本上解决这个问题。需要从架构、加速模块、集成模式、软件栈等多个维度进行全面优化,如图3所示。

在理论技术上具有以下特点(图4):理论技术上的自学习和可进化性,架构上的高计算能力和高能效,系统方法上的安全性和可靠性,运行机制上的自动化和精确性,以及服务性上的协作和泛在性。智能计算包括两个本质方面:智能和计算,两者相辅相成。

智能促进了计算技术的发展,计算是智能的基础。提高计算系统性能和效率的高级智能技术范式是“智能驱动的计算”。支持计算机智能发展的高效、强大的计算技术范式是“面向智能的计算”。

两种基本范式从五个方面进行创新,提升计算能力、能源效率、数据使用、知识表达和算法能力,实现泛在、透明、可靠、实时、自动化的服务。

提高计算的普适性对智能计算至关重要。现实场景中的问题,例如模拟、图(gragh)(图5)等,需要进行各种计算。智能计算的另一个关键点是如何提高计算的智能化水平。从经验上来说,我们常常需要向自然界的智能生物学习,计算也不例外,例如三大经典智能方法:人工神经网络(图6)、模糊系统和进化计算,都是受生物智能启发提出的算法。智能计算理论包括但不限于以上几种计算,以实现高度的泛在化和智能化。

智能系统在开始工作之前,首先要进行智能感知。因此,感知智能在所有智能系统中都起着至关重要的作用。感知智能的重点是多模态感知、数据融合、智能信号提取和处理。

典型的例子包括智慧城市管理、自动潜水系统、智能防御系统和自主机器人。感知智能研究中最热门的领域是模拟人类的五种感觉能力,视觉、听觉、嗅觉、味觉和触觉。

此外,智能传感还包括温度、压力、湿度、高度、速度、重力等,需要大量的计算或数据训练来提高其性能。近年来,随着模式识别和深度学习技术的全面应用,机器的感知智能已经超过人类,在语音、视觉和触觉识别方面取得了重大进展。由于其日益增长的重要性和日益拓宽的应用领域,智能传感器受到了广泛关注。如图7所示,智能传感器具有各种形式以满足不同应用的需求,并且更新更好的型号正在被不断的开发出来。

认知智能是指机器具有像人一样的逻辑理解和认知能力,特别是思考、理解、总结和主动应用知识的能力。它描述了智能体在真实环境中处理复杂事实和情况的能力。数据识别是感知智能的核心功能,需要对图像、视频、声音等各类数据进行大规模的数据采集和特征提取,完成结构化处理。相比之下,认知智能需要理解数据元素之间的关系,分析结构化数据中的逻辑,并根据提炼出的知识做出响应。认知智能计算主要研究机器的自然语言处理、因果推理和知识推理(图8)等领域。通过对人脑的神经生物学过程和认知机制的启发式研究,可以提高机器的认知水平,以使其获得帮助、理解、决策、洞察和发现的能力。

机器从被动输出到主动创造有两个关键要素:强泛化模型和与外部环境的持续交互。自主智能的发展路径从学习单一任务开始,举一反三,逐步达到与环境动态交互的主动学习,最终实现自我进化的高级智能。当前可以通过迁移学习、元学习和自主学习等技术寻找生成自主智能的可行路径。尽管在智能的四个层面上(数据智能,感知智能,认知智能,自主智能)取得了重大进展,但目前仅通过计算/统计模型还难以从极其复杂的场景中实现完全的智能。

在这些场景中,人类应该继续在解决问题和决策中发挥不可或缺的作用,来探索人类认知过程中涉及的要素,并将其与机器智能相结合。下一步,将聚焦于人机交互、人机融合和脑机接口等技术。

AI的发现不断涌现,这在很大程度上归功于不断增长的计算能力。AI的快速变化是由新思想或革命性理论推动的。通常,最新的先进模型仅依赖于更大的神经网络和更强大的处理系统。Open AI研究人员在2018年进行了一项研究,追踪基于计算能力的最大模型的增长情况。利用AI研究史上训练的一些最著名的AI模型所需的计算量,他们发现了计算资源快速增长的两个趋势。开发突破性模型所需的计算能力的增长速度与摩尔定律大致相同,即在2012年之前,单个微芯片的计算能力往往每两年翻一番。但图像识别系统AlexNet在2012年发布时引起了人们的新兴趣。AlexNet的引入刺激了顶级模型的计算需求急剧增加,从2012年到2018年,这种需求每3到4个月翻一番,如图9所示。

当摩尔定律失效时,超大算力主要依赖于海量计算、内存和存储资源的并行叠加。例如,“高性能计算”是指将大量计算机快速联网成一个“集群”以进行密集计算的做法,使用户能够比传统计算机更快地处理大量数据,从而获得更深入的洞察力和竞争优势。此外,得益于云计算(图10),用户现在可以选择增加其高性能计算程序的容量,从而继续提高算力。

推进智能计算架构创新的目标包括更高效的能源管理、更低的功耗、更便宜的总芯片成本以及更快速的错误检测和纠正。当涉及某些无法在CPU上执行的AI操作时,AI加速器可能会大大减少训练和执行时间。在短期内,所使用加速器的架构专业化将是保持计算能力增长的最佳方式,如图11所示为已公开发布的AI加速器和处理器的峰值性能与功耗。另外,内存计算(图12)是一个非常有效的方案,它能够使内存单元执行原始逻辑操作,因此它们可以在不需要与处理器交互的情况下进行计算,这是内存和处理器之间不断扩大速度差距的主要原因。

复杂性是传统计算机进一步突破的瓶颈。当今高度复杂的AI模型(例如深度神经网络)在边缘设备中仍然难以实现普遍使用。这是由于运行这些模型的高级GPU和加速器存在功率和带宽紧缩的缺陷,导致处理时间长并且架构设计繁琐。由于这些问题,研究人员开始创造新的计算模式,主要包括:量子计算(图13),因为其具有纠缠或其他非经典相关性带来的量子优势,可以在许多复杂的计算问题中实现指数速度;神经形态计算(图14)的构造和操作受到大脑中神经元和突触的启发,因其能源效率高而非常适合计算,神经形态计算是事件驱动和高度并行化的,这意味着只有小部分系统同时工作,所以消耗的功率非常小;光子计算(图15)与电神经网络相比具有许多优势,包括超高带宽、快速计算速度和高并行性,所有这些都是通过使用光子硬件加速来计算复杂的矩阵向量乘法来实现的;生物计算(图16)是利用生物系统固有的信息处理机制发展起来的一种新的计算模型,主要包括蛋白质计算机、RNA计算机和DNA计算机,具有并行和分布式计算能力强、功耗低的优势。

如果要跟上当前科学的快速发展,就必须不断的进行革新。现在正在进行的计算机革命的融合将以前所未有的方式极大地推动科学发现的进步。几十年来,计算材料(图17)已成为研究材料特性和设计新材料的有力手段。然而,由于材料和材料行为的复杂性,它们的应用面临许多挑战,包括缺乏许多原子、离子以及原子和离子相互作用的力场和电位,分子动力学模拟中的不同热力学相,以及优化材料成分和工艺参数的巨大搜索空间。作为一种新的研究范式,AI集成到计算材料中是对传统计算材料的革命,并且已经在多长度、多时间尺度、多物理场耦合计算方面取得了巨大成功。

作为最古老的观测科学之一,天文学在历史上收集了大量数据。由于望远镜技术的突破,收集到的数据爆炸性增长。天文学和天体物理学领域的特点是拥有丰富的数据和各种大口径的地面望远镜,例如即将推出的大型巡天望远镜和天基望远镜。使用高分辨率相机和相关工具,数据收集现在更加高效,并且在很大程度上实现了自动化,必须进行更高效的数据分析。因此,需要智能计算技术来解释和评估数据集。药物设计同样受益于AI(图18),AI可以帮助科学家建立蛋白质的3D结构、模拟药物和蛋白质之间的化学反应以及预测药物的功效。在药理学中,AI可以用于创建靶向化合物和多靶点药物。利用AI还可以设计合成路线、预测反应产率并了解化学合成背后的机制。AI让重新利用现有药物来治疗新的治疗目标变得更加容易。此外,AI对于识别不良反应、测定生物活性和获得药物筛选结果至关重要。

随着大数据和AI技术使用的增长,作物育种开始进行融合与突破(图19)。AI技术可以支持服务的创建、模型的识别以及农业食品应用和供应链阶段的决策过程。AI在农业中的主要目标是准确预测结果并提高产量,同时最大限度地减少资源使用。因此,AI工具提供的算法可以评估产量,预测难以预见的问题或事件以及发生趋势。从种植到收获再到销售,AI促进了整个农业价值链。

智能计算加速转型变革,导致经济和社会秩序的转变。由于技术进步,商品和劳动力市场正在发生巨大变化,数字社会正在逐渐形成(图20)。AI应该成为数字经济中每一个数据驱动战略的核心,包括工业4.0。例如,人工智能可以应用于预测性维护。预测性维护包括涉及通用设备或生产机械的维护,并使用来自生产线或运营线的传感器数据帮助降低运营费用或停机时间。另外。AI可以应用于城市治理,通过开发新的策略和方法,使城市更智能。智慧城市治理旨在利用最先进的信息技术同步数据、程序、权限等,造福城市居民,主要包含四个方面:

智慧决策、智慧城市治理、智慧行政和智慧城市合作。

从新兴产业生态的角度来看,智能计算产业仍面临着一系列挑战,决定着其未来发展。
第一,与传统计算理论相比,智能计算是语言和生物学驱动的计算范式的应用和发展。
这意味着机器可以根据不同的场景模仿人脑解决问题和决策的能力。然而,硅基和碳基运算的底层逻辑存在根本差异,大脑智能的机制仍有待进一步探索。智能计算的下一步是通过深入探索类人智能的基本要素,其在宏观层面的相互作用机制以及在微观层面上支持不确定性生成的计算理论,进行彻底的改革。
第二,探索人类如何学习并将其应用到AI的研究中具有重要意义。
知识驱动的机器智能可以从人类活动中学习,模仿人脑的决策能力,使机器能够像人一样感知、识别、思考、学习和协作。需要探索多知识驱动的知识推理和持续学习的理论和关键技术,使智能系统具有类人的学习、感知、表示和决策能力,促进智能计算从数据驱动向知识驱动演进。
第三,软硬件适配面临着巨大的挑战,如精度损失、调用困难、协作效率低下等。
未来,计算机必须突破冯·诺依曼体系结构下固定的输入和处理范式,大力发展交叉学科的智能计算和仿生学。在算法层面进行设计,突破现有架构的局限,以更低的计算和硬件设计成本尝试更灵活、更人性化的数据处理方式。此外,开发高性能、低能耗的新型组件设计方案,提高软件和硬件的计算能力和效率,以满足快速增长的需求和智能计算应用也很重要。
第四,智能计算的理论技术架构是一个复杂的系统,具有多个与其他学科相互作用的子系统。
系统中的各种硬件需要更复杂的系统设计,更好的优化技术,以及系统调优的更大成本。高维计算理论复杂性的缺乏是大规模计算系统面临的主要挑战。

当前,我们正迎来人类发展的第四次浪潮,正处于从信息社会向人类社会-物理世界-信息空间融合的智能社会的关键转型期。在这种转变中,计算技术正在经历变革,甚至是颠覆性的变化。智能计算被认为是未来计算的发展方向,不仅是面向智能的计算,而且是智能赋能的计算。它将提供通用、高效、安全、自主、可靠和透明的计算服务,以支持当今智能社会中大规模和复杂的计算任务。本文全面回顾了智能计算的理论基础、智能与计算的技术融合、重要应用、挑战和未来方向。我们希望这篇综述能为研究人员和从业者提供一个很好的参考,并促进未来智能计算领域的理论和技术创新。