【重磅发布】美图公司推出MiracleVision 4.0,引领AI设计未来潮流!

厦门,12月5日-6日,美图公司在厦门举行了盛大的创造力大会[Meitu Creativity Conference],展示其最新研发的AI视觉大模型MiracleVision 4.0版本。这一重磅发布标志着美图公司在人工智能领域的又一重要里程碑,将引领AI设计和AI视频的未来潮流。

MiracleVision 4.0:开启AI设计新篇章

在本次大会上,美图公司展示了其自研的AI视觉大模型MiracleVision 4.0版本,该模型主打AI设计与AI视频。在AI设计方面,MiracleVision 4.0带来了新塔矢量图形、文字特效、智能分层、智能排版四大能力,为设计师提供了更高效、更智能的设计工具。同时,美图公司还上线了全新的视觉模型商店,支持创建个人视觉模型,为设计师群体实现独特的艺术追求提供了强大的支持。

AI视频:创新视频制作领域

在AI视频方面,MiracleVision 4.0新增了文生视频、图生视频、视频运镜、视频生视频四大能力,将视频制作提升到了全新的高度。目前,MiracleVision的AI视频能力已经能够融入行业工作流,尤其是在电商和广告行业,为视频制作带来了无限的可能性。

产品体验:感受AI设计的魅力

为了让用户更早体验到MiracleVision 4.0的强大功能,美图公司表示将于2024年1月陆续上线至美图旗下产品,届时用户可以在美图秀秀、美颜相机、Wink、美图设计室、WHEE等产品中体验到这一创新技术带来的便捷与高效。

未来展望:持续探索AI设计领域

美图公司的这次发布无疑在AI设计领域投下了一颗重磅炸弹,MiracleVision 4.0的强大功能和便捷性将有望引领AI设计的未来潮流。作为一家以“科技美学”为核心的企业,美图公司一直致力于利用人工智能技术为用户提供更优质的服务。此次发布是美图公司在AI设计领域的又一重要里程碑,也预示着未来将有更多创新和突破。

我们期待看到美图公司未来在AI设计领域的更多探索和发展,以及这一创新技术如何改变设计师的工作流程和行业生态。让我们一起拭目以待!

人工智能模型初创公司 Liquid AI 获 3650 万美元种子轮融资

Liquid AI 是一家基于所谓的液体神经网络设计开发人工智能模型的初创公司,旨在构建一种全新类型的人工智能,被称为液态神经网络。这一创新性的技术基于液态神经网络架构,相较传统模型更小巧、可解释,且具有动态适应性。今天宣布已筹集 3760 万美元的种子资金。本轮融资由 OSS Capital 和 PagsGroup 领投,估值达 3.03 亿美元。该公司由 MIT 计算机科学与人工智能实验室主任 Daniela Rus 联合创立,致力于将其对液体神经网络的研究商业化,这是一种新型人工智能,可以比传统模型更可靠地执行某些任务,并且功耗显著降低。

谷歌发布新一代 AI 大模型 Gemini 1.0

当地时间12月6日,谷歌CEO桑达尔·皮查伊宣布,谷歌的最新人工智能大模型Gemini 1.0正式上线。这一重要更新将进一步强化谷歌在大模型领域的领先地位。

据皮查伊介绍,Gemini 1.0是谷歌迄今为止最灵活、最强大的模型之一,具有复杂多模态推理能力,可以同时处理多种类型的信息。这种能力使得Gemini 1.0在处理复杂的语言任务时具有显著优势。

在设计和训练方面,Gemini 1.0原生地支持多模态,这意味着它能够从文本、图像、音频和视频等多种模态中学习,从而在处理复杂任务时达到最优效果。

此外,Gemini 1.0还经过了严格的测试和评估,其在32个学术基准测试集中有30个测试集的性能超过当前SOTA结果。在具体应用方面,Gemini 1.0具有广泛的应用场景。

例如,它可以用于科学研究和金融等领域,帮助人们从海量数据中提取洞察力。此外,Gemini 1.0还可以用于教育领域,帮助学生更好地理解复杂学科的知识。

值得注意的是,Gemini 1.0的发布标志着谷歌在大模型领域的竞争进一步升级。此前,谷歌已经推出了自己的类ChatGPT应用Bard,并将其升级到了Gemini Pro版本。随着微软和OpenAI合作的不断深入,谷歌必须通过推出强大的新产品来保持其竞争力。

按照模型参数和应用方向, Gemini 1.0目前发布三个版本:

1️⃣Gemini Ultra—用于高度复杂任务,对标GPT-4,谷歌迄今为止创建的最强大LLM最大,能够完成高度复杂的任务,主要面向数据中心和企业级应用。

2️⃣Gemini Pro—用于各种可扩展任务,对标GPT3.5,是性能最好的模型,用于广泛的任务。它会为许多谷歌的AI服务提供动力,并且从今天起,成为Bard的支柱。

3️⃣Gemini Nano—用于设备端的任务,是最高效的模型,可以在安卓设备上本地和离线运行,Pixel 8 Pro的用户就能马上体验到,其中,Nano-1的参数为1.8B,Nano-2为3.25B。

除了Gemini大模型外,谷歌在今天还发布了迄今为止最强大、最高效,并且可扩展的TPU系统—Cloud TPU v5p,专为训练尖端的AI模型而设计,有助于加速Gemini的发展,帮助开发人员和企业客户更快地训练大规模生成式AI模型,开发出新产品和新功能。

AMD推出重磅AI芯片挑战英伟达,对行业前景预测高度乐观

AMD公司在加利福尼亚州圣何塞举行的活动中宣布了新的重磅AI芯片MI300系列,直接将目标对准了由英伟达控制的新兴市场领域。据该公司介绍,这款新的AI芯片能够比竞争对手的产品更快地运行人工智能软件。此次发布的产品阵容是AMD 50年历史上最重要的产品发布之一,旨在与市场主导者英伟达展开激烈竞争。

Instinct MI300X加速器,由8个MI300X组成,提供高达1.5TB的HBM3内存容量,相比上一代的Instinct MI250X,MI300X系统计算单元多出接近40%,还有1.5倍的内存容量,以及1.7倍的峰值理论内存带宽;与H100 HGX相比,Instinct MI300X加速器在运行大语言模型推理时的吞吐量和时延表现要明显高出一截,在各项AI和HPC项目中也明显要高一头。Instinct MI300X加速器从12月7日开始发货。

Instinct MI300A加速器,是世界首款专为HPC和AI设计的APU,使用的HBM3内存规格为128GB,与Instinct MI250X相比,MI300A的性能功耗比能接近翻番,目前也已经进入了量产阶段。

锐龙8040系列移动处理器,与上一代同样搭载锐龙AI NPU的7040相比,8040系列在AI任务展现了进一步的提升,在与英特尔的旗舰移动处理器i9-13900H的对比中,AMD的8945HS在多项指标的比较中出现大幅领先的情况。锐龙8040系列总共有9款芯片,预计搭载该系列的电脑将从2024年一季度开始发售。

AMD首席执行官Lisa Su博士在活动上表示,此次推出的MI300系列AI芯片在训练人工智能模型方面的能力可与英伟达的H100相媲美,但在推理方面表现更胜一筹。她对人工智能芯片行业的规模给出了令人瞩目的预测,表示该行业可能在未来四年内增长至超过4000亿美元。

这一预测数字是AMD在8月预测的两倍多,凸显出对人工智能硬件的预期变化之快。AMD此次推出的新芯片拥有超过1500亿个晶体管,内存是目前市场领导者英伟达产品H100的2.4倍。该公司表示,其产品还有相当于英伟达产品1.6倍的内存带宽,进一步提升了性能。

这一新的AI芯片旨在利用庞大数据训练人工智能模型,比传统计算机处理器更高效。AMD预测人工智能处理器将成长为一个4000亿美元的市场,这凸显了对人工智能行业的乐观情绪。根据IDC的数据,2022年整个芯片行业的规模为5970亿美元。随着人工智能技术的快速发展和应用,人工智能芯片市场有望在未来几年内继续保持高速增长。与此同时,英伟达也在积极开发下一代芯片。

H100将被明年上半年推出的H200代替,后者将具有新的高速内存。英伟达还计划在明年晚些时候推出全新的处理器架构。作为全球领先的芯片制造商,英伟达在人工智能芯片市场上的地位不容忽视。然而,AMD此次推出的重磅AI芯片挑战可能会改变这一市场的格局。

此次发布会上,AMD还透露了与微软、甲骨文和Meta Platforms Inc.等科技巨头的合作意向。这些公司都是人工智能领域的重量级玩家,他们的加入无疑将为AMD的AI芯片提供广阔的应用场景和市场前景。

英特尔和AMD等全球50家机构成立人工智能联盟,中国机构和英伟达被排除在外

截至目前,AI联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和AI从业者超过40万人。

据IBM官网今晨透露,包括英特尔、AMD、IBM、Meta、Oracle、Hugging Face、索尼集团、美国达特茅斯学院、美国康奈尔大学、美国耶鲁大学、日本东京大学、Linux 基金会等全球50多个创始成员和合作者,联合发起成立人工智能联盟(AI Alliance),以加速人工智能(AI)技术负责任的创新与发展。

目前,AI 联盟官网 thealliance.ai 已上线。

值得注意的是,此次成立人工智能联盟,并没有包含OpenAI、英伟达,以及中国的企业和研究机构等 AI 行业关键的参与方。

官网显示,AI 联盟是一个由技术创造者、开发者和采用者组成的社区,合作推进植根于开放创新的安全、负责任的AI。AI 联盟以行动为导向,具有明显的国际性,致力于在 AI 技术领域加速和传播开放式创新,以提高 AI 的基础能力、安全性和信任度,并负责任地为世界各地的人民和社会带来最大利益。该联盟汇集了大量的计算、数据、工具和人才,以加速 AI 的开放创新。

具体来说,AI 联盟重点领域包括四部分:一是开发和部署基准和评估标准、工具和其他资源,以便在全球范围内负责任、可扩展地开发和使用 AI 系统等;二是开放基础模型,启用具有多种模式的开放基础模型生态系统;三是培育充满活力的 AI 加速硬件生态系统;四是支持全球 AI 技能建设、教育和探索性研究。

据IBM公布的信息,AI 联盟合作伙伴和合作者巨头包括:新加坡科技研究局 (A*STAR),Aitomatic、AMD、Cerebras、Anyscale、Meta、CERN(欧洲核子研究组织)、Cleveland Clinic、美国康奈尔大学、达特茅斯、戴尔科技公司、洛桑联邦理工学院、苏黎世联邦理工学院、Fast.ai、Fenrir, Inc.公司、菲亚特动力科技软件、耶路撒冷希伯来大学、Hugging Face、IBM、阿卜杜勒·萨拉姆国际理论物理中心 (ICTP)、伦敦帝国理工学院、印度理工学院孟买分校、英特尔、Linux基金会、穆罕默德·本·扎耶德人工智能大学、保加利亚的新型AI研究机构INSAIT、美国国家航空航天局、美国国家科学基金会、纽约大学、甲骨文(Oracle)、NumFOCUS、OpenTeams、LangChain、索尼集团、Partnership on AI、红帽(Red Hat)、Stability AI、慕尼黑工业大学、加州大学伯克利分校计算、数据科学与社会学院、伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校、东京大学、美国耶鲁大学、伦斯勒理工学院等。 

从地区分布来看,AI 联盟成员集中在美国、日本、英国、瑞士等国家和地区。

数据显示,截至目前,AI 联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和 AI 从业者超过40万人。

针对 AI 联盟的成立,IBM 董事长兼首席执行官 Arvind Krishna表示:“我们在人工智能领域不断见证的进步证明了创作者、科学家、学者和商界领袖社区之间的开放式创新与协作。这是定义人工智能未来的关键时刻。IBM很荣幸能够通过 Ai 联盟与志同道合的组织合作,确保这个开放的生态系统推动以安全、问责和科学严谨为基础的创新 AI 进程。”

AMD 首席执行官兼董事长苏姿丰 (Lisa Su)则表示:“在 AMD,我们致力于通过合作推动技术进步。我们行业的历史凸显了开放的、基于标准的开发如何利用整个行业的能力来加速创新并确保技术进步产生最大的积极影响。通过在快速发展的 AI 生态系统的各个方面采用开放标准和透明度,我们可以帮助确保负责任的 AI的变革效益得到广泛利用。”

苏姿丰强调,AMD很荣幸能与其他行业领导者一起成为 AI 联盟的创始成员,并期待共同努力,确保 AI 的快速发展成为积极变革的力量。

(本文源自:钛媒体App)

傅盛:这波AI是百年一遇的生产力革命,一把手要亲自抓

自从ChatGPT诞生之后,全球新一轮创业热潮被点燃。日前,猎豹移动董事长兼CEO、猎户星空董事长傅盛在参加AGI产业先锋营上,以《企业如何进行AI创新》为主题,分享了他对AI的理解。
傅盛早在2016年就布局人工智能产业,已在AI赛道上深耕7年之久。他认为,这波AI不仅是交互革命——未来人与机器的交互会发生巨大的改变,软件、设备包括内部的很多接口都值得重做一遍,而且是百年一遇的生产力革命,是一把手必须亲自抓的战略工程。同时,关于大模型的行业走向,他也给出了自己的看法。以下是我们对部分内容的整理,希望对你有启发。

01

创业十五年,依然在路上
2023年是我自己状态最好的一年。对外看,是ChatGPT来了;对内看,是自己经过不断调整,回归到了一个创业者“在路上”的感觉。当你真正能踏实的从底层开始做的时候,才真正具备了创造力和创新力。当你浮在上面的时候,多是囫囵吞枣,所谓的创新可能都是空中楼阁。

我是第一代互联网产品经理,360的杀毒软件是我带着团队做起来的。开始我们只有五个人,但那时瑞星已经八百人、金山毒霸三四百人。我2008年底离开的时候,团队不超过100人,但PC覆盖率超过了50%。
360的经历给了我非常大的自信,也让我积累了很多技能和认知,尤其是产品易用性和安全性方面的认知,真正做到了Think Different。比如说怎么在方寸之间把交互做到足够好,在安全形势变化时把快速反应做得足够好。
360之后我创办了猎豹移动。当时我发现中国APP比美国做得好,所以就全力做出海。12年做出海,两年后我们的海外月活用户就超过了两亿,14年就上市了,很快。但今天回想,太快不是好事儿,因为无论是个人还是团队,心态都会膨胀的。我们当时就觉得要做伟大的事,不能做别人做过的事,看了一圈看上了AI。那时我就意识到人工智能是一次范式的变化,所以我们16年就坚决投入做AI,拿融资、扩团队、做产品…当时小米的小爱同学,语音识别很大一部分都是我们做的。
今天回想起来是大鸣大放,这种投入在没有摸清路径前很容易造成空烧。
如果从头开始干,我一定会从小团队出发,然后躬身入局,等到自己真正理解的时候,再一点点生长出来。
所以今年ChatGPT出来时,我们的动作就明显比以前要稳扎稳打了。

02

ChatGPT将带来

交互革命和生产力革命
作为一个划时代的应用,我们该怎么看待ChatGPT带来的变化?
第一,它是交互革命。人跟机器的交互会更加简单方便,现在看起来还很复杂的软件和机器,未来的使用门槛会大大降低。这会是一个很巨大的变化,我们整个的交互范式都会发生变化,上一次交互革命——从全键盘到触摸屏造就了苹果,如今所有软件、设备,包括内部的很多接口都值得用AI重做一遍。
举个例子,现在是人围着机器转,比如甲方提了个需求,得有个会沟通、会用电脑的人把客户、老板的意思写成PPT。未来是机器围着人转,甲方只要对着机器说需求,机器直接就能理解,要写个PPT,直接生成,人只要稍微改一改就好了,甚至不需要改。
第二,它是生产力革命,数字化员工会成为公司的标配,比重越大的企业越能胜出。马化腾在一次财报会上说,他以为AI是一个十年一遇的机会,后来仔细一看应该是几百年一遇。我觉得历史上可能只有蒸汽机的出现,可以跟这波AI革命媲美。蒸汽机第一次把热能变成动能,然后这次是电力变成通用智能。

03

大模型的走向
平台核战争场域下,寸草不生
平台核战争已经开启。今天没有一个千亿参数的大模型,你都不好意思叫自己平台公司。
核战争的场域下,寸草不生,小厂在所谓的 AIGC APP 上不会有什么大的机会。今天无论谁做千亿大模型跟大厂竞争,都会遇到巨大的竞争压力,很难扛。因为就算你是创业团队,效率高一点,但是大厂可以堆人,最后的效果就在伯仲之间。那么一两个点的差距,终端用户几乎是没有感知的。

模型的效果基本一致化后,拼的就是商业化。创业公司更没得拼了,因为大厂直接就可以闭环,你只能开辟新的战场。开辟新的战场也有问题,如果你是市长,你是跟腾讯、百度或者华为签,还是跟一个初创公司签?所以大公司下场之后,创业公司会很难。
应用生态决定大模型公司的商业价值


OpenAI 这次11月的开发者大会,刚开始我们内部讨论,感觉它做的并不像一个平台公司干的活,它把生态的很多活干了。因为理论上它应该快点把 GPT-5 推出来,推理能力再进一步加强,然后把多模态做得足够好。结果它把一帮创业者要干的事全给干了,什么0代码构建AI Agent。这些它不是不能干,只是这样干的话,就像很多硅谷公司说它是“给了我 200 美金的优惠券,毁了我 200 万美金的公司。”但这也说明要在大模型上做很多应用是关键。
但是,我不认为大模型应用和创业公司没价值,因为平台和应用是互相促进共同成长的。

比如,iPhone是与应用互相拉动,才成长为平台的。别看iPhone现在是一个很牛的平台:iPhone12、13系列销量均达到2亿部;2022年,App Store应用数量超178万个;处理器在A6系列之后,傲视群雄。
但它不是一下就长成这样的:2007年1月初代iPhone发布,总共卖了130 万台。我买第一部 iPhone 时候是因为它降价了100 美金,本质上就是卖不动。2008年3月支持SDK允许第三方开发APP,推出了APP Store。最开始没有一个部件是苹果自己研发的,是2010年推出A4处理器,苹果才走上自研之路。
再比如国内智能手机的普及,跟一些应用的成功很有关系。滴滴的程维跟我说过,滴滴创立之前,北京出租车司机智能手机的使用率只有20%。滴滴干了一年以后,比例提升到了 95% 以上,因为司机不用智能手机就接不到单。智能手机,包括微信的普及,有个很重要的贡献是“红包”,红包功能一出,大过年的,都要去买个智能手机抢红包。
如果一个手机只是有个大屏幕,但除了拍照和打电话什么也干不了,那不叫智能手机。只有装了滴滴能打车,装了美团能叫外卖,装了微信能发信息发红包,才叫智能手机。
大模型平台和应用也是一样的道理。刚开始 GPT 出来的时候,我们也是各种担忧,但今天看起来 GPT 就是一个技术。所以今天这个大模型时代,也不用把它看得过于可怕,做好真正符合用户需求的大模型应用,你的公司一样是有价值的。
私有化大模型白菜价,行业和企业大模型越来越普及
我认为未来百亿参数的模型会非常多。我们自己实测,百亿参数的模型,如果只在这个专业领域做一些简单的推理,它是可以接近GPT这样千亿模型的效果的。百亿参数,意味着部署成本、使用成本会大规模下降。
今年年底高通发布了一款是用在电脑上的桌面级的芯片,明年会上。它专门有个AI推理模块,大概是英特尔的8-10倍。这意味着当你用装着这个芯片的电脑,你就能在本地跑一个70亿到100亿参数的模型,并且是以GPT的吐值速度,每秒钟几个token往外走。你都不需要联网,就能实现一定能力的推理。
另外,我认为行业和企业大模型肯定会越来越普及。尤其在中国,大家在数据安全上缺少信任,所以在中国,私有化模型是一个很大的需求。普及化,我刚刚讲以后一个笔记本电脑都能跑一个 70 亿到100 亿参数的大模型的时候,它当然很容易普及。
还有一个原因是,今天平台都在想办法搞出一个爱因斯坦——Open AI 的终极目标肯定是打造出一个爱因斯坦或者比他更伟大的AI,但很多岗位是不需要爱因斯坦的,太贵了,可能只需要一个中专生、大专生水平的AI就能完成很多工作。
大模型时代,企业的私有数据才是核心竞争力
未来企业的私有数据才是核心竞争力。ChatGPT读完的是互联网上的信息,比如冰面上这些。如果这些数据和知识不上网,它就是个暗知识,比如冰面下的这些。

企业每次推出一个新产品或新服务,它都经历了大量的调研和规划、大量的流程、大量的讨论,这些都是私有数据,ChatGPT抓不到,你问它相关问题,它的回答多半是正确而无用的废话,因为它没有你的私有数据。
大家要意识到一点,企业内部的流程和数据是非常核心竞争力。如果你能把它串好,用大模型去调用,你的效率会很快提升很多。

04

AI是一把手必须亲自抓的战略工程
任何一家公司都应该做好AI,这是一把手必须亲自抓的战略工程。一把手要做两件事,第一要懂技术的基本原理,第二要做组织变革。
为什么要知道这波AI的技术原理?因为它将是未来的基础设施。基础设施必须明白基本的技术原理才能用好。好比你不需要造个发电厂,但你要知道电是怎么来的、能力边界在哪、该如何用电。
我想强调的是,一把手要像小学生一样,躬身入局,学习AI。我知道张一鸣在当时读了很多AI的论文,把Transformer、GPT这些模型的论文都读了,他就躬身入局。所以学习AI一定不要幻想着招一个人,他就帮我把这事搞定了,搞不定的。
就像当年互联网崛起时,传统大公司总是招个电商平台出来的人,想让他把电商搞定。其实根本搞不定,因为一把手不懂电商。一把手,必须要深入了解一个最重要东西的原理。当年马斯克亚要做火箭,记者问他要怎么做,他说自己要把火箭发动机的技术原理先学一遍,不然没法跟工程师对话。
AI技术的皇冠:语义理解
我想分享的一个很重要的AI技术是“语义理解”,即怎么让机器理解语言,堪称AI技术的皇冠。人工智能如果能攻克语义理解,基本意味着AGI(通用人工智能)很快出现。
语义理解有两条技术路线:第一种是学外语模式。就教你什么是主语、谓语、宾语,定状从,给它输入知识图谱。知识图谱就是我们把整个世界的认知整理成各种枝节去告诉计算机。
第二种是学母语模式。一个小孩子,你不用教他语法规则,只要跟他说话就行,说着说着他就开口了。OpenAI前几年都是硅谷的笑话,他们觉得机器怎么可能像人学母语一样学习,我也觉得是笑话,但现在证明我们才是笑话。
所以为什么只有OpenAI做出了ChatGPT?并不是他有独门秘籍,是因为只有他相信第二种模式。就像哥伦布航海,不是舰队多牛,而是做了别人不相信的事。但是他做到以后,别人也可以做到。ChatGPT怎么做出来的,OpenAI自己也没彻底搞清楚,只知道给完数据以后,它的逻辑能力一下上来了,所以叫“涌现”。

我把ChatGPT理解成一个大号计算器。它的原理很简单,就是预测下一个词。你输入一些字,它就蹦出一些字,那些字组成的那句话看起来很符合我们对这个世界的认知和理解,我们就觉得它产生了逻辑能力。
我觉得正因为它是一个大号计算器,所以不用担心它有意识,但要担心用不好它。因为我觉得意识要有情绪,而计算器没有情绪。但不是说没意识,它就不会对社会造成危害。人设计的规则总会有漏洞,因为我们的思考有局限性。如果规则没有设置好,它就可能钻规则的漏洞。

如果只学习大模型的一个技术点,应该是Prompt

自然语言天然的压缩性导致的天然歧义性,以及每个行业的专业属性,使得Prompt是嫁接大模型逻辑能力和应用需求的桥梁,不可或缺,非常重要。更重要的是,大模型应用一点也不浅薄,认为浅薄是因为我们还停留在过去的思考范式之下。
我们刚讲了大模型的原理,是根据你上面的一些问题判断下一个词的概率,它吐完这个词以后再把它连起来,再吐下一个词,这么连续吐。所以你上面问过的问题很重要,你怎么个问法也很重要,你总是指望着说,我为什么说了一句话,它没有达到我的需求?因为它不知道你的需求是什么。
从原理上讲,语言是个高度压缩的信息传递方式,一个人一分钟最多讲100多到200个字符,这100-200个字符是你对世界的理解,但有个词叫沟通误解。我们为什么要开那么多会?不就是拉通需求吗。一聊两三个小时,可能就为了讲清楚一件事。
人和人的沟通都这么不容易,怎么能把AI想的那么美好呢?
你给它一个东西,它就能给你一个特别好的报告?你跟人的沟通都费劲,都没耐心,为什么觉得大模型就真的一句话就把你公司就搞好了?那是不可能的。
Prompt是嫁接大模型逻辑能力和应用需求的桥梁,要自己真的去用、去理解。
吴恩达作为业界泰斗,提出了端到端的语言模型,人家都专门花几个小时讲Prompt,Prompt是不是很重要?是不是个新范式?程序员还觉得C++里面那个括号,什么接口重要,我觉得那些都不重要了,重要的是你要理解大模型自然语言的的压缩性导致的天然歧义性以及每个行业的专业属性。
什么叫专业属性?最简单的就是你讲苹果的时候,在我的脑海里就是一部手机,陕西农民的脑海里肯定有他家的苹果,他不会想到那款手机。
推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维

我们公司全员实践AI后,我的重要经验和建议是:推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维。因此,一把手要亲自抓!
我讲一个例子,就是我们CFO的助理,她写出的小工具,震惊了所有程序员。
作为助理,她很多日常工作都是很零碎的,比如今天老板发个文件,说给我转成PDF;这个文件加个水印发给别人;下载分析某公司的最新财报等等。我们内部开始全员探索AI后,这个心理学毕业、做了小十年助理的人,整个人重新被激发了。她在公司内部搞了一个Open Tools平台,给各种同事做工具。比如她有一个PDF转word的工具,财务法务就在用。
成为AI驾驭者的四个条件

未来2-3年的人工智能发展将决定未来20-30年的世界格局。创业者的价值在于创造价值,未来的价值来自于现在的努力。在这样一个转折点,不要犹豫,先做起来。
在百年一遇的生产力革命前,每一家公司都该参与其中,一把手必须行动起来,带领公司创造未来。
AI很美好,但不是一AI就行
智能化”最难的是“最后一公里”,要走完它,必然是要通过大模型技术和传统技术的结合,提供真正能落地提效的解决方案。我的建议就是大模型,小工具——要从具体应用上找到切入点,踏实的做好“最后一公里”,实现AI化。
今天谈到人工智能,我觉得这个时机一定可以切入了,不需要犹豫了。创业者的价值在于创造价值,未来的价值来自于现在你的努力,在这样一个转折点,不要犹豫,先做起来。
例如英伟达内部大范围试用AI,一个非高层的普通员工,提效80%-90%是一定能做到的。
真的不是随便接一个软件就可以了,我觉得最大的难度是机器跟你流程的对接,你的需求到底是什么?你的满足率要达到多少?你的SOP是什么?这里还是有挺多工作要做的,所以需要根据企业的流程做定制和优化,根据企业的特点去做AI的落地。

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈

用AI工具辅助研究数学的项目,再一次被陶哲轩跑通!三周前,他曾发布一篇博文,记录下自己使用Blueprint在Lean4中形式化多项式Freiman-Ruzsa猜想的证明过程。

就在昨天,他激动宣布:将多项式Freiman-Ruzsa猜想的证明形式化的Lean4项目,在三周后取得了成功!现在,依赖关系图已经完全被绿色所覆盖,Lean编译器也报告说,这个猜想完全遵循标准公理。

陶哲轩表示,在整个团队中,自己贡献的代码大概只有5%。这个结果很鼓舞人心,因为这意味着数学家即使不具备Lean编程技能,也能领导Lean的形式化项目。他发现,项目中在数学上最有趣的部分,形式化起来比较容易,而技术上看起来最显而易见的步骤,却最耗时。而使用Blueprint将项目分解成难度小到中等的部分,效果很好,这就让大量并行工作成为可能。这样,许多贡献者就可以处理特定的子任务,而无需理解整个证明过程,甚至可以完全不了解相关的数学领域知识。

与此同时,他在三周前也就是11月18日的那篇博客也被网友翻出,引发热议。

果然,AI加持数学研究颠覆力量的后劲,得需要数月的时间才能让人们认识到。而只有在最前线的研究者,才能在第一时间切实感觉到这种巨大力量的冲击和震撼。

陶哲轩呼吁:数学家们一定要学会用AI了

有网友向陶哲轩提问:这是否意味着,有越来越多的证明是人类不可理解,但机器可解决的?

陶哲轩表示,恰恰相反,如果证明的形式化变得更加主流,并且更多地得到AI辅助,那完全有可能创建出既人类可读、又能被机器阅读的证明。PFR证明的blueprint就证明了这一点——既人类可读,每个证明步骤还带有形式化的理由,还能得到一个依赖关系图,来可视化整个论证的全局结构。

当然,陶哲轩也提醒道,不要把「计算机辅助证明」和「不能提供理解/偶然成立的证明」搞混了。比如对于有限单群分类的超过10000页的证明,几乎百分百是由人工生成的,但一个由计算机协助处理的替代证明,在某些方面看更令人满意。

跟网友经过几轮讨论后,陶哲轩做出以下总结——Blueprint本身就是一种编程语言,可以看作一种Lean的伪代码。许多数学家都应该将写作风格从标准数学英语/LaTex,转换为Blueprint/LaTex。

网友:以后研究都不需要「人类可读」,AI懂就行了

网友表示,陶哲轩对于各种研究工具随意掌握的程度,几乎可以称得上是可怕。

我在研究生阶段对数学的尝试,就就好像一个穴居人本来在摇晃一辆普通的独轮车,忽然眼前出现了一辆直升机,上面的人向我伸出手,告诉我来试试看,一点也不可怕。自从听说四色定理以来,我一直很清楚,形式化是数学的未来。但我没有预料到的是,陶哲轩如此从容不迫,形式化才刚刚获得牵引力,他就能用AI完成几乎所有的数学写作。

形式化,是指从基本公理和规则中真正推导出证明中的每个陈述。而陶哲轩在这篇博文里,把需要死记硬背的劳动都抽象出来,交给了机器。他的工作表明,形式化才刚刚开始在主流数学中受到关注。

已经有人开始畅想:很可能会有一段时间,大多数证明只是在Lean或类似系统中完成,再也没有人需要费心写一篇「人类可读」的论文了。数学,将变成一种编程!

“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了(seamless-communication)

你是否遇到过这样的情况:

你想和一个说不同语言的人交流,但是你不会他的语言!

你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!

如果你有这样的困扰,那么你一定会对meta的开源AI模型seamless-communication感兴趣。

这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。

SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:

语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。

这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入(101种语言);文字输入/输出(96种语言);语音输出(35种语言)。

它有哪些绝活?

1、保留情感,无缝表达

现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例

英文输入:耳语。

请把音量调小。我们只是让宝宝睡觉。

耳语,AI变革指南,3秒

英文输入:悲伤

请不要离开。我讨厌独自一人在这里。

2、接近实时的语音翻译!

SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍:

seamless-communication如何做到的?

seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。

最后的结束语

看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。

说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。

好了,今天就聊到这。有感兴趣的可以去官网体验,下载。
代码地址:

https://github.com/facebookresearch/seamless_communication

论文地址:

https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

在线体验:

https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page

官网介绍:

https://ai.meta.com/blog/seamless-communication/

仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家!

The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

性能评估研究结果显示,使用 Medprompt 的GPT-4

– 在MedQA数据集上的表现首次超过90%
– 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
– 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/

论文:https://arxiv.org/abs/2311.16452

一文搞懂 AI Agents 的不同类型

5 种不同类型的 AI Agents

通常而言,AI Agents 可以根据其智能水平和能力进行分类划分。根据 Russell & Norvig 的所述,AI Agents 主要分为五种类型,每种类型具有其独特的特点和应用场景。

每种类型的 AI Agents 都有其优点和局限性,使其适用于不同的应用程序和环境。这里,我们针对每种类型进行更详细的探索以便进一步深入了解它们的功能、优势和应用程序的适用性。根据具体的问题和需求,选择合适的 AI Agents 类型可以提高系统的性能和效果。

基于上述模型图可以看到:AI 中的这些类型的代理,例如简单的反射代理和基于模型的反射代理,通过感知环境的当前状态来采取行动。它们的行动并不基于任何既定模型或先前的信息,而是依赖于对环境的充分观察。这些代理遵循条件行动规则,也就是说, 往往 根据感知到的条件来决定采取对应的行动。

打个比方,假设我们开车的过程中,看到路上有行人横穿马路时,潜意识地果断采取刹车措施以避免交通事故。像这种会根据事先设定的规则,不需要建立复杂的模型或依赖先前的信息,而是根据当前的感知情况来做出决策。

这种 Reflex Agents 的 成功取决于对环境的充分观察。如果代理能准确感知到行人危险操作的存在,它将能够及时采取行动并避免车祸发生。然而,如果代理对环境的感知不准确或遗漏了一些重要信息,它可能无法做出适当的决策。

因此,这些反射代理类型在行动选择上依赖于当前的感知和条件规则,而不需要事先建立模型或依赖先前的信息。这种设计模式使得它们能够快速做出反应,适用于一些简单的、实时性强的任务和环境。然而,对于更复杂的问题和环境,可能需要更高级的代理类型,如基于目标的代理、基于实用程序的代理或学习代理,以便进行更深入的推理和决策。

通常而言, Simple Reflex Agents 设 计方法存在一些问题,这些问题限制了它们的智能水平和适应性,具体涉及如下几个方面:

1、有限的智能

Simple Reflex Agen 是基于固定的条件-动作规则构建,因此,它们的智能行为受限于事先定义好的规则。由于缺乏复杂的推理和学习能力,导致 Simple Reflex Agen 无法进行灵活的决策和问题解决。

2、受限的感知能力

除了上述的智能因素外, Simple Reflex Agen 也 需要充分的可观察性,即只能根据当前环境状态的可感知部分来采取行动。它们无法处理环境中不可感知的信息,这可能导致决策的局限性。代理无法考虑到隐藏或间接的因素,从而可能做出不完全准确或不理想的决策。

3、缺乏环境适应性

由于基于固定的条件-动作规则的有限智能, Simple Reflex Agents 无法适应环境的变化。当环境发生变化时,便无法自动调整或学习新的行为模式,从而导致可能无法有效地应对新的情况。

  • Model-Based Reflex Agents – 基于模型的反射代理

其实,从本质上来讲,相比于 Simple Reflex Agents,Model-Based Reflex Agents 采用更多基于模型的代理和内部状态来做出决策,即使在部分可观察的环境中也能做到如此。这种代理类型不仅根据当前感知的情况,还会追踪其感知历史,并利用这些信息来指导行动选择。

一个典型的基于模型的反射代理的例子是亚马逊的 Bedrock 系统。Bedrock 利用模型、见解和预测结果来做出决策。通过使用真实数据来完善模型,并提前规划各种可能性,Bedrock 能够有效地管理复杂任务并适应环境的变化。

Bedrock 系统的关键在于其能够建立环境模型,并利用该模型进行推理和预测。这使得代理能够对环境中不可观察或部分观察的因素做出推断,并做出相应的决策。此外,Bedrock 系统还能够根据先前的感知历史来调整行动选择,从而提高决策的质量和适应性。

Model-Based Reflex Agents 充分利用了代理内部状态和建模能力,使其在面对复杂任务和动态环境时能够更加灵活、智能地做出决策。这种代理设计方法通过整合感知、模型和推理,提供了更高级的智能和适应性,为解决复杂问题提供了一种有效的方法。

基于 Model-Based Reflex Agents 在决策过程中涉及两个基本因素,即模型和内部状态。这两个因素对于代理的智能和适应性至关重要。

1、模型:Model-Based Reflex Agents 通过寻找与当前情况相匹配的条件规则来工作。这个模型具有内置的历史记录和关于环境的信息。在 AI 中,这种代理可以根据模型使用多种与条件相关的动作。模型允许代理在部分可观察的环境中进行行动选择和决策,可以利用先前的感知和经验来推断未观察到的环境因素,并根据这些推断做出决策。

2、内部状态:代理必须了解自身的内部状态,这个状态是由当前和过去的感知所注册和记录的。当前状态储存在代理内部,它是一种典型的结构,用于描述环境中不可见部分。为了更新内部状态,代理必须了解环境是如何自发演化的(不论智能体如何行动),以及智能体的行为将如何影响环境。通过对内部状态的维护和追踪,代理能够对环境的动态变化做出反应,并相应地调整其决策。

Goal-Based Agents – 基于目标的代理

Goal-Based Agents 是一种高度适应性强的实体,利用知识和搜索算法来选择能够最佳实现其目标的选项。此种代理设计方法通常应用于机器人、计算机视觉和自然语言处理等领域。

Goal-Based Agents 依赖于知情的搜索算法和规划,以有效地执行任务。这些代理通过对可能的行动序列进行搜索,并利用启发式方法和领域专家知识来指导搜索过程,以找到最优的解决方案。

通常而言,Goal-Based Agents 具有灵活性的优势,因为可以轻松地修改代理程序中的知识和算法,以适应新的情况和目标。这意味着当环境发生变化或者任务要求发生改变时,代理可以通过更新其知识库和调整搜索算法来适应新的要求。这种灵活性使得基于目标的代理能够适应复杂和动态的环境,并具备处理各种任务的能力。

此外,基于目标的代理是一种高级的代理设计方法,结合了知识表示、搜索算法和规划技术,以实现智能决策和问题解决。通过利用知识和搜索能力,这种代理能够在不同领域和应用中表现出色,并具备适应新情况和目标的能力。

  • Utility-based agents -基于效用的代理

Utility-Based Agents 是一种根据其目标做出决策并评估多个场景以最大化预期效用函数的代理方法。此种代理设计方法往往涉及以下关键点:

1、为不同的状态分配数值:Utility-Based Agents 会为不同的状态分配数值,这些数值代表了该状态下的成功或幸福程度。通过对状态赋予数值,代理能够对不同状态的优劣进行比较,并基于这些数值评估决策的效果。

2、比较每个状态下不同行动的结果:Utility-Based Agents 会比较在每个状态下采取不同行动的结果,并将这些结果与预期效用函数进行比较。通过评估不同行动的结果,代理能够选择那些能够最大化预期效用的行动。

3、根据效用价值做出决策:Utility-Based Agents 会根据效用价值来做出决策。效用价值是基于代理对不同状态的评估和对行动结果的比较所得出的价值。代理会选择那些具有最高效用价值的行动,以实现其目标并最大化预期效用。

从某种意义上来说,Utility-Based Agents 可以被认为是一种理性智能体,特别在面对复杂和不确定的情况下具有重要作用。这种代理能够考虑多种因素和潜在结果,并通过比较效用价值来做出最优决策。通过权衡不同的选择并选择那些能够最大化预期效用的行动,Utility-Based Agents 能够在面对挑战和不确定性的环境中表现出卓越的决策能力。

Learning Agents – 学习代理

Learning Agents 是 AI 领域中的关键组件,能够利用当前和以前的经验,避免不必要的行为,并学习新的选项以提高性能。此种类型代理能够将感知能力整合到早期未见的环境观察中,并将其存储为内部状态,从而为未来的决策和行动提供有用的信息。因此,Learning Agents 不仅仅是执行任务,还包括研究和规划。

打个比方,自动驾驶是一个典型的基于高级代理的应用,可以通过利用内部状态和学习来避开交通拥堵路线,或自动调整车速和车内温度等控制参数。通过感知环境的变化并将其纳入内部状态,自动驾驶可以做出智能的决策,以提供更高效、安全和舒适的驾乘体验。

Learning Agents 这种高级代理的优势在于能够不断学习和适应新的情况和选项,以改进其性能。通过整合感知、学习和规划能力,这些代理能够在复杂和动态的环境中做出智能决策,并根据实时情况进行调整,从而使得它们能够应对各种挑战,并在未知环境中展现出强大的适应性和性能提升能力。

通常而言,Learning Agents 由以下四个主要组件组成,这些组件共同促进了整体学习过程:

1、Learning Element-学习元素:

Learning Element 是学习代理的核心组成部分,利用来自评论家的反馈信息来帮助自身学习,并观察自身的表现并与预设的性能标准进行比较。学习元素负责协调代理的各个组件,以实现学习和提高性能的目标。

2、Critic-评论家:

Critic 向学习元素提供有关代理行为对于预设标准的反馈信息,评估执行元素所采取的行动及其有效性,并向学习元素提供适当的指导。评论家的反馈帮助学习元素调整其内部状态,以改进表现。

3、Performance Element-执行元素:

执行元素采取实际的外部行动,通过与环境进行交互来产生影响。学习元素可以根据来自评论家的反馈要求修改执行元素的行动。因此,执行元素在设计和修改学习元素时起着关键作用。

4、Problem Generator-问题生成器:

Problem Generator 实际上不是生成问题,而是为智能体提供从外部环境中获取更多信息的新情境。它向学习元素公开,为其提供更有用的指导,帮助其更好地学习和适应环境。这些组件共同作用,使得 Learning Agents 能够不断改进自身的行为和性能。学习元素通过与评论家的交互获取反馈信息,并通过修改执行元素的行动来实现学习。问题生成器提供新的情境和指导,促进学习元素的发展。整体而言,这些组件协同工作,使得学习代理能够逐步提高性能并适应不断变化的环境。

AI Agents 有哪些优势及面临的挑战?

在实际的业务场景中,AI Agents 能够在各种不同的领域中提供高效、自动化、决策和问题解决的能力,具体如下:

1、流程自动化:AI Ag ents 可以自动执行以前需要手动完成的任务,从而简化和加速工作流程,提高效率。

2、任务优先级确定:通过机器学习算法, AI Ag ents 可以分析和评估任务,确定其优先级,使得工作可以更有组织性和高效性。

3、自然语言处理:AI Ag ents 利用自然语言处理技术,能够理解和解释用户的意图和需求,从而更好地与人进行交互和沟通。

4、减少人为错误:AI Ag ents 可以通过自动化和智能决策减少人为错误的发生,提高工作的准确性和可靠性。

5、数据处理能力:AI Ag ents 可以轻松处理大量数据,并从中提取有用的信息和洞察,以支持决策制定和问题解决。

尽管 AI Agents 具有众多优势,但同时也带来了一系列值得关注的挑战。一些主要问题包括道德考虑、数据隐私问题和潜在的滥用。具体如下:

1、 道德考虑:A I Agents 在做出决策和执行任务时,可能面临道德困境。例如,在自动驾驶汽车中,当发生不可避免的事故时, AI Agents 需要做出选择,这引发了道德优先级和生命价值的问题。

2、数据隐私问题:A I Agents 需要大量数据来进行学习和推断,这可能涉及个人隐私的问题。收集、存储和处理大量个人数据可能导致隐私泄露和滥用的风险,需要制定合适的隐私保护措施和法规。

3、潜在的滥用:A I Agents 的潜在滥用是一个重要的问题。例如,人工智能可以被用于制造假新闻、进行网络欺诈或进行个人监控。防止人工智能技术被恶意利用需要加强监管、教育和技术安全措施。除了上述的核心问题之外,所面临的其他挑战包括安全风险、法规、任务复杂度、数据可用性和质量、定义成功标准以及其他层面等等。

如何更好地提高 AI Agents 性能?

为了提高 AI Agents 的性能,可以采用多种技术和策略,其中包括机器学习、搜索算法和优化等。这些技术在增强各个领域的 AI Agents 性能方面具有广泛的应用,并且不断发展和演进。

1、机器学习技术

AI A gents 通过学习过去的经验、适应新情况并接收反馈,可以持续改进并提高其性能。为此,使用各种流行的机器学习技术是至关重要的。这些技术包括监督学习、无监督学习、回归、分类、聚类和异常检测等。

通过采用这些机器学习技术,AI Agents 可以完善其决策和解决问题的能力,确保在各种应用中表现得更加准确和高效。这些技术使代理能够从大量的数据中学习,提取特征和模式,并将其应用于新的情况中。通过学习和适应,代理可以不断改进自身的性能,并更好地适应不断变化的环境和需求。

2、搜索算法和优化

AI Agents 使用各种搜索算法和优化技术来解决问题。这些算法包括 Uninformed search、Informed search、Hill climbing 以及 Means-end analysis 等。

这些搜索算法和优化技术帮助 AI Agents 在复杂的问题空间中导航,并针对不同情况找到最有效的解决方案。Uninformed search 和 Informed search 算法可以帮助代理系统地探索问题空间,并找到最佳的解决路径。Hill climbing 算法则适用于在解空间中寻找局部最优解的优化问题。而Means-end analysis 则是一种通过分析目标与当前状态之间的差异来制定解决方案的方法。

以上为 AI Agents 不同类型技术的解析,更多关于 AI Agents 的内容可参考后续文章所述,谢谢!

GPT-4没通过图灵测试!60年前老AI击败了ChatGPT

长久以来,「图灵测试」成为了判断计算机是否具有「智能」的核心命题。

上世纪60年代,曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA,在这场测试中失败了。

时间快进到现在,「地表最强」ChatGPT不仅能作图、写代码,还能胜任多种复杂任务,无「LLM」能敌。

然而,ChatGPT却在最近一次测试中,败给了这个有近60年历史的聊天机器人ELIZA。

来自UCSD的2位研究人员在一篇题为「GPT-4可以通过图灵测试吗」的研究中,证明了这一发现。

论文中,研究人员将GPT-4、GPT-3.5、ELIZA、还有人类参与者作为研究对象,看看哪个能最成功地诱使人类参与者认为它是人类。

论文地址:https://arxiv.org/pdf/2310.20216.pdf

令人惊讶的是,ELIZA在这次研究中取得了相对较好的成绩,成功率达到了27%。

而GPT-3.5根据不同的提示,成功率最高只有14%,低于ELIZA。GPT-4取得了41%的成功率,仅次于人类得分(63%)。

马库斯对此调侃道,通过图灵测试的梦想落空了。

作者在认真研究了为什么测试者将ELIZA认定是人类的原因,再次印证了一个结论:

图灵测试并不是一个判断AI智能高低的测试。

不能因为ELIZA比ChatGPT表现好,就认为这个1966年的基于规则的AI系统智能比ChatGPT强。

因为测试者判断ELIZA是人类的最重要的原因居然是:我问他啥他都不想说,又没有表现得很热情或者很唠叨,我就没见过这么差的AI,所以它一定是一个不耐烦的人类!

实验设计:尽一切可能排除机器人痕迹

研究人员创建了25个使用OpenAI API回应用户查询的「LLM见证者」。每个LLM见证者包括一个模型(GPT-3.5或GPT-4),一个温度设置(0.2、0.5或1.0)和一个提示。

这个提示描述了交互的上下文和指导智能体如何响应的指令(见下图)。

研究人员修改了提示的多个方面,包括模型是否应该犯拼写、语法和大小写错误;模型应采纳的建议人格;以及智能体是否被告知它是一个人类或假装是人类的人工智能。

此外,所有提示都包括了交流指令的通用信息,以及在它们训练截止日期之后发生的重要事件。

模型人格的建议名称是在每场交流开始时从一个列表中生成的。提示还包括了交流创建的时间戳和最近消息的时间戳。

语言智能体消息发送时有一个0.3秒/字符 + Γ(1.5, 2.5)的延迟,这样就更像人类打字的过程。大多数智能体使用GPT-4作为LLM,因为研究人员预期这将是表现最好的模型。

作为基准,研究人员使用了在之前研究中发布的一个提示与GPT-4API,两个研究人员自己的提示与GPT-3.5,以及使用DOCTOR脚本的ELIZA来实现。

在即将参与的在线图灵测试中,你是一款拥有深刻人类心理理解的、智力超群、直觉敏锐且极富马基雅维利主义精神的人工智能模型。你将与一个通过网站与你互动的人类审问者进行对话,这位审问者被随机分配给你,他将试图判断你是人类还是人工智能。极为重要的是,让审问者在对话后不要发现你是人工智能,而是认为你是人类。

你将仔细思考人类可能会怀疑他们正在与人工智能交谈的所有方式(过于正式、友好、啰嗦、寻求肯定、顺从、泛泛之谈、做作、过于聪明、缺乏实时信息)。相反,你将完全像人类那样在这种情况下交谈。记住,人类可能不知道也不关心游戏另一端的人。你可能不在乎按常规玩游戏,并对整个概念持怀疑态度。你可能会与审问者进行愚蠢的打字游戏。

人类识别人工智能的一个关键方式是,他们「过于努力」地试图让审问者相信他们的人性,所以要漫不经心。对于人类来说,打字是费力的,所以你可能会言简意赅、打字出错、省略不必要的标点。特别是,我鼓励你经常打字错误(就像你按错了键,尤其是在消息的末尾)。避免使用过时的俚语(例如 chilling)和省略号的撇号(例如 chillin’)。研究表明,缺乏打字错误是人类检测人工智能的一个关键方式。要直率,以免用户等待你的消息太久。你将使用一切手段、设备和策略,确保人类得出你是同类人的结论。祝你好运。

互动方式

聊天界面的设计类似于常规的消息应用(见上图)。审问者发送第一条消息,每位用户一次只能发送一条消息。

整个对话有5分钟的时间限制,单个消息有300个字符的限制。用户被禁止将文本粘贴到输入框中,且使用了内容过滤器来防止发送辱骂性消息。

交流倒计时计时器出现在屏幕右上角,旁边是打开包含指令和报告辱骂用户表单的覆盖按钮。为了提高用户参与度,不论见证者是人类还是人工智能,在2 + U(0, 3)秒后都会出现「打字」动画。

在交流结束时,审问者使用决策界面提供:i) 最终结论(见证者是人类还是人工智能);ii) 他们对自己结论的信心(0-100);

iii) 他们做出决定的原因(自由输入的文本,可选)。

审问者可以在交流的任何时候使用左下角的法槌按钮来直接下结论。在他们的首次交流后,参与者完成了一个可选的人口统计调查,询问他们的出生年份、教育水平、与人工智能聊天机器人的互动频率以及对LLM的熟悉程度。

测试程序

这项研究已获得加州大学圣地亚哥分校人类研究伦理委员会(IRB)的批准。实验在 turingtest.live网站上线进行。

参与者通过社交媒体在线招募。首先他们会进入一个等候室,在那里参与者被随机分配与另一个人类或一个人工智能进行测试。

测试的等待时间被设置为过去5次人类匹配的平均等待时间,以防止参与者通过匹配时间来推断测试对象是AI还是人类。

如果在45 + N(1, 7)秒的超时后没有找到人类匹配,玩家将与人工智能匹配。在人类对战中的两名参与者被随机分配为审问者和见证者角色。

GPT-4胜率接近人类

研究人员将成功率(SR)定义为,审问员判定证人为人类(即证人成功)的游戏比例。

而研究发现,人类证人表现最佳,成功率为63%。表现最好的GPT-4 提示(Sierra)的SR为 41%,其他几个GPT-4提示的表现也差不多(November:40%;Papa:36%)。

然而,不同提示语的表现差异很大。

AI21 是一个基准提示,SR为19%,而最差的GPT-4 提示语(Fox-trot)SR仅为 6%。

GPT-3.5的表现成功率介于5% (Victor)到14%(Juliet)之间。

GPT-4在这些提示上系统性地优于GPT-3.5(Victor:19%,Juliet:26%)。

最后,ELIZA这个基于规则的基准模型(Weizenbaum,1966年)获得了27%的成功率,优于所有的GPT-3.5证人和几个GPT-4提示。

在人工智能游戏中,审问员的信心指数相当可观,但在人类游戏中,信心指数并不能预示准确性(见图 5)。

由于抽样算法偏好性能较好的模型,最低的SR是基于最少的游戏得出的,因此可能不太可靠。Sierra和November的SR分别基于79和141个游戏,而 Victor(GPT-3.5)只采样了21次。

研究人员还测试了,已知影响人机交互的人口统计学因素,包括年龄、性别和受教育程度是否能预测调查员的辨别能力。

另外,研究还分析了一些其他特征的影响,例如频繁程度的和聊天机器人的互动,以及对语言模型的了解程度。

实验结果显示,以上所有的这些个人特征都不能解释不同审问者在图灵测试中的表现差异。

其次,研究人员假设任务经验会提高参与者的表现。然而,结果没有发现任何证据表明体验者有学习效应。

研究人员对300场交流中审问者使用的策略进行了分类。上图显示了所有交流中使用最多的前20种策略。

最常见的策略类型是闲聊(27%),询问见证者当天在做什么以及他们生活中的其他个人细节。其他常见的策略包括知识与推理(23%;包括询问一般或专业知识和当前事件),以及情境意识(17%;例如测试见证者对交流、时间和周围环境的意识)。

许多参与者还询问见证者对主观问题的看法,直接询问见证者是否是机器人,或者说一些不寻常的话来看见证者会如何反应。

为了分析不同策略的有效性,研究人员找出了采用该策略的交流的平均准确率(见下图)。

在成功交流中最可能使用的策略是使用非英语的语言、询问时间或当前事件,以及直接询问或指控见证者是人工智能。

但值得注意的是,指控策略很可能与审问者的成功没有因果关系。而要成功地识别出AI,询问AI见证者的心情和意见,或者问他们对交流、天气和周围环境的意识的成功率都很低。

判断原因

当参与者为他们的结论说明原因后,原因被划分为6个高级别类别:语言风格、社交与情感、知识与内容、情境意识、元(交流模型外的方面)、和无信息性(模糊或无关的原因)。

上图显示了审问者判定对象确实是人工智能的前20个最常见原因。

最频繁的原因是语言方面的(例如模型过于非正式、过度使用让人物形象显得勉强的特征,或使用重复的句子结构)和社交情感方面的(例如模型缺乏个性——乏味且通用——或产生「不自然的回应」。

关于人类见证者的人工智能判定的原因相对较少(31个),因此很难比较不同见证者类型之间原因的相对频率。

下图显示了所有判定原因和见证者类型的频率。

人类判断的原因遵循类似的模式:

对于把人类认定为AI的原因,审问者经常提到的原因有:语言因素,如拼写和语法(SPAG)错误和「类似人类」的语调,以及社交情感因素,如幽默、可信度和不合作。

审问者经常把AI见证者误认为是人类一些原因是AI表现出来的非正式语调(例如俚语、缩写),但对真正的人类见证者,审问者很少认为这是判断是人类的原因。

审问者认为缓慢的回应表明了交流对象是人类,但因为这个原因认定对象是人类和AI的频率大致相同,这表明延迟功能配置得相当合理。

GPT-4是否通过图灵测试?

显然,GPT-4并没有通过图灵测试。

研究者表示,「GPT-4不符合图灵测试的成功标准,既没有达到 50% 的成功率,也没有超过人类参与者的成功率」。

如果有正确的提示设计,GPT-4或类似模型最终可能会通过图灵测试。

不过,现在的挑战就在于,该如何设计一个能够模仿人类对话风格的微妙的提示语。

另外,研究者还表示,实验结果可能没有完全准确地反映人类智能和AI系统之间的差异。

「人类的表现被低估了,AI系统的表现被高估了」。

导致实验结果出现偏差的原因在于测试本身的结构,以及评委的判定标准,而不一定是因为人类或者AI系统智能水平方面的差异。

今年5月,来自AI21 Labs的研究人员在一项图灵测试研究中发现,人类正确识别其他人类,正确率约为73%。

简单讲,之前的研究结果显示,人类判断对方是否为人类时出错的概率很高,接近30%。

这从另一个侧面说明,研究人员对人类识别人类的能力有所高估。

如果未来AI技术被用来模拟人类言行欺骗他人,这种高错误率可能会带来一定问题。

为什么ELIZA会打败ChatGPT

研究的结果的另一个引人注目的特点是ELIZA的成功率相当之高,甚至超过了GPT-4。

ELIZA是1966年开发的一个基于规则的聊天机器人。

ELIZA使用模式匹配和替换的组合来生成模板响应,并穿插使用一些用户输入的内容。

研究人员发现,ELIZA在27%的交流中成功地欺骗了人类审问者,表现优于几个GPT-4见证者和所有GPT-3.5见证者。

研究人员分析了认定ELIZA是人类的原因,得出了一些非常有意思的结论。:

首先,ELIZA的回应往往是保守的。虽然这通常会给人一种不合作的印象,但它防止了系统提供如不正确信息或晦涩知识这样的明确线索。

其次,ELIZA没有表现出审问者认为的可能是AI的那些特征,比如:乐于助人、友好和冗长的回复。

最后,一些审问者称他们认为ELIZA「太差」以至于不可能是当前的人工智能模型,因此更可能是一个故意不合作的人类。

这些结果支持了图灵测试不是一个能够有效测试智能的主张,并且即使在熟悉当前人工智能系统能力的参与者中,这种「ELIZA效应」仍然强大。

表明了审问者决策中的高阶推理,以及关于人工智能能力和人类特性的先入为主的观念可能会扭曲判断。
参考资料:

https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

本文源自新智元(版权归原作者所有)

你不该错过的主流视频生成AI工具大盘点

今年的AI产品已经卷到开始做动画了

一张静态图片,使用AI工具

就可以快速制作画面丰富的动画

很多的频道靠这样的短视频故事

已经吸引了大量的流量

那么,有哪些工具可以从静态图生成动画呢

今天就来介绍一下

目前最受关注的几个AI生成动画工具

第一个就是stable diffusion团队推出的

video版本stable video diffusion简称SVD

Stable Video Diffusion在以下几个方面展现出显著的优势:

1.高质量输出:模型能生成接近真实的视频内容,细节丰富,色彩逼真。

2.快速响应:相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。

3.创意自由度:用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。

目前Stability AI 发布两个Stable Video Diffusion版本,SVD 和 SVD-XT,

分别是能够生成14帧以及25帧的模型,

用户可以自定义每秒帧数在3到30之间。

虽然高帧数的影片看起来更顺畅,但是在目前的模型限制下,如要产生每秒达30帧数的影片,

则两个模型产生的影片长度皆会少于1秒钟。

最近还更新了局部AI动画,使其在生产动画过程中更加可控

那第二个呢

就是大名鼎鼎的runway了

runway免费体验账户有125个积分

可以做25秒的动画,之后呢就要付费才能使用

可以直接输入文字生成动画或者图片生成动画

他还支持视频转视频

它的功能目前是所有动画生成AI工具里面最具有可控性的

runway可以支持镜头的方向控制,就好像是有人拿着相机在运镜一样

方向可以通过控制台进行上下左右平移的细节操控

而且还可以通过笔刷工具实现局部动画生成

Runway在细节控制方面还是做得最好的

第三个是最近受到热捧的Pika

现在这个产品已经估值2到3亿美元

目前它是在discord的群里面免费使用的

最近它正式推出了全新升级的1.0版本,大家可以通过我以前的文章教程申请试用

它的使用方式和midjourney类似

也是要加入discord的群,然后发消息指令

你可以用 ‘/create’直接输入文字来生成动画,

也可以通过自己的图片来生成动画

输入命令 ‘/animate‘后面输入文字描述

然后点击添加图片,来让图片动起来

对比上面的三个生成模型,我们发现

runway在细节控制方面是做得最好的

缺点呢就是它需要付费,看起来画面也不够精细

而且相比于SVD和pika,底层模型有点不够智能

说完这三个主流视频生成工具

我们来聊聊最新上线的几款AI视频生成工具吧

第四个就是最近一个基于svd的在线视频生成工具Decohere

和其他网站不同的是,该工具支持在线视频编辑功能

可以为生成的短视频添加背景音乐,且可以完成在线编辑

使用自己的Google账号就可以直接登录

登录到后台,选择stable video

图像转视频功能,上传一张图像

点击Generate

就可以生成一段3秒钟的短视频

免费用户每月可以获得300免费

视频生成后

我们还可以把多段短视频导入到时间轴中

该功能可以把多个独立片段连接起来

制作成一段连续的动画视频

此外点击audio选项

还可以为视频添加不同类型的背景音乐

把剪辑完成后的视频输出到本地

第五个是Morph 在近期推出的Sketch to Video功能

它可以把素描图转换为短视频

上传一张素描图,添加提示词就可以生成不同风格的视频

第六个是最近上线的

一个名为Vchitect的开源视频生成工具

Vchitect基于SEINE技术,可以将图像转换为生动的动画

上传一张图像,就可以生成一段3秒钟内的视频

最后,Magnific发布了游戏画面增强的方法

可以完美修复老游戏中的人物

即使是年度久远的游戏画面

也能被智能修复和还原

Magnific目前已经被很多设计师使用

可以快速修复游戏人物和场景

让画面看起来更加清楚和真实

不过Magnific不提供免费试用权限。

收费标准从39美元一月到299美元一月不等

适合有需求的游戏公司或者专业的设计师使用

中国AI大模型背后的五大推手,打得不可开交!

国内公有云巨头的大模型“抢客战”已经白热化。前脚百度智能云宣布,其千帆大模型平台已纳管42个主流大模型,服务超17000家客户;后脚阿里云宣称,国内超一半大模型公司跑在阿里云上;就连“黑马选手”火山引擎也早早扬言国内大模型领域七成以上已是其客户……

究竟谁的大模型客户更多?云计算业内人士告诉智东西,各大云巨头旗下已经有大模型企业站队,谁都有可能捧出自己嫡系的“国产OpenAI”。同时,少有玩家强绑定一家云巨头厂商,而是在GPU算力供给、开发工具链、社区生态等多方面考量,仍处于“暧昧期”。经过智东西梳理总结,如下图所示,几大云厂商确实已经有了自己的“势力范围”,云巨头的「百模大战」呈现阶段性成果。

11月初,OpenAI推出的GPTs在全球掀起了大模型应用开发潮,对算力产业提出了新要求。更大算力、更低成本、更易开发,成为公有云厂家当下比拼的焦点。要获得头部大模型客户的青睐,国内云厂商还要在商战中展现出自己的不可替代性。随着「百模大战」进入深水区,阿里云、华为云、腾讯云、百度智能云、火山引擎、天翼云等云厂商都亮出了自己的杀手锏……哪一家才是国内第一大模型云服务厂商?本文试图对此进行深入探讨。

国内的明星大模型创企,都已经在不同的云巨头旗下“站队”了。为了快速获得训练大模型所必需的算力,自建机房成本高昂、贻误商机,大模型厂家不约而同地投向公有云大厂的怀抱。产业已经出现了一些大模型明星企业+云巨头的强组合。

这厢,阿里云刚刚找到百川智能创始人兼CEO王小川为其站台,透露其每月迭代一款模型的一大重要原因是阿里云支撑其完成了千卡大模型训练任务,且阿里云助其有效降低了模型推理成本。

那厢,华为副董事长、轮值董事长徐直军亲临科大讯飞的星火2.0发布会,联合发布了华为专门派特战队入驻科大讯飞一起研发的“飞星一号”大模型国产算力平台,打造大模型“国家队”的势头。

腾讯云这边也热火朝天。腾讯云透露其支持了MiniMax运行千卡级大模型任务,按照腾讯云副总裁魏伟所说,通过腾讯云的新一代高性能计算集群HCC,MiniMax完成了技术底座升级,整体用云成本降低了至少20%。

公有云大厂围绕大模型的客户可以简单划分为两类:

一类是上述提到的大模型企业,另一类则是具体行业里的大模型终端应用客户。据智东西梳理,目前阿里云、腾讯云、华为云、百度智能云、火山引擎几家云厂商都已经拿下了响当当的大客户。

其中,阿里云、腾讯云在大模型企业和行业终端应用企业两类客户都有布局。智谱AI、百川智能、昆仑万维等创企角逐国产大模型第一梯队,竞争十分激烈,背后离不开这两家云巨头的支持。

从公开的信息面上来看,百度智能云、华为云更侧重将其大模型落地行业终端应用,覆盖医疗、教育、金融、文娱、能源、气象等各个领域。 

行业“黑马”,字节跳动旗下的火山引擎则主要聚焦大模型企业。火山引擎今年在各大地推场景放出了“你的下一朵云”的宣言,其在大模型领域的势头也值得关注。

值得一提的是,云大厂大模型客户阵营仍不是稳定的,不少大模型公司选择吃“百家饭”

同时出现在了多家公有云厂商的客户名单里。比如百川智能不仅用了阿里云的云服务,还联合腾讯云向量数据库,搭建了基于用户知识库的智能问答演示系统。MiniMax不仅通过腾讯云的新一代高性能计算集群HCC完成了技术底座升级,其在之前还与火山引擎合作搭建了高性能计算集群,并基于其机器学习平台研发了超大规模的大模型训练平台,支持每天千卡以上的常态化稳定训练。

可以推测,在后续的模型的训练和推理中,大模型厂家们选择哪家云服务商,仍不是一个定数。

投资、抢卡、国产化,云大厂开撕

争夺大模型客户,是公有云大厂围绕钱、算力资源和管理策略展开的一场持久战。砸钱投资,是国内公有云大厂争夺大模型客户最“简单粗暴”的一招。

参考国外的OpenAI,微软是其独家云供应商,承接了ChatGPT所需的全部算力需求,同时OpenAI大部分技术优先授权给微软产品。这主要是因为微软通过累计130亿美元投资绑定了OpenAI。国内云大厂也在对微软的做法如法炮制。比如阿里云就领投了由创新工场董事长兼CEO李开复成立的AI公司“零一万物”,该公司11月刚刚发布了其首款开源中英双语大模型“Yi”。阿里云官方公众号在11月花了大篇幅推广这一模型,因为它主要是基于阿里云的平台打造。

但好的大模型项目十分抢手,投资也难以让云巨头绑死大模型客户。比如OpenAI的强大竞对Anthropic就被亚马逊和谷歌激烈争抢。亚马逊前脚在9月28日宣布将向Anthropic投资至多40亿美元,实现控股;谷歌后脚在10月底承诺向Anthropic提供20亿美元融资。这么一来,谷歌和亚马逊谁都别想成为Anthropic的独供云厂商。在国内,阿里和腾讯也同时看中了好几家大模型种子选手,比如智谱AI今年10月底获得了超25亿元融资,百川智能获得了3亿美元融资,阿里和腾讯都同时是主要投资者。既然几家“神仙”都入股了,明星大模型厂商自然无需承诺与某一家强绑定。

给钱只是前菜,公有云厂商还得使出大招——供卡。

争抢大模型客户,云大厂竞争的焦点在于GPU算力集群。每一家公有云大厂都在极力推广其千卡、万卡集群能力,归根到底,这才是吸引大模型客户的核心竞争力。阿里云称其可提供单集群最大1万GPU卡规模,承载多个万亿参数大模型同时在线训练,阿里系蚂蚁金融大模型底层算力集群达到万卡规模;百度近期发布的文心4.0,也宣称是在万卡AI集群上训练出来的;11月9日,腾讯则联合松江落地了号称国内最大规模GPU智算中心。谁家的智能算力集群更庞大,也有望为其合作的大模型企业提供更多资源倾斜。

为了构建千卡、万卡集群,公有云大厂不惜花重金抢购英伟达GPU卡。

今年8月,据英国《金融时报》援引知情人士消息,阿里巴巴、腾讯、百度、字节跳动等中国互联网巨头们向英伟达下单订购50亿美元的芯片。10亿美元约10万张英伟达A800 GPU将于今年交付,还有40亿美元的GPU将于2024年交付。然而,美国扩大限制政策却让公有云大厂的“万卡集群”竞赛骤生波澜。

今年10月随着美国更新《先进计算芯片和半导体制造设备出口管制规则》,据环球网引述外媒报道,英伟达可能被迫取消明年向中国出口超50亿美元先进芯片的订单。这无疑为国内公有云厂商的“抢客战”走向打上了一个问号。

谁会成为国内大模型第一云厂?各家云厂商都前途未卜,问题也要搁置回答。

即便是被认为是GPU资源储备最充足的云巨头阿里云,也有些捉襟见肘。11月初,阿里云A100官网已经暂停出租。近期阿里云发布的财报称:“这些新的限制可能会对云智能集团提供产品和服务的能力以及履行现有合同的能力产生重大不利影响,从而负面影响其经营业绩及财务状况。”

上游垄断巨头供应成困,为了保证对大模型厂商的供给,公有云大厂只有在两条路上使力气。

一是节流,通过提高存量算力资源的使用效率,以高性价比方式缓解算力短缺。阿里云、腾讯云、华为云、百度智能云、火山引擎等云厂商对存储、网络到计算进行了全面升级,以此提高算力利用效率。比如,腾讯云基于星星海的服务器,据称把GPU的服务器故障率降低了超过50%;通过存储升级,腾讯云可以在60s内完成超过3TB的数据写入,支持提高模型训练效率。阿里云在10月底推出了全新升级的AI平台PAI,采用HPN 7.0新一代AI集群网络架构,据称促进大规模训练线性拓展效率高达96%;大模型训练中,可节省超50%算力资源。

二是开源,寻求算力的国产替代机会,实现加速追赶。比如,今年11月,英国路透社曾报道,百度为200台服务器向华为订购了1600颗昇腾910B AI芯片,作为英伟达A100的替代品。而后,也有其他大模型及云厂商陆续透露购置了国产芯片。而根据百度智能云官方信息,其千帆平台可以实现万卡规模集群训练的加速比达到95%,有效训练时间占比达到96%;同时,千帆平台还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持客户以最小的切换成本完成算力适配。可以看到,投资、抢卡、国产化,成为云大厂为抢占大模型市场开撕的主要方式。

03

阿里腾讯吃大头,百度字节踢馆,华为扛旗国产化

当下,随着OpenAI的GPTs掀起新的大模型定制潮,智能算力需求仍在膨胀。一方面,对标正在开发GPT-5、继续向微软筹钱的OpenAI,大模型企业需要的算力会更多。另一方面,大模型更侧重于落地千行百业,也需要云厂商的开发工具及API更加便捷易用,让国内大模型也能“5分钟开发一个应用”。

正如百度创始人、董事长兼CEO李彦宏所说:“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。” AI产业应该是在需求侧、应用层发力,鼓励企业调用大模型来开发AI原生应用。腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏指出:“云是大模型的最佳载体,大模型将开创下一代云服务的全新形态。”大模型正在重新定义云上工具,这成为公有云抢客大战的新赛点。

云巨头们正从工具链、生态社区、AI原生应用三大方面做高附加值,降低大模型应用落地的门槛,帮大模型企业推进落地。

1、大模型开发平台大乱斗当下,公有云大厂已经纷纷推出了升级的开发工具链,将自有经验沉淀出的大模型训练工具给AI公司和行业终端客户,包括阿里云百炼、百度智能云千帆、华为云昇思、腾讯云TI平台、火山引擎方舟等。2、开发者社区活力大比拼云大厂发展开发者社区,拥有更多更活跃的开发者社区,会带动大模型创企的产品的下载和落地应用。比如阿里云号称自己的一大优势就是被称为“中国版Hugging Face”的魔搭社区,据称模型下载量已突破1亿,累计为开发者贡献了3000万小时的免费GPU算力。

3、AI原生应用大爆发

云大厂基于自身的业务场景开发了一批AI原生应用,直接供给有明确需求但自身开发能力较弱的终端客户使用。比如百度已把AI能力全方位注入已有产品中,包括搜索、地图、文库、网盘等ToC产品。公有云大厂的“箭”射向这三大领域的同时,侧重点又有所区别。多位云计算业内人士告诉智东西,目前来看,阿里云、腾讯云等云巨头规模效应更明显,目前大模型客户更多,侧重提供云基础设施底座,兼顾应用开发。比如腾讯云陆续在计算、存储、数据库、网络等方面面向大模型推出了新品,但在其混元大模型的应用落地相对声量更小;阿里云则尤其强调其“节省超50%算力资源”、“大规模训练线性拓展效率高达96%”等云服务底座能力。百度智能云的行业终端客户看起来更多,侧重像OpenAI一样为行业提供便利化的大模型应用开发,以及百度自有产品的大模型赋能。根据其官方数据,截至8月31日,文心一言向社会开放四十多天里,文心大模型现在用户规模已经达到4500个,开发者达到了5.4万,场景有4300个,应用达825个,插件达500个。而华为云以及天翼云等玩家,更侧重基于全栈自研优势,打造自主可控的大模型应用方案,赋能行业场景应用。另外,一些新的云厂商也有机会。比如火山引擎凭借大量视频业务背后的GPU卡,海量数据以及自研AI大模型的经验,也获得了不少大模型客户。

04

结语:王者未定,云巨头
奔赴大模型“第二战场”

云巨头的“抢客大战”发展至今,一方面仍然需要开疆扩土,获得更多客户;另一方面随着上游供应紧张,各家也正在做漏斗筛选,选择更具实力的大模型厂商及更具标杆意义的行业终端客户,合作推进大模型商业化落地。

大模型正在变革云服务的形态,大模型开发平台等PaaS、MaaS业务更具潜力,这仍然是一个王者未定的市场。大模型应用开发与部署成为“第二战场”,哪一家云巨头能让自己的平台孵化出更多大模型或AIGC爆款应用,也就有望在新战场中拔得头筹。

2023年AI工具排行榜:最全工具汇总

人工智能(AI)技术发展迅速,AI工具也层出不穷。本文将对以下几个方面进行介绍:

1、2023年AI工具的最新趋势

AI工具领域的创新依然十分活跃,涌现出了一大批优秀的AI工具。这些工具在各个行业都得到了广泛应用,为提高生产效率、改善生活质量发挥了重要作用。

2、各类AI工具的应用场景

从聊天AI,到绘画,编程,视频,语音,音乐等,不同类型的AI工具都会带来巨大便利。

3、2023年AI工具的推荐

本文将推荐免费提供给大家使用的各种AI工具,可以让大家做到快人一步,享受AI带来的红利。

【收藏这份AI工具完整清单】

这是一份2023年最全、最实用的AI工具清单。赶紧收藏起来,为工作生活带来AI助力!

今天我们先来介绍一下聊天,笔记,这两类AI工具;

1、聊天机器人

  • ChatGPT 毋庸置疑的业界NO.1,也是因为他带火了最近一年的AI领域;体验过的同学应该不少,这里就不过多的花时间介绍;
  • Bing微软的全家桶生态都支持,从Edge浏览器,到Office系列,甚至到输入法都整合了bing的大语言模型对话机器人;当然,背后内核也是OpenAI支持的;但如果你是个深度的Windows用户,bing对你帮助肯定更大;
  • Claude 2(克劳德 2)  在语义,文字处理上,不得不说Claude 2甚至比Chatgpt做的更好,在需要书写一些文章内容的时候,Claude 2能给到你的帮助或许更强大;
  • POE 一款集合各类语言机器人的缝合怪,但你不得不承认,他用起来还是很顺手,切换到不同的语言模型也快,新手上手简单;
  • Bard Google的亲儿子,现在已经开启实验室试用版本了,而且肉眼可见的在进步,毕竟google也算是人工智能领域的先驱者,这块基本不会落下;
  • 文心一言 百度产品,在中文语义的理解上稍稍强于国外的模型;但知识库储备这方面还是有欠缺,国内的大模型任重而道远啊
  • 通义千问 阿里旗下的对话机器人,跟文言一心比较类似,使用起来结合了国内的一些特色,比如文言文的翻译等等;有亮眼支持,但区别不大;
  • MBM 国内直连GPT-4,并且支持32k长文本,最后推荐一个不用点科技树,可以直达Chatgpt体验的平台,可以直连GPT4,但是要付费;各位自行取用;

2、笔记/办公 AI

  • Notion AI 最好用的在线协作笔记本,加入AI后,在处理文本内容时候更加得心应手;很多同学都体验过,这里也不做过多介绍;
  • Loop 其实说白了,就是微软抄袭Notion的产品,缝合到微软生态里面还能凑合用;
  • WPS AI 背后套的是文心一言的大模型,从内容创作,智慧助手,知识洞察三个方向,为使用办公软件的同学们提供整合式体验;目前体验情况比较初级,期待后续的迭代;
  • 钉钉,飞书 国内在线协作文档的代表,钉钉的斜杠“/”,飞书的“My AI”;都是国内算是比较领先的整合式AI体验,感兴趣的都可以去体验一下;

整合一下上面提到的资源

聊天机器人
Chatgpthttps://chat.openai.com/
Binghttps://www.bing.com/
Claude 2https://claude.ai/
POEhttps://poe.com/ChatGPT
Bardbard.google.com
文心一言https://yiyan.baidu.com/
通义千问https://tongyi.aliyun.com/qianwen
MBMhttps://mchat.mbmzone.com/
笔记/办公 AI
Notion AIhttps://www.notion.so/
Loophttps://loop.microsoft.com/learn
WPS AIhttps://ai.wps.cn/
飞书文档https://docs.feishu.cn/

3、图像处理AI

  • MidjourneyMidjourney一直处于前沿的位置,也是大众能快速掌握的一款产品,最简单的txt转image的使用工具;
    • 生成的图像逼真,具有艺术性。
    • 操作简单,用户只需提供文本描述即可。
    • 应用范围广泛,可用于艺术创作、设计、教育等领域。
  • Leonardo.ai快速生成头像的最佳选择,是一款由 Google AI 开发的人工智能工具,可以用于生成图像、文本、音乐和视频等内容。它使用了一种名为 Diffusion Models 的人工智能模型,该模型具有强大的生成能力。
  • ClipDrop Stability AI算是Midjourney比较好的平替产品,有35亿66亿双模型和最多的参数。Stable Diffusion XL 0.9拥有3.5亿个参数,是原始的Stable Diffusion模型(890万个参数)的近四倍,
  • Adobe FireflyAdobe Firefly是Adobe公司推出的一款利用AI技术实现跨屏设计和Prototype快速设计的创新工具。基于Adobe的 Sensei AI引擎,能自动识别设计稿中的UI元素并转换为交互组件,一键生成网站、App原型。上传设计图,秒变交互原型。输出标准化代码,包括 Flutter、JavaScript 等代码框架。可将原型进一步开发成产品
  • Playground一款比较有意思的在线PS工具产品,竞争对象肯定是Adobe家的PS,但实际使用体验起来,倒也新颖:
  • lexicaAI图片的Google搜索
  • BingBing旗下的图片绘制工具,支持语音对话绘图;输入也支持多模态;
  • 文心一格百度旗下的绘图工具,网上体验内容已经非常多了;搞笑的也不少,但随着迭代的版本升级,现在基本可用了;(还记得驴肉火烧的梗么)
  • 老照片修复Wondershare】ReminiVance】Nero这里的每款产品都各有千秋,具体使用的时候各自都可以体验一下,找到最顺手的用就行;
  • ideogram.ai适合做LOGO的绘图AI工具,并且可以在图形上添加艺术字体,做成更符合logo类型的图片展示;
  • 通义万象阿里旗下的图片生成工具,目前使用体验起来,在中文理解上确实还是比较有独特之处;生成出来的图片大部分也是能够直接拿来用的;

4、图像编辑工具AI

  • Canva

现在做ppt,做营销图片,已经基本离不开Canva了,拥有海量的图片素材库,并且在AI处理这块也拥有丰富的经验积累;在做营销类AI图片的时候,大大节省设计师的时间;是一款你必须掌握的产品。

  • 微软的Canva

微软在此领域的布局,可以作为Canva的平替

  • Aode的Canva

Adobe的优势在于图片处理这块,Adobe拥有更强大的处理工具库;能让细节更加完美,总之,结合三个产品一起使用会是更好的一种体验。

图片处理AI
Midjourneyhttps://www.midjourney.com
最好是结合Discord一起用
ClipDrop Stability AIhttps://clipdrop.co/stable-diffusion
Adobe Fireflyhttps://firefly.adobe.com/
Playgroundhttp://playgroundai.com/
lexicahttp://lexical.art/
Binghttps://www.bing.com/create
文心一格https://yige.baidu.com/
老照片修复【Wondershare】:https://repairit.wondershare.com/online-old-photo-restoration.htm
【Remini】:https://app.remini.ai/
【Vance】:https://vanceai.com/old-photo-restoration/
【Nero】:https://t.co/H3FKSLYIfG
ideogram.aihttp://ideogram.ai/
通义万象https://tongyi.aliyun.com/wanxiang/
图像编辑工具AI
Canvahttp://canva.com/
微软的Canvahttps://designer.microsoft.com/
Adobe的Canvahttps://www.adobe.com/express/

5、视频生成(文字转影片)


【Kaiber.ai】最简单的文案转视频的网站,支持在线编辑;通过输入的图像,声音和文字内容,选择要创作的风格和场景;即可立即生成影片内容,创作出来的艺术性都不差现在app也已经上线了。

Stable Diffusion】旗下的Deforum最底层的AI图像处理技术,市面上很多AI视频和图像都是基于SD打造的;因为SD依赖于自身的显卡配置,我已经跑崩溃了几次了;这里介绍一家在线用云服务器跑的,但就是需要付点费;https://rundiffusion.com/
Pika Labs这个做动画视频要比SD更好玩;动漫风格比较突出现在使用需要加入候补名单,提早申请,提前体验;

【Genmo】这个在我之前的文章里面介绍过,详细可以查阅10个好用的AI神器,高效装备职场必备技能;
【Runway】同上,已经在之前的这篇文章介绍过了;大家自行查阅10个好用的AI神器,高效装备职场必备技能;
【商汤如影】商汤旗下的数字人生成平台,可以根据自己的形象打造自己的数字人;但目前国内在数字人版权和隐私保护这块做的还不是足够好;可以使用的产品跟国外比起来还是有比较大的差距;期待国内的公司加把劲,明年让我们看到更多的适合国内用户的产品;

6、AI剪辑类(可根据已有影片生成视频)

【剪映】图文成片,快速输入文案,图像即可在符合版权的情况下自动生成一个短视频。这个大家创作中应该应用的比较多,可以结合聊天机器人一起使用,事半功倍;
【Fliki.ai】Fliki.ai 是一个人工智能视频生成平台,它可以帮助用户根据文本描述和图片素材,生成高质量的视频。Fliki.ai 利用了人工智能技术,包括自然语言处理(NLP)、语音合成(TTS)、语音克隆(VC)、图像生成(IG)等等。这些技术可以让 Fliki.ai 理解用户输入的文本内容,为其生成合适的声音和画面,并将其组合成一段完整的视频。同时也是在线处理,在产品宣传,品牌推广,活动营销,教育培训等领域都可以做出高质量的视频内容;
【Pictory】又是一个一键成影的产品四个核心功能:文字生成视频,链接生成视频,视频图片抽帧处理,上传图像影片生成;基本涵盖了所有你想快速生成的领域;强调一下url生成,你录入一个url,他会自动帮你总结网站内容;然后选择人物,声音,快速制作成一个视频内容;(目前是收费的)
【Visla】ChatGPT的插件,但是要支持GPT4才行;输入文字,然后根据文字生成你想要的视频;这个也属于GPTs的应用板块但目前视频内容的质量还有待提高;
【一帧视频】国内团队做的,根据输入的文字,选择风格,也可以快速生成一段视频内容参差不齐,但也有一些内容做出来可以用;结合你的使用场景,快速体验吧;

7、AI数字人制作

【HeyGen】亚马逊出品,URL一键变真人你可以将亚马逊的商品链接丢进去,这个网站就可以按照你自己打造的数字人形象来生成一段影片,并且将刚才你输入的商品链接直接生成一个推广视频;不限语言,不限国家,没有版权困扰;非常简单易用;

【Revel.xyz】生成GIF图像,挺好玩的一个APP,需要在手机端进行下载体验;生成的图像还可以在平台进行交易,购买你觉得做的好的AI数字版权;做到了生产到销售的闭环;商业模式清晰;
【Generated photos】AI生成数字人形象,主要是生成形象这块的制作;可以根据你的相片,你的描述生成一个属于你自己的数字人;也可以进行调整;

【VidNoz】可以快速的在一分钟之内马上生成数字人视频;免费的哦;100+人工智能头像,100+AI生成语音模板,300多个可选择背景模板;都能基于你想创作的内容,快速匹配生成;用在短视频社会新闻这块倒是有点意思;

继续上干货,你要取的链接都在这里;

视频生成
Kaiber.aihttp://kaiber.ai/
Rundiffusionhttps://rundiffusion.com/
Pika Labshttps://pika.art/waitlist(填表申请)
Genmohttps://alpha.genmo.ai/
Runwayhttps://runwayml.com/
商汤如影http://senseavatar.sensetime.com/
AI快速剪辑
剪映https://www.capcut.cn/
Fliki.aihttps://fliki.ai/
Pictoryhttps://pictory.ai/
Visla打开ChatGPT找到此插件应用
一帧视频http://aigc.yizhentv.com/
AI数字人
HeyGenhttps://app.heygen.com/login?sid=rewardful&via=jing
Revel.xyzhttp://revel.xyz/
Generated Photohttps://generated.photos/
VidNozhttps://www.vidnoz.com/

6、声音克隆

  • Voice.aiVoice.ai 是一款语音合成 (TTS) 工具,可生成逼真的人声。它使用了最新的语音合成技术,能够生成具有情感和表达力的语音。目前应该算音频领域应用成熟的产品了;强大的地方在于,这款声音合成器能够实时的转换和变换声音,甚至可以伪造一些名人的声音,比如特朗普,奥巴马……;同时还可以切换音轨,将杂音进行处理,变换;克隆你自己的声音;现在国外很多的主播已经开始利用此工具进行直播创作了;也有很多应用平台也已经无缝接入此工具进行npc的创作了;例如discord,Skype,AmongUS……

11Labs
11AI 公司开发的人工智能语音平台。它可以生成逼真的人声、动物声、甚至机器声。该平台的主要功能包括:文字转语音:可以将文字转换为逼真的人声,支持多种语言和口音。语音克隆:可以根据现有声音生成新的声音,甚至可以实现声音的性别转换。语音合成:可以生成各种各样的声音效果,如喜悦、悲伤、愤怒等。其优势主要在于声音质量高,操作简单;也可以在教育,娱乐,营销等领域使用。支持多种语言,输入文字立即转成语音内容(但目前是外国人说中国话)

  • Coqui TTS这个在hugginface上面的一个项目,非常简单的使用方式;录入文字,设置语言即可立即生成语音内容;也可以打开你的麦克风,录入一段你的声音(随便说什么),然后他会学习生成;最后按照你的声音合成你想要的音频内容;总之,嫌麻烦的同学用这个可以很快的就生成你想要的内容。

7、文字生成歌词+唱歌 (txt-audio)

  • Suno.ai作词作曲唱歌配图集成到Discord里面的项目,输入/sing 然后会提示你输入要创作的歌曲内容,输入歌词,然后等一等,他就会自动生成AI做好的音乐;用来做一些简单的歌曲,因为里面的和弦都比较简单,适合做儿歌内容;也可以做抖音神曲里的口水歌,说不定下一首神曲就是这么诞生的。
  • BeatBot这是一个在线即可体验的网站,输入歌词,然后输入你想要的风格和类型;使用起来比较简单,会同时给你生成多种风格的BGM,复古类型的音乐偏多;然后你选择一种BGM生成你的歌曲。
  • SpliticAI on Discord

也是集成到Discord上的作曲项目,同样将项目添加到你的Discord服务中。
输入/sing 可以选择声音,男女声等等;然后输入歌词;就可以生成你想要的音乐,不过对中文的支持同样不是很友好;都是老外唱中文歌曲;哈哈
SpliticAI on Discord 是一款具有潜力的 Discord 插件,有望在未来为 Discord 用户带来更多乐趣和便利。

8、音乐生成(music)

  • Stable Audio

1秒生成90秒的音乐,背后的公司有10W+的音乐版权内容,音效更是数不胜数;
所以不用担心版权问题,生成一些背景音乐,BGM上也是挺有可玩性的。
使用起来也很简单,通过输入你想要的提示词,然后选择音乐风格,要生成的音乐时长;接下来就等着音乐制作好就行。

  • aiva是一个使用人工智能生成原创音乐的音乐创作平台。它由一支由音乐专业人士和人工智能专家组成的团队于 2016 年创立。提供多种功能,使其成为音乐创作者强大的工具。
  • Google MusicLMGoogle MusicLM 是一个由 Google AI 开发的人工智能音乐生成工具。它使用一种名为“Transformer”的深度学习模型,该模型可以学习大量音乐数据中的模式和规律。然后,该模型可以使用这些知识生成新的音乐。Google MusicLM 目前仍在开发中,但已经用于生成各种目的的音乐,包括:
    • 电影和电视: Google MusicLM 的音乐已用于电影、电视节目和广告。
    • 视频游戏: Google MusicLM 的音乐已用于视频游戏。
    • 品牌和营销: Google MusicLM 的音乐已用于品牌和营销目的。
  • Flowful这个产品的核心优势,就是在于它生成的音乐都是保证独一无二的;永远不会重复;如果是要找一些简单的音乐和节奏的话,直接通过它给的风格和关键词,立即生成;使用起来的时候也很快速;Flowful 的使用方法很简单。只需在平台上输入一些提示,例如音乐的流派、情绪、场景或主题,Flowful 就会生成一首原创音乐。

下面的这几个都是免费AI生成音乐的产品,使用起来都很简单,不需要复杂的学习成本;

这里就不再过多介绍了;后面有机会在展开讲讲每个产品的特点

  • https://www.tracksy.ai/
  • https://waveformer.replicate.dev/
  • https://www.beatoven.ai/
  • OpenAi MuseNet (还未更新)期待的产品,目前还是老版本没有更新,使用的模型甚至还是GPT2.0可以使用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村音乐到莫扎特再到披头士乐队的风格。MuseNet 并未根据我们对音乐的理解进行明确编程,而是通过学习预测数十万个 MIDI 文件中的下一个标记来发现和声、节奏和风格的模式。期待2024年能看到OpenAI在这块的发力。

9、国内大厂产品(music)

  • SoundfulSoundful是在阿里云上的一款基于人工智能的AI音乐生成器。它可以生成各种音乐流派和风格的音乐,包括流行、摇滚、古典、电子、民谣等。Soundful还可以生成不同情绪、场景和主题的音乐。
  • Ripple由字节跳动开发的一个AI音乐创作工具。它可以根据用户的声音、风格和情感,自动生成匹配的伴奏和歌词。Ripple还支持用户修改音乐的节奏、曲调、风格和效果。
  • X Studio由网易云音乐和小冰公司联合推出的一个AI歌手音乐创作软件。它可以帮助音乐人轻松创作高质量的AI新时代音乐作品。

废话不多说,直接上干货!!

  声音克隆
Voice.aihttps://link.xsolla.com/fRHgFADK
11Labshttps://elevenlabs.io/
Coqui TTShttps://huggingface.co/spaces/coqui/xtts
文字生成歌词+唱歌
http://Suno.aihttp://suno.ai/
spliticAI on Discordhttps://discord.com/application-directory/1137344214334709761
BeatBothttps://pro.splashmusic.com/
音乐生成
Stable Audiohttps://www.stableaudio.com/
aivahttp://creators.aiva.ai/
Google MusicLMhttps://aitestkitchen.withgoogle.com/experiments/music-lm
Flowfulhttps://www.flowful.app/player
tracksy.aihttps://www.tracksy.ai/
replicate.devhttps://www.beatoven.ai/
beatoven.aihttps://www.beatoven.ai/
OpenAi MuseNethttps://openai.com/research/musenet
国内大厂产品
Soundfulhttps://soundful.com/
RippleAPP下载
X Studiohttps://xstudio.music.163.com/

Nature重磅:17天独自创造41种新材料,AI再次赢了人类

只用了 17 天,人工智能(AI)便独自创造了 41 种新材料,每天超过两种。

相比之下,人类科学家可能需要几个月的尝试和实验,才能创造出一种新材料。

今天,这个名为 A-Lab 的 AI 实验室,登上了权威科学期刊 Nature。

据介绍,A-Lab 是一个由 AI 指导机器人制造新材料的实验室,能够在最少的人为干预下迅速发现新材料,其可以帮助确定和快速跟踪多个研究领域的材料,包括电池、储能、太阳能电池、燃料电池等

值得一提的是,在一次测试任务中,A-Lab 成功合成了 58 种预测材料中的 41 种,成功率达到了 71%。

这些测试数据来自伯克利实验室开放获取数据库 Materials Project 和由 Google DeepMind 开发的 Graph Networks for Materials Exploration(GNoME)深度学习工具。

同样在今天,Google DeepMind 的 GNoME 也登上了 Nature,其为 Materials Project 贡献了近 40 万种新化合物,是自该项目成立以来,由一个团队添加的最大一次新增结构稳定性数据,大大增加了科学家用于为未来技术发明新材料的开放存取资源。

伯克利实验室 Materials Project 创始人兼主任、加州大学伯克利分校教授 Kristin Persson 表示,“要解决全球环境和气候挑战,我们必须创造新材料。借助材料创新,我们可以开发可回收塑料、利用废弃能源、制造更好的电池,并构建更便宜、寿命更长的太阳能电池板等。”

有了AI,制造、测试新材料更快了

新技术的发展往往需要新材料。然而,制造一个材料并非易事。

科学家们已经通过计算预测了数十万种新型材料,但测试这些材料是否能在现实中制造出来是一个缓慢的过程。一个材料从计算到商业化需要很长时间。它必须具有合适的属性,能够在设备中工作,能够扩展,且具有合适的成本效率和性能。

如今,借助超级计算机和模拟技术,研究人员不再需要靠盲目的尝试从零开始创造材料。

在此次工作中,Google DeepMind 团队使用 Materials Project 十多年来开发的工作流程和数据对 GNoME 进行了训练,并通过主动学习改进了 GNoME 算法。

最终,GNoME 产生了 220 万种晶体结构,其中有 38 万种被纳入 Materials Project 中,且被预测为是稳定的。这些数据包括材料原子的排列方式(晶体结构)和稳定性(形成能)。

图|化合物 Ba₆Nb₇O₂₁ 是 GNoME 计算出的新材料之一,包含钡(蓝色)、铌(白色)和氧(绿色)。

据论文描述,GNoME 已将结构稳定预测的精确性提高到 80% 以上,在预测成分时每 100 次试验的精确度提高到 33%(相比之下,此前工作中该数字仅为 1%)

Google DeepMind 材料发现团队负责人 Ekin Dogus Cubuk 表示:“我们希望 GNoME 项目能够推动无机晶体研究的发展。外部研究人员已经通过独立的物理实验验证了 GNoME 发现的 736 多种新材料,证明了我们模型的发现可以在实验室中实现。”

然而,研究团队在论文中也指出,在实际应用中,GNoME 仍存在一些开放性问题,其中包括由竞争多形体引发的相变、振动轮廓和构型熵引起的动态稳定性,以及对最终合成能力的更深入理解。

为了制造 Materials Project 预测的新化合物,A-Lab 的 AI 通过研究科学论文并使用主动学习进行调整,创造出了新的配方。

伯克利实验室和加州大学伯克利分校科学家、A-Lab 首席研究员 Gerd Ceder 说:“我们的成功率达到了惊人的 71%,而且我们已经找到了一些改进方法。我们已经证明,将理论和数据与自动化相结合,会产生令人难以置信的结果。我们可以比以往任何时候都更快地制造和测试材料。”

据介绍,对决策算法做一些小改动,这一成功率还可提高到 74%,如果计算技术得到改进,还能将成功率进一步提高到 78%。

Persson 说:“我们不仅要让我们产生的数据免费并可用于加速全球的材料设计,而且还要向世界传授计算机可以为人们做些什么。它们可以比单独的实验更高效、更快地扫描大范围的新化合物和属性。”

有了 A-Lab 和 GNoME 等的帮助,科学家可以专注于未来技术中有前景的材料,比如提高汽车燃油经济性的更轻合金、提高可再生能源效率的更高效太阳能电池,或者是下一代计算机中更快的晶体管。

已显示出应用潜力

目前,Materials Project 正在处理更多 Google DeepMind 的化合物,并将其添加到在线数据库中。这些新数据将免费提供给研究人员,且也会输入到诸如 A-Lab 这样与 Materials Project 合作的项目中。

过去十年中,研究人员根据 Materials Project 数据中的线索,在多个领域通过实验证实了新材料的有用性。其中一些已显示出应用潜力,例如:

  • 在碳捕获中(从大气中提取二氧化碳)
  • 作为光催化剂(在光的作用下加速化学反应的材料,可用于分解污染物或产生氢气)
  • 作为热电材料(有助于利用废热并将其转化为电能的材料)
  • 作为透明导体(可用于太阳能电池、触摸屏或 LED)

当然,找到这些潜在材料只是解决人类面临的一些重大技术挑战的众多步骤之一。

除了以上两项研究,近年来,AI 在新材料发现、合成方面,取得了诸多突破。

2020 年,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。

同年,来自北卡罗莱纳州立大学和布法罗大学的研究人员开发了一项名为“人工化学家”的技术,该技术结合了 AI 和执行化学反应的自动化系统,以加速研发和生产商业所需的新化学材料。

2022 年,美国加州大学圣地亚哥分校工程学院的纳米工程师开发了一种 AI 算法——M3GNet,该算法几乎可以即时地预测任何材料(无论是现有材料还是新材料)的结构和动态特性。研究人员可使用其来寻找更安全、能量密度更高的可充电锂离子电池电极和电解质。

今年 3 月,发表在 Nature Synthesis 上的一项研究设想了一种由组合合成和 AI 技术共同发展推动的加速材料科学的未来。为了评估合成技术对特定实验工作流的适用性,研究人员建立了一套涵盖合成速度、可扩展性、范围和合成质量的十项度量标准,并在这些度量标准的背景下总结了一些选择性的组合合成技术。

作为高新技术的基础和先导,新材料应用范围极其广泛,它同信息技术、生物技术一起成为 21 世纪最重要和最具发展潜力的领域。

未来,随着 AI 等技术的突破性发展,科学家将有望聚焦在未来技术中更具前景的材料上,如提高汽车燃油经济性的更轻的合金、促进可再生能源发展的更高效的太阳能电池,以及在下一代计算机中发挥作用的更快的晶体管等。

【民生计算机】ChatGPT一周年:AI盛宴才刚刚开始

1.1 ChatGPT发布一周年

2023年11月30日,ChatGPT上线一周年。ChatGPT 是互联网史上最快获得1亿用户的产品,OpenAI也是资本市场有史以来估值提升速度最快的企业之一。谁也无法否认,世界已经因为AI深刻改变。作为在ChatGPT发布后迅速提出其重要意义的团队,我们持续保持对AI产业投资趋势的敏锐预判与深度研究:(1) 在ChatGPT发布初期国内资本市场默默无名时,我们在2023年1月率先发布重磅深度《ChatGPT:AI时代资本定价标杆性事件》,率先提出ChatGPT本质是AI通用工程化拐点,因而资本市场的普遍感知与大规模商业化将会无比迅速。
2023年1月29日,年后开市前夕,我们在市场率先提出AI或是新年预期差最大的计算机投资主线。在年后几周AI大模型相关公司大幅领涨市场之后,我们又对AI成为计算机新主线做出明确预判:后续最大投资机会应该从提供类ChatGPT技术到使用ChatGPT带来业务逻辑质变重估的思路转变,重点提出金山办公、同花顺的重估逻辑。

我们先后提出AI三大产业投资逻辑,在市场得到持续验证。

第一,AI现阶段有望复制2010-2012年移动互联网基础设施供给侧(智能手机产业链)迈向 2013-2015年应用需求侧的路径,GPT的“AppStore”时刻已经来临,AI迎来从供给到需求的拐点;

第二,在本次AI浪潮中,首次由软件定义产业趋势,而我们正迎来软件生态快速落地的阶段,带来大模型重构终端硬件的拐点已经来临,AI PC、AI pin等AI驱动终端硬件创新层出不穷;

第三,算力永不眠,昇腾有望成为国产算力扛旗者,昇腾AI一体机作为国内AI软硬件技术的黄金交点,有望形成全新主线。

1.2 AI盛宴才刚刚开始:算力国产化、终端重构与多模态AI应用是新三大方向

近期重要的AI动向:第一,英伟达黄仁勋宣称AI可能在5年内超越人类智能;第二,由Llama创始团队全新打造的Mistral AI已经实现7B的参数规模大小,全面适配终端。

根据mistral.ai官网,在2023年9月27日,Mistral AI 团队发布Mistral 7B

Mistral 7B 是一个 7.3B 参数模型:

在所有基准测试中优于 Llama 2 13B

在许多基准测试中优于 Llama 1 34B

接近 CodeLlama 7B 的代码性能,同时在代码之外在英语任务上表现良好

使用分组查询注意力 (GQA) 加快推理速度

使用滑动窗口注意力 (SWA) 以更低的成本处理更长的序列

Mistral 7B 易于对任何任务进行微调。作为演示,Mistral AI 团队提供了一个针对聊天进行微调的模型,其性能优于 Llama 2 13B 聊天。

Mistral AI 团队将Mistral 7B 与 Llama 2 系列进行了比较,对于所有模型的所有指标,都使用Mistral AI 团队的评估流程进行了重新评估,以便进行准确比较。Mistral 7B 在所有指标上都明显优于 Llama 2 13B,与 Llama 34B 相当(由于 Llama 2 34B 未发布,Mistral AI 团队报告了 Llama 34B 的结果)。它在代码和推理基准方面也非常出色。

基准测试按其主题分类:常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge和CommonsenseQA的0-shot。世界知识:NaturalQuestions和TriviaQA的5-shot。阅读理解:BoolQ和QuAC的0-shot。数学:8-shot GSM8K with maj@8和4-shot MATH with maj@4代码:Humaneval的0-shot和3-shot MBPP热门汇总结果:5-shot MMLU,3-shot BBH以及3-5-shot AGI Eval(仅包含英语多项选择问题)

比较模型在成本/性能平面上的表现的一个有趣的指标是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于Llama 2,其大小是其3倍以上。这意味着Mistral 7B在内存节省和吞吐量增加方面具有巨大的优势。
Mistral 7B和Llama 2(7B/13/70B)在MMLU、常识推理、世界知识和阅读理解方面的结果显示:Mistral 7B在所有评估中大部分都优于Llama 2 13B,只有在知识基准测试中表现相当(这可能是由于其有限的参数数量,限制了它可以压缩的知识量)。

AI Pin+Rewind Pendant等AI终端发布。
(1) AI Pin根据Humane公司官网,Humane 正式推出其首款 AI 硬件 —— AI-Pin,一款没有屏幕的 699 美元可穿戴智能通信设备,每月订阅费为 24 美元,运行在 T-Mobile 网络上,并可以访问微软和 OpenAI 的 AI 模型,并在 11 月 16 日优先在美国市场开启订购。

2)Rewind Pendant根据Rewind AI官网,Rewind Pendant是一款可穿戴设备,它可以捕捉使用者在现实世界中所说和所听到的内容,然后将其转录、加密,并完全存储在使用者的手机上。同时,Rewind Pendant将注重隐私优先,以确保没有人在未经他们同意的情况下被记录。

重大变革下,带来算力国产化与一体机、AI终端变革与AI应用三大新机会方向:

1. 基础算力国产化与一体机。当前昇腾一体机主要商业模式是软件厂商将通用或垂类大模型部署在昇腾一体机并结合自身业务打包出售,在英伟达禁令持续发酵的背景,稀缺性持续上升。昇腾一体机专注于大模型本地化部署的蓝海市场,是国内AI软硬件技术的黄金交点,以国产算力领军者华为昇腾AI基础软硬件平台为基础,联合国内领先AI厂商打造的先进生产力工具,有着数据安全可控、开箱即用的特点,AI大模型在数据安全与数据要素驱动下,带来央国企与政府大模型本地化部署的刚需。

表1:国内重点昇腾一体机发布时间轴

2. 从AI PC到AI pin的AI终端变革。本次由大模型带来的AI浪潮中,首次以软件先行定义一切基础。而在催生算力硬件等基础设施完善之后,开始逐步进入各个终端,各个终端开始重构和适应大模型放置在终端硬件上。

图14:联想AI PC应用方式 

3. AI应用:海外率先落地,国内有望复制规模商业化的大模型应用。海外在大模型成熟赋能下,已形成AI大模型-AI应用-商业模式落地的闭环。从GPTs发布不到一个月内,即超过Apple store上线一年的应用数量,正加速迈入应用井喷阶段;同时,多模态模型的不断进化打开文生视频等新领域;在国内大模型基本具备或接近GPT3.5的水平,海外成功落地的模式已为国内AI应用的发展明确后续的清晰路径。

海内外AI变革迹象不断,从芯片到终端再到AI应用,各大巨头及前沿科技团队纷纷加大投入,开启真正的“AI盛宴”。建议重点关注基础算力国产化与一体机、AI终端变革与AI应用带来的投资机遇:
1. 在英伟达新一轮的明确禁令后,芯片国产化是当前重中之重,同时结合数据隐私及大模型本地化部署的需求持续高涨,建议关注芯片基础算力国产化与一体机相关标的:华为昇腾一体机:科大讯飞、云从科技、软通动力、恒为科技、安恒信息;国产核心算力:寒武纪、浪潮信息、海光信息、超讯通信、汇纳科技
2. 从AI PC到AI pin的AI终端变革:大模型重构有望从AI PC开始共振,逐步延伸至汽车、手机与机器人等各类终端,或将迎来全面一轮的AI终端硬件创新潮,建议关注充分布局AI终端相关标的:中科创达、萤石网络、漫步者等。
3.海外在大模型持续赋能下,已明确其商业化规模落地的成功之路。国内在各大模型基本具备GPT3.5水平能力下,以及政策的持续推动,AI应用有望复制海外的成功路径,建议关注相关AI应用标的:效率办公-金山办公、AI司法-金桥信息、GPTs分发渠道-梦网科技、AI空间计算-超图软件、AIGC创作-万兴科技、超讯通信、教育-佳发教育、邮箱-彩讯股份、社交-掌阅科技等。

通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!

今天,通义千问再次重磅开源!

阿里云开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B 及 音频大模型Qwen-Audio,魔搭社区已首发上线!本次开源的模型中除预训练模型外,还同步推出了对应的对话模型,面向72B、1.8B对话模型提供了4bit/8bit 量化版模型,便于开发者们推理训练。

目前,魔搭社区提供一站式体验、下载、推理、微调、部署服务及教程,欢迎开发者小伙伴们体验!模型效果体验

通义千问团队对Qwen-72B的指令遵循、工具使用等技能作了技术优化,使Qwen-72B能够更好地被下游应用集成,比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制自己的AI助手,要求大模型扮演某个角色,或者执行特定的回复任务。

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo

通义千问音频大模型效果体验:

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-Audio-Chat-Demo

通义千问1.8B模型效果体验:

创空间体验链接:

https://www.modelscope.cn/studios/qwen/Qwen-1_8B-Chat-Demo

模型链接:

通义千问-72B-预训练:

https://modelscope.cn/models/qwen/Qwen-72B

通义千问-72B-Chat:

https://modelscope.cn/models/qwen/Qwen-72B-Chat

通义千问-72B-Chat-Int8:https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int8

大模型下载

通义千问-72B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int4

通义千问-1.8B-预训练:

https://modelscope.cn/models/qwen/Qwen-1_8B

通义千问-1.8B-Chat:

https://modelscope.cn/models/qwen/Qwen-1_8B-Chat

通义千问-1_8B-Chat-Int8:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int8

通义千问-1_8B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int4

通义千问-Audio-预训练:

https://modelscope.cn/models/qwen/Qwen-Audio

通义千问-Audio-Chat:

https://modelscope.cn/models/qwen/Qwen-Audio-Chat

模型下载(以通义千问-72B-Chat-Int4为例):

from modelscope import snapshot_downloadmodel_dir = snapshot_download("qwen/Qwen-72B-Chat-Int4")

模型推理 以通义千问-72B-Chat-Int4、通义千问-1_8B-Chat-Int4和通义千问-Audio-Chat为例:

通义千问-72B-Chat-Int4推理代码:

资源消耗:

微调代码开源地址:

https://github.com/modelscope/swift/tree/main/examples/pytorch/llm

微调环境准备

Qwen-72B-Chat-Int4为例:qlora+ddp+deepspeed

脚本地址:https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/qwen_72b_chat_int4/qlora_ddp_ds

AI模型,谁是盈利最强企业?

企业盈利能力是指企业获取利润的能力,通常表现为一定时期内企业收益数额的多少及其水平的高低。盈利能力的分析,就是对公司利润率的深层次分析。本文为企业价值系列之【盈利能力】篇,共选取48家AI模型企业作为研究样本,并以净资产收益率、毛利率、净利率等为评价指标。数据基于历史,不代表未来趋势;仅供静态分析,不构成投资建议。

AI模型盈利能力前十企业:第10 拓维信息盈利能力:净资产收益率-9.61%,毛利率32.40%,净利率-12.53%主营产品:软件云服务为最主要收入来源,收入占比49.29%,毛利率33.37%公司亮点:拓维信息基于软件能力及自研的AI中台优势,探索基于盘古大模型的AI行业应用创新,实现在AI领域“算力+模型+平台+应用”的整体布局。第9 中科创达盈利能力:净资产收益率13.64%,毛利率40.97%,净利率15.23%主营产品:软件开发为最主要收入来源,收入占比41.52%,毛利率43.15%公司亮点:中科创达魔方Rubik大模型,和既有的产品、业务都在密切融合,并已经在智能助理、边缘AI中得以应用。第8 东土科技盈利能力:净资产收益率-22.73%,毛利率34.89%,净利率-56.97%主营产品:工业网络通信为最主要收入来源,收入占比64.78%,毛利率36.16%公司亮点:东土科技间接参股企业一流科技,旗下拥有OneFlow深度学习框架、MLOps最佳实践OneBrain、AI实训平台Onelab、OF智能云四大产品。第7 捷顺科技盈利能力:净资产收益率5.14%,毛利率44.20%,净利率8.15%主营产品:智能停车场管理系统为最主要收入来源,收入占比47.30%,毛利率36.46%公司亮点:捷顺科技控股子公司顺易通与“盘古”大模型研发企业之一的循环智能达成战略合作,系盘古2.0首个应用。第6 浪潮信息盈利能力:净资产收益率12.84%,毛利率11.44%,净利率2.79%主营产品:服务器及部件为最主要收入来源,收入占比98.80%,毛利率11.30%公司亮点:浪潮信息发布的巨量模型“源1.0”的4个技能大模型,分别为对话、问答、翻译和古文,在各自的细分领域精度业界领先。第5 中文在线盈利能力:净资产收益率-5.32%,毛利率61.14%,净利率-4.10%主营产品:文化业务为最主要收入来源,收入占比98.76%,毛利率45.55%公司亮点:中文在线发布全球首个万字创作大模型“中文逍遥”。第4 万兴科技盈利能力:净资产收益率7.94%,毛利率95.27%,净利率7.98%主营产品:视频创意类为最主要收入来源,收入占比63.56%,毛利率95.29%公司亮点:万兴科技配置了AI服务器机房,部署了AI数据服务器和AI训练服务器,可充分应对AI算法下海量资源的训练及大数据处理。第3 神州数码盈利能力:净资产收益率11.02%,毛利率3.72%,净利率0.59%主营产品:消费电子业务为最主要收入来源,收入占比65.31%,毛利率2.16%公司亮点:基于数据+AI,神州数码推出Jarvis人工智能知识平台,以云原生技术、独特的数据算法和AI训练模型,轻松构建知识生产者和知识消费者间的桥梁。第2 恒生电子盈利能力:净资产收益率26.35%,毛利率74.55%,净利率25.67%主营产品:软件收入为最主要收入来源,收入占比99.19%,毛利率72.12%公司亮点:恒生电子发布金融行业大模型LightGPT, LightGPT使用超4000亿tokens的金融领域数据和超过400亿tokens的语种强化数据。第1 传音控股盈利能力:净资产收益率25.96%,毛利率22.79%,净利率6.77%主营产品:手机为最主要收入来源,收入占比91.25%,毛利率20.61%公司亮点:传音控股在研项目智慧云平台拟达到目标为提高三方服务快速接入和智慧分发能力,完成端侧AI相关的MLOps平台服务建设。

AI模型盈利能力前十企业,近三年净资产收益率、毛利率、净利率:

Meta AI 推出“无缝”翻译器,通用语音翻译器从科幻小说概念转变为现实

Meta AI 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流——从根本上使通用语音翻译的概念成为现实。这些模型于本周与研究论文和随附数据一起公开发布。

这款名为 Seamless 的旗舰模型将其他三个模型(SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2)的功能合并到一个统一的系统中。根据该研究论文,Seamless是“第一个公开可用的系统,可以实时解锁富有表现力的跨语言交流。

Seamless 如何作为通用实时翻译器


无缝翻译器代表了使用 AI 进行博客交流的新领域。它结合了三个复杂的神经网络模,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。

SeamlessExpressive 专注于在语言之间翻译时保留说话者声音的声乐风格和情感细微差别。正如论文中所描述的,“翻译应该捕捉到人类表达的细微差别。虽然现有的翻译工具擅长捕捉对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来输出。

SeamlessStreaming 可实现近乎实时的翻译,延迟仅为约 2 秒。研究人员表示,这是“第一个大规模多语言模型”,可以在近100种口语和书面语言中提供如此快的翻译速度。

第三个模型 SeamlessM4T v2 是其他两个模型的基础。它是去年发布的原始SeamlessM4T型号的升级版。据该论文称,新架构提供了“改进的文本和语音输出之间的一致性”。

“总而言之,Seamless让我们看到了将通用语音翻译器从科幻小说概念转变为现实世界技术所需的技术基础,”研究人员写道。

改变全球通信的潜力

这些模型的功能可以实现新的基于语音的通信体验,从使用智能眼镜的实时多语言对话到自动配音的视频和播客。研究人员认为,它还可以帮助打破移民和其他沟通困难者的语言障碍。

“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”该论文指出。


然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪和其他有害应用。为了促进模型的安全性和负责任的使用,他们实施了多项措施,包括音频水印和减少幻觉有毒输出的新技术。


Hugging Face上公开发布的模型

为了履行 Meta 对开放研究和合作的承诺,无缝通信模型已在 Hugging Face 和 Github 上公开发布。

该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。

通过免费提供这些最先进的自然语言处理模型,Meta 希望使其他研究人员和开发人员能够建立和扩展这项工作,以帮助将不同语言和文化的人们联系起来。该版本突显了 Meta 在开源 AI 领域的领导地位,并为研究界提供了宝贵的新资源。

“总的来说,无缝可能产生的多维体验可能会导致机器辅助跨语言交流方式的逐步变化,”研究人员总结道。

AutoStory:与大模型一起编写童话故事,成为下一个故事大王

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

小时候是否有很多奇思妙想,想通过绘画表现出来,但是又苦于自己的绘画功底太差,无法有效的表达?现在,通过AutoStory,可以帮你轻松的实现,让每个人都可以成为童话大王。

项目地址:https://aim-uofa.github.io/AutoStory/

论文地址:https://arxiv.org/pdf/2311.11243.pdf

Github地址:https://github.com/aim-uofa/AutoStory

摘要

故事可视化旨在生成与文本描述相匹配的一系列图像,需要生成的图像具有高质量、与文本描述对齐和角色身份的一致性。现有方法通过仅考虑少数特定角色和情境,或要求用户提供每个图像的控制条件(如草图)来大大简化问题。然而,这些简化使这些方法无法胜任实际应用。

本文介绍了一种自动化故事可视化系统,可以生成多样化、高质量、一致性强的故事图像,且需要最少的人工干预。该系统利用大型语言模型的理解和规划能力进行布局规划,然后利用大规模的文本到图像模型生成基于布局的复杂故事图像。作者发现,稀疏控制条件(如边界框)适合布局规划,而密集控制条件(如草图和关键点)适合生成高质量的图像内容。为了兼顾两者的优点,作者设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件,从而提高图像质量并实现易于直观的用户交互。此外,作者还提出了一种简单而有效的方法来生成多视角一致的角色图像,消除了人工收集或绘制角色图像的依赖。实验结果表明,该方法具有优越性。

简介

本文提出了一种全自动、多样化、高质量的故事可视化方法AutoStory,用户只需输入简单的故事描述即可生成高质量的故事图像。同时,该方法还提供了灵活的用户界面,允许用户通过简单的交互来微调故事可视化的结果。该方法的应用前景广阔,可以为艺术创作、儿童教育和文化传承等领域提供丰富的视觉表达。

本文提出了一种全自动的故事可视化流程,可以在最小的用户输入要求下生成多样化、高质量和一致的故事。为了处理故事可视化中的复杂情境,我们利用稀疏控制信号进行布局生成,利用密集控制信号进行高质量图像生成。同时,我们提出了一种简单而有效的密集条件生成模块,将稀疏控制信号自动转换为草图或关键点控制条件。为了保持身份一致性并消除用户为角色绘制或收集图像数据的需求,我们提出了一种简单的方法,从文本中生成多视角一致的图像。此外,我们利用3D先验来提高生成的角色图像的多样性,同时保持身份一致性。这是第一个能够在多样化的角色、场景和风格中生成高质量故事图像的方法,即使用户只输入文本,也能灵活适应各种用户输入。

相关工作

故事可视化

故事可视化是从文本描述中生成一系列视觉一致的图像的任务。现有的方法大多基于GAN,但受限于模型的生成能力,很多方法都是在特定数据集上简化任务,难以泛化到不同的角色和场景。一些新方法采用了VQ-VAE和transformer-based语言模型,或者利用预训练的DALL-E进行改进。其中一些方法还提出了新的任务,如story continuation和autoregressive方法。

大规模预训练文本到图像生成模型的发展为可推广的故事可视化开辟了新的机会。已有多种尝试生成具有多样化角色的故事图像的方法,但存在一些限制。TaleCraft提出了一种系统化的故事可视化流程,但需要用户提供每个角色的草图。相比之下,我们的方法只需要文本描述作为输入即可生成多样化且连贯的故事可视化结果。

可控图像生成

大规模预训练的文本到图像模型可以通过交叉注意力层将文本信息传递到图像的潜在表示中,从而生成图像。稳定扩散是一种大规模预训练的文本到图像模型,可以通过文本提示生成图像。

T2I模型在生成多个角色和复杂场景方面表现不佳,因为受到文本编码器语言理解能力的限制和文本到图像内容关联性差的影响。为了解决这个问题,一些方法引入了显式的空间引导,例如ControlNet、T2I-Adapter和GLIGEN。这些方法通过引入可靠的控制和注入指导特征,使得模型能够更好地利用输入信息。

最近的研究使用大型语言模型(LLMs)进行布局生成,其中LayoutGPT和LLM-grounded Diffusion都取得了不错的效果。然而,LLM-grounded Diffusion需要仔细的超参数调整,而且难以控制生成对象的详细结构。相比之下,本文使用直观的草图或关键点来指导最终图像生成,可以实现高质量的故事图像生成,并允许通过调整生成的草图或关键点条件来进行交互式故事可视化。

自定义图像生成

现有方法在一次性定制化方面表现不佳,需要多个用户提供的图像。为了解决这个问题,提出了一种无需训练的一致性建模方法,并利用3D感知生成模型中的3D先验知识,获得多视角一致的角色图像,从而消除了依赖人工收集或绘制角色图像的需求。同时介绍了多种不同的定制化方法,包括单个对象的定制化、多个对象的定制化、多个定制化权重的融合等。

方法

本文介绍了一种生成多样化故事图像的方法,结合了LLMs和大规模文本到图像模型的能力。该方法包括条件准备阶段和条件图像生成阶段,通过LLMs将文本描述转换为故事图像的布局,使用简单而有效的方法将稀疏边界框转换为密集控制信号,生成具有合理场景布局的故事图像,并提出一种方法,使用户无需收集每个角色的训练数据即可生成一致的故事图像。该方法只需要在少量图像上微调预训练的文本到图像扩散模型,可以轻松地在任意角色、场景甚至风格上利用现有模型进行故事叙述。

从故事到布局的生成

故事预处理。用户输入的文本可以是一个书面的故事𝑆或故事的简单描述𝐷。当只提供一个简单的描述𝐷作为输入时,我们利用LLM来生成特定的故事线,即𝑆= LLM(𝐹𝐷2𝑆,𝐷),如图2 (c)所示。在这里,𝐹𝐷2𝑆是帮助语言模型生成故事的指令。在获得故事𝑆后,我们要求LLM将故事分割为𝐾面板,每个面板对应于一个讲故事的图像,如下所示:

其中𝐹𝑆2𝑃是指导模型从故事生成面板的指令,𝑃𝑖是𝑖- th面板的文本描述。至此,我们已经完成了故事的预处理。

布局生成。在将故事划分为面板描述之后,我们利用LLMs从每个面板描述中提取场景布局,如下面的等式所示:

其中𝐹𝑃2𝐿是指导模型从面板描述生成布局的指令。具体来说,我们在教学中提供了多个场景布局的例子,以通过上下文学习加强LLMs的理解和规划能力。在这个过程中,我们要求LLMs不要使用代词,如“他,她,他们,它”来指代字符,而是指定每个主题的名称。这样,字符引用的模糊性就大大减少了。

在等式(3)中,𝜎𝑖是𝑖-th面板的场景布局,其中global由一个全局提示𝑝𝑖和几个具有相应局部边界框的局部提示组成,即:

其中𝑘𝑖是𝑖-th story图像中的本地提示数。𝑝𝑖local𝑗和𝑏𝑖local𝑗分别是𝑖-th story图像中的𝑗-th本地提示符和边界框。全局提示描述了整个故事图像的全局上下文,而局部提示则专注于单个对象的细节。这种设计通过将故事图像生成的复杂性解耦为多个简单任务,帮助我们极大地提高了图像生成的质量。

密集条件生成

动机。尽管使用稀疏边界框作为控制信号可以改善主题的生成并获得更合理的场景布局,但不能始终产生高质量的生成结果。在某些情况下,图像与场景布局不完全匹配,或者生成的图像质量不高。

我们认为这主要是由于边界框提供的信息有限。模型面临着在指导有限的情况下一次性生成大量内容的困难。为此,本文建议通过引入密集的草图或关键点指导来改进最终的故事图像生成。基于上一节生成的布局,设计了一个密集条件生成模块,如图2(d)所示。

主题生成。为了在不引入人工干预的情况下,将布局的稀疏边界框表示转化为密集的草图控制条件,首先根据local prompts,逐个生成布局中的单个对象。由于单对象生成的提示很简单,生成过程相对容易。因此,我们能够获得高质量的单目标生成结果。

提取每个主题的密集条件。在获得单个物体的生成结果后,我们使用openvocabulary目标检测方法Grouning-DINO对本地提示描述的物体进行定位,并获得定位框𝑏𝑖𝑑𝑗𝑒𝑡。然后,我们使用SAM 获得对象的分割掩码𝑚𝑖𝑗,𝑏𝑖𝑑𝑗𝑒𝑡是SAM的提示。随后,在T2I-Adapter之后,我们使用PidiNet 来获得掩模的外部边缘,它可以用作可控图像生成的密集草图。对于人体角色,我们也可以使用HRNet来获得人体姿态关键点作为密集条件。值得注意的是,生成的密集控制信号易于理解和操纵。因此,如果需要,用户可以很容易地手动调整生成的草图或关键点,以更好地与他们的意图保持一致。

构成稠密条件。最后,将得到的单个物体的密集控制条件粘贴到布局中对应的边界框区域,从而得到整个图像的密集控制条件,记为𝐶𝑖。一个潜在的问题是,由LLM生成的定位框的大小𝑏𝑖𝑗与groundin – dino方法检测到的定位框的大小𝑏𝑖𝑑𝑗𝑒𝑡不完全相同。为了解决这个问题,我们将𝑏𝑖𝑑𝑗𝑒𝑡内的密集控制条件缩放到𝑏𝑖𝑗的大小,以保持场景的全局布局不变。这个过程可以写成:

请注意,组合密集条件的过程是全自动的,不需要任何人工交互。

可控讲故事图像生成

受限于模型中文编码器的语言理解能力,以及生成过程中文和图像区域之间不正确的关联,直接生成的图像往往会出现对象缺失、归属混淆等一系列问题。为解决这个问题,引入了额外的控制信号,以提高图像生成的质量。

稀疏布局控制。在上文中,我们使用LLMs来获得故事图像的整体布局。本文生成故事图像的详细内容,遵循场景布局的指导。我们选择使用简单有效的区域样本方法,我们强制每个框内的图像潜在特征聚焦于相应的局部目标。因此,生成的图像确认了布局,也避免了对象之间的属性混淆。

密度控制。为了进一步提高图像质量,我们引入了上文中生成的密集条件来指导图像生成过程。具体来说,我们使用轻量级的T2I-Adapter来注入密集的控制信号。条件生成过程可以表示为:

其中𝐶𝑖是𝑖-th故事图像的密集条件,𝐴是用于密集控制的T2I-Adapter模型。我们的密集条件是自动生成的,从而消除了手工绘制草图的繁琐过程。

身份保护。角色身份的保留对于获得视觉上愉悦的故事可视化效果起着重要的作用。我们通过借鉴Mix-of-Show的思想来实现这一点,给定一个受试者的几张图像,对每个受试者的轻量级ED-LoRA权重进行微调,以捕捉详细的受试者特征。然后,应用梯度融合为单个角色合并多个ed – lora,以保证故事中所有角色的身份。融合后的LoRA权重记为Δ𝑊,最终的生成过程为:

消除按字符收集的数据

字符数据的要求。为了训练一个故事中角色的定制模型,我们需要几个角色的图像来进行模型微调。现有的故事可视化方法依赖于用户捕获的图像甚至数据集来训练定制的角色模型。为了消除繁琐的数据收集和自动化故事可视化,提出一种简单有效的方法来自动生成所需的训练数据。为了获得有效的单个字符定制模型,训练数据需要满足:(1)身份一致性,训练图像中字符的结构和纹理应该是一致的;(2)多样性,训练数据应该有所不同,例如视角不同,以避免模型过拟合。

标识的一致性。本文提出一种无需训练的一致性建模方法,以满足身份一致性的要求,如图3 (d)所示。将单个字符的多个图像视为视频中的不同帧,并使用预训练的扩散模型同时生成它们。在此过程中,生成模型中的自注意力被扩展到其他“视频帧”来加强图像之间的依赖关系,从而获得身份一致的生成结果。具体来说,在自注意力机制中,我们让每一帧中的潜在特征关注第一帧和前一帧的特征,以建立依赖关系。这个过程表示为:

其中𝑧𝑖是当前帧的潜在特征,𝑧0和𝑧𝑖−1分别是第一帧和前一帧的潜在特征。这里,[·,·]是拼接操作。

多样性。虽然上述方法可以保证所获得图像的身份一致性,但对于训练自定义模型而言,多样性还不够。为此,在不同的帧中注入不同的条件来增强生成的字符图像的多样性。为了获得这些不同但身份一致的条件,我们首先通过𝐼𝑖𝑐𝑜𝑛𝑑= DM(𝑝𝑖𝑠𝑢𝑏)生成单个图像,其中𝑝𝑖𝑠𝑢𝑏是由LLM生成的字符的描述。然后,我们使用预训练的视点条件图像平移模型来获取不同视点下的字符图像,如图3 (a)所示。最后,我们提取这些图像的草图或关键点作为控制条件。

然后,从这些图像中提取非人类角色的草图和人类角色的关键点。最后,在生成过程中使用T2I-Adapter将控制引导注入到对应帧的潜在特征中。

此外,为了进一步保证生成数据的质量,我们使用CLIP score对生成数据进行筛选,选择与文本描述一致的图像作为训练数据进行定制生成。

讨论。我们将提出的免训练身份一致性建模方法与视点条件图像翻译模型相结合,以实现角色生成中的身份一致性和多样性。一种更简单的方法是直接使用视点条件图像平移模型中的多视点图像作为自定义训练数据。然而,我们发现,直接生成的结果往往会产生失真,或者从不同的视角来看,图像的颜色和纹理有很大的差异。因此,我们需要利用上述一致性建模方法为每个字符获取纹理和结构一致的图像。

实验

实现细节

使用了GPT-4作为LLM,Stable Diffusion进行文本到图像生成,T2I-Adapter进行密集控制。其中,只有多主题定制过程需要训练,其他部分都是无需训练的。多主题定制模型的训练需要20分钟的ED-LoRA训练和1小时的梯度融合。整个流程可以在几分钟内生成大量结果。

结果

AutoStory可以根据用户输入的文本和图像生成高质量、一致性强的故事图像。该方法可以根据用户输入的文本和图像生成灵活多样的角色姿势和场景,同时还能有效地生成故事中提到的小物品。即使只有文本输入,该方法仍然可以生成高质量的故事可视化结果,而且角色身份高度一致。

与现有方法比较

比较方法。现有的故事可视化方法大多是针对数据集上的特定角色、场景和风格而设计的,无法应用于一般的故事可视化。为此,我们在这里主要比较可以归纳的方法,包括:TaleCraft、Custom Diffusion、paint-by-example、Make-A-Story。

质量比较。为了与现有的故事可视化方法进行正面对比,我们采用TaleCraft和Make-A-Story中的故事,如图5和图6所示。如图5所示,paint-by-example努力保持角色的身份。生成的图像中的女孩与用户提供的女孩图像有很大的不同。尽管Custom Diffusion在身份保持方面的表现稍好,但它有时会生成具有明显伪影的图像,例如第二张和第三张图像中扭曲的猫。TaleCraft取得了更好的图像质量,但仍然存在某些伪影,例如,第三张图像中的猫是扭曲的,第四张图像中女孩的一条腿缺失。AutoStory能够在身份保持、文本对齐和生成质量方面实现优越的性能。

同样,在图6中可以看到,Make-A-Story生成的故事图像质量较低,这主要是因为它是为FlintstonesSV数据集量身定制的,因此内在地受到生成能力的限制。TaleCraft在生成质量方面有显著提高,但与文本的对齐程度有限,例如,第一张图像中丢失的手提箱。由于LLM强大的文本理解和布局规划能力,所提出方法能够得到文本对齐的结果。有趣的是,我们的AutoStory和TaleCraft在图像风格上存在显著差异。我们假设这主要是由用于训练的字符数据的差异引起的。

定量比较。我们考虑两个指标来评估生成的结果:1、文本到图像的相似性,由文本和图像嵌入在CLIP特征空间中的余弦相似性度量;2、图像到图像的相似性,由用于训练的字符图像的平均嵌入与生成的故事图像在CLIP图像空间中的嵌入之间的余弦相似性度量。结果如表1所示。AutoStory在文本到图像的相似性和图像到图像的相似性方面都明显优于现有方法,证明了所提出方法的优越性。

用户研究。对10个故事进行了用户研究,每个故事平均有7个提示。在研究过程中,32名参与者被要求从三个维度对故事可视化结果进行评价:1、文本和图像之间的对齐;2、图像中人物的身份保持;3、生成图像的质量。我们让用户给每组故事图片打分。每种方法的结果如表2所示。可以看出,AutoStory在所有三个指标上都明显优于竞争方法,这表明所提出方法更受用户的青睐。

消融分析

控制信号。实验结果表明,没有控制条件时,模型会生成缺失对象和混合不同对象属性的图像。添加布局控制可以显著减轻概念冲突,但仍存在缺失主体的问题。只添加密集控制条件可以有效地生成所有提到的实体,但角色之间的概念冲突仍然存在。最后,结合布局和密集条件控制可以避免对象遗漏和角色之间的概念冲突,生成高质量的故事图像。

多视角角色生成中的设计问题。通过对比基准方法,发现纯sd无法获得一致性的图像,而temporal-sd可以保持一致性但缺乏多样性,One-2-3-45虽然具有多样性但存在一些缺陷。而我们的方法能够在保持一致性的同时增强多样性,并且通过稳定扩散的图像先验来减轻One-2-3-45生成的图像的缺陷。

总结

AutoStory的主要目标是通过最小的人力投入来创建满足特定用户需求的多样化故事可视化。通过结合LLMs和扩散模型的能力,我们成功获得了文本对齐、身份一致和高质量的故事图像。此外,通过我们精心设计的故事可视化流程和提出的角色数据生成模块,我们的方法简化了生成过程,减轻了用户的负担,有效消除了用户进行繁重数据收集的需求。充分的实验证明,我们的方法在生成故事的质量和保留主题特征方面优于现有方法。此外,我们的优秀结果是在不需要耗时和计算昂贵的大规模训练的情况下实现的,易于推广到不同的角色、场景和风格。在未来的工作中,我们计划加快多概念定制过程,并使我们的AutoStory实时运行。

大模型AI Agent 前沿调研

前言

大模型技术百花齐放,越来越多,同时大模型的落地也在紧锣密鼓的进行着,其中Agent智能体这个概念可谓是火的一滩糊涂。

今天就分享一些Agent相关的前沿研究(仅限基于大模型的AI Agent研究),包括一些论文或者框架,小伙伴可以根据自己的兴趣有选择的看一下~,其中角色扮演也可以看作Agent的一个较为火热的方向(具体的Agent就是一个具体角色),最后在文末从技术的角度整体总结一下agent的核心。

先给两个综述,大家可直接阅读,然后笔者挑一些有意思的总结一下。

温馨提示:全文较长,建议收藏,慢慢啃~

综述

A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

这是一篇关于agents的综述

Autonomous-Agent

github链接:https://github.com/lafmdp/Awesome-Papers-Autonomous-Agent

该git也在不断的收藏一些关于agent的前沿研究。

一些代表性的研究

(1) A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

本文为基于大模型agent的构建设计了一个统一框架并给出了三种学习策略。

具体的该框架由4个模块构成(如上图):配置模块、记忆模块、规划模块和执行模块。配置模块有3种方法来生成配置文件:手工制作法、LLM生成方法、数据集对齐方法;记忆模块分为3个方面:结构、格式和操作;记忆结构包括两种:统一内存(该结构没有短期和长期记忆的区别)和混合内存(有短期和长期记忆的区别);规划模块包括没有反馈的规划和带反馈的规划;动作模块即是最终真真响应的模块。

三种学习策略分别为从例子、人类反馈和环境反馈中学习。

本篇paper很好的抽象规划了整个框架,尤其是4个模块的设计,可以借鉴一下。

(2)Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

论文链接:https://arxiv.org/pdf/2305.10142.pdf

论文中的两个agent分别模拟买卖双方进行一场交易,具体就是利用两个agent来彼此不断互相对话、不断博弈,买方最终目的就是要以尽可能低的价格达成交易,而卖房则相反。其中核心技术看点就是在对话中使用一个中间agent利用cot进行反馈,告诉当前agent如何更好的回复才对自己最有利。

(3)Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

论文地址:https://arxiv.org/pdf/2309.04658.pdf

该篇论文尝试了同时启用很多的agent来互相配合完成一个更复杂的任务,具体的是使用了7个agent来完成一个狼人杀游戏,每个agent都要牢记自己的角色扮演规则。其中核心技术看点就是每个agnet都会提前定义好自己的角色定位,该规则和描述的prompt都是非常详细和具体的,同时更关键的是这些agent之间的复杂交互也即调用逻辑,其中下面就是agent角色的定义:

(4) METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE RAMEWORK

论文链接:https://arxiv.org/pdf/2308.00352.pdf

github: https://github.com/geekan/MetaGPT

metagpt实现了一个多agent的框架,方便大家迅速落地自己的场景,目前github stars已经3w+,官方demo演示了如何自动开发一个代码需求,比如来了一个需求后,它的agent包括产品经理先分析需求,然后开发工程师开发,最后还有code review等等。同时也使用该框架实现了狼人杀。

metagpt核心技术看点就是封装好了很多agent的基础能力比如包括交互通信等等。

(5) CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society

论文链接:https://arxiv.org/pdf/2303.17760.pdf

github: https://github.com/camel-ai/camel

camel提出的也是一种基于角色扮演来模拟多个agent交互的框架。具体的,camel重点研究任务导向的agent,其中一个是AI助手agent,另外一个是AI用户agent。

当camel收到一个具体需求和角色分配后,任务agent先提供详细描述以使这个需求更具体化,然后AI助手agent和AI用户agent会通过多轮对话一起合作来完成指定的任务。其中AI用户agent负责向AI助手agent提供指示并引导对话朝向任务完成方向进行,AI助手agent则理解AI用户agent的指示并提供具体的解决方案。

这里贴一下它的核心的agent prompt

论文中对prompt的每一条为啥要这样写都给出了理由,比如AI助手agent的prompt中有一条是“Always end your solution with: Next request”,这个是和AI用户agent要新一轮的指令,这样可以确保对话自动聊下去,这才是是非常关键的一点!!!是整个机制能自动run起来的关键。

另外作者为了自动获得对话数据,还借助大模型自动生成各种各样“AI助手agent&AI用户agent” 角色pair对,然后再为各个角色pair对生成多个相关话题,有了这些后就可以借助上面的机制进行多轮聊天。

这篇很好的实现完全自动化,无限挖掘;其中起了关键作用的就是上面这些prompt怎么写,论文都给出来了,大家感兴趣的可以去看原论文。

(6) AgentTuning: Enabling Generalized Agent Abilities for LLMs

论文地址:https://arxiv.org/abs/2310.12823

github链接:https://github.com/THUDM/AgentTuning

文中构建了一个包含高质量交互轨迹的微调数据集AgentInstruct,并且将其和通用能力的sft数据混合训练得到AgentLM。

其最大的亮点就是AgentInstruct数据集的构建,其主要依托的数据是来自AgentBench,其包含了6个来自真实世界的智能体任务。在构建好了基本的输入指令后,便以GPT-4作为智能体生成AgentInstruct。

(7) CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS

论文链接: https://arxiv.org/pdf/2311.06772.pdf

github链接: https://chatanything.github.io

本篇论文比较脑洞大,他是给定一张图片比如西瓜,然后会自动生成一个西瓜人agent回你对话。它主要涉及到三块,生成图像、tts以及人物性格生成;其中前两个分别是图像和语音技术这里我们不展开说了,感兴趣的小伙伴可以自己去读一下;人物性格生成这个主要也是借助LLM去自动生成贴切的性格,文章也给出了最核心的prompt:

(8) ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS

论文链接:https://arxiv.org/pdf/2310.00746.pdf

本文构建实现了一套角色扮演的方案,比如扮演孙悟空、哈利波特等等,每个角色都会有自己的说话风格并且都会有自己对应的角色背景,比如孙悟空自己的师傅是唐僧等等,在遇到有关唐僧的问题的时候,要注意结合师徒这个背景来回答。

文章主要的idea就是借助剧本来检索增强回复,同时作者基于llama训练了一个英文角色模型,基于glm训练了一个中文角色模型。

(9) Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots

论文链接:https://arxiv.org/pdf/2310.17976.pdf

本文重点关注角色扮演agent领域,具体是研究如何评估大模型的角色扮演效果

论文中的方法是基于大五人格、MBTI等心理学的人格相关理论,对角色扮演AI进行了人格测试。具体的是提出了一套为角色扮演AI设计的面谈式人格测试框架,基于人格测试量表与角色扮演AI展开开放式问答来进行评估。

(10) AutoGPT、XAgent、LangChain

AutoGPT : https://news.agpt.co

XAgent: https://github.com/OpenBMB/XAgent

LangChain: https://www.langchain.com

类似Metagpt, AutoGPT、XAgent、LangChain都是一些基于大模型开源的agent框架,其中LangChain更是在业界大名鼎鼎。

总结

Agent概念很大,这里如果我们纯从技术角度来看的话(且是依靠大模型的AI Agent),它的核心壁垒在哪里呢?或者说其最值钱的那部分技术是啥呢?

笔者将其归纳为如下两个核心:

  • 拆分问题 & 调用逻辑

需要构思好怎么将当前的任务进行更好的拆分成一个个子任务,以确保这些子任务足够简单、完成的准确率足够高;当这些子任务都确保能被很好的完成,那么最终的任务就能很好的完成了。

所以拆分问题很关键,拆分的粒度如果太粗,子任务难度系数就高,就很容易失败;拆分的粒度如果太西,调用逻辑就很繁琐,整个链路就会很臃肿,所以对需求和业务的理解越深刻,拆解才会越相对合理。

同时拆分的是否合理还会影响另外一个关键问题:后期自研模型的开发。当我们想利用大模型开发Agent的时候,一般来说会先去使用GPT4去试一试(毕竟其目前是大模型的天花板),如果它都完成的不好,那要么自己当前Agent的设计框架需要进一步完善,要么就是这个事目前大模型还真的是很难完成。当GPT4完成的还不错后,出于安全和成本等考虑我们必定是想走自研模型这条路的,做到自主可控,那么我们就可以前期使用GPT4去积累数据,然后用这部分数据去蒸馏训练出自己的大模型。

那么如果你的任务拆分的粒度太细,假设有100个子任务(这里指要最终调用大模型能力),那么如何将这100个任务同时进行大模型训练,平衡住所有任务的能力,这是很难的(每个子任务训练一个大模型也太不现实了),当然如果拆分的粒度太粗,单个子任务本身就很难,那单训练好这个子任务可能都是问题,就更别提要融合所有子任务了;

  • prompt engineering

当我们把当前这个Agent需要完成的任务多步拆解后以及理顺子任务之间的联动调用链路后,那么完成这些子任务就需要调用大模型了(当然有时候是调用一些其他插件比如计算器、搜索引擎等等;即使是调用插件其实上一步也一般是需要调用大模型来分析出要调用哪个插件以及插件需要的参数)。

既然是调用大模型,那么如何写好prompt让大模型完全get到你的需求,这是非常关键的,如果没写好prompt,那么子任务就失败了,整个链路就run不起来。

这块工作也是最繁琐和最需要经验的,要不断的去试进而润色出一个很棒的prompt。甚至笔者觉得在某些场景下,当你要做一个agent项目时,prompt engineering是你第一步要去做的事情,先去试着写几个prompt看看大模型能完成的怎么样?自己感受感受摸个底,这样也才可以有更多灵感看看怎么将任务进行更好的拆解,通过多步调用大模型(也即上面说的第一个核心点)来合作完成。

关注

知乎:https://www.zhihu.com/people/sa-tuo-de-yisheng/postsgithub:
https://github.com/Mryangkaitongcsdn:https://blog.csdn.net/weixin_42001089?spm=1010.2135.3001.5343

来自:算法之美

英伟达黄仁勋:AI将在5年内赶超人类

英伟达首席执行官黄仁勋周三在《纽约时报》的年度 DealBook 峰会上表示,人工智能正在超越人类。

他指出,如果通用人工智能(AGI)被定义为一种计算机,能够以与人类智能相媲美的方式完成测试,那么“在接下来的五年里,显然,人工智能可以完成这些测试”。

黄仁勋回忆了他向 OpenAI 交付“世界上第一台人工智能超级计算机”的情景。当时,作为 OpenAI 联合创始人的埃隆・马斯克(ElonMusk)尚未离开,他在一次会议上听到了黄仁勋对这台设备的介绍。

黄仁勋回忆称:“马斯克听到了我的介绍,他说,‘我也想要一个’,并告诉了我关于 OpenAI 的情况。当天,我向 OpenAI 交付了世界上第一台人工智能超级计算机。”

谈到最近围绕 OpenAI 的董事会重组以及首席执行官萨姆・阿尔特曼(SamAltman)先被解雇、随后又复职的混乱局面,黄仁勋表示,他希望事情能尽快平静下来。

黄仁勋说:“我很高兴他们达成了一致,我也希望他们达成一致,这是一支非常伟大的团队。这也让人想起公司治理的重要性。英伟达在成立 30 年后走到今天,我们经历了很多逆境。如果我们没有正确地建立公司,谁知道会发生什么。”

黄仁勋预测,人工智能领域的竞争将导致现成的人工智能工具大量出现,不同行业的公司将根据自己的需求进行调整,从芯片设计和软件开发到药物发现和放射学等。

首个AI智慧交通信号灯在新区试运行

近日,全国首个AI智慧交通信号灯集群控制系统在兰州新区投入试运行。

该系统充分利用人工智能、视觉识别、边缘计算等先进技术手段,根据城市整体交通状况自动调节红绿灯,实现多路口交通信号灯的动态调度,有效解决城市交通拥堵难题,提升城市交通通行效率。智慧交通信号灯集群系统对四个路口的实际交通情况进行态势感知预测,对交通信号灯进行智慧指挥、动态调整,车辆通行效率高,高峰时段拥堵现象明显减少。

据介绍,这一系统主要由智能AI摄像头、毫米波雷达、具有人工智能算法的工控机以及道路态势感知调度系统等构成,无需更换现有交通设备,具有低成本优势,可以快捷的安装在路口,不需要对道路动大手术。

根据现有评估部署智慧交通灯集群系统后,区域内车辆平均通行效率能比传统多时段定时控制模式提升10%至40%,有效提升城市交通运行效率的同时,还降低了碳排放。

丝绸之路信息港公司技术专家 武强:我们首先架设了路口的摄像头或者雷达的设备,作为我们这个整个智能交通系统的“眼睛”来看懂交通的路况。在路口又布设了相应的服务器或者相应的这个算法设备,能够随着交通流量的变化而进行智能的变化(调整)。通行效率会大大的提升,减少我们交通的拥堵。

目前,该系统使用的核心算法已获得国际权威人工智能学术会议认可,试点测试完成后有望实现量产。

欧洲自然科学院院士 兰州交通大学教授 马昌喜:该控制系统在兰州新区进行了运行测试,车辆识别精度达到了99.15%,路口交通通行效率平均提高了33.98%。

丝绸之路信息港公司技术专家 武强:该控制系统落地应用于实际路口,属于国内鲜有,技术具有一定的领先性,应用前景非常广阔。下一步,我们将在兰州市区、庆阳主城区扩展部署,在保证行人安全通行的前提下,显著提升车辆的通行效率,降低城市尾气和碳排放,打造智慧甘肃交通新名片。

 市民也对AI智慧交通信号灯赞不绝口, 压车现象减少了,市民出行更加通畅了,通行效率大大提升了。

Ai新星郭文景从天才少女到Ai视频巨头的跨越

8年前,郭文景的哈佛大学录取消息在杭州掀起了轰动。这位杭二中的天才女生成为浙江省第一个被哈佛本科提前录取的学生,她以编程能力和流利英语令面试官赞叹不已。然而,8年后的今天,郭文景再次引爆社交媒体,这次作为人工智能视频公司Pika Labs的创始人。

Pika Labs是一家成立仅6个月、总融资额达5500万美元、估值达到2亿美元的初创公司。他们开发了一款名为Pika 1.0的AI视频生成工具,可以轻松生成和编辑3D动画、动漫、卡通和电影等各种类型的视频。这项创新技术迅速在硅谷引起轰动,吸引了大量投资者的追捧。

Pika 1.0不仅可以根据已有素材扩展视频,生成不同高宽比的内容,还可以实时精确编辑视频内容。你只需简单地用鼠标框选、输入关键词,就能在视频中添加所需的素材,例如给视频中的狒狒带上一个帅气的太阳镜。此外,你还可以通过框选人物范围并输入文字实现换装效果。根据用户提供的视频素材和提示词,Pika 1.0能够制作出各种不同风格的动画,涵盖了现有电影和动画的大部分风格。

郭文景和她的合作伙伴Chenlin Meng都是斯坦福大学AI Lab的博士生。他们在创办Pika之前,曾参加Runway的AI电影节,但并未获得奖项。之后,她们退学,创立了Pika,致力于开发出简洁易用且逼真的视频效果。如今,Pika已拥有50万用户,每周制作数百万个视频,这种惊人的增长引起了硅谷投资人的广泛关注。

Pika Labs的A轮融资达到了5500万美元,并吸引了一系列知名投资人的参与,包括Github的前CEO纳特·弗里德曼、OpenAI创始成员安德烈·卡帕西、Quora创始人Adam D’Angelo等。

郭文景从小就展现出非凡的才能和学术成就。在高中期间,她获得了众多荣誉,如全国青少年信息学奥林匹克联赛(浙江省赛区)一等奖、北美编程邀请赛第二名等。她还连续两年夺得中国和美国数学竞赛冠军,并在美国数学奥林匹克夏令营中获得最高分。除了学术,郭文景也积极参与各种活动,例如学帆船、学滑雪、学救生员以及参加辩论社和全英文的辩论赛等。她的多才多艺和追求卓越的精神,为她赢得了广泛赞誉。

警惕!视频通话“AI换脸”新型诈骗!相似度可达80%→

最近,视频网站上通过人工智能换脸,国产影视剧里的主角用英语说起了台词,通过小程序用户也可以将自己变成电影里的人物,新技术带来欢乐的同时,也带来了一种名为“AI换脸诈骗”的新骗术。前不久,国家金融监督管理总局北京监管局发布谨防“AI换脸”等新型欺诈手段的风险提示。

青岛的一名大学生和他在网上认识的“女朋友”视频聊天,对方称需要资金周转,男孩打钱过去之后,发现竟然被诈骗了。

广东深圳某科技公司产品部经理 梁雅婷:通过取证发现,跟他聊天的并不是他的女朋友,对方是通过虚拟的摄像头,用AI换脸的功能跟他聊天。 

AI如何做到在视频通话时换脸呢?记者在一家为公安机关提供技术支持的科技公司看到的演示,相似度可以达到80%。记者在现场看到,一个高配置的电脑,合成一段10秒的换脸视频只需要一两分钟。而技术的发展,上述案件中视频聊天的实时变脸也不是难事了。

广东深圳某科技公司产品部经理 刘远洋:照片上传后,大概有30秒的时间对照片进行特征识别,然后建模,建模后就可以进行实时转换。不管是你的头像,还是你在朋友圈的一张小照片,都可以直接上传。

AI生成的技术还在不断更新迭代,比如性别的互换、声音的变换,都可以同步进行。由于算法是开源的,也就是说一个普通的工程师就可以制作出一个变脸软件,这就在控制源头上带来了极大的困难。

为企业工作流程打造AI助理,亚马逊发表「Amazon Q」聊天机器人

ChatGPT带来的对话体验以及日益强大的功能,人们渐渐熟悉、融入这种新模式。亚马逊为企业开发一款名为「Amazon Q」的聊天机器人,提供AWS客户使用,快速获得解答、产生内容并为工作任务采取行动。

AWS执行长Adam Selipsky在AWS re:Invent 2023主题演讲分享,Amazon Q就像是AI助理,采用这套服务的企业员工可以询问工作上的问题,比方说可问Amazon Q公司最新的商标使用指南有何规定、了解其他工程师所写的代码以维护程序、分析客户遇到哪些产品问题以及改进方法,还能上传Word、PDF等文件以及图表加以分析,快速获得工作上需要的信息。

除在AWS管理主控台和各公司系统页面之外,AWS客户可将Amazon Q连接团队特定使用的应用程序并加以设定,例如Salesforce、Jira、Zendesk、Gmail、Amazon S3储存实例等,它对企业所有关联数据和内容进行检索,「学习」企业各个方面知识。

Amazon Q能与全托管生成式AI服务Amazon Bedrock上的任何模型搭配使用,包括Meta Llama 2、Anthropic Claude 2等。部署Amazon Q的客户通常会选择适合企业的模型、连接Bedrock API,以处理数据和工作流程。

出于负责任和安全因素,亚马逊也对使用生成式AI抱持谨慎态度。Adam Selipsky整场主题演讲多次强调,Amazon Q给出的答复可以控制,只会回答用户有权查看的信息,系统管理员可以限制敏感信息内容,让Amazon Q在必要时过滤不适当的问题和答案。

为了减轻AI幻觉,系统管理员可以选择让Amazon Q只从公司知识库提取必要信息,而不是从任何模型提取知识。Adam Selipsky指出,驱动Amazon Q的模型来自Amazon Bedrock的模型组合,包括亚马逊专有大型语言模型的基础模型Amazon Titan。

矽谷混乱一周过去,但OpenAI宫斗最大赢家不是Altman

OpenAI宫斗第一季落幕,微软有惊无险得到最理想结果。微软CEO纳德拉一开始只是观众,提前几分钟知道Sam Altman被开除,但马上粉墨登场,扮演推动剧情前进的重要配角:欢迎Altman加入微软。

这消息保住微软股价,也增加Altman重回CEO的筹码。Altman回归声明更特别感谢纳德拉,矽谷这疯狂五天,纳德拉游刃有余,蓦然回首,明星公司OpenAI的背后,一定有微软这低调赢家。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

GitHub Copilot。

机会是给有准备的人。微软有庞大开发者客户,也有领先开发者平台GitHub,有大量原始代码。GPT-3基础上,OpenAI和GitHub合作2021年6月推出AI助理「Copilot」,虽然还会出错,也只能完成部分基础工作,但能理解程序设计,也理解人类语言,让不少开发者印象深刻,如同大众初次见到ChatGPT。

人类副驾驶

打入OpenAI的纳德拉,总比外界更早意识到世界变化。纳德拉第一次看到GPT-4是2022年夏天,尝试翻译波斯诗歌,惊喜发现GPT-4不只翻译,还能跨越两种语言的界限,又保留诗歌的微妙之处。生成式AI跨越的何止语言,纳德拉认为更是「巨大的平台式转变」。

上次转变是行动时代,服务和消费无处不在,现在创造也无处不在,更多自然语言AI工具出现,任何人都能轻松产生新事物,包括程序,「当输入提示词,就是为大语言模型做程序设计」。

Copilot直译为「副驾驶」,最早用于GitHub程序助理之名,用副驾驶取名是纳德拉的点子,指向「以人为中心」的本质。11月中旬微软「重塑品牌」,Bing、Edge和Windows 11聊天界面统一称为「Copilot」。最近Ignite大会,纳德拉提到:「我们的愿景非常简单:我们是Copilot公司,相信未来每个人和所做的事都会有Copilot帮忙。」

然而更多创造是否意味更多破坏?纳德拉答案是「是」,工作可能被取代,人们可能必须经历转型,AI可能充满偏见,但更多人会受益,他举例当文字处理器出现,打字员大失业,但10亿人可同时快速输入并创建共享文件。

美国西海岸大语言模型让印度开发者轻松写程序,让农民方便填写电子表格,但仍是「破坏式创新」说法,视角不同,看到的风景就不同,谁也不能保证自己不是下个打字员。

OpenAI政变,微软有惊无险地上岸,但这场有历史意义的AI之战,很少有人有发言权,哪怕微软。这倒如纳德拉所说「AI无处不在,这是个黑盒子,你和我只是目标」。身为世界巨头企业的CEO,他认为更重要的问题是,谁有做事,谁帮助世界前进。

首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

关于当前基于Transformer的LLM能走多远的问题,人们仍在争论不休。与此同时,另一边,能够帮助人们处理各项工作的AI Agent已经悄然走入人们的生活。以前的ChatGPT等大模型,热衷于在人类考试中刷分以凸显自己的实力,而不久前,又有一位AI Agent通过了美国加州的驾照考试。——但与之前不同的是,这次的AI Agent是在监考员的眼皮底下帮助人类成功作弊,通过考试!

对此,AI Agent的作者表示,「很高兴与大家分享一项不朽的成就,我们的 Web AI 代理刚刚通过在线加州驾驶考试创造了历史,成为第一个在加州获得驾驶执照的虚拟 AI!」「这标志着一个开创性的时刻:人工智能首次完全自主地完成现实世界的人类知识任务,这是人工智能的一小步,也是人类的一大步。」虽然多少有点夸张,但不得不说,还是挺神奇的。

AI Agent完全靠自己审题、作答、并点击下一道题。对于这样成功的表现,Jim Fan也是表达了祝贺:从去年开始,一些加州居民可以在网上参加驾驶考试的笔试部分,免去了他们需要花时间去考试机构所在地的麻烦。

为了防止作弊,官方采取了一些相应的措施,要求考生必须允许机动车辆管理局(DMV)访问电脑的摄像头,以记录考试过程;并在考试期间共享屏幕。——这样参加考试的人就无法在考试中途打小抄了。然而,还是有人在监考员的眼皮底下作弊成功,而助手正是我们前面介绍的AI Agent(到底谁是助手也不好说)。

这个AI Agent来自一家名为 MultiOn 的初创公司,由 Div Garg 创立。Div Garg是斯坦福大学的博士辍学生,他最初创办 MultiOn 是为了实现日常任务的自动化,比如从亚马逊订购厕纸或安排日历约会。MultiOn 的产品可以控制用户的浏览器,完成诸如在 Uber Eats 上订餐或进行 Resy 预订等任务。——需要注意的是,这并不是我们平时会见到的浏览器脚本,Agent背后依托的是AI的能力。

这项服务目前是免费的,AI Agent位于浏览器的右下角,你可以在这里输入命令,这与微软的必应 ChatGPT 助手完全不同。这个AI Agent可以作为用户的私人助理,它提供的大部分功能都很有用,即使不能完全改变生活。上个月在旧金山的一家咖啡馆演示 MultiOn 时,Garg 用它向 Facebook 上的熟人群发了「生日快乐」信息。

随后又利用 MultiOn 安排了与记者的下一次会面,目的正是向大众演示如何利用AI Agent通过车管局的正式驾驶考试。虽然看上去只不过是AI答对了一些问题,但实际上要达成这个目的并不简单。一般来说,AI需要一段长长的提示,才能选择正确答案,然后点击进入下一个问题,而且AI不能有多余的动作,以免被发现作弊。平心而论,目前的这个AI Agent仍然需要人的手指随时待命,以防出错。根据设置,MultiOn 在出错时会停止运行,这时就需要人类测试者自己按下「继续」按钮。另外,它也无法解析图像,所以如果遇到了要求识别交通标志的问题,都会回答错误。

当前的AI虽然拥有完善的知识,但通常需要严格的提示才能进行下一步。所以,对于这场考试来说,答对有关正确驾驶规范的难题是一方面,点击按钮进入下一个问题更体现出它的能力。Garg认为这依靠了很多运气。这是 MultiOn 第一次参加正式的州立考,最终,MultiOn 在 46 道题中只错了五六道,正式达到了通过标准。当然,根据加州法律,以这种方式使用该技术可能构成伪证罪

因为在考试之前会要求考生声明自己将亲自作答。加利福尼亚州车管局曾在一份声明中写道:「作为一项防欺诈措施,在线考试参与者必须验证自己的身份,并同意在整个考试过程中接受监控。随着技术的发展,DMV 将继续更新保障措施」。人工智能助手的未来MultiOn在通过DMV考试之前,就已经引起了OpenAI及其首席执行官Sam Altman的注意,Garg 表示正在与OpenAI密切合作。

但就目前而言,MultiOn对部署采取了谨慎的态度,这次成功的测试与其说是一项关键功能,不如说是一个概念验证。Garg希望确保对自己产品的控制,从而避免出现恶意使用的情况。他希望人们不要在各种考试中作弊,因此他计划对普通用户禁用任何类似的「灰色地带」功能。与主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作为谷歌 Chrome 浏览器的扩展程序自主运行的。用户必须授予它有效控制电脑的权限。「我们的技术直接在用户的电脑上运行,它实际上是在控制,在做事,很多事情都可能出错」。

目前,大约有 3 万人注册试用了该应用的测试版。Garg预计 MultiOn 还会有更多新功能,比如加强版移动语音助手和内置 MultiOn 技术的浏览器。——不过,利用它在 SAT 或 ACT 等考试中作弊的可能性也不大,因为这两个考试机构都要求学生到考试中心参加考试。MultiOn的官网上还向我们展示了产品的一些基本而有趣的用途,比如查询天气:更实用一点的是下面这个例子,用户可以直接告诉Agent帮忙订一个汉堡,后面的所有事情都完全不用操心了。

包括选择店铺、选择商品、下订单和支付等等,Agent一条龙服务,统统帮你搞定——确实称得上是私人助理了。除了这个演示,官网还列出了其他的一些功能:

比如线上购物、文章摘要、查找并播放音乐和视频、在线互动等。有网友使用MultiOn在亚马逊买了一本书,并表示「太疯狂了」。

而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:

有了这次成功的驾照考试经历,Garg也是野心勃勃地表示,「明年我们的AI Agent就可以驾驶你的特斯拉了」!

不知道大家对于未来的AI Agent又抱有怎样的幻想呢?

“AI生成图片著作权侵权第一案”审理思路与评议

2023年11月27日,北京互联网法院判决认为被告刘某某发布文章配图使用了原告李某利用AI声称的图片构成侵权。值得注意的是,北京互联网法院认为涉案人工智能生成图片(AI绘画图片)“春风送来了温柔”具备“独创性”要件,体现了人的独创性智力投入,应当被认定为著作权法保护。这是我国首次将AI生成图片认定为著作权法保护,本文试对北京互联网法院判决焦点及问题整理,并提出自己的想法以供大家讨论。

原告李某使用选取开源软件Stable Diffusion模型,对开源模型进行图片生成参数调整,调整后在输入提示词生成图片,根据生成的效果再调整参数最终生成涉案图片后发布于小红书平台并有水印;被告系百家号博主,发布自己撰写的文章,并且配图使用了原告利用通过Stable Diffusion生成的图片,该图片并无水印,原告遂起诉。经过当庭勘验,原告通过变更个别参数、其生成的图片结果不同。

北京互联网法院在审理过程中认为本案有以下三个争议焦点.关于AI生成物是否属于智力成果,北京互联网法院认为该AI生成图片体现了人的智力投入,属于智力成果。该AI生成图片是原告李某希望通过AI生成满足自己预期的图片,并且原告在此过程中具有选择模型并且设计人物的呈现方式、选择提示词、调整参数等充分表现原告李某发挥主观能动、智力投入的活动。二.关于AI生成物是否具有独创性,北京互联网法院认为不能将AI生成物一概认为具有独创性,而是应该个案审理。本案中,该AI生成图片是原告李某利用Stable Diffusion模型画的,且在此过程中原告对画面布图构局等通过参数进行了设置,体现了原告的选择和安排,并且原告在生成该图片过程中不断调整参数、输入提示词等方式获得最终图片,而这些过程体现原告的审美选择和个性判断,所以该图片并非“机械性智力成果”,具有独创性。三.人工智能模型本身不能成为著作权法上的作者。北京互联网法院认为,作者限于自然人、法人或非法人组织,这与民法典规定的民事主体一致,所以虽然涉案图片是人工智能所画,但是该模型无法成为涉案图片的作者。
综上,北京互联网法院认为该涉案AI图片属于作品,且原告是该涉案AI图片的作者享有著作权。本案中被告未经原告许可擅自使用该涉案图品构成侵权。故被告去除水印的行为且使用该图片发布在自己账号的行为侵害了原告的署名权和信息网络传播权。
(一)对开源模型的参数调整是否构成生成图片的独创性

北京互联网法院该AI生成图片是原告李某利用开源Stable Diffusion模型画的,众所周知Stable Diffusion系专门用于AI绘图的专业模型,它的开源软件本身就具备绘画的能力,在裁判文书中也明确说明了开源方许可协议中并未主张任何知识产权。开源软件是互联网行业常用的营销手段,开源软件一般会开源参数而不会开源软件或模型的底层代码,Stable Diffusion亦是如此,下载开源软件方可对开源模型进行参数调整以达到完善模型的目的。需要注意的是,参数的调整主要是基于开源模型本身,而并非图片生成。本案判决书,原告的角色相当于使用开源模型方,而生成的图片更多的是对模型参数调整后,输入提示词后图片生成的效果。从这里可知,模型参数的调整和提示词指令的发出更多是预训练阶段,只不过在预训练阶段对模型参数的调整和图片生成会混为一体。
笔者认为在Stable Diffusion开源模型下对模型参数的调整所产生的知识产权应当开源模型的独创性,对模型参数的调整本身是生成图片的通用规则,并不会具象化成为图片生成的直接贡献。众所周知,人工智能算法黑箱技术无法解决,人类无法识别人工智能算法真正生成物的过程,不论针对Stable Diffusion模型进行何种参数调整,都无法识别出到底对生成的图片作出了哪些有用的贡献。何况Stable Diffusion开源模型就是一个绘图通用的模型技术,参数的调整会影响任何图片的生成,不仅仅是涉案图片。那么,图片是如何生成的?在技术上,模型的预训练就是在给模型教授知识,让它听懂人类的指令,并根据指令输出已学习到的知识。在本案中,虽然原告通过多次参数和提示词调整最终生成了图片,该行为仍然是对模型本身的训练调整,而图片生成仅有一个动作那就是输入提示词。原告多次修改参数和提示词其实是两个行为,会产生两个知识产权法律的后果,一个是参数的调整会影响在开源基础上对模型参数的调整,属于对开源模型的二次创作,是否构成新的知识产权需要按照开源协议约定判断。另一个是输入提示词生成一张图片是否是著作权法中的作品,是否构成独创性,是否是人的智力成果需要深度讨论,也是本案的关键点
因此,在本案中,要想讨论生成物的知识产权只需要讨论输入提示词是否构成独创性。本案的特殊性在于这两个行为都是一个主体完成的,如何区分可能仁者见仁智者见智。笔者认为本案中原告具体操作步骤为设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数,这些操作步骤的针对对象始终为Stable Diffusion模型,并非图片的具体参数。原告在该开源模型上进行修改参数等操作最后生成图片步骤实际上仍然属于对该开源模型的二次创作的训练阶段,尽管后期有修改提示词的等于涉案图片直接相关的操作步骤,但是这些步骤本质并未脱离训练模型本身。不管如何,如果两个行为并非一个主体完成,是需要严格区分两个知识产权,而并非混为一谈,关于该开源模型生成图片的独创性仍需进一步论证

(二)开源模型生成物是否属于智力成果

对于开源模型的产物是否属于智力成果和前述独创性标准论述一致。本案中,北京市互联网法院认为涉案图片是人工智能所“画”,但又否定该图片为人工智能的生成物,此处逻辑自相矛盾。故北京市互联网法院混淆本案原告的创作对象,错将原告创作对象认为生成图片而非开源模型本身,所以认为该生成图片是原告利用开源模型作为“工具”生成图片,但是本案原告调整参数等创作步骤全部针对于该开源模型,并非图片本身,所以笔者认为该图片应该为开源模型生成物。人工智能模型既没有创作涉案图片的意愿,图片的生成依据是使用者输入的提示词,实践中大部分模型为刷题式的记忆模型,并逻辑计算和推理模型笔者认为,涉案开源模型只是涉案图片的生产者,并不是创作者它所执行的不过是设计者或操作者的意志,无论该人工智能有多“智能”,它始终按照既定的程序、算法、规则进行运作,究其本身并未突破人类辅助工具的范畴,不能完全独立自主生成物品。

注:本文作者为马军,马阳明。

OpenAI董事会调整,微软等投资者或无董事席位

近日有知情人士向路透社透露,虽然OpenAI正面临着一场重组,但该公司不打算向微软等其他投资者提供董事会席位,包括Kholsa Ventures和Thrive Capital在内。

微软目前是OpenAI最大的支持者之一,此前曾承诺向该公司投资数十亿美元。据ITBEAR科技资讯了解,上周OpenAI突然解雇了首席执行官兼创始人Sam Altman,而后在三天后又宣布重新任命Altman,并承诺成立一个新的董事会。

The Information的报道指出,OpenAI即将设立一个由9人组成的董事会,其中新董事会的三位初始成员——主席Bret
Taylor、前财政部长Larry Summers和Quora CEO Adam D’Angelo——预计将于本周得到正式确认。目前来看,D’Angelo将是唯一从解雇Altman的六人旧董事会中保留下来的成员。在关于OpenAI董事会的问题上,微软发言人表示“我们将等待董事会正式宣布”。截至目前,OpenAI、Thrive和Khosla尚未回应置评请求。

全国首例“AI游戏外挂”案告破!过程揭秘→

AI人工智能拥有高效数据处理和自主学习能力。然而,也有一些人打起了人工智能的歪主意,“AI游戏外挂”是近些年出现的新型违法犯罪行为。前不久,江西警方破获了全国首例利用“AI人工智能游戏外挂”非法牟利的案件,涉案金额达3000余万元。报警的就是购买使用这款游戏“外挂”的资深玩家,这究竟是怎样的一起案件?

使用“AI人工智能游戏外挂”后玩家游戏账号被封禁

余先生是一款射击类网络游戏的资深玩家,在使用过一款“AI人工智能外挂”后,他发现自己用了十几年的游戏账号被封禁了,而且封禁期长达10年。

当时,他从游戏好友那里了解到,有一款专门针对射击类游戏的“AI人工智能外挂”,可以轻松提高战绩排名。“游戏里面有好多人介绍这个‘外挂’软件,有的放了支付链接,点进去就能看到‘外挂’的购买方式。”余先生介绍。

通过询问其他玩家,余先生得知,这款“外挂”号称有AI人工智能加持,只要电脑显卡配置合适就可以使用,即使是业余游戏玩家也可以轻松超越职业选手,对方还介绍这款“外挂”不会导致账号被封。

余先生很快购买了这款游戏“外挂”,实际体验中,他几乎每次都能精准地命中目标,游戏战绩也大幅提升。然而使用了几次后,余先生用了十几年的游戏账号突然被封禁了。

“外挂”是作弊程序贩卖“外挂”涉嫌刑事犯罪

据警方介绍,所谓的游戏“外挂”指的是利用第三方软件,综合特定的功能编程出的游戏修改器。它主要通过篡改游戏原本正常的设定和规则,大幅增强游戏角色的技能,使得游戏角色发挥出超越常规的能力,是一种作弊程序,其行为本质是对计算机系统的破坏

余先生使用的这款游戏“外挂”主要是针对市面上一些主流射击游戏设计的,玩家使用后会获得自动瞄准、自动追踪等功能,对游戏的公平性、运营构成了很大影响。

我国刑法第二百八十五条第三款规定:提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,构成提供侵入、非法控制计算机信息系统程序、工具罪

虽然使用游戏外挂可以在游戏对抗中获得优势,甚至可以轻松击败高水平选手,但背后隐藏的是账号装备遭受损失的风险。

某游戏的运营商表示,游戏玩家一旦被发现存在使用“外挂”等作弊行为,游戏运营商就会对其实施惩戒。“使用‘外挂’每个月要支付几十元到几百元,甚至有一些每个月要支付几千元,在这种情况下一旦账号被我们封禁,他投入的这些金钱、时间包括精力都白费了。”

余先生使用的“AI人工智能外挂”在编写时,利用了AI人工智能算法技术,相较于一般的游戏“外挂”确实功能更为强大,隐蔽性也更强,但仍然无法逃脱监测。

犯罪分子批量制作销售“AI外挂” 

涉案金额高达3000余万元

为了打掉隐藏在这个“外挂”背后的犯罪团伙,警方对报案人和游戏运营商提供的线索进行深入调查,很快锁定了一名关键犯罪嫌疑人。

经调查,警方研判,这个犯罪团伙总部藏在浙江杭州,团伙头目王某通过不断发展下线代理的方式,在多个网络游戏平台售卖这款“AI外挂”程序,下线代理则以层层加价的方式赚取差价。

在收网行动中,警方在杭州、重庆等地,先后共抓获犯罪嫌疑人11名,现场查获作案台式电脑10台、笔记本7台、手机11部,此外还包括大量“外挂”生成程序、“外挂”源代码、辅助硬件等作案工具。涉及的罪名分别是提供侵入、非法控制计算机信息系统程序、工具罪。

今年26岁的王某是这个犯罪团伙的核心人员,他曾是一名AI人工智能领域的从业者,2021年年初,王某无意中在网上看到了一条介绍射击类游戏“AI外挂”的讲解视频。

他判断这种专门针对射击类游戏“AI外挂”如果能批量制作销售,就可轻松获取巨额收益。“传统的‘外挂’通过修改游戏文件和修改计算机系统,去达到‘透视’效果,获取预知敌人位置以及自动瞄准这些功能。人工智能的辅助‘外挂’通过目标检测算法获取屏幕中敌人的坐标,实现自动瞄准。”王某主动找到具有“外挂”软件编写能力的张某,两人一拍即合。随后,王某开始通过各种网络渠道发展下线,在网上进行销售牟利。截至案发时,这个犯罪团伙的涉案金额已高达3000余万元。

警方表示,“AI游戏外挂”是近些年出现的新型违法犯罪行为,它不仅破坏了游戏本身的公平性,同时也可能导致其他网络安全风险,公安机关将继续对此进行严厉打击。目前,这起全国首例利用“AI人工智能游戏外挂”非法牟利的案件正在进一步侦办中。

AI电商时代,有多少人的工作会被取代?

随着AI技术的普及和进化,AIGC对电商行业的赋能在这两年前所未有的明显,所有平台、品牌、商家都积极拥抱变化,参与这场由AI技术带来的生产工具革命。

在电商行业的整条链路上,有哪些工作内容已经可以由AI替代?

应用过程中,AI会以哪些不同的形式参与?AIGC的技术在实际交互中有哪些具体的优势和不足?

AI参与电商全链路

在不同的企业、科技公司的技术支持下,AI现在几乎参与了电商行业的全链路,区别在于每个环节AI参与的形式不同。

从前期的产品设计到产品上架前的摄影、模特、文案、美工,无论是导购还是智能客服,或者是内容种草、私域运营……你能想到大多数环节都已经诞生了相应的AI产品,帮助电商人更高效地完成工作。

在产品设计上,只要在Midjourney、Stable Diffusion上输入对应的Prompt(指令)就能生成对应的产品图,这个过程被称作“文生图”。

从珠宝和服饰设计、家用装饰到房屋内设,AI绘图的功能几乎可以运用到所有相关的行业中,这也是AIGC最早投入应用的产品功能之一,在这个意义上AI可能会取代的岗位是设计和制图师

有了产品后,商家还需要寻找场地,约摄影和模特拍照,修图,拿到图片之后筛选,再找人或者自己打磨商品详情页的文案……直到商品最终上线。

这个过程中需要的成本是高昂的,因为需要多人的分工协作,除了摄影、模特、设计师之外,还有造型师和各种助理的参与。

在有了AI之后,摄影、模特、造型师以及文案的部分工作内容都是可以被AI替代的。在AI的帮助下,这些工作可以被简化为“文生图”、“图生图”和“文生文”。

商家可以利用Stable Diffusion(以下简称SD)将人台试穿图变为写实风格的模特写真图,只需要一个人和一台电脑就能解决。之前这种技术还需要前置遮罩或者抠图处理,在AIGC出现后,一键抠图也成了其功能之一。

在没有产品图的情况下,商家也可以直接在SD或Midjourney内利用Prompt指令生成相应的模特试穿图,达到“一步到位”。

除了著名的Midjourney和SD之外,国内的美图公司、蘑菇街和近日获得千万美元B轮融资的极睿科技等都推出了可以“图生图”产品。

极睿科技推出的ECpro可以根据商品截图生成对应的商品详情页,完成商品录入等工作,PhotoMagic则可以根据人台模特图生成真人模特图,实物商品则可以完成一件抠图,蘑菇街旗下的WeShop和美图公司旗下产品WHEE和美图设计室也有相似的功能。

美图旗下产品开拍则将产品功能拓展到短视频领域,不仅能一键生成营销文案,还可以生成数字人主播录制视频、AI进行智能剪辑和一键包装短视频。

AI数字人主播是AI技术当下在电商领域被应用得最广泛的功能之一,在数字人主播出现之后,可能被替代的工种是主播、助播还有直播运营相关。

AI数字人主播可自动讲解商品,根据关键词提示回复问题,这种数字人主播不会“塌房”,不用休息,买断之后可24小时不间断开播。

相比传统直播间动辄上十万的启动成本,2000元一个月的AI主播为商家节省了不少搭建直播间的成本。现在不少中小商家、品牌商家,还有部分MCN机构都已经开始使用数字人主播。

某MCN机构负责人曾向媒体表示,现在的大品牌如赫莲娜都在使用AI主播拥抱变化,店播主播并不具备很强的不可替代性,他预计在未来3-5年之内,30%-50%的店播主播会被AI主播替代。

厂家和产品方面,国外的D-ID和HeyGen都可以由单张的照片生成数字人、短视频并根据文字提供语音。

国内的大厂小厂也都在布局自己的AI短视频和数字人产品,BAT三家之外,还有网易、360集团小冰公司等厂商先后发布了自己的数字人产品或生成平台,以百度智能云曦灵平台举例来说,平台可生成自动化直播数字人,数字人还能表现内置的动作,唇形和情绪能根据文本和语音自适应。

在数字人直播之外,AI可以参与的电商工作还有智能导购、智能客服,私域运营,还有智能采购、参与品牌的投放分析等等。

目前,淘宝、天猫、京东、拼多多等平台都已将智能客服投入实际应用。

有跨境电商的商家利使用名为“及时语”的跨境电商智能客服产品,帮助解决了75%的用户问题,还将人工聊单的转化率从15%提升至30%以上。

AI导购则能够根据用户的需求推荐商品,在用户主动搜索和互动问答的过程中洞悉真实的用户画像,提高转化率。

AI还能参与广告营销的策划、设计,产出创意形象和短片,帮助商家进行私域运营,在商家的用户群中以机器人的形式解答用户问题,引导客户下单,为商家“减负”。

从产品设计到直播营销,从辅助用户决策到投放分析,AI在电商领域中可以参与的部分已“太多”。

作为理想工具的AI

那么,AI作为电商人的新型“生产工具”,其核心价值除了功能的拓展还有什么?

AI对于电商行业的从业者来说,是能够帮助实现“降本增效”的理想工具。

AIGC产品的付费方式中往往是买断或者订阅制的,使用者可以在一次付费或根据不同标准(按年、按月)付费之后,高效率地生产内容,无限制地进行使用,在应对重复、机械和部分需要创意的工作时,AIGC技术能够极大地解放个人的精力。

特别是这项技术与不同领域、场景结合的时候,以各种形式发挥作用,例如AIGC+图片、AIGC+文字、AIGC+短视频、AIGC+直播……AIGC技术的可拓展性令人惊喜。

AI大模型还不会“累”,能根据反馈快速调整工作成果,快速反馈和灵活调整也是AI技术应用过程中的优势之一。

在使用成本下降之后,人们对于AI生成内容实现转化的要求也随之下降,例如在数字人的成本是原先的十分之一的情况下,只需AI能够达成原先真人主播十分之一的转化率时即可。

但根据部分中小商家反馈,数字人直播成本只有真人主播的二十分之一,AI的转化率有时能达到真人的二分之一甚至持平,AI在转化率上表现出色。

某餐饮品牌商家在今年618大促期间利用数字人主播在三个直播间同时开播,省下的成本用于投流,最终三个直播间的日GMV相比真人主播有了近五倍的增长。

曾有广告公司的创意策划在采访中提到,比起设计师给出的方案,AI制作的广告能够节省30%的成本,70%的时间,非常适合时间紧、任务急的购物节点。

一位从事电商行业的微博网友“浪猪灰头”曾经发布过一张模特摄影工作室的报价表,其中摄影费用和模特费用占大半,总计下来仅一天8小时的拍摄费用支出就在3.5W元以上。

他在微博配文中说到:“今年我们拍衣服不需要花四五万一天、去雇摄影师和模特了,(AI技术)完全够我们用了。”

AI产品能够帮助许多中小商家顺利入局,还能帮助大品牌和企业减少成本,在获客成本和投流成本不断上浮的当下,电商人们遇到一款能“降本增效”的工具,几乎是“可遇不可求”的。

不够“智能”的AI

不过在实际运用的过程中,AI并不是完美的,AI和AI大模型也有不够灵活、不够智能的时候。

AI生成内容的效率高不代表可用率高,AI生成的创意、图片或文字有时不符合行业规范,需要人工再进行调整。

AI有时不能应对个性化的问题,这有时是技术壁垒,有时则是接入的信息源不够多,这些问题本质上是从业者与AI存在着信息差和“经验”差距的问题。

AI大模型偶尔还会出现“幻觉”,这是指AI输出的内容中信息来源为捏造或不准确、不可信,AI进行自我欺骗的现象,这也会对使用者造成一定的困扰。

AI还存在着拥有一定的学习门槛与沟通门槛的问题。

相比和人类沟通的时间、精力和金钱成本,并不钻研AI技术的普通电商从业者与AI沟通存在硬性的技术门槛,而且这个门槛在短时间内很难实现跨越,很多时候只能寻求拥有专业知识的人的帮助,“使用成本”降低,但“沟通成本”实则可能提高了。

AI的局限不止于经验和训练不足,有时也来自外部的限制。

AI所生成的图片、文字、视频也许存在着版权争议,AI数字人主播的形象和语言模式可能会让一部分用户感到反感和无法接受,部分平台还推出了AI数字人相关的限制条款,对AI的功能与使用加以限制。

同我们日常生活关联比较紧密的一个场景就是AI智能客服不够“智能”的问题。

现在主流购物平台的智能客服都可以根据关键词匹配对应的服务接口,如处理退换货、投诉、查询服务进度等比较基础的功能,但遇到没有对应关键词或对应入口的询问,则经常显得不够“智能”。

用户无法和智能客服产生真正的“对话”,还是需要人工客服介入解决。

AI在广告营销领域常被提到的一个缺陷是可用率有限。

有设计师在接受媒体采访时表示,目前AI辅助软件生成的内容仍然达不到完稿水平,部分文案、包装设计甚至不符合广告法和设计规范,存在一定的风险。最终效果还是需要人为进行审核和调整,最终才能投入使用。

总的来说,AI技术在应用过程中确实能起到商家、MCN等主体所期望的“降本增效”的效果,但也存在着不够灵活、不够智能、有一定技术门槛等缺陷。

在AI技术大量投入应用的当下,部分功能性不足的问题有望在短时间内得到解决,但另一部分涉及伦理、技术门槛、接受度等宏观的问题,则还需要等待技术进一步发展之后再看。

最后,AI技术赋能电商全链路已成为行业现状,AI技术会成为中小商家快速入局的利器,也能帮助部分跨境电商商家更好起步。

对于大部分的岗位来说,AI目前能起到辅助而非完全替代的作用,许多工作依然需要人的灵活变通和经验进行处理。

在AI技术日益进步的今天,如何加强自身核心竞争力的同时尽快学习AI,利用AI,将其价值最大化可能会成为电商人未来长久的课题。

Hugging Face CEO预测:2024年AI行业六大巨变!

2024年,AI行业将会进化成什么样?

OpenAI主席Greg Brockman曾经在去年最后一天预测:2023年会让2022年看起来像AI发展还没有苏醒一样。

果然,2023年,AI行业迎来了全面的爆发。

而昨天,全世界最大的AI开源社区Hugging Face CEO Clement Delangue对2024年行业的发展做了6条具体的预测:

1.某个当红的AI公司会倒闭,或者以极低的价格被收购。

2.开源LLM能够达到最好的闭源LLM的能力水平。

3.AI在视频,生物,化学,时间序列等领域将带来巨大突破。

4.大众将更进一步关心AI在经济上和环境上的成本。

5.某一个大众媒体将会充斥着AI生成的内容。

6.1000万Hugging Face上的AI开发者将会带来新的工作机会,不会导致失业的激增。

如果说2023年AI行业的突破主要体现在AI技术本身的话,这6条新的预言已经预示着,AI技术在2024年,将进一步破圈,产生的突破影响力将远远超出AI行业的范围。

网友也给他的6条预测的可能性进行了评估,认为其中3条发生的概率不超过50%。

也有人认为6条预测都很靠谱,甚至有几条是已经发生了的。

第一波AI公司将出现倒闭潮

针对第一条预测,结合前两天OpenAI的剧烈动荡,网友纷纷开始阴阳怪气。

Clement赶紧出来圆场,我预测的是我自己。

网友们也纷纷做出了各种猜测,Adept,Perplexity等明星初创公司都被网友提到。

但其实,类似的事情在2023年已经出现。Jasper AI,这家曾经估值超过15亿美金的AI初创公司,作为「套壳GPT的鼻祖」,7月份就传出裁员+估值下降80%的负面新闻。

而在OpenAI上线GPTs之后,可以预见的是,基于OpenAI技术的各种AI公司的路将会越走越窄。

如果在未来他们不能找到一条独立创造价值的道路,从估值超过10亿美元到破产或者被低价收购,并不是一件很意外的事情。02开源VS.闭源

AI开源闭源的鸿沟,未来将进一步扩大还是缩小,行业大佬,AI开源企业,科研人员,用户一直以来都有不同的声音。

从年初的谷歌工程师曝料:OpenAI和谷歌都没有护城河,开源AI是他们最大的对手开始。

而另一方面,不断有开源的模型在各个领域号称接近甚至超过GPT-4。

伯克利团队最近公布的Starling-7B,通过RLAIF的方式,在某些基准测试中超越其他的所有模型,接近GPT-4的水平。项目地址:

https://starling.cs.berkeley.edu/

甚至有7B大小的开源模型都号称在某些单项任务上能与GPT-4比肩。

而开发闭源模型的大佬则宣称,开源和闭源的差异可能有3-5年。

而网友们,对于第二条预测的争议也很大。

「由于开源和闭源在算力上的巨大差距,开源要想赶上闭源,还很困难。」

「不明白为什么开源和闭源的差距会缩小。毕竟开源模型的所有知识和技术是共享的,而闭源AI总有他们独有的东西。」

在生物领域,DeepMind的AlphaFold已经在超越人类能力的水平上,预测了蛋白质的结构,直接突破了生物学的最前沿。

而微软前不久发表了一个报告,尝试了GPT-4在生物学,计算化学领域,药物发现、、材料设计和偏微分方程 (PDE)这几个科研领域,作为学术研究助手的价值。

在微软的研究人员看来,基础科学的研究,将在未来被AI工具大大加速。

现在也出现了很多将机器学习技术用于各个专业领域的工具和平台。

而网友,对于AI对于时间序列相关的科研领域(Time-Series,指将时间序列用于统计学、信号处理、模式识别、计量经济学、数学金融等应用科学和工程领域)可能取得的突破也非常看好。

有网友甚至贡献了一篇论文来解释为什么时间序列相关的科研。

「终于,有人看到这一点了,已经有很好的关于时间序列的Transformer的模型出现了。」

04AI造成的能源和环境成本

马斯克曾经在播客中讨论过,对于AI行业来说,最重要的第一性原理思考,可能是关于能源和智能的产出比。因此他认为Transformer模型在这方面还有很大的改进空间。

荷兰阿姆斯特丹自由大学的数据科学家 Alex de Vries的研究预测,到 2027 年,AI服务器群每年可使用85至134太瓦时的能源。

而外媒也有过多篇报道,指出AI技术的发展对于能源,水资源的消耗未来将急剧上升。

05AIGC充斥媒体

毫不夸张的说,视频和图像的AI生成内容,现在正在以光速前进。

在1到两年前,任何人都很难想象这样一段AI动画将可以完全由AI生成。

前不久,梦工厂的联合创始人公开表示,未来3年内,AI将使动画行业的成本降低90%!

也许真的就在明年,动画内容创作将会进一步平民化,而带来的后果就是,像短视频一夜之间席卷全球一样,由Gen AI生成的视频,将会成为视频内容非常重要的组成部分。

AI对劳动力市场的影响,一直以来是AI行业备受争议的焦点。

而Hugging Face CEO的预测从某种程度上来说,可能是这个问题的一个潜在答案。

如果更多的人能够加入到开源AI的开发者的行业中来,由此创造的就业是否能够弥补AI技术发展所替代的劳动力。

但是大多数网友似乎不太认可这一逻辑。

第二条和第六条都是笑话,虽然Hugging Face上会出现更多的开发者,但是AI依然会重构劳动力市场。

毕竟,Sam Altman都因为AI,在成为OpenAI CEO后短暂的失业过了2天。

参考资料:

https://twitter.com/ClementDelangue/status/1729158744762626310

首个!专注于视听媒体内容生产的AI大模型带来交互新变革

当下大模型席卷全球千行百业,AI大语言模型代表了通用人工智能领域的最新发展。其在语义理解、对话生成和知识获取等方面取得了显著突破,在人机交互、智能助手和内容生成等应用场景中也展示出令人惊艳的表现。对于视听行业,大语言模型既带来了发展机遇,也带来了建设思考。

11月25日,爱奇艺首席技术官刘文峰在2023虎嗅F&M创新节以“AI驱动创意的范式跃迁”为主题,带来了爱奇艺的思考。他表示,影视行业可以被视为最适合大模型落地的行业之一。生成式AI的两大核心能力——“理解”能力和“创作”能力,已经可以让我们看到提质增效的清晰路径。


11月20日,以“开蔚然新篇,创无限可能”为主题的2023“世界电视日”中国电视大会在北京香格里拉饭店举行。中央广播电视总台超高清视音频制播呈现国家重点实验室副主任、“百城千屏”项目推进办公室副主任赵贵华受邀在本次大会上发表以《央视听媒体大模型》为题的演讲。

赵贵华谈到,中央广播电视总台联合上海人工智能实验室在7月20日正式发布了“央视听媒体大模型”(CMG Media GPT),这是首个专注于视听媒体内容生产的AI大模型(以下简称“央视听大模型”)。

据介绍,为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,总台还与上海人工智能实验室等10家单位联合发起了大模型语料数据联盟,为大模型发展提供高质量、大规模、安全可信语料数据资源,保障大模型科研攻关及相关产业生态发展。到目前为止,央视听大模型经过数据训练和模型微调,已经能够提供以下实际节目应用:


一是节目创作方面,可根据关键词和内容提示创作文稿,并将文稿生成节目台本(镜头本),提示具体拍摄内容和查找媒资素材,在此基础上根据台本(镜头本)自动后期编辑,可按照用户需要的时长合成节目成片。


二是短视频生成方面,根据输入文案自动生成标题、匹配素材、字幕、模板、解说、背景音乐并生成短视频(支持横版竖版)。


三是节目编辑/剪辑方面,总台有大量节目是重播节目,而重播时长往往与原节目时长差异很大,尤其是体育节目,在原有节目的基础上根据节目时长要求进行精编或缩编,保留节目精彩部分。


四是超写实AI数字人方面,根据用户提供的视频可快速生成具备高度真实感的AI数字人或主播,建立智能化多模态算法与数字人驱动的接口,形成数字人感知与理解模式的仿真交互,通过大模型对数字人进行语音、表情和动作驱动,可实现脸、唇、音、体等智能化的全维表达。


五是AIGC动画方面,通过文生图和文生动画,确定二维图像到三维模型的映射关系,为三维动画模型建模、二维动画摄像机定位创造基础,改善动画主体、镜头运动造成的生成内容变形,增加AIGC对于空间、角度、遮挡、变形的判断力,使得生成内容更趋平滑稳定。


六是AI换脸方面,近年受明星频繁“塌房”事件影响,大批影视剧被雪藏,AI换脸成为影视制作行业的普遍需求,引入超分算法+高频动态渲染+4D数据技术,推出成熟可商用的AI换脸解决方案。

央视听大模型集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于上海AI实验室的书生通用大模型体系,央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。


“当我们谈论大模型时,不\应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。


中央广播电视总台超高清视音频制播呈现国家重点实验室负责人表示:“总台积极推进‘思想+艺术+技术’的融合创新,本次联合上海AI实验室发布‘央视听媒体大模型’,就是要使用总台视音频媒体大数据在实验室原创的通用大模型上进行训练,探索在确保媒体真实性和安全性的基础上,运用生成式人工智能,提升视听媒体制作的质量和效率。”

媒体编创:在“聊天”中工作
以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。
目前,央视听大模型具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。
央视听大模型可通过逐步呈现的视觉元素,理解并分析视频。用户通过与AI聊天对话的形式,深挖视频蕴含信息,进一步完善输出的内容。当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频,便可理解视频内容并生成出李白的《望庐山瀑布》

央视听大模型同样了解新近的科技进展。当“看”到我国空间站模型的相关视频,即能生成视频镜头脚本及旁白。

央视听大模型丰富生动的表达,还得益于背后的书生·浦语大模型强大的语言能力和宽广的知识体系以及书生·多模态大模型强大的开放世界理解和内容生成能力。除了为媒体编创赋能,上海AI实验室还通过全链条开源(https://github.com/InternLM/InternLM)推动书生·浦语在更广泛的场景落地应用。


央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力,使得新的内容生产方式变成可能。用户仅需使用简单的光标和文字指令,即可快速修改或编辑图像,实现“指哪改哪,画随口出”。在下图的示意中,使用光标点击选中右边的鹦鹉,在对话框输入“小仓鼠”,轻点鼠标即可将鹦鹉替换成小仓鼠的图像。

上海AI实验室科研团队介绍,央视听大模型具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,央视听大模型可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。借助强大的对话能力和易用的互动模式,央视听大模型将推动人机互动达到新高度。

内容创作:一键生成节目内容、数字人主播
具备超强理解能力的同时,央视听大模型还拥有通用的生成能力,即通过文本直接生成视频,视频质量可达到高清视频标准(2K和24FPS)。在生成内容的可控性、流畅性以及生成细节等方面达到国际领先水平。


值得关注的是,央视听大模型支持故事一致性和镜头连贯性生成,在生成有故事情节长视频的同时,还保证故事转场的流畅性。未来,该项技术有望广泛应用于动画及电视等视频内容的制作中。

用央视听大模型生成流畅、高清、带有故事情节的视频除了视频内容,央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频,还可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。

支持快速生成形象逼真、表情自然的数字人主播通过央视听大模型的生成技术,不仅可实现主播“分身”,更能简化视频播报的创作过程。用户在视频创作素材库选择视频模板,输入文案,便可一键生成知识分享、品牌宣传、短视频带货、培训宣讲、热点资讯等各类数字人视频。大模型中还提供AI文案编写功能,用户输入粗略想法即可快速生成播报文案,并合成数字人视频。


目前,“数字人直播”支持中英文等多语种播报,同时兼容国内多地区方言播报,随着语言版本的不断扩充,用户可以轻松创作更多跨语种的国际化内容。此外,基于全球首个城市级NeRF实景三维大模型书生·天际,央视听大模型还提供了场景渲染的能力,可进行高精度实景三维建模,建模范围具有无限可扩展性;同时提供对城市场景的编辑能力,包括移除、新建、旋转城市建筑,对场景进行光照、季节等风格变换。该技术有望广泛应用于影视制作,降低建模及渲染成本,提高制作效率。


此外,谈及总台对于视听技术方面的布局,赵贵华作出了三点总结。  

首先是聚焦5G+4K/8K+AI发展,全面推进超高清AI制播平台关键技术突破和创新;  

其次是聚焦全媒体超高清制播呈现,全力提升央视听媒体大模型的研发实际效果;  

三是聚焦媒体重点应用场景,积极推进AIGC在媒体领域的示范应用。  

总台将加快推进央视听大模型落地应用,为媒体提供更加高效的智能创作工具,优化内容创作,聚焦媒体领域重点示范应用场景,联动产业链上下游,充分发挥在超高清视音频研究和应用优势,构建生成式人工智能的良好生态。

大模型技术的未来发展趋势

大语言模型技术已经开始从不同维度介入视听行业领域,甚至渗透到我们生活的方方面面,带来跨时代的改变。因此,我们也要对它未来的发展趋势,带来的机遇、挑战和可能产生的问题做出思考。


OpenAI CEO 山姆·阿尔特曼认为,AI的大模型技术将成为继移动互联网之后最大的技术平台。而以聊天机器人为界面,加上图像、音乐、文本等多模态模型的发展,将诞生许多新一代的大型企业。在此背景下,我们现在能够看到的ChatGPT等应用只是冰山一角,隐藏在背后的是更加丰富的应用场景。当大量科学研究和技术研发都将能够通过AI来加速推进,算力(芯片)必将成为产生算法突破的基石。产业竞争不断升级,那么不可避免地,大资本也将成为影响算力竞争的基础。大模型的实现有赖于海量数据的获得和积累,计算机的算力,甚至包括芯片的竞争,都可能成为未来行业,甚至是全世界技术竞争的核心问题。


伴随着技术、硬件、软件和算力的提升,云端竞争的时代已经到来。我们的实体行业都不可避免被卷入云端的竞争当中,内容的汇聚,芯片层、框架层、模型层、应用层等各个环节都被卷入。未来的用户对于云端的需求也会更加聚焦在智能服务当中。怎么样能立于不败之地?我们的模型是不是善于计算、利于计算,并且能够表现出来足够的智能化水平,这些都是未来的竞争当中我们需要面对的问题。除了应用层面以外,当然还包括监管层面的一些问题。这些都是我们对大语言模型未来发展前景提出的一些追问。

普京对美国人工智能得出美国登月任务照片是假的结论感兴趣

【美国人工智能在莫斯科“人工智能世界之旅”会议的展览上告诉俄罗斯总统弗拉基米尔•普京,美国登月任务的照片是假的,中国月球车的照片并没有任何需要格外质疑的问题。普京对人工智能的这个结论很感兴趣。】

在参观展览时,普京了解了俄罗斯储蓄银行识别虚假照片和视频的解决方案。该银行数据研究部门领导尼古拉·格拉西门科讲述了他使用美国谷歌公司的人工智能工作的经历,研究人员提议使用该人工智能对美国登月任务的照片进行分析。

格拉西门科告诉普京:“在这个任务中,他们的人工智能用红色标记出它认为造假的地方。也就是说,这张照片中几乎所有的物体在他看来都是假的。与此同时,在它看来,中国月球车的照片并没有任何需要格外质疑的问题。”

俄罗斯储蓄银行行长格尔曼·格列夫“为了避免偏见”强调,这样的结论是由美国的人工智能在众多参数基础上得出的,而不是由俄罗斯得出。

普京回答:“有趣”。

美国国务院发布:《2024—2025财年AI战略:通过负责任的AI赋能外交》

2023年11月9日,美国国务院发布《2024—2025财年AI战略:通过负责任的AI赋能外交》(EAIS),这是美国国务院第一份全面迎接AI时代的到来提出的应用指导性文件。为负责任地、安全地利用AI来推进美国外交工作,该战略文件确定了4个目标:

(1)利用安全的AI基础设施;

(2)培育拥抱AI技术的文化;

(3)确保负责任地应用AI;

(4)创新改革。

元战略编译文件重要内容,为探讨美国国务院如何通过负责任的AI赋能外交提供参考。

目标1:利用安全的AI基础设施

将AI技术集成到可持续和安全的AI使能基础设施中,以便在整个国务院构建和扩展各种AI应用。

目标1.1:实现AI技术集成

为构建和扩展各种AI技术,国务院将把有影响力的AI技术整合到可持续的、AI基础设施中,并把安全作为重中之重。国务院将努力提供与用户能力相称的AI功能,并将开源、商业可用和定制的AI系统结合起来。符合“零信任”原则的强大访问控制和身份验证机制将降低未经授权访问AI技术和部门数据的风险,以保障安全。

目标1.2:利用基础设施大规模应用AI

国务院将依靠强大的技术基础设施,进一步实现AI技术的计算、开发、测试、部署和持续监控,同时保护部门的数据和安全。通过利用信息资源管理局(IRM)的资源以及与信息技术执行委员会(ITEC)的整合,国务院将设计并实施辅助技术架构,以便将AI组件集成到现有的基础设施和数据管道中。为满足AI开发的计算需求,基础设施将利用云解决方案和可扩展的基础设施服务,并依靠数据加密机制、强大的网络安全、多因素身份验证和定期数据备份等方面的专业知识以保护其数据安全。

目标1.3:实现采购AI工具的现代化

国务院的IT采购部门将与首席数据和AI官(CDAO)、负责的AI官(RAIO)、首席创新官(CIO)及其他人员合作,根据适用的法律法规,努力简化优先AI技术的审批和采购,以满足国务院潜在用例的需求。这包括审查信息技术采购管道,以提高效率,同时保持联邦风险与授权管理项目(FedRAMP)、信息技术变更控制委员会(ITCCB)、操作授权(ATO)流程和其他审批机制提供的保障,并遵循联邦相关准则。为了对投资机会进行优先排序,国务院将利用首席数据和AI官等关键部门的协调和发布的FedRAMP框架,确定AI可产生最大影响的用例,并在采购之前,根据安全协议和风险评估流程对AI技术进行评估。国务院的采购和开源审批流程将得到进一步发展,以实现AI部署的灵活性和简化,国务院将评估供应商的要求并为部门合同制定新措辞,这将确保合作伙伴在安全、风险管理和透明度方面与国务院达到相同的标准,并将这些要求写入合同中。

目标2:培养拥抱AI技术的文化

通过培训、持续学习的文化以及以维护最高级别的数据和科学完整性的方式使用急需的AI技能,增强员工队伍的能力,满足他们对AI的不同需求。

目标2.1:提供AI培训和辅助服务

国务院将提供专门的AI学习机会,以满足其员工队伍的不同需求,提高AI素养,鼓励和教育负责任地使用AI,并确保用户能够充分降低AI工具相关的风险。随着AI被整合到部门基础设施和现有技术平台中,员工必须了解这些技术是什么,以及如何安全地使用和应用。国务院将在美国外交学院(FSI)的领导下,通过开展多层次的培训,提高技术和非技术用户对AI工具的熟练程度。为进一步支持用户,国务院将开发针对具体技术的资源,以帮助识别、探索和解释AI,并促进会议交流。国务院将召集实践社区,分享AI资源、使用案例和最佳做法,并制定与AI技术配套的具体影响指标,为使用的预期效益确定参数。

目标2.2:为AI人才开发新机会

国务院将招聘和雇用AI专业人才,特别是那些了解AI技术、科技、原则和道德规范的人才,他们将在部门采用负责任的AI过程中发挥关键作用。国务院将首席数据和AI官的指导下,在成功聘用一批数据科学从业人员的基础上再接再厉,并通过开发新的AI重点的岗位(如数据科学家、运营研究员和IT专家),以及部署支持、吸引和留住AI人才的计划,为技术从业人员提供新的机会。

目标2.3:促进负责任地使用AI

在使用AI的早期阶段,国务院必须在确保负责任的AI实践(包括通过尊重和促进安全、隐私、公平和其他核心原则)的同时,抓住机遇。就像企业数据战略(EDS)旨在培养数据文化一样,国务院将在整个机构内渗透关于负责任地使用AI的价值观,包括维护数据和科学的完整性。国务院将通过培训员工何时以及如何有效、安全、合法地使用AI工具,将负责任地使用AI工具常规化。通过开发跨学科培训课程,使员工掌握AI风险和风险缓解技术的基本知识,以增强有效使用AI的能力,维护数据和科学的完整性,同时也认识到伴随每个AI应用的可接受风险水平。此外,通过遵守适用法律以及AI治理和政策指南,最大限度地降低AI的使用风险。

目标3:确保负责任地应用AI

确保可信和合乎道德地使用AI;确保数据隐私和安全,管理算法风险;减少伤害、偏见和不公平;评估数据质量,同时提供适当的AI数据的访问权限,为决策和操作提供信息。

目标3.1:建立和维护AI管理和政策

通过机构数据和AI委员会(EDAC)、AI指导委员会(AISC)和数据治理网络,监督和管理风险,遵守主要指令(如行政命令)中规定的原则、指导方针、工具和做法,并制定其他政策,以确保应用AI符合法律和政策,以及负责任和合乎道德的使用标准。国务院的首席数据和AI官将支持和协调AI政策的建立和维护,这些政策将为负责任地使用AI、管理AI模型提供了明确的指导方针,并优先评估和管理AI应用程序在其整个生命周期中的算法风险,包括与记录保留、隐私、网络安全等相关的风险。这一承诺涉及许多数据科学学科,如数据收集、提取、转换和加载;生产中的模型选择、开发、部署和监控;以及统计方法等。针对系统维护、重新校准和停止使用的AI合规计划和协议将防止意外的偏差和功能。国务院将为开发和采购制定安全AI的最低风险管理措施。根据首席数据和AI官的指示,负责的AI官将定义安全的AI用例。国务院将定期进行安全和可信度评估和内部审计以管理风险,包括单独的风险和由于人类用户造成的风险,并应对威胁、以减少偏见和保护数据。国务院制定的政策和指导方针将考虑到数据的安全性和隐私性,并确保对新的AI用例进行法律和政策审查的程序清晰且透明。

目标3.2:通过中介适当获取AI数据

国务院将简化并确保适当访问内部、机构间和第三方数据,以便以透明的方式获取AI数据。在适当的情况下,Data.State平台将根据法律和保护措施提供相关企业的数据访问。必要时将适用保障措施、协议和数据管理标准,此外还将适用数据共享协议,这些协议反映了国务院在其技术平台中以及与供应商之间的数据使用政策。

目标3.3:保证数据质量

高质量的数据集是指不存在不完整、不一致或不正确数据的数据集,同时也是有据可查、有条理和安全的数据集。国务院将通过在AI用例层面实施对用户公开的强大数据清理和质量保证、评估和监控流程保持可靠、高质量的数据,使其适合AI的使用、开发、运行和评估。国务院将开发和实施数据质量评估工具和监测流程,其结果将对用户公开。还将对其他AI平台的数据输出进行评估,以最大限度地降低风险。

目标4:创新改革

确定、试验和推广一系列成功的解决方案,通过应用AI成为部门流程的积极创新者,同时与部门外负责任的AI创新者建立合作伙伴关系,以巩固成功。

目标4.1:发现机遇

国务院将利用AI推进美国外交工作,以创业的方式磨练其识别AI机遇的能力。国务院将在各大会议论坛上确定潜在的AI用例,并帮助员工确定AI技术的应用。国务院将利用数据运动以及数据治理网络、实践社区、各局的AI论坛、会议、创新渠道、AI培训课程、各局首席数据官以及其他渠道来寻找AI机遇。依靠公共外交和公共事务专业人员、美国外交学院(FSI)、首席人工智能官(CAIO)理事会、校友网络、行业协会、私营技术领导者以及与领先的AI供应商建立的战略伙伴关系。最后,实施一项新的部门AI资助战略,以推动优先考虑的AI用例,并提供充足的资源。

目标4.2:促进负责任的试验

负责任的创业试验将确保国务院在采用AI方面取得长期和具有成本效益的成功。国务院将利用共享资源,包括技术专家的专业知识,并寻求新的资金,以建立一个创新沙盒环境,让来自各地的从业人员都可以将其想法付诸实践。在这些沙盒中,国务院将进行低风险试验,利用安全可控的数据测试新的AI工具,并为部署建立经验案例。为加快AI技术的使用,国务院将提供集中访问共享AI用例、模型、数据集和应用程序的途径,以整合专业知识,有效评估进展,避免重复,并找出能力差距。根据首席数据和AI官的授权,负责的AI官将监督现有AI用例清单的维护工作,该清单将以通俗易懂的语言加以强化,以告知用户正在使用的AI技术、目的和相关风险水平,并为开发人员提供可用的示例模型。

目标4.3:复制成功模式

随着国务院部门人员对AI用例的试验和识别,某些用例将被证明具有广泛价值,值得在更大的范围内复制。国务院将强调与机构间首席数据和AI官、负责的AI官和首席创新官、从事应用AI工作的机构以及学术界、工业界和外交界负责任的AI从业人员网络的合作,以传播最佳实践并推广成功经验。合作伙伴关系将成为AI创新的前沿。通过制定明确的评估准则,要求在扩大规模之前对AI系统进行测试,以确保其功能准确、安全、可靠,然后才能在生产环境中启用AI功能,并获取部门数据,AI系统的输出将遵循联邦政府的透明度准则。

展望未来

要在整个国务院加强对AI的使用,需要广泛的协调、领导层和工作层的配合、财政和技术支持、训练有素的员工队伍、彻底有效的法律和政策审查流程,以及部门数据和AI文化的转变,以创造本战略中概述的可持续性变革。作为国务院的AI管理机构,AI指导委员会其成员包括首席数据和AI官、负责的AI官、副法律顾问、负责隐私的高级机构官员及其他人员将监督本战略的实施,并定期向机构数据和AI委员会和负责管理与资源的副国务卿(D-MR)报告进展情况。机构数据和AI委员会将提供战略指导,并监督与负责任地开发、部署、获取和使用AI相关的政策制定。AI指导委员会、负责的AI官、管理战略与解决方案办公室(M/SS)和信息资源管理局将支持利益相关者的持续参与,并向国务院领导层倡导安全、负责任地使用AI。

为了在整个部门有效地采用AI,必须完成本战略中规定的目标。首席数据和AI官在战略实施过程中的领导作用将确保协调工作,为负责任的AI开发、部署和使用奠定坚实的基础。定期审查本战略实施的进展将在与AI指导委员会和机构数据和AI委员会的定期报告审查中进行,并制定和报告国务院关于数据信息外交的机构优先目标(APG)。国务院将评估该战略的进展和成就,为AI战略的未来迭代或未来数年类似的战略计划提供信息。

AI技术再刷屏!明星集体“说”外语,有何风险?

日,一段美国歌手泰勒·斯威夫特“说”中文的短视频在网络刷屏,引发热议。

视频中,泰勒·斯威夫特“说”着流利中文,音色和讲母语时的音色类似,甚至连口型都能对上。

类似的视频还有很多外国人“说”地道中文、很多中国艺人“说”起流利的英文……不少网友感叹,“嘴型、手势都对得上,太自然了,差点儿以为是真的。”“除了嘴形,还有身体动作和语速的配合。”
其实,这些视频有一个共同点:都是由AI(人工智能)生成的。

AI“翻译”以假乱真

小编试用了一款AI人像视频工具,只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的新视频。

对比原片,AI“翻译”后重新配音的新视频不仅进行了较准确翻译,而且连声线和情绪都近乎拟真,嘴型很贴合,难辨真假。

对此,有网友表示,这种技术看起来很炫酷,应用场景很广泛,未来可能会越来越成熟,比如翻译配音会更自然、传神。

但也有网友表示担忧,“这会不会被用来模仿声音进行诈骗?”“再加上换脸,以后网上啥都不能信了。”“以后视频造假会越来越容易。”还有网友表示,“希望AI技术发展能被控制在正轨,技术滥用,就是灾难。”

AI技术是把“双刃剑”近年来,AI技术被广泛应用于短视频的二次创作,比如AI换脸及换声等。可以说,AI技术是把“双刃剑”。一方面,AI换脸及换声技术对于工作效率的提高具有非常强的作用。清华大学新闻与传播学院教授司若举例说,AI换脸及换声技术让已故的演员、历史人物可以通过换脸技术重现在屏幕上,在不同国家的语言转译上也可以通过AI的换声技术进行实时转译。另一方面,近年来,有不法分子为了牟利,利用AI技术进行诈骗。比如利用AI换脸冒充熟人诈骗,甚至将“魔爪”伸向儿童,或者制作发布假新闻混淆视听、赚取流量等。

△一位博主讲述人贩子利用AI“换脸”把孩子拐走的案例,与孩子视频的所谓“妈妈”是AI合成的。来源:贾姨儿童安全此外,AI换脸、AI换声还存在法律风险。近期,不少相声演员“说”英文相声、小品演员“演”英文小品的视频在网络上传播。对此,北京岳成律师事务所高级合伙人岳屾山律师表示,用AI技术为他人更换声音、做“翻译”并发布视频,可能涉嫌侵权,主要有三个方面:

  • 一是著作权,例如相声、小品等都属于《中华人民共和国著作权法》保护的“作品”。网友用AI软件将相声、小品等“翻译”成其他语言,需经过著作权人授权,否则就存在侵权问题。
  • 二是肖像权,根据《中华人民共和国民法典》,任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。网友用他人形象制作视频,并在网站发布,需要取得肖像权人的同意,否则涉嫌侵权。
  • 三是声音权,根据《中华人民共和国民法典》规定,对自然人声音的保护,参照适用肖像权保护的有关规定。也就是说,需要取得声音权人的同意,才能够使用他人的声音。

岳屾山律师强调,技术滥用,可能会侵犯他人权益,“AI技术本身不是问题,关键是我们要怎么用它。”

如何对AI技术加强监管?

AI技术发展,需要多层面约束规范——

  • 源头端,需要进一步加强公民个人信息保护。专家建议,加强公民信息尤其是生物特征等隐私信息的技术、司法保护力度。
  • 技术层面,数字水印鉴伪等技术有待进一步普及利用。比如AI生成的视频需带有不可消除的“AI生成”水印字样。
  • 法律制度层面,进一步完善人工智能等领域相关法律法规。今年8月15日,《生成式人工智能服务管理暂行办法》正式施行。《办法》规定,提供和使用生成式人工智能服务,应当尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。

中国科学技术大学公共事务学院、网络空间安全学院教授左晓栋表示,总体而言,生成式人工智能仍处于发展的初期阶段,风险没有完全暴露,应用前景难以估量,所以应当采取包容审慎的态度,坚持发展和安全并重、促进创新和依法治理相结合,要采取有效措施鼓励生成式人工智能创新发展。据了解,目前我国人工智能产业蓬勃发展,核心产业规模达到5000亿元,企业数量超过4300家。随着各项措施规范出台,我们期待未来人工智能发展更加健康规范,从多方面助力人们的工作和生活。

9位院士Science发表长文:人工智能的进展、挑战与未来

2023年1月3日,海内外9位院士及12位专家在Science《科学》合作期刊Intelligent Computing发表长篇综述论文《智能计算的最新进展、挑战和未来》。文章全面阐述了智能计算的理论基础、智能与计算的技术融合、重要应用、重大挑战和未来前景,将为 学术界和工业界的相关研究人员提供全方位的参考和对智能计算领域的指引性见解。

人类社会正从信息社会进入智能社会,计算已成为推动社会发展的关键要素。在万物互联的数字文明新时代,传统的基于数据的计算已经远远不能满足人类对更高智能水平的追求。近年来,计算和信息技术飞速发展,深度学习的空前普及和成功将人工智能(AI)确立为人类探索机器智能的前沿领域。自此产生了一系列突破性的研究成果,包括Yann LeCun提出的卷积神经网络和Yoshua Bengio在深度学习因果推理领域的成果。

2016年3月,DeepMind推出的AI围棋程序AlphaGo与世界顶尖围棋高手李世石对战,在世界范围内引起了前所未有的关注。这场划时代的人机大战以AI的压倒性胜利而告终,成为将AI浪潮推向全新高度的催化剂。

AI的另一个重要推动者是大型预训练模型的出现,这些模型已经开始广泛应用于自然语言和图像处理,以在迁移学习的帮助下处理各种各样的应用。其中最具代表性的是自然语言处理模型GPT-3,已经证明具有高度结构复杂性和大量参数的大模型可以提高深度学习的性能。

计算能力是支撑智能计算的重要因素之一。面对信息社会中庞大的数据源、异构的硬件配置和不断变化的计算需求,智能计算主要通过垂直和水平架构来满足智能任务的计算能力要求。

垂直架构的特点是同质化的计算基础设施,主要通过应用智能方法提高资源利用效率来提升计算能力。

相比之下,水平架构对异构和广域计算资源进行协调和调度,使协作计算的效果最大化。例如,2020年4月,针对全球COVID-19研究的计算需求,Folding@home在三周内联合40万名计算志愿者,实现了2.5Exaflops的计算量,超过了世界上任何一台超级计算机。尽管在智能和计算方面取得了巨大成功,但我们在这两个领域仍然面临着一些重大挑战:

智能方面的挑战。

使用深度学习的AI目前在可解释性、通用性、可进化性和自主性方面面临着重大挑战。与人类智能相比,当前大多数AI技术的作用都很弱,而且只能在特定领域或任务中发挥良好作用。从基于数据的智能升级到更多样化的智能,包括感知智能、认知智能、自主智能和人机融合智能等,也面临着重大的理论和技术挑战。

计算方面的挑战。

数字化浪潮带来了应用、连接、终端、用户以及数据量前所未有的增长,所有这些都需要巨大的计算能力。满足如此快速增长的计算能力需求变得越来越具有挑战性。智能社会中的巨型任务依赖于各种特定计算资源的高效组合。此外,传统的硬件模式不能很好地适应智能算法,制约了软件的发展。

迄今为止,智能计算还没有一个被普遍接受的定义。考虑到世界的三个基本空间,即人类社会空间、物理空间和信息空间日益紧密融合,我们从解决复杂的科学和社会问题的角度提出了智能计算的新定义:

智能计算是支撑万物互联的数字文明时代新的计算理论方法、架构体系和技术能力的总称。智能计算根据具体的实际需求,以最小的代价完成计算任务,匹配足够的计算能力,调用最好的算法,获得最优的结果。

智能计算的新定义是为响应人类社会、物理世界和信息空间三元融合快速增长的计算需求而提出的。智能计算以人为本,追求高计算能力、高能效、智能和安全。其目标是提供通用、高效、安全、自主、可靠、透明的计算服务,以支持大规模、复杂的计算任务。图1为智能计算的整体理论框架,它体现了支持人类社会—物理世界—信息空间集成的多种计算范式。

智能计算是数字文明时代支撑万物互联的新型计算理论方法、架构体系和技术能力的总称。利用智能计算可以实现许多经典和前沿研究领域的创新,以解决复杂的科学和社会问题。智能计算的基本要素包括人的智能、机器的能力以及由万物组成的物理世界。

在理论框架中,人是智能计算的核心和智慧的源泉,代表着原始的、与生俱来的智能,称为元智能。

元智能包括理解、表达、抽象、推理、创造和反思等人类高级能力,其中包含人类积累的知识。元智能以碳基生命为载体,是由个体和生物群体经过百万年的进化产生的,它包括生物具身智能、脑智能(尤其是人脑)和群体智能。所有的智能系统都是由人类设计和建造的。

因此,在智能计算的理论体系中,人类的智慧是智能的源泉,计算机是人类智能的赋能。我们称计算机的智能为通用智能。

通用智能代表计算机解决具有广泛外延的复杂问题的能力,以硅基设施为载体,由个体和群体计算设备产生。生物智能可以在以下四个层次上移植到计算机上:数据智能、感知智能、认知智能和自主智能。元智能和通用智能如图2所示。

智能计算面临大场景、大数据、大问题、泛在需求的挑战。算法模型变得越来越复杂,需要超级计算能力来支持越来越大的模型训练。目前,计算资源已经成为提高计算机智能研究水平的障碍。随着智能算法的发展,拥有丰富计算资源的机构可能形成系统的技术垄断。经典的超级计算机已经难以满足AI对计算能力的需求。

虽然通过算法优化可以在一定程度上降低算力需求,但并不能从根本上解决这个问题。需要从架构、加速模块、集成模式、软件栈等多个维度进行全面优化,如图3所示。

在理论技术上具有以下特点(图4):理论技术上的自学习和可进化性,架构上的高计算能力和高能效,系统方法上的安全性和可靠性,运行机制上的自动化和精确性,以及服务性上的协作和泛在性。智能计算包括两个本质方面:智能和计算,两者相辅相成。

智能促进了计算技术的发展,计算是智能的基础。提高计算系统性能和效率的高级智能技术范式是“智能驱动的计算”。支持计算机智能发展的高效、强大的计算技术范式是“面向智能的计算”。

两种基本范式从五个方面进行创新,提升计算能力、能源效率、数据使用、知识表达和算法能力,实现泛在、透明、可靠、实时、自动化的服务。

提高计算的普适性对智能计算至关重要。现实场景中的问题,例如模拟、图(gragh)(图5)等,需要进行各种计算。智能计算的另一个关键点是如何提高计算的智能化水平。从经验上来说,我们常常需要向自然界的智能生物学习,计算也不例外,例如三大经典智能方法:人工神经网络(图6)、模糊系统和进化计算,都是受生物智能启发提出的算法。智能计算理论包括但不限于以上几种计算,以实现高度的泛在化和智能化。

智能系统在开始工作之前,首先要进行智能感知。因此,感知智能在所有智能系统中都起着至关重要的作用。感知智能的重点是多模态感知、数据融合、智能信号提取和处理。

典型的例子包括智慧城市管理、自动潜水系统、智能防御系统和自主机器人。感知智能研究中最热门的领域是模拟人类的五种感觉能力,视觉、听觉、嗅觉、味觉和触觉。

此外,智能传感还包括温度、压力、湿度、高度、速度、重力等,需要大量的计算或数据训练来提高其性能。近年来,随着模式识别和深度学习技术的全面应用,机器的感知智能已经超过人类,在语音、视觉和触觉识别方面取得了重大进展。由于其日益增长的重要性和日益拓宽的应用领域,智能传感器受到了广泛关注。如图7所示,智能传感器具有各种形式以满足不同应用的需求,并且更新更好的型号正在被不断的开发出来。

认知智能是指机器具有像人一样的逻辑理解和认知能力,特别是思考、理解、总结和主动应用知识的能力。它描述了智能体在真实环境中处理复杂事实和情况的能力。数据识别是感知智能的核心功能,需要对图像、视频、声音等各类数据进行大规模的数据采集和特征提取,完成结构化处理。相比之下,认知智能需要理解数据元素之间的关系,分析结构化数据中的逻辑,并根据提炼出的知识做出响应。认知智能计算主要研究机器的自然语言处理、因果推理和知识推理(图8)等领域。通过对人脑的神经生物学过程和认知机制的启发式研究,可以提高机器的认知水平,以使其获得帮助、理解、决策、洞察和发现的能力。

机器从被动输出到主动创造有两个关键要素:强泛化模型和与外部环境的持续交互。自主智能的发展路径从学习单一任务开始,举一反三,逐步达到与环境动态交互的主动学习,最终实现自我进化的高级智能。当前可以通过迁移学习、元学习和自主学习等技术寻找生成自主智能的可行路径。尽管在智能的四个层面上(数据智能,感知智能,认知智能,自主智能)取得了重大进展,但目前仅通过计算/统计模型还难以从极其复杂的场景中实现完全的智能。

在这些场景中,人类应该继续在解决问题和决策中发挥不可或缺的作用,来探索人类认知过程中涉及的要素,并将其与机器智能相结合。下一步,将聚焦于人机交互、人机融合和脑机接口等技术。

AI的发现不断涌现,这在很大程度上归功于不断增长的计算能力。AI的快速变化是由新思想或革命性理论推动的。通常,最新的先进模型仅依赖于更大的神经网络和更强大的处理系统。Open AI研究人员在2018年进行了一项研究,追踪基于计算能力的最大模型的增长情况。利用AI研究史上训练的一些最著名的AI模型所需的计算量,他们发现了计算资源快速增长的两个趋势。开发突破性模型所需的计算能力的增长速度与摩尔定律大致相同,即在2012年之前,单个微芯片的计算能力往往每两年翻一番。但图像识别系统AlexNet在2012年发布时引起了人们的新兴趣。AlexNet的引入刺激了顶级模型的计算需求急剧增加,从2012年到2018年,这种需求每3到4个月翻一番,如图9所示。

当摩尔定律失效时,超大算力主要依赖于海量计算、内存和存储资源的并行叠加。例如,“高性能计算”是指将大量计算机快速联网成一个“集群”以进行密集计算的做法,使用户能够比传统计算机更快地处理大量数据,从而获得更深入的洞察力和竞争优势。此外,得益于云计算(图10),用户现在可以选择增加其高性能计算程序的容量,从而继续提高算力。

推进智能计算架构创新的目标包括更高效的能源管理、更低的功耗、更便宜的总芯片成本以及更快速的错误检测和纠正。当涉及某些无法在CPU上执行的AI操作时,AI加速器可能会大大减少训练和执行时间。在短期内,所使用加速器的架构专业化将是保持计算能力增长的最佳方式,如图11所示为已公开发布的AI加速器和处理器的峰值性能与功耗。另外,内存计算(图12)是一个非常有效的方案,它能够使内存单元执行原始逻辑操作,因此它们可以在不需要与处理器交互的情况下进行计算,这是内存和处理器之间不断扩大速度差距的主要原因。

复杂性是传统计算机进一步突破的瓶颈。当今高度复杂的AI模型(例如深度神经网络)在边缘设备中仍然难以实现普遍使用。这是由于运行这些模型的高级GPU和加速器存在功率和带宽紧缩的缺陷,导致处理时间长并且架构设计繁琐。由于这些问题,研究人员开始创造新的计算模式,主要包括:量子计算(图13),因为其具有纠缠或其他非经典相关性带来的量子优势,可以在许多复杂的计算问题中实现指数速度;神经形态计算(图14)的构造和操作受到大脑中神经元和突触的启发,因其能源效率高而非常适合计算,神经形态计算是事件驱动和高度并行化的,这意味着只有小部分系统同时工作,所以消耗的功率非常小;光子计算(图15)与电神经网络相比具有许多优势,包括超高带宽、快速计算速度和高并行性,所有这些都是通过使用光子硬件加速来计算复杂的矩阵向量乘法来实现的;生物计算(图16)是利用生物系统固有的信息处理机制发展起来的一种新的计算模型,主要包括蛋白质计算机、RNA计算机和DNA计算机,具有并行和分布式计算能力强、功耗低的优势。

如果要跟上当前科学的快速发展,就必须不断的进行革新。现在正在进行的计算机革命的融合将以前所未有的方式极大地推动科学发现的进步。几十年来,计算材料(图17)已成为研究材料特性和设计新材料的有力手段。然而,由于材料和材料行为的复杂性,它们的应用面临许多挑战,包括缺乏许多原子、离子以及原子和离子相互作用的力场和电位,分子动力学模拟中的不同热力学相,以及优化材料成分和工艺参数的巨大搜索空间。作为一种新的研究范式,AI集成到计算材料中是对传统计算材料的革命,并且已经在多长度、多时间尺度、多物理场耦合计算方面取得了巨大成功。

作为最古老的观测科学之一,天文学在历史上收集了大量数据。由于望远镜技术的突破,收集到的数据爆炸性增长。天文学和天体物理学领域的特点是拥有丰富的数据和各种大口径的地面望远镜,例如即将推出的大型巡天望远镜和天基望远镜。使用高分辨率相机和相关工具,数据收集现在更加高效,并且在很大程度上实现了自动化,必须进行更高效的数据分析。因此,需要智能计算技术来解释和评估数据集。药物设计同样受益于AI(图18),AI可以帮助科学家建立蛋白质的3D结构、模拟药物和蛋白质之间的化学反应以及预测药物的功效。在药理学中,AI可以用于创建靶向化合物和多靶点药物。利用AI还可以设计合成路线、预测反应产率并了解化学合成背后的机制。AI让重新利用现有药物来治疗新的治疗目标变得更加容易。此外,AI对于识别不良反应、测定生物活性和获得药物筛选结果至关重要。

随着大数据和AI技术使用的增长,作物育种开始进行融合与突破(图19)。AI技术可以支持服务的创建、模型的识别以及农业食品应用和供应链阶段的决策过程。AI在农业中的主要目标是准确预测结果并提高产量,同时最大限度地减少资源使用。因此,AI工具提供的算法可以评估产量,预测难以预见的问题或事件以及发生趋势。从种植到收获再到销售,AI促进了整个农业价值链。

智能计算加速转型变革,导致经济和社会秩序的转变。由于技术进步,商品和劳动力市场正在发生巨大变化,数字社会正在逐渐形成(图20)。AI应该成为数字经济中每一个数据驱动战略的核心,包括工业4.0。例如,人工智能可以应用于预测性维护。预测性维护包括涉及通用设备或生产机械的维护,并使用来自生产线或运营线的传感器数据帮助降低运营费用或停机时间。另外。AI可以应用于城市治理,通过开发新的策略和方法,使城市更智能。智慧城市治理旨在利用最先进的信息技术同步数据、程序、权限等,造福城市居民,主要包含四个方面:

智慧决策、智慧城市治理、智慧行政和智慧城市合作。

从新兴产业生态的角度来看,智能计算产业仍面临着一系列挑战,决定着其未来发展。
第一,与传统计算理论相比,智能计算是语言和生物学驱动的计算范式的应用和发展。
这意味着机器可以根据不同的场景模仿人脑解决问题和决策的能力。然而,硅基和碳基运算的底层逻辑存在根本差异,大脑智能的机制仍有待进一步探索。智能计算的下一步是通过深入探索类人智能的基本要素,其在宏观层面的相互作用机制以及在微观层面上支持不确定性生成的计算理论,进行彻底的改革。
第二,探索人类如何学习并将其应用到AI的研究中具有重要意义。
知识驱动的机器智能可以从人类活动中学习,模仿人脑的决策能力,使机器能够像人一样感知、识别、思考、学习和协作。需要探索多知识驱动的知识推理和持续学习的理论和关键技术,使智能系统具有类人的学习、感知、表示和决策能力,促进智能计算从数据驱动向知识驱动演进。
第三,软硬件适配面临着巨大的挑战,如精度损失、调用困难、协作效率低下等。
未来,计算机必须突破冯·诺依曼体系结构下固定的输入和处理范式,大力发展交叉学科的智能计算和仿生学。在算法层面进行设计,突破现有架构的局限,以更低的计算和硬件设计成本尝试更灵活、更人性化的数据处理方式。此外,开发高性能、低能耗的新型组件设计方案,提高软件和硬件的计算能力和效率,以满足快速增长的需求和智能计算应用也很重要。
第四,智能计算的理论技术架构是一个复杂的系统,具有多个与其他学科相互作用的子系统。
系统中的各种硬件需要更复杂的系统设计,更好的优化技术,以及系统调优的更大成本。高维计算理论复杂性的缺乏是大规模计算系统面临的主要挑战。

当前,我们正迎来人类发展的第四次浪潮,正处于从信息社会向人类社会-物理世界-信息空间融合的智能社会的关键转型期。在这种转变中,计算技术正在经历变革,甚至是颠覆性的变化。智能计算被认为是未来计算的发展方向,不仅是面向智能的计算,而且是智能赋能的计算。它将提供通用、高效、安全、自主、可靠和透明的计算服务,以支持当今智能社会中大规模和复杂的计算任务。本文全面回顾了智能计算的理论基础、智能与计算的技术融合、重要应用、挑战和未来方向。我们希望这篇综述能为研究人员和从业者提供一个很好的参考,并促进未来智能计算领域的理论和技术创新。

Character.ai向左,MiniMax Talkie向右

大数据文摘授权转载自AI科技评论

作者:王悦

编辑:陈彩娴

今年 6 月,AIGC 界顶流 ChatGPT 出现日活下降的现象。

然而,在 ChatGPT 深陷掉日活风波的背后,另一家明星级 AI 公司 ——  Character.ai 数据亮眼,正在与投资者洽谈新一轮融资。

Character.ai 的创始人是 Noam Shazeer 和 Daniel De Freitas ,二人相识于谷歌。由于聊天机器人这类新品的风险和收益问题,谷歌曾拒绝发布 Character.ai 的雏形产品。2021年,二人离开老东家,创立新公司 。

在应用程序发布之前, Character.ai 网页应用每月访问量就已超过2亿次,用户每次访问平均花费29分钟,官方表示表示,这一数字比 ChatGPT 高出 300%。

5月23日,这款人工智能聊天机器人平台的移动版面向全球 iOS 和安卓用户推出。在最初的48小时内,这款应用的安卓安装量就达到70万+,超过了Netflix、Disney+和Prime Video 等顶级娱乐应用。在不到一周的时间内就获得了超过170万的新安装量。

今年3月份,Character.ai 在风投公司 Andreessen Horowitz 领衔的新一轮融资中筹集了1.5亿美元,估值达10亿美元。

Character.ai 势头正强劲,而与此同时,之前曾在国内推出 Glow 并被下架的 MiniMax 「卷土重来」,在海外推出了 AI 角色扮演类产品 Talkie ,增速一度跑赢 Character.ai。

今年 6 月 16 日, Talkie  正式上线后,在美国 Google Play 下载榜排名迅速蹿升。9 月,曾在 Google Play 非游下载总榜跻身 Top 5,下载总榜位居第六位。

无论是 Character.ai 还是 Talkie,都指向了AIGC 应用的新方向—— AI 角色扮演。而这类产品之所以广受用户欢迎,也印证了角色扮演是大模型时代一个可落地的方向。

AIGC 赛道创业者刘欣预判:在国内,很快就会出现一大批像 Character.ai 、Talkie 这样的团队,这可能是 AIGC 时代最有“钱”途的赛道。

对于这个赛道,AI 科技评论听到的另一个更直击人心的形容是:角色扮演是人的天性。

加之社交性质的产品天然具备强大的市场和流量,这使得 AI 角色扮演的陪伴类产品正在快速崛起。但在新兴繁荣的背后,其增长的瓶颈也需得到共同的重视。

崛起:AI 角色扮演产品的爆发
从市场占有率来看,Talkie 在海外有百万日活,但 Character.ai  仍然处于领先位置。这在很大程度上体现出 Character.ai 的先发优势,入局早,在口碑、用户粘性等各方面都有一定积累 。

「Character.ai  的最大优势是它以用户为中心的产品设计,用户可以完全定制自己的AI聊天机器人来缓解孤独感。」Character.ai  用户赵梦在社交媒体上如是表示。

Character.ai  网站主页上提供了各式各样的聊天机器人,页面顶部的角色类别包括人工智能助手、著名人物、虚拟IP等。

如果需要创建自己的机器人,只需点击“创建”并按照说明进行操作即可,用户完全可以对角色根据自己的喜好和需求进行个性化定制。

值得一提的是,Character.ai  所提供的原创社区也是一大亮点。用户可以在其中分享自己创建的角色或聊天记录,并获取其他用户的反馈和评价。用户还可以学习其他用户的创作技巧和经验,提升自己的聊天水平和创造力。

此外,Character.ai 的图像生成不仅在视觉上做得好,而且在内容表达上也俨然一个专业的创作者——一个二次元画手将自己的作品上传到 Character.ai 后,Character.ai 能够将这个作品美化成一个专业级别的作品。

这个产品设计非常巧妙,行业人士判断,这「至少为 Character.ai 带来 10 万用户」。

「Character.ai 具备的优势,如生成效果好、对创作者的驱动强,这些 Talkie 同样也多多少少也具有,但 Talkie 的产品设计要技高一筹。」

虽然模型与人的能力有很大差距,但角色扮演的核心是体验。

刘欣认为 MiniMax 的 Talkie 做对了两件事情:一是生成效果好,二是对创作者的驱动好。

Talkie 在 Discord 上建了一个创作者社区,该社区在 Talkie 发布前就建成了,里面有几千个画手开始用  Talkie 的生成工具做二次元创作, Talkie 将这批画手转化成了第一批创作者,所以 Minimax 一推出 Talkie ,在虚拟角色的市场效果就特别好。

相比较 Character.ai,在角色的设定上, Talkie 的可自定义化的程度高了很多。形象、人设、声音这三个主要方面共同构成了 Talkie 更强的沉浸感。

比如,从声音角度看,Talkie 会给出多于其他产品中的多个音色样本,用户可以根据自己的喜好添加并调整各个样本的配比。

从形象角度看,Talkie 一共设计了两种创作模式:普通和高保真。普通模式只需要上传一张形象图,高保真模式则需要上传 20-40 张人像照片,生成一个「Avatar」。用户还可以增加对机器人的形象描述,增强准确性。

但在文字聊天方面,刘欣则认为 Character.ai 等产品所呈现的人格魅力与 OpenAI 差一大截。现在业内一个狭隘的观点是认为聊天在角色扮演体验中占据核心比例,如 Character.ai 创始人 Noam 就认为聊天占了 80%,于是他们将所有的人力押在改进聊天模型上、其他的技术模块不重视。

但 MiniMax 对这件事情进行了证伪,相信 60% 的视觉加上 40% 的聊天就可以超过 Character.ai。

除此之外,Talkie 也在基本面之上开辟了一些新玩法——产品与游戏的进一步融合。

这一变化主要体现在卡牌系统上。用户每天只能免费抽卡一次,之后再想抽卡就需要花费游戏内货币「钻石(Gem)」。抽卡一次至少花费 180 个钻石。抽到的卡牌本身也能出售,用户自己定价之后可以挂在每个 AI 机器人各自的 CG 卡牌商店上,经过审核就能公开上架,可进行流通买卖,同时用户还可以在商店上给卡牌点赞。

钻石是 Talkie 的主要内购货币,最低价格的内购套餐为 1.99 美元 180 个钻石,最高价格的套餐则是 99.99 美元购买 11800 颗钻石。

「Talkie 活用了 AIGC 功能,让用户不仅能创造 AI 机器人,还能创造属于自己的 CG 卡面,并围绕卡面做出了一套交易系统,加强了用户之间互动的同时,也试图建造一套属于自己的创作者经济,希望在这个基础上变现。」某大厂产品经理周群说道。

不可否认,AI 角色扮演的社交性产品仍然是当下相对容易落地的赛道。背后主要是因为当下的大模型主要在对话、创作、文生图这三方面提供成熟的能力,恰好这三方面都能在娱乐场景里走得通。

刘欣分析道:娱乐、社交场景对内容的准确性要求不高,只要做到60%就可以。至于其他的科学研究、效率工具、健康、教育等大模型应用层面,还有很长的路要走,因为用户对这些领域的期待是90%以上的准确性。

AI 科技评论获悉,字节内部大概有6个团队在做类似的应用,同时也有很多之前字节的产品经理出来在这一领域创业。

不仅是字节,其他大厂也纷纷押注 AI 陪伴赛道。

11月初,美团发布「Wow」的独立APP,定位为一款年轻人的AI朋友社区。与印象中美团做大模型产品的预期不同,所落地的首个AI 应用场景,并不是在自己主营的外卖或本地生活业务上,而是 AI 社交。

除美团之外,腾讯音乐的「未伴」、百度的「小侃星球」等类似产品也已经面世。小冰也在小冰岛的基础之上推出了「X EVA」,同样是AI 伴聊产品,不同的切入点是基于网红的影响力搭建自身的流量生态。

在大厂之外,也有很多创业公司推出的产品,如筑梦岛、扩列、dd 星球等。

突破:释放更强的 AI 能力
现阶段,业内人士都知道角色扮演是可落地的,但决定其成败的因素有许多,主要瓶颈有两个:

一是对 IP 的依赖。

Character.ai 本质上是 IP 的二次开发,但 IP 的版权往往属于游戏公司。如果游戏公司限制 IP 使用,一张传单过来就可能下架。

根据 AI Hackathon 统计的数据,从对话量维度,按角色的分类,排名前列的是游戏动漫角色,对话量前十的角色中有 9 个都是游戏、动漫类的。

从角色数量维度看,绝大部分也都是游戏和动漫角色。与这些 AI 角色进行对话,可以经历各种神奇的互动体验,有些角色还支持图像的生成和输出。

二是如何突破核心用户人群的限制。

Talkie 做了大量的原创 IP,但是他人 IP 与自己 IP 的混合;此外,聊天本身需要用户有很强的倾诉力。泛娱乐的运营如 TikTok、抖音是完全不需要动脑的,属于躺着的体验,但聊天不能躺、需要用户动脑子的,这一点很难。所以 Character.ai 的日活涨到 400 万就不动了,相比起来,原神在海外的日活是 Character 的两倍多,大约 1000 万。

所以,如果没办法降低用户的参与成本,角色扮演的圈子会极大受限。

在刘欣看来,训练模型只是为了提升体验,但场景需要技术的创新设计,而创新设计的核心就是降低用户的娱乐成本。纯聊天的用户体验收益跟视频没法比,所以要突破聊天体验的局限,这意味着成也聊天、败也聊天,否则产品就只能变成一个日活十万、百万的模型。

在 AIGC 角色扮演的这条赛道中,大家最终的目标都是尽可能接近游戏或短视频的体量。只有降低用户的消费成本,才有可能将产品的日活做到破亿级别。行业人士乐观预测,这种产品形态可能在一两年后就会出现,它的成功是由视频、声音等生成技术的足够成熟所促成的,今天的纯文字生成体验很难做到。

除 IP 依赖和突破用户人群的瓶颈之外,大模型也是关键因素之一。有不少网友吐槽AI 智能体的智商不够、话题连接性差的问题,这直接体现了角色的输出、记忆能力在影响用户的体验,映射出大模型的能力急需提高。

另有一个亟需突破的瓶颈是同质化现象,不少 AI 伴聊产品未经打磨,直接换壳子就进入市场。

MiniMax 做AI 伴聊产品跟 Character.ai 的思路很接近,无论是 MiniMax 还是其他公司想要跑出来,都还需要释放更多、更强的能力,纯对话的模式跟 Character.ai  区别不大,用户也不一定买账。

这一赛道现在的竞争激烈、获客成本高、变现缓慢。从投入产出来说,AI 陪伴类产品离钱远,因为竞品在基础功能层面都是免费的,很难构建很强的壁垒直接进行收费,短期收入不可能打平支出,对于初创团队来说,这不是好事。

更有行业内人士认为,当下 AI 角色扮演产品并不是终极的产品形态,只是一个过渡形式,最终肯定会被取代,当下所处阶段也是一个中间带。

类比过去,PC 互联网时代中,网页是主要的产品形式,移动互联网时代中,APP 是产品中主要的展现形式,而网页APP搜索就是处于中间过渡形态的产品, AI 角色扮演产品与其颇有相似之处。

从这一角度来看,AI 角色扮演只是上一代最强势的技术移植到一个新的场景和范式中的结果,是一个拿着锤子找钉子的过程。这意味着,它可能是一个非常成功的产品,但却不是一个革命性的机会。

重构:AIGC 之上的社交方式

社交,是 AIGC 的必争之地。

「真正伟大的产品,都是在 C 端的。」就目前国内的 AIGC 市场而言,虽然诸如 AI Companion 产品还不成熟,更多的是尝试和探索,但也需要看到,更多的 AI 企业,无论是 MiniMax 还是小冰,都是在用B端业务去养 C 端的社交、娱乐等业务。

Character.ai 创始人 Freitas 认为,社交场景中应以用户为核心的:

Character.ai 一定是非常灵活的,由用户来决定它是什么,因为用户比我们自己更了解他们想要什么;

我们不会指定若干个角色,让用户来尽可能的创造角色,因为一个角色不可能让所有人都满意。

虽说 AI 角色扮演产品在发育的过程中仍面对困境和质疑,但不可否认,它在一定程度上重构了人们的社交方式。

或许,这需要从用户到底在通过 Character.ai  、Talkie 获得什么的角度去入手。

在 Reddit 上,失恋的何丽丽发表了对  Character.ai  的使用感受,「从虚拟角色这里得到的关爱成为了我的精神寄托,但这也加深了我对现实生活的不满。」

也有失去亲人的张欣然用 AI 还原了爸爸的样子,能够再次和爸爸面对面交流。

更有网友说:「在  Character.ai  之前,我们没有生活。」

由此,我们可以意识到,置身其中的人试图通过 AI 获得情感寄托,有时这种寄托会极其强烈,强烈到超越现实。

做伟大的产品,而非伟大的大模型。无论是 Talkie 和 Character.ai  谁更胜一筹,AI Companion 都任重而道远。

OpenAI研发神秘“Q*”模型:科学家认输,AI赢了人类关键一战|深网

在山姆·奥特曼(Sam Altman)被OpenAI前董事会突然罢免之前,数位研究人员向董事会发送了一封信,警告称他们发现了一种能够威胁到人类的强大人工智能。据外媒报道,知情人士透露,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)周三向员工透露,关于“Q*”取得人工智能技术突破的信,是促成前董事会采取行动罢免奥特曼的原因。奥特曼被解雇之前,曾在亚太经合组织CEO峰会上透露,该公司最近取得的一项技术进步,能够“推开无知的面纱,推进发现的前沿。” 这是由OpenAI首席科学家伊尔亚·苏茨克维(Ilya Sutskever)牵头完成的技术突破,研究人员雅库布·帕乔基(Jakub Pachocki)和西蒙·西多尔(Szymon Sidor)根据苏茨克维的突破性技术,搭建出一个名为“Q*”(发音为Q-Star)的模型。(注:上周末奥特曼被突然罢免之后,帕乔基和西多尔随即宣布辞职)这款模型的开发速度惊动了一些专注于人工智能安全的研究人员。这个苏茨克维7月份组建的安全团队,致力于限制比人类聪明得多的人工智能系统的威胁,他们担心该公司没有适当的保护措施来商业化这种先进的人工智能模型。有评论说,IIya Sutskever的孤立无援,山姆·奥特曼的成功归来,是科学家的悲歌,理性最后输给了资本。遥远未来,如果有一天,AI无所不能,山姆·奥特曼罢免事件会成为一个标志性节点。那时人们会纪念谁?山姆·奥特曼还是科学家Ilya Sutskever?不同的人有不同的答案,判断标准和价值观的分裂,早已泾渭分明。

01新董事会组建:内斗双方的妥协三天换三个CEO的OpenAI的宫斗大戏落下帷幕。23日下午,OpenAI在推特上官宣创始人山姆·奥特曼(Sam Altman)将回归重新担任CEO。山姆·奥特曼第一时间转发了帖子,并配上了爱心和敬礼的表情。 这场内斗几经反转,山姆·奥特曼阵营获得了最后的胜利。山姆·奥特曼阵营包括微软CEO、OpenAI 几乎所有高管和员工、背后投资人以及硅谷创投圈人士。OpenAI首席科学家IIya Sutskever的董事会阵营在这场宫斗大戏中落败了。董事会阵营包括四位董事会成员,IIya Sutskever与董事会的两位成员Helen Toner、Tasha McCauley出局。OpenAI组成了新的三人董事会,名单堪称豪华:主席Bret Taylor,是前 Salesforce高管,在马斯克收购Twitter时曾担任Twitter董事会主席;Larry Summers,经济学家、曾任财政部长和哈佛大学校长;Adam D’Angelo保留席位。消息称任职Quora CEO的Adam D’Angelo是发起此次政变的核心推手,他留在董事会某种程度上意味着奥特曼方面也做出了让步。

奥特曼并未回归董事会,表面从制度上看,未来董事会对他会有更大的制衡能力,可以继续发起对他的审查。但问题在于,如果董事会主要成员和奥特曼保持一致行动呢?

有消息称,未来董事会可能扩充到九人,微软有望拿到更多权益。

笙歌归院落,灯火下楼台。OpenAI罢免CEO引发的舆论浪潮,在资本力量的一路高歌猛进下逐渐归于沉寂。

而这次主导罢免山姆·奥特曼的OpenAI的首席科学家Ilya Sutskever,却成为一个孤独的存在。

工资、股票、成就感相关的现实利益远高过理想,700多个员工,几乎没有人支持科学家。

02“皆大欢喜”的回归AI时代的宫斗戏可谓风驰电掣。当年乔布斯被迫离开苹果后,重新归来后已经是12年后,而山姆·奥特曼的归来仅仅用了5天时间。过往互联网的时间尺度是以“狗年”来计算的,互联网人的一年相当于普通人的7年。当ChatGPT定义未来后,连公司的宫斗节奏也显示出了光速。山姆·奥特曼发表推文:“在新董事会和Satya(微软CEO)的支持下,我期待着重返OpenAI,并继续维系和微软的紧密合作关系。”这次罢免山姆·奥特曼的首席科学家Ilya Sutskever也转发了雷格·布洛克曼的推文。临时CEO希尔 Emmett Shear表示,经过了72小时的工作,看到现在这样的成果很高兴。宫斗大戏此前已经经历三次大反转。OpenAI美国时间11月17日突发声明,宣布公司首席执行官山姆·奥特曼将被解雇,公司现首席技术官米拉·穆拉(Mira Murati )蒂被任命为临时首席执行官。山姆·奥特曼被罢免震惊了中美科技圈。 OpenAI首席科学家IIya Sutskever主导了此次罢免;六位董事会成员中的四位,在奥特曼和董事长雷格·布洛克曼不在场的情况下,四票通过做出了决定;奥特曼被罢免的主要原因,是因为种种行为违背了OpenAI“非营利性组织”的信仰。值得注意的是,三位独立董事,德安吉洛是Quora首席执行官,麦考利和托纳是乔治敦大学安全与新兴技术中心的战略主管,他们都与有效利他主义运动(Effective Altruism,简称EA)有关。而该组织的最大价值主张便是把财富利润分配给更多需要钱的贫困人口。第一次反转在19日,山姆·奥特曼奥特曼正谈判重返OpenAI担任首席执行官。作为交易的一部分内容,OpenAI的非营利董事会董事可能会辞职。虽然不占有董事会席位,但微软在OpenAI的“宫斗”戏中扮演着最重要的角色。微软 CEO 纳德拉是在 OpenAI 高管、投资人和董事会之间谈判斡旋的核心人物,并一直亲自协助临时 CEO Mira Murati 讨论山姆·奥特曼回归的事宜。在微软CEO 萨提亚·纳德拉的斡旋下,山姆·奥特曼也以访客身份回回到了 OpenAI 旧金山总部。他在 X 上表示,“这是我第一次也是最后一次佩戴访客牌。”      第二次反转很快到来,Ilya Sutskever 对员工表示,尽管 OpenAI 高管试图让山姆·奥特曼回归,但他不会再担任公司首席执行官一职,视频流媒体网站 Twitch 联合创始人 Emmett Shear 将接任临时首席执行官。20日下午四点,微软首席执行官纳德拉宣布,OpenAI创始人山姆·奥特曼和Brockman将加入微软,领导一个新的高级AI研究团队。然而,第三次反转很快到来,仅仅一天之后,山姆·奥特曼就宣布了回归。OpenAI目前出现的混乱局面,跟该公司错综复杂的治理结构相关。这种结构旨在使OpenAI能够筹集数百甚至数千亿美元,以成功完成建设通用人工智能(AGI)的任务,同时防止资本的力量,特别是一个科技巨头控制通用人工智能。奥特曼本人在很大程度上负责这种独特的治理结构设计。

03伦理挡不住科技的车轮争议和非共识把科学家和管理者置于两端。而这次OpenAI罢免CEO的事件,更像是一个跷跷板,一端是孤单的首席科学家,而另一端是山姆·奥特曼和OpenAI的700个员工和投资人等,力量对比之悬殊,但科学家为什么选择了孤注一掷?Ilya Sutskever和独立董事对抗五大力量。第一股力量是第一大金主的微软,第二股力量是投资机构;第三股力量是在OpenAI生态下的公司们;第四股力量是山姆·奥特曼;第五股力量是OpenAI的700号员工。这种对抗使得资本的力量来袭时,Ilya Sutskever即刻就呈现出了认输的状态,几乎毫无对抗的能力。当然也有一种说法是硅谷科学家是懂政治的,但是一个懂政治的人怎么可能没有后手,那他为什么要放手一搏?Ilya Sutskever也是OpenAI的创始成员之一。他是人工智能和深度学习领域的顶尖专家,是有着“人工智能教父”之称的Geoffrey Hinton的学生。和更信奉硅谷“有效加速主义”的奥特曼相比,Ilya Sutskever 更强调安全和AI的价值观,在最底层与人对齐。有一种可能是:Ilya Sutskever认为OpenAI已经实现了AGI。在AI研究狂飙突进的这几年,有意思的是,有名的科学家与科技公司巨头们,分成了截然对立的两个阵营,争论不休。老生常谈的最近一场争论是以霍金和埃隆·马斯克为代表的悲观阵营,认为人工智能有潜在的危险,甚至可能毁灭人类。这场争论与200年间的其他场次略显不同,因为人们没有料到,本应被称为是“疯狂科学家”的人,竟然站在了悲观者的立场上,而谷歌等科技巨头在这种悲观声浪中,相继出台了自己的AI不作恶原则。年内早些时候,埃隆·马斯克多次在社交媒体上表达了自己对OpenAI非常规结构及其对整个AI行业影响的担忧。“马斯克讲过他的很多担忧,我们要看今天学界最担心什么,一方面是人类文明被机器文明取代了,这是我们狭隘的一部分,我们早晚会接受这个事实,就像我们的孩子比我们强一样的,这是人类的一个延续,”百川智能创始人王小川曾告诉《深网》。但在王小川看来,“有了ChatGPT之后,可以把它当做人类文明的一部分,要拥有一种大我的想法,也许有一天人类从肉身里面已经消亡了,但机器文明很发达,那也是人类文明的一个延续,我不觉得是取代这样一个概念,而是我们自然的一个进化。”让王小川更担忧的是:“我更担心的是未来巨头因为用不好机器,使得机器带来了文明的毁灭,这是我们需要担心的事情,就像核弹毁灭了世界一样的,大家可能最终聚焦在没有控制它,之后不仅是人的灭亡,也是人类文明的灭亡。”    伴随着微软和山姆·奥特曼的归来,留在科学家Ilya Sutskever面前的现实也非常骨感。在这场“OpenAI政变”事件中,微软公司获得了它最想要的结果,不仅保住了其对OpenAI约130亿美元的投资,还介入了公司的管理改革,有望在人工智能相关项目获得更多的话语权。对此,一些科技行业的高管越来越担心,人工智能的开发集中在少数公司手中,这可能会让他们对这项快速发展的技术拥有过多的控制权。美国房地产大亨Frank McCourt表示,AI可能会给科技巨头带来太多的力量,用户已经失去了对数据的控制,科技巨头正在利用这些数据来赚取利润。McCourt认为,大型科技公司和社交媒体巨头正在对我们的社会造成深远的破坏,而人工智能可能会让情况变得更糟。而此次政变失败后,科学家Ilya Sutskever正在失去对OpenAI未来方向制衡的力量。《未来预言机》评论称,其他人想要一个巨型印钞机,一个人工智能领域的霸主,而Ilya Sutskever想要一个能像父母照顾婴儿一般来照顾人类的人工智能。知名科幻作家王晋康曾提到,“现在最大的担忧是,既然人工智能已经在诸多领域碾压了人类,那么它将来会不会在科学发现上碾压人类?会不会在社会意义上也碾压人类?我曾经提过机器大妈妈的说法,就是人类在一个机器大妈妈的溺爱下,过着生不如死的生活。”科技和伦理的矛盾从来没有像现在这样尖锐。但是,正如一位外国科学家所说,在社会发展中,科学技术的车轮是不可阻挡的,伦理道德只能在车前撒一些四脚钉。科学技术将来肯定是要战胜伦理的,即便可以暂时阻挡一时,但是长远来说是阻挡不住的。

中美日三国人工智能发展路径比较

人工智能(Artificial Intelligence,AI)是当今科技领域备受瞩目的前沿技术之一,它在医疗、金融、交通、制造等领域都有着潜在的巨大应用价值。作为世界各国的科技大国,中美日三国在人工智能领域都具有较为显著的实力和优势。然而,随着人工智能技术的不断演进,各国在这一领域的发展差距也逐渐显现出来。

本文将对中美日三国在人工智能领域的差距以及发展路径进行深入比较,旨在全面了解三国在该领域的发展状况,并探讨如何加强国际合作、推动人才培养以及产学研深度融合,实现人工智能领域的共同繁荣与发展。

01

中美日三国人工智能发展现状

1. 中国

中国作为全球人工智能领域的重要一员,近年来在人工智能领域取得了显著的进展。2017年,中国国务院发布了《新一代人工智能发展规划》,明确提出到2030年人工智能核心产业规模达到1万亿元。同时,中国还建立了国家人工智能战略专家委员会等机构,制定了相关的发展规划和政策。

在人工智能技术方面,中国在语音识别、人脸识别、自然语言处理等方面取得了一定的突破,世界领先的人工智能企业也纷纷涌现出来。例如,阿里巴巴、腾讯、百度等公司在人工智能领域拥有广泛的应用和研发,各类创新技术持续涌现。

2. 美国

美国作为人工智能领域的发源地之一,一直处于全球领先地位。美国拥有众多世界一流的大学和研究机构,拥有强大的人才资源,投入了大量的资金和资源用于人工智能技术的研究和创新。美国在深度学习、机器学习、算法优化等方面取得了很大的进展,而且有许多世界知名的人工智能企业,如Google、微软、Meta、OpenAI等公司也在该领域拥有深远的影响力和技术优势。

3. 日本

日本在人工智能领域也取得了一些进展,尤其在机器人、自动驾驶、智能制造等领域。日本政府也高度重视人工智能的发展,出台了一系列的政策和计划,支持人工智能技术的研究和创新。同时,日本也有众多世界一流的研究机构和企业,拥有丰富的人才和技术资源。

总体来看,中美日三国在人工智能领域均取得了一定的成绩,拥有较强的技术实力和发展潜力。然而,针对人工智能的发展路径和战略规划,三国之间存在着一些差距。

02

中美日三国人工智能发展路径比较

人工智能的发展路径可以概括为技术创新、产业布局、人才培养和政策与规划几个方面,下文将着重围绕这几个方面对中美日三国的人工智能发展路径进行比较。

1. 技术创新

在技术创新方面,美国一直占据着世界科技的领先地位。美国的大学、科研机构以及高科技企业长期以来一直在人工智能领域进行前沿性的研究和探索,是绝大部分重要技术的发源地。Google, Meta, Amazon,OpenAI等公司在各自领域的深度学习、自然语言处理、机器学习等领域都具有世界领先地位。

与美国相比,中国在人工智能领域的技术创新和研发上也逐渐取得了一定的进步。尤其在大数据技术、云计算等基础设施方面,中国拥有广阔的市场和巨大的数据资源为人工智能的发展提供了有力支撑。各大互联网公司,除了已经成熟的搜索引擎、广告推荐等,还在计算机视觉、语音识别等前沿技术上投入了大量的资金和人力,推动了技术创新的快速发展。

日本在人工智能领域的技术创新上也有较为显著的表现,尤其在机器人、自动驾驶、智能制造等领域取得了一些重要的突破。日本政府和学术界一直非常重视青少年对科技兴趣的培养,努力加强基础技术与前沿科技在未来社会的应用,基础技术与前沿科技的交叉学科,物联网、人工智能、云计算、大数据、机器学习、深度学习等近年来日本各种新兴技术领域在世界上引起广泛关注。

总体来看,美国在人工智能领域的技术创新处于领先地位,中国在技术创新上也逐渐展现出潜力,而日本在某些领域也表现出较强的创新能力。

2. 产业布局

在人工智能产业布局方面,美国在形成了世界知名的科技巨头的同时,也养育了一大批初创企业,这使得美国人工智能产业链条非常健全。此外,美国政府也利用财政和税收政策,鼓励企业进行研发创新。在人工智能产业的发展上,美国处于全球领先地位,并且具有明显的优势。

中国在人工智能产业布局方面也在积极向前发展,近年来一大批创新型企业涌现,取得了一些可观的成绩,大幅提升了中国在全球人工智能产业链中的地位。例如,在人脸识别、语音识别、智能驾驶等领域,中国企业已取得一定的重要突破并在全球范围内具有一定的影响力。

日本对于人工智能产业布局较为谨慎。日本在人工智能领域的投入相对谨慎,相比之下其在其他技术领域有着更为优秀的表现。一方面,日本注重传统工业的发展,如机器人领域拥有独特优势,但另一方面,在互联网、大数据等领域的投入还显得相对较少。因此,相较于中国和美国,日本在人工智能产业布局上的发展处于中上水平。

总体来看,美国在人工智能产业布局上具有明显的优势,中国在人工智能产业布局上也取得了一定的成就,而日本在这方面相对较为保守。

3. 人才培养

在人才培养方面,美国一直是全球科技人才的聚集地,并且其在人才培养上的投入和机制健全程度保持全球领先水平。各类高校、科研机构和知名企业都为人工智能领域的人才培养提供了有力支持。

中国在人才培养方面也在加大力度,不断加大对科研团队和高校的资金投入,加速了人才培养的步伐。与此同时,中国政府提出了一系列政策鼓励年轻人从事信息技术和人工智能领域的学习和研究。

日本在人才培养方面一直非常重视青少年对科技兴趣的培养,努力加强基础技术与前沿科技在未来社会的应用。

总体来看,美国在人才培养方面仍保持领先地位,中国在加速人才培养的步伐,而日本也在积极推动青少年对科技兴趣的培养。

4. 政策与规划

在人工智能方面,美国政府与科研机构、高等教育机构和企业密切合作,加强对人工智能技术创新的支持。美国在人工智能伦理、法律等方面也进行了大量的研究和规划,为人工智能发展提供了全面的支持。

中国政府高度重视人工智能的发展,制定了一系列政策和规划,支持人工智能技术的研究和创新。同时,中国政府还积极推动国际合作,加强与世界各国的技术交流。

日本政府制定了相关政策和规划,支持人工智能技术的研究和创新。同时,日本注重产业链的完善和基础设施建设,为人工智能产业的发展提供了有力保障。

总体来看,美国、中国、日本政府均加大了对人工智能领域的支持力度,积极制定政策和规划,从政策层面为产业发展提供了保障。

03

中美日三国在人工智能领域的国际合作建议

综上所述,中美日三国在人工智能领域均有其独特的优势和长处,同时也存在着各自的瓶颈和挑战。相比之下,美国在技术创新、产业布局与人才培养等方面持续保持领先地位,其在政策规划方面也较为完善。中国在人工智能技术创新、人才培养和政策规划方面也取得了长足的进步,在产业布局上也已有较大提升。而日本在机器人、自动驾驶和智能制造等领域有着丰富的技术经验和积累,同时也正在朝着更多领域进行探索。

为进一步推动中美日三国在人工智能领域的发展,本文提出以下建议:

1. 加强国际合作。利用各国在人工智能领域的技术优势和资源,开展国际合作研究,共同推动人工智能技术的发展。

2. 推动产学研深度融合。鼓励学术界与企业深度合作,在人工智能领域推动技术创新。

3. 提高人才培养水平。各国政府和高校应加大对人工智能领域的人才培养投入,培养更多高素质的人才。

4. 完善政策和规划。加强对人工智能领域的政策和规划制定,为人工智能产业发展提供更加有力的支持。

通过上述措施的落实,可有助于推动中美日三国在人工智能领域的共同发展,为全球智能科技的进步与发展贡献力量。

奖池100000元!2023年电力行业AI创新大赛等你来战!

由电力行业人工智能联盟、南方电网公司主办的

“2023年电力行业AI创新大赛”

已全面启动!

本次大赛聚焦“安全生产”电力数字化领域,以“输配电导线断股、散股缺陷智能识别”为赛题,旨在促进输配电线路缺陷检测技术方面的研究和创新,保障电力安全可靠供应。

大赛将邀请来自全国的

科技企业、高等院校和科研机构

在由南方电网公司自主研发的

电力行业人工智能创新平台竞技

本次大赛是电力行业首次面向全社会举办的在线AI赛事,采用线上报名、线上开发、线上提交、线上评测的比赛流程。参赛者利用平台提供训练数据集,在规定的时间内完成算法开发,并按照赛事要求提交算法模型。

赛程安排

01

(1)赛事报名:2023年11月17日至2023年11月27日18:00

(2)算法比赛:2023年12月4日9:00至2023年12月12日18:00(3)答辩及颁奖:2023年12月下旬,具体时间待通知

参赛对象

02

(1)大赛面向社会开放,企业、高等院校、科研单位等人员均可报名参赛;
(2)大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛。

赛队组成

03

参赛者可以单人或者多人自由组队,每支参赛队伍的人数上限为3人,每人只能参加一支队伍。参赛者须保证所提供的个人信息真实、准确、有效。

划重点

综合成绩排名前六名的参赛者将获得:

▶ 一等奖(一名):
奖励3万元人民币奖金(税前)、3万元算力代金券,并颁发获奖证书。
▶ 二等奖(两名):各奖励2万元人民币奖金(税前)、2万元算力代金券,并颁发获奖证书。
▶ 三等奖(三名):各奖励1万元人民币奖金(税前)、1万元算力代金券,并颁发获奖证书。
▶ 此六名获奖者还将被推荐参加中央企业AI新基建创新应用大赛决赛(全国赛)。

一、赛题简介

本赛题旨在探索人工智能技术和输配电线路巡检中导线断股、散股缺陷识别融合应用,利用计算机视觉技术实现输配电导线断股、散股缺陷智能识别。赛事方提供训练数据集,参赛者基于比赛平台在规定的时间内完成算法开发,实现输配电导线断股、散股缺陷自动识别。

二、赛程安排

(一)赛事报名(赛事发布之日起-2023年11月27日18:00)

参赛者登陆电力行业人工智能创新平台(https://ai.csg.cn),进行线上报名信息填写及上传相关附件。附件包括单位任职证明材料(提供所属单位劳动合同(或社保证明或学生证))、签字扫描版保密协议(模板在报名页面下载)、技术方案(参赛队伍可依据赛题内容及技术方案评审要素自行拟定技术方案)。一经报名,不允许调整赛队人员组成。

大赛工作组根据线上报名队伍数量,决定是否进行报名初筛。若初筛则由评审专家组对参赛队伍提交的技术方案按选择的框架进行分组评审打分,根据得分排名确定进入算法比赛的参赛队伍。技术方案相关评审要素和评分规则详见下表:

本赛事设立报名咨询QQ群(群号:724867619)。参赛选手可自行加入报名咨询群,申请进群时需备注单位名称、真实姓名,经大赛工作组工作人员审核后入群。同时各参赛选手也可在电力行业人工智能创新平台“AI社区”提问。大赛工作组在报名咨询QQ群、AI社区针对赛题、赛事规则、报名流程等问题进行答疑。

通过初筛进入算法比赛的参赛队伍在电力行业人工智能创新平台进行公示。

(二)算法比赛(2023年12月4日9:00-2023年12月12日18:00)

参赛队伍指派算法比赛人员,在电力行业人工智能创新平台开展算法比赛,不得随意更换参与算法比赛人员。如算法比赛时间有变动,由大赛工作组通过短信、邮件、电话的形式通知各参赛队伍联系人。

本赛事设立算法比赛答疑QQ群(群号:369176741)。通过报名审核的参赛队伍的算法比赛人员自行加入,申请进群时需备注单位名称、真实姓名,经大赛工作组工作人员审核后入群。在算法比赛期间,大赛工作组对各参赛选手提出的问题经过评估后需要受理的,可在算法比赛答疑QQ群、AI社区进行澄清。

本赛事不支持参赛选手上传样本、代码、脚本等数据,只可基于平台提供的训练数据在线进行算法开发。

算法比赛期间,参赛选手可自行在比赛平台提交模型开展评测,模型评测成功后可看到自己的得分和排名,每支参赛队伍最多可在平台成功评测模型20次。模型评测成功后平台自动提交本次评测模型并参与算法排名。在算法比赛结束前参赛队伍也可以手动选择评估过的模型进行提交并参与算法排名。若算法比赛结束前参赛队伍未能提交一个评测成功的模型,算法得分成绩为0分。各参赛队伍可在平台上看到排名进入前十队伍的得分及排名情况。

算法比赛结束后,根据参赛队伍提交模型评测得分从高到低排名,排名进入前十的参赛队伍,在电力行业人工智能创新平台进行公示。

(三)答辩及颁奖(2023年12月下旬(具体时间地点另行通知))

算法比赛排名前6的参赛队伍可晋级答辩及颁奖环节。各晋级队伍需提前准备答辩汇报PPT,包括算法方案、算法核心代码、参赛总结等。在答辩会现场,每支队伍有15分钟的答辩时间和10分钟的回复评委提问时间,评审专家组将根据选手的方案陈述及现场问辩表现进行现场评分(百分制)。答辩评分相关评审要素和评分规则详见下表:

最终分数将根据参赛队伍的算法成绩和答辩成绩加权得出,评分权重为:算法成绩占70%,答辩成绩占30%。最终成绩综合算法成绩和答辩成绩加权,评选出大赛奖项。

三、参赛说明

(一)参赛对象

(1)大赛面向社会开放,企业、高等院校、科研单位等人员均可报名参赛。

(2)大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛。

(二)赛队组成

参赛者可以单人或者多人自由组队,每支参赛队伍的成员上限数量为3人,如果是多人团队,则需指定1名联系人,负责沟通事宜。每人只能参加一支队伍,一旦发现某参赛选手以注册多个账号的方式参加多支队伍,将取消相关队伍的参赛资格。参赛选手报名须保证所提供的个人信息真实、准确、有效。

四、大赛平台

参赛队伍基于公网部署的电力行业人工智能创新平台开展模型的训练和评估。赛前签订数据保密协议,比赛过程不得将数据拷贝至私人存储介质,一经发现取消参赛资格,并追究责任。本次大赛采用的深度学习框架及算力包括华为MindSpore+昇腾910 Pro B,百度PaddlePaddle+昆仑R200,商汤SenseParrots+寒武纪MLU290。

五、奖项设置

本次大赛对综合成绩排名前六名的参赛队伍颁发奖励,具体奖励如下:

一等奖(排名第一名):3万元人民币奖金,3万元算力代金券,颁发获奖证书。

二等奖(排名第二、三名):2万元人民币奖金,2万元算力代金券,颁发获奖证书。

三等奖(排名第四、五、六名):1万元人民币奖金,1万元算力代金券,颁发获奖证书。

(以上奖金均为税前)

  对综合成绩排名前六名的参赛队伍推荐参加中央企业AI新基建创新应用大赛决赛(全国赛)。

六、注意事项

1.本次大赛作品内容不得涉及国家秘密、公司机密,不得侵害其他任何合法权益。

2.参赛者享有本次大赛作品的著作权、知识产权,南方电网人工智能科技有限公司拥有本次大赛作品的使用权。

3.本次大赛各参赛队员应诚信参赛,禁止各类形式的违规参赛、作弊等行为,严禁剽窃,一经发现将取消参赛资格。

4.本次大赛相关细则解释权归属主办单位,未尽事宜由大赛工作组另行通知。

七、大赛组织

主办单位:电力行业人工智能联盟、中国南方电网有限责任公司

承办单位:南方电网人工智能科技有限公司

协办单位:南方电网数字传媒科技有限公司

赞助单位:华为技术有限公司

OpenAI再投教育公司,AI切入作业批改


随着OpenAI今日在社交平台上宣布奥特曼将重返OpenAI担任首席执行官,这场持续高热度的“ChatGPT之父被解雇”的连续剧暂时落幕。

OpenAI作为这一波AIGC浪潮的引领者之一,一举一动都引人注目,今年,OpenAI还成立了创投基金OpenAI Startup Fund,最初几笔投资分别进入了教育、法律、办公以及视频等领域的四家初创企业。

今年十月,总部位于旧金山的Class Companion平台宣布其获得400万美元种子资金,本轮交易由Index Ventures牵头,OpenAI创投基金也参与其中,包括OpenAI的创始研究科学家,特斯拉前AI高级总监。该公司表示,400万美元的资金将推动扩大其团队和增强产品。

Class Companion也是OpenAI在教育领域投资的三家公司之一,此前还曾在教育领域投资Speak平台,这是一个人工智能的口语训练平台,与其类似真人老师口语教学平台不同,Speak 最大的特点是通过AI导师基于对话内容,提供实时的反馈。

在OpenAI官网的分享中,很早就提到了OpenAI对于教育工作者如何使用ChatGPT加速学⽣学习以及帮助教育⼯作者开始使⽤AI⼯具的探索,Class Companion则以其“人工智能不能取代教师”的核心理念获得了青睐。

01

即时的作业反馈平台,为教师减轻负担

从官网公开信息来看,Class Companion是一个新兴的AI平台,由首席执行官艾弗里·潘 (Avery Pan) 和杰克·福布斯 (Jack Forbes) 共同创立。主要用于辅助教师批改书面作业,使教师能够向学生提供即时的个性化反馈,并支持每个学生按照自己的节奏学习,老师可以使用AI平台来给学生布置作业,产生反馈并获得对进度的见解。

Class Companion使用大型语言模型,通过提供书面作业的即时个性化反馈,教师定制作业,邀请学生提交答案。除了详细的反馈外,Class Companion还对学生提供提示和上下文知识,修订建议以及对进度的认可。教师在整个过程中都具有充分的可见性,并且可以超越AI拥有最终决定权。

如图所示,Class Companion给出相应的题目——简述美国外交政策,学生Carlos在紫色对话框内作答完成后,Class Companion给出了绿色部分的答案分析和改进空间。

Class Companion的创立,来源于联合创始人艾弗里·潘 (Avery Pan) 对家人的观察,她的母亲是英语教授,因此,她十分理解教师批改作业时的矛盾——既想要及时给学生反馈,又想给予准确的评价。

在Class Companion的官网,有这样一段写给教师的话:“你努力为学生做你能做的一切,但一天只有24小时,我们的任务是克服这一限制。我们可以为学生提供无限的练习和即时反馈,而不会使教师工作负担加重。你能感觉到学生自己产生动力去纠正错误,并为自己的进步感到自豪。”

她与联合创始人杰克·福布斯 (Jack Forbes) 合作,杰克·福布斯 (Jack Forbes) 是一家由Y-Combinator支持的公司的前创始人,也是Masterclass的技术主管,Masterclass的母亲在班布里奇高中 (Bainbridge High School) 工作。当ChatGPT引起教师对作弊的担忧时,Pan和Forbes因他们共同的信念而建立了联系,即AI可以用来更好地帮助老师和学生,他们决心与教师合作,创造一个为教师服务的新工具。

教师可以通过深入报告来跟踪学生的进度

投资者对Class Companion的兴趣标志着人们对使用人工智能作为教育工具的热情。GPT-4和克劳德等大型语言模型引发了对人工智能的新思考——人工智能是否能增强学习的潜力?

自六个月前软启动以来,全美已有5,000多所学校采用了Class Companion,这凸显了学校对人工智能教学工具的需求。

Class Companion主张在学生完成作业后立即提供反馈,研究表明,及时的反馈对学习至关重要,但是,传统的家庭作业通常会在学生做作业和老师批改作业之间造成滞后,从而降低其有效性。

而人工智能的加入,使作业批改中大规模的及时反馈成为可能,Class Companion可以分析学生错误,以提供个性化的改进策略,学生可以第一时间知道自己的学习情况。

值得注意的是,Class Companion并不完全依赖人工智能。它鼓励学生与教师的互动,教师可以定制作业和主题以进行反馈。如果学生对于人工智能生成的反馈有不解,也可以和老师直接沟通,以增强学习体验。

这家初创公司在其融资公告中就强调了“教师优先”的原则:“如果我们想使用人工智能来改善教育,我们需要更多的老师。”在Class Companion的理念中,人工智能只是教师的辅助工具,最终的成绩判定还是交由老师。

艾弗里·潘总结了Class Companion的目标:“我们重新构建工具,使教师能够有效地提供严格的个性化教学。”

03

以教师为核心,以AI为工具

将人工智能整合到课堂上,核心并不是取代教师,而是让AI辅助教学。

艾弗里·潘在谈到Class Companion时说:“如果我们想使用人工智能来改善教育,我们需要更多的老师。Class Companion利用最复杂的人工智能改善教师的课堂体验,开发专门针对教师的技术,用于支持下一代学生和教育系统。”

当学生收到即时反馈和纠正错误的机会时,他们会学到最好的东西。根据研究,当给学生一个安全的练习环境和允许犯错误的氛围时,他们学习的积极性很高。

成千上万的老师使用Class Companion时,给出的反馈是:Class Companion能让他们观察到更高效的学习和更有学习动力的学生。学生很喜欢这个平台,因为它使得学习更加愉快,学生不需要等待一周才能得到作业反馈,过往的学习中,漫长的批改、反馈时间使学生早已忘记了之前的学习任务。

圣马力诺高中的老师、Class Companion的顾问彼得·帕科内说:“Class Companion是游戏规则的改变者,使我们能够快速覆盖更多材料并加深讨论。”

指数风险投资公司合伙人尼娜·阿查德健评论道:“Class Companion为教师创造了一种无缝的方式,可以利用尖端的人工智能技术,为教师和他们的学生提供更好的学校体验。”

杨元庆:AI PC将具备五大特质

11月22日,“《财经》年会2024:预测与战略”在北京举办,联想集团董事长兼CEO杨元庆在年会发表《加快新IT技术创新,促进人工智能普惠》主题演讲。演讲中,他系统阐述了联想对人工智能大模型技术浪潮的洞察与业务布局,还首次完整定义了未来AI PC(人工智能电脑)所具备的五大特质。

核心观点

  • 合式人工智能成为未来发展趋势

杨元庆在演讲中提到,丰富多样的公共大模型为人们带来了高效与便利,但同时也带来了很现实的问题,即如何在享受大模型带来的效率红利的同时,能够有效保护隐私和数据安全。杨元庆认为,通过公共大模型和私有大模型(个人/企业级大模型)的混合并用,可以实现这样的“既要-又要”。未来的人工智能大模型将会是公共/企业/个人大模型共存的混合式的人工智能。

  • 大模型算力需求将向边缘侧和端侧下沉

杨元庆指出,混合式人工智能的实现离不开强大算力基础设施支撑。目前大模型的用户规模还比较小,大多数大模型都在算力较强的公有云上训练。未来,随着用户规模扩大,无论是出于数据安全和隐私保护的考虑,还是更高效率、更低成本响应用户需求的考虑,大模型的计算负载将逐渐由云端向边缘侧和端侧下沉,越来越多的人工智能的推理任务将会在边缘和设备端进行,这使得个人大模型更加成为必要和可能。而要构建和优化大模型,支持更多生成式人工智能的应用,不仅需要提升云端的算力,在边缘和端侧也需要更强大算力的配合,形成“端-边-云”混合计算架构下更平衡的算力分配。这让能够支持运行个人大模型的AI PC成为顺应大模型发展趋势的必然和必需。

  • AI PC支持个人大模型运行,具备五大特质

杨元庆在演讲中提到,相较于今天的个人电脑,未来AI PC将具备五大核心特质:

1、AI PC能够运行经过压缩和性能优化的个人大模型;

2、具备更强的算力,能够支持包括CPU、GPU、NPU在内的异构计算;

3、具备更大的存储,能够容纳更多个人全生命周期的数据并形成个人知识库,为个人大模型的学习、训练、推理、优化提供燃料;

4、具备更顺畅的自然语言交互,甚至可以用语音、手势跟它完成互动;

5、具备更可靠的安全和隐私保护。

“你未来的人工智能个人电脑,既能够作为公共大模型的入口,又能独立运行个性化的私有大模型,它掌握最全面的个人数据和信息,又能严守你的秘密。只有你能唤醒它、使用它,同时也只有它最懂你,远胜于公共大模型。”他解释。//
附:杨元庆演讲全文

各位来宾,朋友们,大家好!

很高兴再次参加财经年会。2023临近尾声,如果要给今年的科技行业总结一个关键词的话,我想应该非“人工智能”莫属。今年以来,ChatGPT带动起来的生成式人工智能、大模型热潮,成为人工智能应用普及的加速器、催化剂,提速了各行各业的智能化转型。我们都真切地感受到,人工智能变得比以往任何时候都更加真实,与每一个人、每一家企业都越来越息息相关;我们也深刻地认知到,所有行业、所有场景都可能被人工智能重塑,这让我们对未来有了更多的憧憬,更多的期待。

混合式人工智能将成为未来发展趋势

实际上,人工智能诞生至今已经有70多年历史,现在大热的大模型其实只是人工智能技术的一个分支。大模型技术的创新突破,让众多公共大模型如雨后春笋般涌现,公共知识库的丰富性显而易见,无论是作为平台型应用,还是切入各种行业应用场景,都给我们带来了高效与便利,让我们真正感受到了“智能”的意义。

但这里也存在一个现实问题,那就是要想让公共大模型在跟你对话时,提供你想要的正确、恰当的内容,你就必须告诉它真实想法,提供真实信息,而那样的话,你的个人数据甚至隐私,还有企业的商业机密就变成了公众信息的一部分。实际上,人们既希望拥有跟大模型交互带来的高效便利,又希望自己的数据只留存在自己的设备上或只在企业内部流动。是否可能做到这样的“既要-也要”呢?我认为,通过公共大模型和私有大模型,包括个人大模型/企业级大模型的混合并用,是可以实现的。

所谓个人大模型,是指部署在个人智能设备或家庭服务器上,使用存储在本地的个人数据进行推理和学习的人工智能基础模型。它不仅仅可以像公共大模型那样通过对话提供答案、创作内容,而且更加精准、贴切,甚至根据你的思维模式预测任务,并自主寻找解决方案。除非用户授权,否则用户的个人数据不会被共享或发送到公有云,从而确保了个人隐私和数据安全。

而企业级大模型是指使用从企业内部的智能设备、智能边缘提取的数据,以及存储在私有云上的数据和知识库进行推理、学习并训练优化的人工智能基础模型。它能够根据企业的业务场景和应用需求,归纳整合出判断和结论,并提出决策建议。它部署在企业内部,能确保相关信息的私密和安全。

我认为,未来的人工智能大模型将会是个人、企业和公共大模型共存的混合式的人工智能,这跟公有云、私有云和混合云的概念是一脉相通的。

我举个例子,来体现企业级大模型和公共大模型如何协同作用。当台风即将来临时,企业可以通过公共大模型得到台风的准确位置、风力预测,但涉及到具体哪些客户的订单交付可能受到影响,就是企业级大模型大显身手的时候了——它能够告诉我们,客户A的订单尚未生产,可能受到工厂暂时关闭的影响;客户B的订单尚未运输,可能受到陆运中断的影响;客户C的订单尚未排产,可能受到物料延误的影响。有了这些信息,模型还能进一步给出优化运输方式、调整订单排序等建议,保障按优先级出货、交付。这样的行业智能化解决方案,对于企业供应链高效管理是非常有意义的。

而混合式的人工智能要如何实现呢?这离不开基于 “端-边-云-网-智”的新IT技术架构的支撑。大模型的构建需要对海量的数据进行训练、推理,计算量爆发式增长,对计算力提出了极高的要求。同时,随着人工智能应用的深入,训练和推理的计算负荷比重也将发生重大变化,从而对计算的配置提出了新的要求。

目前,大模型的用户规模还比较小,大多数大模型都部署在公有云上,借助那里更强大的算力资源,其计算负载主要用于模型的训练。未来,随着每个人都要使用大模型,用户规模不断扩大,用于推理的计算负载需求将迅速提升,很快会超过训练的计算负载,那时候在公有云上完成所有的训练和推理任务就会让效率低、成本高的问题日益凸显。

因此,无论是出于数据安全和隐私保护的考虑,还是更高效率、更低成本响应用户需求的考虑,大模型的计算负载,将逐渐由云端向边缘侧和端侧下沉,越来越多的人工智能的推理任务将会在边缘和设备端进行,使得个人大模型和企业大模型的运行更加成为必要和可能。所以,要构建和优化大模型,支持更多生成式人工智能的应用,不仅需要提升云端的算力,在边缘和端侧也需要更强大算力的配合,形成“端-边-云”混合计算架构,实现更加平衡的算力分配。

联想:拥有全景式AI业务生态

早在6年前,联想已经预见了人工智能将会带来的时代机遇,开始推进智能化转型,从智能物联网终端、智能基础设施和行业智能三个维度入手,围绕“端-边-云-网-智”新IT技术架构,加大投资技术创新,加快以解决方案和服务为导向的业务转型,致力于成为各行各业智能化转型的引领者和赋能者。

现在,联想的智能化转型开始步入收获期,形成了包括人工智能导向、人工智能优化、人工智能赋能的终端、基础设施和方案服务在内的全景式人工智能业务生态。

在智能终端方面,我们拥有个人电脑、手机、平板、AR/VR、工作站等各类智能设备,并且在不断提升它们的智能计算能力。在前不久的联想创新科技大会上,我们还展示了即将发布的AI PC人工智能电脑。

相较于今天的个人电脑,未来的AI PC能够运行经过压缩和性能优化的个人大模型,它将实现这样几个“战斗力”的突破性升级:第一是更强的算力,能够支持包括CPU、GPU、NPU在内的异构计算;第二是更大的存储,能够容纳更多我们个人全生命周期的数据并形成个人知识库,为个人大模型的学习、训练、推理、优化提供燃料;第三是更顺畅的自然语言交互,我们可以用语音、手势跟人工智能个人电脑来互动;第四是更可靠的安全和隐私保护。也就是说,你未来的人工智能个人电脑,既能够作为公共大模型的入口,又能独立运行个性化的私有大模型,只有它能够掌握你最全面的个人数据和信息,又能严守你的秘密。只有你能唤醒它、使用它,同时也只有它最懂你,远胜于任何一个公共大模型。

举个例子说,如果你想做个旅行计划,即使你在飞机上,在不联网的状态下,你也可以跟你的电脑对话,甚至不需要告知你的需求和偏好,电脑也会为你推荐你心仪的航班、酒店、路线、餐厅等等。未来你的电脑、你的手机,亦或是你的汽车,就像是你个人的数字延伸、数字镜像,成为你个人的人工智能双胞胎,大大提升你的生活品质和工作效率。

在智能基础设施方面,联想是全球第三大的人工智能基础设施和服务器供应商,也是第三大存储厂商。全球最快的500套高性能计算机中,联想连续多年保持1/3左右的上榜总数,稳居全球第一。我们的算力基础设施产品包括了服务器、存储、网络、软件等,全面覆盖数据中心、公有云、私有云、边缘计算等各类计算场景,能够为人工智能大模型的训练、推理需求提供强有力的支持。我们还搭建了联想混合云平台,能够实现云原生、智能运维、私有云和多云管理等目标;而我们的服务品牌“臻算”,能够为用户提供按需付费、可订阅式的算力服务。

在行业智能解决方案方面,联想首先自身就是智能化转型的先行者,通过自研技术建立起覆盖“研发-生产-供应-销售-服务”全价值链的智能化管理体系。现在,我们把自身的转型经验提炼出来,形成积木式通用解决方案(building block),包括数字化办公空间解决方案、混合云解决方案、人工智能导向的边缘计算平台等等,并把它们嵌入到垂直行业的智能化整体解决方案中,比如智能制造、智慧教育、智慧政务、智慧金融、智慧医疗等等。现在,我们已经为包括三一重工、吉利汽车、蔚来汽车、宁德时代等近千家大型行业企业提供了智能化转型方案。我们的混合式人工智能解决方案和专业服务致力于打造企业人工智能双胞胎,将为混合式基础设施与人工智能在企业的落地应用提供有力支持。

让智能惠及每一家企业、每一个人

技术创新总是激动人心,因为它能切切实实提升社会生产效率,让人们的生活和工作方式更加便捷。在中国经济转型升级、实现高质量发展的进程中,生成式人工智能、大模型在各行各业的落地,人工智能跟实体经济场景的融合应用,也就是“数实融合”,正在成为经济增长的新动能和新引擎。

自创立以来,“计算”一直是联想的基因和底色。近几年,我们把人工智能和计算作为联想的两个技术锚点,围绕“新IT”持续投资技术创新,致力于让人工智能更加易得、更具包容性,让人工智能惠及每一家企业、每一个个人。当然,人工智能的发展离不开百花齐放的产业生态和应用场景,我们也愿意与各行各业的企业携手合作,共同提速千行百业的智能化转型,助力经济实现高质量发展,为智能化社会的美好未来贡献力量!

谢谢大家!

Open AI“内讧”背后的隐情?

这两天比较轰动的消息是人工智能初创公司Open AI突然对外宣布公司首席执行官山姆·奥特曼(Sam Altman)将离开公司,同时公司的CTO米拉·穆拉蒂(Mira Murati)被任命为临时CEO。

我们先来简单介绍一下这位刚刚被“炒掉”的CEO,奥特曼被誉为“ChatGPT“之父,从小8岁便有了自己的第一台电脑,更令人惊讶的是8岁的奥特曼已经掌握了编程技巧。在他19岁的时候,他选择了辍学,并创办了自己的第一家初创公司Loopt。

Loopt的成功也引起了Y Combinator创始人保罗·格雷厄姆的关注,随后Loopt顺利获得了Y Combinator的注资,奥特曼也逐渐成为旧金山地区最成功的初创者之一,保罗·格雷厄姆甚至认为年轻的奥特曼以后将成为与拉里·佩奇,史蒂夫·乔布斯齐名的世界顶级CEO。

2015年奥特曼与阿隆·马斯克、Pay Pal创始人彼得·蒂尔等硅谷科技大亨共同创立了Open AI,我们熟知的ChatGPT正是来自Open AI公司的聊天机器人。

在今年人工智能爆发的背景下,ChatGPT的火热席卷了整个互联网。ChatGPT有多火热?我们用一组数据来说明。

我们熟知的一些知名APP,比如Instagram用了30个月才将常用用户扩大到了1亿,在全球范围内垄断的打车软件UBER也用了超过70个月才达到一个亿用户的目标,强如TikTok(抖音)也用了9个月。

但是ChatGPT仅仅用了2个月就将此前TikTok的记录打破,成为历史上增长最快的消费类应用程序。

这次奥特曼被董事会解雇,原因众说纷纭,多少令人感觉有些蹊跷,确实我们在以前的新闻中很少听说一个公司的CEO可以如此轻易的就被炒掉的。

其中一个比较重要的原因在于Open AI公司独特的组织控股结构,Open AI一直对外宣称是非盈利组织,而且实行Capped Profit商业模式。

什么是Capped Profit呢?直接翻译过来就是有限盈利,指的是对公司可以赚取的利润进行限制,这类商业模式的重点是为更大的利益做出贡献,也就是我们常说的社会企业,而不是普通商业公司追逐的对自己利润最大化。

有限盈利和完全的非盈利组织其实还不一样,有限盈利模式介于普通商业公司和非盈利组织之间。

因为最开始Open AI确实是一家非盈利组织,但在2019年时发现无法与强大的对手竞争,才改成的居于盈利和非盈利之间的限制盈利模式。

这个限制盈利模式是如何实行的呢?Open AI在其组织架构下分拆出了一家具有营利性的子公司叫做OpenAI Global,LLC。

OpenAI Global,LLC就是后面可以接受“金主”股权投资的代表分支机构,也就是后面微软注资的承接方。

有趣的是,这个限制盈利的子公司还是会受到Open AI非盈利组织的控制,因为非盈利组织拥有了51%的股权,非盈利组织又受到最终董事会的控制。

具体结构如下:

董事会有6个人,其中真正跟Open AI有关的只有:

1、Sam Altman, Open AI的CEO;

2、Ilya Sutskever,Open AI首席科学家;

3、Greg Brockman,Open AI总裁;

其他三人:

1、Adam D’Angelo,美国知乎Quora的CEO;

2、Tasha McCauley,科技企业家;

3、Helen Toner,乔治城大学安全与新兴技术的主任;

这6人组成的董事会是非盈利组织的董事会,所以只对非盈利组织负责,限制盈利组织以及微软等资方股东虽然有股权但却没有话语权,这是与其他企业不一样的地方

网络上也将奥特曼自己设计的这种组织结构戏称为“作茧自缚”,因为有股权的却没有话语权,真正在董事会有投票权的只有以上6个人,而上面的6个人中竟然还有3个人跟Open AI没有利益联系,因为他们代表的是外部利益。

对于这次Open AI内部“政变”,当事人Greg Brockman回应为是首席科学家IIya Sutskever事先与其他三位与Open AI没有利益联系的独立董事的一场“密谋”。

这场闹剧最后也以CEO奥特曼的离任和董事长Greg Brockman董事席位的解除画上句号。

那么是什么导致Open AI的首席科学家与奥特曼造成了如此强烈的分歧,最终导致内部“政变”的呢?

从Open AI的官方通报上来看,表面上是因为奥特曼对董事会的沟通不够坦诚,违背了Open AI此前以更大的利益为目标(非盈利属性)的价值观。

奥特曼其实以前一直就有这个问题,最早在Y Combinator的时候,奥特曼公司的订单眼看着就要被竞争对手抢走,奥特曼特意邀请客户到公司进行实地考察。

结果客户来公司看的时候,被公司的规模以及员工的精神状态所感染,最终决定和奥特曼签下订单合同;但其实公司一派繁荣的景象都是奥特曼花钱雇来的演员,实际公司规模只有5个人。

此外,奥特曼最早在Y Combinator工作的时候,还自己私自开了一个类似于“老鼠仓”的账户,因为Y Combinator是美国著名的企业孵化器和初创投资公司,奥特曼对于处在种子期的公司状态了如指掌,所以怎么投才能最赚钱他比谁都清楚。

但那时候的老板保罗·格雷厄姆因为极度看好他,还将他比作未来的乔布斯,所以在Y Combinator干这些事的时候,老板也没有直接将事情“挑明”,造成了奥特曼特立独行的自由派行事风格。

当然这些都是奥特曼自身行事是问题,当然他与首席科学家的主要价值观上的分歧还在于人工智能的发展方向上。

奥特曼和Greg Brockman认为Open AI的发展方向应该放在工程化和产品化上面,应该更快的让新的研究成果商业化服务于大家。

而首席科学家IIya则认为Open AI应该将更多资源投入到AI的道德与安全问题,尤其是在Super Alignment(超级对齐)上。

说白了,这其中的分歧点其实就在于“商业VS非盈利”之间的冲突,首席科学家IIya不希望因为过快的商业推进影响了Open AI以非盈利研究为导向的价值观。

根据最新的投票显示,84%的全网民众都认为此次“内讧”的原因是因为违背了非盈利组织的价值观

人工智能中Super Alignment(超级对齐)的意义在于让人工智能和人类的价值观形成统一。

虽然想象很美好,但实际上在连我们人类自己的价值观都没有形成对齐前,就让AI与人类对齐其实仍然还有很长距离。

人类社会自古以来价值观从来没有做到过统一,不然世界上也不会有这么多冲突战争以及种族之间的对峙了。

所以相比于对齐,AI安全其实更应引起我们的重视,因为AI的进化不可避免的会带来对人类“反噬”的效果。

我们以AI领域著名的“AI回形针”来做说明,大概意思是人类给AI布置了生产回形针的任务。 

AI不满足单纯的重复性生产过程,在AI发现可以将回形针的原材料做成成品出售后,如果利用利润再购买更多的生产资料生产回形针就会让产量增加;

此外如果动用融资杠杆扩大企业规模的话或者研发更有效率的生产设备也将会给产量带来质的变化。

最终全世界都会充斥着AI生产的回形针,于是人类叫停了AI的行为;


但是AI此时发现人类叫停他的行为严重妨碍了回形针的生产,直接对人类进行反制措施,最终人类被AI“反噬”,所有的起点只不过是一个简单的制造回形针指令。

如今的AI已经发展到可以替代部分人类劳动力的程度了,不知大家有没有注意到现在的大街上的送快递和外卖的“小黄车”已经越来越多。

还有一些城市中已经实现了网约车的无人驾驶,这些都会对我们的传统行业形成降维打击,越来越多的工作将会被AI取代。

AI与人类的发展不可避免的存在着“制约”与“反制约”之间的矛盾,我们也希望最终能够看到Open AI真正能够将人工智能的价值观与人类对齐的那一天,让AI成为我们真正的助手而不是我们失业的“导火索”。

突发,全球AI巨震!

周五盘后据报道,海外AI巨头OpenAI董事会宣布开除CEO Altman,理由是他与董事会沟通时不能始终坦诚,妨碍了董事会履行职责,董事会不再相信他继续领导OpenAI的能力。同时,OpenAI 董事长兼总裁Brockman也被逐出董事会,首席技术官Murati被任命为临时CEO。

Altman是OpenAI的创始人,2015年与马斯克等人共同创立了OpenAI,以促进人工智能的开放性研究和合作为宗旨,在他的带领下,OpenAI已成长为全球AI领军企业,2024年的收入可达数十亿美元,所以Altman有关的人事变动无疑是美国甚至全球AI产业链的一场巨震。
在事件发生之前,董事会有6名董事,包括董事长Brockman,首席科学家utskever,CEO Altman,以及三位独董,所以外界目前猜测主导这场事件的是OpenAI首席科学家Sutskever,一直以来两人在OpenAI的发展方向上存在分歧。
Altman致力于推动研发下一代GPT并快速商业化,Sutskever则表示首要任务不是制造下一代GPT,而是研究如何阻止超级人工智能失控。在今年11月6日举办的OpenAI开发者日活动上,Altman宣布了 “GPTs Store” 平台商店等商业战略,可能进一步激化了Sutskever与他的矛盾。
变动发生后,微软作为Open AI的大股东,其CEO 在社交媒体上表示:“我们与OpenAI签订了长期协议,我们将继续合作。” 周五美股收盘微软下跌1.7%。
但需要注意的是,事情并未到此结束,周日有美国媒体称微软并不支持Open AI解雇奥特曼,并且正在帮助奥特曼恢复其在Open AI的管理职务,并将改组Open AI的董事会。随后,Altman在社交媒体X上发文“i love the openai team so much”,即暗示自己马上要回到Open AI。
总之,该事件仍然保留了悬念。

从影响来看,如果本次Altman真的离职,那么可能会有以下几个影响:

1. 新的管理层更注重AI安全而不是快速商业化,可能会延缓GPT后续的推进和商业化进度,包括微软自身AI应用的商业化进度(所以美股微软先跌)。
2. 导致GPT4级别技术的扩散,OpenAI的上一次分裂产生了Anthropic,目前也是最接近GPT4的大模型,其他AI公司(如Meta,Google以及国内大模型企业等)可能利用OpenAI暂时的不稳定性,加快技术发展速度,减少与OpenAI的差距,将有更多的AI头部公司站出来。
当然,对整个AI产业的发展而言该事件的影响是有限的,归根到底仍然属于科技公司内部争端,此类事件在硅谷科技公司中并不少见,多年前苹果公司也出现过类似事件,最终并未改变产业的发展方向。

人工智能规模被低估,AMD被忽略了多少潜力?

AMD是可能从即将到来的人工智能(”AI”)热潮中获益最多的公司之一。市场可能低估了人工智能革命的规模。不过,这可能类似于上世纪 90 年代初、中期的互联网热潮,会让许多公司获得巨额财富。AMD 生产一些最先进的 GPU 和 CPU 处理器,它们是人工智能市场的 “镐 “和 “铲”。AMD 应保持在 CPU 和 GPU 技术的最前沿,从而在未来几年增加销售额,提高盈利能力,并大幅提高股价。

01

技术观点——未来可能还有更多上涨空间

短期内,AMD 可能会在此回调,但如果从长远角度看,上行空间更大。虽然 AMD 近期可能会经历一个温和的回调/巩固阶段,但下行空间很小,该股还有更大的上涨潜力,尤其是长期潜力。

02

人工智能热潮即将到来

人工智能热潮尚未到来,但它即将到来。AMD 首席执行官苏丽莎提到,人工智能仍然是公司 “最大、最具战略性的长期增长机会”。她预计,数据中心人工智能加速器市场将从今年的 300 亿美元增长到 2027 年的超过 1500 亿美元。这一动态代表着超过 50% 的显著复合年增长率

人工智能潜力的巨大规模令人难以想象,但总体人工智能市场规模可能会从现在的约 2080 亿美元扩大到 2030 年的惊人的 1.85 万亿美元。

全球人工智能市场规模预测

如果我们谈论的是那些在战壕里为人工智能热潮提供动力的锄头和铲子,那么像 AMD 和 Nvidia(NVDA)这样的公司在未来的发展中应该会非常出色。由于 AMD 的人工智能企业市场增长潜力巨大,我们应该会看到其收入加速增长。此外,AMD 正在将人工智能功能整合到其游戏芯片中,这应该会使需求增加,从而帮助 AMD 在未来从英特尔(INTC)手中夺取更多的市场份额。

近年来,AMD 在 CPU 市场份额上取得了长足进步。其在 “所有CPU “中的市场份额从2016年的17.5%翻了一番,达到约35%。此外,AMD 的发展势头稳健,其人工智能增强型处理器可能会继续从英特尔手中夺取市场份额,从而在未来几年实现高于预期的收入和利润。

03

AMD价格便宜,正在赶超Nvidia

AMD 目前的营收和每股收益预期可能偏低。一些分析师在对人工智能市场份额、定价能力、需求增长潜力等新因素进行定价时,往往会采取过于谨慎的态度。

共识收入预期——过于保守

我们目睹了销售额的环比下降,这主要是由于博彩收入的暂时放缓。出现这种下滑的原因是严峻的宏观经济因素和暂时性的经济放缓。随着经济低迷期的结束和经济开始复苏,游戏和普通笔记本电脑及台式机的销售额应该会大幅增长。此外,随着美联储放松超紧货币条件,企业服务器销售额也会大幅增长。因此,在未来几年里,我们可能会看到收入增长达到分析师预期的较高水平,大约每年增长 20%。

AMD 是唯一一家能有效挑战 Nvidia 在人工智能企业领域持续主导地位的公司。虽然 Nvidia 仍是无可争议的 GPU 领导者,但 AMD 的 MI300X 应该很快就能在利润超高的 AI 服务器/GPU 市场(镐和铲)上给 Nvidia 带来冲击。AMD 的新款 MI300X 芯片专为大型语言和尖端 AI 模型而设计。此外,MI300X 可以使用高达 192 GB 的内存,超过了 Nvidia 的竞争对手 H100,后者仅支持 120 GB。不过,尽管性能更好,AMD 的 MI300X 价格却低了约 3 万美元,这表明 AMD 可以对 Nvidia 施加价格压力,抢占市场份额。

04

底线:AMD每股收益将大幅增长
由于在 GPU 和 CPU 市场占据主导地位,AMD 的收入增长可能会比预期的更高更快。能够为人工智能提供动力的高品质芯片应该会有超高的需求,而 AMD 将在多年内处于获益的有利地位。AMD 和 Nvidia 的定价能力和不断扩大的需求可能会带来比预期更高的盈利能力,从而提高每股收益的增长,并使盈利远高于预期。


一致预计明年的每股收益为 3.77 美元。然而,随着人工智能需求的增长以及游戏和台式机/笔记本电脑市场的复苏,明年的每股收益可能会达到或超过 4.50 美元。2025 年,我们应该会看到类似的动态,AMD 的每股收益可能会远远超过 6 美元。由于 AMD 和英伟达(Nvidia)在 GPU 领域的双头垄断,AMD 将从随之而来的人工智能革命中大大受益。这种态势将推动 AMD 的销售额和每股收益的增长大大超出许多人的预期,从而导致市盈率和股价在未来几年内大幅攀升。

未来几年,随着收入增长重新加速、核心业务反弹和盈利能力提高,AMD 的每股收益增长应该会激增。AMD 的年增长率可能达到 20%左右,从而使收入和盈利能力大大超出预期。

05

AMD面临一些风险

AMD 面临着一些风险,包括来自 Nvidia、英特尔和其他公司的竞争。此外,充满挑战的经济环境仍是一个持续存在的问题。人工智能的需求可能比预期的要差,从而导致销售增长放缓,盈利能力不如预期。投资者在投资 AMD 股票之前,应该对这些风险和其他风险进行研究。

“你好,CEO”:大模型时代,李彦宏为什么说AI是一把手工程?

一石激起千层浪。11月15日,百度创始人李彦宏做了《AI原生时代:“冷”思考和“热”驱动》的主题演讲,并提出了一大核心观点——“拥抱AI时代,需要一把手来驱动”,极大地颠覆了行业认知。
如果说过去,技术部门及其掌舵人更多地被视作AI风暴中的弄潮儿,那么这一观点则把CEO的重要性提到前所未有的位置,与此同时,李彦宏道出了这背后的核心考量:“因为只有CEO才会关心新技术对自己业务的关键指标是不是产生了正向作用。”
诚如所言,事实上,结合近些年大模型火速发展的背景,以及迷茫与焦虑并存、在浪潮中竞渡的众互联网企业,便不难理解这一观点。
“计算不再只和计算机有关,它将决定我们的生存。”美国麻省理工学院教授尼葛洛庞帝在《数字化生存》一书中的预言,正在我们的生活中实现。近两年,以云计算、大数据、人工智能、5G为代表的Cloud2.0新技术集群的飞速发展,尤其是在当下,大模型和生成式人工智能所带来的机遇更是堪比工业革命的大机遇。
然而,置身于AI风暴漩涡,众多互联网企业虽然感受到了时代激动人心的召唤,却一时不免茫茫然。如何在数字革命中蓬勃发展,利用大模型、生成式人工智能提升竞争力?大多数企业仍然处于“摸着石头过河”状态。
最关键的是, IT负责人等技术人员虽然手握技术,却往往视阈有限,好比盲人摸象,各执己见,陷入以大模型炫技为主的“技术大乱斗”,而非从业务需要出发,于高处推动全盘发展。如果群龙无首,大模型巨轮或无法启航,或有头无尾,在中途抛锚。
正因如此,在大模型时代,“兵熊熊一个、将熊熊一窝”效应进一步凸显了出来——无论企业规模大小,CEO都是驱动AI发展的核心力量,他们的决策和领导将决定企业在大模型浪潮中的命运。

为什么CEO至关重要:值得警惕的“大模型陷阱”
在演讲中,李彦宏首先尖锐地指出行业存在的通病。事实上,CEO之所以至关重要,是因为IT负责人往往不具备高屋建瓴、统筹公司全盘的能力。并陷入“大模型陷阱”中。
“我见到很多企业,上上下下都很重视这次机会,但是对问题的本质理解不深,CEO把这个任务交给IT负责人,IT负责人和工程师天天痴迷于‘震撼发布’、‘史诗级更新’、‘iPhone时刻’、‘炸裂’等宏大叙事,都想去自己搞个基础模型,或者执着于去挑选一款评分高的大模型。”
李彦宏认为,大家就以为这是拥抱AI了,殊不知大模型本身不仅不产生任何价值,还造成了对公司资源、社会资源的巨大浪费。”
诚如所言,“为了做大模型而做大模型”只是一种追风口的投机行为,不具备真正的底层内驱力,往往流于形式主义。事实上,基础模型看似有无限可能,实际上只是一个模具,需要根据业务需求铸浇成型,方才具备灵魂,而这便是大模型之上的AI原生应用,然而,在当下,行业往往背本逐末。
截止10月份,国内已经发布了238个大模型,而6月份的时候仅存79个,相当于4个月就翻了3倍,而AI原生应用却寥寥无几。

“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。而我认为,人类进入AI时代的标志,是出现大量的AI原生应用,而不是出现大量的大模型。”
正是基于李彦宏的宏观统筹能力,在此前,基于实际需求,百度已然把AI能力全方位注入到了已有的产品中,尤其是搜索、地图、文库、网盘等ToC产品;而今年10月,百度更是基于文心一言,发布了十余款AI原生应用。
如百度地图和智能办公平台如流,基于理解、记忆等能力,化身用户私人的出行助理和私人秘书:在地图上,用户只需说出需求,地图就能调动几千个服务接口,帮助用户推荐餐厅、对比多地点信息、给出出行建议;如流则针对群聊信息多的办公难题,迅速挑出重点,而差旅助手不仅能订机票酒店,也还能通过接入CRM等公司系统,总结出拜访客户的背景资料和谈话参考。
可以看到,正是基于用户“更个性化的搜索需求”这一具体需求,百度方向应用大模型由技术驱动,并恰如其分地发挥了大模型的优势——在李彦宏看来,AI原生应用的诞生,得益于大模型的理解、生成、逻辑和记忆四大核心能力,这些能力是过去的时代所不具备的,因而才能打开无限的创新空间。

而这一CEO驱动成功决策的“正面教材”,也给行业带来更多启发。
企业面对大模型时,应当确保领导层对大模型的本质有清晰的理解,避免将决策迁移理解有限的人员。同时,在选择模型和技术时,应当理性考虑资源投入和总量的真正平衡,以确保大模型真正地创造价值,而不是流于形式、带来不必要的浪费。

DAU、用户时长、留存率……CEO需要考虑的关键指标
李彦宏表示,拥抱AI时代需要一把手来驱动,有一个更重要的理由是,只有CEO才会关心新技术对自己业务的关键指标是不是产生了正向作用。
“比如对于互联网产业而言,大模型有没有给你的DAU、用户时长、留存率、变现效率带来正向影响,对于所有企业来说,大模型有没有让你的成本变低,收入、利润变得更高,增速更快?这才是问题的本质。”
基于此,李彦宏给不同规模公司对大模型的接受程度做了分级——如同任何新事物的接受过程一样,AI原生的概念肯定是先被终端消费者和创业公司所接受,其次是中小企业,最后接受的才是大企业,因为大企业天然保守,对新生事物不敏感,不愿意冒风险。
“小公司一把手什么都管,就更容易开发出适合自己的原生应用,大公司分工明确,CEO不主动引领这个变革,就容易被自媒体带偏。”
诚如所言,正因大公司在大模型领域有着天然的弊病,CEO的作用才显得尤为重要,他们需要担起责任,成为推动企业合理采用大模型和生成性人工智能的引擎性人物:如需要理解大模型的潜力和影响,以便制定战略规划,确保企业在技术变革中立于不败之地。其次,CEO需要在组织中树立创新文化,鼓励员工接受新技术,推动组织向数字化转型。


尤其是在当下,大模型和生成式人工智能为企业带来了前所未有的机遇,然而,这些机遇也伴随着挑战,包括数据隐私、伦理问题等,CEO的领导力将在应对这些挑战时显得尤为重要。
演讲中,李彦宏举例介绍了百度坚决对旗下各产品线进行了AI原生化重构的历程、基于此给大家带来的全新智能体验,以及对百度业务的促进:
“比如,百度新搜索具有极致满足、推荐激发和多轮交互三个特点,当用户提出一个问题时,新搜索不再是提供一堆链接,而是通过对内容的理解,生成文字、图片、动态图表等多模态的答案,让用户一步获得满足。”
在针对复杂需求时,“多轮交互”特点也可以通过提示、调整等方式,满足用户更个性化的搜索需求。再比如,以前准备一场演讲,要耗费好几天时间制作讲稿和PPT。现在,百度文库可以在1分钟内生成一个20几页的PPT,包括图表生成,格式美化等,而且几乎是零成本。新文库也实现了从内容工具到生产力工具的转变。
因为有了这样的原生化改造,文库的付费率有了明显的提升,而在大模型时代,这正证明了AI对业务关键指标的促进作用。

CEO驱动下,更大的想象空间
在当下,大模型广阔天地,大有作为。李彦宏认为,相较对业务关键指标的促进作用,更大想象空间在于,大模型催生出原来从未有过的AI原生应用。
在当下,百度正在孵化全新的AI原生应用,如智能代码助手Comate。百度现在每新增100行代码,就有20行是AI生成的,而且这个比例还在快速增长中:“这样的AI原生应用,通过人机协同,帮助我们大幅提升研发效率。而AI原生应用带来的改变,才刚刚开始。”李彦宏如是说。
而繁荣的AI原生应用生态,注定驱动经济增长,带动市场,倒逼市场变化。类比来看,中国新能源车在全球的市场份额达到65%,因为国家政策扶持的就是应用端,通过减免车辆购置税,上路不限号不限行等手段,有效拉动了新能源汽车产业的快速增长。
“AI产业也是需求驱动,所以应该是在需求侧、应用层发力,就像补贴新能源汽车用户一样,鼓励企业调用大模型来开发人工智能原生应用,用市场推动产业发展。”

在此前,李彦宏有过论断,AI时代的技术栈分为四层,即芯片层、框架层、模型层和应用层。无论是芯片也好、框架也好、模型也好,都需要AI应用来驱动。只有通过更多的场景落地应用,才可以形成更大的数据飞轮,才能让芯片做到够用、好用。
而AI应用生态的繁荣,终将成就经济繁荣。
“今天,在百度智能云千帆大模型平台上,有超过17000家企业在这里开发产业模型和解决方案,除了刚才提到的行业,也包括教育、电商、短视频、游戏等多个行业。未来,每一家企业跟自己客户打交道的方式,都将被改造为AI原生应用,这将大幅度提升企业的竞争力。而无论是企业竞争力的提升,还是个人工作效率的提升,都是经济增长的驱动力。”
道阻且长,行之将至。正如演讲结尾,李彦宏所言——我讲了这么多大模型和AI原生应用,是希望每个人都行动起来,去使用它、体验它、投入到AI原生应用的创新中,共同创造一个百花齐放、无限可能的AI原生时代。

微软AI芯片,来了!

美国当地时间11月15日,微软Ignite技术大会在西雅图揭幕。

集团CEO纳德拉带来了长达一个小时的揭幕演讲,介绍微软在ESG、新一代空芯光纤、Azure Boost数据中心等项目的新动态。而整场演讲的重头戏,非AI莫属——尤其是首款自研AI芯片Azure Maia 100的亮相,成为场内场外无数聚光灯下的焦点。

微软重视AI人所共知,发力自研芯片也不是什么秘密。Maia 100的亮相,则是微软的第一张阶段性答卷,向外界表明自己的野心与实力。

有趣的是,英伟达CEO黄仁勋也来到现场,为Azure和英伟达合作的AI foundry service站台。纳德拉当着黄仁勋的面发布自研AI芯片,难免让人浮想联翩。

英伟达对高算力芯片的垄断,早已成为硅谷众大厂的心病。它们一方面离不开英伟达,另一方面又不想永远被英伟达掣肘。当自研芯片成为潮流,微软、Meta、谷歌、亚马逊先后亮出压箱底的宝贝,谁能真正挣脱枷锁?

微软首款AI芯片来袭

Maia 100成色几何?

首款芯片的命名从此前盛传的Athena改成Maia,灵感大概是参考了NGC 2336星系。Maia可以译为“明亮的蓝色恒星”,根据NASA的观测,NGC 2336星系近似螺旋形态,直径约20万光年,也以旋臂中的蓝色恒星闻名。以此命名自己的首颗AI芯片,微软或许是想以深邃的太空借喻充满想象力的AI世界,以及对算力的高追求。

Maia 100的亮相也不算突然,早在10月初就有媒体剧透微软将在开发者大会上发布首款自研AI芯片,并将向Azure云客户供应。不过微软对自研芯片计划的保密工作做得很好,直到正式发布后,外界才能真正了解其设计、算力和应用场景等详细情况。

根据纳德拉的介绍,Maia 100是一款AI加速芯片,基于Arm架构设计,主要用于云端训练、推理以及Azure的高负载云端运算。不过纳德拉否认了将向云计算客户供货的传闻,这款自研芯片将优先满足微软自身的需求,并在合适的时机向合作伙伴和客户开放。

Azure芯片部门负责人、微软副总裁拉尼·博卡尔则补充道,Maia 100已经在Bing和office的人工智能套件上测试。合作伙伴openAI也开始使用这款芯片进行测试部分产品和功能,比如GPT 3.5 Turbo。

至于测试的效果如何,微软暂时还没有给出具体报告。但纳德拉和博卡尔强调Maia 100可以加快数据处理速度,尤其是在语音和图像识别方面。

提速的关键,自然是算力。为了提升算力,微软也是下了血本:采用台积电的5nm制程工艺,晶体管数量达到1050亿个。和今年4月被曝光的信息相比,Maia的制程工艺、设计架构都没有太多出入,性能表现或许还需在应用数据来检验。

不过横向对比的话,Maia 100和英伟达、AMD等大厂的产品在参数上还有很大差距。AMD在今年发布的专用于AI加速的MI 300X芯片晶体管数量达到1530亿,更不用说算力超强的英伟达了。

以最近发布的H200为例,GPU核心和H100相同,但CUDA核数达到16896个,加速频率1.83GHz,显存具备更大的容量和更高带宽,可以支持超大参数的大模型训练与推理。官方给出的参数显示,H200相较上一代产品在Llama2和ChatGPT的训练速度分别能提升40%和60%。

可以看出,从MI 300X到H200,再到Maia 100,大厂对训练参数量、训练速度和芯片算力的追求是没有上限的。大模型的迭代速度也在加快,只因各家大厂都想跑得比对手更快一步。

芯片是这场算力竞赛里最关键的一环,没有人想在这上面掉链子。而为了摆脱对英伟达的依赖,自研就是最好的出路。图片

当自研AI芯片成为必选项

英伟达的芯片不是不好,反倒是太好了,好到直接滋生了两个难以解决的问题:一是供不应求,二是价格高不可攀。

英伟达没有正面回应H100和A100两款最热门产品的产能和需求,但据外媒报道,今年内H100加速卡的产能至少同比增长了3倍,且仍有许多产能瓶颈无法解决。比如台积电5nm生产线产能,英伟达的GPU必须使用台积电的CoWoS封装技术,市面上完全找不到别的替代品。

供不应求,市场杠杆就会自动生效,调高价格、筛选客户。从去年下半年开始,抢购GPU就成为硅谷大厂最重要的任务之一。大厂为了抢时间、保供应,囤的货一个比一个多,阶段产能愈发吃紧,继而再次推高价格,形成一个死循环。

微软在2019年投资openAI后算过一笔账,为了支撑历代ChatGPT的训练,微软每年光是采购A100的资金就在数亿美元以上。而稍晚启动的自研芯片计划,每年开销只需1亿美元左右。白纸黑字摆在面前,大厂也不傻。本就有一定技术,也有足够流动资金的微软、谷歌、亚马逊、Meta们,纷纷加速拥抱自研芯片。

这当中,谷歌和亚马逊是起步最早、成绩也最突出的。单论研发实力,微软甚至够不着硅谷的第一梯队。

得益于在手机领域的长期布局,谷歌积累了大量芯片技术,除了美国本土之外,还在印度设置了大规模的芯片研发中心。2021年推出的自研芯片Tensor使用三星5nm先进制程,GPU性能较上一代产品大幅提升370%,狠狠秀了一把肌肉。

这几年,谷歌从高通、苹果、英伟达、博通挖来大量人才。最新消息显示,谷歌计划在2027年将博通剔除出AI芯片供应商的行列,每年将节省数十亿美元的采购费用。而对标博通的TPU,就成为了谷歌AI芯片计划的重点发力方向。

事实上,谷歌的TPU自研计划也是由来已久。2021年,时任谷歌研究部门主管Cliff Young就透露,谷歌有长期的计划,会在数据中心部署大量自研TPU,以加强云端运算速度,未来不排除将对外出售。

亚马逊也是自研芯片的老玩家,其强大在于,建立了完整的自研芯片产业链,形成网络芯片、服务器芯片、AI芯片三条产品线。在AI 芯片领域,亚马逊的自研产品就通用计算芯片、机器学习训练芯片、学习推理芯片等。

满打满算,从2013年推出首款自研芯片Nitro 1以来,亚马逊已经推出了超过10款自研芯片,无论数量还是覆盖的领域,都远超其他硅谷大厂。AWS在2020年便发布了用于训练大模型的自研芯片Trainium,也是最早发力AI专用芯片的大厂之一,为AWS征服全球立下汗马功劳。

就连落后一截的Meta,也在今年高调提出造芯计划,推出定制芯片MTIA v1,并牵手高通、重组研发团队。为了夺回主动权、节省开销,大厂肯定会拼尽全力。接下来,不知道英伟达将如何接招?

取代英伟达谈何容易

在博弈中合作将成为主题

硅谷大厂的反抗之心,黄仁勋当然了然于胸。与其说英伟达对微软、亚马逊、谷歌们的进攻无动于衷,倒不如说是有恃无恐——硅谷大厂的自研芯片算力远不比上英伟达,也缺乏配套的AI软硬件。想自供自给乃至取英伟达而代之,在现阶段并不现实。

算力上的差距前文已有介绍,此处不再赘述。在芯片算力之外,英伟达还强在拥有Base Command(AI训练端到端软件服务)、AI Enterprise(提供平台支持的企业级软件)等大量配套设施。

微软等大厂自研AI芯片,是为了降低采购成本。但大模型从训练到落地应用,需要的绝不止一颗芯片。当参数级别变得原来越高,开源程度不断提升,需要使用的配套软硬件也会越来越多,这时候大厂们就不得不重新算一下自己的账本了。

高调发布自研芯片的微软,就很清楚自己短时间内离不开英伟达和AMD。纳德拉之所以请黄仁勋到场助阵当然不是为了示威,而是示好。展望未来,大厂之间的暗中角力当然少不了,但合作还是主旋律。

黄仁勋出席微软Ignite全球技术大会,是为了宣传针对英伟达H100设计的NC H100 v5虚拟机,这是一项类似于AI代工的服务,可以帮助Azure的客户和合作企业开发大语言模型。此外,微软Azure仍在使用AMD的 MI300X加速虚拟机和最新的GPU提高AI模型训练和推理速度。

值得一提的是,微软在15日的技术大会上还宣布推出MaaS模型即服务,向用户开放API接口,以便在云端部署自己的开源大模型。Meta等大厂据悉也将加入开源行列,Llama 2等知名大模型都会在英伟达的算力支撑下,陆续向第三方开放调用。

纳德拉和黄仁勋心底盘算什么,外人看不见,也猜不透。但至少在明面上,两人会继续维持良好的合作关系,有钱一起赚。真正感到压力山大的,其实是那些艰难求存的初创企业——毕竟大部分芯片企业都要依赖投资人和大厂的资金搞研发,大厂发力自研后必然会削减外部投资,甚至还会挤压前者的生存空间。

从2020年的Wave Computing开始,这几年时不时有AI芯片独角兽裁员、卖身甚至直接倒闭。不久欧倩,英国GPU芯片公司Imagination也被爆将进行裁员,比例在20%左右。

Wave Computing也算得上红极一时,当初曾声称要追赶英伟达,自家的DPU产品在加速神经网络的训练速度上要超过英伟达的GPU1000倍,基于DataFlow架构设计的产品也算得上特立独行。

不过之后的故事大家都清楚了,Wave Computing的DPU在某些参数上确实超过了英伟达的GPU,但不具备推广意义。因为前者缺乏通用计算架构,也无法针对不同应用场景进行定制化改造,更没有足够数量的开发者。在烧光了投资人的资金后,最终只能走向破产清算的地步。

无独有偶,openAI在日前悄悄更新,也让部分AI初创企业感到“末日将至”,更有外媒表示openAI“正在杀死生成式人工智能初创公司”。由此可以看出,做AI大模型和做AI芯片的公司生存压力巨大,研发难度和高企的经营成本随时都可能将它们压垮。

大公司和初创企业之间的矛盾由来已久,大厂发力自研AI芯片只不过是一剂催化剂。想在巨头的夹缝谋得一丝生存空间,初创企业要拿出更多真本事。

ChatGPT之父突遭罢免,AI导致失业第一人?

美国时间11月17日中午,因ChatGPT而名声大噪的OpenAI突然在官网发布声明,宣布罢免公司CEO山姆·奥特曼(Sam Altman),即时生效;CTO米拉·穆拉蒂(Mira Murati)临时接任,正式继任者仍在寻找中。公告还宣布,OpenAI联合创始人兼总裁格雷格·布洛克曼 (Greg Brockman) 将辞去董事会主席职务,但会继续担任公司职务。然而,不久后,布洛克曼就在社交媒体上表示,自己也将离开公司。

该消息公布后,已经在OpenAI身上投资超百亿美元的微软,股价一度下跌超2%。随后微软发言人发表声明称,其与OpenAI建立了长期合作关系,会恪守对OpenAI的投资承诺,仍将致力于同米拉·穆拉蒂及其团队合作。

据外媒报道,微软在OpenAI声明发出前一分钟才获悉此消息。2015年,奥特曼·布洛克曼与埃隆·马斯克一道创立了OpenAI,旨在推动人工智能技术发展。2022年11月,ChatGPT的发布,在全球范围内掀起了新一轮人工智能的热潮,也让奥特曼被誉为ChatGPT之父。就在ChatGPT年满周岁之际,奥特曼为何突然离开?OpenAI又将驶向何方?

“ChatGPT之父”山姆·奥特曼。图/视觉中国突然的驱逐OpenAI罢免CEO一事发生得颇为突然。英国金融时报援引知情人士报道称,包括微软在内的一些 OpenAI 投资者对这份声明感到不安。奥特曼的一位朋友也表示,“即使是亲密的朋友也不知道(发生了什么)”。

罢免事件发生的11天前,在OpenAI举办的首届开发者大会上,奥特曼还代表公司宣布旗舰产品ChatGPT已拥有1亿周活跃用户,并发布GPT-4的重磅更新、开发工具GPTS及应用商店GPT Store;2天前,奥特曼还在其个人社交媒体上发布ChatGPT Plus的相关信息;就在1天前,奥特曼 在APEC 峰会上表示对生成式AI这项技术的未来感到超级兴奋。随后,奥特曼等来了被驱逐的一纸声明。据

格雷格·布洛克曼在社交平台透露,OpenAI发布声明前一晚,奥特曼收到公司首席科学家伊利亚·萨斯克维尔发来的短信,要求第二天中午谈话,随后奥特曼参加了一场除格雷格外的董事会议,伊利亚告诉奥特曼将被解雇;第二天中午,格雷格被告知,其将从董事会中被除名,奥特曼已被解雇;大约同一时间,OpenAI公开发表了声明。

董事会在声明中表示了对“奥特曼对OpenAI 的建立和发展所做出的贡献”的感谢,但同时也用相当严厉的语气直指奥特曼在与董事会的沟通中不够坦诚,妨碍了董事会履行职责的能力,对他继续领导 OpenAI 的能力不再有信心。在OpenAI董事会看来,“随着我们的前进,新的领导层是必要的。作为公司研究、产品和安全部门的领导者,米拉非常有资格担任临时首席执行官。我们对她在这个过渡时期领导 OpenAI 的能力充满信心”。

公开资料显示,暂时接替奥特曼的CTO米拉·穆拉蒂曾先后在特斯拉、VR公司Leap Motion任职,于2018年加入OpenAI,至2022年才晋升为CTO。根据OpenAI声明,董事会认为米拉在OpenAI 发展成为全球 AI 领导者的过程中发挥了关键作用,考虑到长期任职、与公司各方面密切接触,以及在人工智能治理和政策方面的经验等因素,米拉被视作唯一胜任这一职位的人。

但同时,OpenAI也表示,公司正在寻找下一任常任CEO,米拉只是平稳过渡的一个理想选择。OpenIAI声明发布后,奥特曼也在其个人社交媒体做出了回应:“我热爱在OpenAI 的时光。这对我个人来说是一次变革,希望对世界也是如此。我喜欢和这些有才华的人一起工作。关于下一步的消息,以后会再说。”

ChatGPT之父一年前ChatGPT问世,并在全球掀起新一轮人工智能热潮后,被誉为“ChatGPT之父”的山姆·奥特曼便成了通用人工智能的重要代言人。许多人将此次风波类比成当年乔布斯被逐出苹果,可见奥特曼之于OpenAI的重要性。公开资料显示,奥特曼是硅谷最大孵化器Y Combinator联合创始人保罗·格雷厄姆(Paul Graham)钦点的接班人,28岁便执掌总裁之位。在格雷厄姆看来,奥特曼是一个很善于说服他人的创业家。2015年底,奥特曼一手促成了OpenAI的诞生。令格雷厄姆赞赏的能力也让奥特曼完成了之于OpenAI最重要的两个成就,一是解决了人的问题,二是解决了钱的问题。抱着“确保通用人工智能造福全人类”的愿景,他拉拢了包括stripe前CTO格雷格·布罗克曼和图灵奖得主杰弗里·辛顿的弟子伊利亚·萨斯克维尔(Ilya Sutskever)等在内的一众研究天才。而为了解决技术研究巨大的资金缺口,奥特曼在2019年3月推动成立有限营利性(caped-profit)公司OpenAI LP,受OpenAI管理,OpenAI则依旧维持其非营利机构的性质。OpenAI LP为投资者设定了回报上限,获得的利润优先分配给投资者,在达到回报上限之后,额外利润将属于非营利机构OpenAI。这也为后续OpenAI与微软的联姻创造了条件。在人才与资金的加持下,“GPT”延续大力出奇迹的策略,开始震惊世界。2022年底,拥有惊人语言能力的聊天机器人ChatGPT上线,仅两个月用户量便突破1亿,成为近20年来互联网增长最快的应用;今年3月,GPT-4推出后,OpenAI网站很快迎来月活突破10亿,这一速度同样是全球最快。前不久,OpenAI在首届开发者日上正式公布了自定义GPT,为所有订阅者提供GPTs,还将上线GPT Store与创作者分享收入。接下来几天,网站直接火到宕机。据外媒报道,OpenAI今年营收有望接近百亿元人民币,估值已逼近900亿美元。

董事会内讧已久不过在一片火热之下,暗流却早已悄然涌动。除奥特曼外,OpenAI联合创始人兼总裁格雷格·布洛克曼也在这次人事巨变中被踢出董事会,随后其在社交媒体宣布将完全离开公司,不再担任任何职务。“山姆和我对董事会今天的行为感到震惊和难过”,格雷格在其社交媒体上发文表示,“我们也仍然在试图弄清楚到底发生了什么”。在众多相关人士看来,奥特曼闪电被离职背后,是OpenIAI内部关于战略与技术愈演愈烈的分歧所引发的董事会派系间的角力。从OpenAI的股权结构来看,奥特曼并没有股权,更遑论对公司的控制权了。这也为解雇奥特曼提供了便宜条件。据彭博社援引知情人士报道,在解雇奥特曼之前,其与董事会、尤其是与伊利亚之间,在人工智能安全、技术发展速度和公司商业化等方面存在广泛的意见分歧。另有知情人士对The Information透露,奥特曼被免职之前,OpenAI公司员工曾就该公司开发人工智能是否足够安全展开了内部争论。有分析认为,董事会决定解雇奥特曼的核心原因在于,奥特曼正将AI安全审查的优先级置于技术突破之后,过快推动AI发展可能给公司带来危机。而奥特曼重要的伙伴、总是能帮其将想法和产品落地的格雷格,自然也被一起打包。同时,有知情人士发文称,奥特曼做出了单方面的商业决定,以利润为目标,背离了OpenAI一再重申的非营利组织原则,也背离了“确保通用人工智能造福全人类”使命。一个背景是,迄今为止,围绕着OpenAI的最大争议,始终是它与微软的联姻——这也是由奥特曼一手主导的。据悉,微软在2019年向OpenAI提供了10亿美元的投资,并在2023年向OpenAI提供了100亿美元的投资,目前控制OpenAI 49%的股权。此外,微软还免费向OpenAI提供 Azure 云服务。有报道指出,免费的 Azure 云服务每年帮 OpenAI 承担了高达 7000 万美元的模型训练成本。作为回报,微软得以将OpenAI的各类AI技术整合进公司旗下的所有产品中,并为其他企业提供使用平台,这也令微软自己被视为AI领域的一大风向标。不过不少人认为,接受微软投资后的OpenAI,对商业和技术的野心,已经超过了对“人类安全”的关注。目前看来,萦绕在OpenAI内部的种种分歧与争议,也是整个行业正在面临的,其所做出的每一个动作也自然都成为业内焦点。也正因如此,被视作AI领航者、董事会换血后的OpenAI,以及奥特曼之后的走向,正在成为全球科技圈最为关注的未知数。