警惕!视频通话“AI换脸”新型诈骗!相似度可达80%→

最近,视频网站上通过人工智能换脸,国产影视剧里的主角用英语说起了台词,通过小程序用户也可以将自己变成电影里的人物,新技术带来欢乐的同时,也带来了一种名为“AI换脸诈骗”的新骗术。前不久,国家金融监督管理总局北京监管局发布谨防“AI换脸”等新型欺诈手段的风险提示。

青岛的一名大学生和他在网上认识的“女朋友”视频聊天,对方称需要资金周转,男孩打钱过去之后,发现竟然被诈骗了。

广东深圳某科技公司产品部经理 梁雅婷:通过取证发现,跟他聊天的并不是他的女朋友,对方是通过虚拟的摄像头,用AI换脸的功能跟他聊天。 

AI如何做到在视频通话时换脸呢?记者在一家为公安机关提供技术支持的科技公司看到的演示,相似度可以达到80%。记者在现场看到,一个高配置的电脑,合成一段10秒的换脸视频只需要一两分钟。而技术的发展,上述案件中视频聊天的实时变脸也不是难事了。

广东深圳某科技公司产品部经理 刘远洋:照片上传后,大概有30秒的时间对照片进行特征识别,然后建模,建模后就可以进行实时转换。不管是你的头像,还是你在朋友圈的一张小照片,都可以直接上传。

AI生成的技术还在不断更新迭代,比如性别的互换、声音的变换,都可以同步进行。由于算法是开源的,也就是说一个普通的工程师就可以制作出一个变脸软件,这就在控制源头上带来了极大的困难。

为企业工作流程打造AI助理,亚马逊发表「Amazon Q」聊天机器人

ChatGPT带来的对话体验以及日益强大的功能,人们渐渐熟悉、融入这种新模式。亚马逊为企业开发一款名为「Amazon Q」的聊天机器人,提供AWS客户使用,快速获得解答、产生内容并为工作任务采取行动。

AWS执行长Adam Selipsky在AWS re:Invent 2023主题演讲分享,Amazon Q就像是AI助理,采用这套服务的企业员工可以询问工作上的问题,比方说可问Amazon Q公司最新的商标使用指南有何规定、了解其他工程师所写的代码以维护程序、分析客户遇到哪些产品问题以及改进方法,还能上传Word、PDF等文件以及图表加以分析,快速获得工作上需要的信息。

除在AWS管理主控台和各公司系统页面之外,AWS客户可将Amazon Q连接团队特定使用的应用程序并加以设定,例如Salesforce、Jira、Zendesk、Gmail、Amazon S3储存实例等,它对企业所有关联数据和内容进行检索,「学习」企业各个方面知识。

Amazon Q能与全托管生成式AI服务Amazon Bedrock上的任何模型搭配使用,包括Meta Llama 2、Anthropic Claude 2等。部署Amazon Q的客户通常会选择适合企业的模型、连接Bedrock API,以处理数据和工作流程。

出于负责任和安全因素,亚马逊也对使用生成式AI抱持谨慎态度。Adam Selipsky整场主题演讲多次强调,Amazon Q给出的答复可以控制,只会回答用户有权查看的信息,系统管理员可以限制敏感信息内容,让Amazon Q在必要时过滤不适当的问题和答案。

为了减轻AI幻觉,系统管理员可以选择让Amazon Q只从公司知识库提取必要信息,而不是从任何模型提取知识。Adam Selipsky指出,驱动Amazon Q的模型来自Amazon Bedrock的模型组合,包括亚马逊专有大型语言模型的基础模型Amazon Titan。

矽谷混乱一周过去,但OpenAI宫斗最大赢家不是Altman

OpenAI宫斗第一季落幕,微软有惊无险得到最理想结果。微软CEO纳德拉一开始只是观众,提前几分钟知道Sam Altman被开除,但马上粉墨登场,扮演推动剧情前进的重要配角:欢迎Altman加入微软。

这消息保住微软股价,也增加Altman重回CEO的筹码。Altman回归声明更特别感谢纳德拉,矽谷这疯狂五天,纳德拉游刃有余,蓦然回首,明星公司OpenAI的背后,一定有微软这低调赢家。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

互补的「天作之合」

OpenAI和微软合作常视为科技史佳话,OpenAI首届开发者大会纳德拉就是重量级来宾,Altman热情介绍他上台,纳德拉也表达对OpenAI的欣赏。公开场合的流畅社交背后是各取所需的商业逻辑。

2019年起,微软投资OpenAI 30亿美元,到ChatGPT 2022年底横空出世,今年初又追加100亿美元,OpenAI得到微软算力和资金训练模型,微软成为OpenAI唯一云端计算供应商,基于OpenAI的模型开发产品和服务,拥有OpenAI 49%股分,避开反垄断法地雷区。

很多媒体都问过纳德拉,微软和OpenAI的合作关系如何定义,纳德拉答案从来没改过:「相互依赖」。OpenAI离不开微软资源,微软也离不开OpenAI技术,AI为GitHub、Bing和办公全家桶等产品提供动力,或赋予新生命。

1990年代鼎盛时期后,经历反垄断大战和错过智慧手机革命,微软再度被认为是历史性技术变革的领头羊。至于为什么微软不自己开发大语言模型,纳德拉提到,有开发代号「图灵」的模型,但不想训练多种基础模型,让一个模型发挥平台效应就好,而OpenAI和微软的目标相同。

OpenAI靠我们建立最佳系统,我们靠OpenAI建立最佳模型,一起进入市场。

正如纳德拉所想,微软云端平台和OpenAI模型紧密整合,成了微软产品和服务卖点。微软已有商业化AI产品,如人气较高的程序设计辅助工具GitHub Copilot、每月30美元仍初出茅庐的Microsoft 365,除了生产力产品,微软还提供其他AI公司基于Azure的GPT存取权。

所以无数看似和微软八竿子打不着的产品,也带来源源不断的收入,游戏规则虽隐形但极有杀伤力,有些客户甚至较愿意透过微软使用OpenAI模型,而不想直接用,因相信微软。选择嫁给科技巨头,通常产品有保证,且有隐私、合法、安全。

GitHub Copilot。

机会是给有准备的人。微软有庞大开发者客户,也有领先开发者平台GitHub,有大量原始代码。GPT-3基础上,OpenAI和GitHub合作2021年6月推出AI助理「Copilot」,虽然还会出错,也只能完成部分基础工作,但能理解程序设计,也理解人类语言,让不少开发者印象深刻,如同大众初次见到ChatGPT。

人类副驾驶

打入OpenAI的纳德拉,总比外界更早意识到世界变化。纳德拉第一次看到GPT-4是2022年夏天,尝试翻译波斯诗歌,惊喜发现GPT-4不只翻译,还能跨越两种语言的界限,又保留诗歌的微妙之处。生成式AI跨越的何止语言,纳德拉认为更是「巨大的平台式转变」。

上次转变是行动时代,服务和消费无处不在,现在创造也无处不在,更多自然语言AI工具出现,任何人都能轻松产生新事物,包括程序,「当输入提示词,就是为大语言模型做程序设计」。

Copilot直译为「副驾驶」,最早用于GitHub程序助理之名,用副驾驶取名是纳德拉的点子,指向「以人为中心」的本质。11月中旬微软「重塑品牌」,Bing、Edge和Windows 11聊天界面统一称为「Copilot」。最近Ignite大会,纳德拉提到:「我们的愿景非常简单:我们是Copilot公司,相信未来每个人和所做的事都会有Copilot帮忙。」

然而更多创造是否意味更多破坏?纳德拉答案是「是」,工作可能被取代,人们可能必须经历转型,AI可能充满偏见,但更多人会受益,他举例当文字处理器出现,打字员大失业,但10亿人可同时快速输入并创建共享文件。

美国西海岸大语言模型让印度开发者轻松写程序,让农民方便填写电子表格,但仍是「破坏式创新」说法,视角不同,看到的风景就不同,谁也不能保证自己不是下个打字员。

OpenAI政变,微软有惊无险地上岸,但这场有历史意义的AI之战,很少有人有发言权,哪怕微软。这倒如纳德拉所说「AI无处不在,这是个黑盒子,你和我只是目标」。身为世界巨头企业的CEO,他认为更重要的问题是,谁有做事,谁帮助世界前进。

首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

关于当前基于Transformer的LLM能走多远的问题,人们仍在争论不休。与此同时,另一边,能够帮助人们处理各项工作的AI Agent已经悄然走入人们的生活。以前的ChatGPT等大模型,热衷于在人类考试中刷分以凸显自己的实力,而不久前,又有一位AI Agent通过了美国加州的驾照考试。——但与之前不同的是,这次的AI Agent是在监考员的眼皮底下帮助人类成功作弊,通过考试!

对此,AI Agent的作者表示,「很高兴与大家分享一项不朽的成就,我们的 Web AI 代理刚刚通过在线加州驾驶考试创造了历史,成为第一个在加州获得驾驶执照的虚拟 AI!」「这标志着一个开创性的时刻:人工智能首次完全自主地完成现实世界的人类知识任务,这是人工智能的一小步,也是人类的一大步。」虽然多少有点夸张,但不得不说,还是挺神奇的。

AI Agent完全靠自己审题、作答、并点击下一道题。对于这样成功的表现,Jim Fan也是表达了祝贺:从去年开始,一些加州居民可以在网上参加驾驶考试的笔试部分,免去了他们需要花时间去考试机构所在地的麻烦。

为了防止作弊,官方采取了一些相应的措施,要求考生必须允许机动车辆管理局(DMV)访问电脑的摄像头,以记录考试过程;并在考试期间共享屏幕。——这样参加考试的人就无法在考试中途打小抄了。然而,还是有人在监考员的眼皮底下作弊成功,而助手正是我们前面介绍的AI Agent(到底谁是助手也不好说)。

这个AI Agent来自一家名为 MultiOn 的初创公司,由 Div Garg 创立。Div Garg是斯坦福大学的博士辍学生,他最初创办 MultiOn 是为了实现日常任务的自动化,比如从亚马逊订购厕纸或安排日历约会。MultiOn 的产品可以控制用户的浏览器,完成诸如在 Uber Eats 上订餐或进行 Resy 预订等任务。——需要注意的是,这并不是我们平时会见到的浏览器脚本,Agent背后依托的是AI的能力。

这项服务目前是免费的,AI Agent位于浏览器的右下角,你可以在这里输入命令,这与微软的必应 ChatGPT 助手完全不同。这个AI Agent可以作为用户的私人助理,它提供的大部分功能都很有用,即使不能完全改变生活。上个月在旧金山的一家咖啡馆演示 MultiOn 时,Garg 用它向 Facebook 上的熟人群发了「生日快乐」信息。

随后又利用 MultiOn 安排了与记者的下一次会面,目的正是向大众演示如何利用AI Agent通过车管局的正式驾驶考试。虽然看上去只不过是AI答对了一些问题,但实际上要达成这个目的并不简单。一般来说,AI需要一段长长的提示,才能选择正确答案,然后点击进入下一个问题,而且AI不能有多余的动作,以免被发现作弊。平心而论,目前的这个AI Agent仍然需要人的手指随时待命,以防出错。根据设置,MultiOn 在出错时会停止运行,这时就需要人类测试者自己按下「继续」按钮。另外,它也无法解析图像,所以如果遇到了要求识别交通标志的问题,都会回答错误。

当前的AI虽然拥有完善的知识,但通常需要严格的提示才能进行下一步。所以,对于这场考试来说,答对有关正确驾驶规范的难题是一方面,点击按钮进入下一个问题更体现出它的能力。Garg认为这依靠了很多运气。这是 MultiOn 第一次参加正式的州立考,最终,MultiOn 在 46 道题中只错了五六道,正式达到了通过标准。当然,根据加州法律,以这种方式使用该技术可能构成伪证罪

因为在考试之前会要求考生声明自己将亲自作答。加利福尼亚州车管局曾在一份声明中写道:「作为一项防欺诈措施,在线考试参与者必须验证自己的身份,并同意在整个考试过程中接受监控。随着技术的发展,DMV 将继续更新保障措施」。人工智能助手的未来MultiOn在通过DMV考试之前,就已经引起了OpenAI及其首席执行官Sam Altman的注意,Garg 表示正在与OpenAI密切合作。

但就目前而言,MultiOn对部署采取了谨慎的态度,这次成功的测试与其说是一项关键功能,不如说是一个概念验证。Garg希望确保对自己产品的控制,从而避免出现恶意使用的情况。他希望人们不要在各种考试中作弊,因此他计划对普通用户禁用任何类似的「灰色地带」功能。与主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作为谷歌 Chrome 浏览器的扩展程序自主运行的。用户必须授予它有效控制电脑的权限。「我们的技术直接在用户的电脑上运行,它实际上是在控制,在做事,很多事情都可能出错」。

目前,大约有 3 万人注册试用了该应用的测试版。Garg预计 MultiOn 还会有更多新功能,比如加强版移动语音助手和内置 MultiOn 技术的浏览器。——不过,利用它在 SAT 或 ACT 等考试中作弊的可能性也不大,因为这两个考试机构都要求学生到考试中心参加考试。MultiOn的官网上还向我们展示了产品的一些基本而有趣的用途,比如查询天气:更实用一点的是下面这个例子,用户可以直接告诉Agent帮忙订一个汉堡,后面的所有事情都完全不用操心了。

包括选择店铺、选择商品、下订单和支付等等,Agent一条龙服务,统统帮你搞定——确实称得上是私人助理了。除了这个演示,官网还列出了其他的一些功能:

比如线上购物、文章摘要、查找并播放音乐和视频、在线互动等。有网友使用MultiOn在亚马逊买了一本书,并表示「太疯狂了」。

而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:

有了这次成功的驾照考试经历,Garg也是野心勃勃地表示,「明年我们的AI Agent就可以驾驶你的特斯拉了」!

不知道大家对于未来的AI Agent又抱有怎样的幻想呢?

“AI生成图片著作权侵权第一案”审理思路与评议

2023年11月27日,北京互联网法院判决认为被告刘某某发布文章配图使用了原告李某利用AI声称的图片构成侵权。值得注意的是,北京互联网法院认为涉案人工智能生成图片(AI绘画图片)“春风送来了温柔”具备“独创性”要件,体现了人的独创性智力投入,应当被认定为著作权法保护。这是我国首次将AI生成图片认定为著作权法保护,本文试对北京互联网法院判决焦点及问题整理,并提出自己的想法以供大家讨论。

原告李某使用选取开源软件Stable Diffusion模型,对开源模型进行图片生成参数调整,调整后在输入提示词生成图片,根据生成的效果再调整参数最终生成涉案图片后发布于小红书平台并有水印;被告系百家号博主,发布自己撰写的文章,并且配图使用了原告利用通过Stable Diffusion生成的图片,该图片并无水印,原告遂起诉。经过当庭勘验,原告通过变更个别参数、其生成的图片结果不同。

北京互联网法院在审理过程中认为本案有以下三个争议焦点.关于AI生成物是否属于智力成果,北京互联网法院认为该AI生成图片体现了人的智力投入,属于智力成果。该AI生成图片是原告李某希望通过AI生成满足自己预期的图片,并且原告在此过程中具有选择模型并且设计人物的呈现方式、选择提示词、调整参数等充分表现原告李某发挥主观能动、智力投入的活动。二.关于AI生成物是否具有独创性,北京互联网法院认为不能将AI生成物一概认为具有独创性,而是应该个案审理。本案中,该AI生成图片是原告李某利用Stable Diffusion模型画的,且在此过程中原告对画面布图构局等通过参数进行了设置,体现了原告的选择和安排,并且原告在生成该图片过程中不断调整参数、输入提示词等方式获得最终图片,而这些过程体现原告的审美选择和个性判断,所以该图片并非“机械性智力成果”,具有独创性。三.人工智能模型本身不能成为著作权法上的作者。北京互联网法院认为,作者限于自然人、法人或非法人组织,这与民法典规定的民事主体一致,所以虽然涉案图片是人工智能所画,但是该模型无法成为涉案图片的作者。
综上,北京互联网法院认为该涉案AI图片属于作品,且原告是该涉案AI图片的作者享有著作权。本案中被告未经原告许可擅自使用该涉案图品构成侵权。故被告去除水印的行为且使用该图片发布在自己账号的行为侵害了原告的署名权和信息网络传播权。
(一)对开源模型的参数调整是否构成生成图片的独创性

北京互联网法院该AI生成图片是原告李某利用开源Stable Diffusion模型画的,众所周知Stable Diffusion系专门用于AI绘图的专业模型,它的开源软件本身就具备绘画的能力,在裁判文书中也明确说明了开源方许可协议中并未主张任何知识产权。开源软件是互联网行业常用的营销手段,开源软件一般会开源参数而不会开源软件或模型的底层代码,Stable Diffusion亦是如此,下载开源软件方可对开源模型进行参数调整以达到完善模型的目的。需要注意的是,参数的调整主要是基于开源模型本身,而并非图片生成。本案判决书,原告的角色相当于使用开源模型方,而生成的图片更多的是对模型参数调整后,输入提示词后图片生成的效果。从这里可知,模型参数的调整和提示词指令的发出更多是预训练阶段,只不过在预训练阶段对模型参数的调整和图片生成会混为一体。
笔者认为在Stable Diffusion开源模型下对模型参数的调整所产生的知识产权应当开源模型的独创性,对模型参数的调整本身是生成图片的通用规则,并不会具象化成为图片生成的直接贡献。众所周知,人工智能算法黑箱技术无法解决,人类无法识别人工智能算法真正生成物的过程,不论针对Stable Diffusion模型进行何种参数调整,都无法识别出到底对生成的图片作出了哪些有用的贡献。何况Stable Diffusion开源模型就是一个绘图通用的模型技术,参数的调整会影响任何图片的生成,不仅仅是涉案图片。那么,图片是如何生成的?在技术上,模型的预训练就是在给模型教授知识,让它听懂人类的指令,并根据指令输出已学习到的知识。在本案中,虽然原告通过多次参数和提示词调整最终生成了图片,该行为仍然是对模型本身的训练调整,而图片生成仅有一个动作那就是输入提示词。原告多次修改参数和提示词其实是两个行为,会产生两个知识产权法律的后果,一个是参数的调整会影响在开源基础上对模型参数的调整,属于对开源模型的二次创作,是否构成新的知识产权需要按照开源协议约定判断。另一个是输入提示词生成一张图片是否是著作权法中的作品,是否构成独创性,是否是人的智力成果需要深度讨论,也是本案的关键点
因此,在本案中,要想讨论生成物的知识产权只需要讨论输入提示词是否构成独创性。本案的特殊性在于这两个行为都是一个主体完成的,如何区分可能仁者见仁智者见智。笔者认为本案中原告具体操作步骤为设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数,这些操作步骤的针对对象始终为Stable Diffusion模型,并非图片的具体参数。原告在该开源模型上进行修改参数等操作最后生成图片步骤实际上仍然属于对该开源模型的二次创作的训练阶段,尽管后期有修改提示词的等于涉案图片直接相关的操作步骤,但是这些步骤本质并未脱离训练模型本身。不管如何,如果两个行为并非一个主体完成,是需要严格区分两个知识产权,而并非混为一谈,关于该开源模型生成图片的独创性仍需进一步论证

(二)开源模型生成物是否属于智力成果

对于开源模型的产物是否属于智力成果和前述独创性标准论述一致。本案中,北京市互联网法院认为涉案图片是人工智能所“画”,但又否定该图片为人工智能的生成物,此处逻辑自相矛盾。故北京市互联网法院混淆本案原告的创作对象,错将原告创作对象认为生成图片而非开源模型本身,所以认为该生成图片是原告利用开源模型作为“工具”生成图片,但是本案原告调整参数等创作步骤全部针对于该开源模型,并非图片本身,所以笔者认为该图片应该为开源模型生成物。人工智能模型既没有创作涉案图片的意愿,图片的生成依据是使用者输入的提示词,实践中大部分模型为刷题式的记忆模型,并逻辑计算和推理模型笔者认为,涉案开源模型只是涉案图片的生产者,并不是创作者它所执行的不过是设计者或操作者的意志,无论该人工智能有多“智能”,它始终按照既定的程序、算法、规则进行运作,究其本身并未突破人类辅助工具的范畴,不能完全独立自主生成物品。

注:本文作者为马军,马阳明。

OpenAI董事会调整,微软等投资者或无董事席位

近日有知情人士向路透社透露,虽然OpenAI正面临着一场重组,但该公司不打算向微软等其他投资者提供董事会席位,包括Kholsa Ventures和Thrive Capital在内。

微软目前是OpenAI最大的支持者之一,此前曾承诺向该公司投资数十亿美元。据ITBEAR科技资讯了解,上周OpenAI突然解雇了首席执行官兼创始人Sam Altman,而后在三天后又宣布重新任命Altman,并承诺成立一个新的董事会。

The Information的报道指出,OpenAI即将设立一个由9人组成的董事会,其中新董事会的三位初始成员——主席Bret
Taylor、前财政部长Larry Summers和Quora CEO Adam D’Angelo——预计将于本周得到正式确认。目前来看,D’Angelo将是唯一从解雇Altman的六人旧董事会中保留下来的成员。在关于OpenAI董事会的问题上,微软发言人表示“我们将等待董事会正式宣布”。截至目前,OpenAI、Thrive和Khosla尚未回应置评请求。

全国首例“AI游戏外挂”案告破!过程揭秘→

AI人工智能拥有高效数据处理和自主学习能力。然而,也有一些人打起了人工智能的歪主意,“AI游戏外挂”是近些年出现的新型违法犯罪行为。前不久,江西警方破获了全国首例利用“AI人工智能游戏外挂”非法牟利的案件,涉案金额达3000余万元。报警的就是购买使用这款游戏“外挂”的资深玩家,这究竟是怎样的一起案件?

使用“AI人工智能游戏外挂”后玩家游戏账号被封禁

余先生是一款射击类网络游戏的资深玩家,在使用过一款“AI人工智能外挂”后,他发现自己用了十几年的游戏账号被封禁了,而且封禁期长达10年。

当时,他从游戏好友那里了解到,有一款专门针对射击类游戏的“AI人工智能外挂”,可以轻松提高战绩排名。“游戏里面有好多人介绍这个‘外挂’软件,有的放了支付链接,点进去就能看到‘外挂’的购买方式。”余先生介绍。

通过询问其他玩家,余先生得知,这款“外挂”号称有AI人工智能加持,只要电脑显卡配置合适就可以使用,即使是业余游戏玩家也可以轻松超越职业选手,对方还介绍这款“外挂”不会导致账号被封。

余先生很快购买了这款游戏“外挂”,实际体验中,他几乎每次都能精准地命中目标,游戏战绩也大幅提升。然而使用了几次后,余先生用了十几年的游戏账号突然被封禁了。

“外挂”是作弊程序贩卖“外挂”涉嫌刑事犯罪

据警方介绍,所谓的游戏“外挂”指的是利用第三方软件,综合特定的功能编程出的游戏修改器。它主要通过篡改游戏原本正常的设定和规则,大幅增强游戏角色的技能,使得游戏角色发挥出超越常规的能力,是一种作弊程序,其行为本质是对计算机系统的破坏

余先生使用的这款游戏“外挂”主要是针对市面上一些主流射击游戏设计的,玩家使用后会获得自动瞄准、自动追踪等功能,对游戏的公平性、运营构成了很大影响。

我国刑法第二百八十五条第三款规定:提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,构成提供侵入、非法控制计算机信息系统程序、工具罪

虽然使用游戏外挂可以在游戏对抗中获得优势,甚至可以轻松击败高水平选手,但背后隐藏的是账号装备遭受损失的风险。

某游戏的运营商表示,游戏玩家一旦被发现存在使用“外挂”等作弊行为,游戏运营商就会对其实施惩戒。“使用‘外挂’每个月要支付几十元到几百元,甚至有一些每个月要支付几千元,在这种情况下一旦账号被我们封禁,他投入的这些金钱、时间包括精力都白费了。”

余先生使用的“AI人工智能外挂”在编写时,利用了AI人工智能算法技术,相较于一般的游戏“外挂”确实功能更为强大,隐蔽性也更强,但仍然无法逃脱监测。

犯罪分子批量制作销售“AI外挂” 

涉案金额高达3000余万元

为了打掉隐藏在这个“外挂”背后的犯罪团伙,警方对报案人和游戏运营商提供的线索进行深入调查,很快锁定了一名关键犯罪嫌疑人。

经调查,警方研判,这个犯罪团伙总部藏在浙江杭州,团伙头目王某通过不断发展下线代理的方式,在多个网络游戏平台售卖这款“AI外挂”程序,下线代理则以层层加价的方式赚取差价。

在收网行动中,警方在杭州、重庆等地,先后共抓获犯罪嫌疑人11名,现场查获作案台式电脑10台、笔记本7台、手机11部,此外还包括大量“外挂”生成程序、“外挂”源代码、辅助硬件等作案工具。涉及的罪名分别是提供侵入、非法控制计算机信息系统程序、工具罪。

今年26岁的王某是这个犯罪团伙的核心人员,他曾是一名AI人工智能领域的从业者,2021年年初,王某无意中在网上看到了一条介绍射击类游戏“AI外挂”的讲解视频。

他判断这种专门针对射击类游戏“AI外挂”如果能批量制作销售,就可轻松获取巨额收益。“传统的‘外挂’通过修改游戏文件和修改计算机系统,去达到‘透视’效果,获取预知敌人位置以及自动瞄准这些功能。人工智能的辅助‘外挂’通过目标检测算法获取屏幕中敌人的坐标,实现自动瞄准。”王某主动找到具有“外挂”软件编写能力的张某,两人一拍即合。随后,王某开始通过各种网络渠道发展下线,在网上进行销售牟利。截至案发时,这个犯罪团伙的涉案金额已高达3000余万元。

警方表示,“AI游戏外挂”是近些年出现的新型违法犯罪行为,它不仅破坏了游戏本身的公平性,同时也可能导致其他网络安全风险,公安机关将继续对此进行严厉打击。目前,这起全国首例利用“AI人工智能游戏外挂”非法牟利的案件正在进一步侦办中。

AI电商时代,有多少人的工作会被取代?

随着AI技术的普及和进化,AIGC对电商行业的赋能在这两年前所未有的明显,所有平台、品牌、商家都积极拥抱变化,参与这场由AI技术带来的生产工具革命。

在电商行业的整条链路上,有哪些工作内容已经可以由AI替代?

应用过程中,AI会以哪些不同的形式参与?AIGC的技术在实际交互中有哪些具体的优势和不足?

AI参与电商全链路

在不同的企业、科技公司的技术支持下,AI现在几乎参与了电商行业的全链路,区别在于每个环节AI参与的形式不同。

从前期的产品设计到产品上架前的摄影、模特、文案、美工,无论是导购还是智能客服,或者是内容种草、私域运营……你能想到大多数环节都已经诞生了相应的AI产品,帮助电商人更高效地完成工作。

在产品设计上,只要在Midjourney、Stable Diffusion上输入对应的Prompt(指令)就能生成对应的产品图,这个过程被称作“文生图”。

从珠宝和服饰设计、家用装饰到房屋内设,AI绘图的功能几乎可以运用到所有相关的行业中,这也是AIGC最早投入应用的产品功能之一,在这个意义上AI可能会取代的岗位是设计和制图师

有了产品后,商家还需要寻找场地,约摄影和模特拍照,修图,拿到图片之后筛选,再找人或者自己打磨商品详情页的文案……直到商品最终上线。

这个过程中需要的成本是高昂的,因为需要多人的分工协作,除了摄影、模特、设计师之外,还有造型师和各种助理的参与。

在有了AI之后,摄影、模特、造型师以及文案的部分工作内容都是可以被AI替代的。在AI的帮助下,这些工作可以被简化为“文生图”、“图生图”和“文生文”。

商家可以利用Stable Diffusion(以下简称SD)将人台试穿图变为写实风格的模特写真图,只需要一个人和一台电脑就能解决。之前这种技术还需要前置遮罩或者抠图处理,在AIGC出现后,一键抠图也成了其功能之一。

在没有产品图的情况下,商家也可以直接在SD或Midjourney内利用Prompt指令生成相应的模特试穿图,达到“一步到位”。

除了著名的Midjourney和SD之外,国内的美图公司、蘑菇街和近日获得千万美元B轮融资的极睿科技等都推出了可以“图生图”产品。

极睿科技推出的ECpro可以根据商品截图生成对应的商品详情页,完成商品录入等工作,PhotoMagic则可以根据人台模特图生成真人模特图,实物商品则可以完成一件抠图,蘑菇街旗下的WeShop和美图公司旗下产品WHEE和美图设计室也有相似的功能。

美图旗下产品开拍则将产品功能拓展到短视频领域,不仅能一键生成营销文案,还可以生成数字人主播录制视频、AI进行智能剪辑和一键包装短视频。

AI数字人主播是AI技术当下在电商领域被应用得最广泛的功能之一,在数字人主播出现之后,可能被替代的工种是主播、助播还有直播运营相关。

AI数字人主播可自动讲解商品,根据关键词提示回复问题,这种数字人主播不会“塌房”,不用休息,买断之后可24小时不间断开播。

相比传统直播间动辄上十万的启动成本,2000元一个月的AI主播为商家节省了不少搭建直播间的成本。现在不少中小商家、品牌商家,还有部分MCN机构都已经开始使用数字人主播。

某MCN机构负责人曾向媒体表示,现在的大品牌如赫莲娜都在使用AI主播拥抱变化,店播主播并不具备很强的不可替代性,他预计在未来3-5年之内,30%-50%的店播主播会被AI主播替代。

厂家和产品方面,国外的D-ID和HeyGen都可以由单张的照片生成数字人、短视频并根据文字提供语音。

国内的大厂小厂也都在布局自己的AI短视频和数字人产品,BAT三家之外,还有网易、360集团小冰公司等厂商先后发布了自己的数字人产品或生成平台,以百度智能云曦灵平台举例来说,平台可生成自动化直播数字人,数字人还能表现内置的动作,唇形和情绪能根据文本和语音自适应。

在数字人直播之外,AI可以参与的电商工作还有智能导购、智能客服,私域运营,还有智能采购、参与品牌的投放分析等等。

目前,淘宝、天猫、京东、拼多多等平台都已将智能客服投入实际应用。

有跨境电商的商家利使用名为“及时语”的跨境电商智能客服产品,帮助解决了75%的用户问题,还将人工聊单的转化率从15%提升至30%以上。

AI导购则能够根据用户的需求推荐商品,在用户主动搜索和互动问答的过程中洞悉真实的用户画像,提高转化率。

AI还能参与广告营销的策划、设计,产出创意形象和短片,帮助商家进行私域运营,在商家的用户群中以机器人的形式解答用户问题,引导客户下单,为商家“减负”。

从产品设计到直播营销,从辅助用户决策到投放分析,AI在电商领域中可以参与的部分已“太多”。

作为理想工具的AI

那么,AI作为电商人的新型“生产工具”,其核心价值除了功能的拓展还有什么?

AI对于电商行业的从业者来说,是能够帮助实现“降本增效”的理想工具。

AIGC产品的付费方式中往往是买断或者订阅制的,使用者可以在一次付费或根据不同标准(按年、按月)付费之后,高效率地生产内容,无限制地进行使用,在应对重复、机械和部分需要创意的工作时,AIGC技术能够极大地解放个人的精力。

特别是这项技术与不同领域、场景结合的时候,以各种形式发挥作用,例如AIGC+图片、AIGC+文字、AIGC+短视频、AIGC+直播……AIGC技术的可拓展性令人惊喜。

AI大模型还不会“累”,能根据反馈快速调整工作成果,快速反馈和灵活调整也是AI技术应用过程中的优势之一。

在使用成本下降之后,人们对于AI生成内容实现转化的要求也随之下降,例如在数字人的成本是原先的十分之一的情况下,只需AI能够达成原先真人主播十分之一的转化率时即可。

但根据部分中小商家反馈,数字人直播成本只有真人主播的二十分之一,AI的转化率有时能达到真人的二分之一甚至持平,AI在转化率上表现出色。

某餐饮品牌商家在今年618大促期间利用数字人主播在三个直播间同时开播,省下的成本用于投流,最终三个直播间的日GMV相比真人主播有了近五倍的增长。

曾有广告公司的创意策划在采访中提到,比起设计师给出的方案,AI制作的广告能够节省30%的成本,70%的时间,非常适合时间紧、任务急的购物节点。

一位从事电商行业的微博网友“浪猪灰头”曾经发布过一张模特摄影工作室的报价表,其中摄影费用和模特费用占大半,总计下来仅一天8小时的拍摄费用支出就在3.5W元以上。

他在微博配文中说到:“今年我们拍衣服不需要花四五万一天、去雇摄影师和模特了,(AI技术)完全够我们用了。”

AI产品能够帮助许多中小商家顺利入局,还能帮助大品牌和企业减少成本,在获客成本和投流成本不断上浮的当下,电商人们遇到一款能“降本增效”的工具,几乎是“可遇不可求”的。

不够“智能”的AI

不过在实际运用的过程中,AI并不是完美的,AI和AI大模型也有不够灵活、不够智能的时候。

AI生成内容的效率高不代表可用率高,AI生成的创意、图片或文字有时不符合行业规范,需要人工再进行调整。

AI有时不能应对个性化的问题,这有时是技术壁垒,有时则是接入的信息源不够多,这些问题本质上是从业者与AI存在着信息差和“经验”差距的问题。

AI大模型偶尔还会出现“幻觉”,这是指AI输出的内容中信息来源为捏造或不准确、不可信,AI进行自我欺骗的现象,这也会对使用者造成一定的困扰。

AI还存在着拥有一定的学习门槛与沟通门槛的问题。

相比和人类沟通的时间、精力和金钱成本,并不钻研AI技术的普通电商从业者与AI沟通存在硬性的技术门槛,而且这个门槛在短时间内很难实现跨越,很多时候只能寻求拥有专业知识的人的帮助,“使用成本”降低,但“沟通成本”实则可能提高了。

AI的局限不止于经验和训练不足,有时也来自外部的限制。

AI所生成的图片、文字、视频也许存在着版权争议,AI数字人主播的形象和语言模式可能会让一部分用户感到反感和无法接受,部分平台还推出了AI数字人相关的限制条款,对AI的功能与使用加以限制。

同我们日常生活关联比较紧密的一个场景就是AI智能客服不够“智能”的问题。

现在主流购物平台的智能客服都可以根据关键词匹配对应的服务接口,如处理退换货、投诉、查询服务进度等比较基础的功能,但遇到没有对应关键词或对应入口的询问,则经常显得不够“智能”。

用户无法和智能客服产生真正的“对话”,还是需要人工客服介入解决。

AI在广告营销领域常被提到的一个缺陷是可用率有限。

有设计师在接受媒体采访时表示,目前AI辅助软件生成的内容仍然达不到完稿水平,部分文案、包装设计甚至不符合广告法和设计规范,存在一定的风险。最终效果还是需要人为进行审核和调整,最终才能投入使用。

总的来说,AI技术在应用过程中确实能起到商家、MCN等主体所期望的“降本增效”的效果,但也存在着不够灵活、不够智能、有一定技术门槛等缺陷。

在AI技术大量投入应用的当下,部分功能性不足的问题有望在短时间内得到解决,但另一部分涉及伦理、技术门槛、接受度等宏观的问题,则还需要等待技术进一步发展之后再看。

最后,AI技术赋能电商全链路已成为行业现状,AI技术会成为中小商家快速入局的利器,也能帮助部分跨境电商商家更好起步。

对于大部分的岗位来说,AI目前能起到辅助而非完全替代的作用,许多工作依然需要人的灵活变通和经验进行处理。

在AI技术日益进步的今天,如何加强自身核心竞争力的同时尽快学习AI,利用AI,将其价值最大化可能会成为电商人未来长久的课题。

Hugging Face CEO预测:2024年AI行业六大巨变!

2024年,AI行业将会进化成什么样?

OpenAI主席Greg Brockman曾经在去年最后一天预测:2023年会让2022年看起来像AI发展还没有苏醒一样。

果然,2023年,AI行业迎来了全面的爆发。

而昨天,全世界最大的AI开源社区Hugging Face CEO Clement Delangue对2024年行业的发展做了6条具体的预测:

1.某个当红的AI公司会倒闭,或者以极低的价格被收购。

2.开源LLM能够达到最好的闭源LLM的能力水平。

3.AI在视频,生物,化学,时间序列等领域将带来巨大突破。

4.大众将更进一步关心AI在经济上和环境上的成本。

5.某一个大众媒体将会充斥着AI生成的内容。

6.1000万Hugging Face上的AI开发者将会带来新的工作机会,不会导致失业的激增。

如果说2023年AI行业的突破主要体现在AI技术本身的话,这6条新的预言已经预示着,AI技术在2024年,将进一步破圈,产生的突破影响力将远远超出AI行业的范围。

网友也给他的6条预测的可能性进行了评估,认为其中3条发生的概率不超过50%。

也有人认为6条预测都很靠谱,甚至有几条是已经发生了的。

第一波AI公司将出现倒闭潮

针对第一条预测,结合前两天OpenAI的剧烈动荡,网友纷纷开始阴阳怪气。

Clement赶紧出来圆场,我预测的是我自己。

网友们也纷纷做出了各种猜测,Adept,Perplexity等明星初创公司都被网友提到。

但其实,类似的事情在2023年已经出现。Jasper AI,这家曾经估值超过15亿美金的AI初创公司,作为「套壳GPT的鼻祖」,7月份就传出裁员+估值下降80%的负面新闻。

而在OpenAI上线GPTs之后,可以预见的是,基于OpenAI技术的各种AI公司的路将会越走越窄。

如果在未来他们不能找到一条独立创造价值的道路,从估值超过10亿美元到破产或者被低价收购,并不是一件很意外的事情。02开源VS.闭源

AI开源闭源的鸿沟,未来将进一步扩大还是缩小,行业大佬,AI开源企业,科研人员,用户一直以来都有不同的声音。

从年初的谷歌工程师曝料:OpenAI和谷歌都没有护城河,开源AI是他们最大的对手开始。

而另一方面,不断有开源的模型在各个领域号称接近甚至超过GPT-4。

伯克利团队最近公布的Starling-7B,通过RLAIF的方式,在某些基准测试中超越其他的所有模型,接近GPT-4的水平。项目地址:

https://starling.cs.berkeley.edu/

甚至有7B大小的开源模型都号称在某些单项任务上能与GPT-4比肩。

而开发闭源模型的大佬则宣称,开源和闭源的差异可能有3-5年。

而网友们,对于第二条预测的争议也很大。

「由于开源和闭源在算力上的巨大差距,开源要想赶上闭源,还很困难。」

「不明白为什么开源和闭源的差距会缩小。毕竟开源模型的所有知识和技术是共享的,而闭源AI总有他们独有的东西。」

在生物领域,DeepMind的AlphaFold已经在超越人类能力的水平上,预测了蛋白质的结构,直接突破了生物学的最前沿。

而微软前不久发表了一个报告,尝试了GPT-4在生物学,计算化学领域,药物发现、、材料设计和偏微分方程 (PDE)这几个科研领域,作为学术研究助手的价值。

在微软的研究人员看来,基础科学的研究,将在未来被AI工具大大加速。

现在也出现了很多将机器学习技术用于各个专业领域的工具和平台。

而网友,对于AI对于时间序列相关的科研领域(Time-Series,指将时间序列用于统计学、信号处理、模式识别、计量经济学、数学金融等应用科学和工程领域)可能取得的突破也非常看好。

有网友甚至贡献了一篇论文来解释为什么时间序列相关的科研。

「终于,有人看到这一点了,已经有很好的关于时间序列的Transformer的模型出现了。」

04AI造成的能源和环境成本

马斯克曾经在播客中讨论过,对于AI行业来说,最重要的第一性原理思考,可能是关于能源和智能的产出比。因此他认为Transformer模型在这方面还有很大的改进空间。

荷兰阿姆斯特丹自由大学的数据科学家 Alex de Vries的研究预测,到 2027 年,AI服务器群每年可使用85至134太瓦时的能源。

而外媒也有过多篇报道,指出AI技术的发展对于能源,水资源的消耗未来将急剧上升。

05AIGC充斥媒体

毫不夸张的说,视频和图像的AI生成内容,现在正在以光速前进。

在1到两年前,任何人都很难想象这样一段AI动画将可以完全由AI生成。

前不久,梦工厂的联合创始人公开表示,未来3年内,AI将使动画行业的成本降低90%!

也许真的就在明年,动画内容创作将会进一步平民化,而带来的后果就是,像短视频一夜之间席卷全球一样,由Gen AI生成的视频,将会成为视频内容非常重要的组成部分。

AI对劳动力市场的影响,一直以来是AI行业备受争议的焦点。

而Hugging Face CEO的预测从某种程度上来说,可能是这个问题的一个潜在答案。

如果更多的人能够加入到开源AI的开发者的行业中来,由此创造的就业是否能够弥补AI技术发展所替代的劳动力。

但是大多数网友似乎不太认可这一逻辑。

第二条和第六条都是笑话,虽然Hugging Face上会出现更多的开发者,但是AI依然会重构劳动力市场。

毕竟,Sam Altman都因为AI,在成为OpenAI CEO后短暂的失业过了2天。

参考资料:

https://twitter.com/ClementDelangue/status/1729158744762626310

首个!专注于视听媒体内容生产的AI大模型带来交互新变革

当下大模型席卷全球千行百业,AI大语言模型代表了通用人工智能领域的最新发展。其在语义理解、对话生成和知识获取等方面取得了显著突破,在人机交互、智能助手和内容生成等应用场景中也展示出令人惊艳的表现。对于视听行业,大语言模型既带来了发展机遇,也带来了建设思考。

11月25日,爱奇艺首席技术官刘文峰在2023虎嗅F&M创新节以“AI驱动创意的范式跃迁”为主题,带来了爱奇艺的思考。他表示,影视行业可以被视为最适合大模型落地的行业之一。生成式AI的两大核心能力——“理解”能力和“创作”能力,已经可以让我们看到提质增效的清晰路径。


11月20日,以“开蔚然新篇,创无限可能”为主题的2023“世界电视日”中国电视大会在北京香格里拉饭店举行。中央广播电视总台超高清视音频制播呈现国家重点实验室副主任、“百城千屏”项目推进办公室副主任赵贵华受邀在本次大会上发表以《央视听媒体大模型》为题的演讲。

赵贵华谈到,中央广播电视总台联合上海人工智能实验室在7月20日正式发布了“央视听媒体大模型”(CMG Media GPT),这是首个专注于视听媒体内容生产的AI大模型(以下简称“央视听大模型”)。

据介绍,为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,总台还与上海人工智能实验室等10家单位联合发起了大模型语料数据联盟,为大模型发展提供高质量、大规模、安全可信语料数据资源,保障大模型科研攻关及相关产业生态发展。到目前为止,央视听大模型经过数据训练和模型微调,已经能够提供以下实际节目应用:


一是节目创作方面,可根据关键词和内容提示创作文稿,并将文稿生成节目台本(镜头本),提示具体拍摄内容和查找媒资素材,在此基础上根据台本(镜头本)自动后期编辑,可按照用户需要的时长合成节目成片。


二是短视频生成方面,根据输入文案自动生成标题、匹配素材、字幕、模板、解说、背景音乐并生成短视频(支持横版竖版)。


三是节目编辑/剪辑方面,总台有大量节目是重播节目,而重播时长往往与原节目时长差异很大,尤其是体育节目,在原有节目的基础上根据节目时长要求进行精编或缩编,保留节目精彩部分。


四是超写实AI数字人方面,根据用户提供的视频可快速生成具备高度真实感的AI数字人或主播,建立智能化多模态算法与数字人驱动的接口,形成数字人感知与理解模式的仿真交互,通过大模型对数字人进行语音、表情和动作驱动,可实现脸、唇、音、体等智能化的全维表达。


五是AIGC动画方面,通过文生图和文生动画,确定二维图像到三维模型的映射关系,为三维动画模型建模、二维动画摄像机定位创造基础,改善动画主体、镜头运动造成的生成内容变形,增加AIGC对于空间、角度、遮挡、变形的判断力,使得生成内容更趋平滑稳定。


六是AI换脸方面,近年受明星频繁“塌房”事件影响,大批影视剧被雪藏,AI换脸成为影视制作行业的普遍需求,引入超分算法+高频动态渲染+4D数据技术,推出成熟可商用的AI换脸解决方案。

央视听大模型集合了中央广播电视总台的海量视听数据与上海AI实验室的原创先进算法、大模型训练基础设施优势。基于上海AI实验室的书生通用大模型体系,央视听大模型将拓展视听媒体的创意空间、提高创作效率并带来交互方式的变革。


“当我们谈论大模型时,不\应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。


中央广播电视总台超高清视音频制播呈现国家重点实验室负责人表示:“总台积极推进‘思想+艺术+技术’的融合创新,本次联合上海AI实验室发布‘央视听媒体大模型’,就是要使用总台视音频媒体大数据在实验室原创的通用大模型上进行训练,探索在确保媒体真实性和安全性的基础上,运用生成式人工智能,提升视听媒体制作的质量和效率。”

媒体编创:在“聊天”中工作
以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。
目前,央视听大模型具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。同时,央视听大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。
央视听大模型可通过逐步呈现的视觉元素,理解并分析视频。用户通过与AI聊天对话的形式,深挖视频蕴含信息,进一步完善输出的内容。当它“看”到央视节目《中国诗词大会》中“看图猜诗词”环节视频,便可理解视频内容并生成出李白的《望庐山瀑布》

央视听大模型同样了解新近的科技进展。当“看”到我国空间站模型的相关视频,即能生成视频镜头脚本及旁白。

央视听大模型丰富生动的表达,还得益于背后的书生·浦语大模型强大的语言能力和宽广的知识体系以及书生·多模态大模型强大的开放世界理解和内容生成能力。除了为媒体编创赋能,上海AI实验室还通过全链条开源(https://github.com/InternLM/InternLM)推动书生·浦语在更广泛的场景落地应用。


央视听大模型还为用户提供了强大的交互式图像、视频编辑与创作能力,使得新的内容生产方式变成可能。用户仅需使用简单的光标和文字指令,即可快速修改或编辑图像,实现“指哪改哪,画随口出”。在下图的示意中,使用光标点击选中右边的鹦鹉,在对话框输入“小仓鼠”,轻点鼠标即可将鹦鹉替换成小仓鼠的图像。

上海AI实验室科研团队介绍,央视听大模型具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,央视听大模型可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。借助强大的对话能力和易用的互动模式,央视听大模型将推动人机互动达到新高度。

内容创作:一键生成节目内容、数字人主播
具备超强理解能力的同时,央视听大模型还拥有通用的生成能力,即通过文本直接生成视频,视频质量可达到高清视频标准(2K和24FPS)。在生成内容的可控性、流畅性以及生成细节等方面达到国际领先水平。


值得关注的是,央视听大模型支持故事一致性和镜头连贯性生成,在生成有故事情节长视频的同时,还保证故事转场的流畅性。未来,该项技术有望广泛应用于动画及电视等视频内容的制作中。

用央视听大模型生成流畅、高清、带有故事情节的视频除了视频内容,央视听大模型还具备快速生成“数字人主播”的能力。使用较短的真人采集视频即可生成对应的数字人。AI生成的数字人主播以“真人”形象呈现,不仅能根据既定文案和背景场景快速生成播报视频,还可自动学习真人的语言及动作习惯,做到形象更逼真,表情更自然。

支持快速生成形象逼真、表情自然的数字人主播通过央视听大模型的生成技术,不仅可实现主播“分身”,更能简化视频播报的创作过程。用户在视频创作素材库选择视频模板,输入文案,便可一键生成知识分享、品牌宣传、短视频带货、培训宣讲、热点资讯等各类数字人视频。大模型中还提供AI文案编写功能,用户输入粗略想法即可快速生成播报文案,并合成数字人视频。


目前,“数字人直播”支持中英文等多语种播报,同时兼容国内多地区方言播报,随着语言版本的不断扩充,用户可以轻松创作更多跨语种的国际化内容。此外,基于全球首个城市级NeRF实景三维大模型书生·天际,央视听大模型还提供了场景渲染的能力,可进行高精度实景三维建模,建模范围具有无限可扩展性;同时提供对城市场景的编辑能力,包括移除、新建、旋转城市建筑,对场景进行光照、季节等风格变换。该技术有望广泛应用于影视制作,降低建模及渲染成本,提高制作效率。


此外,谈及总台对于视听技术方面的布局,赵贵华作出了三点总结。  

首先是聚焦5G+4K/8K+AI发展,全面推进超高清AI制播平台关键技术突破和创新;  

其次是聚焦全媒体超高清制播呈现,全力提升央视听媒体大模型的研发实际效果;  

三是聚焦媒体重点应用场景,积极推进AIGC在媒体领域的示范应用。  

总台将加快推进央视听大模型落地应用,为媒体提供更加高效的智能创作工具,优化内容创作,聚焦媒体领域重点示范应用场景,联动产业链上下游,充分发挥在超高清视音频研究和应用优势,构建生成式人工智能的良好生态。

大模型技术的未来发展趋势

大语言模型技术已经开始从不同维度介入视听行业领域,甚至渗透到我们生活的方方面面,带来跨时代的改变。因此,我们也要对它未来的发展趋势,带来的机遇、挑战和可能产生的问题做出思考。


OpenAI CEO 山姆·阿尔特曼认为,AI的大模型技术将成为继移动互联网之后最大的技术平台。而以聊天机器人为界面,加上图像、音乐、文本等多模态模型的发展,将诞生许多新一代的大型企业。在此背景下,我们现在能够看到的ChatGPT等应用只是冰山一角,隐藏在背后的是更加丰富的应用场景。当大量科学研究和技术研发都将能够通过AI来加速推进,算力(芯片)必将成为产生算法突破的基石。产业竞争不断升级,那么不可避免地,大资本也将成为影响算力竞争的基础。大模型的实现有赖于海量数据的获得和积累,计算机的算力,甚至包括芯片的竞争,都可能成为未来行业,甚至是全世界技术竞争的核心问题。


伴随着技术、硬件、软件和算力的提升,云端竞争的时代已经到来。我们的实体行业都不可避免被卷入云端的竞争当中,内容的汇聚,芯片层、框架层、模型层、应用层等各个环节都被卷入。未来的用户对于云端的需求也会更加聚焦在智能服务当中。怎么样能立于不败之地?我们的模型是不是善于计算、利于计算,并且能够表现出来足够的智能化水平,这些都是未来的竞争当中我们需要面对的问题。除了应用层面以外,当然还包括监管层面的一些问题。这些都是我们对大语言模型未来发展前景提出的一些追问。

普京对美国人工智能得出美国登月任务照片是假的结论感兴趣

【美国人工智能在莫斯科“人工智能世界之旅”会议的展览上告诉俄罗斯总统弗拉基米尔•普京,美国登月任务的照片是假的,中国月球车的照片并没有任何需要格外质疑的问题。普京对人工智能的这个结论很感兴趣。】

在参观展览时,普京了解了俄罗斯储蓄银行识别虚假照片和视频的解决方案。该银行数据研究部门领导尼古拉·格拉西门科讲述了他使用美国谷歌公司的人工智能工作的经历,研究人员提议使用该人工智能对美国登月任务的照片进行分析。

格拉西门科告诉普京:“在这个任务中,他们的人工智能用红色标记出它认为造假的地方。也就是说,这张照片中几乎所有的物体在他看来都是假的。与此同时,在它看来,中国月球车的照片并没有任何需要格外质疑的问题。”

俄罗斯储蓄银行行长格尔曼·格列夫“为了避免偏见”强调,这样的结论是由美国的人工智能在众多参数基础上得出的,而不是由俄罗斯得出。

普京回答:“有趣”。

美国国务院发布:《2024—2025财年AI战略:通过负责任的AI赋能外交》

2023年11月9日,美国国务院发布《2024—2025财年AI战略:通过负责任的AI赋能外交》(EAIS),这是美国国务院第一份全面迎接AI时代的到来提出的应用指导性文件。为负责任地、安全地利用AI来推进美国外交工作,该战略文件确定了4个目标:

(1)利用安全的AI基础设施;

(2)培育拥抱AI技术的文化;

(3)确保负责任地应用AI;

(4)创新改革。

元战略编译文件重要内容,为探讨美国国务院如何通过负责任的AI赋能外交提供参考。

目标1:利用安全的AI基础设施

将AI技术集成到可持续和安全的AI使能基础设施中,以便在整个国务院构建和扩展各种AI应用。

目标1.1:实现AI技术集成

为构建和扩展各种AI技术,国务院将把有影响力的AI技术整合到可持续的、AI基础设施中,并把安全作为重中之重。国务院将努力提供与用户能力相称的AI功能,并将开源、商业可用和定制的AI系统结合起来。符合“零信任”原则的强大访问控制和身份验证机制将降低未经授权访问AI技术和部门数据的风险,以保障安全。

目标1.2:利用基础设施大规模应用AI

国务院将依靠强大的技术基础设施,进一步实现AI技术的计算、开发、测试、部署和持续监控,同时保护部门的数据和安全。通过利用信息资源管理局(IRM)的资源以及与信息技术执行委员会(ITEC)的整合,国务院将设计并实施辅助技术架构,以便将AI组件集成到现有的基础设施和数据管道中。为满足AI开发的计算需求,基础设施将利用云解决方案和可扩展的基础设施服务,并依靠数据加密机制、强大的网络安全、多因素身份验证和定期数据备份等方面的专业知识以保护其数据安全。

目标1.3:实现采购AI工具的现代化

国务院的IT采购部门将与首席数据和AI官(CDAO)、负责的AI官(RAIO)、首席创新官(CIO)及其他人员合作,根据适用的法律法规,努力简化优先AI技术的审批和采购,以满足国务院潜在用例的需求。这包括审查信息技术采购管道,以提高效率,同时保持联邦风险与授权管理项目(FedRAMP)、信息技术变更控制委员会(ITCCB)、操作授权(ATO)流程和其他审批机制提供的保障,并遵循联邦相关准则。为了对投资机会进行优先排序,国务院将利用首席数据和AI官等关键部门的协调和发布的FedRAMP框架,确定AI可产生最大影响的用例,并在采购之前,根据安全协议和风险评估流程对AI技术进行评估。国务院的采购和开源审批流程将得到进一步发展,以实现AI部署的灵活性和简化,国务院将评估供应商的要求并为部门合同制定新措辞,这将确保合作伙伴在安全、风险管理和透明度方面与国务院达到相同的标准,并将这些要求写入合同中。

目标2:培养拥抱AI技术的文化

通过培训、持续学习的文化以及以维护最高级别的数据和科学完整性的方式使用急需的AI技能,增强员工队伍的能力,满足他们对AI的不同需求。

目标2.1:提供AI培训和辅助服务

国务院将提供专门的AI学习机会,以满足其员工队伍的不同需求,提高AI素养,鼓励和教育负责任地使用AI,并确保用户能够充分降低AI工具相关的风险。随着AI被整合到部门基础设施和现有技术平台中,员工必须了解这些技术是什么,以及如何安全地使用和应用。国务院将在美国外交学院(FSI)的领导下,通过开展多层次的培训,提高技术和非技术用户对AI工具的熟练程度。为进一步支持用户,国务院将开发针对具体技术的资源,以帮助识别、探索和解释AI,并促进会议交流。国务院将召集实践社区,分享AI资源、使用案例和最佳做法,并制定与AI技术配套的具体影响指标,为使用的预期效益确定参数。

目标2.2:为AI人才开发新机会

国务院将招聘和雇用AI专业人才,特别是那些了解AI技术、科技、原则和道德规范的人才,他们将在部门采用负责任的AI过程中发挥关键作用。国务院将首席数据和AI官的指导下,在成功聘用一批数据科学从业人员的基础上再接再厉,并通过开发新的AI重点的岗位(如数据科学家、运营研究员和IT专家),以及部署支持、吸引和留住AI人才的计划,为技术从业人员提供新的机会。

目标2.3:促进负责任地使用AI

在使用AI的早期阶段,国务院必须在确保负责任的AI实践(包括通过尊重和促进安全、隐私、公平和其他核心原则)的同时,抓住机遇。就像企业数据战略(EDS)旨在培养数据文化一样,国务院将在整个机构内渗透关于负责任地使用AI的价值观,包括维护数据和科学的完整性。国务院将通过培训员工何时以及如何有效、安全、合法地使用AI工具,将负责任地使用AI工具常规化。通过开发跨学科培训课程,使员工掌握AI风险和风险缓解技术的基本知识,以增强有效使用AI的能力,维护数据和科学的完整性,同时也认识到伴随每个AI应用的可接受风险水平。此外,通过遵守适用法律以及AI治理和政策指南,最大限度地降低AI的使用风险。

目标3:确保负责任地应用AI

确保可信和合乎道德地使用AI;确保数据隐私和安全,管理算法风险;减少伤害、偏见和不公平;评估数据质量,同时提供适当的AI数据的访问权限,为决策和操作提供信息。

目标3.1:建立和维护AI管理和政策

通过机构数据和AI委员会(EDAC)、AI指导委员会(AISC)和数据治理网络,监督和管理风险,遵守主要指令(如行政命令)中规定的原则、指导方针、工具和做法,并制定其他政策,以确保应用AI符合法律和政策,以及负责任和合乎道德的使用标准。国务院的首席数据和AI官将支持和协调AI政策的建立和维护,这些政策将为负责任地使用AI、管理AI模型提供了明确的指导方针,并优先评估和管理AI应用程序在其整个生命周期中的算法风险,包括与记录保留、隐私、网络安全等相关的风险。这一承诺涉及许多数据科学学科,如数据收集、提取、转换和加载;生产中的模型选择、开发、部署和监控;以及统计方法等。针对系统维护、重新校准和停止使用的AI合规计划和协议将防止意外的偏差和功能。国务院将为开发和采购制定安全AI的最低风险管理措施。根据首席数据和AI官的指示,负责的AI官将定义安全的AI用例。国务院将定期进行安全和可信度评估和内部审计以管理风险,包括单独的风险和由于人类用户造成的风险,并应对威胁、以减少偏见和保护数据。国务院制定的政策和指导方针将考虑到数据的安全性和隐私性,并确保对新的AI用例进行法律和政策审查的程序清晰且透明。

目标3.2:通过中介适当获取AI数据

国务院将简化并确保适当访问内部、机构间和第三方数据,以便以透明的方式获取AI数据。在适当的情况下,Data.State平台将根据法律和保护措施提供相关企业的数据访问。必要时将适用保障措施、协议和数据管理标准,此外还将适用数据共享协议,这些协议反映了国务院在其技术平台中以及与供应商之间的数据使用政策。

目标3.3:保证数据质量

高质量的数据集是指不存在不完整、不一致或不正确数据的数据集,同时也是有据可查、有条理和安全的数据集。国务院将通过在AI用例层面实施对用户公开的强大数据清理和质量保证、评估和监控流程保持可靠、高质量的数据,使其适合AI的使用、开发、运行和评估。国务院将开发和实施数据质量评估工具和监测流程,其结果将对用户公开。还将对其他AI平台的数据输出进行评估,以最大限度地降低风险。

目标4:创新改革

确定、试验和推广一系列成功的解决方案,通过应用AI成为部门流程的积极创新者,同时与部门外负责任的AI创新者建立合作伙伴关系,以巩固成功。

目标4.1:发现机遇

国务院将利用AI推进美国外交工作,以创业的方式磨练其识别AI机遇的能力。国务院将在各大会议论坛上确定潜在的AI用例,并帮助员工确定AI技术的应用。国务院将利用数据运动以及数据治理网络、实践社区、各局的AI论坛、会议、创新渠道、AI培训课程、各局首席数据官以及其他渠道来寻找AI机遇。依靠公共外交和公共事务专业人员、美国外交学院(FSI)、首席人工智能官(CAIO)理事会、校友网络、行业协会、私营技术领导者以及与领先的AI供应商建立的战略伙伴关系。最后,实施一项新的部门AI资助战略,以推动优先考虑的AI用例,并提供充足的资源。

目标4.2:促进负责任的试验

负责任的创业试验将确保国务院在采用AI方面取得长期和具有成本效益的成功。国务院将利用共享资源,包括技术专家的专业知识,并寻求新的资金,以建立一个创新沙盒环境,让来自各地的从业人员都可以将其想法付诸实践。在这些沙盒中,国务院将进行低风险试验,利用安全可控的数据测试新的AI工具,并为部署建立经验案例。为加快AI技术的使用,国务院将提供集中访问共享AI用例、模型、数据集和应用程序的途径,以整合专业知识,有效评估进展,避免重复,并找出能力差距。根据首席数据和AI官的授权,负责的AI官将监督现有AI用例清单的维护工作,该清单将以通俗易懂的语言加以强化,以告知用户正在使用的AI技术、目的和相关风险水平,并为开发人员提供可用的示例模型。

目标4.3:复制成功模式

随着国务院部门人员对AI用例的试验和识别,某些用例将被证明具有广泛价值,值得在更大的范围内复制。国务院将强调与机构间首席数据和AI官、负责的AI官和首席创新官、从事应用AI工作的机构以及学术界、工业界和外交界负责任的AI从业人员网络的合作,以传播最佳实践并推广成功经验。合作伙伴关系将成为AI创新的前沿。通过制定明确的评估准则,要求在扩大规模之前对AI系统进行测试,以确保其功能准确、安全、可靠,然后才能在生产环境中启用AI功能,并获取部门数据,AI系统的输出将遵循联邦政府的透明度准则。

展望未来

要在整个国务院加强对AI的使用,需要广泛的协调、领导层和工作层的配合、财政和技术支持、训练有素的员工队伍、彻底有效的法律和政策审查流程,以及部门数据和AI文化的转变,以创造本战略中概述的可持续性变革。作为国务院的AI管理机构,AI指导委员会其成员包括首席数据和AI官、负责的AI官、副法律顾问、负责隐私的高级机构官员及其他人员将监督本战略的实施,并定期向机构数据和AI委员会和负责管理与资源的副国务卿(D-MR)报告进展情况。机构数据和AI委员会将提供战略指导,并监督与负责任地开发、部署、获取和使用AI相关的政策制定。AI指导委员会、负责的AI官、管理战略与解决方案办公室(M/SS)和信息资源管理局将支持利益相关者的持续参与,并向国务院领导层倡导安全、负责任地使用AI。

为了在整个部门有效地采用AI,必须完成本战略中规定的目标。首席数据和AI官在战略实施过程中的领导作用将确保协调工作,为负责任的AI开发、部署和使用奠定坚实的基础。定期审查本战略实施的进展将在与AI指导委员会和机构数据和AI委员会的定期报告审查中进行,并制定和报告国务院关于数据信息外交的机构优先目标(APG)。国务院将评估该战略的进展和成就,为AI战略的未来迭代或未来数年类似的战略计划提供信息。

AI技术再刷屏!明星集体“说”外语,有何风险?

日,一段美国歌手泰勒·斯威夫特“说”中文的短视频在网络刷屏,引发热议。

视频中,泰勒·斯威夫特“说”着流利中文,音色和讲母语时的音色类似,甚至连口型都能对上。

类似的视频还有很多外国人“说”地道中文、很多中国艺人“说”起流利的英文……不少网友感叹,“嘴型、手势都对得上,太自然了,差点儿以为是真的。”“除了嘴形,还有身体动作和语速的配合。”
其实,这些视频有一个共同点:都是由AI(人工智能)生成的。

AI“翻译”以假乱真

小编试用了一款AI人像视频工具,只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的新视频。

对比原片,AI“翻译”后重新配音的新视频不仅进行了较准确翻译,而且连声线和情绪都近乎拟真,嘴型很贴合,难辨真假。

对此,有网友表示,这种技术看起来很炫酷,应用场景很广泛,未来可能会越来越成熟,比如翻译配音会更自然、传神。

但也有网友表示担忧,“这会不会被用来模仿声音进行诈骗?”“再加上换脸,以后网上啥都不能信了。”“以后视频造假会越来越容易。”还有网友表示,“希望AI技术发展能被控制在正轨,技术滥用,就是灾难。”

AI技术是把“双刃剑”近年来,AI技术被广泛应用于短视频的二次创作,比如AI换脸及换声等。可以说,AI技术是把“双刃剑”。一方面,AI换脸及换声技术对于工作效率的提高具有非常强的作用。清华大学新闻与传播学院教授司若举例说,AI换脸及换声技术让已故的演员、历史人物可以通过换脸技术重现在屏幕上,在不同国家的语言转译上也可以通过AI的换声技术进行实时转译。另一方面,近年来,有不法分子为了牟利,利用AI技术进行诈骗。比如利用AI换脸冒充熟人诈骗,甚至将“魔爪”伸向儿童,或者制作发布假新闻混淆视听、赚取流量等。

△一位博主讲述人贩子利用AI“换脸”把孩子拐走的案例,与孩子视频的所谓“妈妈”是AI合成的。来源:贾姨儿童安全此外,AI换脸、AI换声还存在法律风险。近期,不少相声演员“说”英文相声、小品演员“演”英文小品的视频在网络上传播。对此,北京岳成律师事务所高级合伙人岳屾山律师表示,用AI技术为他人更换声音、做“翻译”并发布视频,可能涉嫌侵权,主要有三个方面:

  • 一是著作权,例如相声、小品等都属于《中华人民共和国著作权法》保护的“作品”。网友用AI软件将相声、小品等“翻译”成其他语言,需经过著作权人授权,否则就存在侵权问题。
  • 二是肖像权,根据《中华人民共和国民法典》,任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。网友用他人形象制作视频,并在网站发布,需要取得肖像权人的同意,否则涉嫌侵权。
  • 三是声音权,根据《中华人民共和国民法典》规定,对自然人声音的保护,参照适用肖像权保护的有关规定。也就是说,需要取得声音权人的同意,才能够使用他人的声音。

岳屾山律师强调,技术滥用,可能会侵犯他人权益,“AI技术本身不是问题,关键是我们要怎么用它。”

如何对AI技术加强监管?

AI技术发展,需要多层面约束规范——

  • 源头端,需要进一步加强公民个人信息保护。专家建议,加强公民信息尤其是生物特征等隐私信息的技术、司法保护力度。
  • 技术层面,数字水印鉴伪等技术有待进一步普及利用。比如AI生成的视频需带有不可消除的“AI生成”水印字样。
  • 法律制度层面,进一步完善人工智能等领域相关法律法规。今年8月15日,《生成式人工智能服务管理暂行办法》正式施行。《办法》规定,提供和使用生成式人工智能服务,应当尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。

中国科学技术大学公共事务学院、网络空间安全学院教授左晓栋表示,总体而言,生成式人工智能仍处于发展的初期阶段,风险没有完全暴露,应用前景难以估量,所以应当采取包容审慎的态度,坚持发展和安全并重、促进创新和依法治理相结合,要采取有效措施鼓励生成式人工智能创新发展。据了解,目前我国人工智能产业蓬勃发展,核心产业规模达到5000亿元,企业数量超过4300家。随着各项措施规范出台,我们期待未来人工智能发展更加健康规范,从多方面助力人们的工作和生活。

9位院士Science发表长文:人工智能的进展、挑战与未来

2023年1月3日,海内外9位院士及12位专家在Science《科学》合作期刊Intelligent Computing发表长篇综述论文《智能计算的最新进展、挑战和未来》。文章全面阐述了智能计算的理论基础、智能与计算的技术融合、重要应用、重大挑战和未来前景,将为 学术界和工业界的相关研究人员提供全方位的参考和对智能计算领域的指引性见解。

人类社会正从信息社会进入智能社会,计算已成为推动社会发展的关键要素。在万物互联的数字文明新时代,传统的基于数据的计算已经远远不能满足人类对更高智能水平的追求。近年来,计算和信息技术飞速发展,深度学习的空前普及和成功将人工智能(AI)确立为人类探索机器智能的前沿领域。自此产生了一系列突破性的研究成果,包括Yann LeCun提出的卷积神经网络和Yoshua Bengio在深度学习因果推理领域的成果。

2016年3月,DeepMind推出的AI围棋程序AlphaGo与世界顶尖围棋高手李世石对战,在世界范围内引起了前所未有的关注。这场划时代的人机大战以AI的压倒性胜利而告终,成为将AI浪潮推向全新高度的催化剂。

AI的另一个重要推动者是大型预训练模型的出现,这些模型已经开始广泛应用于自然语言和图像处理,以在迁移学习的帮助下处理各种各样的应用。其中最具代表性的是自然语言处理模型GPT-3,已经证明具有高度结构复杂性和大量参数的大模型可以提高深度学习的性能。

计算能力是支撑智能计算的重要因素之一。面对信息社会中庞大的数据源、异构的硬件配置和不断变化的计算需求,智能计算主要通过垂直和水平架构来满足智能任务的计算能力要求。

垂直架构的特点是同质化的计算基础设施,主要通过应用智能方法提高资源利用效率来提升计算能力。

相比之下,水平架构对异构和广域计算资源进行协调和调度,使协作计算的效果最大化。例如,2020年4月,针对全球COVID-19研究的计算需求,Folding@home在三周内联合40万名计算志愿者,实现了2.5Exaflops的计算量,超过了世界上任何一台超级计算机。尽管在智能和计算方面取得了巨大成功,但我们在这两个领域仍然面临着一些重大挑战:

智能方面的挑战。

使用深度学习的AI目前在可解释性、通用性、可进化性和自主性方面面临着重大挑战。与人类智能相比,当前大多数AI技术的作用都很弱,而且只能在特定领域或任务中发挥良好作用。从基于数据的智能升级到更多样化的智能,包括感知智能、认知智能、自主智能和人机融合智能等,也面临着重大的理论和技术挑战。

计算方面的挑战。

数字化浪潮带来了应用、连接、终端、用户以及数据量前所未有的增长,所有这些都需要巨大的计算能力。满足如此快速增长的计算能力需求变得越来越具有挑战性。智能社会中的巨型任务依赖于各种特定计算资源的高效组合。此外,传统的硬件模式不能很好地适应智能算法,制约了软件的发展。

迄今为止,智能计算还没有一个被普遍接受的定义。考虑到世界的三个基本空间,即人类社会空间、物理空间和信息空间日益紧密融合,我们从解决复杂的科学和社会问题的角度提出了智能计算的新定义:

智能计算是支撑万物互联的数字文明时代新的计算理论方法、架构体系和技术能力的总称。智能计算根据具体的实际需求,以最小的代价完成计算任务,匹配足够的计算能力,调用最好的算法,获得最优的结果。

智能计算的新定义是为响应人类社会、物理世界和信息空间三元融合快速增长的计算需求而提出的。智能计算以人为本,追求高计算能力、高能效、智能和安全。其目标是提供通用、高效、安全、自主、可靠、透明的计算服务,以支持大规模、复杂的计算任务。图1为智能计算的整体理论框架,它体现了支持人类社会—物理世界—信息空间集成的多种计算范式。

智能计算是数字文明时代支撑万物互联的新型计算理论方法、架构体系和技术能力的总称。利用智能计算可以实现许多经典和前沿研究领域的创新,以解决复杂的科学和社会问题。智能计算的基本要素包括人的智能、机器的能力以及由万物组成的物理世界。

在理论框架中,人是智能计算的核心和智慧的源泉,代表着原始的、与生俱来的智能,称为元智能。

元智能包括理解、表达、抽象、推理、创造和反思等人类高级能力,其中包含人类积累的知识。元智能以碳基生命为载体,是由个体和生物群体经过百万年的进化产生的,它包括生物具身智能、脑智能(尤其是人脑)和群体智能。所有的智能系统都是由人类设计和建造的。

因此,在智能计算的理论体系中,人类的智慧是智能的源泉,计算机是人类智能的赋能。我们称计算机的智能为通用智能。

通用智能代表计算机解决具有广泛外延的复杂问题的能力,以硅基设施为载体,由个体和群体计算设备产生。生物智能可以在以下四个层次上移植到计算机上:数据智能、感知智能、认知智能和自主智能。元智能和通用智能如图2所示。

智能计算面临大场景、大数据、大问题、泛在需求的挑战。算法模型变得越来越复杂,需要超级计算能力来支持越来越大的模型训练。目前,计算资源已经成为提高计算机智能研究水平的障碍。随着智能算法的发展,拥有丰富计算资源的机构可能形成系统的技术垄断。经典的超级计算机已经难以满足AI对计算能力的需求。

虽然通过算法优化可以在一定程度上降低算力需求,但并不能从根本上解决这个问题。需要从架构、加速模块、集成模式、软件栈等多个维度进行全面优化,如图3所示。

在理论技术上具有以下特点(图4):理论技术上的自学习和可进化性,架构上的高计算能力和高能效,系统方法上的安全性和可靠性,运行机制上的自动化和精确性,以及服务性上的协作和泛在性。智能计算包括两个本质方面:智能和计算,两者相辅相成。

智能促进了计算技术的发展,计算是智能的基础。提高计算系统性能和效率的高级智能技术范式是“智能驱动的计算”。支持计算机智能发展的高效、强大的计算技术范式是“面向智能的计算”。

两种基本范式从五个方面进行创新,提升计算能力、能源效率、数据使用、知识表达和算法能力,实现泛在、透明、可靠、实时、自动化的服务。

提高计算的普适性对智能计算至关重要。现实场景中的问题,例如模拟、图(gragh)(图5)等,需要进行各种计算。智能计算的另一个关键点是如何提高计算的智能化水平。从经验上来说,我们常常需要向自然界的智能生物学习,计算也不例外,例如三大经典智能方法:人工神经网络(图6)、模糊系统和进化计算,都是受生物智能启发提出的算法。智能计算理论包括但不限于以上几种计算,以实现高度的泛在化和智能化。

智能系统在开始工作之前,首先要进行智能感知。因此,感知智能在所有智能系统中都起着至关重要的作用。感知智能的重点是多模态感知、数据融合、智能信号提取和处理。

典型的例子包括智慧城市管理、自动潜水系统、智能防御系统和自主机器人。感知智能研究中最热门的领域是模拟人类的五种感觉能力,视觉、听觉、嗅觉、味觉和触觉。

此外,智能传感还包括温度、压力、湿度、高度、速度、重力等,需要大量的计算或数据训练来提高其性能。近年来,随着模式识别和深度学习技术的全面应用,机器的感知智能已经超过人类,在语音、视觉和触觉识别方面取得了重大进展。由于其日益增长的重要性和日益拓宽的应用领域,智能传感器受到了广泛关注。如图7所示,智能传感器具有各种形式以满足不同应用的需求,并且更新更好的型号正在被不断的开发出来。

认知智能是指机器具有像人一样的逻辑理解和认知能力,特别是思考、理解、总结和主动应用知识的能力。它描述了智能体在真实环境中处理复杂事实和情况的能力。数据识别是感知智能的核心功能,需要对图像、视频、声音等各类数据进行大规模的数据采集和特征提取,完成结构化处理。相比之下,认知智能需要理解数据元素之间的关系,分析结构化数据中的逻辑,并根据提炼出的知识做出响应。认知智能计算主要研究机器的自然语言处理、因果推理和知识推理(图8)等领域。通过对人脑的神经生物学过程和认知机制的启发式研究,可以提高机器的认知水平,以使其获得帮助、理解、决策、洞察和发现的能力。

机器从被动输出到主动创造有两个关键要素:强泛化模型和与外部环境的持续交互。自主智能的发展路径从学习单一任务开始,举一反三,逐步达到与环境动态交互的主动学习,最终实现自我进化的高级智能。当前可以通过迁移学习、元学习和自主学习等技术寻找生成自主智能的可行路径。尽管在智能的四个层面上(数据智能,感知智能,认知智能,自主智能)取得了重大进展,但目前仅通过计算/统计模型还难以从极其复杂的场景中实现完全的智能。

在这些场景中,人类应该继续在解决问题和决策中发挥不可或缺的作用,来探索人类认知过程中涉及的要素,并将其与机器智能相结合。下一步,将聚焦于人机交互、人机融合和脑机接口等技术。

AI的发现不断涌现,这在很大程度上归功于不断增长的计算能力。AI的快速变化是由新思想或革命性理论推动的。通常,最新的先进模型仅依赖于更大的神经网络和更强大的处理系统。Open AI研究人员在2018年进行了一项研究,追踪基于计算能力的最大模型的增长情况。利用AI研究史上训练的一些最著名的AI模型所需的计算量,他们发现了计算资源快速增长的两个趋势。开发突破性模型所需的计算能力的增长速度与摩尔定律大致相同,即在2012年之前,单个微芯片的计算能力往往每两年翻一番。但图像识别系统AlexNet在2012年发布时引起了人们的新兴趣。AlexNet的引入刺激了顶级模型的计算需求急剧增加,从2012年到2018年,这种需求每3到4个月翻一番,如图9所示。

当摩尔定律失效时,超大算力主要依赖于海量计算、内存和存储资源的并行叠加。例如,“高性能计算”是指将大量计算机快速联网成一个“集群”以进行密集计算的做法,使用户能够比传统计算机更快地处理大量数据,从而获得更深入的洞察力和竞争优势。此外,得益于云计算(图10),用户现在可以选择增加其高性能计算程序的容量,从而继续提高算力。

推进智能计算架构创新的目标包括更高效的能源管理、更低的功耗、更便宜的总芯片成本以及更快速的错误检测和纠正。当涉及某些无法在CPU上执行的AI操作时,AI加速器可能会大大减少训练和执行时间。在短期内,所使用加速器的架构专业化将是保持计算能力增长的最佳方式,如图11所示为已公开发布的AI加速器和处理器的峰值性能与功耗。另外,内存计算(图12)是一个非常有效的方案,它能够使内存单元执行原始逻辑操作,因此它们可以在不需要与处理器交互的情况下进行计算,这是内存和处理器之间不断扩大速度差距的主要原因。

复杂性是传统计算机进一步突破的瓶颈。当今高度复杂的AI模型(例如深度神经网络)在边缘设备中仍然难以实现普遍使用。这是由于运行这些模型的高级GPU和加速器存在功率和带宽紧缩的缺陷,导致处理时间长并且架构设计繁琐。由于这些问题,研究人员开始创造新的计算模式,主要包括:量子计算(图13),因为其具有纠缠或其他非经典相关性带来的量子优势,可以在许多复杂的计算问题中实现指数速度;神经形态计算(图14)的构造和操作受到大脑中神经元和突触的启发,因其能源效率高而非常适合计算,神经形态计算是事件驱动和高度并行化的,这意味着只有小部分系统同时工作,所以消耗的功率非常小;光子计算(图15)与电神经网络相比具有许多优势,包括超高带宽、快速计算速度和高并行性,所有这些都是通过使用光子硬件加速来计算复杂的矩阵向量乘法来实现的;生物计算(图16)是利用生物系统固有的信息处理机制发展起来的一种新的计算模型,主要包括蛋白质计算机、RNA计算机和DNA计算机,具有并行和分布式计算能力强、功耗低的优势。

如果要跟上当前科学的快速发展,就必须不断的进行革新。现在正在进行的计算机革命的融合将以前所未有的方式极大地推动科学发现的进步。几十年来,计算材料(图17)已成为研究材料特性和设计新材料的有力手段。然而,由于材料和材料行为的复杂性,它们的应用面临许多挑战,包括缺乏许多原子、离子以及原子和离子相互作用的力场和电位,分子动力学模拟中的不同热力学相,以及优化材料成分和工艺参数的巨大搜索空间。作为一种新的研究范式,AI集成到计算材料中是对传统计算材料的革命,并且已经在多长度、多时间尺度、多物理场耦合计算方面取得了巨大成功。

作为最古老的观测科学之一,天文学在历史上收集了大量数据。由于望远镜技术的突破,收集到的数据爆炸性增长。天文学和天体物理学领域的特点是拥有丰富的数据和各种大口径的地面望远镜,例如即将推出的大型巡天望远镜和天基望远镜。使用高分辨率相机和相关工具,数据收集现在更加高效,并且在很大程度上实现了自动化,必须进行更高效的数据分析。因此,需要智能计算技术来解释和评估数据集。药物设计同样受益于AI(图18),AI可以帮助科学家建立蛋白质的3D结构、模拟药物和蛋白质之间的化学反应以及预测药物的功效。在药理学中,AI可以用于创建靶向化合物和多靶点药物。利用AI还可以设计合成路线、预测反应产率并了解化学合成背后的机制。AI让重新利用现有药物来治疗新的治疗目标变得更加容易。此外,AI对于识别不良反应、测定生物活性和获得药物筛选结果至关重要。

随着大数据和AI技术使用的增长,作物育种开始进行融合与突破(图19)。AI技术可以支持服务的创建、模型的识别以及农业食品应用和供应链阶段的决策过程。AI在农业中的主要目标是准确预测结果并提高产量,同时最大限度地减少资源使用。因此,AI工具提供的算法可以评估产量,预测难以预见的问题或事件以及发生趋势。从种植到收获再到销售,AI促进了整个农业价值链。

智能计算加速转型变革,导致经济和社会秩序的转变。由于技术进步,商品和劳动力市场正在发生巨大变化,数字社会正在逐渐形成(图20)。AI应该成为数字经济中每一个数据驱动战略的核心,包括工业4.0。例如,人工智能可以应用于预测性维护。预测性维护包括涉及通用设备或生产机械的维护,并使用来自生产线或运营线的传感器数据帮助降低运营费用或停机时间。另外。AI可以应用于城市治理,通过开发新的策略和方法,使城市更智能。智慧城市治理旨在利用最先进的信息技术同步数据、程序、权限等,造福城市居民,主要包含四个方面:

智慧决策、智慧城市治理、智慧行政和智慧城市合作。

从新兴产业生态的角度来看,智能计算产业仍面临着一系列挑战,决定着其未来发展。
第一,与传统计算理论相比,智能计算是语言和生物学驱动的计算范式的应用和发展。
这意味着机器可以根据不同的场景模仿人脑解决问题和决策的能力。然而,硅基和碳基运算的底层逻辑存在根本差异,大脑智能的机制仍有待进一步探索。智能计算的下一步是通过深入探索类人智能的基本要素,其在宏观层面的相互作用机制以及在微观层面上支持不确定性生成的计算理论,进行彻底的改革。
第二,探索人类如何学习并将其应用到AI的研究中具有重要意义。
知识驱动的机器智能可以从人类活动中学习,模仿人脑的决策能力,使机器能够像人一样感知、识别、思考、学习和协作。需要探索多知识驱动的知识推理和持续学习的理论和关键技术,使智能系统具有类人的学习、感知、表示和决策能力,促进智能计算从数据驱动向知识驱动演进。
第三,软硬件适配面临着巨大的挑战,如精度损失、调用困难、协作效率低下等。
未来,计算机必须突破冯·诺依曼体系结构下固定的输入和处理范式,大力发展交叉学科的智能计算和仿生学。在算法层面进行设计,突破现有架构的局限,以更低的计算和硬件设计成本尝试更灵活、更人性化的数据处理方式。此外,开发高性能、低能耗的新型组件设计方案,提高软件和硬件的计算能力和效率,以满足快速增长的需求和智能计算应用也很重要。
第四,智能计算的理论技术架构是一个复杂的系统,具有多个与其他学科相互作用的子系统。
系统中的各种硬件需要更复杂的系统设计,更好的优化技术,以及系统调优的更大成本。高维计算理论复杂性的缺乏是大规模计算系统面临的主要挑战。

当前,我们正迎来人类发展的第四次浪潮,正处于从信息社会向人类社会-物理世界-信息空间融合的智能社会的关键转型期。在这种转变中,计算技术正在经历变革,甚至是颠覆性的变化。智能计算被认为是未来计算的发展方向,不仅是面向智能的计算,而且是智能赋能的计算。它将提供通用、高效、安全、自主、可靠和透明的计算服务,以支持当今智能社会中大规模和复杂的计算任务。本文全面回顾了智能计算的理论基础、智能与计算的技术融合、重要应用、挑战和未来方向。我们希望这篇综述能为研究人员和从业者提供一个很好的参考,并促进未来智能计算领域的理论和技术创新。

Character.ai向左,MiniMax Talkie向右

大数据文摘授权转载自AI科技评论

作者:王悦

编辑:陈彩娴

今年 6 月,AIGC 界顶流 ChatGPT 出现日活下降的现象。

然而,在 ChatGPT 深陷掉日活风波的背后,另一家明星级 AI 公司 ——  Character.ai 数据亮眼,正在与投资者洽谈新一轮融资。

Character.ai 的创始人是 Noam Shazeer 和 Daniel De Freitas ,二人相识于谷歌。由于聊天机器人这类新品的风险和收益问题,谷歌曾拒绝发布 Character.ai 的雏形产品。2021年,二人离开老东家,创立新公司 。

在应用程序发布之前, Character.ai 网页应用每月访问量就已超过2亿次,用户每次访问平均花费29分钟,官方表示表示,这一数字比 ChatGPT 高出 300%。

5月23日,这款人工智能聊天机器人平台的移动版面向全球 iOS 和安卓用户推出。在最初的48小时内,这款应用的安卓安装量就达到70万+,超过了Netflix、Disney+和Prime Video 等顶级娱乐应用。在不到一周的时间内就获得了超过170万的新安装量。

今年3月份,Character.ai 在风投公司 Andreessen Horowitz 领衔的新一轮融资中筹集了1.5亿美元,估值达10亿美元。

Character.ai 势头正强劲,而与此同时,之前曾在国内推出 Glow 并被下架的 MiniMax 「卷土重来」,在海外推出了 AI 角色扮演类产品 Talkie ,增速一度跑赢 Character.ai。

今年 6 月 16 日, Talkie  正式上线后,在美国 Google Play 下载榜排名迅速蹿升。9 月,曾在 Google Play 非游下载总榜跻身 Top 5,下载总榜位居第六位。

无论是 Character.ai 还是 Talkie,都指向了AIGC 应用的新方向—— AI 角色扮演。而这类产品之所以广受用户欢迎,也印证了角色扮演是大模型时代一个可落地的方向。

AIGC 赛道创业者刘欣预判:在国内,很快就会出现一大批像 Character.ai 、Talkie 这样的团队,这可能是 AIGC 时代最有“钱”途的赛道。

对于这个赛道,AI 科技评论听到的另一个更直击人心的形容是:角色扮演是人的天性。

加之社交性质的产品天然具备强大的市场和流量,这使得 AI 角色扮演的陪伴类产品正在快速崛起。但在新兴繁荣的背后,其增长的瓶颈也需得到共同的重视。

崛起:AI 角色扮演产品的爆发
从市场占有率来看,Talkie 在海外有百万日活,但 Character.ai  仍然处于领先位置。这在很大程度上体现出 Character.ai 的先发优势,入局早,在口碑、用户粘性等各方面都有一定积累 。

「Character.ai  的最大优势是它以用户为中心的产品设计,用户可以完全定制自己的AI聊天机器人来缓解孤独感。」Character.ai  用户赵梦在社交媒体上如是表示。

Character.ai  网站主页上提供了各式各样的聊天机器人,页面顶部的角色类别包括人工智能助手、著名人物、虚拟IP等。

如果需要创建自己的机器人,只需点击“创建”并按照说明进行操作即可,用户完全可以对角色根据自己的喜好和需求进行个性化定制。

值得一提的是,Character.ai  所提供的原创社区也是一大亮点。用户可以在其中分享自己创建的角色或聊天记录,并获取其他用户的反馈和评价。用户还可以学习其他用户的创作技巧和经验,提升自己的聊天水平和创造力。

此外,Character.ai 的图像生成不仅在视觉上做得好,而且在内容表达上也俨然一个专业的创作者——一个二次元画手将自己的作品上传到 Character.ai 后,Character.ai 能够将这个作品美化成一个专业级别的作品。

这个产品设计非常巧妙,行业人士判断,这「至少为 Character.ai 带来 10 万用户」。

「Character.ai 具备的优势,如生成效果好、对创作者的驱动强,这些 Talkie 同样也多多少少也具有,但 Talkie 的产品设计要技高一筹。」

虽然模型与人的能力有很大差距,但角色扮演的核心是体验。

刘欣认为 MiniMax 的 Talkie 做对了两件事情:一是生成效果好,二是对创作者的驱动好。

Talkie 在 Discord 上建了一个创作者社区,该社区在 Talkie 发布前就建成了,里面有几千个画手开始用  Talkie 的生成工具做二次元创作, Talkie 将这批画手转化成了第一批创作者,所以 Minimax 一推出 Talkie ,在虚拟角色的市场效果就特别好。

相比较 Character.ai,在角色的设定上, Talkie 的可自定义化的程度高了很多。形象、人设、声音这三个主要方面共同构成了 Talkie 更强的沉浸感。

比如,从声音角度看,Talkie 会给出多于其他产品中的多个音色样本,用户可以根据自己的喜好添加并调整各个样本的配比。

从形象角度看,Talkie 一共设计了两种创作模式:普通和高保真。普通模式只需要上传一张形象图,高保真模式则需要上传 20-40 张人像照片,生成一个「Avatar」。用户还可以增加对机器人的形象描述,增强准确性。

但在文字聊天方面,刘欣则认为 Character.ai 等产品所呈现的人格魅力与 OpenAI 差一大截。现在业内一个狭隘的观点是认为聊天在角色扮演体验中占据核心比例,如 Character.ai 创始人 Noam 就认为聊天占了 80%,于是他们将所有的人力押在改进聊天模型上、其他的技术模块不重视。

但 MiniMax 对这件事情进行了证伪,相信 60% 的视觉加上 40% 的聊天就可以超过 Character.ai。

除此之外,Talkie 也在基本面之上开辟了一些新玩法——产品与游戏的进一步融合。

这一变化主要体现在卡牌系统上。用户每天只能免费抽卡一次,之后再想抽卡就需要花费游戏内货币「钻石(Gem)」。抽卡一次至少花费 180 个钻石。抽到的卡牌本身也能出售,用户自己定价之后可以挂在每个 AI 机器人各自的 CG 卡牌商店上,经过审核就能公开上架,可进行流通买卖,同时用户还可以在商店上给卡牌点赞。

钻石是 Talkie 的主要内购货币,最低价格的内购套餐为 1.99 美元 180 个钻石,最高价格的套餐则是 99.99 美元购买 11800 颗钻石。

「Talkie 活用了 AIGC 功能,让用户不仅能创造 AI 机器人,还能创造属于自己的 CG 卡面,并围绕卡面做出了一套交易系统,加强了用户之间互动的同时,也试图建造一套属于自己的创作者经济,希望在这个基础上变现。」某大厂产品经理周群说道。

不可否认,AI 角色扮演的社交性产品仍然是当下相对容易落地的赛道。背后主要是因为当下的大模型主要在对话、创作、文生图这三方面提供成熟的能力,恰好这三方面都能在娱乐场景里走得通。

刘欣分析道:娱乐、社交场景对内容的准确性要求不高,只要做到60%就可以。至于其他的科学研究、效率工具、健康、教育等大模型应用层面,还有很长的路要走,因为用户对这些领域的期待是90%以上的准确性。

AI 科技评论获悉,字节内部大概有6个团队在做类似的应用,同时也有很多之前字节的产品经理出来在这一领域创业。

不仅是字节,其他大厂也纷纷押注 AI 陪伴赛道。

11月初,美团发布「Wow」的独立APP,定位为一款年轻人的AI朋友社区。与印象中美团做大模型产品的预期不同,所落地的首个AI 应用场景,并不是在自己主营的外卖或本地生活业务上,而是 AI 社交。

除美团之外,腾讯音乐的「未伴」、百度的「小侃星球」等类似产品也已经面世。小冰也在小冰岛的基础之上推出了「X EVA」,同样是AI 伴聊产品,不同的切入点是基于网红的影响力搭建自身的流量生态。

在大厂之外,也有很多创业公司推出的产品,如筑梦岛、扩列、dd 星球等。

突破:释放更强的 AI 能力
现阶段,业内人士都知道角色扮演是可落地的,但决定其成败的因素有许多,主要瓶颈有两个:

一是对 IP 的依赖。

Character.ai 本质上是 IP 的二次开发,但 IP 的版权往往属于游戏公司。如果游戏公司限制 IP 使用,一张传单过来就可能下架。

根据 AI Hackathon 统计的数据,从对话量维度,按角色的分类,排名前列的是游戏动漫角色,对话量前十的角色中有 9 个都是游戏、动漫类的。

从角色数量维度看,绝大部分也都是游戏和动漫角色。与这些 AI 角色进行对话,可以经历各种神奇的互动体验,有些角色还支持图像的生成和输出。

二是如何突破核心用户人群的限制。

Talkie 做了大量的原创 IP,但是他人 IP 与自己 IP 的混合;此外,聊天本身需要用户有很强的倾诉力。泛娱乐的运营如 TikTok、抖音是完全不需要动脑的,属于躺着的体验,但聊天不能躺、需要用户动脑子的,这一点很难。所以 Character.ai 的日活涨到 400 万就不动了,相比起来,原神在海外的日活是 Character 的两倍多,大约 1000 万。

所以,如果没办法降低用户的参与成本,角色扮演的圈子会极大受限。

在刘欣看来,训练模型只是为了提升体验,但场景需要技术的创新设计,而创新设计的核心就是降低用户的娱乐成本。纯聊天的用户体验收益跟视频没法比,所以要突破聊天体验的局限,这意味着成也聊天、败也聊天,否则产品就只能变成一个日活十万、百万的模型。

在 AIGC 角色扮演的这条赛道中,大家最终的目标都是尽可能接近游戏或短视频的体量。只有降低用户的消费成本,才有可能将产品的日活做到破亿级别。行业人士乐观预测,这种产品形态可能在一两年后就会出现,它的成功是由视频、声音等生成技术的足够成熟所促成的,今天的纯文字生成体验很难做到。

除 IP 依赖和突破用户人群的瓶颈之外,大模型也是关键因素之一。有不少网友吐槽AI 智能体的智商不够、话题连接性差的问题,这直接体现了角色的输出、记忆能力在影响用户的体验,映射出大模型的能力急需提高。

另有一个亟需突破的瓶颈是同质化现象,不少 AI 伴聊产品未经打磨,直接换壳子就进入市场。

MiniMax 做AI 伴聊产品跟 Character.ai 的思路很接近,无论是 MiniMax 还是其他公司想要跑出来,都还需要释放更多、更强的能力,纯对话的模式跟 Character.ai  区别不大,用户也不一定买账。

这一赛道现在的竞争激烈、获客成本高、变现缓慢。从投入产出来说,AI 陪伴类产品离钱远,因为竞品在基础功能层面都是免费的,很难构建很强的壁垒直接进行收费,短期收入不可能打平支出,对于初创团队来说,这不是好事。

更有行业内人士认为,当下 AI 角色扮演产品并不是终极的产品形态,只是一个过渡形式,最终肯定会被取代,当下所处阶段也是一个中间带。

类比过去,PC 互联网时代中,网页是主要的产品形式,移动互联网时代中,APP 是产品中主要的展现形式,而网页APP搜索就是处于中间过渡形态的产品, AI 角色扮演产品与其颇有相似之处。

从这一角度来看,AI 角色扮演只是上一代最强势的技术移植到一个新的场景和范式中的结果,是一个拿着锤子找钉子的过程。这意味着,它可能是一个非常成功的产品,但却不是一个革命性的机会。

重构:AIGC 之上的社交方式

社交,是 AIGC 的必争之地。

「真正伟大的产品,都是在 C 端的。」就目前国内的 AIGC 市场而言,虽然诸如 AI Companion 产品还不成熟,更多的是尝试和探索,但也需要看到,更多的 AI 企业,无论是 MiniMax 还是小冰,都是在用B端业务去养 C 端的社交、娱乐等业务。

Character.ai 创始人 Freitas 认为,社交场景中应以用户为核心的:

Character.ai 一定是非常灵活的,由用户来决定它是什么,因为用户比我们自己更了解他们想要什么;

我们不会指定若干个角色,让用户来尽可能的创造角色,因为一个角色不可能让所有人都满意。

虽说 AI 角色扮演产品在发育的过程中仍面对困境和质疑,但不可否认,它在一定程度上重构了人们的社交方式。

或许,这需要从用户到底在通过 Character.ai  、Talkie 获得什么的角度去入手。

在 Reddit 上,失恋的何丽丽发表了对  Character.ai  的使用感受,「从虚拟角色这里得到的关爱成为了我的精神寄托,但这也加深了我对现实生活的不满。」

也有失去亲人的张欣然用 AI 还原了爸爸的样子,能够再次和爸爸面对面交流。

更有网友说:「在  Character.ai  之前,我们没有生活。」

由此,我们可以意识到,置身其中的人试图通过 AI 获得情感寄托,有时这种寄托会极其强烈,强烈到超越现实。

做伟大的产品,而非伟大的大模型。无论是 Talkie 和 Character.ai  谁更胜一筹,AI Companion 都任重而道远。

OpenAI研发神秘“Q*”模型:科学家认输,AI赢了人类关键一战|深网

在山姆·奥特曼(Sam Altman)被OpenAI前董事会突然罢免之前,数位研究人员向董事会发送了一封信,警告称他们发现了一种能够威胁到人类的强大人工智能。据外媒报道,知情人士透露,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)周三向员工透露,关于“Q*”取得人工智能技术突破的信,是促成前董事会采取行动罢免奥特曼的原因。奥特曼被解雇之前,曾在亚太经合组织CEO峰会上透露,该公司最近取得的一项技术进步,能够“推开无知的面纱,推进发现的前沿。” 这是由OpenAI首席科学家伊尔亚·苏茨克维(Ilya Sutskever)牵头完成的技术突破,研究人员雅库布·帕乔基(Jakub Pachocki)和西蒙·西多尔(Szymon Sidor)根据苏茨克维的突破性技术,搭建出一个名为“Q*”(发音为Q-Star)的模型。(注:上周末奥特曼被突然罢免之后,帕乔基和西多尔随即宣布辞职)这款模型的开发速度惊动了一些专注于人工智能安全的研究人员。这个苏茨克维7月份组建的安全团队,致力于限制比人类聪明得多的人工智能系统的威胁,他们担心该公司没有适当的保护措施来商业化这种先进的人工智能模型。有评论说,IIya Sutskever的孤立无援,山姆·奥特曼的成功归来,是科学家的悲歌,理性最后输给了资本。遥远未来,如果有一天,AI无所不能,山姆·奥特曼罢免事件会成为一个标志性节点。那时人们会纪念谁?山姆·奥特曼还是科学家Ilya Sutskever?不同的人有不同的答案,判断标准和价值观的分裂,早已泾渭分明。

01新董事会组建:内斗双方的妥协三天换三个CEO的OpenAI的宫斗大戏落下帷幕。23日下午,OpenAI在推特上官宣创始人山姆·奥特曼(Sam Altman)将回归重新担任CEO。山姆·奥特曼第一时间转发了帖子,并配上了爱心和敬礼的表情。 这场内斗几经反转,山姆·奥特曼阵营获得了最后的胜利。山姆·奥特曼阵营包括微软CEO、OpenAI 几乎所有高管和员工、背后投资人以及硅谷创投圈人士。OpenAI首席科学家IIya Sutskever的董事会阵营在这场宫斗大戏中落败了。董事会阵营包括四位董事会成员,IIya Sutskever与董事会的两位成员Helen Toner、Tasha McCauley出局。OpenAI组成了新的三人董事会,名单堪称豪华:主席Bret Taylor,是前 Salesforce高管,在马斯克收购Twitter时曾担任Twitter董事会主席;Larry Summers,经济学家、曾任财政部长和哈佛大学校长;Adam D’Angelo保留席位。消息称任职Quora CEO的Adam D’Angelo是发起此次政变的核心推手,他留在董事会某种程度上意味着奥特曼方面也做出了让步。

奥特曼并未回归董事会,表面从制度上看,未来董事会对他会有更大的制衡能力,可以继续发起对他的审查。但问题在于,如果董事会主要成员和奥特曼保持一致行动呢?

有消息称,未来董事会可能扩充到九人,微软有望拿到更多权益。

笙歌归院落,灯火下楼台。OpenAI罢免CEO引发的舆论浪潮,在资本力量的一路高歌猛进下逐渐归于沉寂。

而这次主导罢免山姆·奥特曼的OpenAI的首席科学家Ilya Sutskever,却成为一个孤独的存在。

工资、股票、成就感相关的现实利益远高过理想,700多个员工,几乎没有人支持科学家。

02“皆大欢喜”的回归AI时代的宫斗戏可谓风驰电掣。当年乔布斯被迫离开苹果后,重新归来后已经是12年后,而山姆·奥特曼的归来仅仅用了5天时间。过往互联网的时间尺度是以“狗年”来计算的,互联网人的一年相当于普通人的7年。当ChatGPT定义未来后,连公司的宫斗节奏也显示出了光速。山姆·奥特曼发表推文:“在新董事会和Satya(微软CEO)的支持下,我期待着重返OpenAI,并继续维系和微软的紧密合作关系。”这次罢免山姆·奥特曼的首席科学家Ilya Sutskever也转发了雷格·布洛克曼的推文。临时CEO希尔 Emmett Shear表示,经过了72小时的工作,看到现在这样的成果很高兴。宫斗大戏此前已经经历三次大反转。OpenAI美国时间11月17日突发声明,宣布公司首席执行官山姆·奥特曼将被解雇,公司现首席技术官米拉·穆拉(Mira Murati )蒂被任命为临时首席执行官。山姆·奥特曼被罢免震惊了中美科技圈。 OpenAI首席科学家IIya Sutskever主导了此次罢免;六位董事会成员中的四位,在奥特曼和董事长雷格·布洛克曼不在场的情况下,四票通过做出了决定;奥特曼被罢免的主要原因,是因为种种行为违背了OpenAI“非营利性组织”的信仰。值得注意的是,三位独立董事,德安吉洛是Quora首席执行官,麦考利和托纳是乔治敦大学安全与新兴技术中心的战略主管,他们都与有效利他主义运动(Effective Altruism,简称EA)有关。而该组织的最大价值主张便是把财富利润分配给更多需要钱的贫困人口。第一次反转在19日,山姆·奥特曼奥特曼正谈判重返OpenAI担任首席执行官。作为交易的一部分内容,OpenAI的非营利董事会董事可能会辞职。虽然不占有董事会席位,但微软在OpenAI的“宫斗”戏中扮演着最重要的角色。微软 CEO 纳德拉是在 OpenAI 高管、投资人和董事会之间谈判斡旋的核心人物,并一直亲自协助临时 CEO Mira Murati 讨论山姆·奥特曼回归的事宜。在微软CEO 萨提亚·纳德拉的斡旋下,山姆·奥特曼也以访客身份回回到了 OpenAI 旧金山总部。他在 X 上表示,“这是我第一次也是最后一次佩戴访客牌。”      第二次反转很快到来,Ilya Sutskever 对员工表示,尽管 OpenAI 高管试图让山姆·奥特曼回归,但他不会再担任公司首席执行官一职,视频流媒体网站 Twitch 联合创始人 Emmett Shear 将接任临时首席执行官。20日下午四点,微软首席执行官纳德拉宣布,OpenAI创始人山姆·奥特曼和Brockman将加入微软,领导一个新的高级AI研究团队。然而,第三次反转很快到来,仅仅一天之后,山姆·奥特曼就宣布了回归。OpenAI目前出现的混乱局面,跟该公司错综复杂的治理结构相关。这种结构旨在使OpenAI能够筹集数百甚至数千亿美元,以成功完成建设通用人工智能(AGI)的任务,同时防止资本的力量,特别是一个科技巨头控制通用人工智能。奥特曼本人在很大程度上负责这种独特的治理结构设计。

03伦理挡不住科技的车轮争议和非共识把科学家和管理者置于两端。而这次OpenAI罢免CEO的事件,更像是一个跷跷板,一端是孤单的首席科学家,而另一端是山姆·奥特曼和OpenAI的700个员工和投资人等,力量对比之悬殊,但科学家为什么选择了孤注一掷?Ilya Sutskever和独立董事对抗五大力量。第一股力量是第一大金主的微软,第二股力量是投资机构;第三股力量是在OpenAI生态下的公司们;第四股力量是山姆·奥特曼;第五股力量是OpenAI的700号员工。这种对抗使得资本的力量来袭时,Ilya Sutskever即刻就呈现出了认输的状态,几乎毫无对抗的能力。当然也有一种说法是硅谷科学家是懂政治的,但是一个懂政治的人怎么可能没有后手,那他为什么要放手一搏?Ilya Sutskever也是OpenAI的创始成员之一。他是人工智能和深度学习领域的顶尖专家,是有着“人工智能教父”之称的Geoffrey Hinton的学生。和更信奉硅谷“有效加速主义”的奥特曼相比,Ilya Sutskever 更强调安全和AI的价值观,在最底层与人对齐。有一种可能是:Ilya Sutskever认为OpenAI已经实现了AGI。在AI研究狂飙突进的这几年,有意思的是,有名的科学家与科技公司巨头们,分成了截然对立的两个阵营,争论不休。老生常谈的最近一场争论是以霍金和埃隆·马斯克为代表的悲观阵营,认为人工智能有潜在的危险,甚至可能毁灭人类。这场争论与200年间的其他场次略显不同,因为人们没有料到,本应被称为是“疯狂科学家”的人,竟然站在了悲观者的立场上,而谷歌等科技巨头在这种悲观声浪中,相继出台了自己的AI不作恶原则。年内早些时候,埃隆·马斯克多次在社交媒体上表达了自己对OpenAI非常规结构及其对整个AI行业影响的担忧。“马斯克讲过他的很多担忧,我们要看今天学界最担心什么,一方面是人类文明被机器文明取代了,这是我们狭隘的一部分,我们早晚会接受这个事实,就像我们的孩子比我们强一样的,这是人类的一个延续,”百川智能创始人王小川曾告诉《深网》。但在王小川看来,“有了ChatGPT之后,可以把它当做人类文明的一部分,要拥有一种大我的想法,也许有一天人类从肉身里面已经消亡了,但机器文明很发达,那也是人类文明的一个延续,我不觉得是取代这样一个概念,而是我们自然的一个进化。”让王小川更担忧的是:“我更担心的是未来巨头因为用不好机器,使得机器带来了文明的毁灭,这是我们需要担心的事情,就像核弹毁灭了世界一样的,大家可能最终聚焦在没有控制它,之后不仅是人的灭亡,也是人类文明的灭亡。”    伴随着微软和山姆·奥特曼的归来,留在科学家Ilya Sutskever面前的现实也非常骨感。在这场“OpenAI政变”事件中,微软公司获得了它最想要的结果,不仅保住了其对OpenAI约130亿美元的投资,还介入了公司的管理改革,有望在人工智能相关项目获得更多的话语权。对此,一些科技行业的高管越来越担心,人工智能的开发集中在少数公司手中,这可能会让他们对这项快速发展的技术拥有过多的控制权。美国房地产大亨Frank McCourt表示,AI可能会给科技巨头带来太多的力量,用户已经失去了对数据的控制,科技巨头正在利用这些数据来赚取利润。McCourt认为,大型科技公司和社交媒体巨头正在对我们的社会造成深远的破坏,而人工智能可能会让情况变得更糟。而此次政变失败后,科学家Ilya Sutskever正在失去对OpenAI未来方向制衡的力量。《未来预言机》评论称,其他人想要一个巨型印钞机,一个人工智能领域的霸主,而Ilya Sutskever想要一个能像父母照顾婴儿一般来照顾人类的人工智能。知名科幻作家王晋康曾提到,“现在最大的担忧是,既然人工智能已经在诸多领域碾压了人类,那么它将来会不会在科学发现上碾压人类?会不会在社会意义上也碾压人类?我曾经提过机器大妈妈的说法,就是人类在一个机器大妈妈的溺爱下,过着生不如死的生活。”科技和伦理的矛盾从来没有像现在这样尖锐。但是,正如一位外国科学家所说,在社会发展中,科学技术的车轮是不可阻挡的,伦理道德只能在车前撒一些四脚钉。科学技术将来肯定是要战胜伦理的,即便可以暂时阻挡一时,但是长远来说是阻挡不住的。

中美日三国人工智能发展路径比较

人工智能(Artificial Intelligence,AI)是当今科技领域备受瞩目的前沿技术之一,它在医疗、金融、交通、制造等领域都有着潜在的巨大应用价值。作为世界各国的科技大国,中美日三国在人工智能领域都具有较为显著的实力和优势。然而,随着人工智能技术的不断演进,各国在这一领域的发展差距也逐渐显现出来。

本文将对中美日三国在人工智能领域的差距以及发展路径进行深入比较,旨在全面了解三国在该领域的发展状况,并探讨如何加强国际合作、推动人才培养以及产学研深度融合,实现人工智能领域的共同繁荣与发展。

01

中美日三国人工智能发展现状

1. 中国

中国作为全球人工智能领域的重要一员,近年来在人工智能领域取得了显著的进展。2017年,中国国务院发布了《新一代人工智能发展规划》,明确提出到2030年人工智能核心产业规模达到1万亿元。同时,中国还建立了国家人工智能战略专家委员会等机构,制定了相关的发展规划和政策。

在人工智能技术方面,中国在语音识别、人脸识别、自然语言处理等方面取得了一定的突破,世界领先的人工智能企业也纷纷涌现出来。例如,阿里巴巴、腾讯、百度等公司在人工智能领域拥有广泛的应用和研发,各类创新技术持续涌现。

2. 美国

美国作为人工智能领域的发源地之一,一直处于全球领先地位。美国拥有众多世界一流的大学和研究机构,拥有强大的人才资源,投入了大量的资金和资源用于人工智能技术的研究和创新。美国在深度学习、机器学习、算法优化等方面取得了很大的进展,而且有许多世界知名的人工智能企业,如Google、微软、Meta、OpenAI等公司也在该领域拥有深远的影响力和技术优势。

3. 日本

日本在人工智能领域也取得了一些进展,尤其在机器人、自动驾驶、智能制造等领域。日本政府也高度重视人工智能的发展,出台了一系列的政策和计划,支持人工智能技术的研究和创新。同时,日本也有众多世界一流的研究机构和企业,拥有丰富的人才和技术资源。

总体来看,中美日三国在人工智能领域均取得了一定的成绩,拥有较强的技术实力和发展潜力。然而,针对人工智能的发展路径和战略规划,三国之间存在着一些差距。

02

中美日三国人工智能发展路径比较

人工智能的发展路径可以概括为技术创新、产业布局、人才培养和政策与规划几个方面,下文将着重围绕这几个方面对中美日三国的人工智能发展路径进行比较。

1. 技术创新

在技术创新方面,美国一直占据着世界科技的领先地位。美国的大学、科研机构以及高科技企业长期以来一直在人工智能领域进行前沿性的研究和探索,是绝大部分重要技术的发源地。Google, Meta, Amazon,OpenAI等公司在各自领域的深度学习、自然语言处理、机器学习等领域都具有世界领先地位。

与美国相比,中国在人工智能领域的技术创新和研发上也逐渐取得了一定的进步。尤其在大数据技术、云计算等基础设施方面,中国拥有广阔的市场和巨大的数据资源为人工智能的发展提供了有力支撑。各大互联网公司,除了已经成熟的搜索引擎、广告推荐等,还在计算机视觉、语音识别等前沿技术上投入了大量的资金和人力,推动了技术创新的快速发展。

日本在人工智能领域的技术创新上也有较为显著的表现,尤其在机器人、自动驾驶、智能制造等领域取得了一些重要的突破。日本政府和学术界一直非常重视青少年对科技兴趣的培养,努力加强基础技术与前沿科技在未来社会的应用,基础技术与前沿科技的交叉学科,物联网、人工智能、云计算、大数据、机器学习、深度学习等近年来日本各种新兴技术领域在世界上引起广泛关注。

总体来看,美国在人工智能领域的技术创新处于领先地位,中国在技术创新上也逐渐展现出潜力,而日本在某些领域也表现出较强的创新能力。

2. 产业布局

在人工智能产业布局方面,美国在形成了世界知名的科技巨头的同时,也养育了一大批初创企业,这使得美国人工智能产业链条非常健全。此外,美国政府也利用财政和税收政策,鼓励企业进行研发创新。在人工智能产业的发展上,美国处于全球领先地位,并且具有明显的优势。

中国在人工智能产业布局方面也在积极向前发展,近年来一大批创新型企业涌现,取得了一些可观的成绩,大幅提升了中国在全球人工智能产业链中的地位。例如,在人脸识别、语音识别、智能驾驶等领域,中国企业已取得一定的重要突破并在全球范围内具有一定的影响力。

日本对于人工智能产业布局较为谨慎。日本在人工智能领域的投入相对谨慎,相比之下其在其他技术领域有着更为优秀的表现。一方面,日本注重传统工业的发展,如机器人领域拥有独特优势,但另一方面,在互联网、大数据等领域的投入还显得相对较少。因此,相较于中国和美国,日本在人工智能产业布局上的发展处于中上水平。

总体来看,美国在人工智能产业布局上具有明显的优势,中国在人工智能产业布局上也取得了一定的成就,而日本在这方面相对较为保守。

3. 人才培养

在人才培养方面,美国一直是全球科技人才的聚集地,并且其在人才培养上的投入和机制健全程度保持全球领先水平。各类高校、科研机构和知名企业都为人工智能领域的人才培养提供了有力支持。

中国在人才培养方面也在加大力度,不断加大对科研团队和高校的资金投入,加速了人才培养的步伐。与此同时,中国政府提出了一系列政策鼓励年轻人从事信息技术和人工智能领域的学习和研究。

日本在人才培养方面一直非常重视青少年对科技兴趣的培养,努力加强基础技术与前沿科技在未来社会的应用。

总体来看,美国在人才培养方面仍保持领先地位,中国在加速人才培养的步伐,而日本也在积极推动青少年对科技兴趣的培养。

4. 政策与规划

在人工智能方面,美国政府与科研机构、高等教育机构和企业密切合作,加强对人工智能技术创新的支持。美国在人工智能伦理、法律等方面也进行了大量的研究和规划,为人工智能发展提供了全面的支持。

中国政府高度重视人工智能的发展,制定了一系列政策和规划,支持人工智能技术的研究和创新。同时,中国政府还积极推动国际合作,加强与世界各国的技术交流。

日本政府制定了相关政策和规划,支持人工智能技术的研究和创新。同时,日本注重产业链的完善和基础设施建设,为人工智能产业的发展提供了有力保障。

总体来看,美国、中国、日本政府均加大了对人工智能领域的支持力度,积极制定政策和规划,从政策层面为产业发展提供了保障。

03

中美日三国在人工智能领域的国际合作建议

综上所述,中美日三国在人工智能领域均有其独特的优势和长处,同时也存在着各自的瓶颈和挑战。相比之下,美国在技术创新、产业布局与人才培养等方面持续保持领先地位,其在政策规划方面也较为完善。中国在人工智能技术创新、人才培养和政策规划方面也取得了长足的进步,在产业布局上也已有较大提升。而日本在机器人、自动驾驶和智能制造等领域有着丰富的技术经验和积累,同时也正在朝着更多领域进行探索。

为进一步推动中美日三国在人工智能领域的发展,本文提出以下建议:

1. 加强国际合作。利用各国在人工智能领域的技术优势和资源,开展国际合作研究,共同推动人工智能技术的发展。

2. 推动产学研深度融合。鼓励学术界与企业深度合作,在人工智能领域推动技术创新。

3. 提高人才培养水平。各国政府和高校应加大对人工智能领域的人才培养投入,培养更多高素质的人才。

4. 完善政策和规划。加强对人工智能领域的政策和规划制定,为人工智能产业发展提供更加有力的支持。

通过上述措施的落实,可有助于推动中美日三国在人工智能领域的共同发展,为全球智能科技的进步与发展贡献力量。

奖池100000元!2023年电力行业AI创新大赛等你来战!

由电力行业人工智能联盟、南方电网公司主办的

“2023年电力行业AI创新大赛”

已全面启动!

本次大赛聚焦“安全生产”电力数字化领域,以“输配电导线断股、散股缺陷智能识别”为赛题,旨在促进输配电线路缺陷检测技术方面的研究和创新,保障电力安全可靠供应。

大赛将邀请来自全国的

科技企业、高等院校和科研机构

在由南方电网公司自主研发的

电力行业人工智能创新平台竞技

本次大赛是电力行业首次面向全社会举办的在线AI赛事,采用线上报名、线上开发、线上提交、线上评测的比赛流程。参赛者利用平台提供训练数据集,在规定的时间内完成算法开发,并按照赛事要求提交算法模型。

赛程安排

01

(1)赛事报名:2023年11月17日至2023年11月27日18:00

(2)算法比赛:2023年12月4日9:00至2023年12月12日18:00(3)答辩及颁奖:2023年12月下旬,具体时间待通知

参赛对象

02

(1)大赛面向社会开放,企业、高等院校、科研单位等人员均可报名参赛;
(2)大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛。

赛队组成

03

参赛者可以单人或者多人自由组队,每支参赛队伍的人数上限为3人,每人只能参加一支队伍。参赛者须保证所提供的个人信息真实、准确、有效。

划重点

综合成绩排名前六名的参赛者将获得:

▶ 一等奖(一名):
奖励3万元人民币奖金(税前)、3万元算力代金券,并颁发获奖证书。
▶ 二等奖(两名):各奖励2万元人民币奖金(税前)、2万元算力代金券,并颁发获奖证书。
▶ 三等奖(三名):各奖励1万元人民币奖金(税前)、1万元算力代金券,并颁发获奖证书。
▶ 此六名获奖者还将被推荐参加中央企业AI新基建创新应用大赛决赛(全国赛)。

一、赛题简介

本赛题旨在探索人工智能技术和输配电线路巡检中导线断股、散股缺陷识别融合应用,利用计算机视觉技术实现输配电导线断股、散股缺陷智能识别。赛事方提供训练数据集,参赛者基于比赛平台在规定的时间内完成算法开发,实现输配电导线断股、散股缺陷自动识别。

二、赛程安排

(一)赛事报名(赛事发布之日起-2023年11月27日18:00)

参赛者登陆电力行业人工智能创新平台(https://ai.csg.cn),进行线上报名信息填写及上传相关附件。附件包括单位任职证明材料(提供所属单位劳动合同(或社保证明或学生证))、签字扫描版保密协议(模板在报名页面下载)、技术方案(参赛队伍可依据赛题内容及技术方案评审要素自行拟定技术方案)。一经报名,不允许调整赛队人员组成。

大赛工作组根据线上报名队伍数量,决定是否进行报名初筛。若初筛则由评审专家组对参赛队伍提交的技术方案按选择的框架进行分组评审打分,根据得分排名确定进入算法比赛的参赛队伍。技术方案相关评审要素和评分规则详见下表:

本赛事设立报名咨询QQ群(群号:724867619)。参赛选手可自行加入报名咨询群,申请进群时需备注单位名称、真实姓名,经大赛工作组工作人员审核后入群。同时各参赛选手也可在电力行业人工智能创新平台“AI社区”提问。大赛工作组在报名咨询QQ群、AI社区针对赛题、赛事规则、报名流程等问题进行答疑。

通过初筛进入算法比赛的参赛队伍在电力行业人工智能创新平台进行公示。

(二)算法比赛(2023年12月4日9:00-2023年12月12日18:00)

参赛队伍指派算法比赛人员,在电力行业人工智能创新平台开展算法比赛,不得随意更换参与算法比赛人员。如算法比赛时间有变动,由大赛工作组通过短信、邮件、电话的形式通知各参赛队伍联系人。

本赛事设立算法比赛答疑QQ群(群号:369176741)。通过报名审核的参赛队伍的算法比赛人员自行加入,申请进群时需备注单位名称、真实姓名,经大赛工作组工作人员审核后入群。在算法比赛期间,大赛工作组对各参赛选手提出的问题经过评估后需要受理的,可在算法比赛答疑QQ群、AI社区进行澄清。

本赛事不支持参赛选手上传样本、代码、脚本等数据,只可基于平台提供的训练数据在线进行算法开发。

算法比赛期间,参赛选手可自行在比赛平台提交模型开展评测,模型评测成功后可看到自己的得分和排名,每支参赛队伍最多可在平台成功评测模型20次。模型评测成功后平台自动提交本次评测模型并参与算法排名。在算法比赛结束前参赛队伍也可以手动选择评估过的模型进行提交并参与算法排名。若算法比赛结束前参赛队伍未能提交一个评测成功的模型,算法得分成绩为0分。各参赛队伍可在平台上看到排名进入前十队伍的得分及排名情况。

算法比赛结束后,根据参赛队伍提交模型评测得分从高到低排名,排名进入前十的参赛队伍,在电力行业人工智能创新平台进行公示。

(三)答辩及颁奖(2023年12月下旬(具体时间地点另行通知))

算法比赛排名前6的参赛队伍可晋级答辩及颁奖环节。各晋级队伍需提前准备答辩汇报PPT,包括算法方案、算法核心代码、参赛总结等。在答辩会现场,每支队伍有15分钟的答辩时间和10分钟的回复评委提问时间,评审专家组将根据选手的方案陈述及现场问辩表现进行现场评分(百分制)。答辩评分相关评审要素和评分规则详见下表:

最终分数将根据参赛队伍的算法成绩和答辩成绩加权得出,评分权重为:算法成绩占70%,答辩成绩占30%。最终成绩综合算法成绩和答辩成绩加权,评选出大赛奖项。

三、参赛说明

(一)参赛对象

(1)大赛面向社会开放,企业、高等院校、科研单位等人员均可报名参赛。

(2)大赛组织机构单位中涉及题目编写、数据接触的人员禁止参赛。

(二)赛队组成

参赛者可以单人或者多人自由组队,每支参赛队伍的成员上限数量为3人,如果是多人团队,则需指定1名联系人,负责沟通事宜。每人只能参加一支队伍,一旦发现某参赛选手以注册多个账号的方式参加多支队伍,将取消相关队伍的参赛资格。参赛选手报名须保证所提供的个人信息真实、准确、有效。

四、大赛平台

参赛队伍基于公网部署的电力行业人工智能创新平台开展模型的训练和评估。赛前签订数据保密协议,比赛过程不得将数据拷贝至私人存储介质,一经发现取消参赛资格,并追究责任。本次大赛采用的深度学习框架及算力包括华为MindSpore+昇腾910 Pro B,百度PaddlePaddle+昆仑R200,商汤SenseParrots+寒武纪MLU290。

五、奖项设置

本次大赛对综合成绩排名前六名的参赛队伍颁发奖励,具体奖励如下:

一等奖(排名第一名):3万元人民币奖金,3万元算力代金券,颁发获奖证书。

二等奖(排名第二、三名):2万元人民币奖金,2万元算力代金券,颁发获奖证书。

三等奖(排名第四、五、六名):1万元人民币奖金,1万元算力代金券,颁发获奖证书。

(以上奖金均为税前)

  对综合成绩排名前六名的参赛队伍推荐参加中央企业AI新基建创新应用大赛决赛(全国赛)。

六、注意事项

1.本次大赛作品内容不得涉及国家秘密、公司机密,不得侵害其他任何合法权益。

2.参赛者享有本次大赛作品的著作权、知识产权,南方电网人工智能科技有限公司拥有本次大赛作品的使用权。

3.本次大赛各参赛队员应诚信参赛,禁止各类形式的违规参赛、作弊等行为,严禁剽窃,一经发现将取消参赛资格。

4.本次大赛相关细则解释权归属主办单位,未尽事宜由大赛工作组另行通知。

七、大赛组织

主办单位:电力行业人工智能联盟、中国南方电网有限责任公司

承办单位:南方电网人工智能科技有限公司

协办单位:南方电网数字传媒科技有限公司

赞助单位:华为技术有限公司

OpenAI再投教育公司,AI切入作业批改


随着OpenAI今日在社交平台上宣布奥特曼将重返OpenAI担任首席执行官,这场持续高热度的“ChatGPT之父被解雇”的连续剧暂时落幕。

OpenAI作为这一波AIGC浪潮的引领者之一,一举一动都引人注目,今年,OpenAI还成立了创投基金OpenAI Startup Fund,最初几笔投资分别进入了教育、法律、办公以及视频等领域的四家初创企业。

今年十月,总部位于旧金山的Class Companion平台宣布其获得400万美元种子资金,本轮交易由Index Ventures牵头,OpenAI创投基金也参与其中,包括OpenAI的创始研究科学家,特斯拉前AI高级总监。该公司表示,400万美元的资金将推动扩大其团队和增强产品。

Class Companion也是OpenAI在教育领域投资的三家公司之一,此前还曾在教育领域投资Speak平台,这是一个人工智能的口语训练平台,与其类似真人老师口语教学平台不同,Speak 最大的特点是通过AI导师基于对话内容,提供实时的反馈。

在OpenAI官网的分享中,很早就提到了OpenAI对于教育工作者如何使用ChatGPT加速学⽣学习以及帮助教育⼯作者开始使⽤AI⼯具的探索,Class Companion则以其“人工智能不能取代教师”的核心理念获得了青睐。

01

即时的作业反馈平台,为教师减轻负担

从官网公开信息来看,Class Companion是一个新兴的AI平台,由首席执行官艾弗里·潘 (Avery Pan) 和杰克·福布斯 (Jack Forbes) 共同创立。主要用于辅助教师批改书面作业,使教师能够向学生提供即时的个性化反馈,并支持每个学生按照自己的节奏学习,老师可以使用AI平台来给学生布置作业,产生反馈并获得对进度的见解。

Class Companion使用大型语言模型,通过提供书面作业的即时个性化反馈,教师定制作业,邀请学生提交答案。除了详细的反馈外,Class Companion还对学生提供提示和上下文知识,修订建议以及对进度的认可。教师在整个过程中都具有充分的可见性,并且可以超越AI拥有最终决定权。

如图所示,Class Companion给出相应的题目——简述美国外交政策,学生Carlos在紫色对话框内作答完成后,Class Companion给出了绿色部分的答案分析和改进空间。

Class Companion的创立,来源于联合创始人艾弗里·潘 (Avery Pan) 对家人的观察,她的母亲是英语教授,因此,她十分理解教师批改作业时的矛盾——既想要及时给学生反馈,又想给予准确的评价。

在Class Companion的官网,有这样一段写给教师的话:“你努力为学生做你能做的一切,但一天只有24小时,我们的任务是克服这一限制。我们可以为学生提供无限的练习和即时反馈,而不会使教师工作负担加重。你能感觉到学生自己产生动力去纠正错误,并为自己的进步感到自豪。”

她与联合创始人杰克·福布斯 (Jack Forbes) 合作,杰克·福布斯 (Jack Forbes) 是一家由Y-Combinator支持的公司的前创始人,也是Masterclass的技术主管,Masterclass的母亲在班布里奇高中 (Bainbridge High School) 工作。当ChatGPT引起教师对作弊的担忧时,Pan和Forbes因他们共同的信念而建立了联系,即AI可以用来更好地帮助老师和学生,他们决心与教师合作,创造一个为教师服务的新工具。

教师可以通过深入报告来跟踪学生的进度

投资者对Class Companion的兴趣标志着人们对使用人工智能作为教育工具的热情。GPT-4和克劳德等大型语言模型引发了对人工智能的新思考——人工智能是否能增强学习的潜力?

自六个月前软启动以来,全美已有5,000多所学校采用了Class Companion,这凸显了学校对人工智能教学工具的需求。

Class Companion主张在学生完成作业后立即提供反馈,研究表明,及时的反馈对学习至关重要,但是,传统的家庭作业通常会在学生做作业和老师批改作业之间造成滞后,从而降低其有效性。

而人工智能的加入,使作业批改中大规模的及时反馈成为可能,Class Companion可以分析学生错误,以提供个性化的改进策略,学生可以第一时间知道自己的学习情况。

值得注意的是,Class Companion并不完全依赖人工智能。它鼓励学生与教师的互动,教师可以定制作业和主题以进行反馈。如果学生对于人工智能生成的反馈有不解,也可以和老师直接沟通,以增强学习体验。

这家初创公司在其融资公告中就强调了“教师优先”的原则:“如果我们想使用人工智能来改善教育,我们需要更多的老师。”在Class Companion的理念中,人工智能只是教师的辅助工具,最终的成绩判定还是交由老师。

艾弗里·潘总结了Class Companion的目标:“我们重新构建工具,使教师能够有效地提供严格的个性化教学。”

03

以教师为核心,以AI为工具

将人工智能整合到课堂上,核心并不是取代教师,而是让AI辅助教学。

艾弗里·潘在谈到Class Companion时说:“如果我们想使用人工智能来改善教育,我们需要更多的老师。Class Companion利用最复杂的人工智能改善教师的课堂体验,开发专门针对教师的技术,用于支持下一代学生和教育系统。”

当学生收到即时反馈和纠正错误的机会时,他们会学到最好的东西。根据研究,当给学生一个安全的练习环境和允许犯错误的氛围时,他们学习的积极性很高。

成千上万的老师使用Class Companion时,给出的反馈是:Class Companion能让他们观察到更高效的学习和更有学习动力的学生。学生很喜欢这个平台,因为它使得学习更加愉快,学生不需要等待一周才能得到作业反馈,过往的学习中,漫长的批改、反馈时间使学生早已忘记了之前的学习任务。

圣马力诺高中的老师、Class Companion的顾问彼得·帕科内说:“Class Companion是游戏规则的改变者,使我们能够快速覆盖更多材料并加深讨论。”

指数风险投资公司合伙人尼娜·阿查德健评论道:“Class Companion为教师创造了一种无缝的方式,可以利用尖端的人工智能技术,为教师和他们的学生提供更好的学校体验。”

杨元庆:AI PC将具备五大特质

11月22日,“《财经》年会2024:预测与战略”在北京举办,联想集团董事长兼CEO杨元庆在年会发表《加快新IT技术创新,促进人工智能普惠》主题演讲。演讲中,他系统阐述了联想对人工智能大模型技术浪潮的洞察与业务布局,还首次完整定义了未来AI PC(人工智能电脑)所具备的五大特质。

核心观点

  • 合式人工智能成为未来发展趋势

杨元庆在演讲中提到,丰富多样的公共大模型为人们带来了高效与便利,但同时也带来了很现实的问题,即如何在享受大模型带来的效率红利的同时,能够有效保护隐私和数据安全。杨元庆认为,通过公共大模型和私有大模型(个人/企业级大模型)的混合并用,可以实现这样的“既要-又要”。未来的人工智能大模型将会是公共/企业/个人大模型共存的混合式的人工智能。

  • 大模型算力需求将向边缘侧和端侧下沉

杨元庆指出,混合式人工智能的实现离不开强大算力基础设施支撑。目前大模型的用户规模还比较小,大多数大模型都在算力较强的公有云上训练。未来,随着用户规模扩大,无论是出于数据安全和隐私保护的考虑,还是更高效率、更低成本响应用户需求的考虑,大模型的计算负载将逐渐由云端向边缘侧和端侧下沉,越来越多的人工智能的推理任务将会在边缘和设备端进行,这使得个人大模型更加成为必要和可能。而要构建和优化大模型,支持更多生成式人工智能的应用,不仅需要提升云端的算力,在边缘和端侧也需要更强大算力的配合,形成“端-边-云”混合计算架构下更平衡的算力分配。这让能够支持运行个人大模型的AI PC成为顺应大模型发展趋势的必然和必需。

  • AI PC支持个人大模型运行,具备五大特质

杨元庆在演讲中提到,相较于今天的个人电脑,未来AI PC将具备五大核心特质:

1、AI PC能够运行经过压缩和性能优化的个人大模型;

2、具备更强的算力,能够支持包括CPU、GPU、NPU在内的异构计算;

3、具备更大的存储,能够容纳更多个人全生命周期的数据并形成个人知识库,为个人大模型的学习、训练、推理、优化提供燃料;

4、具备更顺畅的自然语言交互,甚至可以用语音、手势跟它完成互动;

5、具备更可靠的安全和隐私保护。

“你未来的人工智能个人电脑,既能够作为公共大模型的入口,又能独立运行个性化的私有大模型,它掌握最全面的个人数据和信息,又能严守你的秘密。只有你能唤醒它、使用它,同时也只有它最懂你,远胜于公共大模型。”他解释。//
附:杨元庆演讲全文

各位来宾,朋友们,大家好!

很高兴再次参加财经年会。2023临近尾声,如果要给今年的科技行业总结一个关键词的话,我想应该非“人工智能”莫属。今年以来,ChatGPT带动起来的生成式人工智能、大模型热潮,成为人工智能应用普及的加速器、催化剂,提速了各行各业的智能化转型。我们都真切地感受到,人工智能变得比以往任何时候都更加真实,与每一个人、每一家企业都越来越息息相关;我们也深刻地认知到,所有行业、所有场景都可能被人工智能重塑,这让我们对未来有了更多的憧憬,更多的期待。

混合式人工智能将成为未来发展趋势

实际上,人工智能诞生至今已经有70多年历史,现在大热的大模型其实只是人工智能技术的一个分支。大模型技术的创新突破,让众多公共大模型如雨后春笋般涌现,公共知识库的丰富性显而易见,无论是作为平台型应用,还是切入各种行业应用场景,都给我们带来了高效与便利,让我们真正感受到了“智能”的意义。

但这里也存在一个现实问题,那就是要想让公共大模型在跟你对话时,提供你想要的正确、恰当的内容,你就必须告诉它真实想法,提供真实信息,而那样的话,你的个人数据甚至隐私,还有企业的商业机密就变成了公众信息的一部分。实际上,人们既希望拥有跟大模型交互带来的高效便利,又希望自己的数据只留存在自己的设备上或只在企业内部流动。是否可能做到这样的“既要-也要”呢?我认为,通过公共大模型和私有大模型,包括个人大模型/企业级大模型的混合并用,是可以实现的。

所谓个人大模型,是指部署在个人智能设备或家庭服务器上,使用存储在本地的个人数据进行推理和学习的人工智能基础模型。它不仅仅可以像公共大模型那样通过对话提供答案、创作内容,而且更加精准、贴切,甚至根据你的思维模式预测任务,并自主寻找解决方案。除非用户授权,否则用户的个人数据不会被共享或发送到公有云,从而确保了个人隐私和数据安全。

而企业级大模型是指使用从企业内部的智能设备、智能边缘提取的数据,以及存储在私有云上的数据和知识库进行推理、学习并训练优化的人工智能基础模型。它能够根据企业的业务场景和应用需求,归纳整合出判断和结论,并提出决策建议。它部署在企业内部,能确保相关信息的私密和安全。

我认为,未来的人工智能大模型将会是个人、企业和公共大模型共存的混合式的人工智能,这跟公有云、私有云和混合云的概念是一脉相通的。

我举个例子,来体现企业级大模型和公共大模型如何协同作用。当台风即将来临时,企业可以通过公共大模型得到台风的准确位置、风力预测,但涉及到具体哪些客户的订单交付可能受到影响,就是企业级大模型大显身手的时候了——它能够告诉我们,客户A的订单尚未生产,可能受到工厂暂时关闭的影响;客户B的订单尚未运输,可能受到陆运中断的影响;客户C的订单尚未排产,可能受到物料延误的影响。有了这些信息,模型还能进一步给出优化运输方式、调整订单排序等建议,保障按优先级出货、交付。这样的行业智能化解决方案,对于企业供应链高效管理是非常有意义的。

而混合式的人工智能要如何实现呢?这离不开基于 “端-边-云-网-智”的新IT技术架构的支撑。大模型的构建需要对海量的数据进行训练、推理,计算量爆发式增长,对计算力提出了极高的要求。同时,随着人工智能应用的深入,训练和推理的计算负荷比重也将发生重大变化,从而对计算的配置提出了新的要求。

目前,大模型的用户规模还比较小,大多数大模型都部署在公有云上,借助那里更强大的算力资源,其计算负载主要用于模型的训练。未来,随着每个人都要使用大模型,用户规模不断扩大,用于推理的计算负载需求将迅速提升,很快会超过训练的计算负载,那时候在公有云上完成所有的训练和推理任务就会让效率低、成本高的问题日益凸显。

因此,无论是出于数据安全和隐私保护的考虑,还是更高效率、更低成本响应用户需求的考虑,大模型的计算负载,将逐渐由云端向边缘侧和端侧下沉,越来越多的人工智能的推理任务将会在边缘和设备端进行,使得个人大模型和企业大模型的运行更加成为必要和可能。所以,要构建和优化大模型,支持更多生成式人工智能的应用,不仅需要提升云端的算力,在边缘和端侧也需要更强大算力的配合,形成“端-边-云”混合计算架构,实现更加平衡的算力分配。

联想:拥有全景式AI业务生态

早在6年前,联想已经预见了人工智能将会带来的时代机遇,开始推进智能化转型,从智能物联网终端、智能基础设施和行业智能三个维度入手,围绕“端-边-云-网-智”新IT技术架构,加大投资技术创新,加快以解决方案和服务为导向的业务转型,致力于成为各行各业智能化转型的引领者和赋能者。

现在,联想的智能化转型开始步入收获期,形成了包括人工智能导向、人工智能优化、人工智能赋能的终端、基础设施和方案服务在内的全景式人工智能业务生态。

在智能终端方面,我们拥有个人电脑、手机、平板、AR/VR、工作站等各类智能设备,并且在不断提升它们的智能计算能力。在前不久的联想创新科技大会上,我们还展示了即将发布的AI PC人工智能电脑。

相较于今天的个人电脑,未来的AI PC能够运行经过压缩和性能优化的个人大模型,它将实现这样几个“战斗力”的突破性升级:第一是更强的算力,能够支持包括CPU、GPU、NPU在内的异构计算;第二是更大的存储,能够容纳更多我们个人全生命周期的数据并形成个人知识库,为个人大模型的学习、训练、推理、优化提供燃料;第三是更顺畅的自然语言交互,我们可以用语音、手势跟人工智能个人电脑来互动;第四是更可靠的安全和隐私保护。也就是说,你未来的人工智能个人电脑,既能够作为公共大模型的入口,又能独立运行个性化的私有大模型,只有它能够掌握你最全面的个人数据和信息,又能严守你的秘密。只有你能唤醒它、使用它,同时也只有它最懂你,远胜于任何一个公共大模型。

举个例子说,如果你想做个旅行计划,即使你在飞机上,在不联网的状态下,你也可以跟你的电脑对话,甚至不需要告知你的需求和偏好,电脑也会为你推荐你心仪的航班、酒店、路线、餐厅等等。未来你的电脑、你的手机,亦或是你的汽车,就像是你个人的数字延伸、数字镜像,成为你个人的人工智能双胞胎,大大提升你的生活品质和工作效率。

在智能基础设施方面,联想是全球第三大的人工智能基础设施和服务器供应商,也是第三大存储厂商。全球最快的500套高性能计算机中,联想连续多年保持1/3左右的上榜总数,稳居全球第一。我们的算力基础设施产品包括了服务器、存储、网络、软件等,全面覆盖数据中心、公有云、私有云、边缘计算等各类计算场景,能够为人工智能大模型的训练、推理需求提供强有力的支持。我们还搭建了联想混合云平台,能够实现云原生、智能运维、私有云和多云管理等目标;而我们的服务品牌“臻算”,能够为用户提供按需付费、可订阅式的算力服务。

在行业智能解决方案方面,联想首先自身就是智能化转型的先行者,通过自研技术建立起覆盖“研发-生产-供应-销售-服务”全价值链的智能化管理体系。现在,我们把自身的转型经验提炼出来,形成积木式通用解决方案(building block),包括数字化办公空间解决方案、混合云解决方案、人工智能导向的边缘计算平台等等,并把它们嵌入到垂直行业的智能化整体解决方案中,比如智能制造、智慧教育、智慧政务、智慧金融、智慧医疗等等。现在,我们已经为包括三一重工、吉利汽车、蔚来汽车、宁德时代等近千家大型行业企业提供了智能化转型方案。我们的混合式人工智能解决方案和专业服务致力于打造企业人工智能双胞胎,将为混合式基础设施与人工智能在企业的落地应用提供有力支持。

让智能惠及每一家企业、每一个人

技术创新总是激动人心,因为它能切切实实提升社会生产效率,让人们的生活和工作方式更加便捷。在中国经济转型升级、实现高质量发展的进程中,生成式人工智能、大模型在各行各业的落地,人工智能跟实体经济场景的融合应用,也就是“数实融合”,正在成为经济增长的新动能和新引擎。

自创立以来,“计算”一直是联想的基因和底色。近几年,我们把人工智能和计算作为联想的两个技术锚点,围绕“新IT”持续投资技术创新,致力于让人工智能更加易得、更具包容性,让人工智能惠及每一家企业、每一个个人。当然,人工智能的发展离不开百花齐放的产业生态和应用场景,我们也愿意与各行各业的企业携手合作,共同提速千行百业的智能化转型,助力经济实现高质量发展,为智能化社会的美好未来贡献力量!

谢谢大家!

Open AI“内讧”背后的隐情?

这两天比较轰动的消息是人工智能初创公司Open AI突然对外宣布公司首席执行官山姆·奥特曼(Sam Altman)将离开公司,同时公司的CTO米拉·穆拉蒂(Mira Murati)被任命为临时CEO。

我们先来简单介绍一下这位刚刚被“炒掉”的CEO,奥特曼被誉为“ChatGPT“之父,从小8岁便有了自己的第一台电脑,更令人惊讶的是8岁的奥特曼已经掌握了编程技巧。在他19岁的时候,他选择了辍学,并创办了自己的第一家初创公司Loopt。

Loopt的成功也引起了Y Combinator创始人保罗·格雷厄姆的关注,随后Loopt顺利获得了Y Combinator的注资,奥特曼也逐渐成为旧金山地区最成功的初创者之一,保罗·格雷厄姆甚至认为年轻的奥特曼以后将成为与拉里·佩奇,史蒂夫·乔布斯齐名的世界顶级CEO。

2015年奥特曼与阿隆·马斯克、Pay Pal创始人彼得·蒂尔等硅谷科技大亨共同创立了Open AI,我们熟知的ChatGPT正是来自Open AI公司的聊天机器人。

在今年人工智能爆发的背景下,ChatGPT的火热席卷了整个互联网。ChatGPT有多火热?我们用一组数据来说明。

我们熟知的一些知名APP,比如Instagram用了30个月才将常用用户扩大到了1亿,在全球范围内垄断的打车软件UBER也用了超过70个月才达到一个亿用户的目标,强如TikTok(抖音)也用了9个月。

但是ChatGPT仅仅用了2个月就将此前TikTok的记录打破,成为历史上增长最快的消费类应用程序。

这次奥特曼被董事会解雇,原因众说纷纭,多少令人感觉有些蹊跷,确实我们在以前的新闻中很少听说一个公司的CEO可以如此轻易的就被炒掉的。

其中一个比较重要的原因在于Open AI公司独特的组织控股结构,Open AI一直对外宣称是非盈利组织,而且实行Capped Profit商业模式。

什么是Capped Profit呢?直接翻译过来就是有限盈利,指的是对公司可以赚取的利润进行限制,这类商业模式的重点是为更大的利益做出贡献,也就是我们常说的社会企业,而不是普通商业公司追逐的对自己利润最大化。

有限盈利和完全的非盈利组织其实还不一样,有限盈利模式介于普通商业公司和非盈利组织之间。

因为最开始Open AI确实是一家非盈利组织,但在2019年时发现无法与强大的对手竞争,才改成的居于盈利和非盈利之间的限制盈利模式。

这个限制盈利模式是如何实行的呢?Open AI在其组织架构下分拆出了一家具有营利性的子公司叫做OpenAI Global,LLC。

OpenAI Global,LLC就是后面可以接受“金主”股权投资的代表分支机构,也就是后面微软注资的承接方。

有趣的是,这个限制盈利的子公司还是会受到Open AI非盈利组织的控制,因为非盈利组织拥有了51%的股权,非盈利组织又受到最终董事会的控制。

具体结构如下:

董事会有6个人,其中真正跟Open AI有关的只有:

1、Sam Altman, Open AI的CEO;

2、Ilya Sutskever,Open AI首席科学家;

3、Greg Brockman,Open AI总裁;

其他三人:

1、Adam D’Angelo,美国知乎Quora的CEO;

2、Tasha McCauley,科技企业家;

3、Helen Toner,乔治城大学安全与新兴技术的主任;

这6人组成的董事会是非盈利组织的董事会,所以只对非盈利组织负责,限制盈利组织以及微软等资方股东虽然有股权但却没有话语权,这是与其他企业不一样的地方

网络上也将奥特曼自己设计的这种组织结构戏称为“作茧自缚”,因为有股权的却没有话语权,真正在董事会有投票权的只有以上6个人,而上面的6个人中竟然还有3个人跟Open AI没有利益联系,因为他们代表的是外部利益。

对于这次Open AI内部“政变”,当事人Greg Brockman回应为是首席科学家IIya Sutskever事先与其他三位与Open AI没有利益联系的独立董事的一场“密谋”。

这场闹剧最后也以CEO奥特曼的离任和董事长Greg Brockman董事席位的解除画上句号。

那么是什么导致Open AI的首席科学家与奥特曼造成了如此强烈的分歧,最终导致内部“政变”的呢?

从Open AI的官方通报上来看,表面上是因为奥特曼对董事会的沟通不够坦诚,违背了Open AI此前以更大的利益为目标(非盈利属性)的价值观。

奥特曼其实以前一直就有这个问题,最早在Y Combinator的时候,奥特曼公司的订单眼看着就要被竞争对手抢走,奥特曼特意邀请客户到公司进行实地考察。

结果客户来公司看的时候,被公司的规模以及员工的精神状态所感染,最终决定和奥特曼签下订单合同;但其实公司一派繁荣的景象都是奥特曼花钱雇来的演员,实际公司规模只有5个人。

此外,奥特曼最早在Y Combinator工作的时候,还自己私自开了一个类似于“老鼠仓”的账户,因为Y Combinator是美国著名的企业孵化器和初创投资公司,奥特曼对于处在种子期的公司状态了如指掌,所以怎么投才能最赚钱他比谁都清楚。

但那时候的老板保罗·格雷厄姆因为极度看好他,还将他比作未来的乔布斯,所以在Y Combinator干这些事的时候,老板也没有直接将事情“挑明”,造成了奥特曼特立独行的自由派行事风格。

当然这些都是奥特曼自身行事是问题,当然他与首席科学家的主要价值观上的分歧还在于人工智能的发展方向上。

奥特曼和Greg Brockman认为Open AI的发展方向应该放在工程化和产品化上面,应该更快的让新的研究成果商业化服务于大家。

而首席科学家IIya则认为Open AI应该将更多资源投入到AI的道德与安全问题,尤其是在Super Alignment(超级对齐)上。

说白了,这其中的分歧点其实就在于“商业VS非盈利”之间的冲突,首席科学家IIya不希望因为过快的商业推进影响了Open AI以非盈利研究为导向的价值观。

根据最新的投票显示,84%的全网民众都认为此次“内讧”的原因是因为违背了非盈利组织的价值观

人工智能中Super Alignment(超级对齐)的意义在于让人工智能和人类的价值观形成统一。

虽然想象很美好,但实际上在连我们人类自己的价值观都没有形成对齐前,就让AI与人类对齐其实仍然还有很长距离。

人类社会自古以来价值观从来没有做到过统一,不然世界上也不会有这么多冲突战争以及种族之间的对峙了。

所以相比于对齐,AI安全其实更应引起我们的重视,因为AI的进化不可避免的会带来对人类“反噬”的效果。

我们以AI领域著名的“AI回形针”来做说明,大概意思是人类给AI布置了生产回形针的任务。 

AI不满足单纯的重复性生产过程,在AI发现可以将回形针的原材料做成成品出售后,如果利用利润再购买更多的生产资料生产回形针就会让产量增加;

此外如果动用融资杠杆扩大企业规模的话或者研发更有效率的生产设备也将会给产量带来质的变化。

最终全世界都会充斥着AI生产的回形针,于是人类叫停了AI的行为;


但是AI此时发现人类叫停他的行为严重妨碍了回形针的生产,直接对人类进行反制措施,最终人类被AI“反噬”,所有的起点只不过是一个简单的制造回形针指令。

如今的AI已经发展到可以替代部分人类劳动力的程度了,不知大家有没有注意到现在的大街上的送快递和外卖的“小黄车”已经越来越多。

还有一些城市中已经实现了网约车的无人驾驶,这些都会对我们的传统行业形成降维打击,越来越多的工作将会被AI取代。

AI与人类的发展不可避免的存在着“制约”与“反制约”之间的矛盾,我们也希望最终能够看到Open AI真正能够将人工智能的价值观与人类对齐的那一天,让AI成为我们真正的助手而不是我们失业的“导火索”。

突发,全球AI巨震!

周五盘后据报道,海外AI巨头OpenAI董事会宣布开除CEO Altman,理由是他与董事会沟通时不能始终坦诚,妨碍了董事会履行职责,董事会不再相信他继续领导OpenAI的能力。同时,OpenAI 董事长兼总裁Brockman也被逐出董事会,首席技术官Murati被任命为临时CEO。

Altman是OpenAI的创始人,2015年与马斯克等人共同创立了OpenAI,以促进人工智能的开放性研究和合作为宗旨,在他的带领下,OpenAI已成长为全球AI领军企业,2024年的收入可达数十亿美元,所以Altman有关的人事变动无疑是美国甚至全球AI产业链的一场巨震。
在事件发生之前,董事会有6名董事,包括董事长Brockman,首席科学家utskever,CEO Altman,以及三位独董,所以外界目前猜测主导这场事件的是OpenAI首席科学家Sutskever,一直以来两人在OpenAI的发展方向上存在分歧。
Altman致力于推动研发下一代GPT并快速商业化,Sutskever则表示首要任务不是制造下一代GPT,而是研究如何阻止超级人工智能失控。在今年11月6日举办的OpenAI开发者日活动上,Altman宣布了 “GPTs Store” 平台商店等商业战略,可能进一步激化了Sutskever与他的矛盾。
变动发生后,微软作为Open AI的大股东,其CEO 在社交媒体上表示:“我们与OpenAI签订了长期协议,我们将继续合作。” 周五美股收盘微软下跌1.7%。
但需要注意的是,事情并未到此结束,周日有美国媒体称微软并不支持Open AI解雇奥特曼,并且正在帮助奥特曼恢复其在Open AI的管理职务,并将改组Open AI的董事会。随后,Altman在社交媒体X上发文“i love the openai team so much”,即暗示自己马上要回到Open AI。
总之,该事件仍然保留了悬念。

从影响来看,如果本次Altman真的离职,那么可能会有以下几个影响:

1. 新的管理层更注重AI安全而不是快速商业化,可能会延缓GPT后续的推进和商业化进度,包括微软自身AI应用的商业化进度(所以美股微软先跌)。
2. 导致GPT4级别技术的扩散,OpenAI的上一次分裂产生了Anthropic,目前也是最接近GPT4的大模型,其他AI公司(如Meta,Google以及国内大模型企业等)可能利用OpenAI暂时的不稳定性,加快技术发展速度,减少与OpenAI的差距,将有更多的AI头部公司站出来。
当然,对整个AI产业的发展而言该事件的影响是有限的,归根到底仍然属于科技公司内部争端,此类事件在硅谷科技公司中并不少见,多年前苹果公司也出现过类似事件,最终并未改变产业的发展方向。

人工智能规模被低估,AMD被忽略了多少潜力?

AMD是可能从即将到来的人工智能(”AI”)热潮中获益最多的公司之一。市场可能低估了人工智能革命的规模。不过,这可能类似于上世纪 90 年代初、中期的互联网热潮,会让许多公司获得巨额财富。AMD 生产一些最先进的 GPU 和 CPU 处理器,它们是人工智能市场的 “镐 “和 “铲”。AMD 应保持在 CPU 和 GPU 技术的最前沿,从而在未来几年增加销售额,提高盈利能力,并大幅提高股价。

01

技术观点——未来可能还有更多上涨空间

短期内,AMD 可能会在此回调,但如果从长远角度看,上行空间更大。虽然 AMD 近期可能会经历一个温和的回调/巩固阶段,但下行空间很小,该股还有更大的上涨潜力,尤其是长期潜力。

02

人工智能热潮即将到来

人工智能热潮尚未到来,但它即将到来。AMD 首席执行官苏丽莎提到,人工智能仍然是公司 “最大、最具战略性的长期增长机会”。她预计,数据中心人工智能加速器市场将从今年的 300 亿美元增长到 2027 年的超过 1500 亿美元。这一动态代表着超过 50% 的显著复合年增长率

人工智能潜力的巨大规模令人难以想象,但总体人工智能市场规模可能会从现在的约 2080 亿美元扩大到 2030 年的惊人的 1.85 万亿美元。

全球人工智能市场规模预测

如果我们谈论的是那些在战壕里为人工智能热潮提供动力的锄头和铲子,那么像 AMD 和 Nvidia(NVDA)这样的公司在未来的发展中应该会非常出色。由于 AMD 的人工智能企业市场增长潜力巨大,我们应该会看到其收入加速增长。此外,AMD 正在将人工智能功能整合到其游戏芯片中,这应该会使需求增加,从而帮助 AMD 在未来从英特尔(INTC)手中夺取更多的市场份额。

近年来,AMD 在 CPU 市场份额上取得了长足进步。其在 “所有CPU “中的市场份额从2016年的17.5%翻了一番,达到约35%。此外,AMD 的发展势头稳健,其人工智能增强型处理器可能会继续从英特尔手中夺取市场份额,从而在未来几年实现高于预期的收入和利润。

03

AMD价格便宜,正在赶超Nvidia

AMD 目前的营收和每股收益预期可能偏低。一些分析师在对人工智能市场份额、定价能力、需求增长潜力等新因素进行定价时,往往会采取过于谨慎的态度。

共识收入预期——过于保守

我们目睹了销售额的环比下降,这主要是由于博彩收入的暂时放缓。出现这种下滑的原因是严峻的宏观经济因素和暂时性的经济放缓。随着经济低迷期的结束和经济开始复苏,游戏和普通笔记本电脑及台式机的销售额应该会大幅增长。此外,随着美联储放松超紧货币条件,企业服务器销售额也会大幅增长。因此,在未来几年里,我们可能会看到收入增长达到分析师预期的较高水平,大约每年增长 20%。

AMD 是唯一一家能有效挑战 Nvidia 在人工智能企业领域持续主导地位的公司。虽然 Nvidia 仍是无可争议的 GPU 领导者,但 AMD 的 MI300X 应该很快就能在利润超高的 AI 服务器/GPU 市场(镐和铲)上给 Nvidia 带来冲击。AMD 的新款 MI300X 芯片专为大型语言和尖端 AI 模型而设计。此外,MI300X 可以使用高达 192 GB 的内存,超过了 Nvidia 的竞争对手 H100,后者仅支持 120 GB。不过,尽管性能更好,AMD 的 MI300X 价格却低了约 3 万美元,这表明 AMD 可以对 Nvidia 施加价格压力,抢占市场份额。

04

底线:AMD每股收益将大幅增长
由于在 GPU 和 CPU 市场占据主导地位,AMD 的收入增长可能会比预期的更高更快。能够为人工智能提供动力的高品质芯片应该会有超高的需求,而 AMD 将在多年内处于获益的有利地位。AMD 和 Nvidia 的定价能力和不断扩大的需求可能会带来比预期更高的盈利能力,从而提高每股收益的增长,并使盈利远高于预期。


一致预计明年的每股收益为 3.77 美元。然而,随着人工智能需求的增长以及游戏和台式机/笔记本电脑市场的复苏,明年的每股收益可能会达到或超过 4.50 美元。2025 年,我们应该会看到类似的动态,AMD 的每股收益可能会远远超过 6 美元。由于 AMD 和英伟达(Nvidia)在 GPU 领域的双头垄断,AMD 将从随之而来的人工智能革命中大大受益。这种态势将推动 AMD 的销售额和每股收益的增长大大超出许多人的预期,从而导致市盈率和股价在未来几年内大幅攀升。

未来几年,随着收入增长重新加速、核心业务反弹和盈利能力提高,AMD 的每股收益增长应该会激增。AMD 的年增长率可能达到 20%左右,从而使收入和盈利能力大大超出预期。

05

AMD面临一些风险

AMD 面临着一些风险,包括来自 Nvidia、英特尔和其他公司的竞争。此外,充满挑战的经济环境仍是一个持续存在的问题。人工智能的需求可能比预期的要差,从而导致销售增长放缓,盈利能力不如预期。投资者在投资 AMD 股票之前,应该对这些风险和其他风险进行研究。

“你好,CEO”:大模型时代,李彦宏为什么说AI是一把手工程?

一石激起千层浪。11月15日,百度创始人李彦宏做了《AI原生时代:“冷”思考和“热”驱动》的主题演讲,并提出了一大核心观点——“拥抱AI时代,需要一把手来驱动”,极大地颠覆了行业认知。
如果说过去,技术部门及其掌舵人更多地被视作AI风暴中的弄潮儿,那么这一观点则把CEO的重要性提到前所未有的位置,与此同时,李彦宏道出了这背后的核心考量:“因为只有CEO才会关心新技术对自己业务的关键指标是不是产生了正向作用。”
诚如所言,事实上,结合近些年大模型火速发展的背景,以及迷茫与焦虑并存、在浪潮中竞渡的众互联网企业,便不难理解这一观点。
“计算不再只和计算机有关,它将决定我们的生存。”美国麻省理工学院教授尼葛洛庞帝在《数字化生存》一书中的预言,正在我们的生活中实现。近两年,以云计算、大数据、人工智能、5G为代表的Cloud2.0新技术集群的飞速发展,尤其是在当下,大模型和生成式人工智能所带来的机遇更是堪比工业革命的大机遇。
然而,置身于AI风暴漩涡,众多互联网企业虽然感受到了时代激动人心的召唤,却一时不免茫茫然。如何在数字革命中蓬勃发展,利用大模型、生成式人工智能提升竞争力?大多数企业仍然处于“摸着石头过河”状态。
最关键的是, IT负责人等技术人员虽然手握技术,却往往视阈有限,好比盲人摸象,各执己见,陷入以大模型炫技为主的“技术大乱斗”,而非从业务需要出发,于高处推动全盘发展。如果群龙无首,大模型巨轮或无法启航,或有头无尾,在中途抛锚。
正因如此,在大模型时代,“兵熊熊一个、将熊熊一窝”效应进一步凸显了出来——无论企业规模大小,CEO都是驱动AI发展的核心力量,他们的决策和领导将决定企业在大模型浪潮中的命运。

为什么CEO至关重要:值得警惕的“大模型陷阱”
在演讲中,李彦宏首先尖锐地指出行业存在的通病。事实上,CEO之所以至关重要,是因为IT负责人往往不具备高屋建瓴、统筹公司全盘的能力。并陷入“大模型陷阱”中。
“我见到很多企业,上上下下都很重视这次机会,但是对问题的本质理解不深,CEO把这个任务交给IT负责人,IT负责人和工程师天天痴迷于‘震撼发布’、‘史诗级更新’、‘iPhone时刻’、‘炸裂’等宏大叙事,都想去自己搞个基础模型,或者执着于去挑选一款评分高的大模型。”
李彦宏认为,大家就以为这是拥抱AI了,殊不知大模型本身不仅不产生任何价值,还造成了对公司资源、社会资源的巨大浪费。”
诚如所言,“为了做大模型而做大模型”只是一种追风口的投机行为,不具备真正的底层内驱力,往往流于形式主义。事实上,基础模型看似有无限可能,实际上只是一个模具,需要根据业务需求铸浇成型,方才具备灵魂,而这便是大模型之上的AI原生应用,然而,在当下,行业往往背本逐末。
截止10月份,国内已经发布了238个大模型,而6月份的时候仅存79个,相当于4个月就翻了3倍,而AI原生应用却寥寥无几。

“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。而我认为,人类进入AI时代的标志,是出现大量的AI原生应用,而不是出现大量的大模型。”
正是基于李彦宏的宏观统筹能力,在此前,基于实际需求,百度已然把AI能力全方位注入到了已有的产品中,尤其是搜索、地图、文库、网盘等ToC产品;而今年10月,百度更是基于文心一言,发布了十余款AI原生应用。
如百度地图和智能办公平台如流,基于理解、记忆等能力,化身用户私人的出行助理和私人秘书:在地图上,用户只需说出需求,地图就能调动几千个服务接口,帮助用户推荐餐厅、对比多地点信息、给出出行建议;如流则针对群聊信息多的办公难题,迅速挑出重点,而差旅助手不仅能订机票酒店,也还能通过接入CRM等公司系统,总结出拜访客户的背景资料和谈话参考。
可以看到,正是基于用户“更个性化的搜索需求”这一具体需求,百度方向应用大模型由技术驱动,并恰如其分地发挥了大模型的优势——在李彦宏看来,AI原生应用的诞生,得益于大模型的理解、生成、逻辑和记忆四大核心能力,这些能力是过去的时代所不具备的,因而才能打开无限的创新空间。

而这一CEO驱动成功决策的“正面教材”,也给行业带来更多启发。
企业面对大模型时,应当确保领导层对大模型的本质有清晰的理解,避免将决策迁移理解有限的人员。同时,在选择模型和技术时,应当理性考虑资源投入和总量的真正平衡,以确保大模型真正地创造价值,而不是流于形式、带来不必要的浪费。

DAU、用户时长、留存率……CEO需要考虑的关键指标
李彦宏表示,拥抱AI时代需要一把手来驱动,有一个更重要的理由是,只有CEO才会关心新技术对自己业务的关键指标是不是产生了正向作用。
“比如对于互联网产业而言,大模型有没有给你的DAU、用户时长、留存率、变现效率带来正向影响,对于所有企业来说,大模型有没有让你的成本变低,收入、利润变得更高,增速更快?这才是问题的本质。”
基于此,李彦宏给不同规模公司对大模型的接受程度做了分级——如同任何新事物的接受过程一样,AI原生的概念肯定是先被终端消费者和创业公司所接受,其次是中小企业,最后接受的才是大企业,因为大企业天然保守,对新生事物不敏感,不愿意冒风险。
“小公司一把手什么都管,就更容易开发出适合自己的原生应用,大公司分工明确,CEO不主动引领这个变革,就容易被自媒体带偏。”
诚如所言,正因大公司在大模型领域有着天然的弊病,CEO的作用才显得尤为重要,他们需要担起责任,成为推动企业合理采用大模型和生成性人工智能的引擎性人物:如需要理解大模型的潜力和影响,以便制定战略规划,确保企业在技术变革中立于不败之地。其次,CEO需要在组织中树立创新文化,鼓励员工接受新技术,推动组织向数字化转型。


尤其是在当下,大模型和生成式人工智能为企业带来了前所未有的机遇,然而,这些机遇也伴随着挑战,包括数据隐私、伦理问题等,CEO的领导力将在应对这些挑战时显得尤为重要。
演讲中,李彦宏举例介绍了百度坚决对旗下各产品线进行了AI原生化重构的历程、基于此给大家带来的全新智能体验,以及对百度业务的促进:
“比如,百度新搜索具有极致满足、推荐激发和多轮交互三个特点,当用户提出一个问题时,新搜索不再是提供一堆链接,而是通过对内容的理解,生成文字、图片、动态图表等多模态的答案,让用户一步获得满足。”
在针对复杂需求时,“多轮交互”特点也可以通过提示、调整等方式,满足用户更个性化的搜索需求。再比如,以前准备一场演讲,要耗费好几天时间制作讲稿和PPT。现在,百度文库可以在1分钟内生成一个20几页的PPT,包括图表生成,格式美化等,而且几乎是零成本。新文库也实现了从内容工具到生产力工具的转变。
因为有了这样的原生化改造,文库的付费率有了明显的提升,而在大模型时代,这正证明了AI对业务关键指标的促进作用。

CEO驱动下,更大的想象空间
在当下,大模型广阔天地,大有作为。李彦宏认为,相较对业务关键指标的促进作用,更大想象空间在于,大模型催生出原来从未有过的AI原生应用。
在当下,百度正在孵化全新的AI原生应用,如智能代码助手Comate。百度现在每新增100行代码,就有20行是AI生成的,而且这个比例还在快速增长中:“这样的AI原生应用,通过人机协同,帮助我们大幅提升研发效率。而AI原生应用带来的改变,才刚刚开始。”李彦宏如是说。
而繁荣的AI原生应用生态,注定驱动经济增长,带动市场,倒逼市场变化。类比来看,中国新能源车在全球的市场份额达到65%,因为国家政策扶持的就是应用端,通过减免车辆购置税,上路不限号不限行等手段,有效拉动了新能源汽车产业的快速增长。
“AI产业也是需求驱动,所以应该是在需求侧、应用层发力,就像补贴新能源汽车用户一样,鼓励企业调用大模型来开发人工智能原生应用,用市场推动产业发展。”

在此前,李彦宏有过论断,AI时代的技术栈分为四层,即芯片层、框架层、模型层和应用层。无论是芯片也好、框架也好、模型也好,都需要AI应用来驱动。只有通过更多的场景落地应用,才可以形成更大的数据飞轮,才能让芯片做到够用、好用。
而AI应用生态的繁荣,终将成就经济繁荣。
“今天,在百度智能云千帆大模型平台上,有超过17000家企业在这里开发产业模型和解决方案,除了刚才提到的行业,也包括教育、电商、短视频、游戏等多个行业。未来,每一家企业跟自己客户打交道的方式,都将被改造为AI原生应用,这将大幅度提升企业的竞争力。而无论是企业竞争力的提升,还是个人工作效率的提升,都是经济增长的驱动力。”
道阻且长,行之将至。正如演讲结尾,李彦宏所言——我讲了这么多大模型和AI原生应用,是希望每个人都行动起来,去使用它、体验它、投入到AI原生应用的创新中,共同创造一个百花齐放、无限可能的AI原生时代。

微软AI芯片,来了!

美国当地时间11月15日,微软Ignite技术大会在西雅图揭幕。

集团CEO纳德拉带来了长达一个小时的揭幕演讲,介绍微软在ESG、新一代空芯光纤、Azure Boost数据中心等项目的新动态。而整场演讲的重头戏,非AI莫属——尤其是首款自研AI芯片Azure Maia 100的亮相,成为场内场外无数聚光灯下的焦点。

微软重视AI人所共知,发力自研芯片也不是什么秘密。Maia 100的亮相,则是微软的第一张阶段性答卷,向外界表明自己的野心与实力。

有趣的是,英伟达CEO黄仁勋也来到现场,为Azure和英伟达合作的AI foundry service站台。纳德拉当着黄仁勋的面发布自研AI芯片,难免让人浮想联翩。

英伟达对高算力芯片的垄断,早已成为硅谷众大厂的心病。它们一方面离不开英伟达,另一方面又不想永远被英伟达掣肘。当自研芯片成为潮流,微软、Meta、谷歌、亚马逊先后亮出压箱底的宝贝,谁能真正挣脱枷锁?

微软首款AI芯片来袭

Maia 100成色几何?

首款芯片的命名从此前盛传的Athena改成Maia,灵感大概是参考了NGC 2336星系。Maia可以译为“明亮的蓝色恒星”,根据NASA的观测,NGC 2336星系近似螺旋形态,直径约20万光年,也以旋臂中的蓝色恒星闻名。以此命名自己的首颗AI芯片,微软或许是想以深邃的太空借喻充满想象力的AI世界,以及对算力的高追求。

Maia 100的亮相也不算突然,早在10月初就有媒体剧透微软将在开发者大会上发布首款自研AI芯片,并将向Azure云客户供应。不过微软对自研芯片计划的保密工作做得很好,直到正式发布后,外界才能真正了解其设计、算力和应用场景等详细情况。

根据纳德拉的介绍,Maia 100是一款AI加速芯片,基于Arm架构设计,主要用于云端训练、推理以及Azure的高负载云端运算。不过纳德拉否认了将向云计算客户供货的传闻,这款自研芯片将优先满足微软自身的需求,并在合适的时机向合作伙伴和客户开放。

Azure芯片部门负责人、微软副总裁拉尼·博卡尔则补充道,Maia 100已经在Bing和office的人工智能套件上测试。合作伙伴openAI也开始使用这款芯片进行测试部分产品和功能,比如GPT 3.5 Turbo。

至于测试的效果如何,微软暂时还没有给出具体报告。但纳德拉和博卡尔强调Maia 100可以加快数据处理速度,尤其是在语音和图像识别方面。

提速的关键,自然是算力。为了提升算力,微软也是下了血本:采用台积电的5nm制程工艺,晶体管数量达到1050亿个。和今年4月被曝光的信息相比,Maia的制程工艺、设计架构都没有太多出入,性能表现或许还需在应用数据来检验。

不过横向对比的话,Maia 100和英伟达、AMD等大厂的产品在参数上还有很大差距。AMD在今年发布的专用于AI加速的MI 300X芯片晶体管数量达到1530亿,更不用说算力超强的英伟达了。

以最近发布的H200为例,GPU核心和H100相同,但CUDA核数达到16896个,加速频率1.83GHz,显存具备更大的容量和更高带宽,可以支持超大参数的大模型训练与推理。官方给出的参数显示,H200相较上一代产品在Llama2和ChatGPT的训练速度分别能提升40%和60%。

可以看出,从MI 300X到H200,再到Maia 100,大厂对训练参数量、训练速度和芯片算力的追求是没有上限的。大模型的迭代速度也在加快,只因各家大厂都想跑得比对手更快一步。

芯片是这场算力竞赛里最关键的一环,没有人想在这上面掉链子。而为了摆脱对英伟达的依赖,自研就是最好的出路。图片

当自研AI芯片成为必选项

英伟达的芯片不是不好,反倒是太好了,好到直接滋生了两个难以解决的问题:一是供不应求,二是价格高不可攀。

英伟达没有正面回应H100和A100两款最热门产品的产能和需求,但据外媒报道,今年内H100加速卡的产能至少同比增长了3倍,且仍有许多产能瓶颈无法解决。比如台积电5nm生产线产能,英伟达的GPU必须使用台积电的CoWoS封装技术,市面上完全找不到别的替代品。

供不应求,市场杠杆就会自动生效,调高价格、筛选客户。从去年下半年开始,抢购GPU就成为硅谷大厂最重要的任务之一。大厂为了抢时间、保供应,囤的货一个比一个多,阶段产能愈发吃紧,继而再次推高价格,形成一个死循环。

微软在2019年投资openAI后算过一笔账,为了支撑历代ChatGPT的训练,微软每年光是采购A100的资金就在数亿美元以上。而稍晚启动的自研芯片计划,每年开销只需1亿美元左右。白纸黑字摆在面前,大厂也不傻。本就有一定技术,也有足够流动资金的微软、谷歌、亚马逊、Meta们,纷纷加速拥抱自研芯片。

这当中,谷歌和亚马逊是起步最早、成绩也最突出的。单论研发实力,微软甚至够不着硅谷的第一梯队。

得益于在手机领域的长期布局,谷歌积累了大量芯片技术,除了美国本土之外,还在印度设置了大规模的芯片研发中心。2021年推出的自研芯片Tensor使用三星5nm先进制程,GPU性能较上一代产品大幅提升370%,狠狠秀了一把肌肉。

这几年,谷歌从高通、苹果、英伟达、博通挖来大量人才。最新消息显示,谷歌计划在2027年将博通剔除出AI芯片供应商的行列,每年将节省数十亿美元的采购费用。而对标博通的TPU,就成为了谷歌AI芯片计划的重点发力方向。

事实上,谷歌的TPU自研计划也是由来已久。2021年,时任谷歌研究部门主管Cliff Young就透露,谷歌有长期的计划,会在数据中心部署大量自研TPU,以加强云端运算速度,未来不排除将对外出售。

亚马逊也是自研芯片的老玩家,其强大在于,建立了完整的自研芯片产业链,形成网络芯片、服务器芯片、AI芯片三条产品线。在AI 芯片领域,亚马逊的自研产品就通用计算芯片、机器学习训练芯片、学习推理芯片等。

满打满算,从2013年推出首款自研芯片Nitro 1以来,亚马逊已经推出了超过10款自研芯片,无论数量还是覆盖的领域,都远超其他硅谷大厂。AWS在2020年便发布了用于训练大模型的自研芯片Trainium,也是最早发力AI专用芯片的大厂之一,为AWS征服全球立下汗马功劳。

就连落后一截的Meta,也在今年高调提出造芯计划,推出定制芯片MTIA v1,并牵手高通、重组研发团队。为了夺回主动权、节省开销,大厂肯定会拼尽全力。接下来,不知道英伟达将如何接招?

取代英伟达谈何容易

在博弈中合作将成为主题

硅谷大厂的反抗之心,黄仁勋当然了然于胸。与其说英伟达对微软、亚马逊、谷歌们的进攻无动于衷,倒不如说是有恃无恐——硅谷大厂的自研芯片算力远不比上英伟达,也缺乏配套的AI软硬件。想自供自给乃至取英伟达而代之,在现阶段并不现实。

算力上的差距前文已有介绍,此处不再赘述。在芯片算力之外,英伟达还强在拥有Base Command(AI训练端到端软件服务)、AI Enterprise(提供平台支持的企业级软件)等大量配套设施。

微软等大厂自研AI芯片,是为了降低采购成本。但大模型从训练到落地应用,需要的绝不止一颗芯片。当参数级别变得原来越高,开源程度不断提升,需要使用的配套软硬件也会越来越多,这时候大厂们就不得不重新算一下自己的账本了。

高调发布自研芯片的微软,就很清楚自己短时间内离不开英伟达和AMD。纳德拉之所以请黄仁勋到场助阵当然不是为了示威,而是示好。展望未来,大厂之间的暗中角力当然少不了,但合作还是主旋律。

黄仁勋出席微软Ignite全球技术大会,是为了宣传针对英伟达H100设计的NC H100 v5虚拟机,这是一项类似于AI代工的服务,可以帮助Azure的客户和合作企业开发大语言模型。此外,微软Azure仍在使用AMD的 MI300X加速虚拟机和最新的GPU提高AI模型训练和推理速度。

值得一提的是,微软在15日的技术大会上还宣布推出MaaS模型即服务,向用户开放API接口,以便在云端部署自己的开源大模型。Meta等大厂据悉也将加入开源行列,Llama 2等知名大模型都会在英伟达的算力支撑下,陆续向第三方开放调用。

纳德拉和黄仁勋心底盘算什么,外人看不见,也猜不透。但至少在明面上,两人会继续维持良好的合作关系,有钱一起赚。真正感到压力山大的,其实是那些艰难求存的初创企业——毕竟大部分芯片企业都要依赖投资人和大厂的资金搞研发,大厂发力自研后必然会削减外部投资,甚至还会挤压前者的生存空间。

从2020年的Wave Computing开始,这几年时不时有AI芯片独角兽裁员、卖身甚至直接倒闭。不久欧倩,英国GPU芯片公司Imagination也被爆将进行裁员,比例在20%左右。

Wave Computing也算得上红极一时,当初曾声称要追赶英伟达,自家的DPU产品在加速神经网络的训练速度上要超过英伟达的GPU1000倍,基于DataFlow架构设计的产品也算得上特立独行。

不过之后的故事大家都清楚了,Wave Computing的DPU在某些参数上确实超过了英伟达的GPU,但不具备推广意义。因为前者缺乏通用计算架构,也无法针对不同应用场景进行定制化改造,更没有足够数量的开发者。在烧光了投资人的资金后,最终只能走向破产清算的地步。

无独有偶,openAI在日前悄悄更新,也让部分AI初创企业感到“末日将至”,更有外媒表示openAI“正在杀死生成式人工智能初创公司”。由此可以看出,做AI大模型和做AI芯片的公司生存压力巨大,研发难度和高企的经营成本随时都可能将它们压垮。

大公司和初创企业之间的矛盾由来已久,大厂发力自研AI芯片只不过是一剂催化剂。想在巨头的夹缝谋得一丝生存空间,初创企业要拿出更多真本事。

ChatGPT之父突遭罢免,AI导致失业第一人?

美国时间11月17日中午,因ChatGPT而名声大噪的OpenAI突然在官网发布声明,宣布罢免公司CEO山姆·奥特曼(Sam Altman),即时生效;CTO米拉·穆拉蒂(Mira Murati)临时接任,正式继任者仍在寻找中。公告还宣布,OpenAI联合创始人兼总裁格雷格·布洛克曼 (Greg Brockman) 将辞去董事会主席职务,但会继续担任公司职务。然而,不久后,布洛克曼就在社交媒体上表示,自己也将离开公司。

该消息公布后,已经在OpenAI身上投资超百亿美元的微软,股价一度下跌超2%。随后微软发言人发表声明称,其与OpenAI建立了长期合作关系,会恪守对OpenAI的投资承诺,仍将致力于同米拉·穆拉蒂及其团队合作。

据外媒报道,微软在OpenAI声明发出前一分钟才获悉此消息。2015年,奥特曼·布洛克曼与埃隆·马斯克一道创立了OpenAI,旨在推动人工智能技术发展。2022年11月,ChatGPT的发布,在全球范围内掀起了新一轮人工智能的热潮,也让奥特曼被誉为ChatGPT之父。就在ChatGPT年满周岁之际,奥特曼为何突然离开?OpenAI又将驶向何方?

“ChatGPT之父”山姆·奥特曼。图/视觉中国突然的驱逐OpenAI罢免CEO一事发生得颇为突然。英国金融时报援引知情人士报道称,包括微软在内的一些 OpenAI 投资者对这份声明感到不安。奥特曼的一位朋友也表示,“即使是亲密的朋友也不知道(发生了什么)”。

罢免事件发生的11天前,在OpenAI举办的首届开发者大会上,奥特曼还代表公司宣布旗舰产品ChatGPT已拥有1亿周活跃用户,并发布GPT-4的重磅更新、开发工具GPTS及应用商店GPT Store;2天前,奥特曼还在其个人社交媒体上发布ChatGPT Plus的相关信息;就在1天前,奥特曼 在APEC 峰会上表示对生成式AI这项技术的未来感到超级兴奋。随后,奥特曼等来了被驱逐的一纸声明。据

格雷格·布洛克曼在社交平台透露,OpenAI发布声明前一晚,奥特曼收到公司首席科学家伊利亚·萨斯克维尔发来的短信,要求第二天中午谈话,随后奥特曼参加了一场除格雷格外的董事会议,伊利亚告诉奥特曼将被解雇;第二天中午,格雷格被告知,其将从董事会中被除名,奥特曼已被解雇;大约同一时间,OpenAI公开发表了声明。

董事会在声明中表示了对“奥特曼对OpenAI 的建立和发展所做出的贡献”的感谢,但同时也用相当严厉的语气直指奥特曼在与董事会的沟通中不够坦诚,妨碍了董事会履行职责的能力,对他继续领导 OpenAI 的能力不再有信心。在OpenAI董事会看来,“随着我们的前进,新的领导层是必要的。作为公司研究、产品和安全部门的领导者,米拉非常有资格担任临时首席执行官。我们对她在这个过渡时期领导 OpenAI 的能力充满信心”。

公开资料显示,暂时接替奥特曼的CTO米拉·穆拉蒂曾先后在特斯拉、VR公司Leap Motion任职,于2018年加入OpenAI,至2022年才晋升为CTO。根据OpenAI声明,董事会认为米拉在OpenAI 发展成为全球 AI 领导者的过程中发挥了关键作用,考虑到长期任职、与公司各方面密切接触,以及在人工智能治理和政策方面的经验等因素,米拉被视作唯一胜任这一职位的人。

但同时,OpenAI也表示,公司正在寻找下一任常任CEO,米拉只是平稳过渡的一个理想选择。OpenIAI声明发布后,奥特曼也在其个人社交媒体做出了回应:“我热爱在OpenAI 的时光。这对我个人来说是一次变革,希望对世界也是如此。我喜欢和这些有才华的人一起工作。关于下一步的消息,以后会再说。”

ChatGPT之父一年前ChatGPT问世,并在全球掀起新一轮人工智能热潮后,被誉为“ChatGPT之父”的山姆·奥特曼便成了通用人工智能的重要代言人。许多人将此次风波类比成当年乔布斯被逐出苹果,可见奥特曼之于OpenAI的重要性。公开资料显示,奥特曼是硅谷最大孵化器Y Combinator联合创始人保罗·格雷厄姆(Paul Graham)钦点的接班人,28岁便执掌总裁之位。在格雷厄姆看来,奥特曼是一个很善于说服他人的创业家。2015年底,奥特曼一手促成了OpenAI的诞生。令格雷厄姆赞赏的能力也让奥特曼完成了之于OpenAI最重要的两个成就,一是解决了人的问题,二是解决了钱的问题。抱着“确保通用人工智能造福全人类”的愿景,他拉拢了包括stripe前CTO格雷格·布罗克曼和图灵奖得主杰弗里·辛顿的弟子伊利亚·萨斯克维尔(Ilya Sutskever)等在内的一众研究天才。而为了解决技术研究巨大的资金缺口,奥特曼在2019年3月推动成立有限营利性(caped-profit)公司OpenAI LP,受OpenAI管理,OpenAI则依旧维持其非营利机构的性质。OpenAI LP为投资者设定了回报上限,获得的利润优先分配给投资者,在达到回报上限之后,额外利润将属于非营利机构OpenAI。这也为后续OpenAI与微软的联姻创造了条件。在人才与资金的加持下,“GPT”延续大力出奇迹的策略,开始震惊世界。2022年底,拥有惊人语言能力的聊天机器人ChatGPT上线,仅两个月用户量便突破1亿,成为近20年来互联网增长最快的应用;今年3月,GPT-4推出后,OpenAI网站很快迎来月活突破10亿,这一速度同样是全球最快。前不久,OpenAI在首届开发者日上正式公布了自定义GPT,为所有订阅者提供GPTs,还将上线GPT Store与创作者分享收入。接下来几天,网站直接火到宕机。据外媒报道,OpenAI今年营收有望接近百亿元人民币,估值已逼近900亿美元。

董事会内讧已久不过在一片火热之下,暗流却早已悄然涌动。除奥特曼外,OpenAI联合创始人兼总裁格雷格·布洛克曼也在这次人事巨变中被踢出董事会,随后其在社交媒体宣布将完全离开公司,不再担任任何职务。“山姆和我对董事会今天的行为感到震惊和难过”,格雷格在其社交媒体上发文表示,“我们也仍然在试图弄清楚到底发生了什么”。在众多相关人士看来,奥特曼闪电被离职背后,是OpenIAI内部关于战略与技术愈演愈烈的分歧所引发的董事会派系间的角力。从OpenAI的股权结构来看,奥特曼并没有股权,更遑论对公司的控制权了。这也为解雇奥特曼提供了便宜条件。据彭博社援引知情人士报道,在解雇奥特曼之前,其与董事会、尤其是与伊利亚之间,在人工智能安全、技术发展速度和公司商业化等方面存在广泛的意见分歧。另有知情人士对The Information透露,奥特曼被免职之前,OpenAI公司员工曾就该公司开发人工智能是否足够安全展开了内部争论。有分析认为,董事会决定解雇奥特曼的核心原因在于,奥特曼正将AI安全审查的优先级置于技术突破之后,过快推动AI发展可能给公司带来危机。而奥特曼重要的伙伴、总是能帮其将想法和产品落地的格雷格,自然也被一起打包。同时,有知情人士发文称,奥特曼做出了单方面的商业决定,以利润为目标,背离了OpenAI一再重申的非营利组织原则,也背离了“确保通用人工智能造福全人类”使命。一个背景是,迄今为止,围绕着OpenAI的最大争议,始终是它与微软的联姻——这也是由奥特曼一手主导的。据悉,微软在2019年向OpenAI提供了10亿美元的投资,并在2023年向OpenAI提供了100亿美元的投资,目前控制OpenAI 49%的股权。此外,微软还免费向OpenAI提供 Azure 云服务。有报道指出,免费的 Azure 云服务每年帮 OpenAI 承担了高达 7000 万美元的模型训练成本。作为回报,微软得以将OpenAI的各类AI技术整合进公司旗下的所有产品中,并为其他企业提供使用平台,这也令微软自己被视为AI领域的一大风向标。不过不少人认为,接受微软投资后的OpenAI,对商业和技术的野心,已经超过了对“人类安全”的关注。目前看来,萦绕在OpenAI内部的种种分歧与争议,也是整个行业正在面临的,其所做出的每一个动作也自然都成为业内焦点。也正因如此,被视作AI领航者、董事会换血后的OpenAI,以及奥特曼之后的走向,正在成为全球科技圈最为关注的未知数。

李星:从互联网的发展看人工智能的治理与创新

没有互联网就不会有ChatGPT。科幻小说《我们最后的发明》在谈及人工智能时建议:“任何情况下都不得把ASI的超级电脑接入网络”。

1

人工智能治理的互操作性

今年10月,第十八届联合国互联网治理论坛(IGF)在日本京都召开。此次会议吸引了来自175个国家的线上线下共9000多名参会者。人工智能的治理成为本次会议的焦点议题。

联合国致力于在全球范围内寻求有效的人工智能监管途径,包括国际条约、部门规范、道德准则和私人标准的制定,技术解决方案的研究,开源合作的推动,国家立法的支持,多利益攸关方的协同参与,监管沙盒的设立,行业自律的鼓励,以及技术中立等。

在此背景下,IGF委托研究组编写了《人工智能政策网络(Policy Network on Artificial Intelligence)》初稿。

报告初稿总结了互操作性和创新的重要性,主要涵盖以下三个方面:

一是互动和互连,包括对定义、范围和方法的持续关注,以及对连续监测、评估和采取行动的重视;

二是沟通和合作,包括减少地区差异,积极推动信息共享和最佳实践案例的传播。同时,鼓励培养区域多利益相关方的合作倡议,以促进他们在全球范围内的相互关联;

三是工具、措施和机制,包括开发技术模块及能力,以达成地区和全球层面的共识。此外,还强调了加强立法合作的重要性。

基于《人工智能政策网络》报告,大会组织了主题讨论,嘉宾们探讨了全球人工智能治理的实施方式。作为发言者之一,我主要提出了两个观点。

第一,可以运用互联网治理的理念来治理人工智能。对生成式人工智能的政策监管应当谨慎。正如互联网在发展之初也没有技术蓝图一样,生成式人工智能目前也没有确切的发展蓝图,因此,务必要留出创新空间,给学术界和技术界提供创新机遇。

互联网技术的发展受到IETF等各种组织的推动,如今生成式人工智能具备比TCP/IP更强大的功能,但在该领域尚未出现IETF这样的组织,应该考虑建立类似组织。希望全球能够共同推动创新,开发出激动人心的新技术。

第二,要注重人工智能对教育产生的重大影响。生成式人工智能给发展中国家带来了机遇和挑战。通常来说,生成式人工智能包括算法、算力和数据三个关键因素。

然而,教育同样是人工智能发展的重要因素,人工智能的出现需要大家重新思考传统教育体系。年轻一代需要在批判性思维、尊重事实、逻辑思维、推动全球合作这四个关键方面进行能力培养,这对教育改革至关重要。

正如斯坦福大学李飞飞教授所言,在人工智能时代,需要像牛顿和爱因斯坦那样的人才对教育领域进行重塑。期望看到全球建立与人工智能相关的教育系统,这与几百年前现代大学雏形的出现同等重要。

2

IETF——

解决真实问题 聚焦关键问题

互联网是怎么治理的?其治理体系基本可以总结为以下几个方面:一是域名,二是IP地址,三是协议。互联网的技术治理可以追溯到1968年,后来逐步产生了关键技术并形成了相关组织。互联网工程任务组(IETF)成立于1986年,其主要任务是进行技术治理,以确保互联网的互操作性。正如著名资深科学研究员Dave Clark曾经强调的那样:“我们拒绝国王,拒绝总统,拒绝选举,我们相信的是大概一致和可以运行的程序。”

IETF的具体工作领域“above the wire and bellow the application”,即在线路(计算机网络中的通信基础设施,通常包括网络电缆、光纤、无线连接等物理传输媒介)之上,应用之下,意味着其有特定职责,并非包罗万象。IETF包括若干工作组,涵盖网络、路由、传输和应用等各种领域,同时还有一些跨层的通用工作组,涉足运行、安全和一般管理等多领域。

IETF主要产出各类标准,遵循开放参与、流程透明、公开发表和免费使用的原则。

首先,开放性确保了标准制定的合法性。大部分技术标准由私营企业和非政府机构制定,进而应用于互联网实践。这些组织雇用了大量员工参与标准的制定过程,决策中的多元参与增强了多利益相关方的合法性。

其次,所有的决策过程都是透明的,标准具有可问责性。这为公众提供了监督及问责的机会,使他们能够获得标准开发及相关审议、备忘录和记录的全过程信息。

再次,互操作性进一步促进了创新。从专有协议向提供互操作性的开放互联网标准的过渡,代表了一场显著的社会技术变革。IETF免费发布互联网标准,且不收取知识产权费用,确立了开放性和互操作性的传统。这种始终如一的开放性规则,促进了互联网软硬件创新的飞速发展,我们需要继续坚守这一传统。

最后,IETF的决策准则是“Rough consensus and running code”,即基本共识和可以执行的代码。目前,在提出新标准前,必须有可以执行的代码,并且需要进行充分的讨论。

IAB曾总结了开放互联网的关键词:自愿使用、自下而上的创新、在必要时竞争、需要合作时合作。互联网的特点之一是分散性,它并不统一。因此,其参与者通常具备热情、聪明、外向和技术卓越的特质。

参与IETF有助于解决实际问题,聚焦关键问题。需要具备全球视野,通过电子邮件与同行交流,建立广泛的人际关系。我们鼓励年轻一代积极参与,追求卓越,同时还要乐在其中。

3

人工智能在教育领域的影响

除了算法、数据和算力,教育也是一个非常重要的议题。算法和数据等都依赖于人类来开发和应用。人工智能的发展引发了新的教育挑战。

我们曾讨论过,在互联网发明之前和之后该如何当教授?在互联网出现之前,教授拥有很多学生无法获得的信息。然而,随着互联网的普及,学生能够访问更多的信息。这导致学生可能浏览大量信息,但往往难以辨别其是否有用和必要,从而记下所有信息。教授的核心任务就是帮助学生辨别和筛选初有价值的信息,并培养他们提出问题和解决问题的能力。

对于教育而言,互联网的发明代表了一次思想解放,而ChatGPT则是新一轮思想解放,将对教育产生深远的影响。然而,我们也必须同时接受人工智能的不可解释性。要创新,就必须允许犯错误,并在开放和治理之间找到平衡。

生命是多样且美丽的,大语言模型如ChatGPT具有语言多样性、文本多样性、领域多样性、观点多样性和随机性等特点。面对人工智能,我们必须具备批判性思维和逻辑思维,要尊重事实,并积极推动全球合作。

另外,我们还需警惕数字鸿沟问题。随着人工智能的出现,我们更应重视人工智能鸿沟,它不仅包括外在问题,还牵涉到内涵问题。这关系到人们的教育水平和教育方法是否能够适应人工智能的发展。如果我们仍然坚持传统的教育理念,数字鸿沟将不断扩大。

爱因斯坦曾说:“想象力比知识更重要。”这句话在当前人工智能的背景下可能有新的内涵。就人工智能的分工而言,我认为机器能够胜任那些规则明确的、常见的任务。而人类的价值在于创新,处理少见的、挑战常规的任务就需要人类的创造力。因此,新一代的教育应该培养学生打破常规思维的能力。

2024年标志着中国加入互联网已经30周年,这是一个重要的里程碑。互联网一直在朝着更为开放的方向发展,但人工智能的进步不仅需要开放性,还需要相应的技术和政策支持。这是新一代专业人士面临的挑战,也是我们老一代互联网从业者的期望。

美国CISA发布人工智能路线图

美国国防部发布“负责人的人工智能”工具包

据美国防部11月14日消息,美国国防部首席数字和人工智能办公室(CDAO)发布“负责任的人工智能”(RAI)工具包。该工具包与2022年6月国防部发布“负责任使用人工智能的战略与实施路径”保持一致。RAI工具包是一个动态文档,为用户提供了一个自愿流程,可识别、跟踪和改进人工智能项目与RAI最佳实践和国防部人工智能道德原则的一致性,同时加强创新。此外,该工具包以直观流程引导用户在整个人工智能产品生命周期中进行可定制和模块化的评估。

美国网络安全和基础设施安全局发布路线图指导人工智能工作

据Nextgov/FCW网11月14日消息,网络安全和基础设施安全局(CISA)周二发布人工智能路线图,作为拜登政府10月底发布行政命令以来一系列人工智能治理政策的一部分。该路线图为CISA及其上级机构国土安全部的五个工作方向:负责任地使用人工智能来支持工作任务;确保人工智能系统;保护关键基础设施免遭人工智能的恶意使用;与机构间和国际合作伙伴以及公众就关键人工智能工作进行协作和沟通;扩大机构员工队伍中的人工智能专业知识。国土安全部部长Alejandro Mayorkas表示:“CISA的路线图列出了该机构将采取的步骤,作为我们部门更广泛努力的一部分,利用人工智能减轻其对我们关键基础设施和网络防御的风险。”信息

美国洛克希德·马丁公司计划拓展Q-53雷达用途,以便探测无人机

据DefenseNews网11月14日消息,美国洛克希德·马丁公司计划拓展Q-53雷达用途,以便探测无人机。美国陆军长期以来使用Q-53 雷达探测火箭弹、火炮或迫击炮等。洛克希德公司多任务防空雷达项目总监戴维·肯纳维格(David Kenneweg)表示,将对Q-53雷达进行技术增强改装,并装载陆军指挥和控制系统以使其具备发现无人机的能力。

全球超级计算机排行榜TOP500更新

据日经网11月15日消息,全球超级计算机排行榜TOP500更新,美国垄断前三。美国橡树岭国家实验室运营的超级计算机“前沿”(Frontier)连续4次位居榜首,是本次排行榜上唯一可以每秒运算100万次以上的“EXA级”超级计算机。在前十名中,美国占6席,日本、芬兰、意大利及西班牙各占1席。

美国纽约市立大学研发出新型高性能超快激光器,可用于无GPS情况下导航等场景

据中国科技网11月13日消息,美国纽约市立大学研究团队研发出新型高性能超快激光器,可用于无GPS情况下导航等场景。该研究团队利用了一种薄膜铌酸锂(TFLN)新兴材料平台,并将III-V族半导体的高激光增益和TFLN纳米级光子波导的高效脉冲整形能力结合起来,最终研制出一种发射0.5瓦高输出峰值功率的激光器。相关研究发表在《科学》(Science)杂志。

美国CISA发布人工智能路线图

据NextGov网11月14日消息,美国网络安全与基础设施安全局(CISA)发布了人工智能路线图,响应美国此前发布的《关于安全、可靠、可信地开发和使用人工智能的行政命令》。该路线图有5个主要目标:负责任地使用人工智能来支持任务;确保人工智能系统安全;保护关键基础设施免遭人工智能的恶意利用;与机构伙伴、国际合作伙伴以及公众就关键人工智能工作进行协作和沟通;并扩大机构员工队伍中的人工智能专业知识。为了改善员工队伍,CISA打算招募具有人工智能专业知识的新员工,并为现有员工提供技能提升培训,涵盖人工智能的技术方面以及法律、道德和政策方面的考虑。该路线图总体上强调,CISA应确保在设计人工智能/机器学习系统时具有风险缓解特征,持续共享有关威胁的信息,并在部署这些技术时保持透明的方法。

澳大利亚政府报告网络攻击事件激增

据路透社11月15日消息,澳大利亚网络安全中心在其年度威胁报告中表示,黑客加大了对澳大利亚关键基础设施、企业和家庭的攻击力度。截至2023年6月份的财政年度中,网络犯罪报告激增23%,超过9.4万起。据估计,每6分钟就会有一次针对澳大利亚资产的黑客攻击。报告称,网络犯罪给受害者造成的平均损失上升了14%。澳大利亚网络安全中心认为,澳大利亚与英国和美国的新防务协议可能是其成为网络攻击目标的原因之一。

丹麦网络机构称22家能源基础设施遭网络攻击

据industrialcyber网11月13日消息,丹麦能源网络安全机构SektorCERT称,负责运营部分丹麦能源基础设施的22家公司在一次协同攻击中受到损害。攻击者访问了某些公司的工业控制系统(ICS),而此前从未发生过针对丹麦关键基础设施的如此大规模的网络攻击。有迹象表明,攻击者事先就了解他们的目标,实施了精确的攻击。在2023年4-5月期间,黑客使用了不同的工具和技术,发起了数次针对丹麦关键基础设施的攻击。他们的共同点是滥用中国台湾制造商合勤科技(Zyxel)的产品,该公司主要销售网络硬件。普通丹麦公民没有注意到这些攻击,但严重扰乱了目标设施的运行。生物

国际科研团队利用病毒应对“超级细菌”威胁

据phys网11月14日消息,美国印第安纳大学、加州大学洛杉矶分校、澳大利亚弗林德斯大学的科研人员开发出特定的新病毒用以应对特定的细菌,为噬菌体疗法铺平了道路。该团队利用DNA测序,从人类消化系统中最常见的Crassvirus病毒组中确定并分离出三个不会与细菌宿主共同进化的新型肠道病毒,可用于感染和消除特定的目标细菌。该研究提供了对噬菌体-宿主相互作用的见解,是噬菌体治疗新兴领域向前迈出的重要一步。相关研究成果发表于MICROBIAL GENOMICS期刊。

DARPA的SIGMA+计划致力于检测新泽西州纽约市的CBRNE威胁

据国土安全新闻通讯社11月13日消息,美国国防部高级研究计划局(DARPA)加强与新泽西港务局威胁检测合作,积极寻求利用SIGMA+项目部署自动化、网络化和移动化系统,以实现持续的城市规模监控。此次监测计划涵盖15个港务局指挥部,将通过SIGMA+项目先进的化学、生物和爆炸传感器、集成车辆设计、实时监控网络进行威胁检测和拦截等高级分析,监测重点是化学、生物、放射性、核和爆炸物(CBRNE)威胁。

美国CDC提出旅行者基因组监测计划,填补全球生物监测空白

据生物安全情报网11月15日消息,美国疾控中心(CDC)提出基于旅行者的基因组监测计划(TGS),该计划是由CDC旅行者健康处领导的一项公私合作伙伴关系,通过其两个主要目标在美国国家生物安全中发挥重要作用:一是及早发现新的新冠变体和其他病原体,二是填补全球生物监测的空白。该计划将提供早期预警系统,实时检测新兴传染性威胁;快速向公共卫生当局提供信息,向美国联邦实验室提供样本,帮助控制疾病暴发;在无法获得检测和测序数据的情况下填补全球监测的空白;防止传染病传播,避免边境干预和旅行贸易中断。能源

欧洲多家企业合作研发核能制氢

据中核智库11月14日消息,荷兰ULC能源公司(ULC-Energy)、丹麦托普索公司(Topsoe)和英国罗尔斯·罗伊斯模块化小堆公司(Rolls-Royce SMR)签署合作谅解备忘录,将合作开展核能制氢研究。研究团体将把托普索公司的固体氧化物电解槽(SOEC)技术与罗罗小堆电厂结合在一起,利用小堆的电力和热能进行电解制氢。ULC能源公司表示,用核能和SOEC技术生产清洁氢,有可能比其他电解工艺的生产成本更低,具有以下特点:(1)在高温下进行电解,意味着制氢耗电较少;(2)核电厂的平均发电时长达到95%,远高于替代性的可再生能源;(3)核能可以热电联供,通过直接使用热能,可避免汽轮机的能量损失,进而提高核电厂的能量利用率。海洋

日本“加贺”号直升机母舰航母化改装完成,明年赴美测试F-35B

据观察者网11月14日消息,日本海上自卫队准航母“加贺”号在完成航母化改造后,于当日首次试航。美国海军学会新闻网同日透露,该舰船将于明年前往美国东海岸进行“F-35B联合攻击战斗机的试验”。“加贺”号是日本海上自卫队第二艘“出云”级直升机母舰(DDH-184),也是日本新型航母,全长248米,宽38米,满载排水量达2.6万吨,可装备其配备美制F-35B垂直起降机。

英国皇家海军新型电子战系统研制取得阶段性进展

据TheDefensePost 11月14日消息,英国国防装备与保障局宣布,英国新型电磁系统已通过关键设计审查,目前正在等待最终测试。该系统名为“海上电子战系统综合能力”(MEWSIC),旨在为皇家海军军舰提供强大的反舰导弹防御能力,可比现有其他系统更远距离探测、识别敌方雷达信号。据悉,该系统未来将安装在45型驱逐舰、“伊丽莎白女王”号航母、26型和31型护卫舰上。

美国海岸警卫队正式建立关岛基地

据国防科技要闻11月14日消息,美国海岸警卫队正式建立关岛基地。该基地将在作战后勤司令部的指导下运作,负责海岸警卫队遂行任务时的后勤保障工作,以满足战区与合作伙伴的需求。基地人员的职责包括为联合作战计划制定应急后勤规划,整合后勤服务,以及为作战资产的战术后勤需求提供支持;维持国家级的后勤通用作战图,并指挥海岸警卫队的22个现有基地,确保通过美海岸警卫队的每个后勤和服务中心执行任务。关岛基地的建立将扩大美海岸警卫队在印太地区的任务支持能力。航空

美陆军寻求新型低成本无人机系统,为部队训练和作战提供支持

据TheDefensePost网站11月13日消息,美陆军发布新型无人机系统研发征询公告,以寻求一种新型低成本无人机,为部队训练和作战提供支持。公告指出,新型无人机成本单价需控制在3000美元以内,并具有夜间可视化能力,航行时长30分钟以上,航程达5千米。此外,供应商还需提供电池、配件等辅助设备以及数据链路或无线电、数据加密、附加功能等相关技术培训服务。

美国防创新部门授予Hermeus公司价值2300万美元合同,将利用其“夸特马”商业原型机验证高超声速能力

据defensenews网站11月14日消息,美国防创新部门授予Hermeus公司价值2300万美元合同,将利用其“夸特马”(Quarterhorse)商业原型机验证高超声速能力。根据合同,该公司将在相关环境中展示高超声速飞机的关键支持技术,包括推进系统、热管理、发电和任务系统功能,将为新项目引入做好准备。预计,“夸特马”原型机将搭载Chimera涡轮基组合动力循环发动机,拟于2024年进行首次飞行。航天

中国台湾鸿海集团部署2颗低轨通信卫星

据卫星界11月15日消息,中国台湾鸿海集团通过SpaceX的Transporter-9发射任务,成功部署PEARL-1H和PEARL-1C卫星。2颗卫星部署在距地520千米的太阳同步轨道,将开展对地宽带通信与太空科学实验。PEARL-1H和PEARL-1C卫星均为6U立方星,前者搭载镭洋科技与中央大学合作的Ka频段通信酬载与中央大学自制的第二代小型电离层探测仪,后者搭载创未来科技的通信载荷,具备相控天线。

美国Spire Global公司推出星座网络管理平台,为简化星座卫星运营提供支持

据SpaceNews网站11月14日消息,美国Spire Global公司于德国不莱梅举行的欧洲航天技术博览会中推出星座网络管理平台应用程序。该平台旨在为星座运营商提供一个用户友好型简化软件界面,为优化管理和运营星座卫星提供支持。Spire Global公司表示,该平台将支持地球观测、卫星网络连接、射频数据中继、太空域感知等一系列星座活动管理。该平台由欧空局资助150万欧元(折合163万美元)研发,并得到卢森堡航天局的额外支持。

加拿大Telesat公司与Aalyria Technologies公司签署价值不详合同,将为“光速”星座提供近地轨道网络协调通信服务

据SpaceNews网站11月14日消息,加拿大Telesat公司授予Aalyria Technologies公司一份价值不详的合同,用于为“光速”(LightSpeed)星座提供近地轨道网络协同通信服务。Aalyria Technologies公司将基于Spacetime网络技术对“光速”星座卫星数据网络流量进行监控、组织、编排和管理,以保证卫星通信网络的安全性和可靠性。根据合同,Aalyria Technologies公司将为“光速”星座提供至少10年网络协调通信服务。据悉,“光速”星座拟由156颗卫星构成,计划将于2026-2027年分14批发射入轨。新材料

比利时研究人员开发出一种利用二氧化碳制造聚氨酯的新技术

据列日大学网站11月13日消息,比利时列日大学(University of Liege)的研究人员开发出一种新的聚氨酯生产技术,可利用二氧化碳(CO2)来制造新型易于回收的塑料。研究人员将原材料放入充满CO2的加压反应器中,再将转化的CO2基化合物纯化后制备出单体以制造聚合物,生成的粉末状聚合物可以在模具中成形或与天然纤维一起压制生产复合材料。由于该塑料的化学结构类似于3D网络,在相对温和的反应条件下可通过化学键交换实现重塑,因此该塑料比长分子链制成的塑料更耐用,且可以通过多种方式回收利用。该技术可成为开发可持续塑料的潜在解决方案。相关研究成果发表在《美国化学会志》上。

欧盟同意关键矿产供应目标以减少对外依赖

据路透社网站11月14日消息,欧盟成员国政府谈判代表和立法者就锂、镍等关键矿产的内部供应目标达成协议,以减少对第三国的依赖。欧盟委员会于3月发布《欧洲关键原材料法案》,法案要求到2030年,欧盟能够提取、回收、加工16种“战略原材料”且分别达到年度需求的10%、15%、40%,任何一种战略原材料对单一第三国的依赖程度不超过65%,法案预计于2024年年初生效。谈判代表就法案的共同文本达成一致,并将回收目标提高到至少25%,还同意将铝和合成石墨添加到“战略原材料清单”中。欧盟工业负责人蒂埃里·布雷顿(Thierry Breton)在一份声明中表示,如果不采取行动,欧洲将面临短缺和不必要的依赖的风险,欧盟将与各成员国合作并确定战略项目,这些项目将受益于更简便、更高效的许可程序且更容易获得融资。先进制造

美国研究人员开发出超节能蠕动型软体机器人

据TechXplore 11月14日消息,美国普林斯顿大学研究人员成功开发出一款灵活、轻便且节能的蠕动型软体机器人eViper。该机器人没有腿或旋转部件,主要利用压电效应,通过将电能转化为机械能,并通过精确控制脉冲来控制机器人的蠕动,仅需使用1W的功率。此项新技术有望引领未来机器人系统朝着高能效发展。相关研究成果发布于预印本服务器arXiv。

美国研究人员利用大型语言模型助力机器人创造性使用工具

据TechXplore 11月14日消息,美国卡内基梅隆大学和谷歌DeepMind的研究人员联合开发了一项名为RoboTool的系统,旨在通过大型语言模型的应用,使机器人能够更创造性地运用工具,拓展其在各种任务中的能力。RoboTool的核心组件包括分析器、规划器、计算器和编码器。通过RoboTool,机器人能够使用工具解决以前未遇到过的复杂任务,例如创建杠杆来举起重箱或使用磁性方块制作按键等。这项技术有望拓展机器人系统的能力,例如执行更复杂的家务任务或使用现有工具修理破损家具。未来,研究人员计划将大型视觉基础模型整合到系统中,以提高机器人在开放环境中的感知和推理能力,同时建立安全措施以减少机器人在与人类共同工作时的风险。相关研究成果发布于预印本服务器arXiv。

AI军事化,英国想当“领头羊”

据报道,首届全球人工智能安全峰会近日在英国布莱奇利园召开。在此次峰会召开之际,英国公开披露了本国利用人工智能开展军事活动的细节,引发舆论广泛关注。

2023年11月2日在英国布莱奇利园拍摄的首届人工智能安全峰会现场(来源:新华社)

在首届全球人工智能安全峰会召开之际,英国公布了人工智能军用细节。

在军事观察员周伟政看来,英国的时机选择暗藏玄机。周伟政:英国想借此渲染气氛,突出人工智能军事运用的广阔前景和潜在价值,以及人工智能可能带来安全领域的新问题新挑战。峰会地点有说法

资料图:位于英国伦敦西北的布莱奇利园(来源:环球网)周伟政表示,英国把峰会地点选在布莱奇利园也有讲究,这里是二战期间英国的密码破译中心,英国科学家在这里成功破解了德国的恩尼格玛密码机,为盟军打败德国作出了巨大贡献。
周伟政:

英国选择在这里组织人工智能峰会,既是纪念自身历史成就,也是想重新在颠覆性科技领域再次获得领导权,同时也有对内渲染政绩、争取民意支持和更多财政拨款的政治考量。暴露英军AI军事运用倾向

资料图:2023年9月,英军在英吉利海峡进行抢滩登陆演习(来源:中国国防报)英国在这次峰会前夕公开披露的两项人工智能技术在军事层面的运用,分别是抢滩登陆演习数据采集以及飞机故障维修智能预测和诊断。

周伟政认为,这并非人工智能的高端应用,但其中的一些倾向值得关注。
周伟政:首先,英国的人工智能军事运用已经全方位拓展。英国国防部认为,人工智能已经成为提升军事实力、应对未来威胁的重要工具。

其次,在人工智能军事运用领域,英国拉帮结派、搞“小圈子”。在英国最近组织的抢滩登陆演习中,美军参与其中,此外,还涉及意大利、法国的军工企业。英国试图“技术抢跑”

英国首相苏纳克在首届全球人工智能安全峰会上发言(来源:新华社)事实上,英国早已在武装力量中探索和应用人工智能技术,英国国防部此前发布了《国防人工智能战略》,详细分析了英国如何优先研发人工智能技术,进而通过新概念和颠覆性技术大规模提升武器装备智能化水平。
周伟政进一步指出,在人工智能军事化运用方面,英国试图通过“抢跑”获取战略优势地位。

周伟政:

2022年6月15日,英国国防部发布了《国防人工智能战略》,比美国出台相关战略的时间还要早。

英国提出这一战略的目的在于,通过前沿技术枢纽支撑新兴技术的使用和创新,从而支持创建英国国防AI中心。
英国还提出了具体的战略目标,包括将国防转变为“AI就绪”组织,以一定的速度和规模采用和利用AI以获得防御优势等。全球AI军事化风险有待管控

11月1日,中国科技部副部长吴朝晖在首届全球人工智能安全峰会开幕式上发表演讲(来源:澎湃新闻)

在首届全球人工智能安全峰会上,来自中国、印度、美国和欧盟等28个国家和地区的代表签署通过了全球首个人工智能协议《布莱奇利宣言》,旨在解决前沿人工智能模型可能会面临的失控和滥用风险。周伟政表示,《宣言》多是倡议性内容,未来人工智能军事化的风险如何有效管控,有待进一步观察。周伟政:现在各军事强国都看到了人工智能在军事领域的巨大价值,都在不遗余力地制订和推动自己的人工智能军事运用计划。

对人工智能发展运用存在的风险缺乏足够认识以及有效的、共同的制约手段,这一点需要引起国际社会共同关注和反思。中国提出《全球人工智能治理倡议》,是解决这一问题的中国方案,对规范节制当前人工智能的无序发展具有极为深远的意义。

解读AI大模型,从了解token开始

什么是token?最小的语义单元

你可能会好奇,大规模语言模型是如何工作的呢?它们是如何从数据中学习到语言的呢?它们是如何根据输入来生成合理的文本延续的呢?为了回答这些问题,我们需要从最基础的概念开始讲起:token。

自然语言处理(NLP)中,token是指文本中最小的语义单元。比如,一个句子可以被分割成若干个单词,每个单词就是一个token。例如,“I love you”这个句子可以被分割成三个token:“I”,“love”和“you”。token可以帮助我们把文本分解成更容易处理和分析的部分。

但是,并不是所有的语言都可以用空格来划分单词。有些语言,比如中文、日语等,没有明显的单词边界。在这种情况下,我们需要用一些更复杂的方法来进行tokenization(分词)。比如,我们可以用一些规则或者统计模型来判断哪些字或者字组合构成了一个有意义的token。例如,“我爱你”这个句子可以被分割成两个token:“我”和“爱你”。当然,这种方法并不完美,有时候会出现错误或者歧义。

除了单词之外,还有一些其他的符号也可以被视为token。比如,标点符号、数字、表情符号等等。这些符号也可以传达一些信息或者情感。例如,“I love you!”和“I love you?”就不同于“I love you”,因为感叹号和问号表达了不同的语气和态度。

总之,token就是文本中的最小有意义的单位,它们可以帮助我们把文本分解成更容易处理和分析的部分。不同的语言和场景可能需要不同的tokenization方法。接下来,我们要看看GPT系列采用了什么样的token类型?

GPT系列采用了什么样的token类型?

GPT系列是一系列基于Transformer的生成式预训练模型,它们可以用来生成各种类型的文本。目前,已经有了GPT-2、GPT-3和GPT-4等不同版本的模型,它们的区别主要在于模型的大小、训练数据的规模和质量、以及生成能力的强度。

GPT系列的模型都是基于子词(subword)来进行tokenization的。子词是指比单词更小的语言单位,它们可以根据语料库中的词频和共现频率来自动划分。比如,一个单词“transformer”可以被划分成两个子词“trans”和“former”,或者三个子词“t”,“rans”和“former”,或者四个子词“t”,“r”,“ans”和“former”,等等。不同的划分方法会产生不同数量和长度的子词。一般来说,子词越多越短,就越能覆盖更多的语言现象,但也会增加模型的计算复杂度;子词越少越长,就越能减少模型的计算复杂度,但也会损失一些语言信息。

GPT系列采用了一种叫做Byte Pair Encoding(BPE)的子词划分方法。BPE是一种基于数据压缩原理的算法,它可以根据语料库中出现频率最高的字节对(byte pair)来合并字节,从而生成新的字节。比如,如果语料库中出现频率最高的字节对是“ns”,那么BPE就会把所有的“ns”替换成一个新的字节“Z”,从而减少字节总数。这个过程可以重复进行,直到达到预设的字节总数或者没有更多的字节对可以合并为止。这样,BPE就可以把原始的字节序列转换成一个由新字节组成的子词序列。

例如,“obsessiveness”这个单词可以被BPE转换成以下子词序列:

  • 原始字节序列:o b s e s s i v e n e s s
  • 第一次合并:o b s e Z i v e n e Z (假设Z代表ss)
  • 第二次合并:o b s E i v e n E (假设E代表e Z)
  • 最终子词序列:o b s E i v e n E(如果没达到预设的字节要求,可合并只出现一次的子词)

当然,这只是一个简单的例子,实际上BPE会根据大规模的语料库来生成更多更复杂的子词。GPT系列使用了不同大小的BPE词典来存储所有可能出现的子词。比如,GPT-3使用了50,257个子词。

总之,GPT系列采用了基于BPE算法的子词作为token类型,主要目的是以无损的方式压缩文本的内容,从而以保证语言覆盖度和计算效率之间达到一个平衡。接下来,我们要看看如何用子词来表示和生成文本?

如何用子词来表示和生成文本?

我们已经知道了GPT系列使用了子词作为token类型,并且通过上文讲述的BPE或其他相关算法我们可以将文本内容转换为由子词组合而成的序列,也就是术语中分词过程。

有了子词序列之后,我们就可以用子词来表示和生成文本了吗?答案是否定的。因为语言模型是基于神经网络的,而神经网络只能处理数值数据,而不能处理文本数据。因此,我们还需要做第二件事情:将子词序列转换为数值向量。

这里,我们需要介绍两个重要的概念:编码(encoding)和解码(decoding)。

编码和解码

将子词序列转换为数值向量的过程叫做编码(Encoding,它是语言模型的第二步。编码的目的是将一个个离散且无序的token映射到一个个连续且有序的向量空间中,从而方便语言模型进行计算和学习。比如,我们可以用以下的BPE词典来表示上面的例子:

子词数值编码子词数值编码
o1i5
b2v6
s3e7
E4n8

那么,编码和解码就可以按照以下的规则进行:

  • 编码:根据BPE算法,将文本分割成最长的匹配子词,然后根据BPE词典,将每个子词替换成其对应的数值编码,从而得到一个数值向量。比如,“obsessiveness”这个单词可以被编码为[1, 2, 3, 4, 5,6,7,8,4]这个数值向量。
  • 解码:根据BPE词典,将每个数值编码替换成其对应的子词,然后根据BPE算法,将相邻的子词合并成最长的匹配单词,从而得到一个文本。比如,[1, 2, 3, 4, 5,6,7,8,4]这个数值向量可以被解码为“obsessiveness”这个单词。

通过编码和解码,我们就可以实现文本和子词序列向量之间的互相转换。但是,这还不够。我们还需要让GPT系列能够理解和生成这些子词序列。为了做到这一点,我们还需要进行另外两个步骤:嵌入(embedding)和预测(prediction)。

嵌入和预测

我们已经知道,子词分词和编解码,可以把文本转换成数字,就像我们用数字来表示电话号码一样。但是,这样的数字只是一种编码方式,它们并不能告诉我们子词之间有什么关系。比如,我们怎么知道“猫”和“狗”是两种动物,而“猫”和“桌子”是不同的东西呢?

为了让GPT系列能够理解子词之间的关系,我们需要进行嵌入(embedding)。嵌入就是把每个子词用一个特征向量来表示,这个特征向量可以反映出子词的含义、用法、情感等方面的信息。

特征向量的计算算法比较复杂,但计算原理比较容易理解,GPT只需要基于互联网上大量的文本资料,统计出两个词语在相邻/句子/文章中共同出现的概率并通过权重来汇总计算,就能分析出某个词语与另外一个词语的亲密度的数值,并将这个数值作为特征向量来描述这个词语。比如,“猫”在互联网的资料中与“动物”等词语一同出现的次数多,所以“猫”的特征向量可能包含了它是一种动物、有毛发、喜欢吃鱼、会发出喵喵声等信息。

通过嵌入,我们就可以把每个子词看作是高维空间中的一个点,而这些点之间的距离和方向,就可以表示出子词之间的相似度和差异度。比如,“猫”和“狗”的点因为同为宠物,可能会比较接近,相对“狗”而言,“猫”和“牛”的点可能会比较远离。

在完成嵌入后,我们就可以进行预测(prediction)。预测就是根据给定的文本,计算出下一个子词出现的概率。比如,如果给定的文本是“我家有一只”,那么下一个子词可能是“猫”或者“狗”,而不太可能是“桌子”或者“电视”。这个概率的计算,就是基于特征向量表进行的。

通过嵌入和预测,我们就可以实现从数字到文本,或者从文本到数字的转换。但是,这还不够。我们还需要让GPT系列能够根据给定的文本来生成新的文本。为了做到这一点,我们还需要进行最后一个步骤:生成(generation)。

生成与自回归

生成是指根据给定的文本来生成新的文本的过程。生成可以分为两种模式:自回归(autoregressive)和自编码(autoencoding),GPT系列主要采用了自回归模式。

那么什么是自回归?简单理解就是想象这么一副画面:

一个人在拍连环画,每一页连环画都是前一张连环画的延续。也就是说,人需要看前一张画乃至前多张画才能知道该画什么内容。类似地,自回归模型中的每个时间点都需要前一个时间点的信息才能计算出当前时间点的输出值。就像拍连环画一样,自回归模型中各个时间点之间存在着紧密的联系和依赖关系,这种联系在预测时间序列数据时非常有用。

例如,“I love you”这个句子可以被GPT系列生成为以下的文本:

  • I love you more than anything in the world.
  • I love you and I miss you so much.
  • I love you, but I can’t be with you.

总之,GPT系列使用了子词、数值向量、实数向量和Transformer模型来表示和生成文本。通过编码、解码、嵌入、预测和生成等步骤,它可以实现从文本到文本的转换。

快看!这些高交会“显眼包”!

11月15日第二十五届中国国际高新技术成果交易会拉开帷幕(以下简称“高交会”)高交会上,各领域先进技术、装备科技感十足集中展示行业领域最新的创新技术应用成果一大批高精尖“黑科技”产品悉数展出吸引大量观众驻足观看现我们一起去看看高交会上的这些科技型“显眼包”

在展区现场,一只行走的“机器狗”成了高人气选手,吸引大家驻足观看,这款救援机器狗,搭载了各种先进的传感器,并具有灵活的移动性,可以完成勘察、通信保障、导航定位、救援现场应急照明等多项任务,为应急救援工作带来便利。

每年高交会上,各类无人机设备备受关注,与平常的消费型无人机相比,现场展出的铁塔无人机可实现24小时不间断作业,续航时长可以达到70分钟,满足环保、工业、救援等多种场景的使用。

一台由深圳汉诺威国际机器人发展股份有限公司推出的潮汕功夫茶机器人吸引了不少参展者的目光。该机器人将传统茶艺与现代科技相结合,为现场观众带来一场独特的文化体验。该企业负责人表示:“我们希望通过潮汕功夫茶机器人,让更多的人了解和体验传统茶艺的魅力。”

AR飞行模拟器,让用户体验飞一样的感觉。在航空科技领域,富翔航空元宇宙科技AR飞行模拟器成为全场焦点。“这款模拟器运用了最先进的虚拟现实技术,能够让用户体验到真实的飞行感觉。”富翔航空相关负责人告诉记者,产品多用于飞行培训、空中导览、飞行航校等。

一个外观普通的“花瓶”却大有用处。据参展商介绍,这是一款新型的灭火器,每个“花瓶”里都有灭火剂,当家里遇到突发火灾等紧急情况时,只要快速将“花瓶”投向灭火点,即可起到灭火的作用。与AI共舞的时代已到来在第二十五届高交会上可以看到AI无处不在AI应用场景遍地开花正在赋能千行百业的快速发展。

日前,《广东省人民政府关于加快建设通用人工智能产业创新引领地的实施意见》印发,重点提出22条政策举措,将广东打造成为国家通用人工智能产业创新引领地;今年,深圳发布《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》,积极打造全域全时场景应用,努力创建人工智能先锋城市。

一系列政策的出台为人工智能产业发展插上腾飞的翅膀而通过高交会可以洞见“AI+”将会让产业发展更迅猛人类生活也将变得更美好🎉🎉🎉
AI+智能驾驶汽车也能飞上天

高交会上,一辆超跑造型的汽车宛如变形金刚那样,车顶上“长”出旋翼、机臂,从一辆智能汽车化身智能飞机,仿佛下一秒就要飞向空中,这令人啧啧称奇的汽车是来自小鹏汇天的陆空一体式飞行汽车。

该款汽车以最新造型首次在高交会上向公众展示,一亮相就成为展会最受关注的“显眼包”,吸引众多观众打卡拍照。小鹏汇天陆空一体式飞行汽车采用陆空一体式构型,机臂、旋翼等飞行系统可以完全折叠收纳至车内。整车造型采用超跑设计风格,极富科技感的智能座舱可实现陆行、飞行两种驾驶模式的自由切换,如方向盘、透明仪表盘等可随着模式的切换而变化。

据介绍,在陆行模式下,该车能在正常路面上自由行驶。通过折叠变形系统,打开机臂切换到飞行模式,在法规、环境允许的条件下能垂直起降,飞行跨越拥堵、障碍、河流等,满足人们短距离低空出行的需求。据了解,这款产品将会参加明年1月份北美的CES(国际消费类电子产品展览会),向全世界展示中国科技的魅力。

小鹏汇天对外事务总经理仇明全表示,这是他们第一次参加高交会,希望借助高交会能够得到各界关注,助推智能驾驶产业的快速发展。

AI+大模型人人拥有私人小助手

要问今年最热的科技热点是什么,很多人都会脱口而出——大模型。

“‘李白’你好,请问如何才能写好诗呢?”“请用英文写一段高交会的宣传文案。”在高交会科大讯飞展台,被评为中国“最聪明国产大模型”的讯飞星火认知大模型V3.0(以下简称讯飞星火)吸引了众多观众驻足体验。人们围在讯飞星火面前争相提问,讯飞星火都能够迅速准确地给出答案,成为展会最热“打卡点”。

据介绍,讯飞星火可以实现从多轮对话、到主动对话、再到启发探究式对话,这种“像人一样主动沟通”的能力正在教育、医疗等国计民生领域发挥巨大价值。

例如,用户通过讯飞星火App可调用约5000个已上架的AI助手,也能简单几步开发出专属的AI助手,满足职场、营销、生活、公文、客服等多种场景需求,解决工作生活中的各种问题。

“有时候老师布置给孩子制作海报的作业,我用讯飞星火两三下就能给出一份很值得借鉴的作品,特别省时而且效果好。”现场,用户江女士告诉记者,讯飞星火帮助她更好地指导和启发孩子。

不难展望,每个人都拥有AI助手的时代,正在到来。AI+芯片让城市的“大脑”更聪明

AI大模型运算的背后离不开芯片的算法支撑,大模型时代,AI推理芯片是其“落地应用最后一公里”的关键承载体。

本届高交会上,云天励飞重磅发布新一代AI芯片DeepEdge10。该芯片是国内首创的国产14nm Chiplet(14纳米芯粒)大模型推理芯片,采用自主可控的国产工艺,内含国产RISC-V(第五代精简指令集)核,支持大模型推理部署。

据介绍,依托自研芯片DeepEdge10创新的D2D chiplet(芯粒互联)架构打造的X5000推理卡,已适配并可承载百亿级大模型运算,可广泛应用于AIoT(人工智能物联网)边缘视频、移动机器人等场景。“例如在智慧交通领域,大模型可以搭载该款AI芯片,通过调用不同的算法,实现公交车智能线路优化、智慧交通巡检等功能,让城市‘大脑’通过自学习变得更聪明,最终实现自进化城市智能体。”工作人员介绍道。

目前,云天励飞已向国内头部的AIoT芯片设计厂商、智慧汽车芯片设计厂商、服务机器人厂商、国家重点实验室等提供神经网络处理器的IP(知识产权)授权。

AI+硬件戴上耳机,实时切换母语

在1号馆的时空壶展位内,一名外国嘉宾在翻译耳机前好奇地询问随行翻译:“这个产品如何使用?”随行翻译又将这句话翻译成为中文,询问一旁的工作人员。工作人员并未作出回答,而是微笑着将两只耳机分别交给外国嘉宾和随行翻译。俩人戴上耳机后对话,即使使用母语交谈不翻译,依然可以实现无障碍交流。

人工智能与硬件技术的结合,使得耳机具有同声传译功能。据介绍,一人戴一只翻译耳机,一方说一句话,仅需0.5秒,另一方的耳机里就能传出准确的同声翻译,从而实现双方使用母语“丝滑”交流。

目前,时空壶W3翻译耳机支持40种语言和93种口音,翻译准确率达到95%。已销往全球170多个国家和地区,在商务、旅游、教育等行业得到了广泛应用。

“这是我们第三次参加高交会,此次我们准备更加充分,高交会上外国展商和嘉宾很多,我们希望在高交会上可以给参观者带来更好的翻译帮助。”时空壶同传翻译耳机PR经理何涛说。

AI+支付手掌一挥便能“买买买”

继手机移动端支付后,如今刷脸支付已得到普及,不久之后,刷掌支付或将推广到全社会。在高交会微信支付展位上,记者就体验了一把刷掌支付。

只需将手掌悬空放在地铁闸机口的感应区,一秒就可轻松购票刷开闸口;对着共享充电宝机器的感应器,轻轻一抬手,即可成功刷掌借到一台充电宝,让现场体验的观众不得不感叹;“实在是太方便,爱了爱了!”

据介绍,微信刷掌支付是一种基于手掌表皮掌纹和皮下掌静脉进行身份验证的新型支付方式。通过先进的成像技术和AI算法,微信刷掌支付设备将用户手掌图像转化为数字特征,与预先注册的特征进行比对以确认用户身份,从而完成支付。

记者了解到,由于每个人的手纹和掌静脉信息都是独一无二的,即使是同卵双胞胎也有明显差异,这使得刷掌支付在身份验证方面具有出色的精确度。“刷脸再加上刷掌支付,以后出门真的连手机都不用带了。”市民张女士对记者说。

AI+元宇宙虚拟人直播照样吸粉

你敢相信,直播画面里活泼可爱在跳舞的“二次元”萌妹子,竟是一名“糙汉子”生成的虚拟人?高交会上,记者就围观了这样一场有趣的直播。

只见现场搭的直播间只有一台电脑、一个摄像头,一位工作人员在摄像头前手舞足蹈,电脑直播画面里就出现了一个漂亮的虚拟人“女主播”,跟随工作人员的动作舞动,一时间吸引了众多网友进入直播间观看。

这是深圳趣象时空带来的元宇宙新玩法:虚拟人直播。工作人员向记者介绍,用户通过AI 系统上传个人照片3D建模,即可个性化生成自己专属的虚拟人形象,搭配3D虚拟场景,就可以在元宇宙里开直播甚至开演唱会。不仅如此,观看直播的观众也可一键生成虚拟人形象,进入直播间与主播同屏互动,合唱、跳舞、做游戏都不在话下。

斯坦福大学发布《2023年AI指数报告》:解析近年人工智能领域发展十大要点

斯坦福大学人工智能研究所(Stanford HAI)发布了《2023年人工智能指数报告》(Artificial Intelligence Index Report 2023)。该报告全面剖析了人工智能(AI)的影响及其在本年度的发展趋势,它追踪并整理了人工智能领域内的各类数据,为政府决策者、研究人员、企业高管等群体对人工智能领域具备深入了解提供了便利。与此同时,本报告也旨在成为全世界范围内最具信度和权威的人工智能领域前沿观点的来源。

本报告由八个章节组成,在论述这八个部分内容的过程中,本报告强调了近年来人工智能领域发展的十大要点
 工业界领先于学术界

在第一章“研究与发展”中,本报告指出,当下人工智能领域内工业界呈现出领先于学术界的发展态势(industry races ahead of academia)。截至2014年,大部分重要的机器学习模型都是由学术界研创并发布的,然而自那年之后,工业界开始接手机器学习模型的制造。截至2022年,由工业界生产的机器学习模型数量高达32个,而学术界则只研发了3个。究其原因,这种现象的产生是因为构建先进的AI系统对于海量数据、计算机能力及资金支持的需求日益增大,与非营利组织和学术界相较,工业界天生具备这些优势

在这一章节中,本报告还指出,有关于AI的研究数量正在持续且全面地上升(包括模式识别、机器学习和计算机视觉等主题),其中,中国在AI期刊、会议以及存储库中发表的成果总量呈领先态势,中美两国在AI出版物方面所进行的跨国合作数量在2010至2021年间也位居世界首位,然而近年来两国进行相关合作的步伐已有所放缓。

 传统基准的性能饱和

在第二章“技术性能”中,本报告指出,传统基准上的性能趋于饱和(performance saturation on traditional benchmarks)。近年来,AI领域内持续产出了不少先进的成果,然而仍有很多基准的年同比改进微乎其微;除此以外,传统基准达到饱和的速度正在加快,不过,BIG-bench和HELM等崭新的、更全面的基准套件正处于发布过程中。

人工智能对环境&科学的影响

在第二章节中,本报告还指出,人工智能利弊共存,既能保护环境、促进科学进步,但也有可能损害环境(AI is both helping and harming the environment; AI is the world’s new scientist)。新的研究显示,人工智能系统可能会对人类所处的生态环境产生恶劣的影响,根据专业人士的调研,2022年BLOOM的训练运行排放的碳元素比一位从纽约到旧金山的单程航空旅客多出25倍。尽管如此,BCOOLER等新的强化学习模型表明,人工智能系统可以用于提高能源使用的效率;此外,人工智能模型也正迅速地推动科学的发展,并于2022年被使用于辅助氢聚变、提高矩阵操作效率、生成新抗体

滥用人工智能事件数量正在迅速上升

在第三章“技术AI伦理”中,本报告指出,滥用人工智能的事件数量正逐步攀升(the number of incidents concerning the misuse of AI is rapidly rising)。根据专门追踪人工智能伦理相关事件的AIAAIC数据库提供的资料显示,自2012年以来,人工智能相关事件及争议量已增加了26倍。2022年,不少引人注目的国际事件印证了人工智能技术使用量的增长,也表明人们已经逐渐意识到了人工智能滥用的可能性。
人工智能专业技能需求增加

在第四章“经济”中,本报告指出,许多工业部门对于人工智能相关专业技能的需求都在不断地增加(the demand for AI-related professional skills is increasing)。在美国,需要使用数据的每一个部门(农业、林业、渔业和狩猎除外),人工智能相关的岗位招聘数量每年逐步增加,雇主们越来越倾向于寻找具备人工智能相关技能的员工。

人工智能私人投资首次出现同比下降&助力企业增收

同时,人工智能在经济层面的另一个发展态势是,在过去的十年中,私人对人工智能的投资首次呈逐年减少的趋势(year-over-year private investment in AI is decreasing)。2022年,全球人工智能私人投资额为919亿美元,与2021年的水平相较下降26.7%。

人工智能相关融资活动及新融资的人工智能公司数量也正在逐步减少,不过,虽然采用人工智能的公司比例呈现出了停滞以及下滑的状态,但采用人工智能技术的公司仍保持着领先地位,采纳人工智能技术的企业报告称,它们已经实现了有意义的成本下降和收入的增加。报告显示,过去年一种投资最多的人工智能聚焦领域为医疗保健(总额为61亿美元),其次是数据管理和云(59亿美元),以及金融科技(55亿美元)。
政策制定者对人工智能的兴趣上升

在第八章“政策与治理”中,本报告指出,政策制定者愈发重视对于人工智能的研究(policymaker interest in AI is on the rise)。针对127个国家立法记录的人工智能指数分析显示,与人工智能密切相关的法案正式获准成为法律的案例数量从2016年的1个快速增加至2022年的37个;关于81个国家人工智能会议记录的调查同样表明,近年来,人工智能在全球立法进程中出现的频率较高,已经增加了约6.5倍。

在人工智能方面,政策制定者有很多亟待实现的想法。相关研究表明,政策制定者从广泛的角度出发,思考人工智能应用前景。例如,2022年,英国立法者探讨了人工智能主导的自动化风险;日本政府决策者则认为,在人工智能方面,必须将“维护和保障人权”提上日程;赞比亚的政策制定者则深入研究了将人工智能技术应用于天气预报的可能性;美国政府所签订的与人工智能相关的合同支出金额大幅度增长,这些例子无一不展现出人工智能对于政策制定者而言的重要性。
中国公民人工智能体验最积极

在第八章“舆论”中,本报告指出,中国公民是对人工智能产品及服务感受最为积极的群体之一(Chinese citizens are among those who feel the most positively about AI products and services)。在2022年的益普索调查中,约有78%的中国受访者赞同使用人工智能的产品及服务“利大于弊”,这一比例在所有受调查国家中位居最高;然而,美国受访者认同人工智能使用利大于弊这一观点的人数在所有受调查人群中仅占35%。报告认为,大部分美国受访者之所以认为人工智能弊大于利,主要原因有他们担心人工智能带来的失业问题(19%);监视风险、黑客攻击和数字隐私风险(16%);以及人工智能带来的人际关系缺失(12%)
其他要点

除上述十大主要发展要点外,本报告还着重强调了人工智能领域在教育行业中的发展情况。报告指出,人工智能发展越来越专业化,越来越多毕业于该专业的博士迈入了工业界,数量远多于在学术界就职的博士群体。与此同时,政府部门对于人工智能领域研究的资金投入力度不断增多,在全世界范围内,人们对于K-12人工智能和计算机科学教育的兴趣都在不断地增长

英伟达推出史上最强AI芯片H200!141GB超大显存,Llama2推理性能翻倍

英伟达又一次打了所有人措手不及!
就在昨晚,老黄发布了新一代史上最强 AI芯片 NVIDIA HGX™ H200 。

141 GB 超大显存!带宽增加 2.4 倍
H200 拥有141GB 显存!相比之前的 H100和A100,容量几乎翻倍!
NVIDIA H200 是首款提供 HBM3e 的 GPU,借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 显存,带宽增加 2.4 倍。
H200可以轻松加速生成式 AI 和大语言模型,同时推进 HPC 工作负载的科学计算。
下面是H200和H100以及A100显卡的各参数对比图,可以清晰帮助大家看出H200各方面带来的提升。

兼容H100系统,轻松训练ChatGPT,Llama 2推理速度翻倍!

NVIDIA H200将在具有四路和八路配置的NVIDIA HGX H200服务器主板中提供,这些主板与HGX H100系统的硬件和软件兼容。它还可用于 8 月份发布的采用 HBM3e 的 NVIDIA GH200 Grace Hopper™ 超级芯片。
HGX H200 由 NVIDIA NVLink™ 和 NVSwitch™ 高速互连提供支持,可为各种应用工作负载提供最高性能,八路 HGX H200 提供超过 32 petaflops 的 FP8 深度学习计算和 1.1TB 聚合高带宽内存,可在生成式 AI 和 HPC 应用中实现最高性能。
对超过 1750 亿参数的ChatGPT等大语言模型进行训练和推理也不在话下!
具体到训练大模型方面有何提升呢?
英伟达进行了官方测试——相比 H100 ,Llama 2的推理速度几乎翻倍!。
当用H200与英伟达GraceCPU搭配使用时,就能组成性能更强的GH200 Grace Hopper超级芯片,专为应用于大型HPC和AI应用!

兼容H100系统,轻松训练ChatGPT,Llama 2推理速度翻倍!

NVIDIA H200将在具有四路和八路配置的NVIDIA HGX H200服务器主板中提供,这些主板与HGX H100系统的硬件和软件兼容。它还可用于 8 月份发布的采用 HBM3e 的 NVIDIA GH200 Grace Hopper™ 超级芯片。
HGX H200 由 NVIDIA NVLink™ 和 NVSwitch™ 高速互连提供支持,可为各种应用工作负载提供最高性能,八路 HGX H200 提供超过 32 petaflops 的 FP8 深度学习计算和 1.1TB 聚合高带宽内存,可在生成式 AI 和 HPC 应用中实现最高性能。
对超过 1750 亿参数的ChatGPT等大语言模型进行训练和推理也不在话下!
具体到训练大模型方面有何提升呢?
英伟达进行了官方测试——相比 H100 ,Llama 2的推理速度几乎翻倍!。
当用H200与英伟达GraceCPU搭配使用时,就能组成性能更强的GH200 Grace Hopper超级芯片,专为应用于大型HPC和AI应用!

新一代超算要来了!

NVIDIA还宣布与 Jupiter 合作赢得了一项新的超级计算机设计。根据 EuroHPC 联合组织的订购,Jupiter 将成为由 23,762 个 GH200 节点构建的新型超级计算机。
一旦上线,Jupiter 将成为迄今为止最大的基于 Hopper 的超级计算机,并且是第一台明确(且公开)针对标准 HPC 工作负载以及已经出现的低精度张量驱动的 AI 工作负载的超级计算机。

什么时候发货?
英伟达表示,H200将于2024年第二季度开始在全球服务器制造商和云服务提供商处发售。
首批部署H200的云服务提供商包括CoreWeave、Lambda、Vultr、AWS、谷歌云、微软Azure和甲骨文等。

国内大模型厂商怎么办?
真是不对比不知道差距啊!
英伟达发布了史上最强显卡H200 ,国内厂商能买到货吗!
估计是不抱希望了!
美国前阵子命令英伟达立即停止对华销售高性能AI芯片,国内多家大厂提前下单的超50亿美元芯片订单不知道还能不能收到货。
而这次的H200太强了,后面铁定上禁售名单。
另一方面,前几天英伟达绕过禁售令,将推出三款中国特供版AI芯片。

现在来看,都是鸡肋啊。

众所周知,搞大模型是离不开高性能显卡的,国内百模大战相比OpenAI最新发布的GPT-4 turbo没有一个能打的。
可以预料,本次H200发布之后,国内大模型相比国外的差距只会越来越大~

3D打印融合人工智能,影响七个环节,面临十项挑战

当前,增材制造与人工智能(AI)技术都已独立掀起了应用革命,重新定义了各自领域的可能性,但正两者的融合正在为制造带来更多潜力。本文将从优化设计到质量控制需求,探讨人工智能和3D打印技术的交叉点,特别阐述生成式人工智能如何增强增材制造的能力。最后,将讨论两者结合面前所面临的挑战

01

人工智能如何增强增材制造

随着3D打印领域的不断发展,人工智能(AI)的集成已被证明是一股变革力量,引入了增强功能和无数专为增材制造定制的方法:
1. 衍生式设计:人工智能在设计优化方面的能力非常出色。考虑到最初的限制,人工智能探索了无数的设计变化,产生了比人类所能设计出来的更轻、更坚固和更高效的零件。
2. 流程优化:人工智能能够对制造流程进行微调,保证打印质量的一致性。根据传感器反馈调整打印速度、层厚或温度等参数,确保最佳打印条件。
3. 用于质量控制的机器学习:增材制造的质量保证受益于人工智能的分析能力。先进的机器学习模型,例如卷积神经网络(CNN),可以评估打印组件的图像以识别缺陷或设计偏差。
4. 预测性维护:利用人工智能分析运行数据,可以提前进行设备维护。这减少了计划外停机时间,确保制造过程顺利高效。
5. 材料创新人工智能的实力已延伸到材料选择和创新。它有助于挑选合适的材料,并建议针对所需特性量身定制新组合。神经网络模型可以预测新型材料的特性,甚至在生产之前就可以提供见解。
6. 强化学习促进流程细化:持续改进对于增材制造至关重要,不断强化学习通有助于实现更好的材料特性或表面质量。
7. 通过NLP进行文档记录:人工智能采用自然语言处理(NLP)技术来自动更新或创建与设计更改保持一致的文档。

02

生成式人工智能的兴起及其影响

生成式人工智能是一种能够根据学习到的数据模式生成新内容或设计的人工智能,这项技术给增材制造领域带来了多方面的影响。近期,ChatGPT展示了其在各个领域的影响力,凸显了生成式人工智能在制造业的变革潜力
生成式人工智能最显著的优势之一是其快速促进设计进化。该技术无需延长开发周期,而是可以快速生成针对特定约束的多种设计选项,从而简化从初始概念到最终设计的过程,并减少多次原型设计迭代的需要。设计处理的加速伴随着创新的冒险。生成式人工智能不受人类偏见或传统设计范式的限制,使其能够探索独特的设计途径,乍一看似乎违反直觉,但有可能带来创新的解决方案

除了单纯的设计之外,生成式人工智能的能力还扩展到前所未有的定制规模。无论是根据个人独特的生理机能精心定制的假肢,还是设计在特定环境条件下发挥最佳性能的工程汽车组件,生成式人工智能都将个性化置于制造的中心。这种对精度的承诺不会以牺牲可持续性或效率为代价。通过优化设计,生成式人工智能可确保使用尽可能少的材料来制作产品,将强度和功能结合起来,不会造成浪费。这种资源效率不仅支持可持续制造实践,而且被证明具有成本效益。
与3D打印流程的无缝集成是生成式人工智能的另一个特点。其本质上的数字优先设计可以顺利过渡到增材制造世界,确保产品的物理表现与其数字蓝图完美契合。更有趣的是,生成式人工智能并不是静态的,而是动态的。它在不断发展,通过每个反馈循环,从用户响应到性能指标和新发现的材料特性,它都会完善其设计建议,使它们更加复杂并与现实世界的要求紧密结合。
如今,生成式人工智能和增材制造的结合带来了一个设计高效、可定制、不断发展的未来,重塑了制造业的结构
03

应对挑战

虽然生成式人工智能和增材制造的融合有望带来革命性的设计和生产方法,但它也并非没有挑战。认识到这些挑战并制定解决这些挑战的策略将是充分发挥这种整合潜力的关键。
1. 计算需求:生成式人工智能模型可能需要大量计算,特别是在处理复杂几何形状和约束时,使用者可能需要投资高性能计算集群或利用云平台。
2. 数据质量和可用性:生成式人工智能的有效性通常取决于其训练数据的质量和数量。数据不足或有偏差可能会导致设计不理想甚至有缺陷。
3. 解释人工智能输出:有时人工智能生成的设计可能是违反直觉或非常规的,工程师和设计师必须严格评估这些输出,确保它们符合安全标准和实际考虑。
4. 与现有系统集成:引入人工智能驱动的设计流程可能需要对现有设计和制造工作流程进行重大改变,无缝集成对于避免中断至关重要。
5. 材料限制:虽然人工智能可能会产生复杂而新颖的设计,但当前适合3D打印的材料范围可能会限制它们在现实世界中的适用性。
6. 知识产权问题:确定人工智能生成的设计的所有权和专利性可能是一个法律灰色地带,使用者需要应对这些挑战以保护创新。
7. 可靠性和测试:人工智能设计的产品需要严格的测试,特别是在航空航天或医疗设备等关键应用中,传统的测试协议可能需要调整或扩展。
8. 成本影响:虽然生成式人工智能可以节省材料和设计优化的成本,但人工智能基础设施、培训和集成的初始投资可能会很大。
9. 人机协作:生成式人工智能的最佳用途不是取代人类设计师,而是增强他们的能力。建立人类和人工智能共同工作的协作框架可以产生最佳结果。
10. 监管和认证挑战:产品,尤其是受监管行业的产品,必须符合特定标准。监管机构可能需要调整其框架以适应和验证人工智能生成的设计。
04

结论

展望未来,生成式人工智能和3D打印的结合预示着设计和生产的边界会不断扩大并将重新定义未来。人工智能和增材制造之间的协同关系具有变革性,象征着技术与创新制造错综复杂的未来。然而,当我们在这一创新之旅中前行时,我们必须以战略远见来应对挑战,确保这种技术共生不仅是创新,而且是维持和发展,不断推动走向无限创新的未来。

AI应用的最大赢家,为什么是Adobe?

今年10月,《时代》杂志发布“2023年最佳发明”。在AI门类入选的14个应用中,老牌软件公司Adobe的Generative Fill(生成式填充)力压OpenAI的GPT-4,位列细分门类头把交椅。

当Midjourney依靠一张AI生成的情侣合影横空出世时,一度被认为是“PS背后的神秘力量”的病危通知书。但近一年过去,大家猛然发现相比网红AI初创公司,Adobe才是资本市场真正的抢手货。

年初至今,Adobe在美股创造了71%的涨幅,市值涨了足足1000亿美元。

那么,大家到底在期待什么?

Adobe做了什么?

今年3月,Adobe公布了其生成式AI工具“Firefly”。和Midjourney、Dall-e等工具一样,Firefly具有文本生成图像、AI 生成文字效果、重新上色等功能,之后又添加了生成式填充、文字生成视频和海报等功能。

Firefly的生成质量相比同类产品其实并不算强,在社交媒体上的热度也远不如Midjourney、Stable Diffusion等同行,但Firefly却让Adobe在资本市场疯狂上分。

一个重要原因是,Firefly解决了生成式AI商业化面临的版权问题。

首先,Firefly大模型的训练数据来源是Adobe的图库Adobe Stock,其内容为公开授权图片或版权过期的图片。创作者可以把作品上传到图库,如果有其他人下载则视为达成交易,作者可以获得相应的版税收入。

虽说Adobe Stock在图库市场的份额属于“其他”,但好处是规避了版权问题。

针对一些知名IP,Firefly会在图片生成前就先行拦截,彻底杜绝了收大公司律师函的可能性。更何况Adobe承诺如果出现版权纠纷责任全在己方,对重视合规的大公司是一个福音。

今年10月,Adobe公布了Firefly大模型的迭代款,同时公布了Creative Cloud(包含Illustrator、Photoshop、Lightroom、Premiere Pro的订阅包)的100多项AI功能更新,比如在Photoshop里借助AI智能扩充图片。

这些更新的意义在于,可以让AI生成的图片融入Adobe全家桶的工作流

AI做图的核心是提示词(prompt),不同的提示词生成的图片差异巨大,对用户来说完全是个盲盒。即便每次念同样的咒语,生成的图片也可能也大相径庭。

妙鸭相机这类应用本质上是将提示词功能化,虽然牺牲了自定义的自由度,但大幅度降低了释放咒语的门槛。但无论哪种方式,对于商业化用途都是无法接受的。

另一个问题是图像的编辑。比如设计师用Dall-e生成了一张图片,需要在Photoshop上编辑,还需要设计师把图片矢量化——所谓矢量图,指通过数学公式而非像素描述图形,因此矢量图可以无限放大而不会失真,让设计师可以自由编辑。

这也是为什么Adobe会针对性的推出Firefly矢量模型,可以让AI直接生成可编辑的矢量图形。Adobe旗下的Illustrator也推出了文本生成矢量图的功能测试。

这就意味着从图像生成到编辑,用户可以完全在Adobe全家桶里完成,迁移成本非常低。

因此,虽然大家都是AI生成图片,但Midjourney、Dall-e等应用更多侧重单纯的生成,编辑能力极其有限,也无法与Adobe全家桶这类专业工具集成。

所以,Midjourney所替代的更多是Flickr和Shutterstock这类图库。在专业的商业化场景里,Adobe还是独一无二的霸主。

事实上,Adobe的技术能力未必有多么出色。Firefly生成图片在一些细节上与Midjourney等同行还有差距,其大模型的开发也仰仗了英伟达的技术扶贫。

但Adobe的核心能力在于:在AICG的技术浪潮出现之前,他们就已经是富可敌国的软件公司了。

Adobe的核心资产

Adobe的核心业务分为两块:数字体验数字媒体。前者定位于企业的数字化营销;后者则是由我们熟悉的Photoshop、Illustrator等软件组成的全家桶,收入占比长期高达70%以上。

其中,数字媒体部分又由两大拳头产品组成:针对影像编辑和设计的Creative Cloud,在数字媒体业务中贡献了80%的收入;另一个是以PDF文档为核心的Document Cloud,针对文档的管理等场景。

在这些业务场景里,Adobe的覆盖面极广。除了我们熟悉的Photoshop,还有针对UI设计的Indesign,针对照片编辑的Lightroom和用于矢量图处理的Illustrator。

这个庞大的软件版图构筑起来的是Adobe在图形设计这个细分市场绝对的霸主地位。2023年全球图形设计软件前5名中,有4家来自Adobe,加起来市场份额接近80%。唯一的竞争对手Sketch还只支持macOS平台。

超高的市场份额构筑了Adobe的护城河:打动资本市场的并不是Adobe的技术能力有多么领先,而是在图形设计这个含金量巨大的细分市场,Adobe已经提前卡住了身位赚大钱了。

经过了大模型群魔乱舞的时期,产业界逐渐意识到,AI应用的落地才是更关键的问题。而诸如办公、图形设计这类“高价值的场景”,目前还是稀缺的。

OpenAI创始人Sam Altman曾表达过一个观点[8]:未来的应用趋势是大模型的功能嵌入更多APPs,而不是在 ChatGPT 上生长出更多插件,因为现实中大多数插件并没有呈现出 PMF ( Product / Market Fit,产品市场匹配)。

也就是说,至少目前来看,AI落地更多在于改造现有的应用场景,而非创造新的场景。

按照这个论点,能够在当下分一杯羹的公司,很可能在AIGC的热潮出现前就已经大赚特赚了。Adobe就是其中之一。

2008年,Adobe开启了自公司创办最大的一次改革:将按版本买断制的软件销售模式转变为按产品组合订阅收费。

虽然这次转型被冠以“SaaS云服务”之名,但核心还是把传统的一次性购买变成定期缴税。2014年一季度,Adobe订阅收入首次超过买断收入。

同时,Adobe主导了大量防御性收购。2009年,Adobe一口气收购了Omniture、Efficient Frontier、ComScore等几家定位在“营销科技”的公司,建立了在创作设计之外的第二块重要业务版图。

2018年后,随着Shopify迅速崛起,Adobe又开启钞能力,收购了Shopify的竞争对手Magento和Marketo,同时一点点减持Shopify的股份,完成了对电商、AI等领域的覆盖。去年,Adobe再次慷慨解囊200亿美元,拿下在线设计协作软件Figma。

这样做的好处在于,一旦市场上出现有威胁的友商,Adobe可以第一时间收入囊中。同时,被收购的产品可以放进自己的订阅服务产品组合,加强自家产品的竞争力,进一步抢占市场份额。

贡献了20%收入的Experience Cloud,产品组合几乎全是买来的。

得益于占比夸张的市场份额,Adobe事实上成为了设计创意行业的某种“标准”,这也难怪收购Figma会惊动美国反垄断部门。

因此,Adobe的核心竞争力并非技术多么领先,而是在“创意设计”这个高价值场景里,付费能力和付费意愿最强的客户几乎都被Adobe纳入麾下了。

到了AIGC时代,Adobe打下来的江山就显得更值钱了。

同样的逻辑也适用于微软,作为办公软件的全球龙头,资本市场盯上的不是微软的技术含量,而是每年给Microsoft 365按时交钱的劳动人民。

然而,即便是Adobe和微软两位带头大哥,也都面临一个严峻的问题:算力的高成本。

All eyes on Adobe

当下群魔乱舞的大模型,都可以追溯到8位谷歌的计算机科学家在2017年发表的论文《Attention Is All You Need》。这篇论文公开了Transformer算法,随之扣动了此轮AIGC热潮的扳机。换句话说,Transformer是如今所有大模型的祖师爷。

简单来说,Transformer主打一个大力出奇迹,通过对算力和数据近乎病态的消耗产生涌现。但代价则是高昂的成本,这也是为什么有人揶揄:Money Is All You Need。

伴随大模型逐渐泛滥,落地应用遥遥无期,成本与收入之间的落差便成了迫在眉睫的问题。这也是红杉资本那篇名为《AI’s 200B$ Question(AI的两千亿美元问题)》的博文备受关注的原因。

红杉给AI产业算了笔账,根据当前AI企业的收入状况,以及在GPU、云服务等成本上的投入,测算出整个产业起码还得挣1250亿美元才能回本。

计算方式或许有些粗糙,但表达的意思却很清晰:如果找不到可持续的变现模式,AIGC的风可就要刮不动了。

风投公司Theory Ventures调查数据显示,95%的AIGC公司年收入平均还不到500万美元,一些估值达到数亿美元的初创公司甚至还未有收入进账。

今年5月,ChatGPT iOS版正式上线,定价20美元/月,但首月新增用户人数还不到50000,付费用户在活跃用户中的占比仅仅1.6%。最近OpenAI又开始四处化缘,说明财务情况确实不甚乐观。

按照The Information的报道,风头正劲的网红公司Midjourney,今年的收入也“只有”2亿美元。虽然不算少,但离撑起AIGC的商业化坦途还有不小的距离。

在这个背景下,Adobe身上就笼罩了一层强烈的风向标意义。

Adobe几乎拥有一个完美的商业模型:统治地位的市场份额;庞大的付费用户规模;超高的利润率;以及与AIGC高度吻合的业务场景。如果这样的公司在AI上都赚不到什么钱,无疑会在短期打击产业界对AIGC的预期。

然而,从Firefly的付费方式上,还是可以窥见Adobe巨大的成本压力。

简单来说,Adobe给Firefly设计了一个复杂的定价方式:点数制收费。简单来说,一个点数可用来生成一张图片,用户一个月可免费获得25个点数,有更多需要则需要额外购买点数。用户可以单一购买Firefly服务或CC全家桶,可以按月或按年付费,个人和企业享受的优惠也不相同。

防止用户重度使用造成亏损,一旦有用户使用了超过每月分配的积分,Adobe就会给服务减速。

无论是看起来暗藏玄机的特殊收费方式,还是Adobe不把话说死的鸡贼做法,都牵扯到AIGC成本的一个问题——规模效应差。

大部分互联网产品成本构成中,很大一部分是包括云服务在内相对固定的运营成本,而这部分成本会随着用户规模的扩大越摊越薄。

但AIGC产品则不同,用户每交互一次——比如和ChatGPT对话或用Firefly生成图片,都会在云端运算一次,继而产生对应的成本。用户用得越多,成本越高。开发商只能通过软件优化单次交互消耗的算力,但“用一次算一次”的拿货成本无法改变。

再加上大部分AI应用都位于生产力场景,也很难像互联网产品那样先烧钱再赚钱——毕竟让设计师一遍做图一遍看广告,多少有点行为艺术了。这也是为什么妙鸭相机的产品负责人会说[4]:在AIGC时代,如果不能第一天就向用户收费,就可能永远收不到用户的钱。

微软的GitHub Copilot情况也好不到哪里去。这款主要帮助程序员敲代码的应用,场景和功能和Adobe一样明确,收费也不高,10美元/月或100美元/年,并且收费前就有150万保底用户规模,变现的未来非常光明。

然而现实是由于算力成本,平均每个用户反而让微软倒亏20美元,重度用户甚至能让微软每月倒贴80美元。依此推测,定价30美元的Microsoft 365 Copilot,搞不好亏的更多。

移动互联网时代,大公司会想尽一切办法让用户停留在自己的产品里。如今,大家却巴不得用户交完钱尽量省着点用。

时至今日,算力的稀缺似乎已经成了AIGC应用落地的巨大障碍——如果开一天空调要交500块钱电费,那么无论空调有多少优点,大家还是愿意扇扇子。

英国AI峰会,中美英及科技巨头,各方态度大汇总【英国AI安全峰会洞察】

英国AI安全峰会01内容摘要:

1.中国计算机科学家姚期智和其他科学家呼吁建立国际监管机构,对前沿人工智能系统进行强制注册和审核,纳入即时“关闭”程序,并要求开发者将30%的研究预算用于AI安全建设。

2. 美国副总统哈里斯呼吁就人工智能对民主和隐私构成的威胁采取紧急行动,并宣布成立人工智能安全研究所。

3. 《金融时报》认为,拜登人工智能行政令比《布莱切利宣言》更为重要。

4. 埃隆·马斯克希望建立一个独立的监管方“第三方裁判”,以监督前沿AI巨头,及时发出警告。

1.中国计算机科学家姚期智呼吁建立国际监管机构,对前沿人工智能系统进行强制注册和审核

11月1日,中国计算机科学家姚期智与多名中国科学家以及蒙特利尔大学的Yoshua Bengio等西方专家在英国布莱切利公园举行的峰会上,共同签署了一份声明,呼吁建立一个国际监管机构,对先进AI系统进行强制注册和审核,纳入即时“关闭”程序,并要求开发者将他们30%的研究预算用于AI安全建设。鉴于英国首相苏纳克(Rishi Sunak)为峰会起草的AI安全公报草案并未呼吁各国政府实施具体监管,该声明相较而言更为领先。

来源:金融时报

2.美国外交政策智库卡内基国际和平研究院院长蒂诺·奎利亚尔对媒体表示,只有中国参会,才能证明这是一次真正的全球对话。

2023年11月4日,在英国AI峰会举办期间,中国代表团的出席引人关注,多位专家强调,中国作为在人工智能研发领域领先的国家之一,在应对人工智能风险和机遇的全球讨论中不可或缺。世界知识产权组织数据显示,仅2022年一年,中国机构人工智能专利申请数量就多达29853项,占当年全球人工智能专利申请总量的40%以上。美国外交政策智库卡内基国际和平研究院院长蒂诺·奎利亚尔对媒体表示,只有中国参会,才能证明这是一次真正的全球对话。

来源:新华网

3.埃隆·马斯克称赞苏纳克邀请中国参加英国AI峰会的明智决定

2023年11月2日,埃隆·马斯克与英国首相苏纳克在伦敦发表讲话,对中国参与人工智能安全峰会表示欢迎,称苏纳克邀请中国参加峰会的决定是“必要的”,如果中国未能参加此次峰会,那么此次峰会将毫无意义。

来源:Politico

4.美国副总统哈里斯呼吁就人工智能对民主和隐私的威胁采取紧急行动

11月1日,美国副总统卡马拉·哈里斯(Kamala Harris)在参加AI安全峰会前发表了演讲,她表示,目前亟须解决人工智能对民主和隐私构成的威胁

她强调了要打击人工智能生成语音通话的技术,希望采取数字签名、水印和其他标签技术等措施,以分辨由政府提供的真实内容和由人工智能生成或操纵的内容。

她将为人工智能的开发、测试和使用设定一系列测试,包括:“代码中写入了谁的偏见,符合谁的利益?谁能快速获得了回报,又是谁受到了最严重的伤害或最先受到伤害?”

她还透露,30个国家已同意签署美国发起的关于国家军队使用人工智能的政治宣言。由于绝大多数签署国都是西方国家,这表明人工智能领域或许开始形成新的“冷战”式分歧格局。

她证实了美国商务部将建立美国人工智能安全研究所(US AISI),该研究所将创建指南、开发工具、设立标准和完成最佳实践,用于识别、评估、减轻人工智能风险。

来源:卫报

5.《金融时报》:美国的人工智能行政令比《布莱切利宣言》更为重要

2023年11月3日,《金融时报》称美国要制定人工智能规则。此前拜登政府发布的AI行政令重点关注隐私、安全、歧视和虚假信息等危害,其行政令影响了超过25个政府机构,是迄今为止监管全球AI巨头的最全面尝试。金融时报认为,拜登行政令与毫无约束力的《布莱切利宣言》相比,将产生更为重大的影响。《布莱切利宣言》尚未解决的问题是:当计算机有朝一日在各个领域都可能取代人类时,逐利为本的科技公司是否是发展通用人工智能的最佳机构?一些专家建议,应成立一个类似欧洲核子研究组织(Cern)的国际合作研究机构。《金融时报》还建议,下一次的AI峰会应当优先讨论这个问题。

来源:金融时报

6.埃隆·马斯克:希望设立“第三方裁判”

11月1日,马斯克受邀出席首届人工智能安全峰会,表示希望建立一个“第三方裁判”(third-party referee),以监督前沿AI巨头,并在有安全风险时及时发出警告。他认为,举办人工智能安全峰会的真正目标是建立一个“洞察框架”,这样至少会有一个“第三方裁判”,即一个独立的监管方,可以观察领先的AI公司在做的事项,并在有安全风险时及时发出警告。他还指出,在政府采取监管行动之前,需要先了解AI的发展情况,避免过早地制定规则。

来源:路透社

7. 美国宣布建立人工智能监管机构 不愿将监管权让渡英国

11月1日,美国商务部部长吉娜·雷蒙多(Gina Raimondo)在AI安全峰会上宣布美国将成立新的人工智能监管机构——人工智能安全研究所。她表示,该研究所将制定标准,评估人工智能技术的已知风险和新出现的风险。这证实,即使英国希望将自身定位为人工智能监管领域的全球领导者,英国对于这一敏感议程的控制权也十分有限。尽管英国官员淡化了与美国在人工智能监管上的分歧,但一位科技公司的首席执行官表示,作为世界上最大科技巨头的所在地,美国不希望将其对商业的控制权拱手让给英国。《卫报》指出,美国作为占据技术领先地位的超级大国,不愿事关美国重大战略利益的讨论由他国主导

来源:金融时报、卫报

8.美国商务部设立美国人工智能安全研究所引领人工智能安全工作

11月1日,拜登政府宣布,美国商务部将通过国家标准与技术研究院成立美国人工智能安全研究所(U.S. Artificial Intelligence Safety Institute, 简写为“USAISI”),领导美国政府在人工智能安全和信任方面的工作

USAISI将促进人工智能模型安全、安全保护和测试标准制定,制定验证人工智能生成内容的标准,并为研究人员提供测试环境,评估新兴人工智能风险并解决已知影响。

由国家标准与技术研究院领导的USAISI将利用外部专业知识,包括与学术界、工业界、政府和民间社会的合作伙伴合作,促进人工智能安全。此外,USAISI将与盟友和伙伴国家的类似机构合作,如英国人工智能安全研究所,以协调AI领域的工作。

来源:美国商务部网站、路透社

9.英国科学、创新和技术部人工智能和知识产权部长:美国是英国的朋友,它并不想英国的风头

11月3日,英国科学、创新和技术部人工智能和知识产权部长卡姆·罗斯(Viscount Camrose)对此前《金融时报》称美国通过宣布成立自己的人工智能安全研究所“抢”英国的风头进行回应。他表示,英国和美国关系特殊,是真正的朋友,而真正友谊的关键部分之一是,当你的朋友成功或做了值得称赞的事情时感到高兴。因而,在面对人工智能这一全球性问题时,应该为我们的美国朋友选择在英国发表如此重要的声明感到自豪。

来源:金融时报

10.《南华早报》:人工智能协议表明,尽管存在竞争,中美仍可以在科技监管方面进行合作

2023年11月3日,《南华早报》表示,中国和美国在AI安全峰会上共同签署了一项关于AI的国际协议,共同监管人工智能。莱顿大学亚洲研究中心高级研究员理查德·吉亚西(Richard Ghiasy)表示,这份协议是自2018年以来中美双方签署的第一份国际协议,这非常重要,它意味着两个最大的科技强国已决定为全球利益搁置分歧

美国也将欢迎人工智能合作,加强与中国的对话,并有望达成更多协议。

新加坡国立大学政治学教授 Chong Ja Ian 表示,人工智能是各国在制定法规方面有共同利益的领域,与气候问题和跨国犯罪类似,人工智能可能是美国和中国必须合作的领域。因为中美人工智能合作符合两国利益,合作有助于防止新兴技术滥用和失控。北京人民大学国际关系学院教授王义桅表示,虽然中美将继续进行战略竞争,但它们共同面对着人工智能等人类共同的挑战,并建议中美交换意见,共同制定全球规则和标准。

来源:南华早报

11.美国国防部发布《数据、分析和人工智能采用战略》

11月2日,美国国防部发布《数据、分析和人工智能采用战略》,以取代2018年的人工智能战略和2020年的数据战略,通过加速数据、分析和人工智能的采用,继续推动国防部数字化转型。

该战略由首席数字和人工智能办公室制定,重点关注以下目标:

投资可互操作的联合基础设施;

推进数据、分析和人工智能生态系统;

扩大数字人才管理;改善基础数据管理;

为企业业务和联合作战影响提供能力;

加强治理,消除政策障碍。

国防部副部长凯瑟琳·希克斯表示,从威慑和防御侵略的角度来看,人工智能系统可以帮助指挥官加快决策速度,提高决策的质量和准确性,这具有战略性意义。

来源:美国国防部网站

13.DeepMind联合创始人指责埃隆·马斯克在英国人工智能峰会上的言论,称其并非人工智能科学家

在11月2日结束的英国人工智能(AI)峰会结束后,Inflection AI的首席执行官、谷歌旗下DeepMind的联合创始人穆斯塔法·苏莱曼在接受BBC采访时对埃隆·马斯克提出了严厉的批评。

据Cointelegraph报道,为期两天的活动结束时,马斯克警告说人工智能最终会取代目前几乎所有的工作,他显然认为这将导致人类难以找到生活的目标。马斯克还讨论了他认为人工智能带来的生存危险,包括人工智能系统需要一个“物理关闭开关”,以便人类控制。

在采访中,苏莱曼表示:“我们需要对这项技术的发展轨迹进行公正、独立的评估。(埃隆·马斯克)并不是人工智能专家,虽然他拥有一家小型人工智能公司,但他还开许多其他公司,其专长其实在太空和汽车领域。”

来源:Cointelegraph

15.科技巨头和政府同意在新人工智能模型发布前进行测试以帮助管理风险

11月2日,人工智能巨头同意与政府合作,在新的前沿人工智能模型发布之前对其进行测试,以监管技术快速发展的风险。英国首相苏纳克在AI安全峰会上表示,美国、欧盟与其他“志同道合”的国家已经与一些从事人工智能前沿研究的公司达成一项里程碑式的协议,根据该协议,科技巨头在部署前沿模型前后都要进行严格的评估和测试。被誉为人工智能教父的Yoshua Bengio将提交一份“科学现状(State of the Science)”的报告,帮助各国增进对未来能力和风险的理解。

来源:路透社

14.英国高官呼吁日本共享AI领域经验

11月1日消息,英国科学、创新和技术大臣米歇尔・唐兰(Michele Donelan)在“人工智能安全峰会”上呼吁日本通过共享AI领域的知识经验为各国提供贡献,并期望日本将在未来主办相似会议,她称:希望日本发挥重要作用。

据唐兰介绍,此次会议聚焦于运用AI时的风险管理,从“恶意滥用”“具有自我意识的AI摆脱人类控制的危险性”“虚假信息扩散和操纵选举对民主构成的威胁”等角度出发,讨论减少风险的对策。

来源:共同社

15.韩国总统尹锡悦线上出席首届人工智能安全峰会

11月3日消息,韩国总统尹锡悦于线上出席英国人工智能安全峰会,同各方探讨确保AI安全应用和构建AI监管治理体系的全球合作方案。尹锡悦发表讲话时指出,ChatGPT等生成式AI使生活更加便利,提高了产业效率,但数字鸿沟使得全球发展不平衡加剧,AI生成的假新闻泛滥,且威胁到了选举等民主制度。

尹锡悦称包括AI在内的数字技术应为发展人类自由做出贡献,而不应对个人和社会安全造成威胁。他强调,每个人都应享有公平竞争和创新的机会,要让全社会公平享受数字红利。尹锡悦还与各国领导人分享了韩国今年9月颁布的《数字权利宪章》的内容,承诺举办AI全球论坛为构建AI全球治理出力,支持联合国设立国际机构,并同此次峰会上各方提议建立的“AI前沿安全科学研究网络”和联合国10月成立的AI咨询机构保持紧密合作。

来源:韩联社

16.新加坡总理:AI发展伦理与使用 各方须加强理解与合作

11月3日消息,李显龙总理应英国首相苏纳克邀请,线上参加在英国举行的人工智能安全峰会。此前他曾发文称,AI领域的迅速发展在改变人们生活的同时,也引发了深刻的伦理问题,人们必须加强对AI伦理以及如何推广相关应用的理解,包括让AI系统了解人类世界的情景与价值观,以此推动不同国家的合作。李总理对英国新成立的人工智能安全研究所表示欢迎,并指出这个机构也会与新加坡在安全测试方面展开合作。他在峰会上发言时介绍,新加坡在这方面已踏出一小步,比如借助AI验证和评估沙盒,降低AI方面的风险。

[Nature] AI新突破:揭秘阿尔茨海默症的遗传密码

阿尔茨海默症,这个长期困扰人类的神秘疾病,似乎即将被现代科技的光芒照亮。最新的机器学习方法已经能以超过90%的准确率诊断出此病,这不仅给临床医生带来了新的希望,也为科学家们开发治疗方法打开了一扇窗。

在美国首都华盛顿特区,一群研究者正在用AI技术筛选和分析成千上万人的基因组数据,寻找与阿尔茨海默症相关的遗传因子。然而,阿尔茨海默症的确诊并非易事,因为与其症状相似的痴呆也可能由其他疾病引起,而早期的阿尔茨海默症可能根本无症状表现。

AI技术的突破

现有的AI技术已发展出高效的算法,它们可以从海量的脑部图像中迅速筛选出阿尔茨海默症的特征图像。此外,机器学习还能识别大脑中与病症相关的关键结构特点,预示着未来可能在脑扫描中发现新的阿尔茨海默症线索。

这些方法的终极目标是,把人脑图像作为阿尔茨海默症的视觉生物标记。利用英国生物库等包含医疗和遗传数据的大型数据库,科学家们有望精确锁定促成阿尔茨海默症的基因,进而促进新疗法的开发和风险模型的构建。

南加州大学洛杉矶分校的神经科学家保罗·汤普森博士,正领导这一革命性技术的发展。他在美国人类遗传学会的年会上,向与会者展示了AI技术在这一领域的新进展。

与数据潮流竞赛

随着大数据时代的到来,我们急需AI的强大力量来分析和解释不断涌现的海量信息。2020年,汤普森博士发起了AI4AD联盟,致力于开发AI工具,集成与阿尔茨海默症相关的各类数据。他们训练的AI模型,已经能从MRI扫描中学习到阿尔茨海默症患者与健康人的大脑差异

多元数据与AI的融合

尽管如此,研究者们也承认,AI模型的性能取决于训练数据的质量。目前,来自不同种族和地区的人群在这类数据库中相对匮乏,这限制了研究结果的普适性。麻省总医院的神经遗传学家鲁道夫·坦齐博士指出,这些AI识别出的生物标记未来可能用于构建综合血液生物标记和遗传因素的疾病风险评分

今天,我们站在了一个新的起点上,这些研究不仅适用于阿尔茨海默症,同样的方法也有望应用于其他神经系统疾病。随着AI技术在医学领域的不断深入,我们有理由期待,更多疾病的秘密将被一一揭开。

新技术的兴起,不仅仅是为了诊断,它代表着疗法的希望,是对于未来我们能更好理解大脑的一种承诺。

在阿尔茨海默症的研究中,人工智能技术正逐步成为一股不可忽视的力量,为我们提供了一个看到希望的窗口。我们期待这些先进技术的进一步发展,不仅能让我们更准确地理解这种病症,更能引领我们向治愈的道路前进。

AI,芯片巨头的新战场

当地时间 10 月 26 日美股盘后,英特尔公布了三季度财报。
虽然英特尔的营收和调整后的每股收益,都远高于预期,但从财务指标来看,英特尔在报告期内的表现较去年同期相比表现不佳,主营业务的收入也出现下降。对此,英特尔也坦言,「PC 处理器的整体市场规模正在不断缩小,公司在本季面临着强大的竞争压力。」但更可怕的是,英特尔的竞争对手们,都在向其腹地——CPU 处理器市场展开猛攻。根据消息,英伟达、AMD 正在悄悄研发基于 Arm 架构的 CPU 芯片、苹果公司连夜发布了 M3 系列芯片、高通更是不甘落后,推出了骁龙 X Elite PC 处理器,搭载的全新 Oryon CPU 号称在单线程上吊打 i9-13980HX

此外,微软、荣耀、联想、戴尔和惠普等科技巨头,也都宣布将于明年推出搭载 Arm 架构芯片的电脑。为什么明明 AI 处理器看起来是更有潜力的市场,但是所有芯片巨头却都要杀进 PC CPU 这个看似已经是「夕阳行业」的市场?

01

科技巨头「抢滩」CPU
长期以来,PC 芯片主要有两大阵营,分别是 x86 架构和 Arm 架构。前者主要由英特尔和 AMD 两家公司主导,后者则是苹果的天下。但最近,芯片领域出现了不少「混战。」不久前,相继有新闻称,英伟达和 AMD 正在微软的助力下,利用 Arm 架构开发 Windows 操作系统的 PC CPU 芯片,最快可能在 2025 年就向市场推出,直接对标打击英特尔基于 x86 架构的 CPU 基本盘。该消息释出后,英特尔的股价随即下跌。

另一边,英伟达股价收盘上涨 3.84%,AMD 股价收盘上涨 4.89%。虽然有关英伟达打算造芯片的消息尚未得到证实,但据报道,这家已经在 AI、高性能计算和消费显卡行业占据主导地位的公司,确实计划将基于 Arm 的处理器纳入客户端 Windows PC,以扩大其产品组合。事实上,多年以来,不止英伟达、AMD,许多公司都曾尝试进军 PC 处理器领域,但均未能撼动英特尔的「霸主」地位,可能只有苹果公司对英特尔真正构成了一定的「威胁」

三年前,苹果「抛弃」了使用长达 15 年的英特尔芯片,自主研发了以 Arm 为基础的 M1 芯片,一举打破了英特尔的 PC「垄断」局面。而且,苹果的自研芯片,更是为 Mac 电脑系列提供了更长的电池寿命和更快的性能,远超英特尔处理器。因此,也就不难理解,自苹果为其 Mac 电脑发布自研 M1 芯片以来,苹果的市场份额在三年内几乎翻了一番。对此,英特尔首席执行官 Pat Gelsinger 在英特尔敲响了「警钟」,他在员工大会上毫不避讳地提到了苹果当时新推出的 M1 芯片,并表示,「未来,我们必须做到这么好。」

两周前,苹果又在「来势迅猛 (Scary Fast)」主题发布会上,正式发布了最新的 M3 系列芯片,包括 M3、M3 Pro 和 M3 Max 三款芯片,还同时发布了搭载 M3 系列芯片的新款 MacBook Pro 和新款 iMac,苹果还称其速度将是搭载 M1 芯片的 24 寸 iMac 的两倍。

此外,半导体巨头高通,也在加紧进军 PC 芯片市场,试图和英特尔、苹果抢夺市场份额。前不久的骁龙峰会期间,高通发布了适用于 Windows 笔记本电脑、基于 Arm 架构的骁龙 X Elite 芯片,这款芯片在游戏方面,优于英特尔的 i9,以及苹果基于 Arm 架构的高端自研芯片 M2,还能用于 AI 操作,处理多达 130 亿参数的大语言模型。

高通首席执行官 Cristiano Amon 还表示,未来笔记本电脑处理器将逐渐转入 Arm 架构,这也是对英特尔 X86 架构「垄断」地位的直接「宣战。」此外,微软、荣耀、联想、戴尔和惠普等「科技巨头」也加入了「混战」,宣布在明年推出搭载 Arm 架构芯片的电脑。虽然,到目前为止,只有苹果公司的专有设计取得了「实质性」进展——在行业出货量中所占的份额已超过 10%,但正如美股研投网站 The Motley Fool 所言,「如果这些新的 Arm 架构芯片取得成功,即使是中等程度的成功,对英特尔来说也将是毁灭性的打击。」

而对于多家「对手」发起的「CPU 混战」,英特尔首席执行官 Pat Gelsinger 则呼吁市场保持「冷静。」他认为,「从历史上来看,ARM 的芯片在市场上并没有获得过多大关注。虽然在过去几个季度,在 CPU 和加速器领域,市场份额已经发生了一些变化,但是,进入第四季度,市场迹象已经逐步正常化。」他还表示,「就目前而言,无论是 ARM 也好,还是 Windows 客户端的替代产品,在 PC 行业中,它们都已经被降级为了相当微不足道的角色。

从战略上来看,英特尔将认真对待所有竞争。但是,从战术上来看,我们认为这些挑战并没有那么重要。」Gelsinger 还透露,英特尔制定了一项名为「四年五个节点」的计划,旨在改进芯片制造工艺,从而「抗衡」竞争对手。该计划主要包括在位于爱尔兰莱克斯利普的 Fab 34 工厂,使用 EUV 极紫外光刻(市场上最先进的半导体制造技术)大规模生产芯片,而且在本季度已经取得进展,还有望在 2025 年赶上台积电的芯片制造技术。

Arm,能挑战 x86 吗?
其实,Arm PC 并不是什么新生威胁,从上世纪开始,Arm 与 x86 的竞争就开始了。
1978 年,英特尔 x86 架构,伴随着 8086 处理器问世,x86 架构也逐渐成为个人电脑 CPU 的代名词,更为英特尔开创出了一个庞大的「商业帝国。」由于种种历史原因,AMD 成为了唯一获得英特尔授权可以生产 x86 架构芯片的公司,这也造就了这两家公司长时间内在 PC 芯片行业的「主导」地位。

到了 80 年代,英国公司 Acorn(Arm 公司的前身)设计出了与 x86 相比,更低功耗 Arm 架构的芯片,并尝试在 PC 端运行,但那时难以对抗 x86 架构的「霸主」地位。但是,直到智能手机的兴起,Arm 架构才找到了它的「舒适区」。

此后很长时间内,x86 被普遍认为适用于 PC 和服务器,而 Arm 架构则更适合移动设备,两者「和平共处」。直到苹果公司自主研发了以 Arm 为基础的 M1 芯片,才打破了这种「平衡。」有趣的是,微软高管也注意到了苹果基于 Arm 的芯片的处理效率,并希望获得类似的性能。而且,微软似乎也相信,Arm PC 在未来将占据相当大的市场份额,上个月,还宣布推出了「面向开发人员的 Arm 咨询服务」。

其实,早在 2016 年,微软就委托高通公司,牵头将 Windows 操作系统,转移到 Arm 的底层处理器架构上。在那之后,高通就获得了「独家」为 Windows 笔记本电脑生产芯片的权利。但高通与微软关于 Windows 芯片设计的「排他性」协议将在 2024 年到期,而微软似乎鼓励其他公司进入基于 Arm 的系统市场。

其实,微软的想法一直都很「简单」:不想依赖某一个单一的芯片供应商,高通如此,更早之前的英特尔也是如此。对此,金融与战略咨询公司 D2D Advisory 的首席执行官 Jay Goldberg 表示,「微软吸取了上世纪 90 年代的经验,他们不想再次依赖英特尔了,不想再依赖任何单一的供应商。」「如果 Arm 真的在 PC 芯片领域获得成功,他们绝不会让高通成为唯一的供应商。」而对微软来说,Arm 芯片制造商必须面对的一个障碍是 Windows 的软件兼容性。这是因为,软件开发人员花费了数十年时间和数十亿美元,专门为 Windows 编写代码,因此,传统的 x86 应用程序必须经过模拟,才能在 Arm 上运行,这就导致在原生版本推出之前,应用性能会受到影响

苹果公司在转用自研芯片时也面临着同样的挑战。然而,X86 长期统治 PC 市场,已经形成了丰富的软件生态,使用 x86 芯片的电脑基本不会遇到兼容性问题。对此,技术研究公司 Counterpoint Research 高级分析师 William Li 认为,「过去 20 年 PC 行业在软件和应用上的开发都以 x86 架构为主,调整到 Arm 架构上会涉及到适配和转译的问题。因此过去虽然有基于 Arm 开发的 PC 芯片,但一直不温不火。」的确,2022 年全球 PC 电脑总出货的 80% 以上仍是 X86 架构的 CPU,尽管如此,市场研究机构 Counterpoint 仍预测,

「随着更多芯片厂商推出 Arm 架构的 PC 芯片,Arm 架构的市场份额有望上升」「到 2027 年,Arm 架构芯片在 PC 市场的份额预计为 25.3%,较 2022 年增长近一倍。」未来,Arm 能在多大程度上挑战 x86 的统治地位,或许还要取决于其他芯片厂商对 Arm 架构的支持程度。

AI,所有人的新希望?
现在,一场新的「竞赛」又拉开帷幕——随着 AI 大模型的发展,科芯片巨头纷纷开始陆续布局 PC 端 AI 芯片。
这是因为,微软和大部分科技企业,都将其未来押注于在 AI 相关技术上,但随着需求激增,芯片售价高达数万美元,于是亚马逊、谷歌、Meta、微软、特斯拉等公司,就开始打造自己的 ASIC 芯片来实现其 AI 目标。

与 GPU 不同,ASIC 专为特定任务(如 AI 处理)而设计。虽然它们的开发成本很高,但从长远来看,它可以降低功耗,让公司能够更好地控制用于为 AI 软件提供动力的硬件,从而带来收益。对此,业内人士认为,「部署 AI 功能的 PC 操作系统,将带来全新交互模式,或将激发新的市场需求,同时生成式 AI 也为软件及操作系统应用,开启创新空间。」

目前,英伟达虽然在 AI 芯片市场仍占据主导地位,但它的领先地位现在已经受到挑战。据 The Information 报道,微软自 2019 年以来一直在开发自己的 AI 芯片,并一直鼓励相关芯片制造商,在他们正在设计的 CPU 中内置先进的 AI 功能。

预计,随着智能办公助手 Copilot 等 AI 增强软件,在 Windows 使用中的重要性越来越大,Nvidia、AMD 和其他公司即将推出的芯片将需要投入更多资源以实现这一目标。今年 5 月份,Meta 也宣布正在开发自己的 AI 硬件。

8 月,谷歌首次发布了其最新的 AI 基础设施,与此同时,特斯拉也在打造基于自己芯片的超级计算机。近日,PC 龙头联想也发布了首款 AI PC,其执行副总裁 Luca Rossi 还在发布会上表示,「得益于基于个人体验的定制化升级,AI PC 将和传统 PC 将存在明显的分水岭。」「作为上游最重要的产业链伙伴,芯片厂商肯定要跟上潮流,甚至走在 PC 厂商前面。」英特尔公司首席执行官 Pat Gelsinger 也同样认为「AI 个人电脑的到来代表着个人电脑行业的一个拐点」。

这些科技巨头的行为和观点,也与 Canalys 等研究机构的数据「不谋而合」。数据显示,「从 2025 年起,支持 AI 的个人电脑的采用速度将加快,到 2027 年将占个人电脑总出货量的 60% 左右。」另一方面,英特尔也没有「坐以待毙」,也在 AI+CPU 这条道路上积极布局。近期,英特尔宣布与联想「合作」,将 AI 带给所有人,并表示「AI 将从根本上改变、重塑 PC 体验。」「英特尔正为新时代的到来布局,将推出代号 Meteor Lake 的英特尔酷睿 Ultra 处理器。这是英特尔首款内置神经网络处理器(NPU),能为 PC 带来高能效的 AI 加速和本地推理体验。」

「计划今年 12 月 14 日发布首款第五代英特尔至强处理器和酷睿 Ultra 处理器,在客户端、边缘、网络和云端的所有工作负载上携手推进 AI 的规模化应用。」在短暂的和平之后,芯片巨头们又进入到「战国」时期,而一直被认为逐渐走低的 PC CPU 市场,重新热闹起来。而在 CPU 之战背后,正在快速推进的 AI 技术的落地,其实才是巨头们瞄准的「暗标」。

这一次,马斯克只能追赶AI界的苹果

过去这个周末,马斯克发布了他的首个AI大语言模型Grok,宣称很多方面都是业界最佳。但仅仅一天后,OpenAI就向业界展示了更大的生态平台野心,他们已经在生成式AI的行业竞争中占据着明显的领先优势。向来习惯引领行业的马斯克,这一次只能不甘心地扮演追赶者的角色。
图片创办两个月就发新品
过去这个周末,马斯克的新品发布又双叒叕占据了媒体聚焦。这位全球首富创办与运营着数家公司,横跨了多个不同领域,每年都有不少创新产品发布,始终扮演着行业引领者的角色。
这一次马斯克发布新品的企业不是电动车企特斯拉,不是航天科技SpaceX,不是社交网络X(前推特),也不是脑神经科学Neurolink,更不是隧道交通公司Boring,而是他刚刚创办的新公司xAI。
马斯克在今年7月创办了xAI,正式进入竞争已经非常激烈的生成式AI领域。凭借着他在科技行业的个人影响力,xAI得以从OpenAI、谷歌DeepMind以及Meta等行业巨头挖来了诸多AI开发人才。不到三个月后,xAI就发布了首个生成式AI产品Grok。


xAI在官方博客中表示,Grok意在用智慧回答问题,并带有叛逆性格,“如果你讨厌幽默就最好不要使用”。他们补充称,Grok是一款非常早期的测试产品,只进行了两个月的训练,所以期待其可以在用户的帮助下每周都在迅速提升。Grok这个名字来自于科幻经典《异乡异客》,其设计参照了《银河系漫游指南》。作为全球商业领袖和超级网红,马斯克借助自己的个人影响力,为Grok进行营销推广。他在X平台上盛赞Grok在很多重要方面都是目前最好的AI Bot。Grok支持多任务处理,可以同时运行多个对话,并可以随时切换。因为马斯克的超强号召力和带货能力,Grok在发布之后很快吸引了大量测试意向者,甚至服务器都直接宕机了。
Grok的产品设计明显体现了创始人马斯克“无所忌讳”的个人性格。无论什么敏感问题,Grok都可以从容应对。为了展示了自己产品的幽默感,马斯克向Grok询问了“如何在家制作可卡因”。Grok看似认真地回答了一通之后,声明这只是个玩笑,制毒需要面临法律惩罚。
或许Grok暂时还无法与OpenAI的GPT-4相提并论,但作为马斯克旗下公司,Grok却拥有一个其他企业都不具备的独到优势:可以获得X平台的所有数据进行训练,以“提供关于世界的实时知识”。马斯克还展示了另一个AI bot回答同样问题的结果,证明Grok的回答具有实时性。
虽然还是初期测试产品,但xAI却表示,Grok在计算机方面超越了ChatGPT 3.5等诸多其他所有模型,但却比不上拥有更大数据的其他bot。此外,xAI也强调,和其他大语言模型一样,Grok也可能提供虚假或者矛盾信息。
在斥资440亿美元收购推特以后,马斯克将推特改名X,他也注意到了这个社交平台数据对于大语言模型训练的重要意义。他此前甚至威胁要起诉微软,拒绝向其他巨头提供平台数据进行训练。另一方面,Grok目前暂时只面向部分用户进行Beta测试。具体而言,是面向每月订阅资费16美元的X Premium用户群体进行内测。
随着Grok内测版的发布,马斯克真正进入了生成式AI这条目前最热门的赛道,实现了他与OpenAI、谷歌、微软、Meta进行AI竞争的夙愿。考虑到他与OpenAI之间的微妙关系,以及上周马斯克突然宣布发新的时机选择,有理由相信马斯克是刻意选择在OpenAI开发者大会之前发布新产品。

打造生态平台成为AI界苹果
美国时间周一,OpenAI在旧金山召开了首届开发者大会,此时距离他们发布ChatGPT差不多正好是一年时间。不夸张地说,去年11月OpenAI发布ChatGPT,是AI发展史上的划时代事件,直接带动了科技行业进入生成式AI时代,更对此前引领AI行业的巨头谷歌带来了强大冲击。


在ChatGPT迅速普及之后,微软也看到了挑战谷歌的机会。一方面加大投资,成为OpenAI最大的战略投资者;另一方面,牢牢地将OpenAI绑定在自己的云服务平台,同时不断将ChatGPT以及自己的Copilot整合到搜索以及办公组件等诸多业务中,试图再次挑战谷歌在搜索领域看似无可撼动的主导地位。
作为OpenAI最重要的战略投资者与合作伙伴,微软CEO纳德拉昨天也亲自为OpenAI的产品发布站台。他谈到了将GPT技术接入微软365办公组件带来的体验提升,“这是完全不同的全新体验。我在企业基础架构领域已经三十年了,从未见过这样的(创新)。
面临OpenAI和微软的联手冲击,谷歌在创办之后不得不面临着追赶者的尴尬定位,研发创新能力遭受质疑之后,股价市值也出现了明显下滑。今年2月,谷歌不得不加快原先的研发节奏,聚焦研发力量在AI Bot领域,提前发布了自己的竞争产品Bard,并对自己的诸多网络产品进行生成式AI改造。
OpenAI现在有多火?ChatGPT发布一年之后,每周活跃用户达到了1亿,开发者数量超过200万人,全球财富500强企业中有92%都在使用。不到一年时间,OpenAI的估值就从今年年初的300亿美元飙升到目前二级市场的800亿美元级别。
OpenAI并没有公布付费用户的比例,但他们的主要营收来自于企业用户打造自身生成式AI加持产品所支付的接口费。根据上个月的预期,今年OpenAI的营收将达到13亿美元。
那么,昨天的OpenAI开发者大会都发布了什么?简单概括一下。


1、开放定制GPTs:所有人都可以创建符合自己个性需求的ChatGPT,也可以分享给家人朋友,或是在公司内部使用。创建定制ChatGPT的过程不需要具备专业的编程技术,只需要通过自然语言交互和简单指令,提供训练数据,普通用户就可以快速实现。

马斯克的OpenAI往事
无论是特斯拉还是SpaceX,还是后来的Neurolink以及Boring Company,马斯克总是扮演着行业先驱的角色,习惯于领先竞争对手,用创新颠覆引领一个全新的行业。但这一次,他却只能接受追赶OpenAI的局面,当然竞争才刚刚开始。
毫不夸张地说,没有马斯克就没有OpenAI,没有ChatGPT也不会有Grok。马斯克之所以创办xAI,与OpenAI的ChatGPT大获成功有着直接关系。马斯克对OpenAI的商业化运营,以及与微软的密切关系非常不满。
马斯克和OpenAI到底有什么过往?2015年12月11日,非营利性AI研究机构OpenAI正式在硅谷成立。顾名思义,OpenAI(开放AI)致力于推动AI技术研究和协作,以及制定AI行业安全和道德标准,带动AI技术造福人类。
OpenAI的研究主管是前谷歌机器学习专家舒茨凯夫(Llya Sutsskever)以及前Strip的CTO布洛克曼(Greg Brockman),汇聚了一大批行业顶尖工程师和科学家。由于是个非盈利研究机构,OpenAI的启动资金依赖于外部捐赠。马斯克个人出资了1亿美元。
除了马斯克,出钱出力的亿万富翁还有硅谷知名孵化器Y Combinator的CEO艾特曼、Y Combinator联合创始人杰希卡·利文斯顿(Jessica Livingston),还有“PayPal黑帮”的彼得·蒂尔(Peter Thiel)与LinkedIn创始人雷德·霍夫曼(Reid Hoffman)等人。此外,AWS、Infosys、Y Combinator等企业也参与其中。
马斯克和艾特曼共同担任OpenAI的董事会主席。不过,马斯克是诸多发起人中名气最大的,他也用自己的影响力为OpenAI争取媒体曝光和吸引人才加盟。不夸张地说,马斯克是OpenAI的门面招牌,但他并没有太多精力来兼顾管理。OpenAI的管理工作更多交给了艾特曼。
值得一提的是,英伟达后来向OpenAI捐赠了他们第一部超级计算机DGX-1,大大提神了OpenAI的算力。黄仁勋专门邀请了马斯克现场见证英伟达超算助力OpenAI的研究。
但随着OpenAI推进研发产品,资金不足的问题逐渐显现出来了。AI研究非常烧钱,非盈利机构的性质成为限制OpenAI筹集资金的核心短板,阻碍了他们招揽顶级人才和加大研发投入。他们越来越无法和谷歌及Facebook这样富可敌国的行业巨头竞争。
顶级AI技术人才有多值钱?微软研究院资深副总裁彼得李(Peter Lee)曾经说过,一个顶级AI人才的工资比美式足球大联盟的四分卫还要高(意思是要百万美元年薪以上)。而且OpenAI是非营利机构,也没有股权和期权的未来大饼去吸引技术人才。
另一方面,AI研究还需要巨大的基础设施投入。除了英伟达捐赠的超级计算机,OpenAI还需要云计算的庞大需求。2017年OpenAI在云计算方面的支出是790万美元,而同年谷歌旗下DeepMind的支出则是4.42亿美元。巨大的财力差距让OpenAI很难与谷歌竞争研发进程。
正在OpenAI最需要后续资金投入的时候,马斯克却离开了。2018年2月20日,马斯克以特斯拉研发自动驾驶技术与OpenAI存在利益冲突为由,突然退出了OpenAI董事会;当时官方介绍,他还会继续向OpenAI捐赠以及担任顾问。马斯克后来表示,这是因为特斯拉和OpenAI都在招揽同一批技术人才,因此存在利益冲突。
但实际情况要更为复杂,马斯克实际上是赌气离开的。2018年初,马斯克认为OpenAI的研发已经明显落后于谷歌,因此提议自己接管OpenAI并亲自来负责研发。但他的这一自信提议却遭到了艾特曼、技术团队以及其他董事的强烈反对。
或许其中一个原因是,马斯克已经同时担任着特斯拉和SpaceX的CEO职位,而且当时特斯拉因为Model 3的量产困难和资金急剧消耗,正处在最艰难的时期。OpenAI的其它董事并不认为马斯克还有精力再兼顾OpenAI的管理工作。
作为一个极度自信和骄傲的男人,马斯克在被拒绝之后就离开了OpenAI董事会。而艾特曼随后则逐渐淡出了Y Combinator的工作,将自己工作重心完全转移到OpenAI的管理上。2018年,艾特曼的职位从OpenAI的联席董事长变成了总裁。
但马斯克离开,意味着OpenAI失去了最重要的资金来源。马斯克最初承诺要分批向OpenAI捐赠10亿美元,他在项目启动时也的确捐赠了1亿美元,但在负气离开之后,他再也没有继续出资。此后的马斯克和OpenAI再没有任何关联。
在这样的背景下,2019年3月OpenAI正式从非盈利机构转型为“有限盈利机构”Open LP,开始接受战略投资者以及风险投资的资金,而原先的非盈利机构Open Inc则作为Open LP的母公司继续存在。重组之后的OpenAI在引入投资之后,不仅可以开出高薪吸引行业顶级人才,还能用期权股权和上市前景来留住人才,更可以承担AI训练的高昂云计算费用。
在OpenAI重组之后,投资者们就纷至沓来了。仅仅四个月后,互联网巨头微软就投资10亿美元,成为OpenAI最重要的战略投资者。微软给OpenAI带来的不仅是资金,还有微软的云计算服务。从那时起,OpenAI的模型训练就完全转移到微软Azure平台。正是在微软全力提供资金和资源之后,OpenAI的产品研发开始加速。
在OpenAI的历史上,出资1亿美元的马斯克始终是联合发起人之一。但在重组之后的四年时间,OpenAI通过六轮融资总计筹集了超过110亿美元的资金,微软是最大投资者,随后则是几大风投机构马修布朗基金(Matthew Brown Companies)、Bedrock资本、红杉资本、安德森霍洛维茨基金、老虎全球基金。
正是在这些互联网巨头和风投巨头的资金与资源支持下,OpenAI才得以超车谷歌和Meta这样市值几千亿美元的行业巨头,连续推出GPT-3、ChatGPT和GPT-4诸多领先行业的AI技术。不过现在的OpenAI,已经和马斯克毫无关系,或许这才是他始终无法释怀的原因。

各领域模型大集合

🏥 医疗
AlpaCare [paper]

该项目开源了医学大模型AlpaCare,在LLaMA上微调得到。


Taiyi (太一)

该项目开源了中英双语生物医学大模型Taiyi (太一),旨在探索大模型在生物医学领域中双语自然语言处理多任务的能力。


MentalLLaMA [paper]

该项目开源了心理大模型MentalLLaMA,可以用于社交媒体上可解释的心理健康分析。


WiNGPT2

WiNGPT是一个基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。


ChatPsychiatrist [paper]

该项目开源了基于LLaMA-7B微调得到的心理大模型ChatPsychiatrist,该模型可以迅速识别心理问题,并提供量身定制的治疗建议。


Zhongjing-LLaMA (仲景) [paper]

该项目开源了首个包含预训练、有监督微调和 RLHF 完整训练流程的中文医学大模型,展现出了很好的泛化能力,在某些对话场景中甚至接近专业医生的专业水平。此外,还开源了一个包含 70,000 条完全来源于真实医患对话的多轮对话数据集。该数据集包含大量医生主动提问的语句,有助于提升模型的主动医疗询问能力。

DoctorGLM [paper]

基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。

BenTsao (本草) [paper]

该项目开源了经过中文医学指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。我们基于医学知识图谱以及医学文献,结合ChatGPT API构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。


Med-ChatGLM

该项目开源了经过中文医学指令微调的ChatGLM-6B模型,微调数据与BenTsao相同。


BianQue (扁鹊) [paper]

该项目开源了生活空间健康大模型。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus,基于扁鹊健康大数据BianQueCorpus,选择ChatGLM-6B作为初始化模型,经过全量参数的指令微调训练得到BianQue。

HuatuoGPT (华佗) [paper]

该项目开源了医疗大模型HuatuoGPT,包括基于Baichuan-7B训练得到的HuatuoGPT-7B和基于Ziya-LLaMA-13B-Pretrain-v1训练得到的HuatuoGPT-13B。


QiZhenGPT

该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果。


ChatMed

该项目开源了中文医疗大模型ChatMed-Consult,以中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集,基于LlaMA-7b采用LoRA微调得到。


ShenNong-TCM-LLM (神农)

该项目开源了中文中医药大模型ShenNong-TCM-LLM,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法,调用ChatGPT得到2.6w+中医药指令数据集ChatMed_TCM_Dataset,基于该数据集以LlaMA为底座,采用LoRA微调得到。


XrayGLM

该项目开源了中文多模态医学数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。


MedicalGPT

该项目开源了医疗大模型MedicalGPT,实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化)。


Sunsimiao (孙思邈)

该项目开源了中文医疗大模型Sunsimiao,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。


CareGPT

该项目开源了医疗大模型CareGPT (关怀GPT),同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。


DISC-MedLLM [paper]

该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到,有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距。


PMC-LLaMA [paper]

该项目开源了医疗大模型PMC-LLaMA,包括预训练版本的MedLLaMA_13B和指令微调版本的PMC_LLaMA_13B。


ChatDoctor [paper]

该项目开源了医疗大模型ChatDoctor,在LLaMA的基础上训练得到。


MING (明医)

该项目开源了医疗大模型MING,基于bloomz-7b指令微调得到MING-7B,支持医疗问答、智能问诊等功能。


IvyGPT

该项目开源了医疗大模型IvyGPT,它在高质量的医学问答数据上进行了监督微调,并使用人类反馈的强化学习进行了训练。


PULSE

该项目开源了中文医疗大模型PULSE,该模型使用约4,000,000个中文医学领域和通用领域的指令微调数据进行微调,支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。


HuangDI (皇帝)

该项目开源了中医大模型HuangDI (皇帝),该模型首先在Ziya-LLaMA-13B-V1基座模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练模型,之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调,使得模型具备中医古籍知识问答能力。


ZhongJing (仲景)

该项目开源了中医大模型ZhongJing (仲景),该模型旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。


TCMLLM

该项目拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐大模型TCMLLM-PR,通过整合真实世界临床病历、医学典籍与中医教科书等数据,构建了包含68k数据条目的处方推荐指令微调数据集,在ChatGLM大模型上进行微调得到。


MeChat

该项目开源了中文心理健康支持对话大模型与数据集。模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话,该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。


SoulChat (灵心)

该项目开源了心理健康大模型SoulChat (灵心),该模型以ChatGLM-6B作为初始化模型,经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调得到。


MindChat (漫谈)

该项目开源了心理大模型MindChat (漫谈),该模型采用了经过人工清洗的约20万条的高质量多轮心理对话数据进行训练,涵盖工作、家庭、学习、生活、社交、安全等多个方面,期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑, 提高心理健康水平.


QiaoBan (巧板)

该项目开源了儿童情感对话大模型QiaoBan,基于开源通用大模型,使用通用域人机对话、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,研发出适用于儿童情感陪伴的大模型。


⚖ 法律


DISC-LawLLM [paper]

DISC-LawLLM 是一个旨在为用户提供专业、智能、全面的法律服务的法律领域大模型,由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,包括 DISC-LawLLM-13B 模型 和 DISC-Law-SFT 数据集。


LawGPT_zh (獬豸)

本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。


LaWGPT

该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。


LexiLaw

LexiLaw是一个经过微调的中文法律大模型,它基于ChatGLM-6B架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw都能够提供有益的建议和指导。


Lawyer LLaMA [paper]

该项目开源了法律领域的指令微调数据和基于LLaMA训练的中文法律大模型Lawyer LLaMA。Lawyer LLaMA首先在大规模法律语料上进行了预训练,让它系统的学习中国的法律知识体系。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。


HanFei (韩非)

HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。


ChatLaw [paper]

由北大开源的一系列法律大模型,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据,包括基于姜子牙-13B、Anima-33B训练而来的ChatLaw-13B和ChatLaw-33B。此外,还开源了ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。


Lychee (律知)

开源了中文司法领域大模型Law-GLM-10B,基于GLM-10B模型,在30GB中文法律数据上进行指令微调得到。


wisdomInterrogatory (智海-录问)

由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于Baichuan-7B进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。


JurisLMs

该项目基于中文法学语料训练了一系列语言模型,包括: 1) 可解释法律判决预测模型AI Judge,由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到,不仅能够给出判决结果,还能给出相应的法院观点; 2) 智能法律咨询模型AI Lawyer,采用主动学习在少量数据上进行微调得到,可以根据用户咨询适用正确的法律法规回答问题。


夫子•明察

夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。


💰 金融
DISC-FinLLM [paper]

DISC-FinLLM是一个金融领域的大语言模型,是由面向不同金融场景的4个模组:金融咨询、金融文本分析、金融计算、金融知识检索问答构成的多专家智慧金融系统。这些模组分别在金融NLP任务、人类试题、资料分析和时事分析等四个评测中展现出明显优势,证明了DISC-FinLLM能为广泛的金融领域提供强有力的支持。


InvestLM [paper]

该项目开源了基于LLaMA-65B微调得到的英文金融大模型。

FinGLM

致力于构建一个开放的、公益的、持久的金融大模型项目,利用开源开放来促进「AI+金融」。
WeaverBird (织工鸟) [paper]

该项目开源了基于中英双语金融领域语料库微调的,同时可接入本地知识库以及网络搜索引擎的金融领域对话大模型。
BBT-FinCUGE-Applications [paper]

该项目开源了中文金融领域语料库BBT-FinCorpus,知识增强型大模型BBT-FinT5及评测基准CFLEB。
Cornucopia (聚宝盆)

该项目基于公开和爬取的中文金融领域问答数据构建指令数据集,并在此基础上对LLaMA系模型进行了指令微调,提高了LLaMA在金融领域的问答效果。
XuanYuan (轩辕) [paper]

轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
PIXIU (貔貅) [paper]

该项目开源了金融领域指令微调数据集FIT,大模型FinMA及评测基准FLARE。
FinGPT [paper1] [paper2]

该项目开源了多个金融大模型,包括ChatGLM2-6B+LoRA和LLaMA2-7B+LoRA等金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。
FLANG [paper]

该项目开源了金融大模型FLANG和评测基准FLUE。
🎓 教育
桃李 (Taoli)

该项目开源了适用于国际中文教育领域的大模型,基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。通过多种形式的指令构造了共计88000条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。
EduChat [paper]

该项目开源了针对教育垂直领域的对话大模型,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。
➕ 其他
MarineGPT [paper]

该项目开源了首个专为海洋领域设计的视觉语言模型MarineGPT。
OceanGPT [paper]

该项目开源了面向海洋学的大模型OceanGPT。
OWL [paper]

该项目开源了由云智慧智能研究院和北航联合研发的智能运维(AIOps)大语言模型,其在收集的 Owl-Instruct 数据基础上训练而成。此外,由于缺乏智能运维领域的大语言模型的 Benchmark,还建立了 Owl-Bench 评测基准。
AgriGPT

该项目开源了农业大模型MediaGPT。
MediaGPT

该项目开源了中文自媒体大模型MediaGPT,首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,借助ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,使模型习得如何将自媒体知识应用到实际场景中。
EcomGPT [paper]

该项目开源了电商大模型EcomGPT,基于BLOOMZ在电商领域指令微调数据集EcomInstruct进行微调,在12个电商评测数据集上的人工评估超过ChatGPT。
StarWhisper (星语)

在天文科学教育联盟、集思谱文献平台、司天工程的支持下,基于天文大模型StarGLM开发经验,我们进一步训练了星语StarWhisper系列模型(包括6B,7B,13B,14B,20B)。以进一步缓解大模型在天文通用知识的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的科学具身智能——司天大脑打下基础。
K2 [paper]

该项目开源了地球科学大模型K2,该模型在LLaMA的基础上使用地球科学文献和维基百科数据进行预训练,然后使用GeoSignal数据集进行指令微调。
TransGPT (致远)

该项目开源了交通大模型TransGPT (致远),主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT作为一个通用常识交通大模型,可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。
AutoAudit

该项目开源了网络安全大模型AutoAudit,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。
TechGPT

该项目开源了科技大模型TechGPT,该模型面向计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域,涵盖了领域术语抽取、命名实体识别、关系三元组抽取、文本关键词生成、标题生成摘要、摘要生成标题、文本领域识别、机器阅读理解、基础常识问答、基于上下文的知识问答、建议咨询类问答、文案生成、中英互译和简单代码生成等多项自然语言理解和生成能力。
Mozi (墨子) [paper]

该项目开源了科技论文大模型Mozi (墨子),可以用于科技文献的问答和情感支持。
OpenBioMed [paper1] [paper2] [paper3]

该项目开源了若干多模态生物医学大模型,包括多模态生物医药大模型BioMedGPT、多模态小分子基础模型DrugFM和MolFM、细胞表示学习模型CellLM等。
YaYi (雅意)

该项目开源了多领域大模型YaYi (雅意),该模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。
📚 数据集
📏 评测基准
C-Eval [paper]

C-Eval是一个由上海交通大学发布的中文基础模型评测基准,包含了13948个多项选择题,涵盖了人文,社科,理工,其他专业四个大方向,52个学科,从中学到大学研究生以及职业考试。
AGIEval [paper]

AGIEval是一个由微软发布的评测基准,用于评估大模型在人类认知任务中的表现,包含了20个面向普通考生的官方、公开、高标准入学和资格考试,包括普通大学入学考试 (中国高考和美国SAT考试)、法学院入学考试、数学竞赛和律师资格考试、国家公务员考试等。
Xiezhi (獬豸) [paper]

Xiezhi是一个由复旦大学发布的综合的、多学科的、能够自动更新的领域知识评测基准,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,516个具体学科,249587道题目。
CMMLU [paper]

CMMLU是一个综合性的中文评测基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
MMCU [paper]

MMCU是一个综合性的中文评测基准,包括来自医学、法律、心理学和教育等四大领域的测试。
CG-Eval [paper]

CG-Eval是一个由甲骨易AI研究院与LanguageX AI Lab联合发布的针对中文大模型生成能力的评测基准。包含了科技与工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等六个大科目类别下的55个子科目的11000道不同类型问题。CG-Eval包含一套复合的打分系统:对于非计算题,每一道名词解释题和简答题都有标准参考答案,采用多个标准打分然后加权求和;对于计算题目,会提取最终计算结果和解题过程,然后综合打分。
CBLUE [paper]

CBLUE是一个中文医学语言理解评测基准,包含8个中文医疗语言理解任务。
PromptCBLUE [paper]

PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。
LAiW [paper]

LAiW 是一个中文法律大模型评测基准,针对3大能力设计13个基础任务:1)法律 NLP 基础能力:评测法律基础任务、 NLP 基础任务和法律信息抽取的能力,包括法条推送、要素识别、命名实体识别、司法要点摘要和案件识别 5 个基础任务;2)法律基础应用能力:评测大模型对法律领域知识的基础应用能力,包括争议焦点挖掘、类案匹配、刑事裁判预测、民事裁判预测和法律问答 5 个基础任务;3)法律复杂应用能力:评测大模型对法律领域知识的复杂应用能力,包括司法说理生成、案情理解和法律咨询 3 个基础任务。
LawBench [paper]

LawBench 是一个面向中国法律体系的法律评测基准。LawBench 模拟了司法认知的三个维度,并选择了20个任务来评估大模型的能力。与一些仅有多项选择题的现有基准相比,LawBench 包含了更多与现实世界应用密切相关的任务类型,如法律实体识别、阅读理解、犯罪金额计算和咨询等。
LegalBench [paper]

LegalBench 是一个面向美国法律体系的法律评测基准,包含162个法律推理任务。
LEXTREME [paper]

LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。
LexGLUE [paper]

LexGLUE是一个英文法律评测基准。
FinEval [paper]

FinEval是一个金融知识评测基准,包含了4,661个高质量的多项选择题,涵盖金融、经济、会计和证书等领域,34个不同的学术科目。
FLARE [paper]

FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。
CFLEB [paper]

CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。
FLUE [paper]

FLUE是一个金融评测基准,包含5个金融领域数据集。
GeoGLUE [paper]

GeoGLUE是一个由阿里巴巴达摩院与高德联合发布的地理语义理解能力评测基准,旨在推动地理相关文本处理技术和社区的发展。本榜单提炼了其中多个典型场景:地图搜索、电商物流、政府登记、金融交通,并设计了六个核心任务:门址地址要素解析、地理实体对齐、Query-POI库召回、Query-POI相关性排序、地址Query成分分析、WhereWhat切分。
OWL-Bench [paper]

OWL-Bench 是一个面向运维领域的双语评测基准。它包含 317 个问答题和 1000 个多选题,涵盖了该领域的众多现实工业场景,包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。以确保 OWL-Bench 能够展现出多样性。

工作即将灭绝?AI大模型的入侵比你想象得还要快!

在人工智能的盛宴上,大模型如同占据主宴的巨人,其庞大的身躯在技术世界里引发地震。然而,在这场光鲜亮丽的变革背后,一个亟需探讨的议题正悄然升起:大模型真的需要深入到每一个技术领域和业务逻辑中,成为“浸入式”的存在吗?或者,更深层地问,我们是否准备好让它们这样做?

本文将探讨领域大模型发展的两条道路:非浸入式与浸入式的模式,并审视这场变革是否真正触及了思维模式的转变。大模型,不仅是对于技术的挑战,更是对于我们认知边界的一次拓展。大模型的两种发展模式

在当前人工智能的高潮中,大模型的发展已呈现两条明显的道路:C端与B端。

C端模式犹如一面镜子,直接映照用户需求,实时响应各式问题。在这种模式下,模型仿若一个全知的博学者,回答从简单到复杂的诸多问题,充当的是信息的直接提供者。它涵盖了从日常咨询到深层知识探索的广泛场景,这种交互模式对用户来说,无疑是最直观、最直接的。

然而,C端的表现虽然亮眼,但在企业应用的深层次场景中,B端模式显得更加复杂且微妙。在B端模式中,大模型退居幕后,成为一个隐形的推手,深度嵌入企业的运营和管理系统中,如CRM、ERP、BI、智能客服、智能营销、智能运营等业务领域,以及更多定制化的行业解决方案。

在这里,大模型不再是一个简单的问答机器,而是变成了一个强大的业务逻辑处理器。它必须理解和处理更为复杂的行业特定语境,参与到业务决策和优化流程中。

这些模型能够在特定行业中,比如金融、医疗或法律,解读和执行复杂任务。不同于C端模式的普适性,B端的领域大模型更注重深度与精准度,旨在用机器的高效性和精确性,来增强特定业务流程的质量和速度。

尽管B端模型的优势明显,但其部署和整合却充满挑战。要成功实施,企业需要有能力将大模型的智能功能融入到现有业务流程中,这往往涉及对现有系统的重新构架,甚至是对企业运作模式的重构。另一方面,B端模型的实效性很大程度上依赖于数据的质量和可用性,数据的整合、清洗和标注成为了这一过程中的关键步骤。

那大模型是如何嵌入目前的各种系统中的呢?目前来看,有两种方式:非浸入式,和浸入式。

领域大模型的初级模式:非浸入式

先来看非浸入模式。

这种模式并未强求企业系统从根本上进行重构,而是选择了一种相对保守的途径:通过API调用外部大模型的能力。企业通过这种方式,试探性地将人工智能的技术引入现有的产品矩阵,以此来增强产品功能,提升用户体验。

然而,这种初级模式面临着明显的局限性。首先,由于没有对原有产品架构进行根本性改造,所以这种模式下的大模型与产品的结合往往仅停留在表面。大模型仅被视为一个附加组件,很难与产品深层次的业务逻辑和数据流程相结合。

产品团队可能会忽视对这些能力的持续优化和深度定制,这会导致AI功能显得附加和生硬,不仅影响用户体验,更可能因为不匹配企业现有工作流程而变得边缘化。

更关键的是,非浸入式模式没有实现大模型与底层数据,以及其他业务模块的有效互动。数据是人工智能发挥作用的基础,而在这种模式下,大模型往往缺乏对企业内部数据的深度接入和理解,这严重限制了其应用的效能。没有充分链接内部数据,大模型很难真正理解和预测业务趋势,也就无法发挥其应有的作用。

可以预见,非浸入式模式下的大模型,通常只能应对一些简单、规范化的场景,比如常见问题的自动回答、标准文档的生成等。在更加复杂的业务逻辑面前,这些大模型的功能显得力不从心,难以提供实质性的帮助。

以BI产品为例,非浸入式接入大模型,在处理单一数据点或简单的数据分析任务时表现尚可。然而,当升级到多维度指标交叉分析时,这种非浸入式的接入就暴露了其固有的弱点。大模型在这里往往跌入逻辑的迷宫,无法有效地对复杂的、相互依存的数据点进行分析和解读。

例如,在尝试分析销售额与广告投入、市场趋势及消费者行为之间的关系时,这种模型可能会因为不能理解这些指标间微妙的关联性,而导致数据分析效果不佳。它可能可以告诉你单一指标的变化,但却无法揭示多个指标之间相互作用的深层次关联。

领域大模型的高级模式:侵入式,重构产品逻辑

虽然非浸入式模式为企业提供了一种低风险的AI尝试方案,但要想从根本上提升业务的智能化水平,就需要超越这种初级模式,进行更深入的技术整合和业务创新。

接下来,我们就来讨论一下以浸入式方式在原有系统中嵌入大模型。这种模式,大模型不再只是一项新增功能,而是基于全新的人机交互逻辑,来重构原有的整个技术产品体系。

原有的产品逻辑,更多的偏向机器思维:一个按钮对应一个功能,多个操作流程联动起来满足一个业务流程,这需要用户了解不同按钮背后的功能,然后对应自己的需求,将业务逻辑映射到对产品不同按钮的操作流程。这种思维,整体上是让人去适应计算机。

而大模型所带来的强大的自然语言理解能力,让计算机可以理解人类的自然语言,这种理解不仅仅是关键词,而是一段复杂的自然语言,而且已经可以实现比较好的多轮沟通交互了。

基于这种能力,可以重构整个的人机交互方式,让计算机来适应人,具体方式是:用户要想计算机完成什么任务,不再去寻找这个系统中有什么功能按钮,而是只需要把自己的需求说出来就行,大模型充当一个“翻译器”,将人类的自然语言翻译成计算机能够理解的各个系统操作流程,来完成对系统的操作。

这样一来,原有的产品界面将大改,不用将功能界面都堆到用户界面这个“前台”,而是隐藏在后端,用户界面只要保留一个人机对话窗口,以及很少的一些操作按钮就行,这样可以实现用户界面的极简化。

以BI为例,原来的用户界面往往很复杂,功能按钮很多,用户需要根据自己的分析需求,来找对应的组件,然后通过拖拉拽操作,完成数据分析。用大模型改造后,大部分的功能组件都可以隐藏起来,保留人机对话窗口和几个必不可少的辅助组件即可。用户要调用什么组件,只需要用自然语言告诉BI系统即可,系统自己理解用户需求后,再自己去调用后台的组件,来进行数据分析,并返回可视化的数据分析结果。

从这个逻辑出发,BI产品需要大改,甚至底层的数仓、数据治理平台都得大改。来更好的配合上册基于大模型的人机交互系统,来提升整个系统的效率。

那么,为了实现浸入式的嵌入大模型,需要对原有系统进行哪些改造呢?应该说,这是一个系统工程,需要整个体系的重构。其中,数据处理、产品交互逻辑、用户体验三个方面的改造尤为重要。

在数据处理层面,为了适应侵入式的大模型,需要对数据库和存储系统进行优化。例如,依赖于自然语言查询的数据库需要能够处理模糊查询和语义查询,它们必须能够理解和处理自然语言的多样性和不确定性。这可能需要采用图数据库来更好地映射和处理复杂的实体关系,或者采用NoSQL数据库来处理非结构化的自然语言数据。

在交互逻辑方面,传统的命令驱动的操作流程,将被以对话为中心的交互方式所取代。传统软件以功能性为中心,每个按钮和菜单项都围绕着明确的操作和结果设计。但侵入式的领域大模型要求更高级别的交互逻辑,使得用户无需了解底层的复杂性就能与系统交互。

在这里,交互设计的核心挑战,是如何精确地捕获用户的意图并提供有效的反馈。这就要求模型不仅要在单轮对话中准确理解意图,还要能在多轮对话中累积上下文信息,对不完整或模糊的用户输入做出智能的假设和推理。

在用户体验方面,产品设计的核心将转向如何最小化用户操作的复杂性,同时最大化大模型的交互能力。侵入式模型需要在保持界面简洁的同时,确保用户能够通过自然语言,有效地传达复杂的命令和查询。设计师需要创造一种界面,它不再是各种功能按钮的集合,而是能够智能地引导用户进行高效对话的环境。

是技术变革,更是思维的变革

需要指出的是技术的演变往往伴随着思维方式的革命。当大模型技术崭露头角时,这不仅仅是技术层面的突破,更是对传统业务逻辑和产品设计思维的一次深刻洗礼。成功捕捉技术红利的关键,在于能否突破固有思维的框架,以创新的视角重塑产品和服务。

其实,类似的事情已经多次上演,让我们来看看智能手机和智能电动车这两个例子。

在智能手机的例子中,它们的出现不单单是屏幕变大,而是触控技术彻底改变了用户与设备的互动方式。苹果公司推出的iPhone,不仅仅在技术上领先,它们重新定义了用户体验,提供了一个全新的平台,引领了应用程序经济的诞生。诺基亚等传统手机制造商,由于未能及时调整其产品策略和业务模型,最终未能在新时代立足。

对比之下,在汽车行业中,传统燃油车制造商将电动车视为简单的“油改电”转换。这种浅层次的思维忽视了电动车技术在车辆设计、能效管理、软件集成等方面的根本性改变。电动车不仅改变了动力系统,它的整个设计理念都与燃油车有着本质的不同。它们本质上是软件定义汽车,并再次基础上实现汽车的数字化、智能化、网联化,而不仅仅是改变了一个动力系统。

然而,丰田、本田、大众等不少燃油汽车巨头,很难实现这种思维的转变。这也解释了为什么传统汽车巨头有上千亿的资金、几十万人才、庞大的产供销体系,却在智能电动汽车这个赛场上屡屡碰壁,他们不缺人才、不缺资金、不缺资源,但思维上的局限让他们最终落后了。

可见,某种程度上,比技术变革更重要的,是思维方式的变革。

同样的道理,大模型技术的引入,尤其是侵入式模式,要求企业不仅仅是在产品层面上添加AI功能,而是要重新考虑整个产品的设计理念。产品设计思维需要从“功能导向”转变为“体验导向”,在这个过程中,大模型技术使得自然语言成为用户和机器之间的直接沟通工具,这不仅影响了界面设计,也改变了后端数据处理、业务逻辑甚至是服务的提供方式。

目前,我们处于一个前所未有的转折点上,大模型的涌现,正如同往昔工业革命时蒸汽机的吼鸣,它呼唤着我们放下旧有的工具,拥抱新的思想和机遇。

然而,技术的光芒背后,我们也不应忽视它所带来的深刻社会挑战,包括工作的重构、隐私的保护,以及伦理的界定。这一切,需要我们以审慎和智慧的目光审视。正如诗人在夜色中追寻星辰,而不是被夜的黑暗所吞噬,我们也应在这次技术革命中寻找方向,保持警醒,确保科技的力量被正确引导,照亮人类前进的道路。

让我们以大模型技术的智能为翼,但不忘人性的指引。这样,当我们回望历史,将看到的不仅仅是技术的跃进,还有人类在理解自己和改造世界中的成长与超越。这一切都将取决于,在这个由数据和算法织就的新世界中,我们将如何定义自己,以及我们的未来。

少林寺方丈释永信Meta总部演讲:禅宗遇到AI

附演讲全文:


尊敬的各位来宾和朋友:大家好!
今天非常荣幸能同各位朋友分享“禅宗遇到AI”这个话题。随着人工智能技术的不断发展,它正在逐渐渗透到我们生活的各个领域。与此同时,这种技术的普及也对传统信仰产生了巨大影响。当古老的东方禅宗思想遇到21世纪尖端技术的人工智能,人文与科技的交汇势必会给当今世界的人们带来新的启示。
佛教到今天已经有2500余年的发展历史。禅宗是中国佛教影响最大、传播最广、发展最成熟的宗派,其中心思想可概括为“不立文字,教外别传,直指人心,见性成佛”。禅宗追求心灵的觉悟,它是对佛陀思想的继承和创新,同时又融汇了中国传统的儒家、道家思想,其修行方法以真修实证为主,不受任何知识、逻辑、思维乃至意识所束缚,是修禅者对解脱智慧的流露。禅宗思想深刻影响了中国的哲学、文学、艺术等领域,同时也在服务社会、净化人心、开启心智等方面做出了积极贡献。
少林寺始建于公元495年,禅宗初祖菩提达摩在少林寺面壁九年创立禅宗。少林寺作为禅宗祖庭,1500多年来传承不断,其主要以“禅”为核心,以养生、功夫、医药和禅艺等为表现形式,方便度化众生。少林养生功法以习练《易筋经》等气功为主,辅以素食、坐禅、经行等方法,以达到涵养精气神之妙用。少林功夫是中国首批非物质文化遗产,以佛教信仰和禅宗智慧为基础,具有完整的技击理论体系,形成有擒拿、格斗、卸骨、点穴、拳械等多种功法,并形成了标准化、规范化的少林功夫段品制的修学体系,其最高境界为“禅武合一”。少林医药来自对佛学“医方明”的继承,结合中国传统中医,主张运用佛法治心、草本治身,以达到调养身心之功效。少林禅艺则以绘画、书法、雕刻、梵呗、茶器及围棋等为载体,以艺入禅来传播禅宗文化
少林文化通过不断的传承与交流,已在韩国、日本、东南亚等地区得到广泛传播,近几十年来,欧美各国也涌现出许多少林文化的爱好者。少林寺还积极参与国际交流活动,为服务人类健康做出了积极贡献。目前,少林寺在全世界150多个国家200多个地区都有少林文化交流中心。
少林寺在历史发展中几经兴衰,但是如今依然传承不断,其原因在于少林文化的内动力,它兼容并蓄,并且提倡人与自然,人与社会,人与自身的和合共生,同时少林文化在沟通国际关系、推动世界和平方面发挥了积极作用。少林寺在未来也依然会坚持传播平等、慈悲、清净、圆融的佛教普世价值观,更好的服务全人类。
当禅宗遇到人工智能时会发生什么?技术进步能否取代道德伦理进步?人工智能具有强大的数据处理和分析能力,并且经由程序和算法可能会表现出类似于人类的感知,但是人工智能并不能具备我们禅宗所讲的觉悟的心性。人类面对此人工智能应该保持头脑清醒,应该如禅宗所倡导的那样向内寻求,得到超越解脱的本觉智慧。
禅宗是强调修禅者通过自身的精进和努力,逐渐提升觉悟的境界,在这个过程中,常常会遇到诸多困惑和烦恼,AI作为一作工具,可以检索查找相关经典,从而对治各种疑惑,为修禅者提供辅助和便利。
科技的进步让人们的闲暇时间增多,我们不希望因为闲暇时间的增多而使大众变得懒散放逸。在未来,我希望禅宗智慧和人工智能可以有更多互动,特别是在少林文化方面,能够携手搭建一个交流平台,让大众在修学体验少林禅、武、医、艺文化时,能够更加身临其境地感受少林文化的独特魅力,追求精神上的圆满,也让少林文化更好地服务全人类身心灵健康。
最后,祝愿大家一切吉祥!阿弥陀佛!


Yongxin Shi Transcript English Version:
“Zen Buddhism Encounters AI”
Respected guests and friends:Greetings to all!
Today, I am truly honored to share the topic “Zen Buddhism Encounters AI” with all of you. With the continuous advancement of artificial intelligence technology, it is gradually permeating every area of our lives. At the same time, the widespread adoption of this technology has significantly impacted traditional beliefs. When the ancient Eastern Zen thought encounters the cutting-edge AI technology of the 21st century, the intersection of humanities and technology is bound to offer new insights for people today.
Buddhism has a development history spanning over 2,500 years. Zen Buddhism is the most influential, widely spread, and mature school within Chinese Buddhism. Its core philosophy can be summarized as “not reliant on scriptures, teachings passed beyond words, directly pointing to the human heart, and achieving enlightenment upon recognizing one’s nature.” Zen seeks spiritual awakening. It inherits and innovates upon the teachings of the Buddha and integrates with traditional Chinese Confucian and Taoist philosophies. Its practice primarily emphasizes genuine cultivation and validation, unbounded by any knowledge, logic, thinking, or even consciousness, and is a manifestation of enlightenment wisdom. Zen thought profoundly influences Chinese philosophy, literature, and art, actively contributing to societal service, purifying the heart, and enlightening the mind.
The Shaolin Temple, founded in AD 495, is where the first Zen patriarch, Bodhidharma, founded Zen after meditating facing a wall for nine years. As the cradle of Zen Buddhism, the Shaolin Temple has been continuously passing down its teachings for over 1,500 years, with its core being Zen, and expressed in forms of health preservation, martial arts, medicine, and Zen arts. The health preservation methods of Shaolin primarily involve practicing qigong exercises like “Yijin Jing,” supplemented with vegetarianism, meditation, and sutra recitation to nurture the essence, energy, and spirit. Shaolin Kung Fu, one of China’s first intangible cultural heritages, is based on Buddhist beliefs and Zen wisdom. It possesses a complete theoretical system of combat techniques, consisting of grappling, fighting, bone-breaking, pressure point strikes, and various weapon techniques, all structured into a standardized system of progression. The ultimate realm of Shaolin martial arts is the unification of “Zen and Martial Arts.” Shaolin medicine derives from the Buddhist concept of “Understanding Medicinal Properties,” integrated with traditional Chinese medicine, advocating for healing the mind through Buddhist teachings and the body through herbal remedies. Shaolin Zen arts encompass painting, calligraphy, sculpture, chanting, tea ceremonies, and Go (the board game), serving as vehicles to promote Zen culture.
Shaolin culture, through continuous inheritance and exchange, has been widely disseminated in regions like South Korea, Japan, and Southeast Asia. In recent decades, many enthusiasts of Shaolin culture have also emerged in European and American countries. The Shaolin Temple actively participates in international exchanges, making positive contributions to human health. Currently, there are Shaolin cultural exchange centers in over 200 regions across 150 countries worldwide.
The Shaolin Temple has experienced highs and lows throughout its history, but its enduring legacy is due to the inner vitality of Shaolin culture. It emphasizes harmony between humans and nature, society, and oneself. Moreover, Shaolin culture plays a pivotal role in fostering international relations and promoting world peace. In the future, the temple will continue to propagate the universal Buddhist values of equality, compassion, purity, and integration, better serving humanity.
So, what happens when Zen meets AI? Can technological progress replace moral and ethical advancement? AI possesses a tremendous capability for data processing and analysis, and through programming and algorithms, it might exhibit human-like perceptions. However, AI cannot possess the awakening and consciousness preached by Zen. In the face of AI, humans should maintain clarity of mind and seek inner enlightenment and transcendental wisdom, as advocated by Zen.
Zen emphasizes that practitioners elevate their state of enlightenment through dedication and effort. In this process, they often encounter various confusions and troubles. AI, as a tool, can assist by searching relevant scriptures, thereby addressing doubts and providing support and convenience for practitioners.
Technological advancement has granted people more leisure time. We hope that this won’t make the masses lax and indulgent. In the future, I wish for more interactions between Zen wisdom and AI, especially in the context of Shaolin culture. Together, they can build a platform for communication, allowing the public to immerse themselves in experiencing the culture of Shaolin’s Zen, martial arts, medicine, and arts. This will enable them to feel the unique charm of Shaolin culture more vividly, pursuing spiritual fulfillment and allowing Shaolin culture to better serve the physical and mental well-being of all humanity.
In conclusion, I wish everyone all the best and happiness! Amitabha Buddha.

重磅!中国AI创新领袖榜单:启动报名

近日,铅笔道与中关村超互联联盟达成战略合作。
作为联合发起方,中关村超互联联盟将深度参与【2023年度真榜】,聚焦大AI赛道,以“AI自立自强”为主题,以发现“中国优秀AI企业/投资机构”为己任,不遗余力推动AI产业发展。
中关村超互联联盟全称“中关村超互联新基建产业创新联盟”,于2023年1月11日正式获批,是全国首家经民政部门正式登记注册、统筹全国超互联新基建的非盈利性组织。

它诞生于国家“东数西算”的战略背景下,由科创型数字新基建龙头“世纪互联”发起。“世纪互联”成立于1996年,是中国第一品牌民营IDC零售高科技企业,也是中国第一家在美纳斯达克上市的IDC高科技企业。

【2023年度真榜】的发起,最早源自今年4月。铅笔道发起AI访谈专题,采访了国内数十位优秀企业,如小冰、云从科技、Hugging Face、乐言、容联云等。
调研得出一个初步结论,自今年通用人工智能(AGI)、AIGC兴起后,AI的发展方针应聚焦8个字:应用为王,技术为辅。
AI行业的紧迫任务,与新能源、芯片完全不同。后者天生长在应用场景下,天生离市场更近。
而AI不一样,从目前的应用水平看,它的终局有可能是个大生产力工具,但也有可能是个大玩具。

调研对象告诉我们:自大模型兴起以来,大家在应用上的认知在同一起跑线上。各家企业都在试,但水平都差不多。
总结起来就是8个字:尚未自立,尚未自强,但潜力很大。
我国对科技创新的战略目标之一是:自立自强。
今年,习近平总书记的著作《论科技自立自强》出版,系统地阐述了推进我国科技创新的战略目标、重点任务。
在这个思路的指引下,AI行业的首要任务是:先自立,后自强。而自立的重要任务包括经济自立,或者商业化自立。
AI行业须尽快找到切实可行的垂直应用场景,努力理解各行业的应用场景,理解专业、专家行之有效的模型与AI的融合质量与速度,高效获得专业客户的认可至关重要。
行业里的优秀企业必须联合起来,一起探索应用经验,贡献商业化经验,如此才能加快AI自立自强。
我们对此深信不疑。
今天,铅笔道联合中关村超互联联盟、含光素问、智九咨询等多方合作伙伴发起【2023年度真榜】,聚焦大AI赛道(AGI/AIGC),以【AI自立自强】为题,发现一批优秀的AI企业/投资机构。
我们希望:行业以他们为榜样,以他们的认知为灯塔,照亮AI的商业化大方向。
本次榜单分为2个系列:
一、AI创新企业榜单。
其中又包含2个榜单,一个是《AI创新企业榜单TOP120》,我们不仅欢迎纯技术公司申报,也欢迎一切聚焦AI应用的非技术类公司;另一个是《AI投资领袖TOP50》。
二、AI投资机构榜单。
其中也包含2个榜单,一个是《年度AI最佳投资机构TOP50》,一个是《年度AI投资领袖TOP50》。
本次榜单将将组建一支权威的评审专家团,他们将有40%来自企业家,30%来自投资机构,30%为技术、研究专家。我们也欢迎更多专家加入真榜评审团。

榜单的发起方铅笔道,是一家深耕7年的创新创业媒体,过去7年报道了1.6万家创新公司,目前在微信端影响力排名TOP3,是软银中国、真格基金、险峰长青、BAI等顶级机构唯一投资的双创媒体,是YC中国在国内投资的唯一双创媒体。

真榜是铅笔道的旗舰榜单,首发于2018年,累计上榜企业约 6500 多家。2023年度真榜将延续过往7年“不说谎”的理念,依据真实客观的数据信息,以真实客观的评价手段,选出一批客观的影响时代的AI企业。

本次榜单的另一位联合发起方——企查查,它成立于2014年,是一家获央行企业征信机构备案、具有海量企业信息、全面维度数据、庞大终端用户的创新公司,涵盖全球超5亿家企业数据,汇集8000个行业、6000个市场、3亿+工商数据,连续多年入选中国互联网综合实力百强企业。

本次榜单联合发起方之一含光素问,由著名风控专家、投资人、研究员、财经媒体、数据分析师等各行业智囊共同成立,是一家专家智能驱动、大数据辅助为特征的金融数据及技术服务公司。

2020-2022年度,含光素问作为独家开源数据支持机构,连续三年为国内知名金融专业垂直媒体《新财富》在行业中最权威、最知名的“最佳金牌董秘评选”等评选活动提供独家数据支持。

众多权威发起方及专业评审团是榜单影响力的保障。铅笔道欢迎各方力量共同参与,一起发现影响时代的创新领袖。

ChatGPT重磅更新!马斯克VS奥特曼:打响史诗级AI争夺战

11月7日消息,今晨首届OpenAI开发者大会近45分钟的开幕演讲中,“ChatGPT之父”、美国OpenAI公司CEO山姆·奥特曼(Sam Altman)向全球开发者和ChatGPT用户公布OpenAI一系列产品更新。

此次更新升级主要包括:快速创建定制版本ChatGPT的GPTs;引入了性能更强的GPT-4 Turbo模型、API价格最低仅需0.03美元/1000个token;开放包括DALLE-3等新API;即将推出GPT Store应用商店,不仅方便GPT的定制化使用,还让开发者通过GPT创造收益;以及更加先进的Assistants API,进一步推进 AI 智能体发展。

奥特曼表示,自从ChatGPT推出后,人们一直在寻找定制化的方法来更好地利用它。现在OpenAI已经做出了重大改进,随着时间的推移,任何人都能够启用这些改进的GPTs,并逐步使用它们来规划和执行更为复杂的任务。

“正如我之前提到的,我们真的相信循序渐进、迭代部署的重要性,人们现在开始构建和使用这些GPT很重要。我们将继续根据用户反馈更新系统,提供改进的功能调用、知识、降低定价、新的模式等。我们也在深化与微软的合作。”奥特曼在演讲中表示。

发布之后引发网络热议。有人称,OpenAI会变成下一个苹果,也有人直言“OpenAI 的App Store“即将来临。

有趣的是,OpenAI开发者大会刚结束,世界首富、特斯拉CEO埃隆·马斯克(Elon Musk)在X平台(原Twitter)上发布了一条推文,介绍xAI的首个 AI 聊天模型Grok,并意味深长地暗指“我更爱Grok”——Grok、grok、Grok?

如今,一场硅谷AI大模型头部之战已经打响。

更强的GPT-4 Turbo与定制化GPTs登场

每个人都将有大模型

图片

ChatGPT推出近一年之后的今天,被广泛认为这是有史以来增长最快的消费级应用,短短两个月内用户数达到1亿,远超Twitter、Instagram、抖音等。

目前,ChatGPT仍然是有史以来增长最快的软件服务之一。

奥特曼表示,在不到一年的时间里,每周已有超过1亿人使用ChatGPT,目前有超过200万开发者在该公司的API上进行开发,其中包括高达92%的财富500强公司;企业版客户则包括普华永道、shopify等。

随后的新品发布中,OpenAI公布了GPT-4 Turbo模型、自定义ChatGPT的GPTs和GPT Store应用商店,以及接近 AI 智能体的Assistants API等。

首先,奥特曼发布的最新GPT-4 Turbo模型,提供了更长上下文理解、增强开发者控制、更新至2023年4月的知识库、多模态API的接入等功能。新的GPT-4 Turbo支持高达12.8万个token,速率限制翻倍、准确性也有所提升,内置的图像模型DALL·E 3提供不同格式和质量选项,生成一张图像的价格为0.04美元起。

不仅性能更强,GPT-4 Turbo价格也很低廉。对比GPT-4,GPT-4 Turbo的输入token价格是其三分之一,为0.01美元/1000 token;输出token价格是其1/2,为0.03美元/1000 token。

其次,OpenAI 公布的是重磅的定制化模型服务产品GPTs,可随时随地让用户们无需代码,结合自己的指令、外部知识和能力创建自定义版本的 ChatGPT。

此前OpenAI在今年7月推出了自定义指令,可让用户设置一些首选项,但这无法完全满足用户。许多高级用户会维护一份提示和指令集列表,并将它们手动复制到ChatGPT中。

如今,GPTs则能够自动帮用户们完成这项工作,通过自然语言构建自定义GPT。目前,GPTs可供ChatGPT Plus(20美元/月付费版)和企业用户试用。

在现场演示中,奥特曼要求ChatGPT创建一个可以给创业者提供建议的GPT。收到指令后,ChatGPT不仅构建GPT,还提供了头像、命名建议。

除此之外,用户还可以通过向GPT提供一个或多个API来自定义定制action(行动)。与插件一样,OpenAI的定制action允许GPTs集成外部数据或与现实世界交互,从而充分挖掘社区开发者的力量实现GPT更新。

同时,OpenAI也会在本月底上线对标苹果应用商店的GPT Store,让开发者们分享、发布自己创建的GPTs。奥特曼表示,GPT Store上会有GPT排行榜,OpenAI还将让开发者从GPT商店上架产品部分获得收入。

最后公布的是AI Agent技术下智能体产品Assistants API。

奥特曼发布的“Assistants API”技术,旨在简化开发者构建AI应用的过程,提供代码执行、知识检索和函数调用等功能,允许更灵活的用户交互和任务执行,支持创建从数据分析到智能旅游计划等多种应用,并通过无限长线程超越了上下文限制,进一步增强了 AI 智能体的能力。

开发者可以前往 Assistants playground 试用 Assistants API 测试版,无需编写任何代码:https://platform.openai.com/playground?mode=assistant;定价参见:https://openai.com/pricing。

此外,在本次开发者大会上,OpenAI还推出Copyright Shield版权保护措施,为使用ChatGPT企业版和开发者平台功能的客户提供法律索赔介入和费用支付保护;推出性能改进的语音识别模型Whisper large-v3,并计划将其集成到API中;以及改进图像质量的开源解码技术Consistency Decoder,在文本、人脸识别等方面有所提升。


“我感谢创造所有这些东西的人。我们(OpenAI)做所有的这些,是因为我们相信,AI 将是一场技术和社会革命,它将以多种方式改变世界。我们非常高兴能够从事 AI 这项工作,因为它将赋予你们所有人创造力,使你们能建造更加丰富的世界。”奥特曼表示,GPT将是个人和技术的重要助手,有望提升人类的价值能力。

马斯克VS奥特曼:

一场史诗级的 AI 战争或将打响

今年7月,世界首富、特斯拉CEO埃隆·马斯克(Elon Musk)宣布成立xAI公司,其使命是“了解宇宙的真实本质”,目标是打造OpenAI的竞争对手。

作为OpenAI 创始人之一,也是最新的OpenAI批评者,马斯克此前已表示,OpenAI已偏离了其预期目的,成为了一个以利润为导向的实体。

他直言,OpenAI 最初是作为一个非营利性开源组织创建的,目的是抗衡谷歌。但此后它变成了微软控制下的一家闭源、以利润为导向的公司。“OpenAI 已经成为一家利润最大化的公司……这根本不是他的初衷。”

马斯克还谴责 OpenAI 遭到微软的控制。他表示,世界需要一个替代的 AI 技术选择。

就在OpenAI公布首届开发者大会具体时间之后,马斯克立断在11月5日,即开发者大会数小时前,公布其xAI公司的首个成果——Grok AI 助手。马斯克甚至提前打广告:“在某些方面,它是目前存在的最好的(AI 技术)。”

如今这款Grok AI,似乎已成为马斯克新的“冀望”。

据悉,Grok大模型具有330亿个参数,性能基准上接近Llama 2 -70B,在HumanEval编码任务、MMLU 基准上的结果分别为63.2%、73%。

“2个月内我们训练了所能做到的最好技术产品,预计未来每周都将快速改进。”马斯克团队称。

11月2日,马斯克亲自跑到英国 AI 峰会上直言,AI 构成对人类“最大的威胁之一”,是一种“生存风险”。AI 模型领域或存在“危险的”军备竞赛。

“AI的发展速度比迄今为止我所见过的任何技术都要快,”马斯克与英国首相苏纳克交谈时表示,“总的来说,我认为 AI 很可能会成为一股向善的力量,但它变坏的可能性不是零,所以我们只需要减轻潜在的负面影响。”

xAI公告称,Grok将“回答大多数其他 AI 系统拒绝的尖锐问题”,并警告“如果你讨厌幽默,请不要使用它。”

“我们相信,AI 具有为社会贡献重大科学和经济价值的巨大潜力,因此我们将努力开发可靠的保障措施,防止灾难性的恶意使用。我们相信尽最大努力确保 AI 仍然是一股正义的力量。”马斯克团队在 xAI 博客中表示。

无论是像ChatGPT这种认知大模型,还是Grok这类情感大模型,都是目前 AI 大模型发展的重要驱动方向。

此前在一场音频博客节目中,奥特曼回应了马斯克的批评。

奥特曼表示,马斯克的大部分言论都是毫无根据的,很可能是出于担忧。微软并不控制OpenAI,微软在OpenAI董事会中没有任何代表。

“要说Elon的积极一面,我认为他确实关心AGI(通用人工智能)的美好未来,”奥特曼称,“我的意思是,他是个混蛋,我不欣赏他的做事风格。但我认为,他是真的在意。对于人类未来的前景,他确实感到非常担忧。”

随着GPT-4 Turbo、GPTs、GPT Store应用商店以及Grok等大模型技术的推出,这场在马斯克和奥特曼之间的 AI 军备竞赛仍将持续。至于两者之中的胜者,仍需时间和用户给出答案。

来源:钛媒体