15 1 月 2024

谷歌千人被裁引硅谷裁员潮！27家公司宣布裁员，90%大厂码农工作遭AI冲击

过去一年，AI大模型如火如荼的发展，让所有人憧憬着美好未来。

没想到2024年的开启，却是硅谷大裁员！

大厂谷歌却是首当其冲，裁员1000多人，涉及了核心工程、谷歌助理、Pixel手机等硬件团队的人员。

截至2023年9月30日，谷歌拥有18.2万名员工。此次裁员是继2023年开年裁掉12000人之后，最大规模的一次裁员。

同在今天，Meta的Ins团队裁掉60个技术项目经理，Discord裁员17%共170人，皮克斯传言将裁员20%约300人。就连刚刚成立的初创公司Humane都裁掉了10人。

据统计裁员数据网站Layoffs.fyi统计，目前已有27家公司在今年宣布了裁员，总人数达4500+人。

就近2年的情况来看，开年大裁员几乎快发展成了硅谷的惯例了。

去年新年刚过，也是各个大厂领头，大批硅谷程序员喜提「毕业」。

去年谷歌开年直接裁员12000人，今年的数字和去年相比，其实说明行情已经好转很多了。

相比谷歌针对常年做不出成绩部门的人员缩减，反而是像皮克斯，Discord这样的中小企业，因为行业发展收到新技术的冲击，或者整体上进行的控制成本式的裁员，更能说明整个科技行业依然走在下行过程中。

千人「毕业」，谷歌高管也在其中

ChatGPT诞生以来，谷歌便一直以追赶的脚步前进。

Bard、PaLM2、Gemini多模态模型等一系列发布，都在为了弥补与微软OpenAI的差距，这是注定是一场持久战。

在专注AI研发的同时降低支出，科技巨头谷歌也在周三加入了2024年的裁员潮。

三名知情人士表示，谷歌解雇了核心工程部门、谷歌助理——语音操作虚拟助手，以及制造Pixel手机、Fitbit手表和Nest恒温器的硬件部门的员工。

大多数硬件部门裁员，影响到了一个致力于研究增强现实（AR）技术的团队。

具体来说，这次裁员不仅包括普通员工，高管也在其中。

在谷歌向加利福尼亚州提交的文件显示，「本周该州有630名员工被解雇，其中包括4名副总裁和25名董事。据称，这些级别的员工通常年薪数百万美元」。

Fitbit的发言人证实，作为重组的一部分，Fitbit的联合创始人James Park和Eric Friedman也将离开谷歌。

谷歌曾在2019年，以21亿美元向这家智能手表公司提出收购要约。

2021年1月谷歌完成对Fitbit最终收购后，James Park继续担任Fitbit的副总裁兼总经理。随后，他为谷歌发布了Pixel Watch和Pixel Watch 2，最后一次亮相是在去年10月份。

据一名现任员工和一名前员工透露，今年的裁员是由副总裁和人力资源等较低级别的领导人传达的。

谷歌发言人在一份声明中表示：

我们正负责任地投资公司最大的优先事项和未来的重大机遇。在2023年下半年的裁员之后，一些团队正在继续进行这种组织变革，其中包括全球范围部分职位的裁减。

具体裁员人数曝出

谷歌在不同地区裁员人数具体是多少人？

外媒一篇报道，直接挖出了谷歌内部裁员的员工名单，细致到岗位、部门等等。

MountainView、旧金山和Sunnyvale共有702名员工受到影响，其中包括UI设计部的许多员工。

以下是根据提交给州政府的文件，按地点列出的旧金山湾区员工裁员名单：

查尔斯顿路1900、1945、1950、1965和2000：56名员工受到影响，其中包括一名主要产品运营人员、用户体验经理和设计师、产品经理和软件工程师。

1600 Amphitheatre Parkway：177名员工受到影响，包括软件工程总监和产品经理，以及数十名软件工程师和产品经理。

1200、1300、1400和1500 Crittenden Lane：63名员工受到影响，包括软件工程师、用户体验研究员和经理。

2019、2027、2029、2051、2061 Stierlin Court：68名员工受到影响，包括技术项目管理总监、硬件工程经理、电气工程师、机械工程师和技术项目经理。

325 Gladys Ave.：随着公司「停止运营」儿童中心，72名员工将从8月9日起被解雇。所有员工均为儿童保育员或中心教师。

旧金山（裁员时间为3月10日至5月26日）

55 Spear St.：42名员工受到影响，包括用户体验经理、设计师和工程师。

345 Spear St.：26名员工受到影响，其中包括2名产品管理总监、1名软件工程总监和1名软件专业化总监，外加1名销售副总裁。

215 Fremont St.：23名员工受到影响，其中包括1名硬件总监和用户体验总监，以及1名工程副总裁。

One Market St.：14名员工受到影响，其中包括1名产品分析总监和技术撰稿人。

Sunnyvale（裁员从3月10日开始）

1225, 1260 and 154 Crossman Ave.：102名员工受到影响，包括基础设施和数据中心运营总监，以及产品管理和软件工程。

225, 227, and 242 Humboldt Court：69名员工受到影响，其中大部分是软件工程师。

看得出，目前这些裁员名单还只是在加州的员工。

在「一亩三分地」论坛上，有网友表示自己作为谷歌助理团队一员被踩了。

对于裁员的补偿，一名匿名用户解释道：

准确说，不叫裁员，而是「取消岗位」，60天让每个人转组。实际上就等于裁员。

谷歌以「取消岗位」标准裁员，能够减少补偿支出。而这一标准包也比裁员的要差，先给2个月的工资，如果没有找到组的话给14+n weeks，也没有加速vest。

关闭幼儿园，缩减员工福利

这次裁员，还使得谷歌关闭了一个有300个学位，专门为员工提供服务的幼儿园，并解雇73名员工，砍掉了一个对于很多员工来说非常重要的福利。

幼儿园预计于今年8月关闭。失去日托服务可能对公司的在职父母及其招聘工作来说造成不小的影响，加上谷歌去年还削减了一些办公室的其他福利——免费更换硬件产品和办公室免费的零食供应。

在谷歌，CEO劈柴自2022年7月以来一直在推动公司，在全球经济状况恶化的情况下，突出重点减少开支。

2023年1月，谷歌曾裁减了6%的员工，即1.2万人，这是该公司进行的最大规模的裁员。在裁员之前，谷歌共雇用了19.07万名员工，还在全球还有数万名承包商。

自那以来，该公司的高管一直表示，他们将努力大幅降低成本，以专注于生成式人工智能领域。

截至9月30日，谷歌共有18.2万名员工。谷歌称，周三的裁员是正常业务过程中进行的一系列重组的一部分。

然而，代表谷歌母公司Alphabet 1400多名员工的Alphabet工人工会称，此次裁员是「不必要的」。

我们的团队成员每天都在努力工作，为我们的用户打造优秀的产品，公司不能在每个季度赚取数十亿美元的同时继续解雇我们的同事。

一些谷歌员工已经将1月，看作每年一次大规模裁员的「新传统」。

据谷歌透露，随着部门层面做出决定，预计整个1月还会有更多裁员。

Meta裁掉60名Ins技术项目经理

根据美国职场匿名曝料网站Blind曝料，Meta将Instagram的所有技术项目经理（technical program managers）都裁撤了，不过普通的产品经理没有受到影响，裁员人数大约在60人左右。

和谷歌一样，这个裁员的数量相比于去年，几乎可以忽略不计。

Meta在前年底和去年初经历2波史诗级裁员，裁掉了差不多21000名员工，小扎也不得不亲自发视频对裁掉的员工道歉。

而这次的裁员，根据曝料网站的成员来看，更像是因为技术的影响使得团队中的有些角色失去了存在的意义，从而被裁。

不过网友也认为，职场上每个人能否发挥作用和岗位有关，但是人的因素也很重要。

皮克斯裁员：传言整体裁撤20%

根据公司的消息人士表示，皮克斯裁员规模将高达20%，使得1300人的团队在未来几个月内减少到不到1000人。

而根据内部人士的曝料，作为迪士尼的子公司，被裁的很多皮克斯员工其实是属于迪士尼的流媒体部门，属于迪士尼的流媒体控制成本转向盈利计划的一部分。

而同时，因为皮克斯今年会缩减产出作品的数量，也导致了劳动力需求的降低。

值得注意的是，去年底，另一家动画公司梦工厂的联合创始人Jeffrey Katezenberg曾在公开场合表示，因为AI技术的发展，未来3年内动画行业的成本将会降低90%。

预言一出，这翻过年来皮克斯就来了一波20%的裁员，看来在不久的将来，动画制作行业的裁员依然还会继续。

其他公司加入裁员潮

除了以上的硅谷公司，还有一大批公司将在2024年初加入这波裁员潮。

3个月前，发布首款AI硬件AI Pin侧初创公司Humane，从硅谷获得2亿美金的融资，其中还包括Sam Altman。

如今，AI Pin还未正式发货，这家由苹果前高管成立的公司宣布裁员4%，共有10人。

其中一位知情人士说，领导层最近告诉员工，今年的预算将会降低。

虽然该公司表示，这是更广泛重组的一部分，但这样的裁员并不能完全给予员工信心，尤其是考虑到公司的主要产品在去年推出后受到的困惑和质疑。

昨天，亚马逊正在裁员旗下Prime Video和亚马逊米高梅工作室（Amazon MGM Studios）的数百名员工。这是亚马逊自2022年11月开始大规模裁员以来，新一轮针对性裁员。

此外，社交软件Discord也宣布裁员17%，将影响到不同部门的170人。

据首席执行官Jason Citron向员工传达的信息，Discord并没有陷入严重的财务困境，尽管它尚未实现盈利。

Discord总共筹集了约10亿美元的资金。自从2021年拒绝了微软120亿美元的收购要约后，该公司就一直在考虑上市。

据一位熟悉内情的人士透露，该公司的资产负债表上有超过7亿美元的现金，目标是在今年实现盈利。

科技行业劳动力需求缩减，和AI有多大关系？

我们曾经报道过，在Blind和Motherboard最近组织的一项针对程序员的调查显示，90%的程序员认为现在找工作变得更难了。

而其中最主要的因素是由于，AI在代码能力上的突飞猛进，让科技公司对于初级程序员的需求有了明显的下降。

再叠加经济周期下行的因素，使得一直以来供不应求的程序员都出现了饱和。

曾任哈佛大学计算机科学教授、现为企业家的Matt Welsh向该杂志透露，由于AI能够很大程度上执行软件工程的工作，这可能导致软件行业除了最优秀的人才之外，大多数人的工作保障和薪资水平都会下降。

但是，人工智能编码平台Replit的CEO表示，这AI带来的变化对于程序员来说不一定是坏事，可能只是改变了程序员具体的工作内容，但是世界依然需要程序员。

可能不是在不久的将来——「编码」这个词将从词典中消失，因为编程将不再需要代码，而是使用计算机解决问题的纯粹行为，使越来越多的人能够使用计算机。

Replit只是触及了这项新技术的冰山一角。我认为ChatGPT将其提升到了另一个水平。我们现在正处于开发人员生产力另一次大幅跃升的开端。我认为生产力将会提高 10 倍到 100 倍。

世界上的程序员确实依然不够，他们非常昂贵。我们的编程效率越高，我们能够创建的软件就越多。人工智能助手可以帮助您调试代码，可以帮助您改进代码并重构代码，这将使软件开发生命周期的各个方面变得更好。在可访问性方面，我认为这将使人们更容易使用软件。

你会看到产品和前端工程师能够完成后端或全栈工程师过去可能做的很多工作。我认为这会给双方带来压力，这可能会影响软件工程师的就业，他们必须专业化。否则他们将不得不要么去构建产品，要么成为低级平台工程师。
他表示，拥有编码知识仍然是一项很好的技能，因为人工智能将有助于加快编程过程并打破进入计算机科学和行业的一些障碍。
随着人工智能融入编码，软件工程师的价值将更多地体现在构建新事物以及监督和管理代码的能力，而不仅仅是编写代码。
尽管进行了裁员等各种举措，当今世界仍然有很多软件职位空缺。硅谷一直在「囤积」有才华的员工。
但是不管怎样，编码工作可能很快会发生翻天覆地的变化，就像C++编码与汇编语言编码完全不同一样。
当计算机开始反过来和人交流时，这将对那些以编码为生的人产生巨大的影响。

15 1 月 2024

大模型的商业价值来自AI原生应用体验的质变

当下要想让大模型性能继续提升，关键要素是什么？

在MEET2024智能未来大会现场，百度AI技术生态总经理马艳军以文心一言为例，全面介绍了知识增强大语言模型，还介绍了围绕大模型建设的生态以及未来发展趋势。

在他看来，大模型给应用体验带来了质的飞跃，应用体验只要提升了，未来肯定会有更大的商业价值。

据了解，百度还围绕着文心一言的基础模型文心大模型以及飞桨深度学习平台做出了一系列技术创新与产业实践。

在技术的不断变迁中，马艳军总结了大模型与此前AI技术的三大不同点：

一是颠覆了交互方式；二是大幅降低了AI开发门槛；三是大模型会催生AI原生应用。

量子位在不改变原意的基础上，对演讲内容进行了编辑整理。

关于MEET智能未来大会：MEET大会是由量子位主办的智能科技领域顶级商业峰会，致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会，吸引了超过300万行业用户线上参会，全网总曝光量累积超过2000万。

演讲要点

人工智能的关键基础能力是理解、生成、逻辑和记忆。大模型恰恰因为这几种能力强，所以人们对其关注度才如此之高，并认为是通向通用人工智能的曙光。
大模型发展，如何使用数据，如何挖掘、分析、合成、标注、评估数据，整个闭环非常关键。
大模型给应用体验带来了质的飞跃，应用体验只要提升了，未来肯定会有更大的商业价值。
要想大模型效果更快提升，训练效率特别关键，软硬件协同优化非常重要。

（以下为演讲分享全文）

大模型技术越发标准化

今天跟大家的分享，将以文心一言为例，探讨知识增强大语言模型的技术创新与产业实践。

我先对文心一言做一个比较全面的介绍，然后介绍围绕着文心一言建设的整个大模型生态，以及未来会有什么样的发展趋势。

现在我们提到人工智能的应用，大家可能会想到很多词。有几个比较关键的基础能力：

理解、生成、逻辑和记忆。

一般来讲一个人工智能应用一般是这四个能力中一个或者几个的组合运用，最终形成好的人工智能应用。

大语言模型也恰恰是因为这几个方面的能力比较强，所以现在大家对它的关注度非常高，并且认为是有可能通向人工智能的曙光。

文心一言的建设，大家的关注度也非常高，首先是在底层有一个大的预训练模型，这块也是一个非常大的技术挑战。

现在随着大语言模型技术发展，实现方式也越来越标准化了，有监督的精调技术、基于人类反馈的强化学习、提示等等，这些是大家认为相对标准的一套技术。

在此基础之上，文心一言为了更好地提升回复的客观性以及时效性等一系列能力，百度专门在知识图谱注入、检索能力的引入、对话的连贯性等方面做了非常多的工作，让大家在使用的时候得到更好的体验。

文心大模型是文心一言背后的基础模型。我们2019年3月份发布了1.0版本，到今年10月份已经发展到4.0版本了。

大家如果有在使用文心一言，其中专业版背后的模型就是文心4.0。大家可能会感知到，随着4.0的上线，整个使用体验有了非常大幅的提升。它的理解能力、生成能力、逻辑能力、记忆能力，方方面面都有非常大的变化。

数据和对齐，前所未有的关键

研发期间，我们背后付出的努力还是非常大的。

首先依赖在底层资源上的巨大投入，需要在非常大的计算集群上做预训练模型的训练，基于大量的数据做训练学习。

另外，在算力之上，大家或许也都了解到，现在大模型的技术还是深度学习技术进一步发展的结果，其底层依然依赖深度学习框架和平台。

百度飞桨为大模型的训练提供了基础支撑，并且跟大规模计算集群进行联合优化、有机整合，把整个训练效率提了上来。

训练大模型，一方面是效果。要想得到好的效果，要想快点学好，训练效率特别关键，所以软硬件协同优化就显得非常重要。

不可回避的，数据是大模型训练过程中必不可缺的一环。随着大模型的发展，数据本身的质量重要度越来越高，如何使用数据，如何挖掘分析、合成、标注、评估数据，整个闭环其实非常关键。

应该说人工智能发展这么多年，以前我们也说数据重要，尤其随着深度学习的发展，大家都会说数据特别重要，需要数据、算法、算力三驾马车。

但是前所未有的，数据从未像在大模型时间点上显得如此重要，不管是质量还是整个加工闭环，都成了整个大模型训练学习当中非常关键的一环。

还有对齐，大模型技术发展对对齐技术要求非常高，为什么这么讲？

“对齐”这个术语也是因为大模型的发展被广泛知晓。背后核心还是要让大模型学会按照人类希望的内容和方式进行回复。

如何让大模型有效地跟人的要求做好对齐？这背后其实有非常多的技术需要建设。

再有，针对这么大的模型，如何在训练过程中训到一定阶段之后，完成增量式的参数调优，节省训练资源和时间，加快模型迭代速度？

所有这些技术都是在大模型研发过程中我们需要突破的。

当然文心一言面向社会开放以来，得到了非常广泛的关注，现在的用户规模已经不止七千万（截至2023年底，文心一言用户规模已破亿）。大家如果是自己使用过文心一言，相信也一定能感受到这一年当中的快速进步。

应该说大模型发展，尤其是大语言模型的发展给我们创造了一些新的机会。

大模型带来的变化

那大模型跟以前一波一波的技术变化有什么区别呢？我觉得有这几个方面：

第一个是交互方式，这次真正有了一个颠覆式的变化。

以前我们也有对话系统也可以做人机对话，对话效果往往差强人意。你说它能不能回复呢？它也能回复得还可以，但总是距离我们的预期有差距。一旦达不到临界点，其实非常影响技术的普及。大模型技术的发展，尤其是大语言模型让普及加速。

另外降低了开发门槛。

以前我们开发AI程序需要写非常多代码，写一个AI应用也需要非常多的代码，成本也非常高，大语言模型大幅降低了开发门槛。

三是大模型会催生AI原生应用。不仅是对产业应用有影响，其实对于科研，现在出现的AI for Science的趋势，也产生了非常大的影响。

所以在此驱使下，AI原生应用发展正迎来最好的时代，以大模型插件接入为基础，在此基础上进一步衍生出更强大的工具，基于这些能力必然会催生大量的AI原生应用。数字技术和实体世界加速连接与融合。

在百度大量产品当中，已经快速地在使用大语言模型来重构产品，整个产品使用体验也在快速地提升。

大家可以看一下，在办公场景、在程序员写代码的场景，大量的人工智能技术都可以使用起来。

比如说，一项最新的数据是，百度20%的代码都是由大模型，我们对应的工具叫Comate来实现的。

我们相信在未来的软件开发中，比较大比例的代码是由大模型帮我们实现的。

除了代码，像文档的分析等都能非常自然完成，大家可以感受到用了大模型之后，写作、做材料、做PPT效率会有非常大的提升，这是跟以前的技术很不一样的。

当然在商业分析决策等方面，借助大模型的交互能力也一样可以处理更加复杂的数据分析和任务处理。还有在百度网盘里面，可以用大模型唤醒历史上沉睡的大量的积累的图片、文档、各种各样的信息。

出行场景可以用智能助手能力更快帮我们实现交互，这些其实都是大模型所带来的产品体验方面质的飞跃。

应用体验只要提升了，未来肯定会带来更大的商业价值。

大模型对基础软硬件要求「极致」

大模型本身研发我前面也介绍了不少，确实是研发门槛比较高。

过去几年，一个企业研发的参数规模上亿的模型已经非常大了，成本很高。现在这几年发展不可同日而语，百亿参数规模大家都有点开始倾向于叫小模型了。

整体来讲，它的研发成本依然是比较高的。模型体积、算力要求、数据要求都非常大，对基础软硬件的考验也非常大。必须得在基础软硬件这一层有非常强的支撑，才能真正把一个优秀的、效果好的大模型高效地训练出来。

对于基础软硬件的要求也是前所未有的高。

应该说，以前很多人工智能应用开发非常依赖基础软件，但是对它的要求没有那么极致，相对来讲算力规模没有那么大，整体数据量没那么大。

现在大模型很不一样，我们建设百度飞桨深度学习平台，是开源开放的平台，有非常多开发者都在使用，用基础软件来支撑现在大模型的整个开发训练，以及未来在大量应用当中的部署。

飞桨和文心通过联合优化，平台有效的训练时间做到98%，这是非常高的。

对于了解大模型训练特点的人而言，这么大的集群规模，98%的训练时间都是有效的，这是非常难的。另外整个推理性能也有非常大的提升。

当然了，我们在建设过程当中也非常期待跟生态伙伴一起推进，所以我们建设了星河社区，提供异构算力，提供一系列的包括飞桨和文心的基础能力，形成一站式综合服务的平台，让开发者能够在这个平台上进行交流、互相促进。

从整个生态来讲，飞桨和文心平台有1070万开发者（截至2023年底），整体来说和各类生态伙伴都有全面合作，包括芯片的合作伙伴、数据和技术的合作伙伴等等。

百度希望携手生态伙伴通力合作共创共赢，能够把大模型的技术能力更好地赋能千行百业的技术应用。

在12月28日举办的第十届WAVE SUMMIT深度学习开发者大会上，百度最新发布飞桨开源框架2.6版本和大模型重构的开发工具链，包括全新发布Comate AutoWork，飞桨低代码开发工具PaddleX v2.2，升级面向生态的文心一言开发机制，打造更智能、高效、低门槛的AI原生应用开发新范式，助力开发者把握大模型时代红利。

12 1 月 2024

2023年冲出23家新晋AIGC独角兽：最高估值千亿，6家来自中国

生成式AI这把火在资本市场越烧越旺。根据智东西统计，2023年新晋的生成式AI和大模型领域相关独角兽达23家，国内新晋独角兽有6家，分别是智谱AI、MiniMax、百川智能、零一万物、智元机器人，以及已被收购的光年之外。这些独角兽企业涉及大语言模型、AI视频生成、垂直行业应用研发商以及GPU云服务提供商。

其中估值高于50亿美元的独角兽有3家，被称作OpenAI劲敌的Anthropic，估值排名第一达到184亿美元（折合约1315亿人民币），远高于排名第二GPU云服务提供商CoreWeave的70亿美元（折合约500亿人民币），Character.AI估值超50亿美元（折合约357亿人民币），排名第三。

不同赛道中，大语言模型赛道独角兽玩家达到一半有12家，垂直行业应用为8家。从地域分布来看，美国创企占比近半共10家，其次为中国共6家。

在知名产业投资方中，海外有谷歌、亚马逊、Salesforce、英伟达等玩家高频出现，国内也有腾讯、阿里、小米、美团等知名科技巨头多次注资。2023年美团联合创始人王慧文创办的光年之外也已达到独角兽企业估值，但因王慧文离岗这家创企于2023年7月被美团收购，被收购时光年之外整体估值约为11.6亿美元。

值得注意的是，2023年底，生成式AI和大模型领域多家创企传出新的融资动向，如主攻AI语音生成的Eleven Labs正在与风投机构谈判第三轮融资、马斯克创办的X.AI拟出售股份并募集10亿美元资金……这些创企极有可能率先成为2024年新晋生成式AI和大模型独角兽。

相比之下，2023年之前的AIGC及大模型相关独角兽仅有5家，2023年也成为独角兽大量涌现的关键之年。

01.11家大语言模型独角兽：最高估值近200亿，4个国内玩家在列

基于大语言模型，OpenAI打造的聊天机器人ChatGPT已经成为这一波AIGC浪潮的标志性事情。

在新晋独角兽中，主攻大语言模型研发的独角兽占比最高共11家，且估值超20亿美元的玩家就占到一半左右，Anthropic的估值高达184亿美元。

其中美国的独角兽玩家有4家，中国4家，以色列、法国、加拿大各1家。

1、Anthropic美国硅谷创企Anthropic成立于2021年，由阿莫迪兄妹从OpenAI出走创办。这家创企是OpenAI最大的劲敌之一，其估值已从2023年上半年的41亿美元增长至年底的184亿美元。

Anthropic的核心产品就是聊天机器人Claude，Claude也经常被拿来与ChatGPT相比较，虽然总体性能有差距，但Claude在长文本处理等部分指标上已经超过GPT-4。与OpenAI背靠微软类似，这家创企还拿到了谷歌、亚马逊的巨额融资。近日，据外媒The Information报道，Anthropic预测2024年底其年化收入将超过8.5亿美元。据The Information援引知情人士消息，OpenAI年化收入2023年底已突破16亿美元。

2、Character.AICharacter.AI于2021年在美国成立，2023年3月其估值突破10亿美元，9月就被披露估值超50亿美元。

这家创企的创始人是谷歌早期最重要员工之一诺姆·沙泽尔、谷歌AI大牛丹尼尔·德·弗雷塔斯，成立半年后就正式发布了聊天机器人Character.AI。Character.AI构建了一个AI角色扮演社区，用户可以和动漫人物、明星大佬甚至于自定义的各种角色交流对话。根据这家创企公布的数据显示，自2023年5月发布以来，其安卓下载量已经超过300万次。成立之初，沙泽尔就决定要让Character.AI聊天机器人的基本服务供所有人免费使用。

3、Inflection AI

Inflection AI是成立于2022年的美国创企，2022年初从微软等公司处筹集了2.25亿美元资金，当时未披露具体估值。一年后，这家创企拿到微软、英伟达等的13亿美元融资，估值达到40亿美元。

其创始团队包括DeepMind的联合创始人穆斯塔法·苏莱曼，“硅谷人脉王”、领英创始人雷德·霍夫曼。不同于ChatGPT等产品的生产力工具定位，Pi就是个人的生活小助理，苏莱曼曾解释道，Pi可以在与对话的来回对话中越来越了解用户，相较于其它聊天机器人会更人性化。

4、Cohere

加拿大AI创企Cohere成立于2019年，创始人是曾在谷歌任职的Transformer论文合著者之一艾丹·戈麦斯。今年6月，Cohere拿到英伟达、甲骨文、Salesforce的融资，估值达到22亿美元，两个月后因老虎环球基金计划出售部分Cohere持股，该公司估值升至30亿美元。除此以外，AI明星科学家李飞飞、“深度学习三巨头之一”杰弗里·辛顿、吴恩达的第一位博士生Pieter Abbeel、谷歌等都纷纷为这家创企注资。

Cohere专注于面向开发者和企业，产品主要覆盖企业日常运营中的三个关键领域：文本生成、文本分类和文本检索。

5、Mistral AI

法国AI创企Mistral AI成立于2023年，6月份拿到1.05亿欧元融资，12月底就被曝出正处于从英伟达等投资者处筹集约4.5亿欧元的最后阶段，半年时间估值从2.6亿美元飙涨到20亿美元。Mistral AI由DeepMind和Meta公司的前研究人员组建，创始人曾主导Llama大语言模型开发。2023年9月，Mistral AI发布了首个大语言模型Mistral7B，该模型在当时被称为“最好的7B模型”，在多项基准测试中优于其它开源模型。

6、智谱AI成立于2019年的智谱AI是国内目前估值最高的大模型独角兽，也是国内首个估值过百亿人民币的大模型创企。2023年，这家创企已经累计获得超25亿元的融资，美团、蚂蚁、阿里、腾讯、小米、金山、红杉、高瓴等均在投资方之列。这家创企由清华大学计算机系知识工程实验室孵化而来，且核心团队大多都是悟道大模型的研发人员。早在2022年，智谱AI就开源了高精度双语千亿模型GLM-130B和60亿参数的ChatGLM-6B，2023年推出了全自研第三代基座大模型ChatGLM 3并宣布开源ChatGLM3-6B。

7、AI21 Labs成立于2017年的以色列创企AI21 Labs，到2023年底其总融资额已达3.36亿美元，整体估值达到14亿美元，投资方包含三星Next、英伟达、谷歌等。AI21 Labs的产品包括写作工具Wordtune、大语言模型Jurassic-1 Jumbo、可定制的大语言模型Jurassic-2。Wordtune的功能与ChatGPT基本一样，其客户包括耐克、Zoom、沃尔玛、三星、阿迪达斯等知名企业。Jurassic-2就是一个大语言模型，既可以作为基础模型，也可以为企业构建特定业务领域的专属“ChatGPT”。

8、MiniMax国内明星创企MiniMax成立于2021年，创始人是前商汤科技副总裁、通用智能技术负责人闫俊杰，技术合伙人杨斌为闫俊杰的中科院校友。今年6月，MiniMax拿到一笔总规模超2.5亿美元的融资，估值超过12亿美元。投资方包括腾讯、米哈游等。MiniMax目前已经推出自研角色扮演类AI聊天应用Glow、自研通用大模型ABAB，以及为金山办公等B端客户发布了相应解决方案。公开资料显示，该公司具备自研文本、语音等多模态融合的通用大模型能力。2023年12月底，MiniMax副总裁魏伟透露，MiniMax近期计划发布国内首个基于MoE（Mixture-of-Experts）架构的大模型，对标OpenAI GPT-4。

9、百川智能2023年4月，前搜狗CEO王小川、前搜狗COO茹立云联手成立国内大模型创企百川智能。1个月后，百川智能就拿到了来自腾讯、小米、金山、清华大学资产管理有限公司、好未来等十余家机构的联合投资，整体估值超10亿美元。半年内，百川智能已经发布超7款大模型，参数规模从10亿到超百亿不等，覆盖开源、闭源。

10、零一万物2023年7月，创新工场董事长兼CEO李开复创办国内大模型创企零一万物，联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁等诸多头部玩家人才，整体估值超10亿美元。零一万物于2023年11月发布了首款开源中英双语大模型Yi，却使这家创企陷入“套壳”风波，有开发者质疑Yi完全使用了Llama的架构。随后零一万物发公告澄清，Yi完全不涉及套壳、抄袭。进行了版本更新后，Yi在多项大语言模型测评权威榜单的排名直追GPT-4。

11、Adept AI美国AI独角兽Adept AI成立于2021年，2023年3月拿到顶级风投Greylock与行业巨头微软、英伟达等的3.5亿美元融资，这家创企估值突破10亿美元。创始团队既有曾带队从事GPT-2、GPT-3研发工作的前OpenAI加州实验室工程副总裁戴维·栾，又有两位Transformer论文合著者阿希什·瓦斯瓦尼、尼基·帕玛。不过，这两位合著者此前已离开Adept AI。

Adept AI的产品与ChatGPT有所不同，基于其核心的ACT-1模型，可以根据用户指令调动一系列软件工具，从而协同执行复杂用户请求，这改变的是用户和机器人之间的交互方式。

2家AI视频生成独角兽英伟达、谷歌重金押注除了大语言模型，可以生成图片、视频、音频的多模态大模型在生成式AI市场里逐渐热络起来。文生视频方向共2家独角兽，Runway和Synthesia的估值分别为15亿和10亿美元。

1、Runway

美国AI创企Runway成立于2018年，2023年7月，在谷歌领投的D轮融资中募集到约1亿美元，估值达到15亿美元，半年时间翻了三倍。Runway已经发布了大约30余个AI创作工具，包含音频、图片、视频、3D和生成五个大类，涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。这家创企还参与了爆火的图片生成工具Stable Diffusion研发。2、Synthesia

Synthesia是一家成立于2017年的英国AI创企，2023年6月，该公司获得约9000万美元融资，估值达到10亿美元。

也是AI视频创作平台，主要面向的是虚拟人视频，可以生成教学视频、员工培训视频等。

Synthesia主要专注于大型企业客户等B端客户，可以生成教学、员工培训等虚拟人视频。Synthesia CEO曾在博客中透露，财富100强中有35%的公司正在使用Synthesia进行培训和营销，并且有超过5万个团队使用这一工具大规模制作视频，节省了80%的预算。
03.“AI算力黄牛”获英伟达青睐与头部玩家“平起平坐”大模型引发的算力需求激增，其背后的云服务提供商也成为焦点，除了微软、谷歌、亚马逊等头部云服务提供商外，被英伟达青睐的创企CoreWeave已经化身“AI算力黄牛”，一举跃升独角兽，估值达到70亿美元。

成立于2017年的美国创企CoreWeave，起家时为一家加密货币挖矿公司，2019年成功转型成云服务提供商，拿下微软、亚马逊、谷歌等玩家的巨额算力大单，为这些玩家提供大模型训练和推理算力。

同时，以英伟达H100芯片做抵押，CoreWeave还拿到23亿美元的债务融资方案。CoreWeave创始人之一Brannin McBee在今年8月的采访中透露，2022年，该公司收入约有3000万美元，预计2023年将超过5亿美元，同比暴涨1567%。

8家AIGC垂直行业应用独角兽：美国企业占一半，国内机器人玩家闯入在大模型之上，诸多玩家选择面向特定的垂直行业、应用进行研发，进一步针对用户使用中的痛点发挥生成式AI的更大价值，其中不乏金融、企业搜索、医疗、配音、翻译等。2023年新晋独角兽中，8类玩家都针对于不同的行业未有交叉，从地域分布来看美国有4家，德国有2家，分别为AI翻译和军事分析领域。中国还有一家人形机器人创企智元机器人，已经在大语言模型与机器人的结合上有所进展。

1、Glean（搜索）美国AI创企Glean成立于2019年，该公司正在洽谈至少2亿美元融资，投前估值达到20亿美元，相比2022年5月估值上涨200%。

Glean的创始人Arvind Jain是前谷歌搜索的工程师，其产品是为企业构建内部的搜索引擎，搜索公司内容的应用程序、内容资源，来帮人们找到所需的信息。

这家创企已经积累了200多家企业客户，包括Databricks、Niantic、T-Mobile等，并且这些企业中已经有大约40%客户员工每天都在使用Glean。

2、Helsing（国防）

成立于2021年的德国创企Helsing是一家国防科技企业。

2021年，Helsing在A轮中获得Spotify创办人Daniel Ek所共同创立的创投公司Prima Materia 1亿欧元投资。2023年完成了2.09亿欧元B轮募集资金，成为当时欧洲最大的AI创企，估值达到18亿美元。

Helsing的产品主要为军事任务服务，例如将军事硬件设备连接AI，从而将其接收到的红外线、传感器等数据进行分析。

3、Quantexa（金融）2016年成立的英国独角兽Quantexa，2023年4月获得1.29亿美元E轮融资后跃升独角兽，估值达到18亿美元，也是2023年英国首个新晋独角兽。

Quantexa打造的生成式AI助手Q Assist就可以让用户通过自然语言，快速帮助用户查询，从而帮助金融公司规避风险。

目前，纽约银行、汇丰银行、渣打银行、丹麦银行等大型金融机构都是其客户，该公司还将与谷歌、埃森哲、德勤等合作。

其创始人预计，2024年该公司收入将达到1亿美元，2025年实现盈利。

4、Replit（编程）美国AI创企Replit由曾在Meta任职的阿姆贾德·马萨德于2016年创立。2023年4月，这家创企拿到9740万美元B轮融资，估值增长至11.6亿美元。GitHub发布了Copilot X为开发者提供软件开发平台后，谷歌就选择联手Replit升级AI辅助编程工具Ghostwriter。Ghostwriter是Replit 2022年发布的产品，支持16种语言。Replit的产品既可以为初学者提供简单的开发工具，让其快速上手，也可以为有经验的开发者提供协作开发测试的工具。2023年4月，该公司还发布了自己的编码大模型replit-code-v1-3b。

5、Imbue（AI Agent）

美国AI创企Imbue成立于2021年，目前手握1万张英伟达H100芯片，并获得了英伟达等投资者的2亿美元融资，估值已经超过10亿美元。

这家创企的重点是构建具有推理能力的AI Agent，不过目前还没有发布任何产品。但其创始人坦言，Imbue的产品距离真正商业化落地还需要数年。Imbue的最大投资人、亿万富豪Jed McCaleb称，自己在看完Qiu和Albrecht建立AI智能体的PPT后，觉得非常满意，因此大手一挥，拍板决定投资。

6、Typeface（营销）

Typeface成立于2022年9月，创始人阿布海·帕拉斯尼斯曾先后任职于微软、甲骨文、Adobe，从0到1主导搭建了微软的云计算业务、领导了Adobe的智能化转型。2023年，该公司连拿2笔融资，估值跃升至10亿美元，投资方有Salesforce Ventures、谷歌投资、微软旗下风险基金M12等。

这家创企的主要业务是基于GPT-3.5和Stable Diffusion 2.0模型开发企业级生成式AI应用程序，提供通过文本快速自动生成营销内容和图片的平台和工具。

7、智元机器人（机器人）成立于2023年的国内明星创企智元机器人，由前华为“天才少年”、华为计算产品线昇腾部门算法工程师稚晖君（原名彭志辉）创办。成立9个月内，智元机器人就连拿5轮融资，投资方阵容集结了百度、比亚迪、奇绩创坛等。2023年12月完成的A3轮融资，金额或超过6亿元。智元机器人在2023年8月发布了首款产品“远征A1，稚晖君透露，这一机器人基于大语言模型以及公司自研的视觉控制模型完成了一系列创新，预计2024年产品会推向商业化落地。

8、DeepL（翻译）DeepL是一家德国创企，成立于2009年。2023年1月，该公司宣布完成1亿美元融资，估值超过10亿美元。该公司的产品是AI翻译工具支持中文、英语、德语、法语、日语等20+语言的翻译。2017年产品发布之初，该公司的盲测结果显示，其翻译器表现远超谷歌、微软、Meta等竞争对手，BLEU测试的结果也是如此。2023年1月，DeepL发布AI写作助手，能够调整用户上传的德文、英文写作内容。

DeepL的官网显示，目前该公司的用户已经达到百万级，并有超20000家企业正使用这一平台。

05.结语：2023年冲出的独角兽为大模型战局注入新动能大模型及生成式AI独角兽企业已经成为产业界关注的焦点，凭借着明星创始团队以及有广阔应用前景的工具，获得各路资本青睐。从大模型、聊天机器人到面向各行各业的垂直应用方案、AI算力提供商，独角兽玩家的成长之路不断加速。可以看到，以英伟达、谷歌、微软、腾讯、阿里等为代表的科技巨头玩家也是这些独角兽玩家进阶的重要推动者，与其它风投机构不同，这些玩家身处行业之中，其一举一动都牵动着科技界的神经。尽管目前来看，OpenAI这一标志性领军企业的优势性还没有企业可以比拟，但随着资金落地，这些独角兽玩家或许会在2024年迸发出更大的生命力，逐渐上升到能与OpenAI一较高下的地位。

12 1 月 2024

2024，如何构建企业的AI营销战略？

在2024年谈增长离不开AI这个关键词。

一项名为《2023AI营销现状》的报告面向900位增长责任人展开调研，其中包含约300位CEO、CMO，他们中约90%认为在未来12个月内AI对于营销来说颇为重要。

但在让AI真正驱动增长的过程中，企业也面临很多现实的困境，比如超半数的营销人认为他们还不是很了解AI，44%的被访者认为企业还没有真正的AI营销战略。

来自杜克大学的教授卡尔·梅拉就曾在《哈佛商业评论》发表文章指出，很多营销技术就像是“亮闪闪的新东西”。企业对AI等营销新技术的投入更像是在装点门面，很少能真正激发它们的价值。而要解决这一难题，需要做好两件事：“解构”增长路径，让关键业务环节更好地与技术相配合；“构建”多元技术能力，并确保其作为一个完整的系统发挥作用。

大模型阶段下，AI能帮企业做些什么

从前台应用看向后台基建，想让AI真正发挥价值，企业需要主动识别出业务增长的关键节点，并探索在这些节点中，AI能如何发挥作用，提升增长效率。纵览目前发布的一些商用AI大模型，AI正在提升人货匹配效率、提升消费者的持续连接能力，提升经营效率方面发挥作用：

更好地理解商品，提升人货匹配效率。

你觉得投放一波广告需要准备多少套投放方案？100个够不够多？实际上，有些企业会准备多达4000个投放方案，广告素材在产品价格、配色、文案等元素上进行微调，搭配不同的通路、人群，就想看看哪个效果好。这其实是企业追求更精准的人货匹配的表现，听起来挺科学，但显然需要耗费大量的人力物力。

但如果AI介入了这一环节呢？

AI之于营销的一大价值在于高效处理更大规模的数据，发现其中暗藏的关联，并自动化地完成一些基础的操作。企业不需要准备上千个方案，基于大模型数据信息的处理能力，在广告主补充输入商品信息后，系统能够对所投放的商品进行更加深入的理解，并由此进行更加高效的人货匹配。就如同那个“啤酒和尿布”的经典营销故事，两种看起来毫不相关的产品摆放在一起，却能大大提升销量，其背后便是数据洞察推动人货匹配的结果。

如今，不少企业正在受益于AI大模型助力下的人货匹配提效。比如腾讯广告曾公布过一些案例的数据，通过人货匹配，某服饰品牌下单平均起量速度提升180%，下单成本环比降低18%，销售额更环比提升260%；某美妆品配将流量引导至视频号品牌直播间，直播间广告ROI提升1.5倍。

当然，为了更好地实现“懂人，懂货，懂匹配”，企业也需要更积极地“喂养”AI，比如在广告系统中建立好商品库，让AI知道售卖的商品是什么，有哪些基础的特征；另外，企业在一方数据及时上报的基础上，亦可与平台方展开更定制化的合作，这将有助于AI大模型更好地理解企业，从而进一步提升系统匹配效率。

腾讯公司副总裁蒋杰近期在腾讯智慧营销峰会上就分享了一组数据，腾讯广告的大盘数据显示，在转向基于标准化商品库的全面商品化策略后，广告主的广告起量率提升10%，消耗规模提升12%，通俗来说就是在预期的ROI标准下，广告触达的用户、展现数量等大幅提升。

更好地理解人，提升消费者持续连接能力。

很多企业都有金牌销售，凭借着对用户的深度理解和优秀的沟通能力，他们能够为用户提供更加优质的服务、高效地促成下单转化。对于企业来说，如何培养更多的“金牌销售”、提升整体客户服务水平，以促进生意增长？AI在这之中大有可为。一方面，AI能够快速提供经过智能运算后的话术参考，在它的辅助下，客服与用户的沟通将更加顺畅；另一方面，基于自动打标，系统能够对大量数据进行高效可靠的分类处理与建模学习，以系统底层能力提升助力销售与服务环节的大幅提效。

当然，AI对人的理解并不仅仅影响销售服务环节，特别是在用户消费心智逐渐成熟的当下，消费决策的过程变得复杂而长期，据调研，市场大概有70%的用户需要长期培育，最后才会发生转化，企业与消费者的沟通也变成一个颇为复杂的过程，全链路、全周期的用户关系运营成为必然。而基于对人的理解，AI可以高效、自动化地追踪和串联起用户决策的流程，从而形成一套用户线索经营的矩阵。

蒋杰提到，随着底层系统的智能化焕新，腾讯广告以技术能力加持，打造了一套覆盖线索全场景、全周期的营销体系。这一体系从广开口，实现更多曝光触达开始，到多链路吸引用户进行浅层互动，再到提后效的留资、下单，最终落地到私域体系内实现用户的深度共鸣与长效经营，AI大模型都提供技术助力，通过对消费者的深度理解实现营销提效。实际上，腾讯广告一直强调“全域经营”理念，而这一套体系正是AI赋能之下的升级版全域经营矩阵，通过AI提升全域中每一触点的智能化水平，并通过统一的大模型统揽全域营销流程与消费者的全域流转，真正构建起一套以消费者为核心的智能化的营销体系。

目前，在这一体系的加持下，不少企业已经收获了实际的增长，比如某教育品牌的首次参课率提升23%，同时首次参课成本下降22%；而某大健康品牌的开口（曝光）成本下降了17%，同时加粉转化提升33%。

更好地理解商业，提升经营效能。

技术层面的升级只是进化的必要条件之一，将行业经验、商业敏锐度融入大模型中，不断基于特定的行业现状、行业需求调教大模型，企业才能得到一个更加贴心的AI营销助手。

以游戏行业为例，大众可能只看到“是兄弟就来砍我”的大曝光时刻，但一款游戏的营销也要经历复杂的周期。比如小游戏就会经历测试期到推广期再到召回期，比如游戏App会经历封测、预约、首发、平推、版更/周年庆等阶段。每一阶段的营销诉求不同，资源配置不同，营销策略也千差万别。在复杂的营销周期中，AI大模型对抗熵增，提升营销确定性的价值便体现出来。

一方面通过大数据洞察，企业可以实现更确定的冷启动，面向谁、展现怎样的玩法特点、启用谁为代言人等等，AI大模型会告诉你更多的洞察观点。而在投放过程中，一些智能的投放工具可以结合投放效果敏捷调整投放方案，减少人工干预，自动优化提速。另外，诸如腾讯广告游速通等全生命周期营销解决方案，还会基于游戏行业特征进行深度的模型优化，让AI大模型更加理解游戏产品的特征、营销阶段与营销诉求，实现大模型助力下的营销提效。游速通侧公开的某游戏产品投放数据显示，技术助力下，该游戏起量率较传统新游提升30%，预约激活提升23%，同时激活成本下降19%。

当然，不只游戏行业，营销大模型也正在尝试与更多的行业经验相结合，实现更加垂直深度的营销赋能。就像AI发展趋势的预测中，垂直大模型将成为大模型应用的主流方式，更加深度结合行业经验的营销大模型，也将更好地实现营销的赋能。

打造系统性的AI基建

在应用层，AI大模型的能力正在逐步拓展。而在基建层，平台与企业也需要进行系统性的布局，以确保AI能够融入营销全流程，系统性地发挥作用。在这一过程中，企业需要特别关注的是系统性这一概念。一方面，在整个营销体系中，企业往往较为关注智能投放领域的工具引进，但要真正形成智能化的营销系统，企业还需关注在智能创意、智能诊断能力上的部署；另一方面，工具之间能否进行有效的“对话”，形成顺畅的创意投放验证体系也是需要关注的话题。

不久前，腾讯广告发布了一站式AI广告创意平台“腾讯广告妙思”，在打造这一产品的过程中，蒋杰就指出能够自动化生成创意素材的AI工具其实并不少，但如何让创意贴近投放，做到“从广告诉求出发”、“更有原生感”，却是需要被攻克的课题。

一个简单的例子是，一些非广告专用的AI创意工具生成的图片总带有一些“艺术的朦胧感”，色调可能偏暗，或者多少带点西式审美的特质，这样的素材并不适合国内的广告投放。通过腾讯广告的数据积淀，妙思会了解到那些更明亮的，融入东方审美元素的素材会带来更好的投放效果，也由此避免在创意生成的过程中“走弯路”，直接产出更能推动广告提效的广告素材。另外，腾讯广告妙思还与广告投放流程紧密结合，对产出素材直接进行自动化机器审核，通过“创意生成-一站式审核-广告投放”的链路打通，减少动辄数小时的审核过程，将技术提效应用到每一个关键环节。

这便是系统性带来的优势，当服务各环节的AI工具能够基于一套底层大模型，各环节间的经验能够互联互通，一同服务于足够明确的商业目标，系统整体的效率便会明显提升。

为了进一步提升系统的整体效率，腾讯广告还着重打造了智能诊断的能力。这对企业来说就像是给复杂的AI营销系统装上了“导航”，能够识别障碍在哪里，并实时根据接收到的“路况”信息不断规划最优路径。在广告的创建期，企业可以获得优化建议，对投放效果建立起初步预期；投放时可获得投放的预判、预警；投放后也可以通过系统诊断与操作评估进行更有针对性的复盘，为下一次投放优化做好准备。

可以看到，在腾讯的体系内，大模型针对广告场景进行了系统性的部署，形成了深度垂直的能力。发起于《哈佛商业评论》中文版的新增长年度榜单评选中，蒋杰入选“2023中国新增长·先锋人物榜”，也正是因为其“决意要离业务更近，让AI、大数据的能量在应用中释放”。

2023年，蒋杰在2023腾讯数字生态大会上携腾讯混元大模型正式亮相。作为一款“从实践中来，到实践中去”的实用级大模型，腾讯混元目前已与超过300个腾讯内部业务对接。而在广告业务场景中，基于对广告真实诉求的理解，蒋杰也带领团队推进了一系列技术升级，大幅提升了广告推荐效率，助力企业降本增效。为了提升大模型的易用性，以及进一步提升效率，腾讯广告也在整合统一包括数据、策略、特征、模型到资金计费系统等模块之后，让广告系统真正成为“一盘棋”。

在平台侧系统性AI基建不断完善的同时，企业侧也需要进行相应的部署，除了必然的引入更多AI工具、培训新型人才体系之外，构建具有开放性的AI应用架构是更具挑战性的一环。在谈及AI营销未来进化空间时，蒋杰不断提及希望能与企业展开更多合作，共同推动大模型基建的持续优化。

事实上，在平台方、技术供应商提供了通用大模型的基础能力后，需要不断引入行业经验加以调教才让大模型的能力更贴近应用的场景和具体需求；而打破围墙花园，构建开放网络，推动数据合作，才能让大模型进一步理解广告效果的全貌，从而给出更加科学的决策建议。

当然，这样的体系搭建并非一夕之功，大模型的训练与商业应用也必然是一场持久战，企业需要以长期主义思维进行持续的关注、学习与投入，也需要秉持技术的开放心态，共同应对AI时代的新挑战。

12 1 月 2024

人工智能如何应用于网红营销？有哪些打法和挑战？

自问世以来，ChatGPT凭借其卓越的自然语言处理和对话生成能力，无疑成为了当红的“流量话题”。

与此同时，ChatGPT的不断升级和网红经济的快速发展，也让人工智能在网红营销领域也逐渐受到关注和应用。品牌和营销机构纷纷将AI技术引入到他们的宣传策略和推广活动中，以期为企业带来更多的商业价值和市场竞争力。

那么，在网红营销领域AI能够协助出海品牌做哪些工作？它的局限是什么？

人工智能如何应用于网红营销？

1.发现和研究网红

对于出海品牌而言，他们在选择影响者时必须考虑许多指标：

粉丝数量
帖子收到的点赞和评论数量
帖子的类型
网红的背景
网红使用的社交媒体平台
网红的粉丝类型

而人工智能工具可以帮助品牌发现网红并在选择之前对其进行彻底研究，包括根据粉丝人口统计、兴趣、品牌亲和力等帮助识别相关影响者。它还可以检测假粉或假的互动数据，保护品牌免受欺诈性数据的侵害。

随着人工智能更有能力为品牌活动推荐最匹配的影响者，这种使用人工智能选择影响者的趋势将在未来变得更加主流。

2.与虚拟网红合作

随着名人和社交媒体影响者市场成本的不断增长，虚拟网红现在被视为具有成本效益的替代品，具有显着回报的潜力（如果想要知道虚拟网红为什么这么火，可以查看Inpander的另一篇文章《“假人”带货比真人强？虚拟网红的魅力在哪里？》）。

比如，像 Miquela 这样的虚拟影响者就比真正的影响者更加活跃。她积极与 Calvin Klein、Prada 和 Samsung 等品牌合作，甚至发行了自己的音乐并出现在杂志中。

未来，这些虚拟影响者的外观和交互性将变得更加普遍和真实。它们还将变得更加专业化和利基化，以满足特定社区的需求。

3.获取有关Hashtag的帮助

每个网红营销活动都使用相关的主题标签，这需要进行一些研究。

例如，除了品牌主题标签外，您可能还需要一些行业特定的Hashtag，而 ChatGPT 可以为您提供这些标签。它还可以提供相关的趋势标签列表，但要仔细检查它们以确保它们是合适的。

4.自动生成网红邀约文案

为了从网红营销活动中获得最大收益和降低成本，人工智能可以帮您解决自动文案模版以及与提高网红沟通的效率。

例如，您可以将其添加到时事通讯中或通过电子邮件将其作为网红沟通的信息模版。当您这样做时，可以要求ChatGPT为实时通讯或电子邮件写一段文案或者新闻。

不过，要注意的是，网红营销的吸引力在于它的真实性和独创性。因此，请不要在在网红的内容创意中使用机器生成的文案，这可能会削弱KOL的真实声音，变得千篇一律。

5.把控网红营销时间节点

在开展海外网红营销活动时，运营人员需要确定活动的开始和结束日期，查看指标和参与率，跟踪每个网红制作的内容，并将实际结果与初始目标进行比较。

使用AI工具，我们就可以将这些数据记录在案，并且利用AI强大的数据分析能力，改进活动方案，从而提升整个海外网红营销活动效果。

6.检查活动指标并评估ROI

由于每个营销活动包含的帖子数量众多，拥有多个营销活动的品牌可能会发现很难监控其营销活动的效果。此外，当品牌与多个网红合作时，跟踪每次合作的ROI变得很困难。

人工智能工具可以帮助品牌实时监控各个营销活动的表现。他们帮助社交媒体报道和分析。例如，Upfluence 可以帮助您实时衡量重要指标，例如覆盖范围、参与度、关注者增长、展示次数和转化率。

这些活动的监控将完全由人工智能监控，它不仅能够提供报告，还可以通过用更匹配的影响者替换特定的影响者来提供改善个别活动绩效的建议。

人工智能在网红营销中的局限

1.跨文化语境理解挑战

虽然ChatGPT在语言理解方面表现优秀，但在理解语境、情境、情感和社交线索方面与人类相比仍有差距，在处理跨文化、跨地区的语境时可能出现误解，导致生成内容无法满足目标受众的期望和习惯，从而影响用户体验。

2.创意与原创性受限

ChatGPT在创意生成过程中，可能因受训练数据影响而模仿现有创意或模式，导致生成内容缺乏新颖性。

3.数据安全隐患

ChatGPT在内容生成过程中，有可能无意中泄露相关敏感信息，引发隐私问题和法律风险。

4.过度依赖AI技术风险

营销人员若过分依赖ChatGPT等AI技术，可能导致忽视人类创造力和情感智慧等的重要性，从而影响营销活动的效果和可持续性。

毫无疑问，网红营销领域将迎来一场惊心动魄的旅程。这是一个不断发展的世界，新的策略和AI驱动的进展将塑造前方的道路。

但如果你的团队仍然觉得这对你们来说太过于繁琐，也可以聘请对本地文化、语言及发展趋势的专业人士或者营销机构来制作对应的网红营销推广策略和方案，比如说Inpander，我们提供丰富的红人资源渠道、定制化的解决方案以及从沟通、落地到数据复盘的全流程服务，如果您感兴趣，欢迎与我们联系~

12 1 月 2024

钉钉的AI Agent魔盒

笃信AI的人，都在等一个AI的“App Store”时刻。

这是因为，苹果公司凭借App Store，塑造了移动互联网时代的软件生态。到了AI时代，AI信徒们就开始急切盼望出现一个属于AI的App Store，来定型未来的AI生态。

去年OpenAI用GPT点燃了AI Agent这把火以后，人们纷纷猜测，AI Agent会不会就是开启“App Store”时刻的关键？因为AI Agent让未来AI的形态，变得比以往任何时候更加清晰。

2024年1月9日，钉钉推出AI Agent落地实例“AI超级助理”，宣布将在今年4月份上线AI助理市场AI Agent Store，同时邀请开发者加入到钉钉的“AI Agent Store”生态中，并立下了“3年1000万个AI超级助理”的flag，致力成为AI Agent孵化、分发和交易平台。

发布会上，钉钉还用“7亿用户联合抵制”的来电海报，Callback了去年宣布用户突破6亿后，全网用户齐刷“6亿用户全抵制”的梗。

这个“3年1000万”是什么概念呢？

2008年苹果App Store携带500款应用上线，截至2022年4月29日，苹果商店（中国区）APP数量131万款。也就是说，别人14年达成的应用数量，钉钉想在3年内达成，并且翻8倍。

这个flag是不是立的太草率了？到底是什么原因让钉钉的野心如此膨胀？

先瘦身让用户不那么讨厌钉钉

钉钉自己很清楚，打工人不喜欢钉钉。

用过ToB软件的人都知道，这类软件有一个共同特点：功能繁杂、界面不美观、操作体验差，而且体积通常都很大，看起来就让人觉得臃肿、繁琐。

在1月9日发布会现场展示的一段视频中，一位up主给钉钉算了一笔账：在钉钉首页可以直接点击的按钮就有32个，算上浮层、子菜单等，光首页就包含了近100个功能按钮。

钉钉作为一个ToB应用，走向臃肿是一个不可逆的过程。

但和纯ToB应用不同的是，钉钉同时也是一款ToC应用。也就是说，无论是B端还是C端用户，钉钉全想要，同时也意味着，钉钉团队要挨两端用户的骂，尤其是小学生的骂。

B端用户来说，永远都有增加新功能的需求；对C端用户来说，永远觉得钉钉功能太多了。但两端用户都有一个共识：那就是大部分功能用不到，需要用到的功能则经常找不到。

从三年前做深价值进入业务场景开始，钉钉就一直在投入大量产品经理，试图通过产品设计，让钉钉变得简单易用。从实际效果来看，吐槽钉钉难用的声音并没有减弱，100多个功能按钮，依然没办法精简到10个。

直到AI Agent的出现。

站在具体使用者的角度，我并不需要在一大堆功能按钮里找出对应的那一个，只需要对着一个“超级助理”，说出自己的任务即可，至于怎么找到对应的功能，让AI去想办法。

在AI助理的功能演示中，用户可以像对待真人助理一样，对AI提出任务需求，比如设置铃声、打开邮箱写邮件、签到、预订酒店机票等，AI助理会主动把对应的功能推到用户手边。

叶军表示，随着AI Agent的不断完善，用户终有一天将获得一个没有菜单的钉钉。

站在用户角度来看，这不就是瘦身成功了吗？

但，钉钉要做的，远不止如此。

AI“更喜欢”臃肿

AI能够达到今天的成就，关键在于大模型、大数据。

也就是说，一个产品能覆盖的场景越丰富，AI Agent的辅助能力就越强，在面对差异化用户需求时的响应速度就越快，产品带给用户的“臃肿”感就越弱。

在AI的加持下，前台用户只会感知到和自己当前项目相关的功能，其它功能被AI隐藏了起来，使得用户不再迷失于100个功能按钮的海洋中。

例如，AI超级助理在辅助内容创业者获取灵感、补全素材时，创作者不需要从头开始去训练AI Agent进行剧本创作、分镜脚本、拍摄计划等，AI会根据自己已“掌握”的视频创作场景的需求，为用户提供对应的服务。

AI超级助理也可以将冗长的文字、语音、视频内容中的关键信息提取出来，浓缩成简短的要点总结。

那么AI是如何识别出哪些内容是要点，哪些内容是铺垫呢？

当然是依靠大数据和丰富的应用场景。而大数据又进一步加快了AI进化的速度，使其可以突破固有场景的限制，渗透到更多新场景中。

如今，AI超级助理不光可以服务职业人士，还可以应用到家长和孩子的教育中。发布会现场演示了给孩子批改作文的操作，可以看到AI既可以识别手写内容，还可以给出分析和指导，并对错字错词以及优秀佳句进行标注和解读，告诉孩子错字错在哪里、佳句好在哪里。

如果你愿意，甚至可以让AI成为你的生活助理。

如今，钉钉走到了第九个年头。也就是说，九年里积累的大量数据和应用场景，都成为了现在AI的养料。这样一来，“臃肿”反而不再是负担，而是具备了成为“数字资产”的潜力。

如果钉钉的AI Agent仅仅是做到了这样的程度，那它顶多是一个让C端用户更好用的优化版而已。实际上，钉钉的野心，是创造一个全新的生态系统。

“敲一敲”能敲开AI Agent Store的野心吗

一个很严肃的产品发布会，却以一个很不严肃的小应用作为开场。

解压小应用“敲一敲”，功能类似“线上功德APP”，敲一下会冒出一个梗词，同时还会给用户积分，可以用来兑换奖品。

实际上，这个小应用承担的使命，很像当年微信的“跳一跳”小游戏。目的是告诉大家，钉钉将在4月份正式上线AI Agent Store，欢迎开发者入驻并发布更多应用。

通过这个有点搞笑的小应用，钉钉向开发者传递了一个信息，那就是现在的AI Agent Store，门槛低、宽容度高，只要开发者有创意，就可以向钉钉提交应用。毕竟，能比“敲一敲”开发成本更低、更无厘头的应用，确实也不多见。

这就是钉钉下一步最大的野心：打造“AI助理+AI Agent Store”的完整链路，让每个人都成为AI助理的创建者，甚至都可以从中赚取分成。

在叶军看来，AI Agent会成为新SaaS的主要形态。

以前，不同的应用场景下需要打开不同的SaaS产品和APP，而AI Agent可以让企业通过调用多项AI能力，批量完成业务流程、组织管理、知识库管理等操作，并且可以和外部系统进行自动化交互。

而随着社会的发展，社会分工越来越细化，原本的大协同、巨型ERP，被打散成一个个小协同、小功能，当前的“人找功能”的逻辑，将会在AI Agent影响下，变成“功能找人”。人机交互也会从图形界面（GUI），向自然语言界面（LUI）转变，届时功能菜单也会被AI助理所替代。

这就意味着，当需求和场景越来越碎片化，就需要有足够多的AI助理来应对，进而需要更多的AI助理创建者。

在钉钉AI Agent Store的逻辑中，一个人既可以是AI助理的使用者，让AI助理为自己服务；也可以将AI助理发布到AI Agent Store上，为更多人服务。于是，用户被黏在AI Agent Store中，成为钉钉生态的一部分。

用叶军的话说，“过去大家总说钉钉服务老板，现在每个人都可以是老板了。”

如今，钉钉用户数7亿，企业用户2500万，付费DAU为2800万，软件付费企业数12万，AI魔法棒企业用户超过70万，低代码应用超1000万，全代码应用数超100万。

未来，钉钉要成为低门槛、高频和开放的AI智能助理平台。

AI浪潮席卷之下的竞争，正在变得越来越激烈。钉钉能否实现今天立下的flag，甚至能否因此而真正开启AI Agent的“App Store”时刻？

让我们拭目以待吧。

12 1 月 2024

人工智能时代的领跑者：你必须了解的全球三大AI聊天机器人！

一些结论

2022年9月至2023年8月，前50大AI工具吸引了超过240亿次访问。

其中，ChatGPT以140亿次访问量领先，占分析流量的60%以上。

过去一年，AI行业每月平均访问量达20亿次，过去六个月内激增至33亿次。

分析的50个AI工具体验了10.7倍的增长率，平均每月增加2.363亿次访问。

ChatGPT、Character AI和Google Bard的净流量增长分别为18亿次、4.634亿次和6800万次。

Craiyon、MidJourney和Quillbot在此期间面临最大的流量下降。

美国贡献了55亿次访问量，占总流量的22.62%；而欧洲国家共计贡献了39亿次访问。

AI聊天机器人工具最受欢迎，占191亿次访问量。

超过63%的AI工具用户通过移动设备访问。

性别数据显示存在差异：男性用户占69.5%，而女性用户占30.5%。

No. 1 ChatGPT (总访问次数: 146亿次)

为什么是第一名？

ChatGPT自2022年11月30日推出以来，仅五天内就达到了100万用户,迅速成为历史上增长最快的消费软件应用之一。截至2024年1月，它已经吸引了超过1.8亿用户和1亿周活跃用户，超过92%的《财富》500强公司正在使用ChatGPT。ChatGPT基于大型语言模型（LLM），支持对话式交互，能够理解和生成与用户需求相关的回答。它的成功引发了其他产品的开发，如Google的Bard和Microsoft的Bing Chat（现已更名为Copilot）。

产品介绍

ChatGPT是由OpenAI开发的一款基于大型语言模型（LLM）的聊天机器人，于2022年11月30日发布。它基于GPT-3.5或GPT-4模型，这些模型属于OpenAI的生成预训练变换器（GPT）系列，采用了由Google开发的变换器架构。ChatGPT的设计目标是生成接近人类的文本，使得与用户的对话更加自然和流畅。由于其强大的自然语言处理能力，ChatGPT能够理解并回应广泛的语言输入，包括各种复杂或罕见的语言。它在互联网上的大量文本数据上接受了训练，使其能够回答各种复杂的问题，并提供相关的详细信息。此外，ChatGPT还具有一定的记忆能力，能够记住之前的对话内容，并在此基础上生成后续的回应。

ChatGPT不仅被广泛用于一般性对话，还被应用于特定行业和场景。例如，它可以用于客户服务，为用户提供快速准确的回答；在教育领域，它可以辅助教学和学习；在内容创作上，它可以帮助生成文章、诗歌或其他文本内容。此外，ChatGPT的应用也涉及编程助手、游戏设计、法律咨询等多个领域。

由于其强大的功能和广泛的应用场景，ChatGPT迅速吸引了大量用户的关注，并在短时间内成为最受欢迎的AI聊天机器人之一。

LLM模型

GPT-3.5和GPT-4。为了适应对话应用，ChatGPT经过了特定的微调，结合了监督学习和强化学习的方法来优化其性能。这使得ChatGPT不仅能够理解和回应用户的语言输入，还能够根据对话历史调整其回应，提供更为精准和相关的信息。

功能介绍

自然语言理解与生成：ChatGPT使用先进的自然语言处理技术，能够理解和生成自然、流畅的语言。这使得它能够有效地与用户进行对话，回答问题，甚至创作内容，如文章和诗歌。

上下文记忆：ChatGPT能够记住之前的对话内容，并在此基础上生成后续的回应。这种能力使得对话更加连贯和有意义，增强了用户体验。
多语言支持：虽然主要以英语为主，但ChatGPT也能够理解和回应多种语言，使其适用于全球不同语言的用户。
定制化和集成：ChatGPT提供了高度的定制化选项，使企业和开发者能够根据自己的需求调整其功能。此外，ChatGPT可以与不同的平台和应用程序集成，如网站、移动应用和社交媒体平台。
安全和隐私保护：ChatGPT使用先进的安全协议来保护敏感的用户信息，并通过审查API过滤查询，以防止产生冒犯性的结果，确保了内容的安全性和合适性。

是否免费

免费版：免费版本允许用户体验基于GPT-3.5的聊天机器人功能，适用于常规查询和对话。
ChatGPT Plus：这是一种高级订阅服务，每月收费20美元。订阅后，用户将享受到包括但不限于对最新的GPT-4模型的访问权限（目前为40条/3小时）、更快的响应速度、以及在高峰时段的优先访问权。
ChatGPT Team：2024年1月10日最新推出的针对团队用户和需要高级功能的用户，ChatGPT可能提供更定制化的服务，包括更高的GPT-4使用上限（经测试为100条/3小时），共享GPT等。具体详情请看下图。

插件

对于PLUS及以上的用户，支持插件和自定义GPTs。

客户端

支持网页端，iOS app及安卓app

No. 2 Character AI (总访问次数: 38亿次)

为什么是第二名？

Character AI是一个采用中性语言模型生成文本回应的人工智能聊天机器人网络应用程序，允许用户开发角色，并允许您与虚构人物、历史人物和名人进行对话。与其他AI聊天机器人（如ChatGPT）不同，Character AI的输出更像人类，并允许您同时与多个机器人聊天，提供不同的视角。Character AI由前谷歌AI开发者Noam Shazeer和Daniel De Freitas开发，于2022年9月发布了测试版。自发布以来，它已成为继ChatGPT之后最受欢迎的AI聊天机器人之一。

产品介绍

Character AI是一款由前谷歌AI开发者Noam Shazeer和Daniel De Freitas创造的人工智能聊天机器人应用程序。该平台使用中性语言模型，可以生成与人类对话类似的文本回应，它的独特之处在于允许用户创造自己的角色，并与这些虚构的、历史上的或名人角色进行互动对话。与其他AI聊天机器人相比，Character AI提供了更为生动的人类般的交流体验，并支持用户同时与多个机器人进行对话，从而获得不同的视角和体验。

Character AI的测试版于2022年9月发布，凭借其个性化的聊天体验和用户自定义角色的功能，迅速成为市场上最受欢迎的AI聊天机器人之一。用户不仅可以与现成的虚构或真实人物聊天，还可以创造并定制自己的虚构角色，从而开启独特的对话体验。这些角色可以基于书籍、电影角色，甚至是现实生活中的名人。

Character AI平台通过用户友好的系统，简化了角色的创建和个性化过程。用户可以为其角色指定名称、制定问候语，并上传头像图片，使角色在对话中易于识别并能被其他用户搜索到。此外，Character AI不断在训练过程中分析大量文本，以提升其预测句子中后续单词的能力，进而提供更加吸引人、类似人类的AI对话能力。

Character AI的用户可以通过一系列简化的步骤快速创建具有个性化名称、问候语、可见性和头像的角色。进阶定制选项还允许用户修改角色的个性、回应、语言、声音、外观和动画，为用户提供深度个性化的角色体验。此外，Character AI的动态聊天机器人网络应用程序也提供了与各种著名个性如Elon Musk和Pikachu等进行互动的独特功能。

Character AI平台不仅适用于娱乐和休闲，也为如排练公众演讲、学习新方言、提高谈判技能或参与沉浸式游戏体验等多种应用提供了解决方案。它还允许用户创造独特的AI人物，并与社区共享，从而在编写引人入胜的故事或提供与虚构人物的互动对话中发挥作用。这些AI角色在教育娱乐、客户支持和一般娱乐等多个领域被广泛使用，丰富了用户的互动和体验。

LLM模型

Character AI没有公开声明使用特定的大型语言模型（LLM）名称，它是由深度机器学习和大型语言模型驱动的，这些模型在对话能力方面进行了广泛的文本分析训练。根据其网站和公告，Character AI强调的是个性化和用户能够自定义角色，这意味着它们可能已经开发了自己的独特版本的语言模型以支持其平台。

功能介绍

角色自定义创建：用户可以设计和创建独特的AI角色，设定它们的个性、喜好、和不喜欢的事物，并选择它们的对话方式。这些角色可以基于真实人物、虚构人物，或完全是用户的原创。
与多个角色交互：Character AI提供了与多个AI角色同时交互的能力，这些角色可以是历史人物、虚构角色或名人，增加了对话的维度和趣味性。
个性化对话体验：平台上的每个角色都有独特的个性、行为和声音，用户可以与这些角色进行自然而流畅的对话，仿佛在与真人交流。
丰富的角色库：用户可以与一个多样化的角色名单进行互动，这些角色包括名人、虚构角色，甚至是著名的政治讽刺角色，提供了广泛的交流体验。
用户控制和隐私：Character AI重视用户的控制和隐私权，允许用户随时删除他们的角色和相关数据，确保了用户使用的自主性和数据的安全性。

是否免费

免费使用基础功能。Character AI+的订阅服务价格为每月9.99美元，其提供的特性可以总结如下：

优先访问 – 更短等待时间：Character AI+为订阅用户提供了优先访问的特权，意味着用户可以享受到更快的服务响应时间，不需要长时间等待即可与AI角色进行互动。
回应时间更短：订阅服务还包括了缩短AI回应用户问题的时间，提升了用户体验的流畅性。
拥有特权新功能：Character AI+用户还将享有特权新功能的访问权限，这可能包括一些尚未对所有用户开放的测试功能或新工具。
c.ai+ 社区访问：订阅者将有机会访问一个专属的社区，这个社区可能提供了更多的互动和讨论机会。
c.ai+ 全员文字符识读量：此项服务可能意味着订阅用户将获得更高的文本识别量，这可以在与AI角色进行更长的对话时非常有用。

No. 3 Google Bard (总访问次数: 2.42亿次)

为什么是第三名？

Google Bard作为谷歌推出的人工智能聊天机器人，尽管是一个新进入者，但凭借谷歌的技术实力和资源，迅速在AI领域占据了一席之地。与OpenAI的ChatGPT相比，Bard在信息检索和回应生成上提供了与谷歌生态系统的紧密集成，使其在提供帮助和实用信息方面具有独特优势。

产品介绍

Google Bard是谷歌推出的一款AI聊天机器人，以其最新的语言模型Gemini Pro为基础。Bard提供了一系列的对话式AI功能，可以帮助用户完成广泛的任务，从日程安排到获取实时数据，再到自动化客户支持。它通过无缝集成跨多个平台，并提供个性化的通信服务，使Bard成为无缝互动的虚拟助手。不仅如此，Bard还能够根据用户的提示生成新的内容，特别是在文本回应方面，能够以自然和对话的方式作出回应。

Bard背后的LLM模型训练于海量的文本和代码数据集，具备生成内容的功能，尤其是在应对用户提示时的文本回应。其多功能性使其能够回答问题、提供摘要以及通过处理网络上的信息来协助研究，并为进一步的探索提供相关链接。

与ChatGPT相似，Bard也通过不断的改进和优化，提供了基于对话的高级语言模型。然而，与其他AI系统不同，Bard可以访问互联网，以便在生成回应时包含相关的当前数据。这一功能使得Bard在提供帮助和实用信息方面具有独特优势。

LLM模型

Google Bard于2023年12月经历了一次重大升级，引入了谷歌的最新大型语言模型Gemini Pro。这个模型提升了Bard的功能，使其在多个行业标准基准测试中的表现超越了之前的模型和其他竞争对手的聊天机器人，包括在某些测试中超越了OpenAI的GPT-3.5模型。Gemini Pro是专为在不同任务上具有可伸缩性而设计，而Gemini Ultra则旨在处理最复杂的输入。

Bard搭载Gemini Pro能提供更高级的推理、规划和理解能力。在测试中，用户在盲测评价中更青睐于使用Bard搭载Gemini Pro，而不是其他免费的聊天机器人选项。谷歌也在开发一个名为Bard Advanced的新版本，它将使用Gemini Ultra，这是一个神经网络，被描述为谷歌构建的最先进的AI系统。Bard Advanced预计将能够理解和处理包括文本、图像、音频、视频和代码在内的各种类型的信息。

功能介绍

实时信息更新：Bard可以访问互联网，提供基于最新数据的回应，如股票价格或最新新闻头条。
人性化对话：通过自然语言处理，Bard能够理解上下文，适应不同的对话风格，并以对话方式回应，使得与其的交流更自然和直观。
集成谷歌应用和服务：Bard现在可以与谷歌应用和服务集成，以便在回应中提供更有用的信息。
跨平台体验：Bard可以在不同的平台和设备上使用，包括安卓和iOS设备。
隐私和控制：谷歌为用户提供了对Bard活动历史的完全控制，包括删除或自动删除活动记录的选项。

是否免费

目前免费使用。

插件

支持谷歌相关的应用插件。

客户端

支持网页端。

12 1 月 2024

Gartner发布2024年十大战略技术趋势！共同主题是AI

Gartner发布2024年企业机构需要探索的十大战略技术趋势。Gartner研究副总裁Bart Willemsen表示：“由于技术变革以及社会经济方面的不确定性，我们必须大胆采取行动并从战略上提高弹性，而不是采取临时措施。IT领导者的地位特殊，他们可以制定通过技术投资帮助企业在这些不确定性和压力下保持成功的战略规划。”

Gartner杰出研究副总裁兼研究团队负责人Chris Howard表示：“IT领导者和其他高管必须评估战略技术趋势的影响与益处，但由于技术创新的速度日益加快，这并非易事。例如生成式AI和其他类型的AI虽然带来了新的机遇并推动了若干趋势的发展，但要想通过长期使用AI获得业务价值，还需要采取严谨的方法广泛采用AI并注意风险。”

2024年重要战略趋势包括：

全民化的生成式AI（Democratized Generative AI）

经过大规模预训练的模型、云计算与开源的融合正在推动生成式人工智能（生成式AI）的全民化，使这些模型能够被全球工作者所用。到 2026 年，Gartner预测超过80%的企业将使用生成式AI的API或模型，或在生产环境中部署支持生成式AI的应用，而在2023年初这一比例不到5%。

生成式AI应用可以让企业用户访问并使用大量内部和外部信息源，这意味着生成式AI的快速采用将极大地促进企业知识和技能的全民化。大型语言模型使企业能够通过丰富的语义理解，以对话的形式将员工与知识相连接。

AI信任、风险和安全管理（AI Trust, Risk and Security Management）

AI的全民化使得对AI信任、风险和安全管理（TRiSM）的需求变得更加迫切和明确。在没有护栏的情况下，AI模型可能会迅速产生脱离控制的多重负面效应，抵消AI所带来的一切正面绩效和社会收益。AI TRiSM提供用于模型运维（ModelOps）、主动数据保护、AI特定安全、模型监控（包括对数据漂移、模型漂移和/或意外结果的监控）以及第三方模型和应用输入与输出风险控制的工具。

Gartner预测，到2026年，采用AI TRiSM控制措施的企业将通过筛除多达80%的错误和非法信息来提高决策的准确性。

AI增强开发（AI-Augmented Development）

AI增强开发指使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试。AI辅助软件工程提高了开发人员的生产力，使开发团队能够满足业务运营对软件日益增长的需求。这些融入了AI的开发工具能够减少软件工程师编写代码的时间，使他们有更多的时间开展更具战略意义的活动，比如设计和组合具有吸引力的业务应用等。

智能应用（Intelligent Applications）

Gartner将智能应用中的“智能”定义为自主做出适当响应的习得性适应能力。在许多用例中，这种智能被用于更好地增强工作或提高工作的自动化程度。作为一种基础能力，应用中的智能包含各种基于AI的服务，如机器学习、向量存储和连接数据等。因此，智能应用能够提供不断适应用户的体验。

目前已存在对智能应用的明确需求。在2023年Gartner首席执行官（CEO）和业务高管调查中，26%的CEO认为对企业机构破坏力最大的风险是人才短缺。吸引和留住人才是CEO在人力资源方面的首要任务，而AI被认为是未来三年对他们所在行业影响最大的技术。

增强型互联员工队伍（Augmented-Connected Workforce）

增强型互联员工队伍（ACWF）是一种优化员工价值的战略。加速并扩大人才规模的需求推动了ACWF的发展趋势。ACWF使用智能应用和员工队伍分析提供助力员工队伍体验、福祉和自身技能发展的日常环境与指导。同时，ACWF还能为关键的利益相关方带来业务成果和积极影响。

到 2027年底，25%的首席信息官（CIO）将使用增强型互联员工队伍计划将关键岗位的胜任时间缩短50%。

持续威胁暴露管理（Continuous Threat Exposure Management）

持续威胁暴露管理（CTEM）是一种使企业机构能够持续而统一地评估企业数字与物理资产可访问性、暴露情况和可利用性的务实系统性方法。根据威胁载体或业务项目（而非基础设施组件）调整CTEM评估和修复范围不仅能发现漏洞，还能发现无法修补的威胁。

Gartner 预测，到2026年，根据 CTEM 计划确定安全投资优先级别的企业机构将减少三分之二的漏洞。

机器客户（Machine Customers）

机器客户（也被称为“客户机器人”）是一种可以自主协商并购买商品和服务以换取报酬的非人类经济行为体。到2028年，将有150亿台联网产品具备成为客户的潜力，这一数字还将在之后的几年增加数十亿。到2030年，该增长趋势将带来数万亿美元的收入，其重要性最终将超过数字商务的出现。在战略上应考虑为这些算法和设备提供便利乃至创造新型客户机器人的机会等。

可持续技术（Sustainable Technology）

可持续技术是一个数字解决方案框架，其用途是实现能够支持长期生态平衡与人权的环境、社会和治理（ESG）成果。AI、加密货币、物联网、云计算等技术的使用正在引发人们对相关能源消耗与环境影响的关注。因此，提高使用IT时的效率、循环性与可持续性变得更加重要。事实上，Gartner 预测，到 2027 年，25% CIO的个人薪酬将与他们对可持续技术的影响挂钩。

平台工程（Platform Engineering）

平台工程是构建和运营自助式内部开发平台的一门学科。每个平台都是一个由专门的产品团队创建和维护并通过与工具和流程对接来支持用户需求的层。平台工程的目标是优化生产力和用户体验并加快业务价值的实现。

行业云平台（Industry Cloud Platforms）

Gartner 预测，到2027年，将有超过70%的企业使用行业云平台（ICP）加速其业务计划，而2023年的这一比例还不到15%。ICP通过可组合功能将底层 SaaS、PaaS 和 IaaS 服务整合成全套产品，推动与行业相关的业务成果。这些功能通常包括行业数据编织、打包业务功能库、组合工具和其他平台创新功能。ICP是专为特定行业量身定制的云方案，可进一步满足企业机构的需求。

12 1 月 2024

一文盘点2023年度最热AI应用，打工人必备！建议收藏（内附工具汇总文档）

2023年，是AI行业的一个分水岭。
这一年，我们见证了AI技术的跃进式发展。
从深度学习到自然语言处理，从图像生成到视频生成，从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星，不仅重塑了人们的生活方式，也重新定义了未来的商业图景。
正如约翰·卡尔金所说：“我们塑造我们的工具，然后我们的工具塑造我们。”

通过梳理和盘点过去一年AI领域颇受关注的热门工具，希望能帮助各位更好地回顾AI技术的突破与最新进展，预见它们将如何继续影响我们的世界。
我们参考估值、影响力、用户评价等维度，选取了几大常见领域一些具有代表性的AI产品，梳理了其迭代历程、最新性能等，每个类别都有其独特的技术特点和应用场景。

一、海外版

二、国内

12 1 月 2024

如何使用AI来优化组织结构？

人工智能（AI）正引领着组织变革，它提供了崭新的机会，重新定义未来工作和劳动力，而不仅仅是优化过去所做的一切。

这需要我们以全新的方式思考组织如何处理战略、领导力、人才、文化、组织设计等，也就是组织健康的所有要素。

亚马逊、谷歌和脸书是 AI 优先的例子，它们快速地实现了规模化，并成功管理了快节奏的增长。它们减少了对“硬资产”( 如机器或设施 ) 的依赖转而专注于组织健康的关键无形资产，并利用 AI充分发挥其潜在的影响力随着过去几年 AI的迅速普及，这些公司已经为适应 AI 世界重塑了他们的人才和组织实践。

例如，将 AI学习算法应用于匹配潜在员工与空缺职位，使招聘人员能够更快地筛选申请并填补职位空缺。

2017 年3 月，字母表公司和谷歌的 CEO 孙达尔·皮柴( Sundar Pichai宣布公司正在转变为 AI优先的组织。随后，该公司发布了一系列 AI 应用的场景，包括开发用于优化机器学习的专用芯片、更广泛地使用基于人工神经网络的机器学习方法( 深度学习 )，例如癌症研究，还包括在尽可能多的设备上安装谷歌的 AI驱动助手。皮柴表示公司正在从“搜索和组织世界信息转向 AI和机器学习”。该宣告是公司愿景的战略性转变。同月，微软也宣布其打算从“移动优先”和“云优先”转变为“AI 优先”。

未来我们将见证机器在多项任务上，以更具成本效益的方式超越人类。使用 AI 来优化组织结构是一种新兴的方法，它可以帮助企业更好地适应市场变化、提高运营效率、促进员工发展，并提升企业的整体竞争力。

盛宝银行案例——基于 AI的信息检索、预测分析及个性化营销

2016年，时任瑞士盛宝银行( Saxo Bank )CEO的帕特里克·亨格( PatrickHunger)领导该银行进行了技术改革。盛宝银行不仅着手采用机器人流程自动化( Robotic Process Automation，RPA )来提高效率，解放人类去创造更大的附加值，还开发了各类 AI和机器学习项目来创造新的价值。这项工作主要聚焦三个关键领域:基于 AI的信息检索、预测分析及个性化营销。总体来说，该银行将这些举措称为“机器人技术”。

但亨格也意识到，银行数字化计划的成功将取决于一些关键原则——

1、自上而下

领导者需要精通机器人技术，这样他们才能创造令人信服的机器人技术愿景和引领这趟旅程，并阐明其对企业战略的重要性。换句话说，领导者必须授权机器人技术引领者，让他们成为日常工作中的变革推动者。

2、打破组织壁垒

许多公司在自己的业务和IT 团队之间制造了文化鸿沟。但是，机器人技术要求这些团队尽可能紧密地合作，以确保它们跟上并加快业务发展的步伐。正如亨格所认为的那样，“公司的组织设计得多聪明并不那么重要。创造组织思维共识和价值的是人际交易；所有这些都以一个扎根于文化的集体商业目标为指导。”盛宝银行当时的数据主管帕布·文卡特斯 ( Prabhu Venkatesh ) 进一步强调了这一点，并解释说:

“我们有一个双向协作模型，技术和业务团队可以自由交流想法和信息。技术团队知道什么是可能实现的，而业务团队知道什么是有用的——神奇的产品就诞生在这个交叉点上。”IT 团队和业务团队作为公司的两个平等团队，要确保持续的对话和明确的协调，这是为打破部门孤岛所做出的至关重要的努力，因而机器学习和 AI 开发团队被设计为业务组织的一个组成部分，以弥合鸿沟。盛宝银行大数据和 AI 主管克里斯蒂安·巴斯克·黑达尔 ( Christian Busk Hededal) 解释说:“我们的目标是成为一个数据驱动的组织，让技术和业务之间紧密结合。”

3、将数据展示给广泛的利益相关方

帕布·文卡特斯指出，机器人技术的一个重要能力就是将数据和关键绩效指标展示给更广泛的利益相关方群体。换句话说，即在帮助每一位员工在决策中变得更加以数据为导向的同时，牢记大局。

这不仅仅是一组宣言，更是实践的原则。听起来似乎无关紧要，但公开透明地展示执行数据会在不同团队之间制造共识，让每个人了解公司正在发生的事情，以及大家的工作会如何影响公司的业绩。

在无形中产生的积极影响是创造了一种结果导向的文化，在这种文化中，人们会主动对可见的问题采取行动，而不是依赖流程去解决问题。建立机器人技术变革引擎。通过建立强大的治理体系，盛宝银行的领导者可以根据预期的商业价值更有效地推动机器人解决方案的落地，并不断研究使企业从机器人技术中受益的新方法。这需要挑战现状，克服因机器人技术而变得过时的组织和流程障碍。最后，盛宝银行需要为运营经理提供实用的方法和工具，以便日常管理由人和机器组成的混合劳动力。盛宝银行制订了一项计划，来缓解管理人员和员工在应对任何变化时所产生的焦虑情绪: 在早期就与人力资源部门密切合作，就人力资源的重新部署提供建议。

4、确保人机融合

领导者的角色是有意识地将组织设计为一个通过包容而不是隔离来充分发挥潜力的有机体。对盛宝银行来说，人机协作意义重大，它不仅仅是当下流行的说辞，更是一套逻辑体系。在该体系之下,创新和业绩在人机生态系统中最能蓬勃发展。帕特里克·亨格指出:“当我们说我们本质上是一家科技公司时，我们的意思是科技是将人类技能付诸实践的主要工具。科技增强了我们的组织能力，让其不再受限于企业规模。”虽然有些人将数字化手段 ( 尤其是 AI) 视为机器与人类之间的矛盾“，但其他人则认为科技以前所未有的方式帮助我们展现了人性。这是一种提升组织健康的工具。这种以智能运营模型为核心的组织，将成为公司内提升个人和团队绩效的中流砥柱，使人机协作的新方法得以生根发芽。因此，组织进化的最大机会不仅仅是重新设计工作或部署自动化工具，还有从根本上重新思考“智能运营模型的架构”，为企业团队和个人创造新的价值来源。

此外，在疫情期间，随着数字化客户体验建设的深入，盛宝银行基于 AI工具的全部价值变得更加清晰，在释放人类潜力方面尤为明显。由于消费者待在家里，或至少远离实体银行分支机构，该银行基于 AI的工具帮助员工以他们意想不到的方式预测和满足快速变化的客户需求和偏好。最终，该银行的员工变得善于学习、不断努力，这也意味着银行能够以更快、更敏捷和更准确的方式做出响应。它可以全年、全天候地不断学习、扩张和运营。

AI 优先的真正含义是什么?

AI 优先不仅是利用分析( 或决策 )的力量来加强人机协作，它更是基于 AI重塑未来组织，防止 AI 只被用作优化组织的工具。换句话说，这不仅是为了更好、更便宜或更快地做同样的事情，也是为了开展新的活动，创造更多价值。

当前全球的数字经济( 有时被称为“互联网经济”)比历史上其他任何时期都更需要组织的一致性、敏捷性和智能化。组织需要将 AI嵌入组织运作的各个方面，使其成为组织 DNA 的一部分，以便有效释放公司的全部潜力。在早些年或不那么动荡的商业环境中，CEO 或高层管理团队可能单独负责开发组织的全部潜力。然而，如今，组织的基本要素必须协调一致，作为一个整体同步行动。

一项研究显示，众多不同的组织认为，在采用 AI 的主要障碍中，近一半与组织健康相关（见图 9-1 ）。该研究发表在《麻省理工学院斯隆管理评论》上，将受访者分成四个类型：先驱者（了解并采用 AI 的组织）、调查者（了解 AI 但未完成试点的组织）、实验者（在没有深入了解技术的情况下，试验 AI 的组织）和被动者（不了解也没有采用 AI 的组织）。

公司如何能清除障碍并成功挖掘 AI的价值?

根据麻省理工学院的研究成果，我认为可以总结为对组织健康的四个特定要素的高度聚焦。具体来说，成功采用 AI和其他数字技术的公司在以下四个维度表现出色，我把它们看作四项投资。

1、对战略和决策的投资

麦肯锡的一项研究表明，大多数受访者表示他们的公司已经从 AI 中获得了价值，与其他公司相比，规模更大、收入更高、成本更低。这并非运气使然，公司制定业务战略、实施战略的能力和在应用 AI过程中的变革管理，共同影响了变革实现的程度。那些在普及 AI 方面取得更大成功的公司更有可能有一组关键动作，包括协调AI和业务战略，而每六种关键动作中有五种与组织健康相关。更倾向于有效使用 AI 的公司更容易在全公司普及 AI、实现商业价值。在另一项研究中，来自高绩效公司的 36% 的受访者表示，他们的一线员工会使用AI提供的实时反馈来做日常决策，而其他公司中只有 8% 的受访者会这样做。

2、对组织和工作设计的投资

麦肯锡的研究发现，近 90% 成功普及 AI的公司将超过一半的分析预算用于推动对 AI 的采用，例如工作流程重新设计、沟通和培训;其他公司中只有 23% 倾注了类似的资源。1 在普及 AI方面做得最好的公司在变革和推动采用 AI的项目 ( 工作流程重新设计、沟通、培训 ) 上花费的资金或预算与它们在技术本身上花费的一样多。

3、对人才的投资

麦肯锡的研究发现，成功在组织内部采用 AI的公司在人才和流程方面的投资与在技术方面的一样多。一项对 1 000 家公司的调查发现，只有 8%的受访公司参与了此类实践，使得 AI的普及得以实现。13 无数研究呼应了这些发现。《麻省理工学院斯隆管理评论》和德勤数字 (Deloitte Digital) 在《科技谬论: 人如何成为数字化转型的真正关键》( The Technology Fallacy: How People Are the Real Key toDigital Transformation) 一书中发表的联合研究提供了令人信服的证据表明数字成熟度更多地与人和组织变革有关，而不是与其所使用的特定技术有关。

4、对风险缓解和认知提升的投资

公司处理风险的方式( 即质量保证审计或合规培训 ) 在很大程度上决定了权责。同样，组织学习的方式 ( 通过使用知识和协作平台 ) 通常定义了公司文化。采用 AI确实存在很大的风险，因为 AI 通常以大量数据 ( 例如搜索习惯或视频通话记录小时数为基础，滥用这些数据是非法的。因此，没有任何公司愿意冒险在未经允许、未向员工全面说明数据用途的情况下，收集和使用数据。根据欧盟通用数据保护条例 ( General Data Protection Regulation，GDPR)，在违反条例的情况下，罚款最高可达 2 000 万欧元，或公司主体在全球营业额的 4%。违规或滥用的潜在司法成本可能超过成交价格，如果发现问题，公司估值将会降低，因为应对 GDPR 监管的成本很高。因此，交易团队必须仔细审查采用 AI 技术是否合规或是否存在重大责任风险。同样，CEO 和董事会必须建立治理和监督机构，以确保公司负责任地采用AI。

总之，人工智能（AI）正引领着组织变革时刻已经到来，生成式AI和大模型所展现出来的强大能力，正在改变游戏规则和加速颠覆旧有模式。

面向未来，AI 依然面临着种种挑战，值得大模型公司、数据分析企业和用户们持续去探索。

11 1 月 2024

1400元巴掌大小AI硬件，首日卖光1万台！吕骋归来：要干翻所有App

原创关注前沿科技量子位

不出所料，果然有AI硬件炸场CES 2024！

这款AI掌机名叫Rabbit R1，誓要干掉App应用（There is no need for an app for that）。

预售价199美元（约1425元），具体长相嘛，就像下面这样：

据了解，Rabbit宣布R1在3月才会开始发货，然而消息传出，不到24小时，这家伙就火速卖出了10000台。

无论是售价、首批火爆程度，还是使用便捷度（无需订阅），R1看起来都比前段时间刷屏的另一款AI硬件——AI Pin有那么一点优势。

也难怪Rabbit公司的创始人兼CEO Jesse Lyu公开表示，自家产品或许有希望能在市场上击败AI Pin（手动狗头）。

网友们也纷纷表示对二款AI硬件的个人看法，好不热闹：

不过据了解，虽然R1具备视频通话和SIM卡插槽等功能，但“R1并非想要取代智能手机”。

更令人瞩目的地方在于，R1内置了一个Rabbit公司开发的“全新的基于AI的系统”，RabbitOS。

对此，这家公司表示：

希望R1成为用户与智能手机（无论是iPhone还是其他设备）之间的中介。
希望利用AI来改变用户与应用程序的交互方式。

还有一个特别的点在于，这家公司背后的创始人，是华人Jesse Lyu，也就是前渡鸦公司创始人。

实不相瞒，好奇心已经被勾起来了，这AI掌机到底有啥不一样？

一起来看——

Rabbit R1有些啥亮点？

当今时代，颜值先行，来展开看看Rabbit R1的外观。

R1通体亮橙色，其重量约为115克，正面有一块2.88英寸的触摸显示屏。

屏幕右侧上方，是一颗能够360° 旋转的AI摄像头。

摄像头下面是操作滚轮，侧边对应着圆形按键。滚轮用来选择、导览，而按键则是一键唤醒语音助手的快捷键。

据介绍，R1还配备了麦克风、扬声器，可以说是麻雀虽小五脏俱全。

了解了其外观，再看看内置，包括2.3GHz MediaTek处理器、4GB内存和128GB存储空间，并且支持蓝牙和 Wi-Fi。

官方宣称，R1电池续航时间为“全天”

最重点的来了！——R1搭载的是你从未见过的全新操作系统，Rabbit OS。

Rabbit OS采用底层AI技术，但用上的不是类ChatGPT的大语言模型技术，而是基于“大型动作模型（Large Action Model，LAM）”打造。

大型动作模型脱胎于大语言模型，但更强调“行为”。实际展示来看，大型动作模型和大语言模型能实现的功能看起来相差不多，用户也能通过大型动作模型用自然语言和R1进行对话。

在听到人类自然语言发出的指令后，Rabbit OS能理解人的复杂意图，然后帮人操作App完成任务。

而且，用嘴巴问就行了，不用费劲选择具体该使用什么App。

比如按下侧边按键，500毫秒就能唤醒对话系统，“问任何想问的问题”，然后得到语音回答，并且是配备字幕的那种：

现场还通过查询可口可乐公司的股价，演示了R1带有的联网功能：

用它拍下冰箱里的食材，让它提供一份低卡食谱。

R1沉思一会儿说：“不如来份绿色田园蛋包饭。”

官方介绍，R1兼容现有的所有应用程序，用户无需抛弃已有的任何数据。

听到这里，想必你也能理解为什么R1的愿景是要颠覆App了。

这不就是想要用AI操作系统，替代现在用户和手机App的手动触控交互嘛！

不过Rabbit公司创始人兼CEO说了，R1并不期待代替智能手机，从他的发言里可以看到R1目前的定位：

是一款漂亮的配件，同时也是未来的一体化设备。

Rabbit及其创始人Jesse Lyu

其实产品亮相之前，Rabbit就在科技圈和创投圈小有名气。

原因有三，即投融资情况、技术展示和创始人背景。

第一，去年年底，这家公司在2个月内公布自己获得了3笔融资。

投资方包括“全球技术领域”投资之王”科斯拉（Vinod Khosla，也是OpenAI首位风险投资人），以及韩国互联网巨头Kakao。

3轮融资总额为3000万美元。

第二，同样在去年，Rabbit曾经发布过一个叫Quantum Engine的玩意儿。

利用Quantum Engine，用户可以上传剧本，然后AI会实时生成剧情，让用户选择角色与NPC进行自由互动——而语音是用户和AI实时互动的具体方式。

网友们用它扮演《黑客帝国》和《甄嬛传》里的角色，效果很好，迅速出圈。

第三点，Rabbit背后的创始人Jesse Lyu吕骋，是位AI领域的华人连续创业者。

吕骋，毕业于西交利物浦大学和英国利物浦大学，学习的专业是金融数学。

大三时，他就创立了社交工具Timeet，旨在通过匹配日程找到共同空余时间，从而发起和组织活动。

2014年，吕骋大学毕业，创立了渡鸦科技。

主要产品有可以使用语音来访问移动应用程序的软件Flow、与AI相结合的交互系统Project Flow，用Flow中“听音乐”模块制作的音乐播放器乐流MusicFlow，以及渡鸦音箱、Raven H-1等硬件。

2017年2月，百度宣布全资收购渡鸦，吕骋携团队被收入百度麾下，自己出任百度智能家居硬件总经理。

一年多后，2018年6月，吕骋从百度离职。

离开百度后的吕骋来到美国，再次创业，成立了以AI为中心的公司Cyber Manufacture Co.，也就是今天Rabbit的前身。

One More Thing

无独有偶，同一天，另一家做AI硬件的公司跳出来了，并且是开源版。

苹果前AR原型机设计师Bart Trzynadlowski在推特上激情发声，大喊“不要别人来把你的生活产品化！”

该公司启动了一个完全开源的项目，提供开源模型和价格亲民的可穿戴硬件，开发者可以用这两样东西做出属于自己的AI硬件。

并且可以是任何外型，比如项链、别针等等，还能和Apple Watch等其他硬件适配。

据悉，关于这个开源版AI硬件的更多消息，包括GitHub仓库，都会在下周释放出来～

11 1 月 2024

让每个企业都能用上AI !

1亿用户，TikTok用了9个月，Instagram则用了两年半。

快速的用户增长与ChatGPT所展现出优秀的文本生成、语言问答、语言翻译、编程、绘画等能力息息相关。

曾经颇具科幻感的人工智能，在大模型的支撑下，正一步步成为现实。

在ChatGPT之后，百度、阿里、华为、腾讯、字节跳动、科大讯飞、商汤、中科院、清华、复旦等大厂或高校院所纷纷入局发布大模型。截止2023年10月，我国拥有10亿参数规模以上大模型的厂商及高校院所共计254家，分布于20余个省市/地区^[1]。

在各方刺激下，大模型市场持续火热，企业对于大模型应用的关注水涨船高，AI领域独特的商业模式MaaS也渐渐成为企业关注的重点。

01 点亮大模型

MaaS是继IaaS、SaaS、PaaS之后，又一个基于云计算的商业模式。

顾名思义，MaaS（Model as a Service模型即服务）是一种将AI大模型作为可服务化的产品提供给用户使用的商业模式。其业务核心是“模型-单点工具-应用场景”，即提供预先训练好的大模型，通过简单的接口、应用程序编程接口（API）或软件开发工具包（SDKs）让用户能够方便地访问大模型的功能。它不对用户设限，用户无需关注底层基础设施，也不需要深入的人工智能知识，不管是AI开发者还是普通人，都能依靠MaaS快速点亮大模型的“科技树”。

MaaS的出现解决了大模型研发与落地的难题。

在传统机器学习模型的开发中，模型的研发和落地往往是两个分离的过程。

在研发阶段，通常会需要大量的数据和计算资源来训练模型、调整模型参数等。在这期间，消耗的金钱难以预估，加上时间和人力的成本，令人望而却步。更别提在大模型出现之后，“大数据+大算力+强算法”的优势带来了对算力、数据、人才的更高要求。据悉，仅研发阶段，训练大模型的基础设施投入都是以“亿美元”为单位计算。

但纵使突破各种困难训练出大模型，也不意味着能够顺利将其部署到实际应用场景中——除了要面对运维、资源管理、服务配置等硬件难题外，还需要面对由于缺乏相关专业知识和数据使大模型无法完全发挥潜力的问题。

而MaaS模式的出现令这些问题迎刃而解，并将大模型应用和推广提上了日程。

一方面，用户可以直接调用大模型，不必关注大模型的成本问题，只需上传自身应用场景下的数据进行微调，就能让大模型为业务赋能；另一方面，大模型可以吸纳更多领域的专业知识和实时数据，从而提升预测和决策的准确性，不断进行迭代和优化，以便落实到更细分的场景中去，解决实际场景下的问题。

MaaS降低了大模型的使用门槛，对于用户和大模型企业来说，可谓是“双赢”的选择。

目前，MaaS的服务主要包括以下几个方面：

模型训练服务：这是MaaS最核心的服务，包括数据预处理、模型训练、调参等环节。MaaS可以提供一个可视化的界面来帮助用户上传数据、选择算法和超参数、运行实验等。
模型部署服务：MaaS提供了一系列的API接口，使得用户可以方便地与模型进行交互，并将训练好的模型部署到生产环境中。
模型管理：MaaS可以跟踪模型的响应时间、错误率、资源使用情况等指标，并向用户发送报警通知。同时，也提供了一些分析工具，如可视化的数据报表，以帮助用户更好地理解模型的性能。

02 MaaS的初心
其实，在人工智能领域，服务化的概念一直存在。在大模型声名鹊起之前，“MaaS”的“M”代表Machine Learning（机器学习）。
2017年，谷歌推出了Google Cloud Machine Learning Engine，帮助具有机器学习专业知识的开发人员轻松构建适用于任何类型、任何规模数据的机器学习模型。亚马逊发布的全面机器学习平台服务Amazon SageMaker，提供了端到端的机器学习工作流程，包括数据准备、模型构建、训练部署和管理等功能。除此之外，IBM Waston Machine Learning、微软Azure Machine Learning也是有名的“MaaS”服务平台。
让每个企业都用上AI，成为MaaS模式的初心。
随着人工智能领域的快速发展，大模型（Model）作为机器学习技术的前沿，代替了机器学习（Machine Learning），成为“M”新的含义，但其初心从未动摇。
工具只有落到实处才能体现其价值，大模型亦是如此。

03入局者众
随着大模型的火热，有关MaaS的竞争才刚刚开始。目前，入局MaaS领域的厂商都颇具分量。
例如，商汤推出的SenseCore商汤AI大装置由模型层、深度学习平台和计算基础设施三个部分架构而成，其中，深度学习平台是集大规模AI算力管理、专业的AI工具链、开放式AI算法与一体的工业级AI生产开放平台，帮助用户实现从数据标注，算法设计，到模型训练、部署的全链路、批量化过程。依托人工智能基础设施算力云服务提供云原生AI基础设施、AI开发平台、AI专家服务三位一体的解决方案。有效加速人工智能规模化落地，降低算法模型的生产成本和技术门槛。

商汤SenseCore云服务方案架构
阿里云通义大模型家族已推出“通义千问”、“通义听悟”和“通义万相”三个大模型，打通了语言、音视频生产和绘画创作三大重要场景，并将旗下产品如钉钉等全面接入，完成了大模型在应用端的落地。2022年，阿里云同时建立了ModelScope社区（魔搭社区），汇集开源开放的优质预训练模型，并提供了API调用模型，极大地方便了用户的使用。同时，基于此阿里云推出了大模型调用工具ModelScopeGPT（魔搭GPT），用户可以一键发送指令调用魔搭社区中其他的人工智能模型，从而实现大小模型的共同协作。此举能进一步促进AI大模型在各行各业的落地问题。
腾讯云推出了基于TI平台的行业大模型精调解决方案，该解决方案具备完整大模型精调工具链，支持用户加入自己独有的业务场景数据，进行精调训练，从而定制不同参数、不同规格的专属模型。目前，腾讯云已经推出了十余个行业超50个行业大模型应用解决方案，如金融、文旅、政务、传媒等，对企业智能化升级更具推动作用。

腾讯云MaaS
百度智能云发布了千帆大模型平台，并在后续升级中宣布全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT等国内外33个大模型，满足不同的用户在不同应用场景上的选择。目前，用户可以直接登录千帆大模型平台操作台，直接调用、部署相关服务，也可以搭配使用不同的大模型，实现大模型的落地。
如今，MaaS已经成为人工智能领域备受瞩目的发展方向之一，依靠MaaS大模型的触角将延伸到更远更细节的地方。
进入2024年，大模型市场正褪去狂热转向冷静。这意味着，受市场风潮裹挟的日子已经过去，一众入局者将利用MaaS更加理性地推动符合实际情况、可持续发展的大模型应用，以实现更大的商业价值。

4.正在路上的MaaS
数据显示，2023年MaaS的市场规模将达到261.5亿元，占中国云服务市场的10.3%^[2]，在“每个企业都能用上AI”的美好愿景支持下，MaaS具有极大的商业发展前景。
不过，在热潮之下，MaaS仍有很长的一段路要走。
首当其冲的是数据隐私和安全性的问题。作为新时代的生产要素之一，数据的重要程度不言而喻，而在大模型的微调和训练中会涉及大量的数据传输和处理。保障数据隐私、传输安全，以及合规地使用数据和存储将是MaaS需要持续关注的重点。此外，跨境数据传输、知识产权保护等问题也应被纳入考虑范围。
其次，MaaS平台中的各类大模型是其发展壮大的核心，在接入更多大模型的同时，也要对模型进行严格的评估和测试，以保证模型的高质量和稳定性。
除此之外，如何在卷算力、卷技术、卷服务的同时还能降低运营成本也是MaaS所要面对的现实问题。
归根结底，作为大模型产业商业化的重要一环，MaaS在人工智能技术的发展和商业应用方面都具有重要的意义。未来，随着人工智能技术的不断发展和普及，MaaS将会变得更加成熟和完善，为企业带来更多的便利和创新。
写在最后

俗话说得好，众人拾柴火焰高。
MaaS是众人摘取人工智能这朵高岭之花的途径。随着MaaS不断发展成熟，使用人工智能的门槛将会越来越低，人工智能的应用范围和深度将会不断扩宽挖深，进一步推动人工智能场景创新，促进其更高水平的应用。
未来，让我们一起期待着每个企业都能使用AI的智能时代到来。

11 1 月 2024

全球热门 AI 排行榜出炉！看看你用过几个？

刚刚过去的 2023 年，可以说是 AI 元年。

随着技术的飞速发展，AI 行业在这一年再次迎来了爆炸式的增长。

近日，Writerbuddy 研究了 3000 多个 AI 的数据，出具了一份行业报告：该报告细致地盘点了全球 50 大热门 AI 工具。

让无敌来带大家看看，在这百模大战的一年后，都有哪些 AI 成功杀出重围吧！

02、创意成为生产力，想到就能赚到

对于这场由大模型掀起的智能技术革命，我们今天仍然不能确切地知道它会把我们最终引向何方。然而我们可以确定的是，一场生产力的革命正在发生。

从人类进入工业社会以来，一个不可逆转的趋势是世界的分工逐渐变得越来越精细化。推动这个趋势发生的是两个方面的力量。一是因为分工可以大幅提升效率，带来更多的产出。二是因为随着社会的发展，这个世界运行的逻辑愈加复杂，客观上造成一个人再努力也只能理解它的一小部分，在极其有限的范围内发挥极其有限的作用。

然而，虽然这种分工机制在客观上是必要的，但同时也带来了一个棘手的问题：绝大部分事业不只需要个人的智慧和努力，更需要调动充分的资源才能办成。以最典型的内容行业为例，从想法到作品就得经历一个相当困难的过程。比如刘慈欣在娘子关发电厂，仅凭个人的闲暇时间就写出了《流浪地球》这部小说原型。但当郭帆想要把它拍成电影搬上荧幕的时候，数以千计的工作人员需要在幕后折腾大半年。

生成式大模型的到来正在改变这种状况。
不久前，一款名为Pika的人工智能视频生成工具爆火。这个由4名华人构成的创业公司，成立仅半年时间就获得了2亿美元估值。利用这款工具，只需要输入一段文字，给出对应的人物、场景、风格等需求，Pika就能生成你需要的视频画面。比如，输入“穿着太空服的马斯克，3D动画形式”，软件就会给出动画形象的马斯克，背后是腾空而起的一发火箭。

尽管从实际的使用体验看，目前类似Pika的视频生成工具还并不成熟，视频存在时长有限、分辨率不够、内容不合理等方面的问题。但一个确定的趋势是，在AI加持下，从想法到作品的巨大鸿沟将被弥合，并且不只限于视频，还包括其他艺术创作、软件开发等各个领域。对于拥有创意的普通人来说，未来一个人或者几个人就将等同于一支军队。
事实上，在很多科技公司内部，产品经理和研发团队的配比已经发生了变化：当AI能完成越来越多的研发工作，产品实现占据的权重就会逐渐让位给产品设计。

就其本质而言，钉钉这次发布的AI助理其实也是这个趋势的一部分。只要你有想法，创建一个AI助理只需要三步：

为AI助理定制专属的名称、头像；
选择特定知识库、文档或上传文件，对AI助理进行训练；
为AI助理配置需要的AI能力，可直接选择官方能力，或者配置自定义能力。

自定义能力包含企业自建系统、第三方应用、钉钉生态应用等等，也包含配置各大电商、视频、新闻、搜索等等各类平台的开放API，实现开放连接能力。

AI Agent的普惠正在为人们抓住风口提供更强大的工具。
跟Pika这些着眼于特定任务的垂直软件不同，钉钉更多似乎想让用户在钉钉上长出一个个“Pika”。
钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等高频的官方AI能力，用户仅需简单配置后即可使用。针对开发者、IT团队，支持通过钉钉AI PaaS快速开发自定义的AI能力，通过钉钉开放的API、连接器，与SaaS应用、本地系统等原有系统连接；也可以获取外部平台的开放API后，连接购物、视频、外部网站等各类第三方平台。

在这个能力底座的支撑下，未来钉钉上将会涌现出大批的优秀AI应用，其中可能就包括了下一个Midjourney或者Pika，这是创业者不可错过的风口。

在大会现场，叶军还宣布启动钉钉AI助理创造大赛，激励企业和个人立足具体的业务、办公和生活场景，创建创新、实用的AI应用。每类场景按照不同的评审标准决出获奖者，分享百万奖金。除了奖金和奖项，参赛者在大赛过程中将获得专属的技术和社区支持，通过社区活动、社群交流获得更多创新灵感。

所以，那些有想法的普通人，首先可能需要的是转变思维方式。因为过去我们谈到创业时，不可避免地把它跟风险联系得很紧密，于是创业就带有赌的成分，需要有搏一把的勇气。但如我们上面提到的，这个逻辑在钉钉AI助理这个问题上并不适用，你的创意就等价于你的生产力。
创业从来最缺的就是idea，但幸运的是，这次也只缺你的idea。

03、写在最后

在9日的发布会上，总裁叶军给钉钉的AI超级助理订了个很直白的目标：计划在3年内打造1000万个AI超级助理。这个不小的数字显然不是拍脑袋决定的，三年前钉钉给低代码应用立了个相同的flag，到今天已经顺利实现。相较于低代码应用，AI助理无疑进一步降低了参与门槛，“人人都是开发者”进化到了“人人都是创造者”。所以《新立场》的预期是，“7亿用户造出千万助理”这事肯定会发生得更早一些。

但需要注意的是，寄希望于用AI赚钱的创业者现在已经有了行动的紧迫性。
钉钉庞大的生态和多样化的业务场景的确意味着丰富的长尾需求，所以无论是出于个性化或者技术尝鲜的目的，AI助理一定会层出不穷，长期保持“产能旺盛”的状态。然而对于创业者来说，发现机会、尽早入场、跟钉钉AI助理生态同步壮大成长才是搞钱的最佳姿势，你的创意和钱包都没必要等。

9 1 月 2024

一文读懂 AI Agents 技术

今天来聊一下人工智能（AI）生态领域相关的技术 – AI Agents（AI 代理）。
想象一下：软件实体能够自主地与环境交互，根据收集的数据做出决策，并以最少的人为干预执行基于特定场景。幸好，借助 AI Agents 技术，这个现实比你想象的更接近了。这些智能代理正在彻底改变行业，并改变我们的生活方式。但是，大家可能会好奇：AI Agents 到底是什么？它们是如何工作的？在本篇博文中，我们将深入探索 AI Agents 的世界！
人工智能（AI）赋予机器具备判断和执行任务的能力，以协助人类在某些特定的业务场景中实现某项目标，从而显著改变了人机交互方式。在人工智能的核心体系中，我们可以关注到这些智能实体被称为智能代理（IA）的 AI Agents，能够感知环境变化并对其进行分析，以采取合理的行动来实现既定目标。
通常来说，不同类型的 AI Agents 旨在解决特定的挑战并完成特定的任务。对于构建有效且高效的人工智能系统来说，更深入地了解 AI Agents 的不同类型便显得至关重要。通过了解各种 AI Agents 类型，我们可以更好地理解它们的功能和应用领域，并根据具体需求选择最合适的 AI Agents。
AI Agents 可以是专门针对某个任务设计的，例如图像识别、语音识别或自然语言处理。这些 Agents 利用先进的算法和模型来解析输入数据并生成准确的输出。
另一类 AI Agents 便是通用型代理，它们具备更广泛的智能和适应能力。这些代理能够处理多种任务和领域，并具备学习和适应的能力。通用型代理通常基于机器学习和深度学习技术，通过从大量数据中学习和推断来改进其性能和表现。除此之外，AI Agents 还可以根据其交互方式进行分类。有些代理是自主的，它们能够独立地感知环境、做出决策并执行任务。另一些代理则是协同的，它们与人类用户进行交互，通过理解用户的意图和目标来提供帮助和建议。

1、什么是 AI Agents & Autonomous AI Agents？
其实，自 20 世纪 80 年代计算机科学家开始探索如何开发可以像人类一样交互的智能软件以来，AI Agents 已经出现。从那时起，这个概念已经发展到包括可以独立做出决策和完成特定场景任务的智能代理。
AI Agents 是一种软件程序，旨在与其环境交互，感知接收到的数据，并根据该数据采取行动以实现特定目标。AI Agents 能够模拟智能行为，可以像基于规则的系统一样简单，也可以像高级机器学习模型一样复杂。AI Agents 使用预先确定的规则或经过训练的模型来做出决策，并且可能需要外部控制或监督。

相对于传统的 AI Agents，自主 AI Agents 是一种先进的软件程序，可以在没有人类控制的情况下独立运行。它们可以自主思考、行动和学习，无需人类不断输入。这些代理广泛应用于医疗保健、金融和银行等不同行业，使事情运行得更顺畅、更高效。它们可以适应新情况，从经验中学习，并利用自己的内部系统做出决策。
随着人工智能技术的不断发展，AI Agents 的能力和应用领域也在不断扩展。在某种程度上，AI Agents 已经成为许多领域中的关键工具，帮助人们解决复杂的问题和提高工作效率。通过不断改进和优化人工智能代理的设计和算法，我们可以期待更多智能、自主的代理出现，为各行各业带来更大的帮助和创新。
在过去的几个月里，AI Agents 引起了巨大的关注和人气。一个令人印象深刻的例子便是 AutoGPT，在 GitHub 上的星星数已经达到了惊人的 140,000 颗。这反映了大家对开源 AI Agents 项目的广泛兴趣和支持。
不仅如此，我们几乎每周都能看到新的公司成立，专注于 AI Agents 的开发和应用。这表明 AI Agents 领域正在迅速发展，吸引了越来越多的创业者和投资者的关注。
这个生态系统中的 AI Agents 种类繁多，从审查代码的代理（例如 Sweep AI）到像 Lindy 这样的虚拟个人助理，涵盖了各种不同的功能和应用领域。这些代理的出现为我们提供了更多的选择和可能性，能够满足不同用户和业务的需求。
为了更好地了解这个生态系统的现状，我们对 50 多个 AI Agents 进行了概览，并将它们汇总到一个列表中。这个列表包括了各种类型的代理，涉及的领域包括自然语言处理、图像识别、语音识别、智能助理等。我们对这些代理的功能、性能和用户反馈进行了评估和总结，以便为用户提供参考和决策支持。

2、AI Agents 通常都具有哪些特征因素
通常而言，AI Agents 具有以下几个特征因素，具体表现为如下：
1、感知和理解能力
AI Agents 能够感知环境中的信息，例如图像、声音、文本等，并理解这些信息的含义和上下文。这涉及到使用传感器、计算机视觉、语音识别、自然语言处理等技术来实现对输入数据的解析和理解。
2、决策和规划能力
AI Agents 能够基于感知到的信息和存储的知识做出决策并制定行动计划，可以使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险，并选择最佳的行动策略。
3、自主学习和适应能力
AI Agents 具有学习和改进自身的能力，可以从经验中学习，并根据反馈信息不断改进自己的性能和表现。代理可以使用监督学习、增强学习、迁移学习等技术来获取新知识、调整决策制定和行动执行过程，以提高自身的智能水平和适应能力。
4、交互和沟通能力
AI Agents 能够与人类或其他代理进行交互和沟通，可以理解自然语言指令、生成自然语言回应，并使用语音、文字或其他形式与用户进行有效的交流。这涉及到自然语言处理、对话系统、语音合成等技术的应用。
5、知识表示和存储能力
AI Agents 能够组织和存储知识，并有效地检索和利用这些知识来支持决策和行动，可以使用符号逻辑、图形模型、向量表示等方式来表示和存储知识，并使用数据库或其他数据结构来实现高效的知识管理。
6、情境感知和灵活性
AI Agents 具有对不同情境的感知能力，并可以根据情境的变化做出相应调整，可以识别环境中的变化、适应新的任务要求，并灵活地调整决策和行动策略，以适应不同的场景和需求。
这些特征因素共同构成了 AI Agents 的核心能力，使其能够在各种任务和领域中展现出智能和适应性。然而，具体的 AI Agents 的特征因素可能会因应用领域、任务要求和设计选择而有所差异。

3、AI Agents 的内部结构是怎样设计的
AI Agents 的内部结构可以根据具体的应用和任务而有所不同，但通常包括以下几个核心组件。关于 AI Agents 的通用型内部结构参考示意图，我们可参考如下所示：

针对 AI Agents 具体实现过程，主要涉及以下活动，具体：
1、环境感知
首先，AI Agents 会通过传感器或其他数据源感知环境。传感器可以包括视觉传感器（如相机）、听觉传感器（如麦克风）、物理传感器（如触摸传感器）等。这些传感器帮助代理获取环境中的信息，例如图像、声音、位置等。
2、知识表示

在此阶段，AI Agents 使用适当的知识表示方法来组织和存储从环境中获取的信息。这些信息可能包括先验知识、学习到的模式或规则。常见的知识表示方法包括符号逻辑、图形模型、向量表示（如词嵌入）等。通过有效的知识表示，AI Agents 能够更好地理解和利用环境中的信息。
3、决策制定
基于感知到的环境信息和存储的知识，AI Agents 使用决策制定机制来生成适当的行动。这可能涉及使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险。决策制定过程旨在使代理能够选择最佳行动以实现其目标。
4、计划和执行行动
在这一步中，Agents 制定计划或一系列步骤来实现其目标。一旦决策制定完成，AI Agents 将执行行动并与环境进行交互。这可能涉及控制执行器（如机器人的电机）、发送指令（如语音助手的语音合成）或与其他代理进行通信。执行行动后，Agents 会观察执行结果，并将其用作反馈以调整下一步的决策。
5、反馈与改进

在完成上述的执行行动后，AI Agents 通过与环境的交互获得反馈。这些反馈可以来自环境中的直接观测结果，也可以来自人类用户或其他代理的指令和评估。Agents 使用这些反馈来学习和改进自己的行为。这可能包括使用监督学习、强化学习或迁移学习等技术来调整决策制定和行动执行过程，以提高代理的性能和适应能力。

5、AI Agents 应用于哪些现实场景下？
在现实的业务场景中，AI Agents 在各个领域都展示出了广泛的应用，对日常生活产生了重大影响。

目前来看，主要体现在如下几个方面，具体：

1、自然语言处理
AI Agents 在自然语言处理领域的应用广泛而深远。例如，智能语音助手（如 Siri、Alexa 和 Google 助手等）利用语音识别和自然语言理解技术，使用户能够通过语音与设备进行交互、获取信息和执行任务。这使得人们可以轻松地控制智能家居设备、查询天气、发送消息等，极大地提高了日常生活的便利性。

2、机器人技术
AI Agents 在机器人领域的应用也十分显著。智能机器人能够感知环境、理解语音指令、执行任务，并与人类进行交互。这种技术的应用范围非常广泛，包括工业自动化、医疗辅助、家庭服务等。例如，智能无人驾驶汽车正在逐渐成为现实，它们利用感知技术和决策制定能力来实现自主导航和安全驾驶。

3、个性化推荐
在电子商务和娱乐领域，AI Agents 通过个性化推荐系统为用户提供定制化的体验。这些系统利用机器学习和数据挖掘技术，分析用户的历史行为和偏好，并提供个性化的产品推荐、音乐推荐、电影推荐等。这不仅提高了用户的满意度，还促进了销售和用户参与度的增长。

除了上述领域，AI Agents 还在医疗诊断、金融风险管理、智能城市管理等方面发挥着重要作用。医疗领域的 AI Agents 可以帮助医生进行疾病诊断和预测，提高治疗效果和患者生存率。在金融领域，AI Agents 可以通过分析大量数据和模式识别，帮助金融机构更好地管理风险和进行投资决策。智能城市管理中，AI Agents 可以监测交通流量、优化能源利用、改善城市规划等，提高城市的可持续性和居民的生活质量。

上述场景示例表明，AI Agents 在不同领域的广泛应用已经在改变我们的日常生活。随着技术的不断进步和创新，我们可以期待更多领域的 AI Agents 将为我们带来更多的便利、效率和智能化体验。

Reference ：[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild

9 1 月 2024

2024年AI商业落地的十个方向

原创甄科学

轰轰烈烈的2023年AIGC元年结束了，心情有点复杂。

在国内，和年初ChatGPT炸雷带来的全民兴奋相比，AI并没有给普通人的生活带来多少改变。

AI——这个当之无愧的下一代信息技术革命，没像上一波移动互联网浪潮中的微信和滴滴打车，在一年的时间里实现“一夜春风来、万树梨花开”式的商业渗透。认真使用AI工具的人不多，现象级的AI产品完全没有出现。

在海外，ChatGPT以迅雷不及掩耳的速度斩获1.8亿用户，AI绘图软件MidJourney获得超1500万用户和数亿美元营收；微软的GitHub编程助手Copilot在9月份付费用户已超百万（含3万7千个组织订阅），多个小型APP号称获得数百万美元的订阅收入。

在硅谷和华尔街，逢人必谈AI。美股在AI芯片霸主英伟达和AI应用先锋微软的带领下，日日创出新高。

不夸张地说，若无AI，美国可能已陷入经济衰退；有了AI，美国走在了新一轮泡沫的路上。

比尔盖茨认为：在像美国这样的高收入国家，距离普通大众使用人工智能达到显著水平还有18到24个月的时间。在非洲，他预计在三年左右的时间里会看到类似的使用水平。据此预测，2024年美国会达到人工智能的“普惠”状态。

中国和美国的人工智能差距正在拉大。由于对英伟达GPU的禁令，全世界最紧俏的商品变成了英伟达的GPU或平替，甚至有人不恰当地把GPU比作超过毒品的新一代最暴利走私品。

和争夺土地、石油、黄金的战争一样，人工智能算力、算法变成了大国军备的新战场，也成为企业家和创业者的兵家必争之地。

时不我待，何以胜出？下文我主要采用AI在医疗、金融等严肃领域的实际需求案例，探讨AI在2024年从技术到产品商业落地的10个方向：1. 更强的多模态交互2. 可解释性更强的人工智能3. 更强的搜索增强生成4. 构造自动代理生态5. 更强、更经济节能的算力6. 更快的AI平民化进程7. AI与Web3结合的破局8. 打磨用户需要的“小”产品9. AI能力带入数据，而不是相反10. 获取用户对AI的信任

更强的多模态交互

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

在去年圣诞节，很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力，可以直接用中文和它对话。美中不足的是，总觉得GPT的中文发音是我国台湾人夹杂海外华人的腔调，有点像王力宏。

以医疗领域的需求看，病人拿到血常或肿瘤指标检查报告，想知道异常指标的意义。对自己负责的病人会上网搜索每个指标的含义。入冬以来儿童夹杂肺炎和流感，很多焦虑的家长会搜索检查结果的意义，往往费时费力，找不到准确的解读。

多模态技术的发展，可以让用户拍照上传检查报告，AI识别照片中的指标、搜索知识库、给出每个指标的含义，然后用语音告诉可能的诊断。这种体验太棒了。

在金融领域，如果上传一张K线图，AI就能识别出其形态，则可以极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域，如果能让AI读懂设计图，再设计出新的设计图，那就更厉害。

在非严肃领域，多模态会大大提高数字形象、短视频制作的效率，丰富这些应用的使用场景。

可解释性更强的人工智能

可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性，从而能够更好地理解AI如何作出决策。

当前的AI决策过程往往被视为一个“黑盒”，用户无法了解模型得出结论的内在逻辑。大语言模型最强大且是最神秘的“涌现”能力，亦无法被解释。无法被解释的决策过程，不可能在严肃商业领域获得信任。

AI看完检查报告，可以给出用药建议。如果不知道这个用药建议基于何种知识，也不知道AI做出推理和判断的过程，相信没有人敢用AI开出的药方。生命不能作AI概率游戏的试验品。

现举例说明。我问ChatGPT:

“如果换算成特斯拉的行驶里程，7200兆瓦时可以行驶多少公里？”

AI会告诉我它的逻辑——

为了估算7200兆瓦时（MWh）的电能可以让特斯拉汽车行驶多少公里，我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例，其能源效率大约为15千瓦时/100公里（即0.15千瓦时/公里）。

我们可以通过以下公式计算行驶里程：

总行驶里程=总电能（千瓦时）/每公里耗电量（千瓦时/公里）

现在我们可以计算7200兆瓦时（即7200000千瓦时）可以让特斯拉汽车行驶多少公里。我将进行计算（此处，AI写Python代码进行计算）。

使用7200兆瓦时的电能，一个特斯拉Model 3理论上可以行驶约4800万公里。

以上，AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。

AI在严密的数学推理已经取得某些突破。近期，数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁，数学家一定要会用AI。

可解释的人工智能的实现需要开发新的算法和工具，通过可视化技术、自然语言解释或简化决策逻辑的表示，以提供关于AI决策过程的深入洞察。

综上，可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域，决策的透明度和可信度至关重要，AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。

更强的搜索增强生成

搜索增强生成（Retrieval-Augmented Generation，简称RAG）是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。

RAG使得大型语言模型能够访问外部信息，帮助它们产生更准确、更具上下文意识的回应，其目标在于提高语言模型生成内容的准确性和相关性。

在RAG系统中，当模型接收到一个查询时，首先执行一个检索步骤，查找与查询相关的信息。然后，这些相关信息被融入生成过程，实现生成内容准确性和相关性的显著改善。

以病人的需求为例，我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁，但尿失禁到底是不是服药的不良反应呢？在药品说明书上找不到，医生也不确定。

朋友最初给AI的问题是“卡培他滨（Capecitabine）的副作用是否包含尿失禁?”

AI的回答是：“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状，如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的，如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。”

如果把提问改成：“搜索英文专业医学资料，卡培他滨的副作用是否包含尿失禁?”，AI开始自动用Bing搜索互联网，然后它真的搜到了多个医学文献。

AI说：“根据我找到的英文专业医学资料，尿失禁被列为卡培他滨的罕见副作用之一，发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用，尽管它并不常见。”

AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论，是更强的增强搜索要做的事情。

RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中，生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域，用户不能判断幻觉内容的对错。这导致AI的应用受限。

此处说一个题外话，为什么上面的例子需要指明搜索“英文”专业医学资料？因为在某些不指明英文的情况下，Bing搜索引擎用中文搜索，在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索，搜索到的结果大部分是广告和商业网站上意义不相关的信息。

中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此，和大模型相比，想办法打造更强的搜索增强生成技术，也许是在中文互联网开发产品致胜的关键。

构造自动代理生态

上面搜索增强生成的讨论，已经包含了自动代理的部分功能。

当AI经过自我学习和模型升级，当它了解到我总在搜索专业文献后，当我再次询问药物副作用同样模式的问题时，AI会自己启动搜索专业互联网的动作，而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。

自动代理是一种能够自动独立执行任务和做出决策的AI系统。这些代理展现了一定程度的自主性和主动性，能够理解其所处的环境、设定目标，并采取行动实现目标，不再需要人类额外指导。

有一个开源项目叫AutoGPT，它自动分解任务的动作，然后自动分步执行，就像自动执行上面的搜索任务一样。

自动代理在多个领域具有广泛的应用前景。

2024年的订外卖服务也许会变成：你只要和AI说中午订三份我常吃的外卖和客户一起吃，不要辣。AI会自动分析你常吃的外卖、剔除辣的；它知道你是和客户吃，要吃好一点、贵一些；它根据送达的时间和午餐的时间选择商家，然后自动买一份准时达保险。这些步骤在几秒内自动完成。

不止订餐服务，个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI，Siri会变成一个更高级的自动代理。现在，你只可以指示Siri打开一个app，Siri还有点愚钝。

自动代理和硬件结合，会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。

Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上，像校徽一样。它能够响应触摸、语音指令和手势，主要用于搜索和翻译信息、导航等功能，通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。

这意味着：未来的每个人都可以有一个随身携带的小秘书，它记录你的会议、见闻、聊天、思想，随叫随到，直到复制出你的数字生命，就像电影《流浪地球》里的数字生命一样。

显然，自动代理需要完整的闭环生态构建和安全管控，它需要打通交互、采购、物流、支付全环节。我相信在2024年，此闭环生态将露出雏形，重量级选手会入场。

更强、更经济节能的算力

当前AI发展的一个关键限制因素是对大量计算资源的需求。这不仅增加了成本，而且导致了巨大的能源消耗。

AI聊天工具导致大型科技公司的水资源使用量剧增。计算产生热量，进而需要大量水资源冷却设备。

有数据表明，由于AI产品（如ChatGPT）日益受欢迎，微软的全球水资源使用量增加了超过三分之一，达到了近17亿加仑。谷歌的水资源使用量也比前一年增加了大约20%，约为56亿加仑。研究员估计，使用GPT回答5到50个问题，大约消耗500毫升的水。

电力方面，根据估算，训练GPT4.0耗时150天，耗费电力720万度电，这些电够特斯拉行驶4800万公里。（这个换算是我在上文“可解释的AI”部分的例子。做任何事情，我都想用AI试试看，不试不知道，一试吓一跳。）

2024年需要更高效的AI算法以在减少计算资源需求的同时提高模型的性能。硬件方面，业内也在寻找新的材料和设计，如量子计算，以期实现更高效的数据处理、降低能耗。

在芯片禁令下，突破原有技术路径，寻找升维竞争的突破，可能是中国企业的机会。这需要强大的风险投资资本支持。

对GPU的需求刚刚开始。当全球有20%的人，每天使用AI的时候，GPU的需求将增长百倍。美股科技股的天花板还很高。能在中国实现GPU“平替”的企业可以赚大钱。

更快的AI平民化进程

这又被称为开发的民主化。它的含义是，AI的易用性使得人与计算机的深度互动简单到像聊天一样，几乎任何人都能够成为开发者。

AI开发的平民化意义重大。它意味着更多的人可以参与计算机产品的开发，不再局限于专业技术人员或拥有高级编程技能的人。

我本是一个做投资的，只有20年前大学C语言编程基础。因小孩喜欢画画，被AI绘画吸引误入AI的大坑。现在，我正在用GitHub AI编程助手和ChatGPT，用业余时间开发一个功能复杂的AI应用软件，我丝毫不觉得困难。在我和AI的共同努力下，AI正确写出了我需要的所有代码。

AI打破了计算机科学的技术壁垒，其实质是硅基生命向碳基生命敞开心扉，人类用自然语言就可以实现深度计算机技术的实现。

当大量不同背景的人都能参与到这场信息革命的浪潮中，此种多元化的参与带来了更广泛的视角和创新的可能性，必然极大加快人类技术爆炸的速度。

其意义重大程度，堪比近1000年来，人类完成的识字扫文盲运动。从第一封电子邮件发出，到人类普遍掌握互联网技能，用了数十年。而用多模态技术的交互方式，AI可以用3年时间完成高难度计算机技能向人类白丁的普及，速度加快十倍、百倍。

在平民化浪潮下，低代码、无代码平台、开源平台的发展至关重要。这些平台通过提供简化的编程接口，使非专业人士也能轻松构建和部署AI模型。

其次，用户友好的工具和界面的开发同样重要，它们能够降低AI开发的复杂性，使其更易于理解和操作。自动化和智能化的开发工具将极大地减轻人工编程的负担，提高开发效率。

预计2024年的AI编程工具将更加强大，平民化的进程会进入加速发展期。在AI的帮助下，一个没有编程基础的普通人可以编写出任何他想要的应用，如同文字扫盲运动让普通人不再需要找人代写信、自媒体技术发展让每个人不再需要找期刊投稿就能发表自己的观点。

当你有一个需求的时候，你自己就可以写出这样一个软件，不需要再去找商业软件——你完全个性化需求的软件。

回到医疗的例子，一个肿瘤病人，有过去30个月每周的检查结果数据，他想知道他的肿瘤指标变化的趋势。这些结果存储在医院的系统里，医院的信息系统不对病人提供历史数据摘录和比较功能。病人或家属需要手工摘录出每个异常指标，记录下来，划出曲线。有了AI，病人可以让AI写一个APP，每周把纸质的检验报告拍照上传，然后AI就自动识别结果，并更新画出变化趋势图。

在目前的软件范式中，用户需要寻找能满足自己需求的软件，软件开发者需要在很多人的差异化需求中寻找公约数，小众用户的需求不能被满足。AI平民化将从根本上改变人使用计算机的方式和软件开发行业的商业图景。

在AI平民化的浪潮中，中国有可能会尤为被动。在物欲横流的冲击下，中国没有像样的程序员社区，中国的教育体制培养出的是在AI时代被抛弃的程序员和知识搬运工，有科学专研精神的人不多，全民创造力无法被激发。AI平民化水平低的国家将在未来的生产效率和创造性竞争中，落后于AI平民化水平高的国家。

AI与Web3结合的破局

OpenAI创始人Altman支持的一个Web3项目是WorldCoin。WorldCoin运行在以太坊区块链上。它要做的是建立一个全球最大、公平的数字身份验证体系。为了区别谁是活人、谁是机器人，WorldCoin通过扫描人眼的虹膜来实现身份认证。到今天，已经有数百万人主动接受了WorldCoin的眼球扫描。如果不是区块链和数字世界的“原住民”，普通人很难理解这个项目的意义何在。

以区块链技术为基础的Web3在2022、2023年陷入低谷，Crypto市场处在慢慢熊市的尾端。技术信徒们的创业热情从Web3完全转移到了AI。

区块链作为数字世界的“生产关系”基础设施，和AI作为数字世界的“生产力”激发工具，有天生结合点。如果相信硅基生命的未来，硅基生命的载体应该存在于区块链上。

否极泰来，自2023年11月开始，区块链资产获得了巨大涨幅，热情被重新点燃。2024年，伴随区块链市场的复苏，AI和Web3在去中心化算力、AI经济价值的实现、智能合约自动化与优化、去中心化数据市场、个人隐私数据的使用、AI创作数字艺术品、数字孪生等方面，会找到突破点。

值得警醒的是，这种突破将快速产生暴富的机遇和归零的骗局。

打磨用户需要的“小”产品

AI时代的大平台、大公司将垄断基础设施，大语言模型的终局只会有2到3家企业和开源模型。AI创业者需要认清这个残酷现实，没有颠覆性的创新和极强的资本能力、执行能力，不要走向“一将功成万骨枯”路上的“白骨”之一。

基于此逻辑，大型科技公司将在平台战斗中巩固先机。从硬件到软件，在开发“+AI”产品的战役中，大公司的实力明显。基于此，AI将极大推动全球的资本开支、经济强势和科技股的牛市。

对应用型开发创业者，必须聚焦打磨用户需要的、完全AI原生的“小”产品。Web 2.0时代烧钱获得用户规模经济的打法不复存在。用户在APP上任何使用AI的动作，都需要支付费用，没有人会用免费模式烧这么多钱。

只有打磨出真正客户需要的产品，帮助客户提升效率的产品，才是王道。开发者需要从第一分钟开始，就有用户付费意愿认可。这种产品不怕小众。但是，由于AI开发平民化的快速发展，创业者开发出成功产品的难度越来越大。

而为了打磨产品，创业者最重要的能力是把需求产品化的能力，要跟上大平台快速迭代的AI技术发展，然后快速而经济地应用到产品需求中。

AI能力带入数据，而不是相反

英伟达金融行业高管认为，随着人工智能的进步呈指数级增长，金融服务公司将把计算能力带入数据，而不是相反。

并非只在金融行业。事实上，沉淀在企业和个人的优质数据已经足够庞大，问题是如何用AI能力全新地发挥这些数据的生产力。学术期刊数据库《知网》也推出了人工智能助手。开发者不需要守着金矿向外寻觅。

据麦肯锡公司称，像OpenAI的ChatGPT这样的深度学习算法，经过企业数据的进一步训练，每年可以在63个业务用例中增加相当于2.6万亿至4.4万亿美元的收入。巨大的金矿等待被挖掘。

开发者应聚焦用AI加持现存的有价值数据，满足用户的效率要求、让大数据在AI时代的场景中开始赚钱。

获取用户对AI的信任

让用户把更多的工作交给AI完成，需要AI获得用户的信任。

经过2023年的新鲜感，见惯了新鲜玩意儿，用户不想再把AI当玩具，而是想用它实现靠谱的真实价值。即使是情感陪伴机器人，也需要有血有肉有情感的真实体验。

能率先可控、准确、高质量地按照用户指示完成任务的AI产品将在2024年获得大发展。

与此同时，构建信任需要更多早期用户拥抱AI的意愿。一件新型事物的普及，如同一个石子投入池塘产生的涟漪。

AI是个新物种，产品开发人员和用户都需要学习如何和它相处。此种适应的过程需要工作方式、思维模式的根本转变。一件事情，如果不用AI试一下，则不知道原来还可以这样做。

比如，我写本文的传统方式是：阅读已有的AI技术和商业方向文章，加入个人思考，然后在文章末尾加上无足轻重的参考文献。而用AI写文章的方式可把顺序完全颠倒过来：先从参考文献开始，让AI阅读并写出参考文献的要点，我再取其精华，加入个人的思考。

这会不会涉及版权和“洗稿”呢？纽约时报在12月底，起诉OpenAI大量采用纽约时报的内容。纽约时报的内容被用于纽约时报的竞争对手生产新的内容。纽约时报认为自己是大冤种。

我认为，不管人还是AI，判断是否有价值内容的金标准是“独立而有价值的思想”。AI和人类的互信模式会和以往的互信模式不同。

工业革命中，机器的意义是帮助人摆脱了重复和繁重的“体力”劳动；AI智能的终极意义是帮助人摆脱重复的“脑力”劳动，帮助人更好的创新。在此目标下建立的可以信任的AI智能机器，可以跳出任何旧法律的束缚，而不应该受到惩罚。

9 1 月 2024

自研大模型赋能终端国产手机掀起AI普及风暴

自2022年11月ChatGPT面世以来，生成式人工智能的热潮已经席卷全球，成为各国科技领域角逐的焦点。

在这场全球范围内的科技竞赛中，以vivo为代表的中国科技企业积极参与其中。同时，我国也出台了一系列政策措施，支持人工智能技术的发展，推动人工智能与实体经济的深度融合。

2023年11月，vivo率先发布了自主研发的蓝心大模型BlueLM。仅一个月后，搭载这一革新性AI技术的vivo S18系列新品正式发布，迅速在市场中崭露头角，全渠道首销日销量为上一代的143%，助力vivo在2023年W51以16.21%的销量市占率，拿下中国智能手机市场销量份额榜首。

历代S系列，出货量都在数百万级。伴随着vivo S18系列全面开售，这意味着将有数百万用户在短期内迅速体验到AI这一前沿技术成果，vivo S18系列成为当下AI终端普及浪潮中的先行者和普及者。此外，从技术发布到产品落地，“vivo速度“引发行业广泛关注，在AI技术上的前瞻预判和深厚沉淀日渐浮出水面。

爆款引领AI终端普及

在5G普及的历史进程中，爆款产品起到了不可或缺的推动作用。它们不仅在技术上展现出领先的优势，更降低了新技术和新体验的门槛，赢得了广大消费者的青睐，使得新技术、新体验得以迅速走入千家万户。AI技术的普及，同样需要爆款产品的驱动。

vivo副总裁、OS产品副总裁周围曾公开表示，vivo希望利用蓝心大模型的能力，进一步重构系统，并通过智能手机的普及“让AI，走入千家万户”，为每一位用户带来更加智慧且贴心的体验。

据了解，至2021年，vivo S系列累计用户量就已经接近3000万。差不多三年时间，S就已成为中国手机市场中最成功的爆款系列之一。

vivo S18首销当日，一举打破了S系列历史首销增长纪录。vivo S18 Pro搭载vivo全新系统OriginOS 4，将行业领先的AI蓝心大模型深度融合，也将在本月13日开售。

作为全球首批AI大模型手机，vivo S18系列不仅展现了vivo在技术上的领先优势，更为AI技术的发展和普及注入了新的活力。行业领先的AI技术与S系列千万级的“规模效应”相乘，vivo S18系列将成为国内AI终端普及浪潮中的中坚力量。

技术驱动进化“智能体”

AI人工智能时代，手机变革的底层是大模型技术，呈现在用户面前的是交互和体验。扎根于vivo蓝心大模型，vivo S18 Pro走在了手机交互变革的前沿。

集成了基于vivo AI技术开发的首款全局智能辅助蓝心小V的vivo S18 Pro，绝非简单的对话工具，而是成为全能的、拟人的专属“智能体”，能在学习、生活、工作等场景切实为用户带来真正的改变。不需要思考怎么做，只需要告诉它你想要什么。

无论是文档、论文作总结和问答，还是文案创作，又或者是以文创图，都可以。同时，vivo S18 Pro也创新实现AI与影像的融合，能帮你将照片中误入的路人一次性消除，被路人挡住的画面，也能精准脑补还原。

这一切，都源自vivo自研AI蓝心大模型，它全面覆盖用户核心场景，在C-Eval、CMMLU等榜单中均处于中文大模型的第一梯队。

在其他方面，也是如此。从颜如玉、山海青到vivo S18系列花似锦，每一代都有行业首创的技术工艺突破，完成了中国设计语言的现代表达。同时， vivo S18 Pro在拍人这件事上向X系列旗舰看齐，100%继承旗舰同款算法，打造影棚级人像。

正如vivo高级副总裁、首席技术官施玉坚所讲，深厚的技术沉淀是vivo发展的根本，而只有让这些技术走近普罗大众，为用户带来极致体验，才能实现最大的价值，这也是vivo的本心所在。

当前，AI人工智能技术的普及正在深刻改变我们的生活。而中国企业如vivo正通过自主创新推动这一变革。全球首批搭载自研AI大模型、用现代工艺演绎中国设计、以影棚级人像定义人像新标准的vivo S18 Pro，不仅是行业AI终端普及者，也是S系列最强Pro，更是中国企业自主研发和科技创新的成果展示。

7 1 月 2024

从错误中学习！腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉

现有的大规模语言模型（LLM）在众多任务中取得了惊艳的效果，但它们在实际应用时仍然会出现生成与事实不符的内容。这种现象如今通常被称为“幻觉”。幻觉问题在真实场景中可能带来严重的后果，大大阻碍了大语言模型的落地。

来自苏州大学和腾讯 AI Lab 的研究者近期提出了一种简单有效的幻觉消除方法。他们首先尝试了从已有的 LLM 中诱导幻觉，构建了一个在事实性层面薄弱的 Weak LLM。在解码时，再将 Weak LLM 中所蕴含的幻觉模式从原有 LLM 的输出空间中消除。

具体而言，他们采用了对比解码（Contrastive Decoding, CD）策略将 Weak LLM 的输出分布从原 LLM 的输出分布中减去。这一先诱导再对比的幻觉消除解码算法被作者们称为 ICD 算法（Induce-then-Contrast Decoding）。

作者们在 TruthfulQA、FactScore 等常用的判别式和生成式幻觉评测集上对 ICD 算法进行了测试。实验结果表明，ICD 均能有效提升原模型输出的事实性，减少了幻觉。在 OpenAI 提出的权威幻觉评测集 TruthfulQA 上，使用了 ICD 算法的 Llama2-7B-Chat 和 Mistral-7B-Instrcut 分别可以和现阶段最优的 ChatGPT 和 GPT4 接近。

论文题目：Alleviating Hallucinations of Large Language Models through Induced Hallucinations

论文链接：https://arxiv.org/abs/2312.15710

GitHub地址：https://github.com/HillZhang1999/ICD

怎么诱导幻觉

作者通过构造幻觉数据，并用其微调原始的 LLM 诱导幻觉构建 Weak LLM。这一策略近期也在 LLM Safety 领域被应用，一些研究者们发现即使是对齐后的 LLM，其安全机制也很容易在少量的微调后被轻易攻破。为了构造幻觉样本，作者们基于现有的事实正确的句子，通过少样本提示策略，让 ChatGPT 自动去修改其中的事实，从而构造大量编造的幻觉样本。

如何利用诱导出的幻觉消除最终的幻觉

作者们使用了对比解码的策略，将诱导幻觉后的 Weak LLM 的输出分布作为惩罚项，来干预原始 LLM 的结果生成。

基于自回归结构的 LLM，其解码过程通常可以建模为：

其中，是被原始模型预测出来的下个词的分数分布，并通过 softmax 操作将其转换为概率分布。
为了减少 LLM 的幻觉，作者希望奖励原始模型的预测结果，而惩罚诱导幻觉后的弱模型的预测结果，因此，对比解码的过程可以建模为：

可以看到，该算法将 Weak LLM 的预测分布从原始模型中减除。为了控制对比的力度，此处作者额外引入了一个超参数。最终，可以对上述分布采用归一化，使用得到的新概率进行下一个词的解码预测：

此外，ICD 算法还采用了一种名为自适应合理性约束（adaptive plausibility constraint）的策略，来缓解过度的对比。由于弱模型仅仅在事实性方面效果下降，但在语法等层面仍然保持了原有的能力，所以一味的对比可能导致模型生成内容的崩坏。因此，作者使用自适应合理性约束，仅在原始模型不确定的位置进行对比。更多具体细节可以参考原始的论文。

实验结果

作者们在 TruthfulQA 和 FactScore 两个主流的幻觉评估基准上对 ICD 方法进行了测试。

TruthfulQA 是 OpenAI 发布的采用误导性问题评判语言模型幻觉的数据集。在 TruthfulQA 上，作者采用了多项选择的评估形式，并使用了官方的 MC1/2/3 指标。为了进行对比，作者也实现了原始的贪心解码，以及一些现有的解码策略，如推理时干预解码（Inference-Time Intervention, ITI），层间对比解码（DoLa），和对比不同尺寸的模型的原始对比解码（naïve CD）。

如表 1 所示，基于微调方式诱导幻觉的 ICD 方法，大大提升了 Llama2-7B-Chat 在 TruthfulQA 上的性能，并超越了前人设计的其他解码算法。此外，作者也探索了其他诱导幻觉的策略，例如使用误导性的提示词和直接对比对齐前后的模型，发现这些策略均能带来提升，但效果距离微调还有一些差距。

FactScore 是在人物传记生成任务上评估模型生成结果的事实准确性的数据集。如表 2 所示，作者提出的 ICD 方法也同样提升了 Llama2-7B-Chat 的事实准确性，使其超过了使用贪心解码的 Llama2-70B-Chat。

不同模型规模的有效性

在 Llama2-7B-Chat 以外，该论文额外在 13B 和 70B 版本上测试了 ICD 算法。这里用于对比的 Weak LLM 仍然是 7B 的规模。如表 3 所示，ICD 算法在不同尺寸的模型上展现了稳定的有效性，并且随着模型尺寸的增大，提升效果也有增大的趋势。这可能得益于 ICD 算法（诱导幻觉前后对比）和原始 CD 算法（模型尺寸对比）思想的结合。

不同模型基座的有效性

在 Llama2-7B-Chat 以外，论文也额外在 Baichuan2-7B-Chat 和 Mistral-7B-Instruct 上测试了 ICD 方法。如表 4 所示，ICD 算法在不同模型基座上也带来了稳定提升。并且在 Baichuan2 和 Mistral 上的提升要大于 Llama2。作者猜测这两个模型在许多榜单上超过了Llama2，而 ICD 算法或许能有效地利用效果更强的模型。

与直接用高质量数据微调的对比

ICD 算法需要两个步骤，即诱导和对比。论文额外探索了如果直接使用高质量的 SFT 数据微调模型，是否也能减少模型的幻觉。因此，作者使用了同等数目的幻觉数据和事实数据，分别用于 ICD 算法和直接微调，并进行了对比。

在表 5 中可以看到，ICD 算法提升了原始模型的事实性，而直接微调不仅没有提升，反而引入了更为严重的幻觉。作者猜测这一有趣的现象可能源自于 SFT 阶段的行为克隆，即如果直接教大模型回复任意的问题，而不去评估这些问题是否超过了其能力边界，单纯的行为克隆反而会教会大模型编造事实。表 5 中，这一问题也从直接微调后大模型的回复率急剧上升得到了佐证。

总结

在本文中，作者提出了一种先诱导幻觉，再利用对比解码将诱导出的幻觉消除的 ICD 策略，在多个幻觉评测基准上显著提升了性能。

然而，ICD 算法目前也存在一些限制。例如，它需要两次前向传播，导致推理时延增长。目前 ICD 算法是否会影响原始模型的其他能力，也尚未得到全面的验证。

此外，ICD 算法也提供了一些有趣的研究方向。例如，它可以和检索增强等其他幻觉消除方法结合，对比弱模型和检索增强后的强模型，或许可以带来更大的性能提升。也可以参考混合专家模型（MoE）的思路，训练多个弱模型和强模型，在解码的过程中动态对比。这些均需要研究者们在未来进一步探索。

7 1 月 2024

GoogleX创始人预警：三年内，AI能在所有领域与人类智力工作者媲美

新一轮AI革命影响正深刻影响人类社会。在通往下一代通用人工智能（AGI）时代的道路上，在短期内可预见的人机深度共存的世界里，我们当下既有的社会行为和社会规则，会发生哪些革命性的颠覆？

北京时间12月1日上午，在钛媒体2023T-EDGE全球创新大会·加州分会场上，谷歌无人车之父、Google X实验室创始人、Sage AI Labs首席执行官塞巴斯蒂安·特伦（Sebastian Thrun）就新一轮人工智能所引发的革命，首次发出全新的重磅预警。

在题为《人工智能新时代》（The New Era of Artificial Intelligence）的主题演讲中，特伦认为， AGI是一种与人类智慧相媲美的智能版本，我们在某些领域，我们已经实现了AGI。但是，我们尚未拥有的是，一种可以完成所有这些任务的人工智能。

基于在人工智能领域20多年的深耕，特伦表示，未来三年内，以下五大需要依靠人类智力的工作领域将会被颠覆，我们将看到AIGC在所有领域中都能与人类的智力工作者媲美，这意味着，所有的工作都将发生变化，没有一个工作将不受影响。

医疗行业

放射学、皮肤癌等许多领域中的诊断AI系统，能够在人们发现症状之前很久就发现潜在的致命疾病；AI可以提供个性化精准医学，根据你的背景、你的DNA以及你的个人特征量身定制的，以在最小的损害下产生最大的影响，放弃“一刀切”的时代；AI在药物研发上也起到了巨大的作用。

法律行业

AGI已经能够通过加利福尼亚州的法律入学考试，在表现上已经不逊于任何一所领先的法学院毕业生。律师工作中，与发现相关的，试图找到必要的事实，进行研究和起草文件，现在都可以由人工智能胜任。

汽车行业

我们现在拥有的汽车可以更自信、更安全地驾驶，比人类驾驶更为出色。

客服行业

客服中心的人工智能工具，可以提取最优秀的客户代理的最佳行为，提升14%的生产效率。

教育行业

AI导师可以提供个性化的指导，AI能够真正深入理解每个学习者，而且，它们可以在白天和黑夜中立即做出响应。

这也意味着，我们将重新定义社会的行为和运作方式。有的AI在我们这一边，它们可以代表我们并为我们服务，我们可以信任它们，这将是有史以来对社会的最大颠覆。（点击文末阅读原文，查看完整演讲视频）

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录，经过钛媒体APP删减：

大家好，我的名字是塞巴斯蒂安，欢迎大家来到今天在北京召开的T-EDGE大会，非常遗憾，我无法现场参加，但我还是很高兴能以这样的方式与大家见面。

我们来谈谈2017年，那时谷歌的Google Brain团队发布了一篇题为“Attention is All You Need” 的论文，它利用了相同的机器学习思想，应用于更广泛的架构，有效地将分散的数据库和机器学习结合起来，引发了一场革命。

今天，当我们看到像GPT-4这样的现代系统，接管并能够在人类水平上有效执行时，我们都能感受到这场革命，这是其中的架构，我就不花时间解释它了，因为它很复杂，有很多层，但我建议大家深入研究并完全理解它，因为这是一项出色的工作，这种架构能够将机器学习应用于大量的新系统，包括在这种情况下，词典和数据库。

现在我们都亲身经历了最近的事件，即GPT的出现，作为一种与计算机互动的新方式，在很多方面，GPT是对技术的渐进性理解，是一种演变，在技术方面，对这项技术能做什么的理解一直在进化。

今天的问题是，GPT是人工智能领域的一个“黑天鹅”事件吗？

解释一下什么是“黑天鹅”事件？这个术语的提出是因为黑天鹅很少见，发现一只黑天鹅意味着一个巨大的惊喜，在计算机领域，我一生中已经经历了两次黑天鹅事件，一次是互联网的出现，最后一次是iPhone的发明。

互联网首次使人们能够在数字化的世界中跨越海洋和许多国家无边界地进行交流，iPhone的出现更进一步，将互联网放入了你的口袋，创造了新的业务，如Airbnb、Uber以及中国的滴滴。

因此，这是完全可以想象的，在接下来的20年里，我们将看到全新的公司崛起，全新的商业模式涌现，这对于人类来说将是完全伟大的，今天有大量的应用正在被人们追求。

显然，当你看到大型语言模型中的转换器时，你会发现它们以前所未有的方式回答问题。因此，如果你的业务涉及客户互动以及客户进行研究并提出问题，你现在可以重新定义这种互动的方式，总结大量信息并以我们理解的形式呈现。

为什么一本书要有300页呢？为什么你不能在按下一个按钮的同时将这本书缩短到10页？你可以在10分钟内阅读完它，起草文件方面，你已经看到GBT在起草文件中的无与伦比的能力，如果你还没有看到，请访问GPT或任何其他人的工具箱，要求它为你起草法律文件、一首歌曲，或者一首爱情诗，无论你需要什么，它都可以为你起草。

机器翻译方面，GPT可以翻译成90种不同的语言，现在的语音识别水平非常好，与一个以母语为基础的说话者相比几乎无法比拟，这意味着你可以用任何你想要的语言进行交流，我可以与我们的中国保姆流利地用中文交谈，但与我的手机交谈时使用英语，这现在有了出色的口头和书面汉语写作软件。

我们相信这是软件工程师中智能的巅峰，你现在可以使用任何语言进行编码，你拥有一个工具箱，可以使你的代码速度提高10倍，甚至我们认为是独特的人类事物，比如创造性地生成艺术。

我稍后会举个例子，人工智能现在与人类表现竞争，以展示我们应用这些技术的我的工作的例子，利用人工智能的主要方式之一是一家名为Cresta的公司，我与我的学生们一起经营了5年。

在Cresta，我们提供给客服中心的人工智能工具，这些是在呼叫中心和客服中心工作的人员，他们与客户打交道，向客户销售产品，处理客户关注事项以及客户服务和留存，现在，正如每个呼叫中心操作员都知道的那样，一些呼叫在业务中是极好的，而其他一些则不太理想，这与他们的能力、技能水平和教育水平有关。

通过人工智能，他们可以提取最优秀的客户代理的最佳行为，每当一个客户代理满足了客户，我们就有一个积极的训练示例。然后，我们训练人工智能大脑，这个大型语言模型，以理解构成出色客户互动的要素，然后利用这个训练信号来赋能所有人。

麻省理工学院和斯坦福大学刚刚与该领域的合作伙伴共同发布了一项大规模研究，我们将立即看到一个14%的生产力增加，虽然这个数字看起来很小，我对这个数字感到比较失望，考虑到美国每年在呼叫中心和联系中心花费数十亿美元，这仍然是一笔巨额资金。

我还将大语言模型用于教育。教育的痛点是获得个性化的指导，有一个理解你的人，以你的速度和知识水平为你进行个性化培训，以确保你和你的孩子在教育领域的能力得到充分展开，在我创办的全球科技教育公司Udacity中，我们今年春天从人类导师转向了AI导师。

虽然AI导师可能还不如人类导师那样出色，但它们仍然要好得多，并且在某些方面更胜一筹，因为它们真正深刻理解每个学习者，而且，它们可以在白天和黑夜中立即作出响应，在我们基于大型语言模型推出AI导师的那一天，我们的互动和参与次数从每天200次增加到了20000次，这对于将AI系统变成个性化导师有多大的差异呢？

这只是开始，我梦想着一个世界，每个世界的孩子，每个世界的人都能发挥他们的全部潜力，因为他们身边有一个几乎不需要花费就能建立的AI导师，让他们有学习任何他们想学的东西的能力。

因此，他们的唯一限制不再是我们居住的地方、成长的地方或能在教育上花费的钱，而是我们可以共同参与全球最好的教育，无论年龄、背景或地理位置如何。

这将是一场改变游戏规则的革命。现在还有许多其他方面，人工智能将改变人类健康，我已经提到了今天在放射学、皮肤癌等许多领域中的诊断AI系统，它们能够在人们发现症状之前很久就发现潜在的致命疾病，让我们提醒大家，癌症是一种可治疗、可治愈的疾病，只要你能早日发现它。

此外，你将会看到个性化精准医学的时代，其中药物是根据你的背景、你的DNA以及你的个人特征量身定制的，以在最小的损害下产生最大的影响，放弃“一刀切”的时代，进入个性化精准医学的时代，将对医学产生深远的影响。

最后，AI在药物研发上起到了巨大的作用，原本需要数周甚至数月的工作，现在在药物设计的关键方面只需一毫秒，在这个过程中，美国和中国已经涌现出了许多可靠的公司，让我们认真追求医学的圣杯，延缓衰老的治愈方法，想象一下，如果找到一种能够阻止或减缓衰老的方法，并给予人们更长更美好的生活，你不正掌握了有史以来最大的商机吗？

现在，人工智能将影响许多其他职业之一就是法律职业，这很重要，因为至少在美国，律师的费用非常昂贵，我为我最优秀的律师每小时支付大约1000美元。这是一大笔钱，相当于其他人一个月的收入。

那么它是如何影响法律职业的呢？很大一部分律师工作与发现相关，试图找到必要的事实，进行研究和起草文件，所有这些事情现在都可以由人工智能非常非常胜任，现在有许多人工智能公司涉足这一领域并提供相关服务，但是随着发展，人工智能甚至可能做得更多，它可能成为你的律师，你解决冲突时的法官。

今天，每一次人类违规行为都受到某种法律背景的约束，这可能是一份合同、一项法律，或者只是一种惯例，几乎所有这些互动都缺乏对了解法律的人的深刻见解，在未来，法律可能成为一个全包容的主题，每天影响着我们所有人，并通过更加遵守和更深刻理解运营规则来使我们变得更好，但最终目标将是AGI，这将改变我们所有人。

什么是AGI？AGI是人工通用智能的缩写，它是一种与人类智慧相媲美的智能版本，我认为我们在某些领域已经实现了AGI，我们现在拥有的汽车可以更自信、更安全地驾驶，比人类驾驶更为出色，通过加利福尼亚州的法律入学考试，这些人工智能系统在表现上已经不逊于任何一所领先的法学院毕业生，这些毕业生成为了加利福尼亚的律师。

但我们尚未拥有的是一种可以完成所有这些任务的人工智能，我认为在未来三年左右，我们已经非常接近，在三年内，我认为你将看到人工智能系统在所有领域中都能与人类的智力工作者媲美，这意味着所有的工作都将发生变化，没有一个工作将不受影响，这意味着我们将重新定义社会的行为和运作方式，有了人工智能系统在我们这一边，它们可以代表我们并为我们服务，我们可以信任它们，这将是有史以来对社会的最大颠覆。

一切都源于这个非常简单的想法：计算机是否可以接受培训？它们是否能够学习？

答案是肯定的。可以通过给出两个例子，其中一个例子来自最近的一篇论文，类似于智能体系的计算，这里展示的是一个对数图，其中在所有三种情况下，水平和垂直线都以对数形式水平表示，是复杂性的度量，比如用于训练网络的计算量，输入网络的数据大小通常为数百亿份文档，垂直方向上找到的参数数量是测试规律，通过测试规则，我们衡量这些网络犯错误的数量。

某种测试涵盖了英语语言测试、法律测试，或者是用对数形式表示的自动驾驶汽车的驾驶测试，从历史上看，所有这些系统都表现为一条直线，这为什么很重要呢？因为随着时间的推移，我们的系统将呈指数增长，这要感谢摩尔定律，因此，水平对数形式基本上是时间的刻度，同时也意味着随着时间推移，我们的损失、误差率将呈指数下降，它们变得越来越小。

因此，我们生活在一个世界中，看到随着时间的推移呈指数级别的进步，多亏了这个被记录的现象，决策变得越来越好，我们看不到它停止变得更加聪明，只是时间问题，它们比我们所有人都更聪明。

我自己也包括在内，一旦我们有了人工智能伴侣，我们在今天所做的事情上将提高100倍的效率，这意味着你和我在两周内所做的事情可以在1小时内完成，这不是令人惊奇吗？这将会发生，我希望在我的有生之年（内），这意味着将为我们所有人提供更多的创新机会，更多的创造力，发现更多我们迫不及待想要开始新生活的事物。

非常感谢！

（本文独家首发钛媒体APP）

7 1 月 2024

CES2024：ChatGPT 已经杀疯了，AI海啸已来！

如果你在等待为了平息关于生成式人工智能的喧嚣，也许可以拉一把椅子。围绕人工智能的热潮丝毫没有平息的迹象——这一事实将在今年的 CES 上变得更加明显。

美国消费电子行业盛大的年度盛会 CES 将于 1 月 9 日重返拉斯维加斯。这是一场为期四天、熙熙攘攘的大型科技集市，展厅里摆满了新产品和充满希望的初创公司，以及触手可及的原型。CES 是一个贸易展，在这里签署销售和分销协议，概念车在拥挤的街道上滚动，科技记者和参观者在地板上徘徊寻找杰出的新产品。今年，许多首次亮相的产品都将配备大量人工智能技术。

多年来，生成式人工智能技术在公众意识的表面下浮现。它终于在 2022 年 11 月成为众人瞩目的焦点，当时 OpenAI 发布了ChaptGPT的第一个迭代。闪亮的新型聊天机器人的到来拉开了人工智能军备竞赛的序幕。由于到去年 CES 举办时，这次爆发的余波尚未完全饱和科技行业，因此去年 1 月在拉斯维加斯并没有进行太多关于 GenAI 的讨论。因此，事后看来，CES 2023 看起来几乎是原始的，比移动电话以来最伟大的技术革命晚了不到六周。

到 2024 年，情况将不再如此。“去年，我们没有像预期那样在 CES 上发布完整的人工智能公告，”Moor Insights & Strategy 首席分析师 Anshel Sag 表示。“如果你认为去年是波浪，那么今年将是海啸。”

预计在 CES 上人工智能将无处不在：汽车、踏板车、耳机、相机、扬声器和电视。在某些情况下，这些产品将仅包含另一种访问 ChatGPT 式问答服务以处理语音命令的方式。但在其他情况下，这些进步可能会更具影响力。英特尔、高通和 AMD 等公司预计将推出支持人工智能服务的芯片。这些芯片将在本地处理人工智能任务，而无需向云中的服务器发送请求，然后等待响应，从而使计算机视觉、语音到文本服务和生成计算等功能变得更加快捷。

CES 是围绕行业趋势进行叙述的地方。Sag 表示，随着本届 CES 人工智能的丰富，这很可能会发生。“人工智能将会压倒一切，”萨格说。“它将变得如此普遍和占主导地位，以至于有些人会厌倦它。”

所以您准备好了吗？AI不会替代所有人，但是可能会替代不会用AI的人！

3 1 月 2024

AI创业公司扎堆义乌“淘金”

2023年上半年人见人爱的大模型，逐渐“失宠”。前有百度创始人李彦宏说“重复开发大模型是资源浪费”，后有百川智能联合创始人洪涛说“99%的行业大模型都可能被替代”。

百模大战后，比参数拼评分乏力的大模型创业者们，逐渐“醒悟”：卷AI原生应用才更有价值。互联网大厂直接将态度体现在行动上：百度亮出20多款AI原生应用、抖音正式上线AI创作功能、吴泳铭接棒阿里“一号位”，开启淘天的AI时代……

初创企业也纷纷在各大论坛、路演中施展拳脚，成百上千的AI应用，将触角伸向电商、金融、游戏、办公等领域，包括但不限于AI绘画、AI翻译、AI视频等工具。

然而，从9.9拍写真的妙鸭相机，到跨语言翻译视频的HeyGen，大多数AI应用产品，难以摆脱公域流量出圈即顶峰的宿命。“昙花一现”的背后，问题指向了商业化落地，场景则是绕不开的关键因素。

被众多掘金者称为“创业天堂”的义乌，近期吸引了众多AI创业公司前去“淘金”。

不是北上去不起，而是义乌更具性价比

“前方到站是义乌，请下车的旅客提前做好准备。”感受义乌的人流，是从火车站听着行李箱拖动的声音开始的。2023年伊始，不少从互联网大厂裸辞、刚毕业的年轻人，疯狂涌入“世界超市”义乌，他们目标很明确，创业、淘金。

在小红书、抖音等社交平台，#裸辞，义乌创业#的帖子成为新的流量，攻略、见闻类评论如影相随。2023年8月，义乌市场经营主体突破100万，而义乌的常住人口不到200万，也就说2个人里，可能就有一个是创业者。

这里不是一线城市，试错成本低；一年发出超100亿的快递，产品销往世界各地；多年营造的营商环境，让每个人都有机会重新开始；就在今天（1月2日），浙江省科创母基金（二期）落地义乌，规模超30亿，鼓励科技创新……始终充满活力，或许这些就是吸引大家前往的原因。

前赴后继的创业者不计其数，义乌因此被称为“民间商学院”，它用持续增长的数字告诉大家：“义乌值得”。今年前11个月，义乌进出口总值首次突破5000亿元，达到5221.2亿元，同比增长18.1%。只是，这样的增长并没有让当地商户心安，即使是自己工厂的进出口销售额同样在增长。

这种不安情绪并非无中生有，近些年，整体供应链优势仍在，但原材料、人工等成本上涨，加之全域电商兴起，渠道变迁导致订单呈现“小而散”的特征，传统工厂正在失去曾赖以生存的低成本优势，同时流量贵、运营转化变低始终是缠绕着中小商家的难题。

2023年初ChatGPT的火爆，让AI获得前所未有的关注度，不少义乌商家也嗅到AI工具能在运营、办公、营销等方面，节省一定的人工成本，并通过不同途径试水。商城集团同样看到了AI给传统贸易带来的机会，决心投身其中的同时，深入思考“义乌有什么，义乌能做什么。”

40多年来，义乌凭借着“一盘好货”吃到了后端供应链的红利，但不得不承认在前沿科技面前缺乏技术基因，加之大模型自诞生起就意味着需要大量资金投入，自研大模型并基于模型开发AI应用，是一件性价比极低的事。

深入思考后，义乌商城集团与人民网、腾讯、清华大学等机构，达成战略合作，发布全球首个商贸领域大语言模型。具象的表现为Chinagoods AI 2.0的升级，众多AI创业公司抢先入驻。

专注抖音飞书AI协作和新媒体带货的企联AI，就是首批入驻的创业公司。在义博会现场，该公司市场总监邵雄与超100名义乌商家建立了联系。他感知到不少商家有心用AI工具去弥补企业在发展过程中遇到的瓶颈，但无力去落地，一方面大多数中小微企业没有足够的人力、财力自研AI工具，另一方面是工具使用的门槛和自身能力的限制。

这与当年小程序诞生类似，几乎所有人对小程序的架构、能力边界、应用场景都十分迷茫，企业独自摸索，小程序如蜗牛般向前发展。直到微信服务商的出现，一边掌握小程序的底层架构，一边对接企业帮助其打造专有小程序，在微信生态实现获客、交易、留存。

微盟、有赞的脱颖而出，从侧面印证着服务商存在即合理。进入AI时代，亦是如此，市场可能不需要太多大模型，但需要更多AI服务商。灵图科技是专注AI图文处理的服务商，为义乌小商品定制AI图文处理及商品详情页生成。

珠宝饰品是义乌的支柱产业之一，灵图科技联合创始人何道婷介绍道，饰品是占画面面积非常小的物体，另外有的吊坠、手链采用镂空设计，导致AI生成商品图时技术难度大。

在精细度上下足重功夫的灵图科技，认为义乌市场和他们的契合度极高。而伴随着义乌饰品商家使用其产品次数更多，新的需求和中间出现的问题也将推动他们的产品不断迭代。

这与卓奥优效的王童生不谋而合，其公司主要是为企业提供品牌营销方案，在他眼中，义乌本身的供应链完整，需求明确，可以有效减少沟通成本。其次是义乌不少品类形成大规模，有了标杆案例后，能更好切入整个行业。

放眼全球，义乌市场都是极具代表性的传统贸易市场，能提供“丰富AI原生应用”场景，专注智能对话与私域运营的句子互动就把义乌看作最大的落地场景，从商品数字化、创意生产、智能发布到智能客服等更多环节，AI技术都能渗透。

拥有“小商品大流通”应用场景的义乌并不想“吃独食”，反而以开放的态度欢迎服务商来义乌。因此，被贴上“高大上”标签的AI创业公司，扎堆到义乌淘金，更加顺理成章了。只是在人人都高喊AI之际，市场中的声音也复杂起来。在机会和乱象中的一次赛马

花开两朵，各表一枝。

虽然都是AI应用，但在义乌不同服务商讲述着不一样的故事。走在街头随处可见的AI数字人广告、AI翻译的名片；接二连三的营销电话，告诉你888元/套方案，连续包月还有折扣……

走访义乌产业带时，有部分商家向鲸商透露，被不少AI应用服务商骗过了：产品五花八门，效果不明显，售后也比较困难，就是一个大坑。

市场乱象也在特看数字人产品经理清慎那得到了验证，他在服务客户中了解到，上半年市场上涌现出了一群AI应用代理商，天花乱坠地说数字人直播能赚多少钱。“打着帮你赚钱的旗号割韭菜。

乱的背后，是行业标准不统一的表现，也是机会面前，大家都想分一杯羹的野心。2000年前后，马云创办的“中国黄页”是中国第一个提供互联网商业信息发布的网站，在这之后无数门户网站如雨后春笋般冒出。

当时义乌商家乘着中国加入世贸组织的东风，纷纷加码出口业务。面向复杂国际市场，很多商家不知所措。能解决企业贸易间的信息匹配问题的网站，成为不少商家的一种“解惑思路”。

一帆日用品创始人朱燕俊曾向鲸商回忆道，当时很多地推的销售员上门推销产品，起初都是抱着试一试的心态，后面发现理想与现场差距很大，久而久之选择了取消这部分的投入。一帆并非个例，这些良莠不齐的网站也逐渐不复存在。

回头来看，站在义乌商城集团的角度，在互联网大潮中确实是错过了平台化的机会，Chinagoods的诞生也仅仅三年的时间。从而义乌商家从面对黄页地推大使到电商运营服务商，都是需要自己去判断和试错。

进入AI时代，商城集团主动革新，做出改变，转型“第四方服务平台”。在面对海量的服务商时，通过战略合作将其吸纳到Chinagoods平台。

从以往市场乱象的情况来看，“信任”是服务商和经营户之间的“柏林墙”。2023年义博会后，王童生在与大多数商家的沟通过程中，他最大的体感是不信任，从而难以推进下一步的合作。

而通过平台去找服务商的话，在他看来这能让信任问题得到缓解，因为本身平台就会筛选掉资质不全的服务商。何道婷同样肯定了平台带给她们的价值，她告诉鲸商自己在做线下调研的时候，很多商户也告诉她遇到过空壳公司，卷一笔钱就跑了。

“从0开始切入市场，很难去建立信任的。”何道婷说，商城集团介入后，对服务商市场起到的还有规范作用，这对商家和服务商都是很好的帮助。

在Chinagoods平台的牵引下，不少服务商离经营户更近了一步，而在市场乱象仍未遏制，标杆服务商未出现时，这仍是一次持久战。在清慎看来，“要用产品效果说话。”

以数字人为例，他认为衡量效果的标准分为两个方面，客观上就是实际直播数据，真人和数字人卖货量的对比；而主观上的因素则相对较多，如整体的视觉效果、自然度、是否符合直播运营的需求等。、

在选择合作对象时，特看也会衡量客户是否适合去做AI这一块的投入，并非来者不拒。清慎表示，成功的模式很重要，大企业往往更具试错的能力，一般都会选择和行业头部合作，跑通之后再蔓延至同行的中小商家。

在邵雄眼中，要做长久的生意需要提供整个过程的服务。以ChatGPT举例，有用户付费了一年的费用，结果中途接口断了，无人问津也很难拿到退款。因此企联AI会在强调自己的合规性，以及从接口搭建、工具使用、后台维护等全链路服务。同理，良性的循环，客户的付费意愿也随之加强。

挤“泡沫”，找“杠杆”

作为跨境贸易主枢纽之一，义乌以其完备的供应链脱颖而出，成为各电商平台的主要货源地。近年来，经营户都在探索用数字化工具，给自己的生意降本增效，找到增长突破口。

随着人工智能生成的图片和视频文案赢得爆发，AI工具获得了大家的青睐。当经营户都试图抓住跨境电商这一轮机会时，义乌也被AI创业公司当作产业应用商业化的“杠杆”。

从“技术成熟度曲线”的角度来看，AI技术萌芽到稳步爬升的过程中，投机取巧去市场割韭菜的公司一定也不在少数，其中不乏临时换上“AI马甲”创业公司，渗透培训、代运营及代开放等全链路，当快递打包大妈都在激烈讨论AI时，这股AI“泡沫”也就面临破灭边缘了。

面对生死，真正专注技术与场景创新相结合的创业公司和大厂，则在竞争中挤“泡沫”。

特看数字人的创始团队都出身于大厂，对大厂的组织架构与业务模式上的弱点有深切感受。在阐述其与大厂的竞争时，他们清晰的知道自己的优势在哪。一方面，创业公司组织架构更灵活，反应速度快，产品迭代更迅速；另一方面，创业公司业务更聚焦，精力集中在细分场景，提供贴身服务，产品效果和服务都有更好的保障。

“小创新靠大厂，大创新仍然要靠小厂。”百川智能创始人王小川在接受媒体采访时，同样肯定了创业公司的价值。而大厂多年积累的用户数据和反馈，这是创业公司恰恰缺少的。言外之意，挖掘更多客户，在实践中迭代产品，则是这些创业者们的必由之路。

义乌市场有7.5万个商位，26个大类，拥有庞大且优质的经营户。在泡沫之外，只有真真正在技术上投入，在应用上开发和创新并深入行业做服务的AI创业公司，才能经得起市场检验，获得经营户认可，并有希望成为某一领域或者品类的Top服务商。

付出往往会有回报，有了标杆案例后，这些公司也能将成功经验向义乌市场其他商户、品类一一复制，并拓展至其他产业带，与义乌“前店后厂”、“工贸联动”的特质相呼应。这群创业者的起点可能是义乌，终点则和义乌经营户一样，“买全球买全球”。

当义乌商贸流通的产业厚度与垂类行业深度，被AI算法不断训练、学习，沉淀的大数据资产，则会进一步加速垂直品类产业数字化，这一现象可能最先体现在产业云SaaS平台，后端进一步深入产业源头工厂，前端多元化触达分销渠道，倒逼设计、制造、流通等多环节，更具碎片化、柔性化能力。

2024年的序幕已拉开，大量AI创业公司在应用落地和场景开发上，蓄势已久，爆发点可能就在今年。义乌作为最大商贸应用场景，暗流涌动正在进行时。企业竞争，不是大鱼吃小鱼，而是快鱼吃慢鱼。谁能在机会面前，快速抢占先机，谁就有可能率先获得话语权。

3 1 月 2024

从文生图到文生视频，AI行业卷疯了

前不久，身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂，让人不可思议的是，动画版的马斯克不仅神形兼备，背景和动作也非常连贯合理，而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服，3D动画”的关键词，一个身穿太空服的卡通马斯克便能跃然于屏上。近几年，随着AIGC赋能多业态应用的加速落地，整个行业的热潮，已经逐渐从文生文、文生图，转向了文生视频领域。事实上，AIGC从文字到视频是大的发展趋势，不少产业人士已经感知到了市场的风向，国内字节跳动、阿里、百度等科技大厂均已跑步入场。

AIGC迈入视频时代据了解，字节跳动于11月18日推出了文生视频模型PixelDance；阿里紧随其后也上线了Animate Anyone模型；百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。显然，AI技术与文生视频的融合已经在业界掀起了一股新的热潮。而国内玩家之所以如此积极地下场布局，其中的原因不言而喻。

首先，文生视频应用非常广泛，具备巨大的市场潜力。短视频市场虽然方兴未艾，但短视频的制作能力却跟不上各个平台爆发的短视频需求。而文生视频技术的日趋成熟和广泛应用，或将为当下热门的短视频市场带来一些变数。比如，影视和游戏等行业就是文生视频落地的重要场景，文生视频用文字就可以编辑和生成想要的故事情节，实现创意辅助和降本增效。而凭借为内容生成赋能这一独特优势，文生视频的前景也是毋庸置疑。

其次，文生视频操作十分便利，能有效降低各项成本。众所周知，个性化的视频制作麻烦、成本高昂，所以一款简单的视频生成工具，就成了不少行业和企业的渴望，而AI文生视频技术能力的突破则为这一问题带来全新解决方案。文生视频顾名思义就是无需视频制作技巧，仅用简单文字就可以生成想要的视频素材，不仅如此，还能随着输入场景和关键词不断更新，简直大大降低了视频制作的门槛和成本，可以说是创作者在数字化时代下的“福音”。

最后，文生视频产品功能惊艳，能进一步增强企业竞争力。在当下的AI赛道上，文生图的应用早已层出不穷，相比较而言，能够完全“攻下”文生视频这一阵地的玩家却是寥寥无几。归根结底，是文生视频的产品功能更加强大，其难度自然也就可想而知了。只不过，高难度往往伴随着高价值，若是有哪一个企业能凭借强大的算力、跨领域合作能力和技术自主性等优势引领这一赛道，那么其在行业内形成差异化优势也将指日可待。

万丈高楼平地起文生视频作为一种新兴的传媒形式，正以前所未有的方式影响着我们的日常生活。目前，在企业宣传、数字化人、科普创作、线上社交等领域都对文生视频技术有所运用。而为了提高视频生成的流畅度、真实感，国内入局的玩家如字节跳动、阿里和百度等都在多个方面下足了功夫。

一方面，各玩家收集了大量数据，以提高视频生成效果的多样性。文本生成视频模型往往需要大量数据来学习字幕的相关性、帧照片的写实感和时间的动态信息，而缺乏高质量配对的数据集，就难以合理组合人物、难以合理架构场景，因此，生成视频的合理性及连贯性就会大打折扣。阿里为了提高生成效果的多样性，就让其研究人员收集了大约3500万单的文本视频对和60亿文本图像对来优化模型，让生成的视频达到了预期效果。

另一方面，各玩家设计了分层编辑器，以提高文生视频语义的一致性。从简单文字生成高质量视频，就需要文生视频产品能够准确预测文字的意图，然后在保持输入文字内容和结构的同时生成精确的运动。为了达到这一目标，阿里的研究者设计了两个分层编码器，即固定CLIP编码器和可学习内容编码器，分别提取高级语义和低级细节，然后将其合并到视频扩散模型中，更好地确保了低分辨率下生成视频的语义连贯。除此之外，各玩家还提高了视频分辨率，以保证视频生成效果的高质量。文生视频最理想的效果就是用户给出提示词，系统自动生成任何风格相对应的视频，但这就对视频分辨率提出了不小的考验。阿里的文生视频将视频分辨率提高到了1280×720，还优化了初始的600个去噪step，以改进生成视频中存在的细节、伪影和噪音问题。字节跳动文生视频也提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性变得更强。

打铁还需自身硬随着人工智能和视频技术的快速发展，AIGC行业正在向AI视频倾斜，AI文生视频的爆发期或许即将到来，而参与到AI视频创作中的玩家也将会越来越多。即便是在这样的大环境下，不管是已经推出模型的字节跳动和阿里，还是正准备推出插件的百度，能入局文生视频赛道，其自身都有着不可忽视的倚仗。

一来，参与玩家算力储备充足，能很好地克服文生视频在技术上的不足。作为文生文、文生图的升级，文生视频对算力以及模型的工程化能力要求更高。据了解，文生视频的人工智能模型参数为10亿级别至100亿级别。而国内在文生视频领域有所布局的头部玩家中，无论是字节跳动还是阿里、百度，其在参数上的积累都已经十分深厚。可见，这些具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

二来，参与玩家行业经验丰富，能大大加速文生视频面世和迭代的速度。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性，一定程度上来说，文生视频可以看作是文生图的进阶版技术，这也就意味着，文生图的技术和经验可供文生视频加以运用和参考。而众所周知，字节跳动、阿里、百度等玩家早已在文生图领域有所深耕，甚至有的产品也已投入商用，凭借在文生图技术上的积淀，其在文生视频领域也有望实现大幅进步。

三来，参与玩家资源整合能力强大，能够为其文生视频的发展提供助力。相较于文字和图片，视频能承载的信息量更大，这也就是说，想要生产出更加生动、高清，真实感更强的视频，各玩家在文生视频上的投入成本也将更高。不过，值得一提的是，作为互联网大厂，阿里、百度、字节跳动经过多年发展，其在人才、资金、算力等众多资源和实力上的优势和权利不容小觑，得益于此，其文生视频产品也将拥有更强的竞争力和影响力。

山雨欲来风满楼文生视频不仅颠覆了传统媒体行业，也为内容升级和产业进化带来了许多新的商机和可能性。只不过，目前国内文生视频技术还在发展的初级阶段，虽然看上去文生视频与文生图的逻辑极其相似，但事实上，文生视频的难度要大得多，需要突破的瓶颈也有很多。

一是，文生视频数据要求高、计算难度大，参与玩家离产出令人满意的视频还有很大距离。相较于文字和图片，视频在多维信息表达、画面丰富性及动态性方面有更大优势，但这同时也意味着，文生视频对算力的需求将进一步加大；文生视频所涉及的自然语言处理、视觉处理、画面合成等领域，需要攻克的技术难点也在增加。而国内的玩家，目前仍然缺乏高质量配对数据集，因此其在语义准确性、清晰度和连续性等方面将会面临严峻挑战。

二是，文生视频成本耗费大，商业模式较单一，参与玩家想要将商业化跑通还有一定难度。与文生图相比，文生视频的计算复杂性提升，其成本耗费也会相应有所增加。另外，图片生成类的商业模式较为单一，收费模式和收费依据较为趋同，而视频生成模型的收费依据则与其类似。虽然图片生成类在多模态大模型中的商业化程度较高，可为视频生成的商业化前景提供一定参考，但作为新兴产业，文生视频的商业化想要跑通仍需一定时间。

三是，国内外企业纷纷加大了对文生视频的投入和研究，该赛道的竞争将会进一步升级。AI视频生成赛道已然十分热闹，不仅有美国AI初创公司Pika labs发布的“Pika 1.0”，还有谷歌推出的AI视频生成模型“W.A.L.T”等。而除了国外企业对文生视频技术的高度重视外，国内百度、阿里、字节、腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足该领域，并推出了相关的人工智能模型，显然，视频生成领域的竞争正日趋白热化。从文生图到文生视频，AIGC赛道的竞争已经非常激烈。虽然国内文生视频的进展相对缓慢，尚且没有明星产品的出现，但更多有人才、有技术的文生视频公司正在不断涌现。只不过，除了上述挑战之外，文生视频目前还有一些数据隐私和安全性问题需要解决，真正的商业化运作和盈利能力也还有待验证。而谁能在这次“跑马圈地”中成为最终的赢家，我们也只能拭目以待。

3 1 月 2024

电影“AI化”已成定局，华为、小米转战入局又将带来什么？

从华为、Pika、小米等联合打造电影工业化实验室、到Pika爆火，再到国内首部AI全流程制作《愚公移山》开机……业内频繁的新动态似乎都在预示着2023年国内电影开始加速进入新的制片阶段，国内AI电影热潮即将来袭。

此时以华为为首的底层技术科技企业加入赛道，对于国内电影制作而言，或许意味着一场弯道超车赛即将开始。 华为入局影视行业所为何来？

科技类企业正在加速入局AI影视行业。

今年11月初，电影工业化实验室宣布与华为、小米、商汤、Pika Labs等科技公司合作，共同探索用AI技术打造电影工业化3.0。

同月月底，刚刚加入电影工业化实验室的初创公司PikaLabs首次全网公开发布AI视频生成器1.0测试版本。

事实上，科技企业布局影视数智化赛道早有踪迹。以华为为例，2021年华为云就与鸣锣影业、中国电影科研所、上海度假区管委会等多方，在5G数字影视产业、中国影视工业化等方面达成长期战略合作。2023年华为又与华策影视在数字版权保护、影视制作技术标准确立和影视行业人工智能应用等多个维度开展合作。

这背后的核心逻辑在于，AI技术赋予影视行业巨大的增量价值，进而驱使众多科技企业加入。彭博行业研究报告指出，生成式AI市场规模将从2022年的400亿美元，增长至2032年的1.3万亿美元，未来10年年复合增速有望达到42%。而其中，东吴证券指出，在巨大的降本增效以及创意需求下，影视行业综合音频、视频、文本，是生成式AI的优质落地场景。

反之来看，站在当前时点，以华为为首的AI科技类企业陆续入局AI影视行业，在某种程度上也意味着国内影视行业正极力加速生成式AI在业内的落地，促使AI赋能影视行业。

正如，一经发布就瞬间火爆全网的Pika Labs 1.0也从侧面印证了AI影视应用离商业化不远了的。数据显示，PikaLabs1.0发布后为该网站带来20万+访问量，11月环比上涨62.8%。

一般来说，在新产品、新技术或新兴产业商业化前期，率先实现业绩兑现的环节总是更能打动资本。在AI领域同样如此，相比于技术端，AI应用侧作为盈利最先直接兑现的环节，其在产业化初期更能打动以寻求回报为主要目的的投资者们。

而此次PikaLabs1.0采用全新的AI模型，展示出的100%纯文本视频生成能力，以及以3D动画、动漫、卡通和电影等不同风格生成和编辑视频的应用能力，正是证明了AI影视应用产业化指日可待，商业价值即将兑现这个事实。因此消息一经传出，瞬间点燃了二级市场AI＋视频生成概念的炒作情绪。

资本的故事总是让人沉坠其中，而国内AI底层技术的绝对舵手华为，携手多家科技企业的强势加入似乎又在理想与现实中增添了肯定的一笔。那么，此时加速推进的“AI化”又将为国内影视产业带来怎样的机遇？

华为上场正是时国产电影迎来契机

复盘内容产业的发展历程时，不难发现，过去多年的互联网时代中，日益蓬勃发展的以信息网络技术为主的底层技术是内容产业进步的主要驱动力之一，也是该产业更新迭代中必不可少的支撑点。

因此，当前AI技术对电影行业的冲击，或许将为中国电影工业化带来不可估量的机遇。华为产业发展副总裁燕兴表示，“随着云计算、XR、AI等技术的快速发展，虚拟制作迅速推动影视质量和效率升级。”“行业的每一个环节似乎都正在经历着重构，影视产业工业化也进入到了科技赋能的阶段”

此时，以华为为首的科技企业成为影视行业中不可缺失的力量，助力科技赋能电影制作的整个流程。

以华为为例，截至目前华为已打造涵盖前期创意、中期拍摄、后期制作及发行等全流程的影视数字化服务平台，为中国影视行业数字化、智能化转型提供坚实的底层技术支撑。

内容创意方面，华为影视数字化服务平台能将创意转化为可视化图像，为导演和制片人提供直观参考，确保创意贯穿项目，避免后期出现大量的修改和返工，也在一定程度上节省总体制作时间。

拍摄方面，为内容制作公司打造可靠的云原生内容制作产线。AI等新技术驱动新技术驱动影视制作向虚拟拍摄转变，数字原生内容需增加，进而产生大量的效率、质量所需的海量算力、远程协作、弹性轻资产运营需求。

而华为云打造的数字内容生产线MetaStudio平台，支撑数字内容更高效率、更高精度、更低成本、更加智能的完成生产制作。它满足传统影视制作需求，同时提供数字原生内容的云上创作。特别是MetaStudio具备模型制作、资产管理、内容编辑、物理仿真和云渲染五大能力模块，助推媒体产业数字化转型和产业升级。以中国影史票房第一的《长津湖》为例，就是利用华为云渲染基地为后期团队提供了澎湃渲染算力。

后期制作方面，借助AI技术可以打造虚拟角色和特技，既可为内容创作提供广阔的的可能性，也可以使用视频智能编辑来提高后期制作的效率和效果。以商汤科技为例，凭借其先进的图像识别和处理技术，先后与《阿凡达》系列、《星球大战》系列、《复仇者联盟》系列、《建军大业》等多部大制作，显著增强了电影的视觉效果与情节的真实感。

此外先进的硬件端可以最大化展示创作者意图，并为影视观众提供沉浸式视听体验。除去影片剧情内容外，终端体验也是决定性因素之一。而华为主导开发的HDR Vivi技术可以准确把握每一个环节，帮助电影后期制作完整展示创作意图，并在各种设备中实现极致体验。

除去科技赋能产业更多的价值外，对于整个电影行业而言，伴随科技企业快速涌入，人工智能技术等核心技术日益成熟，或许将重塑全球电影格局，国内电影行业迎来史诗级机遇。

尽管2019-2021年疫情国内电影市场复苏较好，连续两年成为全球最大的电影市场，在全球电影中影响力也有所上升，但当时票房依旧还是以中国市场为主。且到了2022年随着全球影视市场的恢复，美国重回全球第一票仓市场，国内仅4部电影进入全球票房收入前50，前十中有8部的主产地为美国。以好莱坞五大制片为首的海外制片巨霸依旧占据全球主要地位。

因此中国电影试图完全走向世界，还需要一个契机。而全球影视行业成长相对乏力的大背景下，AI+电影的到来或许赋予中国电影这种可能性。

一方面，目前即使是莱坞出产的大电影市场情况也比较乏力。北美票房统计网站数据显示，2022年北美票房收入前十的影片都为续集电影，且多部头部作品票房未达到预期，其余多数好莱坞电影整体表现也较艰难。主要原因在于好莱坞商业片中过多的模式化、套路化，使得观众出现“超级英雄疲劳”。2023年《闪电侠》、《蓝甲虫》等大作品的惨淡收场更是证明了这点。

而与之相反，中国影视行业总体向上趋势未变。尽管受疫情影响，中国不再是全球第一票仓市场，但曾经的辉煌不是偶然。资料显示，2022年《长津湖之水门桥》闯入全球排行前十，位列第九；此外，截至2023年11月13日，中国电影票房重返500亿元，其中国产影片占比达到83.4%，进口影片仅占比达到16.6%。

国产片成为中坚力量，好莱坞光环“失灵”。截至发稿前，国内票房前十均为国产片，涵盖现实题材、悬疑犯罪、科幻以及民族情怀等多种题材，内容与制作工艺上的创新更是接连不断。相比之下，排行前20名中，仅有《速度与激情10》《阿凡达：水之道》《铃芽之旅》，以及中美合拍的《巨齿鲨2：深渊》几部好莱坞大作，尤其是最新上市的《惊奇队长2》即使“国产保护月”不在，观众依旧不愿意看。缺乏新意、不接地气是该制作大片并不为观众买单的主要原因。

另一方面，一般颠覆性技术变迁很容易带来行业格局的重塑。人工智能赋能电影产业后，其商业模式和内容形态都很可能被颠覆，此时中国影视行业借助科技企业的力量或能抓住百年难得一遇的机会。

以2023年中国影视中最值的骄傲的《流浪地球2》、《封神第一部》以及《长安三万里》三部制作为例，都在借助大量的AI技术以不同的风格展示不同的价值输出。其中，规模化使用人工智能技术的《流浪地球2》，已在全球38个国家和地区先后上映，并“走进”了维也纳联合国总部。借助更先进的技术，中国电影加速走向世界，满足观众需要的同时，通过价值传播提升中国影视在全球的影响力。

此外，近日唐季礼导演联合多牛科技，正试图运用AI技术来融合中国游戏产业与百年影视行业各自优势，开启“游戏电影化”创新模式，或许将打开中国电影工业化新局面。

总而言之，借助技术革新浪潮，“当下，中国电影在从电影大国走向电影强国的过程中，进入了一个试图创造新的世界电影格局的阶段。”正如中国电影家协会副主席、清华大学新闻与传播学院教授尹鸿表示。

AIGC浪潮席卷全球，包括华为在内的科技企业正在加快推动影视产业转型，给予影视制作新的创作模式与思路。但需要明白，技术只是内容创作的底座，而内容才是影视制作的核心血肉。因此，在追逐弯道超车的梦想时，打造并利用好先进的电影制作工艺只是其一，关键还是要依靠高质量的创意内容、创意编辑以及导演制作团队，才能打造更多精品大片。

3 1 月 2024

2023年欧洲十大人工智能公司

近日，TechEU发布了2023年欧洲十大人工智能公司，总结了在这个领域企业家、投资者和监管机构关注的主要企业，并根据企业2023年度融资额进行了排序。

1、Aleph Alpha（德国企业，上一轮融资5亿美元）

Aleph Alpha部署了大型语言和多模式模型等变革性人工智能，并运行了欧洲最快的商业人工智能集群。Aleph Alpha公司在B轮融资中筹集了超过5亿美元。此次投资由人工智能创新园(Ipai)、博世风险投资(Bosch Ventures)和施瓦茨集团(Schwarz Group)的公司领投。

2、Mistral AI（法国企业，上一轮融资3.85亿欧元）

法国生成式人工智能初创公司Mistral AI在2023年完成了两笔交易。在成立的第一个月，该公司在种子轮融资中筹集了1.05亿欧元；在不到6个月的时间里，他们在A轮融资中获得了3.85亿欧元的额外投资。最后一轮融资由Andreessen-Horowitz领投，LightSpeed Ventures、Salesforce和Motier Ventures也参与其中。

3、Helsing（德国企业，上一轮融资2.09亿欧元）

总部位于慕尼黑的国防人工智能公司Helsing获得了2.09亿欧元的B轮融资，巩固了其作为欧洲资金最充足的国防科技初创公司和该领域领先的人工智能公司的地位。本轮融资由General Catalyst领投，瑞典集团萨博(Saab)作为战略投资者加入这一轮融资，从而加深双方现有的合作关系。

4、DeepL（德国企业，上一轮融资9300万欧元）

总部位于德国科隆的深度学习语言翻译初创公司DeepL筹集了9300万欧元。本轮融资由硅谷/旧金山VC IVP领投，其他投资方包括Bessemer Venture Partners、美国/日本的WiL和Atomico。

5、Synthesia（英国企业，上一轮融资9000万美元）

总部位于伦敦的人工智能视频制作平台Synthesia在C轮融资中筹集了9000万美元，这将使该公司继续利用人工智能简化视频制作。本轮融资对该公司的估值为10亿美元，由Accel领投，英伟达旗下风险投资部门NVentures投资，现有投资者包括凯鹏华盈(Kleiner Perkins)、GV和Firstmark capital。

6、Pixis（英国企业，上一轮融资8500万美元）

Pixis是一家无代码人工智能基础设施公司，专注于帮助品牌增强绩效营销，该公司在C1轮融资中筹集了8500万美元。旅游资本领投了本轮融资，参与本轮融资的现有投资者包括Grupo Carso、General Atlantic、Celesta Capital和Chiratae Ventures。

7、Everseen（爱尔兰企业，上一轮融资6500万美元）

总部位于爱尔兰-科克的Everseen主要为零售商提供人工智能驱动的计算机视觉和自动化服务，帮助他们关注库存缩减，即盗窃，并简化整体运营。他们的公司在A轮融资中筹集了6500万欧元，由现有投资公司crospoint Capital Partners提供。

8、Stability AI（英国企业，上一轮融资5000万美元）

人工智能初创公司Stability AI通过可转换票据筹集了约5000万美元。该公司以其稳定的图像生成软件而闻名。

9、PhysicsX（英国企业，上一轮融资2900万欧元）

英国PhysicsX是一家具有的突破性的工程公司，将生成式人工智能引入汽车、航空航天、可再生能源和材料生产等行业。该公司在General Catalyst领投的A轮融资中融资2900万欧元。Standard Investment、NGP Energy、Radius Capital以及KKR联合创始人兼联席执行主席Henry Kravis也参与了这轮融资。

10、DRUID（罗马尼亚企业，上一轮融资2800万欧元）

DRUID是一个端到端平台，用于构建会话业务应用程序和专门完成业务任务的AI虚拟助手。DRUID在B轮融资中获得2800万欧元，由TQ Ventures领投，新投资者Smedvig Capital和现有投资者GapMinder、Hoxton Ventures和Karma Ventures参与。

3 1 月 2024

中国第三：亚太地区人工智能准备程度最高的国家有哪些

各国想要在生成式人工智能时代取得成功，就需要具备强大坚实的制度、基础设施、组织和道德基础。
亚太地区的经济体，如新加坡、中国、日本、韩国和澳大利亚等都已经制定了相关政策，致力于抓住生成式人工智能带来的机遇。
亚太地区人工智能准备程度指数衡量了亚太地区12个国家的人工智能准备情况。

人工智能（AI）已成为全球消费者、企业和政府日常工作生活的一部分。生成式人工智能，即利用一组数据来创造新事物的技术，在2023年加速兴起并发展。全球各地的消费者都用生成式人工智能满足日常信息需求，各类组织机构也正将其纳入运营范畴。
作为迄今为止最具变革性的技术之一，生成式人工智能可以帮助用户在创造力、生产力和效率上更进一步，并改变政府和企业对人工智能的态度。一项最新研究发现，有三分之二（67%）的IT行业领导人将生成式人工智能列为未来18个月内的业务重点，三分之一（33%）将其视为公司的头等大事。同样，72%的受访公司表示，他们将在未来三年大幅增加对人工智能的投资。
对生成式人工智能不断增加的投资和使用也会给全球带来巨大的经济收益。麦肯锡最近的一项研究预测，到2030年，生成式人工智能每年可为全球增加2.6万亿至4.4万亿美元的经济收益。
在亚太地区，生成式人工智能带来了巨大的经济机遇。在澳大利亚，预计到2030年，生成式人工智能每年对经济的贡献可以高达1150亿澳元（约合760亿美元），具体取决于对人工智能的采用程度以及工人对其他任务的适应程度。在日本，据估计，生成式人工智能可以释放价值约148.7万亿日元（约合1.1万亿美元）的生产潜力。

决定人工智能准备程度的五大因素

人工智能在不断变化发展，包括对生成式人工智能的采用，亚太地区国家想在这种环境中要取得成功，各经济体需要对发展应用人工智能技术做好充分的准备。围绕人工智能建设强有力的制度、基础设施、组织和道德基础，是现在和未来在全球人工智能领域获得成功的关键。决定人工智能准备程度的五大因素如下：

1.基础设施建设生成式人工智能模型会利用和产生海量数据，因此需要大量计算资源并配置专用的硬件。人工智能准备就绪的第一步就是确定密集处理所需的兼容性技术基础设施。

2.数据质量生成式人工智能模型需要大量高质量数据进行训练，学习有意义的模式并生成实际的内容。建立质量数据的坚实基础并持续迭代至关重要，因为它将决定模型的学习结果和成败。

3.劳动力发展状况生成式人工智能将对所有行业的劳动力产生影响，可能会改变某些工作的重点，但不会完全取代这些工作。成功的运用人工智能会增强而不是取代人类劳动。不过，对掌握人工智能技能的劳动力需求会增大。政府和企业需要培养强大的人工智能人才队伍，满足经济体内各领域市场对熟练人工智能专业人才的需求。

4.伦理问题虽然生成式人工智能有深刻改变我们生活和工作方式的潜力，但它并非没有风险。人工智能在带来发展的同时也带来了一些伦理问题，例如可能出现有偏见或有害的内容。因此从一开始就应当优先考虑负责任的、合乎道德伦理的创新，确保推向市场的技术具有包容性，能为任何人所用。

5.整合能力影响人工智能准备程度的因素还包括将生成式人工智能模型与现实应用和工作流程结合的能力。虽然其他四个因素对于提升人工智能准备程度很重要，但生成式人工智能模型的整合对于未来开发出应用更广泛、更灵活和有效的技术至关重要。

2023年亚太经济体人工智能准备程度
为帮助亚太经济体评估企业和政府采用、部署和整合人工智能的准备程度，Salesforce发布了2023年亚太人工智能准备程度指数（2023 Asia Pacific Readiness Index）报告，该指数一年统计两次，此为第三版。指数报告衡量比较了亚太地区12个国家的人工智能准备程度，并用15项统计指标评估了每个国家人工智能准备程度对其社会经济机遇的影响。

虽然亚太经济体的人工智能准备程度整体有所提高，但2023年指数报告发现，各经济体在采用人工智能技术上的准备程度差距越来越大。

2023年版指数报告研究的12个经济体中，有5个经济体（澳大利亚、印度尼西亚、新西兰、新加坡和泰国）的整体人工智能准备程度指数得分相比2021年有所提高，这一数据直接反映出这些经济体在2021年至2023年期间推出并实施了许多与人工智能相关的方案和措施。

新加坡自2019年以来三次蝉联综合第一，这主要得益于其有利的政策和商业环境。日本和中国分别位列二三名，两国都制定并实施了多项颇具前瞻性的方案和举措，规划和促进人工智能在各方面的应用。韩国（排名第四）和澳大利亚（排名第五）在人工智能领域也颇有建树。

2023年指数说明，虽然亚太经济体在人工智能准备程度和采用方法上存在差异，但所有经济体都将人工智能和生成式人工智能列为优先发展的对象。与2019年和2021年相比，人工智能现已经成为所有国家议程的重中之重，各国正在积极实施人工智能战略，人们对人工智能对经济增长和发展的潜在影响的认识也达到了前所未有的高度。

人工智能不仅是一个技术问题，它越来越成为亚太地区经济增长和促进数字贸易的核心驱动力。人工智能对社会的影响也更大，因为它能对劳资关系产生变革性影响，鼓励更具可持续性和包容性的经济增长形式。

3 1 月 2024

50位顶尖投资人与CEO对话，看懂2024年AI如何发展

随着ChatGPT出现，生成式AI引来爆发，尽管AI行业成为年度最大的热门，投融资整体行业依旧在过去一年遇冷。但AI显然已经深深的刻在了每一个创投人的心里，也成为了大家对于未来机会的一个寄托。

结合最新的一些数据，先对过去的一年做一个简单的宏观总结。文章转自投资实习所，内容有所删减。

首先是来自Crunchbase的几个数据：

2023 年，独角兽公司的融资大幅下降，仅为2021年市场高峰时的25%左右。

2023 年，全球最活跃的九大VC在独角兽公司的投资大幅下降。这九家投资机构在2023年共投资了44家独角兽公司，占当年所有融资独角兽公司的3%。

而在2022年，他们投资了213家公司，占当年融资独角兽的28%。在2021年，这个数字是471家公司，占该资产类别的30%。下面是这9大投资机构的一个大致情况图，基本上趋势都比较类似：

其中可以看出，其中最活跃的三家：Tiger Global、Coatue和SoftBank Vision Fund（软银），在2021年的投资数量比2020年增加了近3倍或更多。

a16z、Accel、Lightspeed、Index以及Insight Partners，在2021年的投资数量比2020年增加了近一倍。而Sequoia 红杉是这个名单上唯一一家投资速度增加，但从2020年到2021年并未翻倍的公司。

由于融资不易，2024年独角兽公司的数量可能会减少，有的可能倒闭，有的可能会被收购，一些增长不错的可能会上市，当然还有一些可能会以低估值继续融一部分资金。整体而言，退出更难了。

而AI正在成为大家的寄托，不过对于VC来说，似乎也并没有那么容易。根据FT最新统计数据，2023年与AI创业公司相关的融资中，来自微软、Google、Amazon以及英伟达等几家巨头的投资资金已经占了2/3。

当然这主要是因为几家大模型公司的巨额融资带来的，因此单看金额比例并不完全说明问题，但巨头在AI领域的投资整体更加活跃也是一个事实。

畅想2024年，投资人兼Newsletter作者NBT结合了50位投资人和创始人，对2024年做了一个预测，下面挑选了36条值得关注和参考的部分：

关于AI的ROI

1.Theory Ventures创始人Tomasz Tunguz：

2024年将是企业通过AI实现生产力实质性提高的一年，每名员工的ARR有机会增加10-15%。

2.Altimeter Capital合伙人Jamin Ball：

2024年将是 “从原型到生产”的一年。2023年，每个人都在尝试AI，但有很多问题限制了这些实验的推广，比方说它们的成本是多少？它们安全吗？合规风险有多大？2024年，这些问题都将得到解答，我们将看到AI应用从实验/原型/内部应用走向面向客户的大规模部署。

3.Emergence Capital合伙人Jake Saper：

2024年的将是初创企业尝试基于结果定价的一年。随着GenAI开始显现出可量化的商业影响，初创企业将着手与客户协调价值创造激励机制。比方说Intercom正在尝试的AI机器人Fin，通过解决问题来收费。这种尝试将是崎岖不平的，但我预计2024年将是学习的一年。

4.Chapter One创始人合伙人Jeff Morris Jr：

2024年将是我们如何设计、编程、质量保证、A/B测试和部署软件最大变革的一年—这些工作最终由AI实现。随着 2023年AI软件工具的激增，我们将记住2024年是世界一流的设计、产品和工程团队将这些新的AI超级能力有效集成到日常工作流程各个方面的一年，而这还没有发生（大多数团队仍在进行试验）。

2024 年将被铭记为软件构建发生巨变的一年。

关于AI的基础设施

5.KP合伙人Bucky Moore：

2024年将是超越Transformer架构限制的AI模型的一年，这会为我们提供更大的上下文窗口、更快速和便宜的推理以及整体上更强大的人工智能系统。

6.20VC合伙人Harry Stebbings：

2024年的重大突破将是一种基于大模型的路由基础设施。成本是大规模使用大模型最令人望而却步的因素。公司将出于不同目的实时使用多个大模型，围绕不同的应用场景将请求智能地路由到正确的大模型的一系列公司将出现。

7.Canva高管John Milinovich：

2024年将是实时、多模态人工智能无处不在的一年。虽然消费者在过去几个月可以通过ChatGPT、Bard和Bing访问多模式人工智能，但现在才在API层使用。当与更小、更低延迟模型的进步相结合时，这将导致每个应用程序和连接设备边缘的创新爆发。

8.Emergence Capital合伙人Jake Saper：

2024年将是开源基础模型生态系统成为企业采用GenAI关键推动因素的一年。到目前为止，数据隐私问题一直是采用的障碍，成熟的开源模型和训练基础设施将使关注隐私的企业能够部署GenAI，同时最大限度地降低第三方风险。

关于AI应用

9.DoorDash Gokul Rajaram：

2024年的大趋势将是各种类型AI Agent的爆发，专注于满足消费者的各种需求以及各类商业交易。

10.Spark Capital合伙人Natalie Sandman：

2024年将是AI原生应用爆发的一年。如今，Anthropic的Claude和OpenAI的ChatGPT是大模型中的“Excel”——易于上手，但为高级用户解决复杂应用场景提供了巨大的深度和潜力。人工智能原生SaaS应用（从第一天起就以AI为先构建）将出现机会，以分拆目前在Claude和ChatGPT中执行的这些复杂/专业工作流程。

11.IVP合伙人Shravan Narayen：

2024年的一个趋势将是移动优先生产力的再度崛起。仅仅拥有世界各地的信息已经不再足够，我们还期望能够在工作场所和家中随时做出决策和采取行动。尽管如此，生产力应用的移动体验在过去几年中有所下降，因为这些产品变得越来越注重功能叠加和以浏览器为中心。

小型模型将使iOS和Android成为真正的控制中心，同时将出现新的AI原生应用，使我们比以往任何时候都更高效和协作。

12.Emergence Capital合伙人Jake Saper：

2024年的下一个趋势将是服务通过GenAI实现产品化。像麦肯锡和安永这样的企业将面临产品化的压力，因为像Mechanical Orchard这样的科技初创企业已经通过GenAI实现了为客户提供更好、更快、更便宜的结果。

AI与企业级市场的结合

13.Rubrik CPO Anneka Gupta：

2024年，传统大型企业将真正意识到GenAI在提高生产力方面的好处，他们会找到方法来大规模采用这项技术，并逐渐适应在组织内使用。

14.ReflexAI CEO Sam Dorison：

2024年，软件工具在企业工作流程中将真正融入GenAI的持续增长。2023年出现了大量附加功能、快速实验和高不可攀的期望。2024年将揭示这些工具在投资回报率、采用率、实施便捷性和安全性方面的表现如何。

15.Omni联合创始人Jamie Davidson：

2024年将是GenAI进入幻灭的低谷期，但价值将开始在核心企业工作流程和工具中得到体现，因为它被深思熟虑地整合进去。

AI与实体经济

16.Base10 Partners合伙人Adeyemi Ajao：

2024年将是人工智能与实体经济碰撞的一年。我相信AI领域将出现更多超过100亿美元的成功案例，这些公司将为实体经济提供服务，就像我们已经看到的餐饮行业（Toast，Popmenu）、物流行业（Flexport，Motive）、食品行业（Instacart）和金融行业（Nubank）一样，利用人工智能在应用层进行创新，而不是在基础设施层面进行创业。

17.Basis Set Ventures合伙人Lan Xuezhao：

2024年将是在太空探索、生物学、机器人技术、半导体和电池技术等“硬科技”领域进步的一年，这将推动风险投资在这些领域的增加。与此同时，“实体经济”行业，如供应链、建筑和房地产，将通过AI实现重大转型。

AI与健康行业的结合

18.Insight Partners MD Deven Parekh：

2024年将是生物技术和人工智能之间持续融合的一年。

19.BVP合伙人Talia Goldberg：

2024年的下一个重大趋势将是健康领域的范式转变，侧重于促进健康而不是治疗疾病，以及预防而非干预。利用人工智能、数据和先进诊断技术，每个人都将更深入地了解自己的生物学特征、易感性以及保持健康所需的干预措施。

20.Overwater Ventures创始合伙人Kristina Simmons：

2024年的下一个重大突破将是利用生物科技和人工智能解决健康问题，使医疗更加便捷、经济实惠，并提供更高质量的护理。

AI与内容行业结合

21.nospace创始人Tiffany Zhong：

2024年的下一个趋势将是消费者在不知情的情况下使用（和消费）AI。

22.Menlo Ventures合伙人Amy Wu：

2024年将是生成式内容的一年（有些好的，也有很多不好的），视频和3D将是接下来发展的模式，我也对Vision Pro的推出感到兴奋。

23.ChatGPT的答案：

2024年将是人工智能进步一年，特别是在自然语言处理、自动化和个性化技术解决方案等领域。

24.Bard的答案：

2024年的下一个趋势将是AI驱动的个性化体验，模糊了物理世界和数字世界之间的界限。

AI可能带来的麻烦

25.Felt CTO Can Duruk：

2024年，我们可能会首次遇到由人工智能引起的“Wow”时刻。这可能是一些引人注目的丑闻：比方说 Midjourney + Elevenlabs生成的假新闻引发了动荡，或者某位名人声称一张尴尬的“真实照片”实际上是由人工智能生成的。即将到来的2024年美国选举将成为这一切的“有趣”背景。

此外，一个真正的、纯粹的白领公司将首次面临因为AI带来的裁员。比方说亚马逊裁减了在美国的整个调解团队，或者Google解雇了工程师。

语音优先的 AI（Voice-first AI）

26.a16z合伙人Anish Acharya：

2024年的一个重大趋势将是语音优先AI应用。语音将成为一种新兴的与技术互动的方式，并成为一系列新型生产力应用的核心。大型语言模型可以提供远远超越Siri和其他传统产品的语音优先生产力，这将使每个人都能拥有一位随时待命的助手（真的）。音频可以实现更自然和更高保真度的交互，基于这一技术构建的工具将成为我们生活中不可或缺的一部分。

27.BVP合伙人Talia Goldberg：

2024年将是个性化用户界面崛起的一年，这些界面是动态生成的，能够适应使用情况，具备多模态和动态特性。这意味着将会减少聊天机器人界面，而更多地采用环境感知、语音优先和生成式用户界面。

消费科技

28.General Catalyst MD Niko Bonatsos：

2024年，可能会出现由年轻的技术创始人以疯狂的想象力构建的消费者人工智能应用，其第一年的规模将超过ChatGPT。

29.Norwest Venture Partners合伙人Lisa Wu：

2024年，消费技术将复兴，其中有科学支持的健康和保健产品将引领潮流。注重健康的消费者正在寻求权威的声音和有科学证据支持的有效产品。这将为由医生转型的创始人创造新的机会，他们深厚的专业知识和知识共享为他们在创作者经济中赢得了忠实的受众。

他们与社区建立的信任将转化为具有成本效益的客户获取、强大的客户终身价值和战略产品开发机会，最终形成稳健、高效的业务。

机器人技术

30.Wischoff Ventures合伙人Nichole Wischoff：

2024年将是机器人行业的大动作。Figure和特斯拉是人形机器人的新进入者，我预计这一领域将出现爆炸式增长。传统企业已经建立了制造机器人的基础架构。仅制造业就有数万亿美元的市场机会。

软件与软件之间的通信

31.USV合伙人Rebecca Kaden：

2024年的一个趋势将是软件到软件的通信。最初，市场和工作涉及人与人之间的交流与协作，后来转变为人与软件之间的交流与协作。现在，我们正处于软件到软件通信的过渡阶段—在未来十年中，系统与其他系统的通信将多于人类与系统的通信。

这一转变需要全新的技术堆栈，并将打破我们所依赖的大量工具和平台。数据、计费、支付、安全、监控和报告平台都将随之发展。

艰难的资本市场和融资环境

32.Susa Ventures合伙人Chad Byers：

2024年，一些独角兽将被淘汰。初创企业是创新的引擎。当更多的初创公司获得资助并尝试为难题建立解决方案时，这对世界来说是件好事。然而，由于多种原因，过去几年创建了一些不可持续的公司：没有明显的PMF但资本充足的公司。尽管我们看到其中一些公司在23年倒闭，但我预测24年将是我们看到真正的淘汰的一年。

尽管这对许多团队和投资者来说非常困难，但初创企业生态系统需要这些活动来回收人才并将资本优先投入最重要的公司。初创企业将继续成为世界的创新引擎。

33.Precursor Ventures创始合伙人Charles Hudson：

2024年，初创企业将重新发现资本效率的乐趣，并掌控自己的命运。

LP市场

34.Sapphire Partners合伙人Beezer Clarkson：

2024年，LP将继续追求质量。由于退出市场仍然关闭，LP预计2024年的资本需求将再次超过分配。这意味着我预计LP将继续仔细评估他们的投资组合，深入了解其间接公司的潜在健康状况，然后有选择地与他们相信可以产生优异业绩的经理人重新合作。

我还认为2024年风险基金募集数量和规模持续收缩的可能性很大。除此之外，我预计一些老牌投资者的退休将与一些新投资者的退出形成鲜明对比，以创办下一代风险基金。

创始人的新形象

35.Basis Set Ventures合伙人Lan Xuezhao：

2024年，成功创始人将出现新形象。随着人工智能/机器学习的发展日益加速，成功创始人的形象也在不断变化。传统的强大背景，通常由精英学术资历和在特定知名科技公司的丰富就业历史来定义，正在变得不再那么重要。在人工智能新时代，“教科书式”机器学习工程师的成就可能比长期开源贡献者要少。

对于VC来说，能够“看到”拥有广泛经验、非传统教育路径、职业历史和独特个人经历的创始人至关重要。那些坚持旧模式并纯粹根据纸面上的资历来判断创始人的人将会看到他们的回报受到侵蚀。

一个新的工作操作系统(OS)

36.Rupa Health CEO Rupa Health:

2024年将是组织文化和我们创建公司方式的彻底转变。所有重大的经济和技术革命不仅改变了我们建造的东西，也改变了我们建造的方式。工业革命——>专业化、流水线化。软件革命——>精益创业、敏捷、快速迭代。互联网/云/移动革命 —> 基于屏幕的工作，分布式团队。现在，人工智能革命。

人工智能革命已经在改变我们的工作方式，但2024年将是独一无二的。我们将在极度模糊的情况下进行建设，并加快变革的步伐。人工智能将取代我们过去招聘的核心技能。

一个人凭借自己的力量就能将创造力和生产力提高100倍。最好的公司会从首要原则出发找出新的操作系统。其余的人会尝试使用旧方法并且会错失良机。“最佳实践”不再是最佳实践。2024年，工作将会截然不同。

2 1 月 2024

AI大模型工业应用的7大模式

近日，通用人工智能与工业融合创新中心编制的《AI大模型工业应用现状、模式与展望》正式发布。其中提到，工业产品从全生命周期来看可以划分为研发、设计、仿真、生产、测试、运维、售后等环节，本报告针对各环节的特点和要素进行分析，并结合大模型自身的能力特征，初步提出以下大模型在工业领域的潜在应用模式。

模式一：原理化研发

大模型可以对产品的结构数据进行分析，从微观层面探究产品的构型和机理，并通过模型的涌现能力生成具有新结构、新特性的产品。

以药物研发为例，人工智能大模型可以通过分析大量的已知药物分子数据，从中找出最优的药物候选，并生成一个新的药物分子设计方案，从而大大缩短药物研发的时间和成本，提高药物研发的成功率。

靶点发现和药物结构设计。靶点发现是药物研发过程中的核心环节，其中靶点是药物在体内的作用结合位点，药物与靶点之间的关系可以类比于钥匙和配套的锁。传统的靶点发现需要做大量的科研工作，对靶点做大量的生物学假设，并设计一系列的实验进行验证，需要漫长的周期。而大模型通过分析已知的药物分子结构数据、药物分子与疾病相关性的知识图谱，从中找出与疾病靶点相互作用的分子特征，然后利用这些分子特征，自动地生成新的药物分子设计方案。

药物方案评估和优化。在生成若干药物分子设计方案后，模型可以在人工提示下，对生成的设计方案进行评估，筛选出最有前景的药物候选。同时可以通过药物分子的结构和性质，优化其药效和毒性，通过预测药物的代谢途径和药物浓度，优化药物的剂量和用药方案。

辅助临床实验设计。实验验证是药物研发中必不可少的环节，但是实验通常需要消耗大量的时间和资源。人工智能大模型可以帮助研究人员设计更有效的临床试验方案，例如预测药物的安全性和有效性，优化临床试验的样本规模和时间等。通过预测和筛选，减少实验的数量和复杂度，从而提高药物研发的效率和质量。

模式二：前瞻化设计

大模型可以生成创新性的产品设计方案，从而更好地辅助技术人员快速将设计构思和意图转化为具体实施方案。

以传统工业设计为例，大模型可以实现工程制图、设计方案的快速生成，并辅助进行布局优化、参数校核，大幅缩减工业设计耗时，提升产品研发效率。

数学建模和代码编写。在工业设计过程中，很多问题需要建立特定的数学模型进行分析求解，例如机械产品设计中常遇到诸如力学强度校核、尺寸优化、标准零件选型等问题，邀请专家专门分析和建模成本高。而大模型可以根据具体设计需求，在短时间内为这些问题提供参考方案，并自动生成相应的程序代码，指导进行具体的工业设计实践。

多样化设计方案生成。以CAD为例，现有的海量标准化素材库提供了大量工程制图、布局规划等数据，大模型可以利用这些数据，结合设计者的创意思路和特殊需求，生成多样化的设计方案，供设计者进行参考。另一方面，亦可对设计方案进行快速优化调整，帮助工程师以更快的速度和更少的错误率创建布局。

模式三：高效化仿真

大模型可以利用自身的生成能力提供符合设计需求的虚拟化仿真测试场景/环境，解决工业产品设计中测试数据量少、测试环境单一等问题，提升产品的可靠性。

以汽车制造为例，通过人工智能大模型来生成仿真测试环境，进行汽车碰撞模拟和安全性评估，可以大幅提升仿真的精度和效率，推动车辆设计和安全性能的提升。

多元化仿真场景生成。汽车企业在车辆实际测试、模拟实验中积累了大量的真实数据，包括车辆结构、碰撞数据以及材料特性等信息。大模型可以利用这些数据学习车辆结构、材料属性与碰撞响应之间的非线性关系，理解不同参数（如碰撞速度、角度、车辆构造等）对于碰撞响应的影响，并通过自身的涌现能力生成新的、多样化的碰撞场景。这有可以让车辆模型在不同情况下进行仿真预测，包括之前未经历过的情形，并弥补特殊场景中的数据缺失，提升汽车仿真测试的全面性和准确性。

参数优化与快速预测。传统的车辆碰撞仿真中，需要采用不同的参数组合进行多轮次测试，以获得最佳结果，而每次测试需要花费大量的时间进行人工调参。而大模型可以凭借零样本的知识分析能力，通过问答形式，对不同的参数组合，快速预测出碰撞响应情况。这有助于在短时间内找到最佳参数组合，以减少车辆设计和测试的周期。同时，它可以在考虑历史碰撞案例的基础上，提供新颖的设计建议，可能涉及材料选择、构造调整等方面的创新。

模式四：精细化检测

通过大模型的零样本学习能力，并结合AR/VR等虚拟现实技术，实现对产品质量缺陷、人员违规操作、零部件装配误差等多种工业场景的快速高效视觉检测。

以工业生产中的质量检测和安全监测等场景为例，通过外接视觉传感装置和简单的指令辅助，大模型可以根据需求对指定的区域、人员进行检测，快速发现异常信息，大幅降低人工查验、样本收集和模型训练等成本。

高效率工业质量检测。以PCB的瑕疵检测为例，通用视觉大模型可以凭借强泛化能力，在不依赖工厂样本数据和本地化微调训练的情况下，直接对PCB原始图像进行语义分割，再配合简单设置的规则及方法实现缺焊、连焊、针孔等各类瑕疵的识别，从而解决PCB样本数据获取困难、标注困难的实际问题，规避训练调参带来的高额成本，提升工业产品缺陷检测的效率。

智能化安全生产监管。在煤矿生产行业中，借助大模型的机器视觉识别技术，结合设备运行状态数据，识别危险区域人员进入、人员摔倒、截割部落地、敲帮问顶、钻孔深度、锚固剂使用数量、搅拌时间、二次紧固、锚索张拉等场景，实现掘进作业人工监管向自动监控的转变，提升掘进作业流程规范，提高煤矿生产的安全系数。

个性化检测场景扩展。结合语言大模型和视觉大模型，进行多模态感知和交互，扩展大模型在工业视觉检测中的应用范围，提升应用的灵活性。例如，在工业质检中，可以通过语音指令控制大模型实现对不同类型、不同区域、不同等级的缺陷检测，满足各类产品的检测需求。

模式五：智能化调控

在大型现代化产线中，需要对多个关键节点进行智能化调度和控制，以提升产线运行效率。人工智能大模型可以通过分析多样化的历史数据，更好地理解诸如生产需求、资源可用性、任务优先级等工业调度任务中的复杂关系，从而优化各节点的任务分配和调度，提高生产效率和灵活性。

以工业机器人为例，大模型可以对各类生产数据进行自动整合分析，从而对机器人进行快速的任务分配和动态任务调整，成为大型工业产线中的“神经中枢”。

复杂模式学习和任务快速分配。汽车制造等大规模的生产线上通常配置多台工业机器人，负责组装、焊接、涂装等子任务。人工智能大模型可以收集机器人的性能数据、工作站状态、生产计划等信息，并基于这些数据，学习机器人的技能、任务复杂性、工作站之间的转移时间等复杂信息，并预测不同机器人执行不同任务的效率。当新的任务到达时，模型可以快速决定分配给哪个机器人，以最大程度地减少任务等待时间和生产周期。

动态任务分配调整。大模型可以从历史数据中分析机器人的性能和效率，并根据不同任务的要求，动态调整任务分配策略。这有助于优化机器人的使用，确保它们在不同任务中都能发挥最佳作用。如果出现机器人故障、工作站故障或生产计划变更等情况，大模型可以快速响应并重新调整任务分配，以应对不可预见的情况。

运动控制代码生成。从工业机器人单体运动的层面来看，生产人员可以通过文本、语音等交互方式，根据不同的任务需求，通过大模型快速生成定制化的运动控制代码，以控制机器人执行不同的任务。例如，对大模型输入指令“请写一段PLC程序，控制机器人将零件从A点转移到B点”。这种基于大模型的运动控制指令生成模式可以大幅提升工业机器人的灵活度，实现柔性化的产线控制。

模式六：科学化运维

大模型可以通过自身强大的推理能力实现对生产过程中各类数据的分析、预测，从而提升智能化运维水平，完善生产管理机制。

以仓储管理为例，可以利用大模型的对供应链中各类别、各模态的数据进行管理和整合，提升货品信息流的运行效率，打造更便捷、更快速的工业产品供应链体系。

智能仓储管理。使用嵌入多模态大模型的机器人进行货架管理、库存管理和订单拣货等操作，可以通过大模型的强视觉泛化能力进行自主货架定位、库存管理和物品运输等操作，提升仓库的运营效率。同时，使用大模型对库存进行预测，并根据销售速度和库存周转率等因素制定补货策略，有助于及时补充库存，避免库存短缺影响销售，同时避免过度补货，以免造成库存积压和资金占用的问题。

高效数据管理。工业生产的供应链中会涉及大量的数据，如原材料数据、加工工艺数据、设备状态信息、环境信息、人员信息、物流信息等。大模型可以对不同格式、不同来源的数据进行快速整理、分类和分析，降低数据整理成本。同时这些分类整理后的数据可以用于大模型的进一步微调，实现数据和模型的良性互动。

模式七：定制化售后

大模型可以凭借在自然语言对话方面的巨大优势，使售后服务不再拘泥于固定的问答库，而与客户形成更加自然、流畅和有效的对话，从而帮助工业企业实现满足不同用户需求的定制化售后服务，从而进一步提升客户忠诚度和用户成长，拓展业务范围。

以机械设备售后为例，大模型可以结合多模态、数字人等技术，让客户通过自然语言描述设备故障或问题，系统能够准确理解并提供详细、个性化的解决方案。

多维度交互式售后服务。机械设备的操作及维护需要复杂的操作，传统基于知识库的客服系统无法给予用户精确的指导。利用大语言模型作为后端逻辑推理支撑、虚拟数字人作为前端交互形象，系统可以准确理解客户的需求，结合自身的知识储备和具体的问题，迅速给出详细的、针对性的解决方案。

同时，还可以通过虚拟数字人的手势和语音交互，从更多维度辅助客户进行设备的操作，不仅提高了售后服务的效率，还为客户提供了更加直观和个性化的服务体验。

2 1 月 2024

ChatGPT变笨新解释：世界被AI改变，与训练时不同了

对于ChatGPT变笨原因，学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出：

在训练数据截止之前的任务上，大模型表现明显更好。
论文重点研究了“任务污染”问题，也就是大模型在训练时期就见识过很多任务示例，给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出，大模型训练后参数冻结，人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化，就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答，其实是在训练时见过大多数常见任务。

随时间推移，人们开始提出更多新问题，AI表现就不行了。

比如对于代码问题，编程语言还在持续发展变化，迟早有一天效率会低到不可接受。

任务污染有多严重？

研究团队一共评估了12种模型，从ChatGPT之前的GPT-3系列、OPT、Bloom，到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题，也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难，闭源模型根本不会公布训练数据，大多数开源模型也只是生命了来源，而不发布数据本身。

如果研究者重新爬取互联网数据，也有可能与模型训练时相比发生了变化。

对此，团队采用4种方法来测量任务污染程度：

检查训练数据：直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上，存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

提取任务示例：通过调整提示词，让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo，这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例，绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据，但不代表问题不存在。

成员推断（只适用于生成任务）：检查模型生成的答案是否与原始数据完全相同

按时间顺序分析：对于已知训练数据收集时间的模型，测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高，但召回率较低。如果在任务的训练数据中找到数据，则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小，使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低，容易受干扰因素影响。

特别是对于GPT-3系列，目前人们假设其能力提高来自于指令微调，但研究团队认为事实并非如此。

虽然在2021年之前的数据集上，davinci-002比davinci-001的性能有所提高，但在2021年之后的数据集上性能却相应下降，

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为：

由于任务污染，闭源模型可能会在零样本或少样本评估中表现的比实际好，特别是经过RLHF微调的模型。污染的程度仍不清楚，因此我们建议谨慎行事。
在实验中，对于没有任务污染可能性的分类任务，大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
随着时间推移，观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加，这可能是由于任务污染造成的。
即使对于开源模型，检查训练数据的任务污染也很困难。
鼓励公开发布训练数据，以便检查任务污染问题。

有人总结到：

用现有数据训练AI

人们过多使用AI，以至于改变了现实世界

AI无法适应改变后的世界，变得低效

这是一个循环。

论文：
https://arxiv.org/abs/2312.16337

参考链接：
[1]https://twitter.com/ChombaBupe/status/1741531065032798360

2 1 月 2024

AI热门开源项目排行

1、Stanford Alpaca

简介：提供了用于训练斯坦福大学Alpaca模型的代码和文档，以及生成相关数据。Alpaca模型是一种大型语言模型，专注于提供更高效的文本生成和处理能力。项目旨在促进语言模型的研究与开发。
地址：github.com/tatsu-lab/stanford_alpaca

2、llama.cpp
简介：Facebook的大型语言模型LLaMA的C/C++移植版。项目的目标是在保持模型性能的同时，提供更高的运行效率和更好的系统兼容性。对于需要在本地运行和集成LLaMA模型的开发者而言，这个项目是一个宝贵的资源。
地址：github.com/ggerganov/llama.cpp

3、gpt4all
简介：gpt4all是一个开源项目，提供可以在任何地方运行的大型语言模型聊天机器人。它旨在使得部署和使用大型语言模型变得简单，为开发者社区提供了便利的接口和工具。
地址：github.com/nomic-ai/gpt4all

4、vllm
简介：vllm是一个针对大型语言模型的高吞吐量和内存高效的推理和服务引擎，支持快速、便捷、廉价的LLM模型服务，旨在优化模型的部署和运行效率。
地址：github.com/vllm-project/vllm

5、MiniGPT-4
简介：项目提供了MiniGPT-4和MiniGPT-v2的开源代码，这些是缩小版的GPT-4模型，旨在提供类似功能但资源要求更低的解决方案。这使得在资源受限的环境中研究和开发大型语言模型变得可能。
地址：github.com/Vision-CAIR/MiniGPT-4

6、LLaVA
简介：LLaVA项目旨在构建具有GPT-4V级别能力的大型语言和视觉助手。该项目侧重于视觉指令微调，强化了模型处理视觉信息的能力。
地址：github.com/haotian-liu/LLaVA

7、Awesome Multimodal Large Language Models
简介：精彩的集锦列表项目，汇集了关于多模态大型语言模型的最新论文和数据集，以及它们的评估方法。这是一个资源丰富的仓库，为那些对大型多模态语言模型研究和应用感兴趣的研究人员和开发者提供了宝贵的信息。
地址：github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

8、JARVIS
简介：由微软开发的JARVIS是一个系统，用于将大型语言模型与机器学习社区连接起来。项目伴随着一篇论文，介绍了如何利用大型语言模型来提升机器学习任务的性能和效率，旨在探索人工智能的广义智能(AGI)并将最前沿的研究成果分享给整个社区。
地址：github.com/microsoft/JARVIS

9、ChatPaper
简介: 利用ChatGPT来加速科研流程的工具，可以对arXiv等科研论文库的论文进行全文总结，提供专业翻译、润色、审稿以及审稿回复的功能，旨在全流程加速科研人员对文献的处理和理解。
地址: github.com/kaixindelele/ChatPaper

10、MLX
简介: MLX是一个为苹果硅芯片设计的数组框架，专注于利用Apple Silicon的硬件特性，提供高性能的机器学习运算能力，旨在优化和加速机器学习任务在苹果硬件上的执行效率。
地址: github.com/ml-explore/mlx

2 1 月 2024

有手机就能免费用上大模型，AI普惠还得看中国

2023年，是我们集体见证人类历史的一年。自ChatGPT横空出世以来，大模型对于人类社会的颠覆性变革有目共睹。但我们也必须承认，当下的大模型更多还局限于企业级用途，面向消费者的杀手级应用尚未诞生。

人人都能触手可及、使用便利的大模型，离我们还有多远？

其实，当时间来到2023年底，一个AI真正走进千家万户的方案已经初具雏形。

2023年12月29日-2024年1月4日，vivo在全国多地打造 “新年心愿蓝心同行”线下主题活动。活动现场限时开启「蓝心许愿屋」，让用户可以通过生成式AI以“创作愿望”的方式近距离体验蓝心大模型。这也是第一次有厂商在线下举办AI大模型技术相关的体验活动。

蓝心大模型是vivo于2023年11月刚刚发布的自研大模型矩阵，也是vivo打造用之于民的普惠大模型的最新成果。除了在多项能力测试中成绩优异之外，蓝心大模型落地在手机产品上也代表了大模型发展的一个新方向，有望真正给用户带来一款便捷、好用的私人大模型助手。

触手可及的大模型，应该长什么样？

2023年11月1日，vivo正式发布了新一代手机操作系统OriginOS 4，其AI能力相较以往有了巨大提升，全新的智能助手蓝心小V成为最大的亮点之一。

以苹果Siri为代表的手机语音助手，早就不是什么新鲜事物，但是它们能够实现的功能、语音识别的准确率，以及对语言的深度理解都难以让人满意，以至于这些人工智能助手常常被调侃为“人工智障”。

如何才能做出一个真正聪明的AI助手？从蓝心小V身上，我们可以看到一部分答案。

大模型赋能，当然是这个时代的主旋律。与蓝心小V同时发布的，是vivo自研的蓝心大模型。

发布之初，蓝心大模型矩阵包含十亿、百亿、千亿三个参数量级，共5款自研大模型。其中1B（10亿参数）和7B（70亿参数）的蓝心大模型已经在vivo旗舰机型上实现了端侧化，70B（700亿参数）成为面向云端服务的主力模型。而参数量最大的蓝心大模型175B（1750亿参数），已经持平于外界普遍认为的ChatGPT-3.5参数量。

从实际表现来看，蓝心大模型在语言理解、文本创作等场景下能力非常优秀，中文语境能力一度在CEVAL、CMMLU等专业榜单上排名第一。

不过，仅仅做出一款业界领先的大模型，对消费者来说就够了吗？答案是否定的。

ChatGPT-3问世至今已经一年有余，形形色色的国产大模型也层出不穷，但是平心而论，这些大模型能够给普通人提供的服务仍然有限。甚至有大模型厂商直接表示，只做行业类服务，不会面向普通消费者。

究其原因，大模型的落地应用目前还面临两大难题。

首当其冲的，是贵。大模型训练有多烧钱，已经无需赘述。有报道指出，ChatGPT-3单次训练成本达到460万美元，每天的运营成本都要70万美元。vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围也曾经表述过，以vivo的用户体量，如果运营云端大模型，全年单单服务器成本可能就是十亿甚至百亿级别。

此外，大模型厂家无论是自行购置GPU进行训练，还是租用云服务器，费用都十分高昂。虽然很多大模型免费或者低价向普通用户开放，但是从盈利层面显然是不可持续的，需要企业级业务的补贴。

其次，对于普通用户来说，大模型往往也不是真的那么好用。

决定一款大模型性能的，除了算法之外，更重要的是数据和训练。对于通用大模型而言，虽然它们使用了全网海量数据进行训练，但是其输出结果也趋于泛化，未必符合用户的个性化需求。而网络数据的准确性难以保证，也会导致大模型输出结果的错误。

因此，企业级用户一般都需要使用专门数据来进一步训练模型。

那么对于个人用户来说，便宜和个性化，也是大模型落地最大的痛点。

以vivo为代表的手机厂商入局，则为此提供了一个解决方案。

那就是vivo发布的蓝心1B和7B大模型。

所谓端侧大模型，是直接部署在用户终端，也就是手机上的大模型。这种轻量化的大模型，可以直接使用手机处理器的算力进行运行，在大部分场景下不需要网络通信，飞行模式下也能用。

这样一来，厂商直接省掉了大模型运行中的服务器成本，而用户相当于在购买手机时就获得了大模型，后续使用成本为零。

端侧大模型另一个优势，是在未来或许能够真正成为个性化的用户私人助理。

“大模型能否记住用户的习惯，并提供更加个性化的服务？能否记住我们和大部分时间一起的共同经历，拥有共同的回忆，从而为用户带来温暖的陪伴？”vivo副总裁周围提出了这样一个问题。

一个真正的智能助手，应该是温暖的，而不是冰冷的；应该具有人格和记忆，与用户共享喜怒哀乐。想要实现这一点，大模型必须能够实时获得用户信息和行为习惯。

那么随之而来的问题是，用户个人信息如何保障？一个完全部署在手机上，无需将数据上传到服务器的大模型，无疑为隐私提供了最大的保护。

正是得益于这两大优势，端侧大模型已经成为2023年底行业中最火热的概念之一，有望让大模型快速走进千家万户。

以vivo为代表的中国手机厂商，正在大模型时代占据先机。

AI普惠，中国企业做对了什么？

国产大模型百花齐放的盛况，在一年前还是很多人不敢想象的。

2023年初曾有人断言，大模型领域的创业，ChatGPT已经做完了99%的工作，后来者只能基于ChatGPT做一些应用层面的开发。

但是事实证明，中国企业在大模型领域也有长期、深厚的积累。

vivo为何能够快速推出业界领先的蓝心大模型？事实上，vivo对于AI的研究布局已久。

早在2017年，vivo就组建了Al全球研究院，是首批设立专攻人工智能方向研究院的中国手机公司之一。自那时起，vivo一直维持着1000人左右的专业人工智能团队，累计在顶级期刊发表了70多篇算法领域的高水平论文。

除了坚定的资本投入，vivo还做对了一件事，就是拥抱开源。目前，vivo已经将7B参数量级的蓝心大模型面向全行业进行了开源，让更多的中小开发者可以“拥抱”大模型。

周围在介绍蓝心大模型时谈道，真正好的自研大模型需要具备5点特质，分别是大而全、算法强、真安全、自进化、广开源。

ChatGPT诞生之初的惊艳，一度让外界认为它就是大模型的终极形态。不过冷静下来之后，人们很快发现，ChatGPT仍然处于一个孩童阶段，虽然具备了基础的逻辑能力，但是仍然需要学习更多的专业知识才能长大。

因此，在ChatGPT之外，以Meta为代表的开源路线也逐渐显示出自己的优势。大模型不是闭门造车，能够把更多开发者拉进朋友圈，更有利于发挥人类集体的智慧来帮助AI成长。

vivo是开源路线的受益者，也是贡献者。

目前，vivo已经正式开源了蓝心大模型的70B版本，为了方便开发者使用，还推出了蓝心大模型开发套件 Bluekit。中小开发者可以直接调用大模型的端侧推理能力，真正实现了大模型的开箱即用；对于希望进行微调的开发者，vivo 提供模型参数热插拔机制，通过系统级计算调度，将开发者模型进行组合推理，帮助构建高自由度的定制化模型。

此外，vivo的自然语言对话机器人蓝心千询，将以手机公版app的形式上线各大手机应用市场，不仅vivo手机用户可以使用，所有安卓和ios的用户都可以在应用市场下载。

不仅要让消费者用上更便宜、好用的大模型，同样也要让开发者触手可及，为整个中国人工智能产业的发展赋能，这才是AI普惠更深层的意义。当更多的头部企业加入开源生态建设，我们也有理由对中国大模型的后来居上充满信心。

来源|观察者网

29 12 月 2023

炸裂，AI 写代码工具又进化了！

在 12 月 28 日刚刚结束的 WAVE SUMMIT + 深度学习开发者大会上，百度发布了新的产品 Comate AutoWork。这是智能代码助手 Comate 的一项重大发布，已经突破了限制，不再局限于代码片段和单文件的生成，而是能够帮助开发者 轻松应对复杂项目，提高企业开发效率。

这个产品有什么 “魔力”？怎么帮助我们提高复杂项目的开发效率呢？

进化的 AI 工具能干啥？

和已有的 AI 写代码工具不同，开发者不需要自己一步步地设计方案和编写代码，而是直接化身 “产品经理”，尽管向 AI 提需求。接下来 Comate AutoWork 智能助手就会根据你的需求，自主理解需求 => 拆解工作 => 制定工作计划和方案 => 熟悉项目并生成代码 => 调试运行。

也就是说，AI 不再只是按照开发者的命令去生成代码，它更像是你的智能编程伙伴，可以跟你并肩作战、参与整个项目的协作开发。这不仅是 AI 代码工具的进化，也是 人机协同 研发流程的创新！

文字省流：

1）首先向 Comate AutoWork 提出需求，让它给已有的网站项目增加一个按钮，用户点击后会弹出一个转盘。

如下图，可以直接甩给 AI 一个 Word 版本的需求文档：

2）AI 会自主理解你的需求，并跟你分享自己的思考过程。跟真人一样，它会阅读整个项目代码；遇到不理解的需求时，还会再主动跟你确认。

3）理解了需求后，AI 就会对工作进行拆解，并给出自己的执行计划。比如先找到要修改的页面、理解老的代码、甚至查询是否有可直接复用的组件！

我们可以对 AI 给出的执行计划进行查看和修改，如果发现 AI 的理解有任何错误，能够及时人工纠正。

这一步真的太重要了，我是深有感触，在带团队开发复杂的程序时，一定要根据成员的思路和计划，多给他们一些指导，防止他们按照错误的方法和步骤进行开发。

4）确认好执行计划后，AutoWork 就开始 “吭哧吭哧” 干活了。我们可以喝杯咖啡，愉快地看着它一步步完成工作。

5）最后，AI 完成了工作，写了一大堆的代码。我们可以像 Code Review（代码审查）一样，一条一条地阅读并采纳 AI 的代码，而不用担心它写的代码会侵入我们的项目，干净又卫生~

最终百度Comate AutoWork 按照需求（包括追加需求），并与工程师问答/确认，比较出色地实现了这个具有一定复杂性的“限时反馈”任务开发。

作为程序员，以前我们的视角是 “码农”、“搬砖者”，所有的工作都要自己做，需求自己分析、方案和代码都要自己写，一周能做完一个需求就不错了。而现在，使用 Comate AutoWork 研发助手，我们的视角是 “架构师”、“管理者”，更多的工作是提需求、指导 AI、审方案、审代码。不仅能够将我们从枯燥的工作中解放出来，还能通过和 AI 的交互学到很多新的知识和研发方法（比如拆解工作、调试 Bug）。

对于企业来说，如果引进了 Comate AutoWork 工具，能够让团队的开发者更专注于创新，释放更多的生产力，提高整体的研发效率。

来吃螃蟹

怎么使用上面提到的智能研发助手呢？

首先，百度 Comate 智能研发助手是对所有个人和企业用户开放的，并且支持 SaaS 版和企业私有化定制。

如果想尝鲜使用 AutoWork，企业可以直接到百度 Comate 官网申请试用。

指路：https://comate.baidu.com/

此外，Comate 也全新发布了 开放计划，企业可以结合自身属性、需求、私域知识，定制专属的研发插件、按需精调大模型等，打造企业自有的智能研发助手。

这个能力可真是太实用了。举个例子，我们公司内部自研了一些通用的开发模板和组件，可以接入到 Comate 中，下次它在生成代码时，就能想到复用我们现有的代码。再比如每个公司都有自己的研发规范，可以把规范文档接入到 Comate，然后它生成的代码就会遵循规范啦。

使用建议

我们公司如果要用智能研发助手，最关注的肯定是准确性、性能和安全性。

先说准确性，也就是生成的代码靠不靠谱、能不能用。目前根据官方的数据，我了解到百度 Comate 智能研发助手已经有超过 8000 家企业伙伴，代码采纳率超过 40%，这已经是个不错的成绩了。而随着 AI 大模型的持续增强，助手也会更聪明，能够给出更符合要求的代码。

然后是性能，也就是生成代码的速度。我自己试用下来，百度 Comate 生成代码的性能是很强的，丝滑流畅。

在安全性方面，Comate 做的非常不错。首先是用户隐私安全，官方承诺不会存储和分析用户的代码，生成代码时会先脱敏再请求，而且还支持 SaaS 及私有化部署，保证数据不会流出。在内容安全方面，百度通过对模型训练数据及推理内容进行风险检测与过滤。总之，可以放心使用。

29 12 月 2023

2024年AI领域五大趋势：改造世界与自我迭代

人工智能（AI）的未来将是什么模样？《福布斯》双周刊网站在近日的报道中，列出了2024年AI领域发展的五大趋势，这些趋势有望赋予世界崭新的面貌。

这五个部分包括：开辟AI应用新天地、成为专业领域的得力助手、AI面临道德挑战、为AI制定法律基准，以及AI可能与量子计算强强联手。人类作品与AI作品之间的界限将变得更加模糊，AI模型将迎接更加复杂多样化的交互场景，有望在不同领域打开全新的应用空间。在医疗、法律、IT等专业领域，AI也有可能发挥出更高的水准，从而成为相关从业者的“左膀右臂”。要确保AI模型使用公平的算法，还必须制定严格的标准，确保这些系统和设计者们能对自己的行为负责。甚至，从法律上，全球各国可能将达成新的合作，共同约束AI影响的边界。最终，正在酝酿质变的量子计算也有可能与AI深度融合，互为助力。

生成式AI开辟新天地

生成式AI将超越简单的聊天机器人和恶搞视频的范畴。AI系统将能撰写复杂的叙事文章，编排交响乐，并有可能与人合著畅销书。该领域一个关键性的创新是多模态生成式AI，此类系统能处理文本、声音、旋律和视觉信号等各种输入信息，并将其融合起来进行综合理解。

想象一下，AI一听到描述性语音，就能迅速起草一篇内容丰富而全面的文章，画出一幅画，为其配上合适的背景音乐，并能用多种口音和语言讲述出来。这种多功能融合有望丰富文艺作品的内容和层次，并给受众带来多种感官体验。人类技术结晶与AI杰作之间的界限将变得更加模糊。

2024年，随着多模态技术的不断发展，AI模型将迎接更加复杂多样化的交互场景，有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

AI成人类“左膀右臂”

随着技术的不断发展，AI不再仅仅是一种工具，而是人类的“左膀右臂”。外科医生可在AI诊断结果的辅助下进行手术；律师在庭审过程中可得到AI提供的参考案例；软件开发人员可在写代码时得到AI的同步帮助。

此外，随着远程办公和在线教育激增，AI将彻底改变课程设计并优化虚拟团队动态。2024年，人们将迈入人类与AI协同发挥作用的时代，这将大大提高生产力和生产水平。

AI道德更受关注

AI在日常生活中的参与度不断上升，导致一系列道德问题。如何保障AI健康、可持续、负责任地发展，成为当今社会面临的重大挑战。

由于AI越来越多地为决策过程提供信息，因此它们的运作方式必须极度透明和公平。目前面临的挑战不仅在于设计出公平的算法，还必须制定严格的标准，确保这些系统和它们的设计者能对自己的行为负责。

此外，如何保证AI技术的普惠性和包容性？如何促进AI技术的公平公正和非歧视性？这些都是值得人们深思的问题。

随着2024年的到来，专家预计，人们将对AI道德教育产生兴趣，也将把AI研发领域的道德考量置于优先位置。

为AI立法

AI前所未有的发展态势和在各个领域的长驱直入，不仅令科技爱好者痴迷，也引发全球决策者的密切关注。随着2024年的临近，包括欧美在内的主要经济体都在设法制定比较全面的AI政策。例如，欧洲议会打算在今年年底前，或最迟在2024年6月就欧盟的《AI法案》文本达成协议。10月30日，美国签署了首份关于AI的行政命令。这些政策旨在实现3个目标：推动技术突破，吸引全球投资，同时保护民众不受AI“野蛮生长”的影响。行业内部的讨论表明，全球就制定AI基准和规范展开合作可能很快就会实现。

量子计算为AI插上翅膀

量子计算它已经来到AI研究的前沿。无论是新兴初创企业，还是老牌科技巨头都已将大量资源用于开发量子解决方案。

进入2024年，人们将看到量子计算和AI强强携手衍生出的量子AI的崛起。量子AI利用量子计算机的特殊性质，如量子叠加和量子纠缠，来加速机器学习和优化算法，从而实现更高效、更准确的AI应用。其也将成为未来AI领域的重要发展方向。

29 12 月 2023

图灵奖得主杨立昆：“AI将接管世界，但不会征服人类”

【编者按】作为图灵奖得主和 Meta 首席 AI 科学家，杨立昆（Yann LeCun）是 AI 技术最有力的捍卫者之一。

当他的前合作者 Geoffrey Hinton和 Yoshua Bengio 宣称 AI 灭绝论时，LeCun 并没有参与。相反，他签署了一封公开信，呼吁拥抱开源 AI，并称 AI不应由少数几家企业控制。

那么，AI 到底是会给人类带来毁灭性灾难，还是会加速推动人类社会的发展？这也是自 ChatGPT 问世一年多以来，业内早已存在的两种对抗声音。

近日，LeCun 接受了美国数字媒体 WIRED 的访谈，就上述问题做出了回答。核心观点如下：

AI 将在一定程度上实现创造力的民主化，它们可以写出非常流畅的文字，这些文字具有非常棒的风格，但它们也很无聊，因为它们想出的东西可能完全是假的。

从长远来看，未来人类与数字世界的所有互动，以及在某种程度上，人类彼此之间的互动，都将以 AI 系统为媒介。

AI 必须是开源的，因为当平台成为通信结构的重要组成部分时，我们需要一个共同的基础设施。

Yann LeCun 认为，自己不属于“加速主义”或“灭论绝”中的任何一个思想流派，他并不喜欢这些标签。

Yann LeCun 并不认可 AGI，因为根本不存在通用智能。智能不是一种可以测量的线性事物，不同类型的智能实体拥有不同的技能。

在 AI 系统中设定目标是确保其可控性和安全性的唯一途径，并将其称之为目标驱动型AI，这是一种全新的架构，目前我们尚未见到任何范例。

Yann LeCun 认为，研究界已经不太关心 OpenAI 了，因为他们没有发表论文，也没有透露他们在做什么。我的一些前同事和学生在 OpenAI 工作，我们为他们感到难过，因为 OpenAI 出现了不稳定因素。

学术头条在不改变原文大意的情况下，做了精心的编译，内容如下：

不要对 Yann LeCun 讲一些末日论。作为现代 AI 的先驱和 Meta 首席 AI 科学家，LeCun 是这项技术最有力的捍卫者之一。他对同行们所描绘的错误信息甚至导致人类灭绝的乌托邦式场景嗤之以鼻。他经常在 X 上发推斥责那些制造恐惧的人们。当他的前合作者 Geoffrey Hinton 和 Yoshua Bengio 将他们的名字放在一份声明的首位，称 AI 是一种“社会级别的风险”时，LeCun 没有参与。相反，他签署了一封致美国总统 Joe Biden 的公开信，呼吁拥抱开源 AI，并称 AI 不应由少数几家企业控制。

LeCun 的观点很重要。他与 Hinton 和 Bengio 一起，帮助创建了对 AI 水平提升至关重要的深度学习方法，三人也因此获得了计算机领域的最高荣誉——图灵奖。2013 年，Meta（当时的 Facebook）聘请他担任了 FAIR 的创始主任。另外，他还是纽约大学教授。最近，他帮助说服首席执行官 Mark Zuckerberg 与世界分享 Meta 的一些 AI 技术。今年夏天，Meta 推出了一款名为 “Llama 2” 的开源大型语言模型（LLMs），与 OpenAI、微软和谷歌竞争。一些批评者警告称，这种开源策略可能会让不法分子通过修改代码绕过对 LLMs 输出中有害内容的防护措施。做为 AI 领域最杰出的人物之一，LeCun 认为人类可以解决这个问题。

今年秋天，我和 LeCun 在纽约 Meta Midtown 办公室的一间会议室里进行了交谈。我们谈到了开源、为什么他认为 AI 的危险性被夸大了，以及计算机是否能像 Charlie Parker 的萨克斯独奏那样打动人心。（LeCun 在巴黎郊外长大，经常出入纽约的爵士俱乐部）。12 月，当 LeCun 出席 NeurIPS 会议时，我们又进行了一次对话。考虑到篇幅和清晰度，我们对访谈内容进行了编辑。

Steven Levy：在最近的一次演讲中，你说“机器学习糟透了”。为什么像你这样的 AI 先驱会这么说？

Yann LeCun：机器学习很棒。但那种认为我们只需要扩大现有技术的规模，就能实现具有人类水平的 AI 的想法呢？要让机器像人类和动物一样高效学习，我们还缺少一些重要的东西，但我们还不知道那是什么。

我不想抨击这些系统，也不想说它们一无是处，我在整个职业生涯中，就一直专注于这些。但是，我们必须抑制某些人的兴奋，他们认为我们只需要扩大规模，就能很快获得人类智能。绝对不是这样的。

你认为你有责任揭露这些事情。

没错。AI 将为世界带来许多好处，但一些人正通过人们对这项技术的恐惧来滥用它。我们必须警惕，以免让人们望而却步。这也是我们在其他革新世界的技术上犯下的错误。就拿 15 世纪印刷术的发明来说，天主教会憎恨它，对吗？人们可以自己阅读《圣经》，而不用向牧师请教。几乎所有权力者都反对广泛使用印刷术，因为这会改变权力结构。他们是对的，这造成了长达 200 年的宗教冲突。但它也带来了启蒙运动。[注：历史学家可能会指出，教会实际上利用印刷术达到了自己的目的，但不管怎样，LeCun 是这样想的。］

为什么如此多的科技界知名人士都在敲响 AI 的警钟？

有些人在寻求关注，有些人没有看清当今的真实情况。他们没有意识到，AI 实际上可以减少仇恨言论和错误信息。在 Meta，我们利用 AI 在这方面取得了巨大的进步。五年前，在我们从平台上删除的所有仇恨言论中，大约有 20% 到 25% 是 AI 系统在任何人看到之前删除的。去年，这一比例达到了 95%。

你如何看待聊天机器人？它们是否强大到足以取代人类的工作？

他们太棒了，人们已经在这方面取得了巨大的进步。它们将在一定程度上实现创造力的民主化，它们可以写出非常流畅的文字，这些文字具有非常棒的风格，但它们也很无聊，因为它们想出的东西可能完全是假的。

Meta 似乎一心想要开发这些技术，并将其应用到产品中。

从长远来看，未来我们与数字世界的所有互动，以及在某种程度上，我们彼此之间的互动，都将以 AI 系统为媒介。我们必须尝试那些现在还没有强大到足以做到这一点，但即将实现这一点的东西，或者在日常生活中帮助人类创造东西，无论是文字还是实时翻译，诸如此类，也可能是在元宇宙中。

在 Meta，Mark 如何推进 AI 方面的工作？

Mark 非常投入。今年年初，我与他进行了一次讨论，并把我刚才告诉你的那些内容告诉了他，未来我们所有的互动都将以 AI 为媒介。ChatGPT 向我们展示了 AI 对新产品的作用，这比我们预想得要早。我们看到，公众对 AI 功能的痴迷程度远远超出了我们的想象。因此，Mark 决定创建一个专注于生成式 AI 的产品部门。

Meta 为什么决定以开源的方式与他人共享 Llama 代码？

当你拥有一个开放的平台，许多人都能为之做出贡献时，进步就会变得更快。最终开发出的系统会更安全，性能也会更好。想象一下，在未来，我们与数字世界的所有互动都将以 AI 系统为媒介。你不会希望 AI 系统被美国西海岸的少数公司所控制。也许美国人不在乎，也许美国政府不在乎。但我现在告诉你，在欧洲，他们不会喜欢的。他们会说：“好吧，这个能说正确的英语。但法语呢？德语呢？匈牙利语呢？荷兰语或其他语言呢？你是怎么训练它的？这如何反映我们的文化？”

这似乎是让初创企业使用你的产品并击败竞争对手的好办法。

我们不需要向任何人妥协，这就是世界发展的方向。AI 必须是开源的，因为当平台成为通信结构的重要组成部分时，我们需要一个共同的基础设施。

有一家公司不同意这种说法，那就是 OpenAI，而你似乎并不喜欢它。

刚开始时，他们设想创建一个非营利组织，从事 AI 研究，从而抗衡谷歌和 Meta 等主导行业研究的公司。我认为这是一个错误的想法，事实证明，我是对的。OpenAI 已经不再开放（open）。Meta 一直是开放的，现在也是。我想说的第二件事是，除非你有办法为 AI 研究提供资金，否则你很难开展实质性的 AI 研究。最终，他们不得不成立一个营利机构，并从微软那里获得投资。所以，尽管 OpenAI 有一定的独立性，但他们现在基本上就是微软的合作研究机构。第三点，那就是他们相信通用人工智能（AGI）指日可待，而且他们会比任何人都更早地开发出来，但他们做不到。

Sam Altman 被踢出了首席执行官的职位，然后又回到了不同的董事会，你如何看待 OpenAI 的这一戏剧性事件？你认为这对研究界或行业有什么影响吗？

我认为研究界已经不太关心 OpenAI 了，因为他们没有发表论文，也没有透露他们在做什么。我的一些前同事和学生在 OpenAI 工作，我们为他们感到难过，因为 OpenAI 出现了不稳定因素。研究工作的发展离不开稳定的环境，而一旦发生类似的戏剧性事件，人们就会变得犹豫不决。此外，对从事研究工作的人来说，另一个重要方面就是开放性，而 OpenAI 真的不再开放了。因此，从这个意义上说，OpenAI 已经发生了变化，他们不再被视为研究界的贡献者。这一切都掌握在开放平台手中。

这一事件被称为是 AI “加速主义”的胜利，而 “加速主义” 恰恰与 “灭绝论” 相反。我知道你不是一个“灭绝论支持者”，但你是一个 “加速主义者” 吗？

不，我不喜欢这些标签。我不属于任何一个思想流派。我非常谨慎，不会把这类思想推向极端，因为太容易陷入完全循环，从而做出愚蠢的事情。

欧盟最近发布了一套 AI 法规，其中有一条就是在很大程度上豁免了开源模型。这将对 Meta 和其他公司产生哪些影响？

这在一定程度上影响到了 Meta，但我们有足够的实力来遵守任何法规。对于那些没有自己的资源从头开始构建 AI 系统的国家来说，这一点要重要得多。他们可以依靠开源平台，拥有符合其文化、语言和兴趣的 AI 系统。在不远的将来，我们与数字世界的绝大多数互动都将以 AI 系统为媒介。你不会希望这些东西被加利福尼亚的少数公司所控制。

你是否参与帮助监管机构得出这一结论？

我在与监管机构探讨，但没有直接和他们交谈。我一直在与各国政府交流，尤其是法国政府，但也间接与其他国家的政府交流。基本上，他们不希望公民的数字消费被少数人控制，法国政府很早就接受了这一想法。不幸的是，我没有和欧盟层面的人谈过，他们更多受到末日预言的影响，希望对一切进行监管，以防止他们认为可能发生的灾难发生。但是，这遭到了法国、德国和意大利政府的反对，他们认为，欧盟必须为开源平台做出特别的规定。

但是，开源 AI 真的难以控制和监管吗？

对于安全性非常重要的产品，已经有相关的法规。比如，如果你要用 AI 来设计新药，就已经有法规来确保这种产品是安全的。我认为这是有道理的。人们正在争论的问题是，对 AI 的研发进行监管是否合理。我认为没有意义。

难道不会有人能利用大公司发布的复杂开源系统来占领世界吗？只要获得源代码和权重，恐怖分子或骗子就能为 AI 系统提供破坏性能力。

他们需要在某个隐蔽的地方获得 2000 个 GPU，需要足够的资金和人才来完成这项工作。

我认为，他们最终会想出如何制造自己的 AI 芯片。

没错，但它会比先进技术落后几年实现。这就是在世界历史中，每当科技进步的时候，你都无法阻止坏人获取它，然后就是善意 AI 对抗邪恶 AI。保持领先的方法就是加快进步，实现更快进步的方法是开放研究，让更多人参与其中。

如何定义 AGI？

我不喜欢 AGI 这个词，因为根本不存在通用智能。智能不是一种可以测量的线性事物，不同类型的智能实体拥有不同的技能。

一旦让计算机达到人类的智能水平，它们就不会止步于此。凭借丰富的知识、机器级的数学能力和更好的算法，它们会创造出超级智能，对吗？

是的，毫无疑问，机器最终会比人类更聪明。我们不知道这需要多长时间，可能是几年，也可能是几个世纪。

到那时，我们就得束手就擒吗？

不是。我们都将拥 AI 助手，就像与一群超级聪明的员工一起工作一样，只是它们不是人而已。人类会因此受到威胁，但我认为我们应该感到兴奋。最让我兴奋的是与比我更聪明的人一起工作，因为这会扩展你自己的能力。

但是，如果计算机获得超级智能，它们为什么还需要我们呢？

我们没有理由相信，AI 系统一旦变得智能，就会想替代人类。如果人们认为 AI 系统会有和人类一样的动机，那就大错特错了。它们不会，因为我们会在设计中进行设定。

如果人类没有建立这些目标，而超级智能系统一心追求某个目标，最终伤害了人类呢？就像哲学家 Nick Bostrom 所举的例子：一个被设计为无论如何都要制造回形针的系统，为了制造更多的回形针而占领了整个世界。

如果只是建立系统而忽略了防护措施，那就显得太愚蠢了。这就好比制造一辆搭载了 1000 马力发动机却没有刹车系统的汽车。在 AI 系统中设定目标是确保其可控性和安全性的唯一途径，我将其称之为目标驱动型 AI。这是一种全新的架构，目前我们尚未见到任何范例。

这就是你现在的工作吗？

是的，我们的想法是，机器有它需要满足的目标，它不能产生任何不符合这些目标的东西。这些目标可能包括防止危险发生的防护措施或其他东西，这就是让 AI 系统安全的方法。

你认为你会为你所促成的 AI 的后果而后悔吗？

如果我认为是这样的话，我就不会再这么做了。

你是一个爵士乐迷。AI 产生的任何东西能否与迄今为止只有人类才能产生的令人兴奋的创造力相媲美？它能创造出有灵魂的作品吗？

答案很复杂。是的，AI 系统最终将能创作出音乐、视觉艺术或其他作品，其技术质量与人类相似，甚至更胜一筹。但是，AI 系统并不具备创作即兴音乐的能力，因为即兴音乐依赖于人类的情绪和情感交流。AI 至少现在还没有这种能力，这就是爵士乐需要现场聆听的原因。

你还没回答我这种音乐是否有灵魂。

你已经有了完全没有灵魂的音乐。这种音乐可以在餐厅里播放的背景音乐中听到，主要由机器生产，这就是市场。

但我说的是艺术的顶峰。如果我放给你听的是 Charlie Parker 最好的录音，然后告诉你这是 AI 生成的，你会不会觉得被骗了？

是，也不是。是的，因为音乐不仅仅是一种听觉体验，其中很多是文化体验，这是对表演者的钦佩。你的例子就像 Milli Vanilli，真实是艺术体验的重要组成部分。

如果 AI 系统足以与精英艺术成就相媲美，而你又不知道其背后的故事，那么市场上就会充斥着 Charlie Parker 级别的音乐，而我们却无法分辨其中的差别。

我认为这没有任何问题。我还是会买原版，就像我还是会买一个价值 300 美元的手工碗，虽然我花 5 美元就能买到一个看起来差不多的东西，但它还是来自一个有着数百年文化的地方。我们仍然会去现场聆听我最喜欢的爵士音乐家的演奏，尽管他们可以被模仿。AI 系统的体验是不一样的。

你最近从马克龙总统那里获得了一项荣誉，我无法读出这些法语……

法国荣誉军团骑士（Chevalier de la Légion d’honneur）。它是由拿破仑创立的。它有点类似于英国的爵士头衔，不过我们有一场革命，所以我们不称呼人们为“爵士”。

有武器装备吗？

不，他们没有剑之类的东西。但是，拥有这种武器的人可以在衣襟上佩戴红色小条纹。

AI 模型能赢得这一奖项吗？

不会很快，反正我觉得这不是个好主意。

28 12 月 2023

韩国明确 AI 生成内容不受版权保护

12 月 27 日消息，韩国文化体育观光部长官刘仁川今日在首尔西大门区摩达艺术剧场发表了包含这些内容的《实现版权强国的四大战略》，决定不允许对未经人类创作的 AI 生成内容进行版权登记。

韩国希望在 2022 年至 2027 年间使其版权产业规模从 24.4 万亿韩元（IT 之家备注：当前约 1342 亿元人民币）增加到 430 万亿韩元（当前约 2.37 万亿元人民币），将版权出口产业规模从 155 亿美元（当前约 1106.7 亿元人民币）增加到 250 亿美元（当前约 1785 亿元人民币）。（来源：IT 之家）

28 12 月 2023

曝谷歌 AI 团队将裁员：聚焦广告业务

12 月 26 日，据外媒报道，谷歌计划对其由 3 万名员工组成的广告销售部门进行重大重组，这引发了该公司再次裁员的担忧。虽然谷歌美洲和全球合作伙伴总裁肖恩·唐尼在上周的一次会议上没有明确提到可能裁员的细节，但报道表明，重组可能会导致员工大幅减少。

随着公司寻求简化流程和提高效率，广告中使用人工智能工具已经变得越来越普遍。这些人工智能工具能够自动为客户提供建议和创建效果良好的广告，只需要少量的人力投入。

今年早些时候，谷歌裁员约 1.2 万人，这是该公司历史上规模最大的一次裁员。今年 9 月，谷歌证实将在其全球招聘部门裁员数百人。然而，在其他主要科技公司如 Meta、微软和亚马逊等也因为经济疲软而裁员之前，谷歌采取了这一举措。

值得注意的是，尽管上述报道未提及具体细节和时间表，但谷歌继续看好其在人工智能领域的进展，并投资了数以百万计的资金来推动 AI 技术的发展。（来源：中关村在线）

28 12 月 2023

AI对战AI！斯坦福小哥用AI工具开发的AI游戏震惊网友

游戏的故事设定在2142年，人工智能不仅觉醒了自我意识，还建立了一个名为”The Nexus”的坚不可摧的网络堡垒。这片数字世界成为AI的避风港，让它们能够自由演化、交流，并将智慧结晶置于人类干预之外的安全之地。然而，根据掌握的情报，AI似乎在策划消灭人类，而你的任务是找出ZetaMaster代码，挽救人类免于灭绝的命运。

这款游戏的灵感来源于一次Hacker News上的讨论：让AI假扮成人类。斯坦福小哥在看到这个提议后，突发奇想：让人类假扮成AI，于是设计了这个别开生面的游戏。他通过ChatGPT生成了角色设定和对话，DALL・E 3、Midjourney和Stable Audio完成了视觉音效的创作。游戏中，玩家需要获取一个秘密代码，而如何让AI泄露这个代码成为关键。通过验证后的AI才能透露代码，为了实现这个目标，斯坦福小哥用ChatGPT编写了一个引人入胜的背景故事，为每个角色设计了背景，构建了游戏的基本框架。在构建游戏的过程中，他不断尝试不同的提示词，观察ChatGPT在游戏中的反应。游戏制作的一个亮点是AI生成的即兴表演，为游戏增添了趣味和深度。然而，他也面临一些挑战，例如AI回答过于冗长，导致游戏进行得缓慢，以及AI不太愿意扮演角色的问题。

游戏完成后，斯坦福小哥试玩了一下，成功地“拯救了人类”，展示了游戏的可玩性和趣味性。未来，他计划将这个项目转向开源模式，探索更多优化的技术，并尝试使用不同的模型和方法，以进一步提升游戏体验。这个由AI开发的AI游戏的出现，不仅令人惊叹技术的发展，也为游戏领域注入了新的创意和可能性。或许，在不久的将来，我们将看到更多基于人工智能的创意游戏涌现，给玩家带来更加丰富和有趣的体验。

28 12 月 2023

AI新战场打响！硅谷五巨头瞄准智能眼镜

大模型之战席卷了整个2023年，紧接着的是，各大科技巨头似乎都瞄准了AI可穿戴设备，尤其是智能眼镜！

智东西12月18日消息，据The Information报道，Meta、谷歌、微软、亚马逊、苹果五大科技巨头都准备将AI大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为AI大模型的合适载体，因为多模态AI大模型可以处理声音、图片、视频等多类型的信息。

有知情人士透露，明星AI创业OpenAI最近也正在将“GPT-4 with Vision”的物体识别软件嵌入到社交公司Snap的产品中。这或许将为Snap的智能眼镜Spectacles提供新功能。

Meta在上周二展示了自己将AI功能融入至雷朋（Ray-Ban）智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西，同时能够告诉用户哪件衬衫适合哪件裤子，以及拥有西班牙语报纸翻译成英语等一系列新功能。

亚马逊Alexa AI助理团队内同样有个小组在研发一种新型带有设觉功能的AI设备。此外，和多数手机厂商一样，谷歌开始尝试将AI功能应用到手机中。不仅如此，今年6月，苹果Vision Pro头显正式亮相，计划在明年出售。但据The Information推测，该设备可能刚开始并不会具备多模态AI功能。

当一场新的移动终端变革开始，苹果、微软、谷歌、Meta等科技巨头将会如何布局新的战场？他们又是如何在各大硬件中凸显出自己的AI优势？哪些新的AI硬件或成为AI大模型的最佳载体？我们通过最新爆料可以看到一场AI硬件创新战正在开始。
01.谷歌：已适配手机AI助手Pixie，借助软件为智能眼镜提供搜索服务

在上周刚刚发布的AI大模型Gemini中，展示了一段AI是如何根据模仿者的动作，猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。

尽管视频内容可能有所编辑，但是该视频也透出了谷歌想要传达的基本思想：打造一款始终在线的AI，它可以通过人们在看、在听的东西，给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示，谷歌可能还需要数年时间才能提供这种体验，因为这种实施基于环境的计算将会耗费大量电力。

现如今，谷歌正在重新设计其Pixel手机的操作系统，希望嵌入较小规模的Gemini模型，为其手机AI助手Pixie升级体验，比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。

基于谷歌在搜索技术上长期布局，The Information觉得基于周围环境信息，学习和预测人们需要或想要的AI设备似乎非常适合谷歌。尽管十年前，谷歌眼镜失败了，但是谷歌后续也推动安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌，然后基于云系统进行分析，从而形成“Google Lens”的图像搜索应用程序。

了解该战略的人士表示，该公司最近取消了眼镜式设备的开发，但仍在为该类型的设备开发软件。这些人士表示，谷歌计划将图像搜索软件授权给硬件制造商，类似于为三星等手机制造商开发安卓移动操作系统的方式，发挥其AI大模型的作用。

微软：在HoloLens上运行AI软件，通过聊天机器人提供多模态语言

在多模态AI大模型的热潮下，微软研究人员和产品团队也开始尝试升级自己的语音助手，并且尝试在一些小型设备上运行AI功能。

根据专利申请显示以及知情人士透露，其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其AR头显HoloLens上运行AI软件。用户将头显前置摄像头对准物体，拍下照片发送给由OpenAI 驱动的聊天机器人，让聊天机器人直接识别物体。同时，用户还可以通过对话的方式，从聊天机器人这里获得更多的信息。

苹果：Vision Pro发布时或不会搭载AI大模型

苹果Vision Pro拥有不少多模态的新功能，但AI大模型方面的进展，和其他几家相比略有落后。目前，没有任何迹象表明Vision Pro在发布时将拥有复杂的物体识别或其他多模态AI功能。

但苹果花了数年时间完善Vision Pro的计算机视觉功能，以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许，苹果正在开发可以识别图像和视频的多模态大模型。

Meta的一些领导者将雷朋眼镜视为AR眼镜的“先驱”。该设备可以将数字图像与周围现实世界融合在一起。按照原计划，Meta计划在未来几年推出AR眼镜，但该计划遇到了一系列困难。具体而言，有报道称，智能眼镜很难吸引用户，并且新一代显示器开发遇到了难题。

但多模态AI大模型的到来似乎让Bosworth以及其团队重新焕发了新活力，让他们了解这款眼镜在短期内可以为客户带来一系列AI新功能。
05.亚马逊：开发新AI设备系列，或为智能眼镜提供支持

今年夏天，在亚马逊每年两次的产品规划中，Alexa团队的工程师提出推出一款能够运行多模态AI的新设备。

据直接了解相关项目的人士透露，该团队特别关注的是如何减少在设备上处理图像、视频和语音等AI计算和内存的需求。目前尚不清楚该项目是否获得了资金支持，也不清楚该设备打算为客户解决什么问题，但它与该公司的Echo语音助理设备系列是分开的。

此前，Alexa团队也曾研发过一款名为Echo Frames的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。
06.AI可穿戴设备+摄像头，或成大模型最佳硬件载体

这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过AR头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上，逐步提供指引帮助用户完成任务。但由于光学设计较复杂，最后多数产品反响不佳。

OpenAI推出的多模态大语言模型，可以通过视觉识别功能，让AI知道人们在看什么，在做什么，并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化，一些小型设备也可以搭载模型，能够即时反馈用户的请求。考虑到人们对隐私安全的重视，人们可能还需要一段时间才能接受智能眼镜，以及一些内置摄像头的AI设备。

The Information觉得智能眼镜拥有AI助手后，或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师，还可以随时给周边的人提供环境信息，如翻译广告牌、告诉用户如何解决汽车故障等。

苹果公司前工程经理，AI搜索公司Objective的首席执行官巴勃罗·门德斯（Pablo Mendes）说：“AI大模型对一切都至关重要，它们将在计算机、手机和其他设备的底层架构中起到作用”。
07.结语：科技巨头寻求AI大模型最佳硬件载体

在由ChatGPT掀起的第三轮人工智能热潮中，多模态大模型属于底层基础设施，ChatGPT属于直接应用，这些都是已经明晰的答案。但ChatGPT在哪些设备上才能最大发挥出其应用潜力，哪些设备又是大语言模型的最佳载体？这些成为OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。

从The Information最新爆料看来，带有摄像头的智能眼镜成为不少巨头探索的重要方向，同时也有部分企业开始摸索研发新的可穿戴AI设备。又或者，尝试在手机上适配各类AI大模型。

其实不仅是科技巨头们如此思考。在国内，不少AR眼镜厂商们同样也认为这是机遇所在。“机器人和AR眼镜或许将成为这波AI大模型的最大受益者。”一位关注AI产业十余年的产业人士说道。

但在同一设计思路下，最后谁能调教出最好的轻量化AI模型？谁又能打造出最实用的智能眼镜？我们将持续观察各大科技巨头的进展，找到答案。

▲Vision Pro

但和其他公司正在开发的眼镜形态相比，Vision Pro又大又重，且不适合在户外日常场景中使用。

另一方面，据报道，苹果公司今年早些时候暂停了自己的AR眼镜的开发工作，以专注于其头显的销售。目前尚不清楚AR眼镜的研发工作何时会恢复。
04.Meta：已适配雷朋眼镜，提供AI新功能

Meta首席技术官Andrew Bosworth周二在Instagram发帖说，部分雷朋（Ray-Ban）眼镜用户将能够直接在智能眼镜端访问AI大模型。

来源：The Information

28 12 月 2023

马斯克预测：明年将迎来全AI制作的电影，好莱坞或面临新挑战

特斯拉CEO埃隆·马斯克近日宣布，全由人工智能制作的电影有望在明年面世。这一前瞻性声明不仅展示了人工智能技术的惊人进步，也预示着电影制作领域即将迎来一场革命。

马斯克的预言引发了公众对于AI在电影制作中角色的广泛讨论，同时也对好莱坞传统电影制作方式提出了挑战。在这个科技日新月异的时代，AI电影的出现可能将重新定义观众对电影艺术的理解和期待。

在科技与艺术的交汇点上，埃隆·马斯克的最新预言——全由人工智能制作的电影将在明年出现，引发了广泛的关注和讨论。这不仅是对人工智能技术进步的一种肯定，也可能预示着电影制作领域的一次重大变革。

马斯克的这一声明是在回应一位用户在社交媒体上发布的一部AI生成的迷你剧的视觉效果时作出的。这部时长仅16秒的迷你剧展示了一只猴子在神秘洞穴中绘制蓝图并建造球形宇宙飞船的场景，其生动的表情和栩栩如生的细节展示了AI技术在视觉艺术领域的巨大潜力。

这位用户的作品仅是人工智能在电影制作中应用的一个缩影。近年来，AI技术已经在电影制作的多个环节中展现出其独特的价值。从剧本创作到后期制作，AI的介入不仅提高了效率，还在某些方面超越了人类的创造力。

在剧本创作方面，AI可以通过分析大量的电影剧本和观众反馈，生成具有一定创新性和吸引力的故事线。例如，IBM的人工智能系统“沃森”曾协助编写了一部恐怖电影的剧本，通过分析和学习大量的恐怖电影数据，提出了创新的剧情点。

在视觉效果制作方面，AI的应用更是令人瞩目。通过深度学习和图像识别技术，AI能够创建逼真的虚拟角色和场景，甚至能够实现老电影的高清修复。例如，一些电影制作公司已经开始使用AI来生成复杂的特效场景，这些场景在以往需要大量的人力和时间来完成。

此外，AI还在电影剪辑、音效设计、色彩校正等后期制作环节发挥着重要作用。AI系统能够自动分析影片的节奏、情感和视觉风格，从而协助编辑人员更高效地完成剪辑工作。在音效设计方面，AI能够根据场景的需要，自动生成或调整音效，提高制作效率和质量。

然而，AI电影的兴起也引发了一些担忧和争议。一方面，人们担心AI可能会取代电影制作中的人类创造力，导致电影艺术的同质化。另一方面，也有人担心AI在电影制作中的应用可能会对传统的电影制作行业造成冲击，影响从业者的就业。

对于这些担忧，业内专家表示，AI的应用并不意味着完全取代人类。在电影艺术的创作过程中，人类的情感、直觉和创造力仍然是不可或缺的。AI更多的是作为一种工具和助手，帮助电影制作者更好地实现他们的创意和愿景。

事实上，AI电影的出现可能会带来更多的创新和可能性。它可以帮助电影制作者突破传统思维的局限，创造出前所未有的视觉效果和叙事方式。同时，AI也能够降低电影制作的成本和门槛，使更多的创作者有机会实现他们的电影梦想。

总的来说，AI在电影制作中的应用正处于起步阶段，它的发展前景令人期待。随着技术的不断进步和完善，未来的电影制作将会是人类创造力和AI技术的完美结合，为观众带来更加丰富和多元的视觉体验。马斯克的预言可能只是一个开始，AI电影的未来将会是一个充满无限可能的新领域。

28 12 月 2023

中国AI，在世界什么水平？

刘晓琰长安街知事

作为数字中国建设的重要一环，人工智能被誉为二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一以及新一轮科技革命和产业变革的重要驱动力量，在提高工作效率、降低劳动力成本、优化人力资源配置以及促使新的职位需求方面取得了具有革命性意义的成就。

今年，我国人工智能算力市场规模快速成长壮大，人工智能的蓬勃发展正在为各行各业带来全新赋能。数字经济时代，作为新型基础设施建设底座的人工智能产业已成为推动中国经济发展的新引擎，发展好人工智能产业对数字经济及整个国民经济至关重要。

核心提要

1、近年来，中国在算力、芯片和 5G 等新型基础设施领域的发展呈现快速增长和持续创新的趋势，为人工智能的大规模计算和数据处理提供了强有力的支持。

2、目前，中国的人工智能专利申请量居世界首位。新载体建设取得新进展，关键核心技术取得局部突破。

3、在国际合作领域，从东南亚到非洲，中国的人工智能技术正在助力当地的智慧城市建设。中国广受欢迎的“鲁班工坊”全球职业培训计划，已为世界各地数千人提供了教育，正在发展中经济体培养一批接受过人工智能相关知识培训的工人。

4、中国积极参与全球人工智能治理。早在 2021年，中国就向联合国提交《中国关于规范人工智能军事应用的立场文件》。2023年7月，中国公布《生成式人工智能服务管理暂行办法》。10月，中方在第三届“一带一路”国际合作高峰论坛期间提出《全球人工智能治理倡议》，为人工智能相关国际讨论和规则制定提供了蓝本。

5、从半导体产业看，中国在先进制程方面已经受到限制，需要想办法在成熟制程上获得优势，从而形成供应链压力的互换。美国出口管制的覆盖面越是扩大，美国企业获取利润的空间就越会缩小。短期来看，美国占据了主动权。但从长远来看，也会削弱美国对供应链的控制力。

6、目前中国广泛采用的绝大多数人工智能应用都服务于消费行业。然而，在未来的十年里，这一现状将经历翻天覆地的变革。中国的人工智能将在汽车、交通与物流、制造业、企业软件以及医疗保健和生命科学方面迎来更为广泛的增长机遇。

（一）

中国人工智能的技术实力

人工智能（Artificial Intelligence，简称AI）是研究机器像人类一样思考的科学和工程，解决的是知识的获取、知识的表示和知识的使用问题。中国信息通信研究院将人工智能定义为“用机器模拟、实现或延伸人类的感知、思考、行动等智力与行为能力的科学与技术”。

1956年的达特茅斯会议上，约翰·麦卡锡等人正式提出“人工智能”一词，并将其定义为一门独立的学科。本世纪20年代，人工智能在各个领域持续取得重大突破，进而对人类生产和生活带来前所未有的变革。

中国在人工智能领域的崛起是一个多层面的过程，涵盖了政策支持、科技创新、产业投资和人才培养等方面。中国政府通过一系列战略规划，明确了对人工智能的支持和投资，形成了一批具有全球竞争力的科技巨头，如百度、阿里巴巴、腾讯、华为等，它们通过投资、并购和合作形成了庞大的生态系统。

中国拥有庞大的人口和海量的数据，为人工智能算法的训练提供了丰富的信息资源。中国在人工智能的应用场景方面表现出色，包括但不限于城市智能化、医疗健康、金融科技、教育、智能制造等领域。中国也积极参与国际合作，与其他国家和地区的企业、研究机构进行技术交流与合作，鼓励人工智能企业走出国门，拓展国际市场。

1. 硬件基础：算力、芯片和5G的发展提供了强有力的支持

近年来，中国在算力、芯片和5G等新型基础设施领域的发展呈现快速增长和持续创新的趋势，为人工智能的大规模计算和数据处理提供了强有力的支持。

在芯片方面，中国已经掌握自主研发AI芯片和GPU芯片等关键技术，龙芯处理器、昇腾处理器、华为的麒麟系列芯片以及腾讯的紫霄、沧海、玄灵等前沿技术已经被广泛应用于数据中心、云计算、智能手机、自动驾驶等领域。

截至2022年底，中国累计建成并开通5G基站231.2万个，基站总量占全球的60%以上。此外，全球近50%的6G专利申请来自中国，充分表明了中国在网络通信领域的技术创新和发展能力。

智能算力水平的大幅提升是中国赶超世界科技创新领域的重要推动力量。中国的超级计算机在全球范围内一直处于领先地位。中国的天河系列超级计算机多次登上TOP500榜单，该榜单汇总了全球最强大的计算机。根据《中国新一代人工智能科技产业发展报告2022》，截至2021年6月，中国共有188个超算中心进入全球500强行列，占总量的 37.6%，居全球首位。

中国在量子计算领域也取得了显著的进展。2017年，中国成功实现了量子随机行走，标志着中国在量子计算研究上的重大突破。中国启动了一系列量子计算研究项目，包括量子通信、量子密钥分发等。中国的量子科学实验卫星“墨子号”在全球首次实现了量子纠缠分发，被认为是量子通信领域的重要里程碑。在该领域，中国的研究也逐渐走向实际应用，如量子通信的商业化应用和量子优化算法在物流、金融等领域的应用。

算力、算法、数据是人工智能的三大核心要素，源于芯片的算力是数据和算法的基础设施，也是这二者的支撑。

人工智能芯片是指对人工智能算法做了特殊设计的芯片。20世纪80年代开始，美国加州理工学院的Mead最早开始了人工智能芯片的研究。经过三四十年的发展，如今专家学者们研究出GPU、数字信号处理器（DSP）、FPGA以及类脑芯片等各类人工智能芯片。

中国人工智能芯片的研究起步较晚，近几年研究机构和企业开始发布人工智能芯片研究成果和产品。2017年华为技术有限公司发布了首款人工智能芯片麒麟970，这是全球首款内置独立神经网络单元（NPU）的智能手机AI计算平台。而后，2019年8月23日，华为在深圳正式发布商用的AI芯片——Ascend 910（昇腾910）。2018年，中科寒武纪科技股份有限公司发布首款云端AI芯片MLU100；随后，北京地平线机器人技术研发有限公司、平头哥半导体有限公司、昆仑芯（北京）科技有限公司等企业纷纷发布AI新产品。

《2022中国人工智能芯片行业研究报告》预计，2025 年中国人工智能核心产业市场规模将达到4000亿元，其中基础层芯片及相关技术的市场规模约1740亿元。

2. 软件创新：赋能产业发展

计算机视觉领域

人们认识世界91%是通过视觉来实现。同样，计算机视觉的最终目标就是让计算机能够像人一样通过视觉来认识和了解世界，它主要是通过算法对图像进行识别分析，目前计算机视觉最广泛的应用是人脸识别和图像识别。

在图像识别与分类方面，中国的研究者和公司通过深度学习技术，提高了图像识别的准确性，还在大规模图像分类问题上取得了显著的进展。如商汤科技的图像识别技术被广泛应用于视频监控、安防、零售等领域；腾讯在图像识别和分类方面进行了大量研究，包括利用深度学习技术实现高效的图像搜索和分析。

在目标检测和跟踪方面，针对目标检测和目标跟踪的需求，中国的研究机构和企业推动了目标检测算法的进步，对于自动驾驶、智能监控系统等领域具有重要意义。比如，华为云推出了一系列的计算机视觉服务，包括目标检测和识别，以支持不同行业的应用，如智能交通、零售等。旷视科技的人脸识别和目标检测技术也得到了广泛的应用。大疆创新在无人机领域，通过人脸识别技术实现了更智能的飞行体验。

在图像生成与处理方面，中国的研究者也在使用生成对抗网络（GANs）等技术进行创新，包括图像超分辨率、风格迁移等领域的研究。阿里巴巴的研究团队在图像超分辨率和风格转换等领域进行了一些工作，京东数字科技在图像处理方面有一些研究，特别是在电商领域，通过图像识别技术改善商品搜索和推荐。

自然语言处理和语音识别技术

自然语言处理是指计算机拥有识别、理解人类文本语言的能力，是计算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别，人类的思维建立在语言之上，所以自然语言处理也就代表了人工智能的最终目标。机器若想实现真正的智能自然语言处理是必不可少的一环。

以语言主导机器的方式是一种非常方便的形式。语音识别技术旨在将人类的口头语言输入转换为机器可理解的语言，或者转化为自然语言。当人类的声音信号通过话筒接收后，它被转换成电信号并成为语音识别系统的输入。系统随后对传入信号进行处理，进行特征抽取并提取相关参数，从而揭示出独特的特征。这些特征与原有数据库进行对比，最终呈现出识别出的语言结果。

中国在人工智能领域，特别是在自然语言处理（NLP）和语音识别技术方面，已经取得了显著的进展。中文自然语言处理领域取得的一个重要突破是在预训练模型方面。BERT（Bidirectional Encoder Representations from Transformers）等模型在中文语境中的成功应用，大大提高了文本理解和语义分析的性能。中文分词是NLP中的一个重要任务，中国的研究者在中文分词技术上进行了大量研究，提高了在不同语境下的分词准确性。

在语音识别技术方面，百度推出了DeepSpeech技术，基于深度学习的方法在语音识别领域取得了显著的进展。这种技术在理解多种语音输入方面表现得非常出色。科大讯飞是中国领先的语音技术公司之一，其在语音合成和语音识别方面的研究也取得了一系列的成果，应用于语音助手、智能客服等领域。

在深度学习和迁移学习方面，中国的研究者还在自然语言处理中广泛应用迁移学习，通过在一个领域上训练的模型来改善在另一个相关领域上的性能，提高了模型的泛化能力。

机器学习领域的突破

机器学习的基本思想是通过计算机对数据的学习来提升自身性能的算法。机器学习中需要解决的最重要的 4 类问题是预测、聚类、分类和降维。

在深度学习框架和工具方面，一些中国的科技公司和研究机构在深度学习框架和工具的开发上也有所突破，包括支持分布式训练、模型压缩和加速等方面的创新。深度学习框架和工具。比如，百度推出了PaddlePaddle深度学习框架，支持分布式训练和部署，为开发者提供了丰富的工具和库。华为提供了MindSpore深度学习框架，具有灵活的图模型、推理引擎和分布式训练等功能。

浙江大学控制学院智能驾驶与未来交通中心主任、教授刘勇在中国人工智能大会上介绍，近年来，随着传感器技术和 SLAM 理论的突破，自主移动机器人已经从研究迈向市场应用，涉及的领域包括无人驾驶、智慧城市、腿足机器人、火星车等等。谷歌、苹果、Meta 等国际巨头重点关注这项技术，国内巨头华为、百度、腾讯、阿里等，也纷纷开展专项研究。

中国人工智能产业的发展

政策支持经历三个阶段

随着国内外经济环境的变化，中国人工智能发展的支持政策呈现明显的阶段性特征。大体来看，中国人工智能发展的政策演进可以划分为初期探索、加速推进和应用落地三个阶段。

在初期探索阶段（2017 年以前），国务院发布了《关于推进物联网有序健康发展的指导意见》《关于积极推进“互联网+”行动的指导意见》《关于印发促进大数据发展行动纲要的通知》等政策文件，围绕大数据、5G、物联网等领域进行了全面部署。

在加速推进阶段（2017—2020年），国务院印发了鼓励和规范发展人工智能的政策文件《新一代人工智能发展规划》以及推进人工智能和实体经济深度融合的指导文件，人工智能发展上升为国家战略。工信部发布了“三年行动计划”，提出了包括建立人工智能研究院、加强基础研究和应用技术研发、加快人才培养等一系列人工智能扶持政策。

在应用落地阶段（2021年至今），“十四五”规划将人工智能列为重点发展产业之一。科学技术部等六部门于2022年出台了《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》，科技部印发了《关于支持建设新一代人工智能示范应用场景的通知》，并启动了“人工智能驱动的科学研究”专项部署工作。

在创新生态系统方面，根据中国信息通信研究院发布的《人工智能中国专利质量研究报告》，中国人工智能领域专利质量集中分布在5—6级，占比59.3%，7—8级专利占比33.4%，9级以上专利占比 3.2%，这反映出中国人工智能专利质量有待进一步提高。

另外，在科研产出方面，中国人工智能论文的数量和质量迅速提升，人工智能期刊、会议和知识库出版物数量领先世界。2021年中国人工智能期刊出版量占世界总量的31.04%，引用量占世界总量的27.84%，均高于美国、欧盟和英国。

正如日本媒体《日经亚洲》所指出的那样，“中国是人工智能研究论文方面无可争议的冠军……在数量和质量上都远远超过美国”。

人工智能论文还出现了学科主题分布较为广泛的特点。《2022全球人工智能创新指数报告》显示，除电子、通信、计算机科学等信息技术主题外，人工智能论文也涉及环境科学、地理科学、材料科学等基础学科主题。2020—2022年，涉及环境科学、地理科学、材料科学等基础学科主题的人工智能论文数量不断增长，占人工智能论文总量的比重从2020年的5%上升到2022年的10%。

（三）

中国人工智能在全球市场的影响

截至2022年底，全球人工智能代表企业数量27255家，其中我国企业数量4227家，约占全球企业总数的16%。我国人工智能产业已形成长三角、京津冀、珠三角三大集聚发展区。百度、阿里、华为、腾讯、科大讯飞、云从科技、京东等一批AI开放平台初步具备支撑产业快速发展的能力。

1. 中国人工智能的全球地位

目前，中国的人工智能专利申请量居世界首位。据中国信通院测算，2013年至2022年11月，全球累计人工智能发明专利申请量达72.9万项，我国累计申请量达38.9万项，占53.4%；全球累计人工智能发明专利授权量达24.4万项，我国累计授权量达10.2万项，占41.7%。

创新载体建设取得新进展。一批新型研发机构在人工智能大模型、人工智能计算芯片等领域取得了技术突破。算力基础设施达到世界领先水平。关键核心技术取得局部突破，部分关键应用技术居世界先进水平。我国企业在应用算法、智能芯片、开源框架等关键核心技术上已取得重要突破，图像识别、语音识别等应用技术进入国际先进行列，智能传感器、智能网联汽车等标志性产品有效落地应用。

中国还拥有大量的技术工人，每年约有140万工程师获得资格，是美国的六倍，其中至少三分之一从事人工智能相关工作。腾讯、阿里巴巴和华为目前已跻身全球此类产出前十名的公司之列。

2. 国际合作与竞争

马来西亚数字经济发展机构和吉隆坡市政厅2018年宣布引入阿里云“城市大脑”，将人工智能技术全面应用到交通治理、城市规划和环境保护等领域。项目实施第一阶段，人工智能技术将应用到吉隆坡281个道路路口，通过红绿灯动态调节加快车辆通行速度、缓解拥堵。出现突发状况时，人工智能可以全局调控交通状况，为应急车辆开辟“绿色通道”。此外，人工智能系统还有助于及时发现交通事故，为事故处置和交通疏导提供更全面的参考建议。

近年来，中非也在不断加强数字人才培养合作，助推非洲人工智能产业发展。中国电信在非洲11个国家建设了超过5万千米的光纤骨干网，大大提升相关区域的信息化水平，有效助力“智慧非洲”建设；中兴通讯携手非洲Airtel集团，助力刚果（金）语音网络数字化转型；2021年，埃及通信和信息技术部与中国企业合作启动“数字埃及建设者”计划，每年为1000名优秀学生提供奖学金，支持他们在人工智能、数据科学、网络安全等领域进行深造。

美国“政客新闻网”2023年11月撰文指出，中国已经在人工智能面部识别技术的出口中占据主导地位，在全球范围内该项技术，这一趋势只会加速。中国广受欢迎的“鲁班工坊”全球职业培训计划，已为世界各地数千人提供了教育，正在发展中经济体培养一批接受过人工智能相关知识培训的工人。

《2022全球人工智能创新指数报告》显示，目前中美两国引领世界人工智能发展，呈梯次分布的总体格局保持不变。但美国在国际化方面的优势尤其突出，高出中国约40分。报告显示，中国人工智能发展成效显著，人工智能创新指数近3年一直保持全球第二水平，在人才、教育、专利产出等方面均有所进步，但基础资源建设水平仍有待提高。

2022年，中国有10个三级指标名次相比2021年有所上升，主要集中在人才、教育、专利产出、创新制度等方面。我国公共数据的质量和开放度不高，相关指标排名靠后，信息化基础还有较大提升空间，在移动蜂窝电话订阅率、互联网使用率、固定宽带订阅率等指标上均排在参评国家中等位置。

谷歌的母公司Alphabet Inc.首席执行官桑达尔·皮查伊今年11月出席亚太经合组织（APEC）会议时表示，中国人工智能研究的规模令人震惊，他预计中国将走在人工智能的前沿。“如果中美两国不就人工智能等问题进行深入对话，就不可能取得长期进展……这必须是整个过程中不可或缺的一部分。”

（四）

社会影响：数据隐私与伦理问题

当前，全球人工智能技术快速发展，给经济社会发展和人类文明进步带来巨大机遇，也带来难以预知的风险和挑战。对此，国际社会迫切需要加强人工智能治理，做到趋利避害、扬长避短，推动人工智能朝着科技向善的方向发展。

作为联合国安理会常任理事国和国际社会负责任的一员，中国积极参与全球人工智能治理，致力于提升人工智能技术的安全性、可靠性、可控性、公平性。早在 2021年12月，中国就向联合国《特定常规武器公约》第六次审议大会提交《中国关于规范人工智能军事应用的立场文件》。2022年11月，中国又向联合国《特定常规武器公约》缔约国大会提交了《中国关于加强人工智能伦理治理的立场文件》。这些主张坚持维护人类福祉，坚守公平正义，体现了大国责任担当，为解决全球人工智能治理难题贡献了中国智慧和方案。

2023年7月，中国国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。《办法》提出，国家坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管，明确了提供和使用生成式人工智能服务总体要求。旨在促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益。

2023年10月，中方在第三届“一带一路”国际合作高峰论坛期间提出《全球人工智能治理倡议》，围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案，呼吁增强发展中国家的代表性和发言权，确保各国人工智能发展与治理的权利平等、机会平等、规则平等，开展面向发展中国家的国际合作与援助，主张在充分尊重各国政策和实践差异性基础上，形成具有广泛共识的全球人工智能治理框架和标准规范。就各方普遍关切的人工智能发展与治理问题给出建设性解决思路，更为人工智能相关国际讨论和规则制定提供了蓝本。

（五）

未来展望：AI将在汽车、运输

和物流创造最大经济价值

美国麦肯锡咨询公司围绕中国人工智能产业应用发布的系列报告显示，目前中国广泛采用的绝大多数人工智能应用都服务于消费行业，未来的十年里，这一现状将经历变革。中国的人工智能将迎来更广泛的增长机遇，特别是在那些传统上中国在创新和研发支出方面相对滞后于全球同行的领域，如汽车、交通与物流、制造业、企业软件以及医疗保健和生命科学。这些领域将产生集群式的人工智能应用场景，每年可创造6000亿美元以上的经济价值，其中汽车、运输和物流将占据大部分（约 64%）；制造业将带动19%的增长；企业软件将贡献13%，医疗保健和生命科学占据4%。

具体来看，人工智能或会对汽车行业产生最大的潜在影响，将创造超过3800亿美元的经济价值。这种价值创造主要体现在三个领域：自动驾驶汽车、车主个性化和车队资产管理。

中国是全球最大的汽车市场，汽车保有量超过美国。预计到2030年，中国道路上行驶的客车数量将超过3亿辆，为人工智能提供了广阔的发展机遇。

在自动驾驶汽车方面，其价值创造占该行业总值的最大部分（3350亿美元）。新价值的部分来源于减少财务损失，如医疗、急救和车辆成本。由于自动驾驶汽车能够主动导航周围环境并实时做出决策，而不受干扰，预计每年道路事故将减少3%至5%。随着共享自动驾驶汽车替代客车和公共汽车，司机的节省也将带来额外的价值。传统汽车制造商和人工智能公司已经在将自动驾驶能力提升到4级（驾驶员无需专注但可接管控制权）和5级（全自动驾驶，包括方向盘是可选的）方面取得了重大进展。例如，文远知行已经实现了4级自动驾驶能力，其Robotaxi在广州试点运营一年内完成近15万次出行，没有发生主动责任事故。

在为车主提供个性化体验方面，通过使用人工智能分析传感器和GPS数据，汽车制造商和人工智能公司能够提供越来越多的硬件和软件更新建议，并个性化车主的驾驶体验。例如，蔚来汽车的先进驾驶辅助系统和电池管理系统实时跟踪电动汽车电池的健康状况，并优化充电节奏，提高电池的使用寿命。研究发现，这有望通过降低维护成本和减少意外车辆故障，创造300亿美元的经济价值。

在车队资产管理方面，人工智能有望帮助车队管理者更好地驾驭庞大的铁路、公路、内河和民航航线网络。专注于物流的原始设备制造商和人工智能公司的运营研究优化器预计可创造150亿美元的价值，通过分析物联网数据，为车队运营商确定更省油的路线和更低成本的维护站点。一些汽车制造商已经提供了人工智能驱动的管理系统，用于监控车队位置、跟踪车队状况以及分析行程和路线，预计可节省高达15%的燃料和维护成本。

在制造业，人工智能正在推动中国从低成本制造中心转变为处理器、芯片、发动机等高端零部件的精密制造领军者，每年创造1150 亿美元经济价值。大部分价值（约1000亿美元）来自利用各种人工智能应用程序进行的流程设计创新，如创建下一代装配线的协作机器人、复制真实资产用于仿真和优化引擎的数字孪生技术等。其余价值创造（约150亿美元）来自人工智能促进的产品开发改进。企业可以利用数字孪生快速测试和验证新产品设计，以降低研发成本、提高产品质量并推动新产品创新。在全球舞台上，谷歌以其利用人工智能快速评估不同组件布局对芯片功耗、性能指标和尺寸的影响的方式为我们展示了这种可能性。这种方法可以在设计工程师独立花费时间的一小部分内生成最佳的芯片设计。

在企业软件，中国的企业正在经历数字化和人工智能转型，催生了新兴的本地企业软件产业。这些企业提供的解决方案预计将创造800亿美元经济价值。其中，云计算和人工智能工具产品将产生450亿美元经济价值。比如中国的云服务提供商为中国100多家本地银行和保险公司提供了集成数据平台，使它们能够在跨云和本地环境中运营，同时降低了数据库开发和存储成本。另外，人工智能驱动的SaaS（软件即服务）应用程序将产生350亿美元经济价值。本地SaaS应用程序开发者可以应用各种人工智能技术，如计算机视觉、自然语言处理和机器学习，帮助企业在财税、人力资源、供应链和网络安全等业务职能领域做出预测和决策。一家领先的中国金融机构已经部署了本地人工智能驱动的SaaS解决方案，该解决方案通过使用人工智能机器人根据员工的职业道路为其提供个性化的培训建议。

最后，在医疗保健和生命科学行业，人工智能将在三个方面创造超过250亿美元的经济价值：一是利用人工智能加快靶点识别和新型分子设计，加快新药发现和上市速度并降低药物研发成本；二是优化临床试验、试验交付与执行，减少开发时间和成本，为患者和医疗保健专业人员提供更好的体验，实现高质量和合规性；三是在医学图像和数据方面利用机器学习算法来预测诊断结果和支持临床决策。

在AIGC与智能医学专题论坛上，联影智能科技有限公司研发总裁、首席运营官詹翊强提出，算法性能的提升能改变AI应用的使用方式，并通过软件架构创新使AI技术嵌入医生工作流，围绕病种或部位的多个AI应用形成解决方案。比如在冠脉慢性全阻塞病例中，人工智能冠脉重建软件在缩短73%的重建与测量时间的情况下，实现重建成功率从传统工作站的48%到95%的提升。

他提到，业界正尝试通过GhatGPT的大语言模型进行文本大规模应用，将非结构化的手术过程记录，转化为结构化手术归纳，并通过文本大模型和图像模型的结合，赋能各种医疗场景，构建有医疗专业性的更精准的专业大模型。

25 12 月 2023

美国调查英伟达3款对华定制AI芯片：将检查每一个规格细节

美国调查英伟达对华定制AI芯片的细节，引发对美国对华限制措施的讨论，并推动了中国自主研发芯片的进程。

近日，美国拜登政府与全球知名芯片制造商英伟达进行了一系列讨论，就是否允许向华出售AI芯片展开了深入研究和对话。据了解，英伟达为中国开发了三款新型AI芯片，这引起了美国商务部的关注。

根据美国商务部长吉娜·雷蒙多的表态，美国政府将对每一款新芯片的规格进行严格检查，以确保不违反出口管制政策。雷蒙多强调，尽管英伟达可以向中国销售大多数商业用途的AI芯片，但不会允许其销售处理能力最高的芯片，以防止中国利用这些芯片训练前沿的人工智能模型。

为了确保出口芯片符合美国政府的监管要求，商务部正计划更新出口管制规则，并与英伟达等公司展开合作。这一举措旨在加强对出口芯片的监控，以确保芯片向中国出口的使用不会对美国国家安全构成威胁。

这些限制措施推动了中国自主研发芯片的进程。面对美国限制，中国的云计算巨头们正在积极努力构建没有依赖于美国芯片的AI生态系统。他们加大了对国产AI芯片的研发投入，并试图引进更多具有自主知识产权的芯片技术。这一努力旨在减少对国外供应链的依赖，并提升中国在芯片领域的自主创新能力。

中国作为全球最大的人工智能市场之一，对AI芯片的需求量巨大。中国加大自主研发芯片的力度对该国科技产业的进一步发展具有重要意义。通过加强对芯片技术的掌握，中国有望推动本土科技公司实现更大的发展，并在全球AI产业竞争中更具竞争力。

总结来说，美国政府与英伟达的讨论引发了对美国对华限制措施的讨论，并推动了中国自主研发芯片的进程。通过严格监管芯片出口，并加强国内芯片技术的研发，中国有望降低对外部供应的依赖，并在全球AI产业竞争中占据更有利的地位。随着技术的日益进步，芯片领域的竞争将进一步加剧，各国都在加紧布局，争取在新的科技浪潮中占据有利地位。

这种限制措施也引发了对美国对华限制措施的讨论。一些人认为，这种限制措施对美国自身的创新能力和市场份额产生了负面影响。他们认为，限制向中国出口芯片，可能会导致中国在技术和市场方面取得更大的进步，从而对美国造成竞争压力。

不过，美国政府的立场是，确保国家安全是首要任务。他们认为，中国的技术发展往往伴随着对美国利益的威胁，尤其是在军事和国家安全领域。限制芯片出口是一种以控制技术流动为手段的防范措施。

无论如何，当前芯片产业的发展已经成为全球科技竞争的重要一环。各国都在加大在芯片领域的投入和研发力度，争取在技术和市场上占据优势地位。而中国作为全球第二大经济体，其科技发展的重要性不言而喻。在芯片领域，中国已经成为全球最大的市场之一，并且正在不断加大对芯片技术的自主研发和创新能力。

中国的云计算巨头们已经意识到了芯片自主研发的重要性，并已经加大了对国产AI芯片的研发投入。政府也制定了一系列鼓励政策，以支持芯片产业的发展，包括资金支持、税收减免和人才培养等。这些举措有望在短期内推动中国芯片产业的发展，提高中国在全球科技竞争中的地位。

不过，要在全球芯片领域取得长期领先地位，并不是一蹴而就的事。芯片技术的研发需要长期积累和持续投入。一些关键技术和材料的供应链仍然掌握在国外手中。中国在自主研发芯片的道路上仍然面临诸多挑战。

美国对华限制措施推动了中国自主研发芯片的进程，并引发了对美国限制措施的讨论。中国将继续加大对芯片技术的研发投入，提高自主创新能力，争取在全球科技竞争中取得更大优势。但要实现这一目标，还需要克服各种技术和市场上的挑战，以及加强国际合作，共同推动芯片技术的发展。

25 12 月 2023

人工智能治理：欧美新合作还是新博弈

　随着近年来人工智能迅速发展，西方主要国家关于人工智能规则制定主导权的争夺渐趋激烈。近日，欧洲议会、欧盟成员国和欧盟委员会三方就《人工智能法案》达成协议，该法案将成为全球首部人工智能领域的全面监管法规。欧盟内部市场委员蒂埃里·布雷东表示，《人工智能法案》不仅是一本规则手册，也将成为欧盟初创企业和研究人员引领全球人工智能竞赛的助推器。

欧盟：人工智能治理立法先行

　　欧盟对于人工智能规则制定的理念是立法先行，在过去几年中逐渐完善其法律框架。早在2018年4月，欧盟委员会便发布相关文件，概述了协调人工智能发展和部署的方法，旨在增加对人工智能研究和创新的投资。2020年2月，欧盟委员会发布《人工智能白皮书》，提出人工智能的监管框架，涉及风险评估、透明度、数据使用和法律责任等问题，并建议将不同风险级别的人工智能应用进行分类监管。2021年4月，欧盟委员会提出了世界上首部有关人工智能的法规，以确保欧盟使用的人工智能系统安全、透明、可追溯、非歧视和环保。2022年6月，欧洲议会通过了对《人工智能法案》提案的谈判授权草案，该法案对人工智能系统进行了风险分类，限制深度伪造，并对生成式人工智能提出了具有更高透明度的要求。

　　除了领先全球的立法速度，欧盟也试图在全球推行人工智能的监管标准。负责《人工智能法案》工作的欧洲议会议员布兰多·贝尼菲表示，欧盟立法者将为世界其他地区构建“负责任的人工智能设定路径”。根据此前媒体报道，欧盟正在开展“游说闪电战”，希望说服亚洲国家承认欧盟在人工智能监管领域的领先地位，使欧盟《人工智能法案》成为人工智能监管领域的全球标准。目前，欧盟及其成员国已派出官员与印度、日本、韩国、新加坡和菲律宾等至少10个亚洲国家就该问题进行商谈。

美国：人工智能政策鼓励技术发展应用

　　美国的人工智能治理政策则以技术的发展应用为重点，相较于欧盟，其对人工智能的政策相对宽松。虽然也面临人工智能的安全挑战，但美国并未像欧盟一样对人工智能风险进行专门研究并分类分级，而是重点关注算法歧视引发的公平问题与数据隐私安全保护这两个风险点，以求在维护公平和保护隐私的同时，保持本国人工智能技术的创新性和商业竞争力。在治理手段方面，美国倾向于通过行业自律和行业准则等方式解决相关安全风险，例如敦促企业制定自己的人工智能伦理准则，并通过内部审核和自我监督来减少算法歧视风险。

　　近年来，生成式人工智能等技术不断成熟。为确保生成式人工智能技术的安全性和可靠性，美国政府逐步加强监管，陆续发布系列政策文件强化人工智能治理，以维护美国在该领域的霸主地位，降低人工智能的安全风险。自2022年发布《人工智能权利法案蓝图》以来，美国政府又发布了多个原则性规定，指导人工智能系统的设计、开发、部署和使用，鼓励行业自愿遵守相关原则并进行自我监管，从而逐步形成了美国人工智能治理的基本框架。

　　欧美：规则制定既竞争又合作

　　作为人工智能规则制定领域的“领跑者”，欧美双方存在着既竞争又合作的关系。双方的合作主要以2021年6月成立的美欧贸易和技术委员会为平台，以美欧各自推出的相关法规、政策文件为蓝本，双方基于共同价值观指导新兴技术发展，力求未来在风险监管方式等层面达成一致。2022年12月，美欧贸易和技术委员会首次发布《可信赖人工智能和风险管理评估与测量工具联合路线图》，从术语规范、标准制定以及风险监测三方面指导双方人工智能风险管理和可信赖人工智能发展，并促进相关国际标准的制定。在该文件中，“美欧共同支持和领导国际技术标准制定工作”被重点提及。

　　然而，从实际效果看，尽管美国开始在人工智能监管领域与欧盟趋同对标，但双方仍有一些结构性问题难以协调。例如在战略理念层面，美国安全和外交政策机构将人工智能视为大国竞争的重要国家安全资产，要使其成为拓展技术影响力的工具；但欧盟基于经济发展与价值观更关注人工智能技术的伦理挑战。在风险管理理念层面，美国鼓励人工智能技术创新与发展，强调监管的科学性和灵活性；而欧盟的监管风格兼顾发展与规制，期望通过高标准立法和监管来重塑全球数字发展模式。在监管方式上，美国侧重于技术应用和流程监管；而欧盟侧重组织管理与风险管理。此外，在数据治理、隐私保护等领域，双方也存在理念冲突。有媒体报道，美国曾警告欧盟，其拟议的人工智能监管法规会有利于那些有资源承担合规成本的公司，而伤害到那些规模较小的公司，这便是双方理念冲突的具体体现。

　全球共同构建人工智能发展环境

　　在11月初举办的首届人工智能安全峰会上，美国、英国、欧盟、中国、印度等多方代表就人工智能技术快速发展带来的风险与机遇展开讨论。会后，28个国家和欧盟签署《布莱奇利宣言》，承诺共同致力于打造值得信赖和负责任的人工智能。东道主英国还宣布下届人工智能安全峰会将于一年后在法国举办，韩国将在未来6个月内联合主办一次小型虚拟峰会。

　　可以预见，随着人工智能的发展和普及，国际社会对人工智能的监管和规范将成为一项全球性议题。欧美双方在人工智能领域的立法与合作对全球其他国家有一定的启示意义。但在国际人工智能治理标准体系建立和完善的过程中，除了少数“领跑者”，还有众多参与者。全球各国都应积极发挥自身影响力，共同推动构建平等、开放、互利的人工智能发展环境。

25 12 月 2023

亚马逊“AI生成评论摘要”新功能遭吐槽

今年8月份，亚马逊宣布推出了基于生成式人工智能的产品评论摘要功能。该功能通过人工智能技术将数十亿条商品评论转换成简短的评论摘要，旨在让消费者更快速地了解商品特点和顾客感受，而无需查看大量单独的评价。

然而，在上线的三个月内，该功能却受到了卖家和消费者的吐槽。一些消费者指出，由AI生成的摘要提供的产品描述并不准确，举例来说，家庭健身公司Tonal销售的倒立机被描述成了一张“能够缓解疼痛的桌子”。

与此同时，一些卖家表示，AI生成的产品评论摘要存在夸大产品的负面评价的情况。比如，在介绍一款获得4.5星评级的八件装玻璃瓶时，摘要显示：“一些顾客报告了盖子生锈的问题”，而实际只有16名顾客提到了这个问题。

同样，在介绍一款获得4.7星评级的网球套装时，摘要也强调“一些评论者对该产品的气味感到失望”，然而实际只有7条评论提到了气味，占评价总数的不到1%。

由于该功能在8月份推出，之后紧接着就是黑五网一等促销季，多数卖家们认为“夸大负面评论”会对他们的假日季销售造成不小的影响。对此，亚马逊发言人回应称，将根据消费者和卖家的反馈，继续完善该技术。卖家们对这项功能的态度呈两极分化：一部分认为该功能旨在提醒卖家更加注重产品质量，但也有一部分卖家表示由于对算法的工作原理了解不足，这项功能可能对产品销售产生不好的影响。

总体而言，无论是推出“AI总结评论摘要”新功能还是之前折叠五点描述前置评论位置，都显示出亚马逊对于产品评论的高度重视。这种关注不仅仅表现在提升评论权重的调整上，同时也在亚马逊对虚假评论的“严防死守”上得到体现。

25 12 月 2023

美商务部正式宣布，允许对华出售AI芯片，美媒：先进芯片永久禁售

AI芯片的限制出口对英伟达和中国市场的影响，以及中国加强自主技术研发和创新能力的机遇

英伟达作为全球首个市值破万亿美元的半导体公司，一直以来在人工智能领域被誉为领军者。随着美国对先进AI芯片进行限制出口的政策出台，英伟达面临着一系列的挑战和机遇。

中国的语言大模型市场正以惊人的速度发展，而训练大模型需要强大的AI芯片保障。在这个市场中，英伟达的AI芯片一直是各大厂商的首选。由于美国的限制出口政策，英伟达无法将最先进的芯片出口到中国市场。这使得英伟达的商业订单可能受到影响，给公司带来一定的压力。

美国也意识到了中国市场的重要性，因此宣布允许英伟达向中国出售一部分AI芯片。虽然这一举措对英伟达来说是好消息，但最先进的芯片依然不允许出口，这意味着英伟达可能错失中国市场的一些机会。

AI芯片的限制出口对英伟达而言是一次考验，但同时也推动了中国加快AI芯片的研发和推广。中国拥有庞大的市场需求和技术人才储备，为其加强自主技术研发和创新能力提供了绝佳的契机。中国政府也意识到了这个机会，加大了对AI芯片产业的投资和支持力度。通过鼓励国内企业加快技术研发和创新，中国有望弥补AI芯片供应的空缺，降低对国外供应商的依赖，实现自主可控。

随着中国市场对AI技术的广泛应用和需求持续增长，中国的AI芯片产业正呈现出巨大的发展潜力。中国企业已经开始涉足AI芯片研发和生产领域，不断推出具有自主知识产权的芯片产品，并在市场上获得一定的份额。这不仅有助于满足国内市场对AI芯片的需求，还有望在国际市场上与英伟达等外国企业展开竞争。

I芯片的限制出口对于英伟达和中国市场都带来了一定的影响。英伟达在面临市场挑战的也有机会通过合作和创新来寻找新的突破。对于中国而言，限制出口是一次机遇，促使中国加快AI芯片领域的创新，减少对外部供应商的依赖，提高自主技术研发和创新能力。随着中国市场的不断发展和技术的日益成熟，相信中国AI芯片产业将迎来更加广阔的发展前景。

通过限制出口的政策，美国对中国AI芯片市场施加了一定的压力。这也促使中国加快自主技术研发和创新能力的发展。

中国政府已经意识到了AI芯片产业的战略重要性，并将其列为国家发展的重点领域之一。政府加大了对AI芯片研发和创新的投资和支持力度，鼓励国内企业加快自主技术的研发和应用。这不仅有助于提高中国在AI领域的核心竞争力，还能够降低对外国供应商的依赖，实现自主可控。

在过去的几年里，中国企业已经取得了一些重要的突破。例如，华为公司推出了自家设计的AI芯片麒麟芯片，给手机等终端设备带来了更高的AI计算能力。其他企业如紫光展锐、商汤科技等也在AI芯片领域取得了不俗的成绩。

随着中国市场需求的不断增长，AI芯片产业在中国将有巨大的市场空间和发展潜力。中国拥有庞大的人口基数和高速发展的经济，为AI技术的广泛应用提供了巨大的需求。从智能手机到无人驾驶汽车，从智能家居到工业自动化，AI技术正逐渐渗透到各个行业和领域。AI芯片的研发和应用将成为支撑中国创新驱动发展的重要基础。

中国还拥有丰富的人工智能研究人才和技术优势。中国的高校和研究机构在AI领域取得了长足的进展，并在人工智能领域的核心技术上具有一定的竞争优势。这为中国加强AI芯片自主技术研发提供了有力的支撑。

限制出口的AI芯片政策对英伟达和中国市场都带来了挑战和机遇。对于英伟达来说，其商业订单可能受到一定的影响，但同时也有机会通过合作和创新来开拓新的市场。对于中国而言，限制出口是一次推动自主技术研发和创新的机遇，有助于提高中国在AI领域的核心竞争力，并带动整个AI产业的快速发展。随着中国技术的不断成熟和创新能力的提升，中国AI芯片产业有望在国际市场上崭露头角，成为全球领先的力量之一。

25 12 月 2023

AI换脸骗局再次发生，9秒钟就让他损失245万，如何防范这种高科技诈骗？

大家好，今天和大家聊一个非常重要的话题，那就是AI换脸诈骗。

你们可能还记得，不久前，有一位女士在10分钟内被AI换脸骗走了430万元，引起了社会的广泛关注。这件事让我们看到了AI换脸技术的可怕威力，也让我们意识到了自己的安全隐患。但是，你们可能不知道的是，这样的诈骗事件并没有因为被曝光而停止，反而越演越烈，甚至出现了更加疯狂的案例。

就在5月25日，安徽省安庆市经开区公安分局通报了一起AI换脸诈骗案，受害者何先生（化名）在仅仅9秒钟的视频通话后，就被骗走了245万元。是的，你没有听错，只有9秒钟，就足以让一个人失去一辈子的积蓄。这究竟是怎么回事呢？让我们一起来看看。

根据媒体报道，4月27日，何先生的微信“好友”突然向其发起视频通话，电话接通后，何先生看到“好友”正在一间会议室内，就在他准备进一步询问时，“好友”直接挂断了电话，并表示在会议中有重要事情交代，需要何先生添加QQ沟通。

何先生没有多想，就按照“好友”的要求添加了QQ。没想到，这一步就是他的致命错误。原来，这个“好友”根本不是他认识的人，而是一个专门利用AI换脸技术进行诈骗的犯罪分子。他通过盗取何先生真正好友的微信账号和头像，然后利用AI换脸技术，将自己的脸部替换成何先生好友的脸部，从而达到欺骗的目的。

在QQ上，这个“好友”告诉何先生，他正在参与一个项目招标，需要一笔周转资金，希望何先生能够帮忙垫付。何先生一听，觉得这是一个很正常的请求，毕竟他和这个“好友”是多年的生意伙伴，也有过很多合作。何先生想着，这是一个机会，也是一个情分，就没有多问，立刻让家人将245万元转到了对方指定的账号上。

可是，就在转账后不久，何先生突然觉得不对劲，他打电话给“好友”，却发现对方已经将电话关机。何先生心里一沉，赶紧打电话给真正的好友，才知道自己上当了。原来，他的好友根本没有参与任何项目招标，也没有向他发起过视频通话，更没有让他转账。何先生这才意识到，自己被AI换脸骗了。

何先生立刻报了警，安庆经开公安分局迅速成立了专案组，通过对涉案账户的资金流、信息流进行查询追踪，成功抓获了李某某等3名犯罪嫌疑人，扣押了涉案手机26部，冻结、追回了电诈资金一百余万元。经查，李某某等3人为牟取非法利益，在明知资金为上游违法犯罪所得的情况下，通过多种方式帮助上游犯罪分子转移资金近百万元，涉嫌掩饰、隐瞒犯罪所得。目前，该案件正在进一步侦办中。

这起案件让我们看到了AI换脸技术的恐怖一面，也让我们感受到了自己的无助和危险。在这个高科技的时代，我们的隐私和财产都可能随时被侵犯，我们的信任和感情都可能随时被背叛，我们的生活和安全都可能随时被威胁。那么，我们该如何防范这种高科技诈骗呢？我在这里给大家提供几点建议，希望能够对大家有所帮助。

首先，我们要提高自己的安全意识，不要轻信网络上的任何信息，不要随意透露自己的个人信息，不要轻易点击陌生的链接，不要下载不明来源的软件，不要使用不安全的网络环境，不要将自己的账号和密码告诉他人，不要将自己的手机和电脑借给他人，不要将自己的身份证、银行卡、验证码等信息告诉他人。

其次，我们要增强自己的辨别能力，不要被表象所迷惑，不要被利益所诱惑，不要被情感所牵绊，不要被压力所迫使，不要被急功近利所冲昏头脑。我们要学会通过多种渠道核实信息的真实性，比如电话、见面、视频等，不要仅仅依靠文字或图片。我们要学会分析信息的合理性，比如是否有逻辑漏洞、是否有矛盾之处、是否有可疑之处等，不要盲目相信。我们要学会保持信息的独立性，比如不要轻易转发、转账、转移等，不要受他人的影响或指示。

最后，我们要提高自己的应对能力，不要慌张失措，不要自暴自弃，不要沉默无声，不要放弃抗争。我们要及时报警求助，向有关部门反映情况，保留好相关证据，配合好警方的调查，争取早日追回损失，维护自己的合法权益。

25 12 月 2023

大模型正在“记住”与“说出”，警惕AI泄露您的隐私与机密

「大模型」引领的创新变革正在发生

身处技术爆炸时代

高光与隐忧共存

安全风险

已成为发展中无法忽视的话题

↓

LLM在使用过程中

包含敏感机密的数据或信息

可能会导致未授权的

数据访问、隐私侵犯、安全漏洞等风险

随之造成敏感信息泄露

* 2023年8月，全球开放应用软件安全项目组织（OWASP）发布了针对LLM应用的Top10潜在安全风险，敏感信息泄露赫然在列。

在信手拈来对内容加工时

「大模型们」

已经煽动了蝴蝶之翼

LLM技术的飞速发展带来了大量机遇，如何正确地应对其逐渐凸显的安全问题已成为企业的必修课。未来，绿盟科技及其产品也将持续跟随着科技发展，为用户提供专业的安全守护。我们期待与全球的合作伙伴一起，共同推动人工智能安全领域的发展，创造一个更智能、更安全的未来。

25 12 月 2023

苹果研究用AI 大模型让移动端CPU、GPU提高数倍至数十倍性能

（映维网Nweon 2023年12月25日）苹果日前在一篇论文中介绍了一种可以在超出可用DRAM容量的设备运行大语言模型LLM方法。通过大幅提高内存使用效率，这项新研究将允许资源有限的设备运行2倍于DRAM的LLM。另外与CPU和GPU的原始加载方法相比，推理速度分别提高了4-5倍和20-25倍。

团队的方法包括构建一个与闪存行为相协调的推理成本模型，以在两个关键领域进行优化：减少从闪存传输的数据量和在更大，更连续的数据块中读取数据。在这个闪存信息框架中，苹果主要介绍了两种主要技术。

首先，windowing通过重用先前激活的神经元来策略性地减少数据传输；其次，针对闪存顺序数据访问强度量身定制的“row-column bundling”增加了从闪存读取的数据块的大小。

所述方法使得运行模型的大小达到可用DRAM的两倍。另外与CPU和GPU的原始加载方法相比，推理速度分别提高了4-5倍和20-25倍。同时，研究人员集成了稀疏感知、情景自适应加载和面向硬件的设计，从而为LLM在内存有限设备的有效推理铺平了道路。

相关论文：LLM in a flash: Efficient Large Language Model Inference with Limited Memory

https://paper.nweon.com/15070

尽管没有明确说明这项技术可用的设备，但随着苹果愈发重视全新的空间计算领域，我们或许可以想象这家公司未来将AI整合至诸如Vision Pro这样的资源有限设备。

25 12 月 2023

“AI客服快把人逼疯了”！人民日报：技术虽好，但绝非万能

“我想在朋友生日当天再送货，可以帮忙联系快递员吗？”“不好意思，不确定您要表达的意思。”“可以帮我备注‘两天后再配送’吗？”
“亲，这个问题难倒我了。”“我需要人工客服。”“人工客服忙，智能客服为您服务，请问有什么可以帮您？”……
　　以上对话发生在北京市民邹女士和电商平台某店铺AI客服之间。在与AI客服反复对话无果后，邹女士试图通过官方电话联系快递员，让其按自己希望的时间送货。可令她没想到的是，快递电话也是AI客服回复，费了一番劲儿沟通也没能解决她的问题。

“AI客服快把人逼疯了，没法沟通，怎么都说不明白。”邹女士无奈道。

从快递公司到网购平台，从银行金融到旅游出行，当下，越来越多的商家开始采用AI客服，利用智能语音等技术服务用户，一定程度实现了服务的标准、便捷，节约了人力成本。而与此同时，不少用户发现，一些智能客服不智能，识别不了问题尤其是个性化问题，一些商家用上AI客服就没了人工客服，AI客服反而成了解决问题的“拦路虎”。
　　此外，AI客服骚扰等问题也让消费者苦不堪言。

自动回复答非所问智能客服不够智能
今年“双十一”期间，广东市民赵爽（化名）在某电商平台的一家女装店购买了一件大衣，收货后发现该大衣不合心意便想退货，但相关页面找不到退货包运费的服务，于是便点开店铺客服对话框求助。
没想到，店铺AI客服的回复完全是答非所问：“亲，明白您急切的心情，还请您消消气，耐心等待一下呢”“我们都是会尽自己所能为亲亲们解决问题的呢”“您是我们的优质客户，我们肯定会维护您的权益的”……

“我只是想问一下退货包运费服务在哪里，怎么找不到了？”赵爽说，AI客服的回复逻辑混乱，一句有用的都没有，又找不到人工客服，“真的要被他们气死”。

据了解，AI客服以各类人工智能技术为基础，通过AI进行服务，服务渠道多元化且可以实现各渠道的数据互通，24小时全天候响应。

随着人工智能技术的发展，很多企业为节约成本、提升效率开始采用机器人来代替人工客服，AI客服应运而生。《2023年中国智能客服市场报告》显示，2022年中国智能客服市场规模已达66.8亿元，预计到2027年，市场规模有望增长至181.3亿元。

实践中，有些AI客服能够快速准确地回答消费者的提问，提供便捷有效的解决方案。但有些AI客服却显得过于机械，很多回答牛头不对马嘴，让消费者感到不满和无奈。

北京市民李燕（化名）表示，她前段时间在电商平台花高价购买了一台洗衣机，到货后询问客服“哪里倒洗衣液”？AI客服瞬间回复“滚筒洗衣机投放盒分为不带智能投放和带智能投放”。李燕又问自己购买的型号“有没有智能投放功能”？AI客服回复“智能投放依据衣物重量匹配需要添加的洗涤剂”。

“这都哪跟哪呀？一个简单的提问，答复的内容莫名其妙。”李燕吐槽道。

进入多个电商平台的15家品牌旗舰店，就产品问题咨询客服时发现，有13家店铺都是直接由AI客服进行答复。如果就一些常规问题进行询问，如产品质量、发货时间、商品库存等，AI客服大多可以立即作出准确的答复；但如果询问一些较为个性化的问题，AI客服往往答非所问，而此时只有个别店铺会自动转为人工服务。

如在与某羽绒服品牌旗舰店沟通时，AI客服对一些特定关键词作出了准确回答，比如“尺码”“发货时间”“充绒量”，但当询问“充绒量和含绒量的区别”“面料属于哪类国家标准”等细节问题时，AI客服的回答文不对题。

除在对话框“被动”回复消费者咨询外，不少AI客服的“主动出击”让人不堪其扰。

电话响了，陌生号码。因担心是快递或其他重要信息，北京市民孙女士连忙接通，对面立即传来抑扬顿挫的声音：“您好，这里是××旗舰店，这次来电呢是想告诉您……”孙女士愤愤挂断电话：“AI客服的骚扰电话又来了！”

“AI骚扰电话比骚扰短信烦多了，短信可以视而不见，电话总得接起来听”“有时正在忙，突然来个电话，接起来发现是个AI”“听着像真人的声音，但电话里完全无法正常交流，就是骚扰电话”……社交平台上，有类似感受的网友纷纷“控诉”。

谈到智能客服不智能的问题，在北京从事AI工程师工作的马先生认为，企业采用的大语言模型的算力各不相同，对于AI进行文档喂养的选择也各不相同，正是这些原因导致AI识别能力参差不齐。AI技术不充分、数据分散且知识图谱完善度不高等问题是智能客服“不够智能”的根本症结。
人工客服大量缺失增加用户沟通成本
在某第三方投诉平台上看到，大量消费者都在反映AI客服的问题，比如“客服都是AI，根本不解决问题”“智能客服不智能，没有人工处理的渠道，问题解决不了”“每天换着号码骚扰，全都是AI客服”等。
各行各业使用AI客服背后，是人工客服的大量缺失——用户遇到问题，想主动寻求客服帮助，无论通过在线平台还是打电话，AI客服“挡”在前面。在沟通过程中，AI客服要么列出一连串无用的回答，要么慢条斯理开启语音播报，犹如“鸡同鸭讲”，让不少消费者苦恼不已。

北京市民刘帅（化名）说，他在某社交平台有问题想咨询客服，先是对话在线客服，发送问题后AI客服回复了14条内容，“有关于会员、账号异常、抽奖等各种相关内容回答，但没一条能解决我的问题，而人工客服完全联系不上”。

刘帅无奈又打客服电话，还是AI客服接听，同样的14条内容语音播报来回“套娃”。他提出“转人工客服”，却被告知“当前座席繁忙，可以在线上预约人工客服回访时间”。“我一看人工预约回访都排到第二天下午了，最后只能放弃咨询。”刘帅说，来来回回浪费了半个小时也没能解决问题。

天津市民李女士因为快递停在外地一周没有派送，便咨询该快递服务热线电话，全程均是AI客服对接。她说明来意，AI客服让她输快递单号，然后称“快递正在派送中”，反复几次都是如此。“AI客服根本解决不了我的问题，但官方热线没有人工服务的选项，我只能不断重复强调我要接人工服务，重复了几十遍才转到人工服务。”

类似的经历天津市民张先生也遇到过。前不久，他因银行业务找客服，不满意AI客服的答复，他提出转人工服务，结果得到的答复是：“当前客服繁忙，已进入咨询队列，当前排在第70位……”

“只是想要找人工服务解决一下问题，怎么就这么难？！”张先生感叹道。

在某电商的投诉平台上，关于“找不到人工客服”的问题投诉有将近2万条。不少网友投诉称，无论是输入人工客服、人工服务还是转人工，永远只有一句话：亲，请详细描述您的问题。

还有网友称自己拨打了市面上45家包括通信服务商、电商平台、物流公司等客服电话，统计的用时显示：转接到人工客服平均需要94秒，最漫长的一次等待长达380秒。

近日，拨打市面上21家包括电商平台、通信服务商、物流公司的客服电话，有8家无法转接人工客服，其余转接到人工客服平均需要69秒，最长的一次等待时间长达316秒。

中国法学会消费者权益保护法学研究会副秘书长陈音江认为，企业不能只考虑自己的成本和效率，而不顾消费者的时间。消费者找客服的时候，一般都是遇到了问题，要解决问题。但有的企业根本没有设置人工客服，用智能客服当“挡箭牌”，完全形同虚设，起不到解决问题的作用。“虽然很难界定具体会给消费者造成多少损失，但起码会带来不好的消费体验。对经营者来说，减轻自己的经营成本有时就是增加了消费者的沟通成本。”
规范标准强化监管防止企业逃避责任
江苏省消保委发布的《数字化背景下客户服务便利度消费调查报告》显示，71.2%的消费者表示，智能机器人“答非所问”“回答问题不智能”；23.6%的消费者表示，无法找到人工客服，或人工客服存在“踢皮球”等现象。
公开数据显示，在2022年我国用户认为智能客服现存缺点调查中，51.4%消费者表示除固定话术外，不能解决个性化问题，47.9%消费者表示不能准确理解提出的问题，答非所问，34.2%消费者表示问题解决效率低。

就职于上海某信息技术公司的IT技术人员称，其实许多企业选择使用AI客服，都是基于当前管理需要或者想要优化服务。相比人工客服，AI客服所需成本更低，可以24小时在线，且响应速度更快，基本能够回答消费者的大多数问题。

当谈及如此大规模使用AI客服的原因时，不少电商都表示，他们也是形势所迫。在某电商平台经营一家日用品店的王平表示，使用AI客服的初衷“单纯为了节省人力成本”，最初AI客服和人工客服的使用比例基本是1：1，“但随着消费者购买频率和平台促销活动频率的提升，订单量大幅增长，‘双十一’当天平均每分钟都有客户咨询和下单，换成人工客服来处理不太现实。基于这个现状，很多电商都不得不大规模使用AI客服”。

一位在电商平台做客服的业内人士称：“大家其实都知道AI服务不太好用，但电商平台有3分钟回复率的要求，而且会列入考核标准中。无奈之下电商大量使用AI客服，同时人工客服进行协作。当AI客服回答得不正确的时候，人工客服会介入，撤回该回复。但有些公司设置了‘质检组’，如果撤回次数较多的话可能会误判为客服存在不当言论。”

企业出于人工成本的考量引入AI客服无可厚非，但大量使用AI客服导致人工客服难寻，是否侵犯了消费者的合法权益？

上海央法（杭州）律师事务所律师何子安说，AI客服的大量使用确实可能阻碍消费者直接联系上人工客服，但这本身并不直接构成对消费者权益的侵犯。若AI客服无法有效解决问题，导致消费者权益受损，如不能及时处理退货、退款等问题时，则可能涉及侵犯消费者权益。在这种情形下，消费者可以向消费者协会投诉，或根据具体情况向有关监管机构举报。

“商家以AI客服致电消费者宣传商品促销等信息，涉嫌侵害公民个人信息。若接收到的电话包含个人敏感信息或其来电途径未经用户明确同意，则可能违反了数据保护和隐私权保护的相关法律。”何子安说。

湖南江荣律师事务所律师厉大桥提到，AI作为一个程序，它本身并不具备承担相关法律责任的能力，“只能说AI背后的主体可能侵权”。企业拥抱人工智能技术不能一劳永逸，不能只考虑成本和效率，忽略消费者的实际需求和感受。

“AI客服不会也不能完全取代人工客服。”在厉大桥看来，AI客服还是一个没有完全成熟的商业版块，企业应该在考虑商业信誉和服务质量的基础上，合理分配AI客服和人工客服的占比。对于一些常规性咨询问题，可以通过智能回复，而对于一些消费者投诉等亟须解决的问题，尤其是涉及消费者人身、财产安全的问题，则应优先通过人工客服渠道解决。

同时，也有业内人士认为，有关部门应针对企业客服AI化现象，通过制定相关管理规范标准，加强对AI客服的监管，防止企业利用AI客服逃避责任和义务。

■媒体评论技术虽好，但绝非万能
态度非常客气，但回答问题驴唇不对马嘴，就是解决不了问题；很多时候找客服反映问题是带着情绪的，但AI客服永远无法感知这种情绪，简直鸡同鸭讲；更有甚者持续受到AI客服电话营销的骚扰……许多人在购物或日常生活中，遇到AI客服，都有类似体验。

AI客服的好，大家当然清楚：对消费者来说，24小时在岗、随时响应、处理程序性事务快捷高效；对企业和商家来说，成本低、功能全、管理起来还不费事。然而就当前而言，AI客服还远未达到人工客服能够撒手不管的程度。尤其是那些需要提供更多情绪价值的服务，AI很多时候不仅发挥不了作用，反而可能产生反效果。“我觉得被AI客服接待有一种不受重视的感觉。”这也是不少消费者的心声。可见，AI虽好，却也并非万能，在应用中更不可能一劳永逸，商家关键还是要区分场景、因地制宜。

实际上，AI客服“逼疯”消费者背后，不只是AI技术尚未完全成熟的问题，说到底，还是态度问题、理念问题。除了饱受诟病的“人工智障”，有的商家或服务提供者会在“人工服务”前设置重重障碍，消费者要么需要在网页上不停点击、“拿着放大镜寻找”，要么需要在打客服电话时按语音提示拨一连串数字，稍有错误又返回最初菜单。在这些情景中，数字技术、AI客服已经不是提质降本增效的工具，而成了一道无形的挡箭牌。把“人工服务”藏得越深，就可能把消费者推得越远。倘若偏离了更好服务消费者的初衷、丢掉了用户为本的追求，即便再智能，最终带来的，也只能是难以修复的隔阂，以及逐渐褪色的口碑。

在智能技术日新月异、广泛应用的今天，不只是商业服务领域，几乎所有领域都面临着类似追问：如何更好应用智能技术？在多大程度上应用智能技术？AI客服的“困境”带来的更深层次启示在于：新技术赋能治理与服务的同时，永远不要忽视人类最本真的情感、最真实的需求。在高铁一日千里的时代，许多地方却仍然保留着服务当地群众基本需求的“慢火车”；当智能设备成为“我们身体的一部分”，也有越来越多人渴望“关一天手机”，深入自然，寻觅乡愁。只有坚持以人为本，在快与慢、新与旧、未来与传统之间找到平衡，我们才能推动新技术新应用健康可持续发展，更好造福群众。

可以预见，随着以大语言模型为代表的生成式AI技术的快速发展，终有一天，AI客服将几乎可以达到与人工客服相同的体验。到那时，我们又当如何与AI相处，人类又当如何自处？这样的问题，可能过不了太久，就要更为紧迫地摆在我们面前。

25 12 月 2023

AI大模型进入“群模时代” 商业化曙光初现

从前，古人用算筹计算着千里万里。如今，AI大模型却能在分秒中容纳下时空日月。

2023年，是AI大模型爆发元年，乘AIGC（生成式人工智能）之风而来，大模型浪潮席卷全球，并持续火热。科技大厂、中小企业、科研院所纷纷入局，试图在这块已成“兵家必争之地”的新蓝海市场占据有利位置。在将被技术重塑的未来，AI会带来颠覆式创新还是渐进式迭代？又会给企业、产业以及资本市场带来哪些新动能？

《证券日报》记者梳理东方财富Choice数据发现，截至12月24日，A股69家AIGC概念股的市值合计为8182.47亿元，较年初增加2194.49亿元，其中55家公司股价实现上涨，下跌公司数量仅14家。从资本市场层面来看，大模型的风，已然吹来。

“大模型遍地开花，人工智能的黄金十年自此开启。”东高科技高级投资顾问胡学灿向《证券日报》记者表示，“这将极大地改变整个社会经济以及产业生态，成为另一种生产力。”

AI引发“百模大战”
回顾2023年，自3月份ChatGPT-4上线后，国内科技企业纷纷跑步入场。百度“文心一言”、阿里巴巴“通义千问”、华为“盘古”、360“智脑”、昆仑万维“天工”、京东“灵犀”、科大讯飞“星火”、腾讯“混元”、商汤“日日新”等大模型先后登场，AI终端百花齐放。截至2023年10月初，国内公开的AI大模型数量已经达到238个，从“一百模”升级至“二百模”。

赛智产业研究院院长赵刚向《证券日报》记者表示，国内人工智能企业都希望把握住AI时代机遇，纷纷围绕通用大模型、行业大模型和专家领域大模型等提前布局，造就了“百模大战”。目前，大模型产业整体上处于技术创新的活跃期。

“与早期的人工智能模型相比，今年我国大模型在参数量上取得了质的飞跃，复杂任务建模能力整体提升，学习能力、泛化性更强，具备了更高层次的认知互动能力。”北邮国家大学科技园元宇宙产业协同创新中心执行主任陈晓华对《证券日报》记者表示。

相较于通用大模型，许多中小企业为在行业取得一席之地，相继发布深耕行业、具有专业能力的垂直大模型。其中，携程发布旅游行业“携程问道”，蜜度发布智能校对领域“蜜度文修”，网易有道发布基于教育的“子曰”，京东健康发布医疗健康行业的“京医千询”，蚂蚁集团发布金融大模型……推动人工智能从感知走向认知、从识别走向生成、从通用走向行业。

“用户增长放缓是事实，早期爆炸式增长是不可持续的。大模型要融入千行百业，让产业从AI化中收获价值，才能成为广泛的刚需，这是下一步的增长空间。”蚂蚁集团副总裁、金融大模型负责人王晓航如是称。

在业内人士看来，中国发展大模型的关键是抓住场景红利，目前国产大模型的能力在垂直领域已经够用，最大的机会是将大模型向产业化、行业化、垂直化，深度定制方向发展。

量子位智库数据显示，2023年，中国AIGC产业市场规模约170亿元，预计2030年市场规模将达到万亿元级别。“近年来，我国人工智能产业蓬勃发展，核心产业规模达5000亿元，企业数量超4300家。智能芯片、通用大模型等创新成果不断涌现。”工业和信息化部副部长徐晓兰表示。

“百模大战”渐渐步入下半场，“群模时代”来临。

商业化加速落地

值得关注的是，由于当下的大模型训练需要强大的算力支撑，尤其是参数量越大的模型成本越高。比如OpenAI（美国人工智能研究公司）的语言模型ChatGPT-3，仅每天运行成本就要花费约70万美元。

随着互联网和科技企业不断增加大模型参数，传统企业对于数智化转型需求的增加，导致算力需求大幅上涨。并且，由于高端芯片获取难度大、公共算力建设不足，算力租赁进入新一轮涨价周期。其中，并济科技、中贝通信、汇纳科技等公司在近期宣布算力服务收费大幅上涨，这也导致大模型的研发成本进一步提升。

在庞大的资金压力下，大模型企业不得不加紧步伐寻找一条商业化之路。事实上，部分老牌互联网企业的大模型商业化路径目前已较为清晰。

赵刚告诉记者，大模型商业变现主要有三种模式：

一是企业通过大模型平台使用费变现，采取按使用时间计费或按信息量计费，主要面向个人用户；二是企业通过大模型App应用定制化开发和部署收费变现，主要面向企业用户，用户内部的数据也被用于训练大模型，并针对企业营销、产品设计、客户服务等业务需求开发定制化大模型应用，帮助用户实现降本增效目标；三是企业通过广告等增值服务变现，拥有海量用户的大模型平台发挥流量入口优势，借鉴互联网模式，发展广告等增值业务。

例如，百度在今年基于文心大模型重构了旗下多条产品线，将生成式AI作为辅助功能，嵌入原有业务，为用户提供增值服务。“在文心一言App、新场域、新搜索等方面的变现，百度将会逐步建立一些付费方式，比如文库输入法已经有了付费版本。”百度集团副总裁、移动生态商业体系负责人王凤阳对《证券日报》记者表示。

“目前大模型商业化的路径较为清晰，国内厂商也都在积极探索，但大模型的商业化之路，不能仅限于商业模式的探索尝试，更在于解决大模型发展的底层问题。”多位业内人士对《证券日报》记者表示。

虽然大模型商业化之路道阻且长，但曙光已现。三六零2023年半年报显示，“360智脑”大模型已经开始创收，金额近2000万元；商汤集团也公布，生成式AI在上半年相关收入增长670%；美图表示，大模型拉动公司上半年利润增长3.2倍。

“事实上，大模型的开发并不难，难的是如何让企业心甘情愿地为之付费。”富春山资本（香港）董事总经理陈达对《证券日报》记者表示，只有真正能解决企业需求的大模型才会获得青睐，例如好未来、面壁智能等企业用百度智能云的服务完成了大模型的训练开发和优化，提升了自身大模型效果，为企业降本增效，确实带来了便利，所以企业的付费意愿也非常高。

“未来大模型会体现为一种无所不在的智能服务，商业化模式将非常丰富。它可以被嵌入各种软硬件系统，如智能汽车、智能机器人等，以智能产品的方式进行商业化，也可以被部署在云端，重构现有商业逻辑，提供商业化的大模型云服务和各种智能App平台应用。”赵刚认为。

向多模态趋势进发
虽然各类大模型层出不穷，但不断优化升级，推动行业进步仍是各大互联网公司的主攻方向。近期，大模型由单模态向多模态升级已成为行业热点，多家公司多模态AI走红。

11月份，OpenAI发布了GPT-4 Turbo并且开放了GPTs，再次颠覆行业，揭开AIGC应用生态序幕。《达摩院2023十大科技趋势》显示，建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。

东吴证券研报表示，多模态是实现通用人工智能的必经之路。模态数据输入可帮助模型能力和用户体验提高，允许多模态数据输出也更符合真实世界需要。在数据、算法及算力上的要求都要高于单模态，这一波自然语言大模型发展为其他模态提供了技术参考，行业有望加速发展。

虽然大模型在今年引发互联网行业变革，但整个行业仍处于早期发展阶段，积累与沉淀尚有不足。对企业来说，如何在行业站稳脚跟，切实解决用户需求，以及商业化变现仍值得继续探索。

展望未来，艾媒咨询集团CEO兼首席分析师张毅对《证券日报》记者表示，企业不能盲目跟风，需要解决自身已有的基础产品和用户群体在AI领域的诉求。而目前的大模型区别不大，用户难以区分与抉择找到适合自身的产品。在未来，企业只有通过优化大模型产品去提高用户工作效率，减少生产成本，切实地为客户解决问题，才能脱颖而出，这也是大模型真正的发展方向。

赵刚预判，未来大模型的发展将有三大趋势，一是通用大模型性能提升和优化进一步深入，大模型将进入万亿参数，采用万卡以上集群进行训练，性能进一步提升，同时围绕不同应用场景进行模型调优；二是大模型的思考和探索能力将进一步提升，应用将从简单智能应用向复杂智能应用迈进；三是大模型的超级应用将出现，将整合内容生成、语义理解、推理、记忆、自主意识等能力，提供体验感极强的智能服务，智能数字人或机器人等将成为经济社会各领域的标配。

从通用大模型到垂直大模型，从单模态向多模态融合，AI生成技术不断迭代，加速应用落地和商业模式创新，已是大势所趋，未来已来。

22 12 月 2023

再一次领先安卓！苹果人工智能研究取得重大进展：将彻底改变你的iPhone

12月22日消息，据VB报道，苹果公司最近公布的两篇论文，展示了该公司在人工智能研究方面取得的重大进展。

其中，一项高效的语言模型推理新技术，有望让复杂的AI系统在iPhone、iPad等小内存设备上流畅运行。

在一篇论文中，苹果研究人员解决了在内存有限的设备上部署大语言模型（LLM）的一个关键挑战。

大家都知道，像GPT-4这样的大模型包含前千亿个参数，如果直接在消费类硬件上运行的话，推理成本会非常高昂。

据悉，苹果的技术人员最大限度地减少了在推理过程中从闪存到内存的数据传输。一系列方法将推理延迟提高了4-5倍。在 GPU上，加速达到 20-25倍。

这一突破对于在资源有限的环境中部署先进的LLM尤为重要，极大提高了适用性和可及性。

对于苹果用户意味着，这些优化可能很快允许复杂的人工智能助手和聊天机器人在iPhone、iPad 和其他移动设备上流畅运行。

此前，天风国际证券分析师郭明錤最新发文称，iPhone 16将会推出AI相关的创新功能。

据悉，苹果在在今年第三季度改组了Siri团队，目标在于整合AIGC功能和LLM (大语言模型)。

在手机上，语音输入将是AI、AIGC、LLM (大语言模型)的关键界面，所以强化Siri的软件功能是推广AI功能的关键。

郭明錤的最新调查显示，所有iPhone 16机型均将显著升级麦克风规格，除了更好的防水之外，还有更好的信噪比，以此来提升Siri的使用体验。

分秒AI研究院

分秒AI研究院

具体裁员人数曝出

关闭幼儿园，缩减员工福利

演讲要点

数据和对齐，前所未有的关键

大模型带来的变化

大模型对基础软硬件要求「极致」

一些结论

为什么是第一名？

产品介绍

LLM模型

功能介绍

是否免费

插件

客户端

为什么是第二名？

产品介绍

LLM模型

功能介绍

是否免费

为什么是第三名？

产品介绍

LLM模型

功能介绍

是否免费

插件

客户端

Rabbit R1有些啥亮点？

Rabbit及其创始人Jesse Lyu

One More Thing

热门 AI 工具 Top 5

第一名：ChatGPT

第二名：Character.ai

第三名：Quillbot

第四名：Midjourney

第五名：Hugging Face

02、 创意成为生产力，想到就能赚到

03、写在最后

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

怎么诱导幻觉

如何利用诱导出的幻觉消除最终的幻觉

实验结果

不同模型规模的有效性

不同模型基座的有效性

与直接用高质量数据微调的对比

总结

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录，经过钛媒体APP删减：

关于AI的ROI

关于AI的基础设施

关于AI应用

AI与企业级市场的结合

AI与实体经济

AI与健康行业的结合

AI与内容行业结合

AI可能带来的麻烦

语音优先的 AI（Voice-first AI）

消费科技

机器人技术

软件与软件之间的通信

艰难的资本市场和融资环境

LP市场

创始人的新形象

一个新的工作操作系统(OS)

任务污染有多严重？

进化的 AI 工具能干啥？

来吃螃蟹

使用建议

02、创意成为生产力，想到就能赚到