22 1 月 2024

南大学子“代码指挥官”夺冠人工智能全国公开赛

来自南开大学网络空间安全学院的四位学子，组队出征腾讯开悟人工智能全国公开赛，斩获博弈算法中级赛道冠军，他们队伍的名字叫——代码指挥官。

腾讯开悟人工智能比赛作为国内最具影响力的游戏AI竞技赛事之一，以“腾讯开悟”AI开放研究平台为基础，具有在算法、算力、场景等方面的核心优势。

2023年从“邀请制”正式升级为“公开赛”，吸引了全国128所高校及科研单位，千余名学生报名参赛。

本届公开赛设置了博弈算法中级、博弈算法高级、算法工程三个赛道，重点考察参赛选手游戏AI基础开发、单智能体以及多智能体解决方案设计、 AI 智能体模型在应用端的适配部署等能力，推动青年AI学习从课堂走向赛事、走向实践。

代码指挥官战队夺冠的博弈算法中级赛道设置海选、复赛、决赛三个赛段，决赛要求参赛队伍在指定的时间内及给定的算力资源下训练模型，让模型在对游戏地图不断的探索中学习最优取胜策略，以此考察参赛队伍的游戏AI基础开发能力、多智能体的解决方案，模型结构设计，强化学习算法设计和训练方式探索。

代码指挥官战队的指导老师秦勇教授是南开大学杰出教授、博导，人工智能热点研究领域的专家，他针对多智能体人工智能技术基本理论和发展热点，结合具体应用问题，正在建设聚集前沿技术、理论与实践深度结合的多智能体强化学习课程，共同推动多智能体技术的发展。

2023首届腾讯开悟人工智能全国公开赛涉及的多个游戏场景属于多智能体决策智能技术的实际应用，如何利用机器学习、深度学习和强化学习技术赋予多智能体自主决策的能力将对未来人工智能技术在多个工业领域的落地产生深远的影响。代码指挥官战队的夺冠展现了南开大学在基础教育方面深厚的底蕴，增强了学生自主创新的自信。

22 1 月 2024

电商下半场，淘宝、拼多多决战AI

AI技术的崛起，让诸多行业开始迎来前所未有的颠覆与重塑。AI不仅在大数据分析、自动驾驶、机器人、智能家居、金融、教育、农业、物流等各个领域的应用开始变得十分广泛，还在不断发挥着自身潜力，推动着行业的数字化和智能化转型。随着各行各业与AI的联系愈发紧密，AI技术已然成为了各行业变革的重要助推力。

而电商行业，作为数字化程度极高的代表，自然也就成为了AI技术变革最为迅猛的领域之一。于是，在此背景下，国内以拼多多、淘宝为代表的电商巨头们也纷纷开始拥抱AI。

AI为电商赋能

现如今，AI热潮愈演愈烈，已经逐渐渗透到人们的衣食住行，开始不断改造着人们的生活方式和工作模式。不可否认，AI等新技术的爆发，将会带来大量的商业机会。在一直追求降本增效的电商行业，AI也自然而然地成为了不能忽视的新变量。显然，AI正在从电商的运营端、供应链端、消费者端，深刻改变着电商行业。

对平台来说，AI技术能优化平台的运营方式，从而大大增强电商平台的运营效率和竞争力。在整个电商产业链中，AI在每个节点都发挥着重要作用。尤其是电商平台可以利用AI技术完善算法，以便用个性化、差异化的方式服务更多商家，满足更大规模用户的需求。

另外，AI技术也能让电商平台组织变得更加敏捷和扁平化，减少平台人员的重复性工作，在优化运营方式，提高运营效率的同时，更大程度上增强用户满意度和忠诚度。

对商家而言，AI技术能为商家制定个性化的营销策略，有效提高商家的营销效率和精准度。AI大数据可以帮助商家实现营销活动的自动化，比如，通过AI大数据分析，商家可以精准定位目标客户群体，为其制定个性化的营销策略，从而改善自身运营效率低、不精准的问题。

而除了智能营销之外，AI还可以在风险控制、供应链管理等方面帮助商家提高效率、降低成本、增强客户体验。对用户来讲，AI技术能够更精准地向用户推送商品信息，从而进一步优化用户的购物体验。众所周知，AI技术是可以用于个性化推荐和搜索的，具体来说，无论是客服生成式AI还是互动式AI，都可以通过数据分析和算法推荐，针对每个用户的行为和兴趣，为其精准地匹配出最感兴趣的或者能满足其个性化需求的商品或服务，而这不仅能够大大提升商品供需两端的匹配效率，更是有利于用户购买转化率的提高。

拼多多“先行一步”

随着AI技术越来越普及，电商行业也上演起了新的故事。在大模型、生成式AI等黑科技的引领下，我们熟悉的拼多多正发生着巨变，朝着全新的“AI电商”不断演进。在刚刚过去的11月，拼多多市值赶超阿里，核心就缘于其“社交+电商+AI”的全新商业模式。

显然，当AI正成为整个电商行业的关键词时，拼多多已经先行一步。在模式上，拼多多开创了独特商业模式，进一步巩固了其在电商行业的地位。拼多多结合AI技术和社交网络，创造了一个“社交+电商+AI”的全新商业模式。

凭借AI技术，拼多多可以分析用户行为，优化社交分享机制，同时有效促进销售转化。拼多多的这一创新模式在传统电商领域前所未有，这不仅加强了拼多多在电商行业的竞争力，也为整个电商行业的未来发展提供了新的思路和方向。

在算法上，拼多多采用了动态定价算法，能帮助商家确定更具竞争力的价格策略。拼多多在AI电商领域的应用不仅带来了全新的商业模式，还在不断地刷新电商行业的运作方式，特别是在个性化服务和供应链效率方面。拼多多在平台上采用了动态定价算法，具体而言就是根据市场需求、库存情况、用户行为数据等因素，实时调整商品价格。这种灵活的定价策略不仅有助于提高销售额，同时还能保持价格竞争力。

在业务上，拼多多进行了AI业务拓展，极大地提升了运营效率和用户体验。从个性化推荐、智能搜索，到质量控制、物流优化，再到售后服务自动化等，拼多多采取了多种策略和措施来加强其平台和服务。可以说，拼多多在AI电商领域的应用是全方位的，涵盖了从用户体验优化到后端供应链管理的各个环节。这些先进的AI技术的应用，不仅能处理常见的查询和问题，还能够快速响应和解决，为商家和用户带来了极大便利。

淘宝“紧追不舍”

在这个AI成为生产力的时代，拼多多“AI驱动电商”战略正在持续推进，阿里淘宝自然也不会袖手旁观。众所周知，阿里淘宝曾一度霸榜电商市场，是公认的当之无愧的行业巨头。但如今，在京东、拼多多、抖音等的合围之下，淘宝的焦虑和担忧开始不断加深。

于是，继拼多多之后，阿里加码AI电商也就成了情理之中。一来，淘宝组建了AI电商团队，为构建更加智能、高效的购物场景打下了坚实基础。人才是企业发展最重要的资源，也是这项业务能否成功的关键，为此，淘天集团组建了不少队伍自主探索AI业务。

据了解，为避免资源浪费、同质化严重等问题，淘天集团对旗下的AI部门进行了整合，将原本负责AI业务的20多个团队收拢成了4个，分别负责阿里妈妈、C端消费者、B端商家以及行业特色应用。二来，淘宝推出了AI电商工具，为精准捕捉用户需求，帮助商家降本增效提供了强大助力。对于电商行业来说，AI技术能极大程度地提升效率、降低成本。

在去年双11期间，淘宝天猫就面向部分商家，推出了“模特图智能生成”、“官方客服机器人”、“万相台无界版”等10多款AI工具，帮助广大商家们在淘宝天猫平台使用AI技术实现一键开店、快速上新、智能装修和详情生成等功能，也让更多消费者能够能以对话的方式，更快找到心仪的产品

。三来，淘宝训练了AI电商大模型，为更具突破性的用户体验和商业模式提供了可靠保障。前不久，淘天集团刚梳理完AI业务，不仅整合了AI团队，同时又发布了大模型产品“星辰”，对内主要应用于搜索、广告、推荐和逛逛的内容化。

此外，淘宝还在筹建新的大模型研究团队，计划以技术名义形成一个大团队，与集团内几个应用场景探索的AI业务团队，共用底层显卡、算法工程，更进一步提升平台的数字化管理能力。

挑战“如影随形”

虽然在人工智能的具体应用上，电商巨头各有千秋，但无论是拼多多还是淘宝，其对AI的重视都是毋庸置疑的。

值得注意的是，伴随着AI技术越来越普及，电商行业的洗牌也将再次开启。不过，AI电商这条路注定坎坷，即便强如淘宝、拼多多，也要面临诸多难题。

首先，技术水平尚不成熟且实施成本高，对玩家而言是一个巨大的挑战。AI电商对算力的要求很高，就各电商平台目前的能力来看，AI也只能起到辅助作用而非直接替代。

而要想改善用户体验，提升市场竞争，淘宝和拼多多还需要投入巨大的资源来建设和维护强大的数据中心。只不过，随着算力需求的增加，相应的成本也会显著增加。

因此，电商平台想要将AI技术内化为真正的智能引擎，还有很长的路要走。其次，消费者行为的适应还需要时间，玩家想要实现商业化并不容易。

AI本身就是一件既烧钱、回报周期又长的投入，AI电商同样如此。淘宝和拼多多的AI电商能否实现商业化上的成功，主要取决于消费者的适应程度和接受程度。老实说，AI电商虽然为消费者带来了实际的便利和优化的购物体验，但想要消费者接受并适应AI电商这一新的购物方式还需要时间，可见，电商平台想要找到可持续的盈利模式并非易事。

最后，国内入局AI电商的玩家还有很多，激烈的市场竞争难以避免。AI电商前景广阔，许多电商平台同样捕捉到了这个商机，比如，京东全线配备了AI智能客服“京小智”；百度上线了百度优选智能助手“小优”；小红书也推出了AI智能笔记助手。

显然，淘宝和拼多多在AI领域的竞争不仅来自彼此，还有其他电商平台和科技公司。在此背景下，如何在AI应用上形成差异化，提供独特的用户体验，就成了各电商平台当下最需要思考的问题。

总的来说，AI对电商而言不仅仅是机会，更是趋势，所以这些挑战既是阻碍，同时也是推动这些企业不断进步和创新的动力。

然而就目前来看，AI电商时代才刚刚开始，拼多多和淘宝在AI电商上的投入也只是沧海一粟。只是值得一提的是，等到整个电商行业都走进AI和大数据算法时代，各电商巨头之间的竞争又将会变得更加激烈。因此，无论是淘宝还是拼多多，要想在未来竞争中占据更多优势，当下恐怕还需付出更多努力。

22 1 月 2024

AI引发“大和解”？周鸿祎、傅盛同台论AI

多知网1月21日消息，今日下午，猎户星空发布猎户星空140亿企业应用大模型，并发布了一系列场景应用微调模型，以及大模型深度应用“聚言”。猎豹移动董事长兼CEO、猎户星空董事长傅盛表示，猎户星空企业应用大模型面向公众开源，免费可商用。

发布会上，傅盛还预测了2024年技术发展的四点趋势：

1.千亿大模型过半凋零，私有化百亿大模型百花盛开。

2.超越OpenAI的机会来自大模型应用公司。

3.“数字老板”将成为企业标配（董事会将考核CEO使用AI时长）。

4.具身智能很火，但人形机器人必定不能量产。

随后，360集团创始人周鸿祎和傅盛就AI相关话题进行了一个小时左右的圆桌对话。

二人渊源颇深。傅盛是第一代互联网产品经理，曾是周鸿祎的下属，在360研发了360安全卫士等产品。不过，随后傅盛在公司重要决策上与周鸿祎产生分歧，二人决裂，傅盛于2008年离开360。2010年，傅盛创办猎豹移动；2014年，猎豹移动登陆纽交所；2016年，他创立人工智能服务机器人公司猎户星空。

这次是二人多年后首度公开同台，也被网友成为“世纪大和解”，因此，这场同台对谈也吸引了不少“吃瓜”网友。

对此，周鸿祎在开场和收尾时便数度定调：“纠结陈年往事无意义”，“傅盛邀请我来，我是抱着学习的心态来的”，“我最近在做半公益的事是帮助创业者解惑，傅盛这次算再次创业，我提供帮助也很正常”，“交流的过程中，有思想碰撞是正常的，这不叫砸场子。我称之为‘吸星大法’，辩论的过程中，可以分解对方观点，最高明的剽窃是把别人的想法变成自己的想法”。

他表示，多年过去，傅盛和自己都有进步与提升：“人的认知是不断提升的。傅盛年轻时火气旺，犯过错误，但在饱尝生活的铁拳后，认知有改变，有很大进步。我也有很大变化，有人说我脾气变好了，可能是年纪大了，体内激素水平下降，看人的眼神都柔和很多，别人骂我的时候，我也在反思自己。”

他认同这波AI热潮的重要意义：“当下的AI是我们经历了PC、互联网、移动互联网后第四次巨大的机会。而且这次机会对人类社会的改变力度、广度、深度、速度，都要超过前几次。在这种情况下，我们要拼命地往前看，要连滚带爬地往前跑，要尽一切可能抓住机会。谁要是还活在过去，就成了刻舟求剑，没有意义。”

周鸿祎说：“今天做AI这件事还有个好处：AI才刚刚开始，比造芯片的难度要低很多，大家对AI的认知都在一个起跑线上。我们就是要不断边调整、边碰撞、边往前走。”

周鸿祎还强调，当下时代，表达方式在变，“短视频和直播正在格式化人的大脑”。”这意味着，商业模式也要改变，董宇辉直播间GMV一天能达到1.6亿元，现在进入了网红时代。我不是鼓励大家都做直播带货，而是企业家、创业者也要学会培养网红气质，一定要学着做网红。一个企业不管是做To B还是To C的，都要跟公众有沟通的渠道。现在这个渠道已经彻底变化，如果不了解这个渠道，你跟这个世界就割裂了。“

尽管做了如此铺垫，但依然不影响这场圆桌上二人“唇枪舌剑”的观点交锋。双方就AI相关话题探讨诸多话题。以下为周鸿祎、傅盛观点摘编：

关于AI大模型创业的方向

周鸿祎：

关于AI大模型创业，经常有两种错误的思维方式：

其一，老想用过去的模式套用今天的AI，把它比喻成iOS。你就算把它比喻成操作系统，得出结论是全世界就2套到3套操作系统，可是鸿蒙系统也出来了了，你判断它必然会垄断，必然就没有机会了，这是刻舟求剑。AI发展不是操作系统，AI更像当年的PC。当年PC时代，有人说，计算机全世界只需要5台就够了，现在，每个人兜里都揣着一台，办公室里放着一台，家里可能还放着一台人。这明显是错误的。

其二，人容易对成功的模式委曲求全，而对暂未区的成绩的创业者求全责备。比如OpenAI做成了，往往会赢得人们的顶礼膜拜，而大家对年轻创业者的想法，则是求全责备，这就容易错过有潜力项目。

很多公司结合大模型做To B业务，大模型能否在To C业务模式方向有效发挥作用？

周鸿祎：

永远不要低估大模型的潜力，但是也不要高估它今天的能力。AI确实让人看到了未来无限的潜力，但今天它还有很多缺点。

我认为，AI能做的方向可能是一个跟已有的业务高度结合的东西，而不是一个完全新的东西。它不像当年互联网出来后，是个全新的工具，完全可以创造一些全新的概念。而人工智能实际上做的是代替人做的这些工作，而很多人的工作是人已经在做了。AI现在很多的场景都是我们熟悉的旧场景，而未必是新产品。

所以现在在在To C方向，我看到了两个变化，唯一的新场景是虚拟女友、虚拟伙伴这类。

我认为AI在企业应用有可能是突破点。因为它是生产力工具。我认同大模型做企业的深度定制化和行业垂直化这个大方向，但是具体做起来还是有几个问题：

首先它是高度业务驱动的，要想做通用的企业级的产品，还要经过一轮摔打和试错的过程。也就是说，企业对自己怎么做业务已经比较了解了，企业用大模型的时候，大模型要跟业务紧密相关。有的公司做医疗大模型或者教育大模型，这种都是比较宽泛的概念，在企业里是很难落地的。

所以我们后来找到一个方法，比如要做HR大模型或者做领导决策大模型，实际上很难用一个概念去做，必须把这个企业的某个业务流程分解成50个子任务、50个非常小切口的场景，然后在每个细分场景拿AI的能力来进行加持。比如要做HR大模型，可能把HR面试工作分解成搜简历、简历评估、根据简历来设置面试问题、面试、面试评估、面试结果反馈等环节才行，每个环节再结合AI，比如在简历评估环节能够用大模型的什么能力来优化这个环节。

比如和微软和Saleforce，他们目前没有拿大模型做一个新的产品，而是要么在公司内部业务的某个环节上，要么在其产品的某个功能部分做了加持。

2023年大模型已经高速发展了一年，但是2023年没有出现真正的好的更有说服力的应用场景，这也恰恰证明了2024、2025年可能就有巨大的机会。

所以我觉得在企业应用上，最重要的不是反复的一个通用大模型，而是要找到细分的场景，用agent做出具体的应用，还要把这个大模型通过微调和训练。2024年可能会出来一些真正的好的应用。但这个市场我也在琢磨，市场应该会被切得比较碎，很难有一个统一的比如知识管理大模型、舆情监测大模型……到企业里边还要做运作。

傅盛：

因为今天大模型刚刚开始，整套的配套今天大家都在摸索。To C对产品要求是更高的；而To B, 由于它改变现有流程的情况下，是可以用定制去解决的。To C是每个人都要感受到独特的价值。所以今天大模型要做To C，除了套皮之外，想做深不容易。今天做To C是比较卷的，尤其在国内。

To C基因的公司转做To B业务会很难，To B有很多定制化细分需求，怎么办？

周鸿祎：

其一，团队要换，先动企业老员工，把部分员工换成懂To B的人。自己改造基因很痛苦，但依然要改造。

其二，要有一个充分的时间准备要交学费。

其三，不会一炮就响，要咬着牙撑下去，有熬的思想准备。

傅盛：

我最早是做To C的产品经理，我后来总结过做AI和机器人业务的两大反思：

第一大反思就是当时投入AI太冒进，所以这次我比较收着。

第二大反思就是就是我当时没有去管销售。因为我以前做产品，我觉得销售这些事儿找个人管就行了。后来发现，To B销售即产品，因为它的周期很长。不仅是成本过剩，还是个用户需求摸索的过程。如果中途紧急叫停，再去寻找下一个客户，这就不计成本了，就整个做散了做成了项目制。我今天特别怕AI做成项目制，刚开始可能很难避免……

在大模型时代，现在是年轻人入场的时候吗？

傅盛：

是入场的时候。我去年三四月份最恐慌。我的恐慌不是我没有去做过千亿大模型，而是我经常在很多媒体上看到很多年轻人怎么改、怎么弄。我突然意识到，这是一个新的机会，大家站在同一起跑线，你懂得慢了就会就遭遇“乱拳打死老师傅”，这只在底层发生转变的时候才有机会。而且年轻人更有时间，没有牵绊，可以全力以赴琢磨AI怎么做，可以学一些深入的东西，点子又多，这一波肯定是很多年轻人崛起的时候。

周鸿祎：

我的观点差不多，就说两点：

一是，AI最大的机会就是不要老想去编一个新东西。AI改变既有业务流程。在目前行业就大胆探索，AI首先改变的是既有的业务流程和既有的所有的产品。今天你所有能想得出来的应用都有机会用AI重做一遍。给AI找场景，而不是瞄着OpenAI做大模型。创业者不要千军万马挤独木桥，而是回到旧业务思考用AI做改变。

而是，对创业者，不论做什么创业，我都鼓励他们尖锐。刚开始的时候一定不要去做大东西，而是一定结合你能看到的一个小的业务场景，AI真的这个问题深入给解决了，把一个东西重度垂直做深入。很多年轻创业者刚开始做得越窄越好，而不是去做套壳嫁接的事，那些事OpenAI迟早自己都会做生态的。

还有一个建议就是，要有点长期主义，AI这两年很热，你就焦虑，其实没啥可以焦虑的。2024年可能会有杀手级应用，但不会那么快。

另一个，要聚焦，小切口，大纵深，找到这样一个方向，用AI去做。

具备哪些特质的创业者在今天这个时代更容易成功？

傅盛：

第一个特质是他真的愿意每天把各种参数搞得非常懂的人，就是真认认真真研究各种东西，而不是只是看个朋友圈就在那儿发表意见的人。其实就像手艺活，你做一个东西，如果你对一些基本技能不是足够的熟练，你其实很难产生灵感的，它是积累的过程。对AI技术本身深入学习。

第二是真的要从应用出发，今天所谓训千亿大模型这件事儿，资金消耗太大了，但是如果从应用出发去找到好的场景，把这个AI的技术给用好，包装出一个产品，这是一个非常好的机会。

第三，真正To C的AI的原生应用可能还需要一两年。

周鸿祎：

第一，AI时代要求创业者的反应要更快、有很高的学习能力。2023年每一天AI进展，等于历史上每一年进展。AI面前，大家起跑线一样。

第二，专注应用场景，接地气，从用户出发思考，不要去炒概念。

第三，要聚焦和专注。AI出来后大家容易掉入一个陷阱，因为AI是一个比较普适性的生产力工具。与其同时做十个场景不如就赌一个应用场景，把并行变成串行。

22 1 月 2024

AI画图工具Midjourney又双叒升级：这次轮到摄影师恐惧了？

你也许对下图这些电影或者游戏角色十分熟悉，但是如果我告诉你，这些都是用AI生成的，那么阁下又该如何应对呢？

去年12月21日，世界上最受欢迎的AI图片生成工具——Midjourney开始对其最新版本V6模型进行Alpha测试。

Midjourney创始人David Holz 在Midjourney的Discord论坛服务器上写道：“这个模型可以生成比我们之前发布的任何模型都更加真实的图像。”他还表示，V6实际上是“在我们的人工智能超级集群上从头开始训练的第三个模型”，花了九个月的时间开发。

测试开启之后，所有人都被V6的强大震撼了，甚至是强大得有点过头了，因为通过MidjourneyV6模型生成的图片，似乎与一些受版权保护的艺术作品，有些过于相似了。

有多相似呢？

有一位曾与漫威和DC等电影工作室多次合作的概念艺术家、插画师，Reid Southen，在使用关键词测试Midjourney时发现，生成的图像与多部电影中的场景几乎一模一样。

图片左侧为电影及游戏截图，右侧为V6模型生成

这精度！这光影！跟电影和游戏原场景不能说是一模一样，也可以说是完美复刻了。

而且MidjourneyV6连知名的卡通人物也可以很容易地复制，正如这些《辛普森一家》片段所体现的那样。

图片均为V6模型生成

这真的是AI生成的吗？这真的不是抄袭吗？

面对用户的版权质疑，Midjourney的回应也是十分迅速，问题的关键就是要解决关键的问题。

他们封禁了那位插画师Reid Southen，将其账户从公司的Discord平台中剔除，删除了他的使用历史，取消他的服务订阅；在Southen创建了一个新帐户并报告了更多结果后，Midjourney再次封禁了他（甚至没有退还他的订阅费）。

Midjourney的举动也是激怒了Southen，他一直在推特上喋喋不休地发文控诉Midjourney的“剽窃”行径。

那么MidjourneyV6真的到了以假乱真的地步了吗？以后的AI绘图是否会完全代替人工绘图，甚至精确到连后期微调都不需要了呢？废话不多说，让我们来测试一波！

测试部分：

我先实验了一下V6用同一个角色连续生成图片的功能，看看能不能模仿日漫的画风，简单地写了个小故事，毕竟人物角色的连续性对于我们讲故事来说非常重要——

繁忙的高中走廊里挤满了各式各样的学生，他们拿着书本，聊天，走过储物柜。

一个十几岁的男孩，中等身高，走过走廊，表情温和，头发略显凌乱，穿着稍大号的高中校服。

他的脸上显现出好奇和轻微的焦虑，眼睛扫视着走廊。

前不久他偶然发现，自己能通过触碰物品看到它们所有者的过去。

他来到教室，小心翼翼地伸手触摸同学的笔记本，看到了一个个令人惊讶的秘密。

他看到了一位以前被大家都认为很害羞的同学，在舞台上自信地表演，揭示了隐藏的歌唱天赋。

他又拿起一根笔，在另一个闪回中，全班第一的班长正在秘密地制作复杂的模型飞机，这是他向同学们隐瞒的一项爱好。

拿到卷子时，他看到了一位看着眼神很凶恶的同学在家里温柔地照顾弟弟妹妹，这与他们在学校的形象背道而驰……

我的评价是，人物的连续性非常到位，画风的连续性略有瑕疵，对于提示词理解也比之前的版本上了一个台阶。

看来接下来的趋势是，只要你有构思精彩故事的能力，即便完全不会画画，也能生成精彩的漫画故事了。

有哪位想成为下一个尾田荣一郎或者青山刚昌的吗？我看好你哦！

接下来我们用MidjourneyV6和V5.2版本进行生图对比，看下这版的Midjourney相比之前的进步或者区别在哪里。【*注：前一张为V5.2，后一张为V6】

首先是一般人物的图片生成：

提示词：Japanese girls, fashion photography, studio shot, –ar 5:7（日本女孩，时尚摄影，棚拍，比例5:7）

提升是显而易见的，V5.2的整体画质还是有些模糊，并没有摆脱传统AI生成图片的油画感，而V6在画面质感以及细节刻画上有了更精致的表现，图像的光影处理也更加真实自然，若不是我亲手操作我真以为是专业摄影师的作品了。

然后是动漫人物的图片生成：

提示词：A Japanese cartoon of a beautiful girl in a black stocking. A small black sphere inside of a giant transparent sphere in a white room（一张日本卡通画，画中一个美丽女孩穿着黑色长袜。画面中一个白色房间内有一个巨大的半透明球体内有一个小小的黑色球体。）

可以看出V6的默认风格更加写实一些，这张图片两个版本的AI理解都有点问题，V5把黑球画成了黑猫，V6忽略了黑球，看来Midjourney在理解这种层层嵌套的复杂提示词的时候还是有点问题。

接下来是产品图的图案生成——

提示词：oil and lotion on tray with towel and plant near a window, in the style of photorealistic renderings.frequent use of yellow, back button focus, fujifilm velvia, realistic rendering, kimoicore –ar 3:4（油彩和乳液在盘子上，旁边有毛巾和植物，窗户附近，风格类似于照片写实渲染。经常使用黄色，背景按钮对焦，富士Velvia，写实渲染，KimoCore-AR 3:4。）

可以看出来V6生成的图片，除了细节更丰富，光影更自然，更接近真正的照片之外，它还理解到了富士相机的风格，并且把这个“富士滤镜”加入到了生成的照片中，看来可能今后连相机都不用买了，只要在生成的图片中加入相机型号，就能生成相应的风格照片。

食物的图案生成：

提示词：A close-up shot of a succulent grilled steak, captured with a shallow depth of field using a Canon EOS 5D Mark IV and a 50mm f/1.8 lens at ISO 200, 1/200 shutter speed, showcasing the caramelized sear, tender pink interior, and glistening juices, evoking a mouthwatering visual feast（一张特写的烤牛排的照片，使用佳能EOS 5D Mark IV和50mm f/1.8镜头在ISO 200、1/200的快门速度下拍摄，利用浅景深捕捉，展示了焦糖化的外皮、嫩粉色的内部和闪耀的汁液，引发了一场令人垂涎欲滴的视觉盛宴。）

食物的生成图片很相似，不过V6版本能营造出那种汁水感，看起来更诱人一些，而V5版本的牛排有种烤过头的感觉。与上面的产品图类似，V6也捕捉到了关于照片创作的关键信息——特写，相较于V5.2的全景，V6的图片才可以称之为特写。

特定风格的图案生成，我挑了三个风格的展现，第一个是美漫风格。

提示词：Alex Ross Comic Cover art with the Marvel Book Title “She-Hulk” at the top. gorgeous superheroine She-Hulk with her green skin and wearing her white and purple superhero outfit and also her muscles, (Ed Benes Studio) Artgerm style, close-up portrait, character reclining, comic book art（Alex Ross漫画封面艺术，上面是漫威的书籍标题“She-Hulk”，美艳的女超级英雄She-Hulk，她穿着白色和紫色的超级英雄服装，还有她的肌肉，(Ed Benes工作室)Artgerm风格，特写肖像，角色躺卧，漫画艺术。）

这个不多说，从语义的理解和生成的质量上，V6完全吊打V5.2，V5.2还没有完全理解She-Hulk是女性版绿巨人，生成了男性超级英雄的角色。

第二个是慕夏的版画风格。

提示词：Beautiful. Mucha style（美女，慕夏风格）

V6的细节明显更多一些，但是从生成的景别，人物姿态来看，不得不说V6有些死板了。

第三个是找了美国黄金时代的插画家Leyendecker风格。

对比可以看出：虽然V6细节更多，但更偏向写实，不太像画作，并且风格也和Leyendecker大相径庭，V5.2虽然是画作，但风格和Leyendecker也没有太大关系，看来，对于一些罕见情况（Corner Case），Midjourney还是没有覆盖到，并且V6比V5.2真实也是事实，即便要生成的是风格绘画也强行真实。

图片中带有文字的图案生成方面，目前只适用于简短的英语文字生成。

提示词：A neon logo sign with the word ” Welcome” written on it, outside a bar in new york city at night（纽约市一家酒吧外夜晚悬挂的带有“Welcome”字样的霓虹灯招牌标识。）

总结来说，虽然现在MidjourneyV6版本还是测试版本，还有很多缺陷，例如饱和度和细节过高，但它呈现出来的图片真实性，人物的连贯性，以及对描述词理解的准确性，已经足以帮我们完成很大部分创作工作，让没有绘画能力的小白也能出广告画，出漫画故事。

更重要的是，它相比上一版本提升巨大，随着时间的推移，它只会越来越强。

我们该如何用好V6？

当然，对于我们普通人来说，如何利用手头上的AI工具完成任务是我们最关注的重点。

在最新的公告中，Midjourney官方提到：

1、V6版本对提示词更加敏感了。用户不再需要使用无用的词汇，如“令人印象深刻的”、“逼真的”、“4k”、“8k”等；

2、明确表达你想要的。但当你明确表达时，模型会在理解你意图方面做得更好。

比如经过我的尝试，像“获奖的、逼真的”这些词语并不能提升图像质量，反而可能对画面内容的生成产生干扰，而输入具体的想要用到相机，具体的画家风格，具体的镜头景别，具体的景深，则会对输出的画面提升巨大。

所以就如同一些别的AI工具一样，AI时代我们每个人都相当于变成了一个小团队的老板，清晰地知道自己要什么，变得比擅长自己执行重要，而且是越来越重要。

最后给大家一个网址，这是Midjourney提示词生成器，能够自动翻译编写成提示词：MidJourney Prompt生成器（https://ai.sppinfo.cn/）

20 1 月 2024

ChatGPT进高校当AI导师！

周四，OpenAI宣布了与高等教育机构的首次合作。从今年2月开始，亚利桑那州立大学（Arizona State University）将获得ChatGPT企业版的完全访问权限，并计划将其用于课程作业、辅导、研究等方面。

亚利桑那州立大学在一份新闻稿中表示，该合作伙伴关系将使该大学的教职员工能够利用 ChatGPT企业版的“先进功能”来加强教学。亚利桑那州立大学首席信息官Lev Gonick告诉媒体，这一合作至少六个月前就已开始筹划。当时Gonick首次访问了OpenAI的总部。

该大学的教职员工早前已开始使用ChatGPT和其它人工智能工具。ChatGPT企业版是去年8月推出的ChatGPT的商业版本，提供对GPT-4的无上限访问以及API积分系统，性能比常规版本快两倍。

Gonick表示，通过与OpenAI的合作，亚利桑那州立大学计划为学生打造一个个性化的AI导师，其中STEM学科是重点。该大学还将在其最大的课程“新生作文课”中使用该工具，为学生提供写作帮助。

亚利桑那州立大学还计划利用ChatGPT企业版开发人工智能化身，作为研究某些学科的“创意伙伴”，比如可以唱歌或写生物学诗歌的机器人。

Gonick还表示，在与OpenAI领导层交谈后，他有信心该工具将提供一个“私密的围墙花园环境”，将保护学生的隐私和知识产权。OpenAI和亚利桑那州立大学的联合声明指出，亚利桑那州立大学社区向ChatGPT输入的任何指令都是“安全的”，OpenAI“不会将这些数据用于训练模型”。

去年，ChatGPT等人工智能聊天机器人因作弊问题引发批评，西雅图、洛杉矶和纽约等地的学校相继禁止学生使用相关工具。OpenAI首席运营官Brad Lightcap在一份新闻稿中表示，该公司“热衷于向亚利桑那州立大学学习”，并扩大高等教育机构对ChatGPT的使用。

20 1 月 2024

AI大模型曝数据危机：不到10行代码就可通过漏洞攻击GPU

2023年，生成式AI爆火，让GPU市场一时风光无两。然而，在AI持续爆火的同时，GPU存在的安全风险竟相伴相生。近日，来自美国纽约安全顾问公司Trail of Bits的研究人员发现了一种从同一服务器上托管的GPU读取另一GPU内存值的方式，即这个漏洞有可能从GPU内存中窃取“关键数据”。

如今，越来越多的企业开始在其服务和产品中结合大语言模型的AI，而信息和数据安全是其不得不关注的问题。据悉，英伟达、苹果、AMD和高通等多个型号的消费性GPU受到影响。研究人员还警告称，如果不对GPU内存隐私进行重大改革，这些转换可能会为攻击者创造肥沃的土壤，让他们在一次攻击中轻松从众多目标中获取大量数据。

GPU漏洞日益紧迫

实际上，关键问题就出在GPU架构设计上。多年来，GPU设计的第一要务是优化图形处理能力，并没有把数据隐私放在更优先的位置。而生成式AI等AI应用的日益普及，促使GPU得到更广泛的应用，也使得解决GPU漏洞问题越来越紧迫。

该漏洞被命名为“LeftoverLocals”，这个漏洞不只是针对消费者应用程序，而是通过侵入大语言模型(LLM)和机器学习(ML)模型中使用的GPU来完成任务。由于模型训练涉及敏感数据使用，因此提取数据更危险。

据悉，Trail of Bits研究人员只用了不到10行代码，就通过创建的攻击程序，在几秒内对GPU内存进行LeftoverLocals攻击，来收集大语言模型提供的大部分响应。该公司的研究人员证明，该漏洞可以用于窃听——跨容器或进程边界——基于提示的聊天会话。

该漏洞(CVE-2023-4969)据传适用于苹果、高通、AMD和Imagination的GPU。其中，在AMD Radeon RX 7900 XT上运行70亿参数量模型时，LeftoverLocals漏洞在GPU每一次调用数据时可能会泄漏约5.5MB数据，在llama.cpp上运行7B模型时，每次LLM查询总共会泄漏约181MB数据。

Trail of Bits的研究人员Heidy Khlaaf和Tyler Sorensen透露，早在2023年9月他们就发现了该漏洞。他们同时指出，这比“以高精度重构 LLM 响应”所需的要多得多。也就是说，这些信息足以高精度地重建大语言模型响应。

LeftoverLocals相当依赖GPU如何隔离其内存，而这与CPU框架不同，因此通过可编程接口获得对GPU共享访问权限的攻击者可以窃取GPU内的内存数据，这将带来多种安全后果。对于普通消费者来说，LeftoverLocals可能不值得担心，但对于云端运算或推理等产业的相关人员来说，会使LLM和ML框架的安全性存在疑虑。

在现代电脑和服务器中，多个用户可以共享相同的处理资源，无需访问彼此的数据。但漏洞LeftoverLocals的袭击打破了这些墙。黑客在目标设备上构建一定数量的操作系统访问权限后，即可利用该漏洞，从易受攻击的GPU的本地内存中泄露他们不应该访问的数据，暴露任何碰巧在那里的数据。

多家科技巨头受影响

2023年夏天，Trail of Bits的研究人员就测试了来自7家GPU制造商的11款芯片和多个相应的编程框架，发现苹果、AMD和高通的GPU均存在LeleftoverLocals漏洞，并联合启动了对该漏洞的协调披露。而苹果、高通和AMD都证实了它们受到影响。

此前，有人曝光了这个问题，但苹果一直没有公开回应。直到2024年1月13日才给予回复。经重新测试，一些设备的漏洞似乎已被修补，如第三代iPad Air(A12)，但该问题仍存在于苹果MacBook Air(M2)上。新发布的苹果iPhone 15似乎没像以前版本那样受影响，苹果已确认A17和M3芯片包含修复程序，但尚未收到在其设备上部署特定补丁的通知。

然而，这并不是苹果第一次面临此类问题，此前M1芯片也被曝出存在安全漏洞。由此可见，苹果需要加强其产品的安全性，以确保用户的数据安全。

而AMD也受到该漏洞的影响，在继续调查潜在的缓解计划。AMD已经就此漏洞问题发表一份安全公告声明，详细列出受影响的产品清单，并说明其为LeftoverLocals提供修复的计划。

尽管高通固件v2.07有一个补丁，可以针对某些设备的LeleftoverLocals，但目前可能还有其他设备受到影响。

据了解，研究人员未发现英伟达、英特尔或Arm GPU包含LeftoverLocals漏洞的证据，也没在他们测试的Imagination GPU中发现相关漏洞。但谷歌已确认一些来自该公司的GPU确实受到影响。Imagination在其最新DDK版本23.3中发布了一个修复程序，于2023年12月提供给客户。

至于作为GPU市场领导者的英伟达确认其设备目前没有受到影响，有人分析，一个可能的原因是研究人员之前在英伟达GPU上探索过各种内存漏洞，是他们早先意识到这类问题。

目前，卡内基梅隆大学(Carnegie Mellon University)的专家正在对LeftoverLocals进行跟踪，据称该信息已经被受其影响的主要GPU供应商共享，其中包括英伟达、苹果、AMD、Arm、英特尔、高通和Imagination等。

值得一提的是，此漏洞不适用于浏览器GPU框架，例如Google的WebGPU，因为它们会向GPU内核插入动态内存检查。

如何解决漏洞问题?

尽管这种安全漏洞仍然存在于许多流行的消费类设备上，如iPhone和Android手机，但到目前为止，还没有关于漏洞利用的消息。而AMD本身仅将风险评估为具有中等威胁级别。

尽管如此，LeftoverLocals指出了保护LLM及其支持MLops的新兴做法。Trail of Bits也指出，“该漏洞凸显了ML开发栈的许多部分存在未知的安全风险，并且没有经过安全专家的严格审查。”

同时，值得关注的是，未来，随着GPU虚拟化在公共云基础设施中变得越来越普遍，以及越来越多的AI应用程序从本地实施转向在共享云环境中运行，GPU内存安全问题和漏洞将变得更加严重。

对此，Trail of Bits研究人员警告说，让这些各种修复方法激增并不容易。即便GPU制造商发布可用的补丁，将其芯片整合到PC和其他设备的制造商也必须打包并将保护传递给最终用户。而全球科技生态系统有如此多的参与者，很难协调各方。

Trail of Bits研究人员认为，社区必须尽力加强GPU系统堆栈和相应的规格，严格测试这些规格，满足不同应用领域的安全要求，并对各种新式AI芯片进行严格的安全分析。

此外，鉴于GPU的多样性及其在实现AI应用方面的关键作用，研究人员认为，相关设备及其生态系统需要做到以下几点：一是创建一个详细的威胁模型，考虑到GPU上处理的各类数据以及这些数据可能如何被破坏;二是探索GPU执行堆栈，以确定应在何处以及如何指定和实现GPU安全属性;三是进行重要的测试和审计，以加强GPU生态系统。

20 1 月 2024

我国首颗AI芯片问世，英特尔狂跌1775亿，外媒：芯片限制闹大了

中国首颗AI芯片：全球芯片市场的新焦点

近年来，全球科技领域的竞争逐渐聚焦在人工智能技术上，而在这个背景下，中国首颗AI芯片的问世成为全球关注的焦点之一。这一创举不仅在国内引起了热烈的反响，更在国际上掀起了波澜。本文将深入探讨这颗AI芯片的特点、对中国的意义、对全球芯片市场的影响，以及各国应对的战略调整。

介绍

人工智能技术逐渐成为全球科技竞争的新焦点。在这一背景下，中国首颗AI芯片的问世引起了广泛关注。这颗芯片采用了先进的半导体制程工艺和架构设计，具备高性能、低功耗等显著特点，成为中国在AI硬件领域取得的重大突破。

AI芯片的特点

这款AI芯片的独特之处在于其采用了先进的半导体制程工艺和架构设计。这不仅使得芯片在性能上有了明显的提升，同时也实现了低功耗的目标。相较于同类产品，它在处理AI计算任务时表现出了卓越的优势，为中国在人工智能领域的技术实力提供了有力支撑。

成功研发对中国的意义

中国AI芯片的成功研发标志着我国在AI硬件领域迈出了重要的一步。这不仅为国内AI产业注入了新的活力，也为中国在全球科技创新舞台上占据更为重要的位置提供了支持。在全球科技竞争中，中国AI芯片的突破为我国的科技实力树立了崭新的标杆。

对全球芯片市场的影响

然而，这一突破并非仅仅对中国产业有利，同时也对全球芯片市场造成了深远的影响。全球知名的芯片制造商英特尔在这场竞争中受到了沉重的打击。其市值在短时间内蒸发了1775亿美元，凸显出在面对新的竞争形势时所面临的压力。

芯片限制政策的影响

全球芯片市场的动荡并非仅仅源于中国AI芯片的崛起，更因为美国此前对中国实施的芯片限制政策。这一政策导致了全球芯片市场的震荡，许多国家开始寻求摆脱对美国芯片的依赖，加大芯片自主研发的力度。中国的成功经验为其他国家提供了发展的契机，全球芯片市场正在迎来新的竞争格局。

各国的战略调整

在中国AI芯片问世的背景下，各国政府和企业开始加大对芯片自主研发的重视。这不仅是因为技术实力和创新能力在全球芯片市场竞争中的关键地位，更是为了应对不断变化的国际形势。全球各国纷纷制定战略，竭力抢占芯片市场份额，而最终的胜者将取决于谁拥有更加强大的技术实力和创新能力。

全球芯片产业的新机遇与挑战

随着中国首颗AI芯片的崛起，全球芯片产业正面临着新的机遇与挑战。各国在竞争中努力提升技术水平，推动创新发展。这场竞争将不仅仅决定各国在全球科技领域的地位，更将塑造全球芯片市场的格局。中国首颗AI芯片的成功研发为全球芯片产业注入了新的活力，也为未来的科技竞争奠定了基石。

结论

中国首颗AI芯片的问世不仅为国内AI产业注入了新的活力，同时也引发了全球芯片市场的变革。在这场激烈的竞争中，各国政府和企业都将竭尽全力抢占市场份额，而最终的赢家将取决于谁拥有更加强大的技术实力和创新能力。全球芯片产业正面临着新的机遇和挑战，而中国首颗AI芯片的崛起将成为这一变革的重要推动力。在这个充满活力的时代，科技创新将继续引领全球前行的步伐。

19 1 月 2024

科技热点 | 你用AI写的论文，已经被“盯”上了！【中国科讯】

“太不像话了！学生用人工智能生成的期末论文糊弄我。”近日，上海某高校教师在社交媒体上“吐槽”自己遇到的新难题——一些想偷懒的学生开始用人工智能技术完成论文。

以ChatGPT为代表的生成式人工智能技术（AIGC）横空出世，似乎为人们写论文提供了新帮手。从提供选题到文稿润色、从统计分析到图表制作……其功能之强大，几乎覆盖了学术论文写作过程的方方面面。

面对ChatGPT等工具的潜在风险，争议随之而来。不少人质疑，人工智能到底能不能用于辅助学术论文写作。有人认为，它只是提高科研效率的工具。有人则对此持审慎态度，认为容易引发大规模的学术诚信问题。

人工智能技术在论文写作中的应用程度如何？技术应用的边界在哪里？如何对这一技术进行有效治理？记者对此进行了深入采访。

AI生成的文本“非常水”

有多少人尝试过用人工智能技术写论文？去年《自然》杂志对全球博士后的一项调查发现，约有三分之一的受访者使用人工智能聊天机器人来优化文本、生成或编辑代码、整理文献。

当记者尝试在社交媒体上搜索“AI”“论文”“写作”等关键词，五花八门的AI论文写作指导教程映入眼帘。其中大部分宣称能够教会用户在几分钟内通过几个简单的步骤，生成一篇几万字的“优质”论文。这些教程的浏览量最高已达数百万。

AI真的能生成一篇完整的“优质”论文吗？记者按照教程开始了尝试：“请提出与民族志纪录片有关的论文选题。”几乎无需等待，几个看起来很“靠谱”的选题就出现在对话框里。

“请就某一选题生成写作大纲。”几秒后，7个像模像样的章节全部生成完毕。“请就提纲中某项内容，详细描述2000字。”重复几次操作后，一篇几万字的“论文”很快就完成了。但记者浏览后发现，其生成的段落中，存在大部分重复且言之无物的内容。

除了说“车轱辘”话，某985高校人工智能专业硕士研究生温睿还发现了此类论文的行文特点：“一般是先写一句话，然后进行分条论述。当老师看到这样套路化的内容就会猜测，这类文章很大程度上是人工智能写的。”

文章开头那位教师的经历印证了温睿的发现。“这样的论文看似条理清晰、层次丰富，但实际上每个层面的内容都很少，而且非常空洞。我马上就怀疑是AI生成的。”该老师说。

不少期刊编辑、审稿人也发现了同样的问题。

某人文社科期刊审稿人徐彬向记者透露，用AI写论文的关键在于提示词。如果提示词选用的不恰当，就极有可能得到一篇套路化的文章。他目前已经收到过五六篇“一眼就能看出来”用AI写的稿子。

“这些文章的共同特点就是非常水。虽然它生成的语言连贯性不错，但是缺乏深度，创新性也不强。”对此，徐彬略显无奈，“综述类文章是使用AI的重灾区，但目前期刊还缺乏相关的评价标准和处理机制。”

伪造数据集更具隐蔽性

在清华大学人工智能国际治理研究院副院长梁正看来，论文核心评价标准包括作者发挥的创造性、对论文的贡献程度。一篇大部分由AI生成且隐瞒使用情况的文章，既没有作者智力的贡献，也不符合科研诚信的要求，属于学术造假。

AIGC造成的学术造假还发生在数据领域。记者在采访过程中，多位业内专家提到了伪造数据集问题。相比直接的文本生成，这一方式更具有隐蔽性。

GPT-4的ADA功能是一种结合了计算机编程语言Python的模型，可以执行统计分析和创建数据可视化。梁正向记者讲述了一则真实的案例：国外某机构研究人员先是要求GPT-4 ADA创建一个关于圆锥角膜患者的数据集，后又要求它编造临床数据，用以支持深板层角膜移植术比穿透性角膜移植术效果更好的结论。但真实的临床数据证明，两种手术效果并无明显差别。

“针对某个问题，提出方法来解决，并通过实验来证明方法的可行性——这是专业论文的常用模式。人工智能不能做实验，哪怕它给的实验数据再理想，也都是虚假的。”温睿认为，虚假的数据背离了科学研究的真正意义。

除了数据处理，更多人使用AIGC来解释概念。温睿发现AIGC生成的概念简洁明了，查重率也非常低。但当记者询问这些概念是否正确时，温睿显得有些迟疑：“我也没有把握，通常默认它是对的。”

为了验证AIGC给出答案的准确性，记者就一些新兴概念提问，但它给出的答案往往和真正概念毫不沾边。当记者让AI生成5篇某领域的重点参考文献，它又胡编乱造了5个不存在的作者和不存在的文献。

在人工智能领域，描述AI“一本正经地胡说八道”的专业名词是“AI幻觉”。哈尔滨工业大学（深圳）特聘校长助理、教授张民解释，AI幻觉是指AI会生成貌似合理连贯，但与输入问题意图不一致、与现实或已知数据不符合或无法验证的内容。这多是由于AI对知识的记忆不足、理解能力不够、训练方式固有的弊端及模型本身技术的局限性所导致。

“如果不警惕AI幻觉，很有可能损害科学研究的真实性和客观性。”梁正表示，AI生成的错误信息一旦被广泛传播，不仅会造成“学术垃圾”泛滥，还将影响学术生态的良性发展。

一场你追我逃的“猫鼠游戏”

一项新技术的出现，对于社会的发展往往是把双刃剑。虽然人工智能技术存在种种隐患，但其在图文创作、数据处理等方面的强大能力已被大多数人认可。“归根结底，我们认为AI将增加人类的智慧，而非取代人类。其使用应在人类监督之下，并将道德因素考虑在内。”施普林格·自然集团发言人说。

推动AI向善发展，需要借助行之有效的技术手段。值得注意的是，AI生成的论文并不能被查重工具检测出来。因此，国内外都在探索研发专门针对AIGC的检测工具。

从原理看，AIGC检测技术是在“用AI打败AI”。同方知网数字出版技术股份有限公司副总经理柯春晓介绍：“人类的创作往往是随机且富有灵感的，而接受过大量文本训练的AI已经形成了生产文本的‘固有’范式，倾向于使用‘一致’的结构和规则，因此具有更高的可预测性。”AIGC检测的核心就是依托海量的文本和数据样本，识别出人类和AIGC工具在平均句子长度、词汇多样性和文本长度等方面的不同点，从而揪出AI论文“枪手”。

一些期刊出版机构通过检测工具发现了AIGC代写论文的痕迹。“从去年7月底到现在，我们发现涉嫌AI写作的论文数据每个月都在上升，大约有六七十篇的文章疑似使用AI的程度超过了50%。”《中华医学杂志》社有限责任公司新媒体部主任沈锡宾介绍。

沈锡宾向记者展示了检测过程：一篇论文经过检测系统后，会显示疑似AI生成占全文比重，相关疑似段落也会被标红。但记者注意到，和传统的查重报告单明确标注重复痕迹不同，AIGC检测报告单只是指出某些文本AIGC的“置信度”，并不能回答为什么是这个值。

“这使得报告单往往只起到参考和警示作用。”柯春晓说。

目前，人工智能大模型正在以“周”为单位进行迭代升级。如何适应不断升级的技术，是摆在AIGC检测工具面前的一道必答题。

作为使用者的人类本身也在不断“进化”。“类似人们逃避查重的方式，如果人们了解到AI检测的方式，也可以重新组织相关内容，对AI生成的文本进行人工润色。这样很可能就检测不出来了。”沈锡宾说。

作弊与反作弊的过程，实质上是场“猫鼠游戏”。只要技术不断升级，两者间的博弈就不会停止。目前，AIGC检测技术仍处在萌芽期。如何对AI生成的虚假图片、虚假数据进行识别仍是难点。因此，人们引入智能检测技术的同时，也要建立人工审查机制。

“审稿人要当好‘守门人’，发挥同行评议的作用，仔细甄别判断论文的数据是否和认知存在偏差。出版机构也可以要求作者提供原始数据，多管齐下，确保科研诚信。”沈锡宾说。

技术向善要他律更要自律

加强技术治理的同时，各方都在翘首以盼，期待达成某些共识以及相关政策尽快出台。“教育、科研、出版各方都很关注AIGC使用的边界，期待对合理使用AIGC形成一个共识性规范。”知网技术专家呼吁。

其实，早在去年初，中国科学技术信息研究所（以下简称中信所）就牵头爱思唯尔、施普林格·自然、约翰威立等国际知名出版集团和科研信息分析机构，在广泛调研并梳理业内相关研究和探索工作的基础上，完成了中英文版的《学术出版中AIGC使用边界指南》（以下简称《指南》），并于去年9月20日在国内外同步发布。

去年12月21日，科技部发布的《负责任研究行为规范指引（2023）》（以下简称《指引》）更是受到了业内的广泛关注。

《指引》和《指南》就如何负责任地使用AIGC，解答了令科研工作者、期刊编辑、审稿人困惑的一些问题。

首先是披露问题。《指引》提出，使用生成式人工智能生成的内容应明确标注并说明其生成过程，确保真实准确和尊重他人知识产权。《指南》中更是提供了声明的模板，供科研人员参考。

对于一些人想用AIGC投机取巧的行为，《指引》明确提出，不得使用AIGC直接生成申报材料；《指南》规定，AIGC不应该用来产生研究假设、直接撰写整篇论文文本、解释数据、得出研究结论。研究人员使用的数据必须是研究人员进行实验并收集所得，如使用AIGC提供的统计分析结果需进行验证。

随着AIGC的使用边界不断清晰，越来越多的出版机构达成共识，制定了使用规范。施普林格·自然集团发言人介绍说，他们目前已经明确了有关作者身份和图像方面的规定。例如，人工智能不能担任作者，真正作者如使用大语言模型须加以透明描述，AI生成的图像通常不能用于发表等。

“《科学》杂志在去年1月份发布的政策是禁止使用任何AIGC工具。而11月16日他们更新了投稿规则、放宽了限制，表示只要进行了适当披露，使用工具是可以接受的。”中信所博士郑雯雯说道。

“《指引》覆盖较为全面，对AIGC的使用总体呈现出平衡包容、敏捷治理的态度，而非一味禁止。这也说明治理的目的并不是阻止科研工作者使用新一代人工智能技术，而是让科研工作者能够负责任地去使用。”梁正提到，在政策制定的行为框架之下，还要关注学科差异问题。“使用AIGC可能因学科的不同而有所差异，其伦理问题也要根据学科特点细化。”

例如，在自然科学领域，AIGC的强大功能更多体现在数据处理领域，如果失范使用，往往难以发现。而对于人文社科领域，直接使用AIGC生成内容的痕迹非常容易被发现，尤其是在高水平的研究当中，优劣之分更为明显。

“因此，对于更加注重文字表达、数据资料支持的学科，比如企业管理、理工科、医学等，需要防范产生虚假的数据集或论证材料。”梁正说，“对AIGC使用的披露程度、疑似度的数据指标等，都需要学术共同体进一步探索，来推动形成广泛共识。”

此外，尽管国家出台了相应的规则，但从外部监督到行业自治还需要一个过程。AIGC的使用涉及包含研究人员、出版机构、相关行业组织、政府等方方面面。如何厘清各方关系，各司其职是关键。“简单说，就是出了问题，谁来查？有没有能力查？”郑雯雯强调。

记者了解到，中华医学会杂志社在今年1月9日公布了其对于AIGC技术使用的有关规定。其中不仅涉及了作者要遵守的细则，还提出了查处方式——经编辑部研判的违反AIGC使用的情形，将直接退稿或撤稿；情节严重者，将列入作者学术失信名单。

“我们下一步的目标是把存在问题的文章作一个归纳总结，进一步摸清AIGC使用的规律，为科学治理积累经验。”沈锡宾说。

“尽管新兴技术有着潜在风险，但也有着无可比拟的优势，不宜一味封堵，而是要做好引导、合理合规地使用新技术。”郑雯雯表示，归根到底，科学研究的主体是人。如果心中的那杆“秤”倾斜了，即使再完善的监管政策、再高端的检测技术，也难以抵挡学术不端的侵袭。

梁正也强调，作为科研诚信的第一责任人，科研人员一定要保持严谨的学术态度，关注研究领域的真问题，坚守学术研究的基本原则，如原创性和透明性；明确认识到ChatGPT等工具的潜在风险，避免使用不当而造成学术不端。

“科研诚信和伦理是科研的生命线，科研人员一定要存敬畏、有底线。一旦在这方面有瑕疵，职业生涯或将葬送。”梁正提醒。

19 1 月 2024

微软推出独立 AI 工具“阅读教练”，辅助提高学习者阅读能力

微软近日发布新闻稿，宣布面向学生群体，推出全新的生成式 AI 工具“阅读教练”（Reading Coach），通过个性化和有吸引力的练习，帮助学习者提高阅读能力。

微软表示 Reading Coach 会免费提供，用户只需要登录微软账号，就能在课堂或者家中使用。

Reading Coach 此前是 Microsoft Teams 的一项功能，主要为学习者提供定制的阅读练习，以及发音和流利程度方面的即时反馈，同时还能让教育者了解他们的学习进度。

微软现在将其从 Teams 中分拆出来，作为独立应用提供，并进一步丰富其功能，让学习者从精心挑选的选项中选择人物和场景，创建自己的人工智能故事。

人工智能生成的故事在内容质量、安全性和年龄适宜性方面都经过了微软负责任人工智能指导方针的审核。学习者在“沉浸式阅读器”（Immersive Reader）中阅读故事，帮助有困难的用户提高阅读能力。

学习者还可以选择每个故事章节中发生的内容，在故事中创造自己的阅读之旅。他们在上一章节中发现的具有挑战性的单词会自动出现在下一章节中，从而使练习适应他们的需要。

在每个故事章节结束后，学习者还能就他们认为具有挑战性的单词接受流利性辅导。为了保持学习者的积极性和参与度，该应用程序会奖励他们以努力为重点的徽章，并为下一个故事解锁新的角色和场景。

19 1 月 2024

劈柴曝谷歌2024年全年裁员，牵出华人员工自杀事件！硅谷近8000人疑被AI淘汰

原创:新智元

硅谷一年一度的开年裁员大礼包，又来了。目前，谷歌的裁员动荡，还在继续。就在今天，CEO劈柴又发出了全员公开信，表示裁员将持续2024一整年！

1月10号以来，谷歌已经有多部门的近1000名员工被裁。谷歌硬件、广告销售、搜索、购物、地图、政策、核心工程和YouTube团队，都已经或即将接受裁员和重组。劈柴表示，这次裁员的目的是消除层级，提高某些领域的速度（就差没点名AI了）。他的公开信，正式了谷歌内部许多人一直在担心的事情：更多的「岗位淘汰」，真的来了。其他的大科技公司，数据也很可怕。Layoffs.fyi的数据显示，2024年第一季度，已经有58家科技公司裁掉了7,785名员工。

Salesforce、Duolingo以及AI硬件初创公司Humane，也宣布了裁员或停止招聘，从而能够更加聚焦于AI。Aisera的联合创始人兼CEO Muddu Sudhakar表示，在基础软件开发和数据库管理等领域，已经有大量工作岗位被取消。目前，AI工具未必会直接导致人类员工的淘汰，但在整体经济大环境中，集中全公司之力发展AI，客观上确实导致了更多的裁员。所以，AI真的来淘汰人类了？

谷歌裁员继续，CEO劈柴：将持续整个2024

酝酿了好几个月，谷歌的裁员大砍刀，真实地砍了下来。一周前，核心工程部门、Google Assistant、硬件和AR部门的数千名员工被裁。两天前，谷歌广告销售部门的一百多名员工，也不幸被裁。可怕的是，这轮裁员大逃杀还在继续，谁也不知道，下一个被写在「死亡笔记」上的名字是谁。

今天，谷歌CEO劈柴首次承认了谷歌最近的裁员潮，并且在邮件中警告全体员工：裁员将持续一整年。截至去年9月，谷歌共有182381名员工。去年一年，谷歌裁掉了6%，也就是大约1.2万人。好在，劈柴表示，今年的裁员幅度不会达到去年的规模，也不会涉及所有团队。至于为什么要裁掉这么多员工，劈柴的解释是，这是谷歌在将人工智能置于优先地位时「不得不做出的艰难决策」。

谷歌已经宣布，将在数据中心和其它基础设施上进行大规模投资，以便在和微软、OpenAI的竞争中，尽快让Gemini大模型商业化。如今，Gemini项目已经成了全公司最炙手可热的团队、最宝贵的资产，也是被竞争对手的猎头盯上的重点对象。这也迫使谷歌为那些最受欢迎的AI研究人员，提供更天价的薪水。天价薪酬，由谁来买单呢？自然就是其他被裁的人。上周的裁员，已经波及了一些副总裁，以及其他资历深、任职时间长的老员工。

劈柴在公开信中指出，谷歌希望通过裁减员工来精简管理层级，加快某些领域产品的开发速度。就在刚刚裁掉广告销售部门的数百名员工之后，谷歌旗下的YouTube也开始裁员了。YouTube已经发出通知，将在全球的合作伙伴中裁掉100多人。

这股裁员大潮，会因为谷歌预计的收入增长而放缓吗？还没有人知道答案。现在，谷歌已经人心惶惶。在Blind上，一则谷歌华人员工疑似自杀的新闻，更让谷歌蒙上了舆论的阴影。

甚至还登上了微博的热搜。

除此之外，劈柴也被怒喷是「史上最差CEO」。有人说，当你客观地分析顶级科技公司（FAANG）时，谷歌的CEO是迄今为止表现最差的。劈柴就应该被解雇。

劈柴可能会被解雇，因为谷歌员工一直在抱怨他在恐慌中做出有关BARD的决定。许多前谷歌员工表示，劈柴是最糟糕的科技公司首席执行官，他之所以能幸存下来，是因为它从一开始就没有竞争对手。

而代表谷歌母公司Alphabet 1400多名员工的Alphabet工人工会也怒了！它们发帖称，此次裁员是「不必要的」。

我们的团队成员每天都在努力工作，为我们的用户打造优秀的产品，公司不能在每个季度赚取数十亿美元的同时继续解雇我们的同事。

今年大科技公司裁员新理由：生成式AI有趣的是，随着科技大厂持续加大对AI的投入，人工智能也成为了当今「最流行」的裁员理由。当然，这不仅仅是用AI去替代员工，更多的是藉此替换那些不具备AI技能的员工。

对此，CodeSignal的联合创始人兼CEO Tigran Sloyan表示，这一方面意味着公司正在将工作岗位全面自动化，也就是用AI去取代员工。比如Duolingo就已经能够利用AI完成更多的工作，并在本月继续缩减承包商的数量。

另一方面也说明科技公司正在将资源重新分配，从而可以给那些技术水平更高的工程师提供更高的薪酬。不过，也不排除这只是公司为了应对裁员所带来的公关问题的巧妙借口。

总体而言，生成式AI对于相当一部分软件工程师来说，带来的更多是威胁。尤其是随着企业中自动化代码生成的普及，比如像Github Copilot这类工具，一般性AI岗位的薪资很可能会下调。

根据Brookings Metro即将发布的研究，包括软件开发在内的与「计算机」相关的工作，都将面临高达90%的生成式AI风险。换句话说就是，这意味着使用ChatGPT可以在不到一半的时间内完成这些工作的90%。

不过，就生成式AI领域来说，风景是一片大好。Brookings Metro的高级研究员Mark Muro指出，目前市场上迫切地需要掌握AI技能的人才。根据CompTIA最近的报告，美国科技行业在本月新增了12,922个职位，是自2023年4月以来最大的月增长数。其中，针对拥有专业技能的AI职位的招聘，占到了所有技术职位招聘的10%以上。

然而，值得注意的是，这些高额薪资是由PhD级研究人员稀缺的供给和旺盛的需求所决定的。虽然这些AI工程师岗薪资极高，比如Netflix在去年开出的90万美元年薪，但是很少有人能够具备这些职位所需的技能。毕竟，经历了如此多的培训、教育和技能积累的人非常少见。

DeepMind联创警告：几年内，AI就会冲击劳动力市场

DeepMind联合创始人Mustafa Suleyman警告，从长远来看，人工智能是一种「从根本上取代劳动力」的工具。

Mustafa Suleyman是人工智能领域的重量级人物。他早年从牛津大学辍学，担任过联合国和荷兰政府的谈判代表，后来转向人工智能领域。2010年，Suleyman与Demis Hassabis和Shane Legg一起创办了DeepMind。

Suleyman在世界经济论坛年会上表示，「我们必须认真思考如何整合这些工具（AI），如果完全放任市场主导，从根本上说，这些工具将取代劳动力。」

当前的人工智能主要做了两件事情：首先是提高了现有业务的效率，为企业节省了大量成本，但代价是取代了从事相关工作的人类；其次是创建了全新的业务和流程，这里面倒是蕴含了创造就业的机会。在未来几年里，这两股力量都将给劳动力市场带来巨大冲击，造成难以预料的影响。

十多年来，专家们一直在争论人工智能是否会取代人类工人。Carl Benedikt Frey和Michael Osborne在2013年的一项研究中估计，到2030年代中期，美国47%的工作岗位有可能在人工智能热潮中被自动化。麦肯锡7月份的一项研究发现，到2030年，将有近1200万美国人需要更换工作，因为人工智能将取代他们的角色。

事实上，对此发出警告的业内大佬并不止Suleyman一人。麻省理工学院教授Daron Acemoglu在1月10日发表的一篇《连线》文章中预测，人工智能将在2024年让所有人失望，证明自己只是一种「通用自动化」，AI将夺走工人的工作，但却无法实现预期的生产率大幅提高。

「我们世界上一切有价值的东西都是由我们的智慧、我们对信息进行推理和预测的能力创造出来的。而AI恰恰能做到这一点。」

在本周的世界经济论坛人工智能小组讨论中，Suleyman被问到AI何时能够通过图灵测试，甚至展现出类似人类的能力（AGI）。

Suleyman表示，现代版本的图灵测试，应该是评估AI能否像企业家、项目经理和发明家一样，拥有制造和营销产品的能力。

我很确定，在未来五年内，AI不仅会拥有这些能力，而且这些能力将以非常便宜的价格被广泛使用，甚至可能是开源的，而这将完全改变经济。

2024年，CEO计划用AI替代5%的员工

调查显示：四分之一的首席执行官预计，由于人工智能的产生，2024年将至少减少5%的员工人数。CEO们似乎正在「热身」，准备大规模应用生成式AI来节省成本和创造利润——当然，以牺牲员工为代价的。

作为咨询行业巨头，普华永道（PwC）在第27份年度CEO报告中，对105个国家的4702名CEO进行了调查。

当谈到生成式AI时，许多CEO表示，采用该技术是增加收入和提高效率的机会。但人工智能带来的生产力提升也可能是今年让员工失业的原因。调查还显示，AI对某些行业的影响可能更大，在表示将采用AI来精简劳动力的CEO中，有32%属于媒体和娱乐领域，其次是银行和资本市场、保险、运输和物流。

另外，普华永道在生成式AI方向的领导Bret Greenstein表示，人类的招聘和培训成本很高，往往需要几个月的时间才能提高工作效率，而且很难留住，相比之下，忠诚的AI可以在任何需要的时候快速扩展。不过，Greenstein说，学习新的人工智能技能可能会让工人留在工作岗位上。

18 1 月 2024

三星S24系列真机上手：机身更方正用AI创造更多可能

经过几年的迭代，三星已经形成了上半年更新S系列、下半年更新Z系列折叠屏的固定节奏。而在2024年的今天，三星也为我们带来了最新的Galaxy S24系列产品。今年三星依然采用经典的三杯组合，分别为三星S24、三星S24+以及三星S24 Ultra，满足不同用户的使用需求。

可以看到的是，三星S系列已经形成了相当固定的风格。其中三星S24与三星S24+都拥有轻快简洁的设计语言，二者的区别更多集中在屏幕尺寸以及电池容量，用户仅需结合自己的实际使用需求，就能选择到适合的产品。而三星S24 Ultra则是三星科技的集大成者，它拥有三星S系列最强大的硬件，搭配S Pen也能提供更加完善的使用体验。

值得一提的是，今年三款手机除了常规的性能、影像等提升外，在AI层面的升级也成为重中之重。全新的“Galaxy AI”号称将开启Galaxy新时代，通过AI的加持，呈现出更精彩的生活方式。

01
三星S24/S24+：延续经典设计手感更加舒适良好的外观设计能够给人留下很深的第一印象，今年三星S24与三星S24+在外观设计上，依然选择延续自家经典的设计风格。为了让整机更显轻便，此次三星S24与三星S24+依然采用了铝合金材质的边框，同时中框部分改为磨砂质感，搭配淡雅的水墨黑、雅岩灰、秘矿紫、浅珀黄等配色，看上去更加轻巧无负担。

仔细来看，今年三星S24与三星S24+看上去比上一代更加方正，同时正面延续了此前的直屏设计。而在屏幕尺寸上，两台设备的尺寸分别为6.2英寸以及6.7英寸，整体的握持手感与前一代差别不大。

三星S24的屏幕支持

1Hz-120Hz的自适应刷新此次三星S24与三星S24+也采用了三星自家的屏幕，二者均支持1-120Hz的自适应刷新率，拥有2600尼特的最高亮度和更窄的屏幕边框，同时正面玻璃盖板采用了康宁Gorilla Armor玻璃，它能降低75%的反射率，让屏幕看上去更加通透。可以说，三星S系列依然拥有当前第一梯队的屏幕显示效果。在性能层面，此次三星S24与三星S24+均采用当前领先的第三代骁龙8移动平台，同时得益于面积更大的均热板，此次三星S24系列的散热表现与稳定性也得到了进一步增强。而在电池容量方面，三星S24与三星S24+分别内置4000mAh以及4900mAh电池，这里面值得关注的是小屏旗舰三星S24，今年三星首次将小屏旗舰的电池容量提升至4000mAh的水平上，这足以确保用户安稳使用一整天。

三星S24采用后置三摄组合而在影像系统方面，三星S24与三星S24+则采用了5000万像素广角+1200万像素超广角+1000万像素长焦的三摄组合。其中1000万像素长焦镜头支持3X光学变焦，这套组合也能覆盖更全面的焦段。

为了自家的顶尖旗舰拥有更亮眼的表现，不少厂商的标准版产品在关键区域均有一定的缩水，例如屏幕刷新率较低、电池续航能力不足、影像系统焦段不够全面等等。而三星S24与三星S24+这次选择不给标准版机型留遗憾，通过更加完善的焦段覆盖、更大容量的电池以及一块高质量屏幕，将标准版机型的体验提升到了当前领先的水平，也让S24与S24+能够满足更多用户的丰富使用需求。

02
全能S系列旗舰由三星S24 Ultra呈现Ultra代表着极致，也是厂商科技的集大成者。今年三星S24 Ultra拥有三星当前最强的影像表现、最强的硬件素质，还拥有三星对AI的思考。

三星S24 Ultra在外观设计上，三星S24 Ultra依然延续了Ultra系列的风格，背部影像系统采用双竖向排列，正面则采用一块近乎直屏的屏幕。

三星S24 Ultra的边框宽度控制得相当合理值得注意的是，今年三星S24 Ultra的边框宽度控制得相当合理，从正面来看，它几乎实现了四边等宽，看上去更加舒适，而且无论是玩游戏还是追剧，直屏的显示效果也更加自然。同时，这块6.8英寸的屏幕也支持1-120Hz的自由刷新率以及2600尼特的最高亮度，正面采用康宁Gorilla Armor玻璃盖板，能够降低反射率，也能让屏幕观感更加通透。

三星S24 Ultra引入钛金属材质为了进一步强调Ultra产品线的质感，今年三星S24 Ultra同样引入了钛金属材质，并拥有钛灰、钛黑、钛暮紫、钛羽四种配色，四款配色看上去更加偏硬核，也很符合Ultra系列的定位。至于机身背部，三星S24 Ultra也延续了经典的后置四摄，四颗镜头分别为2亿像素广角镜头+1200万像素超广角镜头+1000万像素长焦镜头（3X）+5000万像素长焦镜头（5X）。三星表示这套影像系统在2X、3X、5X以及10X等焦段下都能实现光学品质表现，同时利用AI超分技术以及多帧融合技术，在更大的变焦级别上也能进一步增强图像品质。

与此前的3X、10X双长焦相比，三星今年选择了3X以及5X这两个焦段。可以看到的是，这两个焦段更加贴合用户的日常使用场景，能让原生焦段拥有更高的适用性，也能避免长焦端的焦段塌陷。当然，通过软件算法，三星S24 Ultra在更长焦段的表现也不错，它很有可能继续成为更多用户的“演唱会专用机”。同样，三星S24 Ultra依然采用内置S Pen的设计，位置依然在机身左下角位置。对于右利手用户而言，使用S Pen仍需要重新建立使用习惯，不过考虑到三星已经连续几代将S Pen放置在该区域，对于三星Ultra系列老用户而言应该早已习惯这个位置。

全新的AI功能是此次三星最大的改进

在“大模型”、“AI”等成为行业热点的今天，三星S24系列同样将软件上的升级体现在AI层面。虽说我们在S24系列中找不到一个集中的AI入口，但AI其实早已融入各个功能之中。例如全新的“即圈即搜”功能，用户可以在任意界面长按home键并选定区域，让系统自动进行搜索。而在拍照的时候，利用生成式AI，可以通过人工智能来解决照片瑕疵，亦或是利用AI自动调整照片，大大提升效率。

此外，通话实时翻译也是一个相当好用的AI功能。在打电话的时候，通过“呼叫助手”就能开启实时翻译，你可以选择对方的语言，系统也能够自动识别，你甚至可以关掉对方的原声，开启该功能时对方听到的就是自动翻译过后的合成语音。

04
写在最后面向全球市场的三星，每年都会根据自己的节奏来更新产品。今年的三星S24系列，依然是我们熟悉的感觉。通过三星S24、三星S24+以及三星S24 Ultra三款产品，三星的S系列旗舰能够更好地面向不同的用户群，满足不同消费者的使用体验。相比于硬件的常规更新，今年三星S24系列在AI领域的升级更加吸引我。当手机硬件愈发趋同的今天，AI的出现能够进一步提升智能手机的可能性，每一个人都能利用AI去提升效率，创造更多的可能。

价格方面，三星S24系列国行版的先行者计划已经开启，其中S24 8GB+256GB版本售价5999元、12GB+256GB版本售价6499元、8GB+512GB版本售价6999元；S24+ 12GB+256GB版本售价7499元、12GB+512GB版本售价8499元；S24 Ultra 12GB+256GB版本售价10199元、12GB+512GB版本售价11199元、12GB+1TB版本售价13199元。

18 1 月 2024

写给大家看的AI绘画教程：如何使用AI来设计炫酷的产品概念图和参加比赛

作者：PM熊叔

这周，我的AIGC作品《赛博机甲AIPC笔记本》被比赛主办方联想官方账号转发和点赞了！真是万分荣幸！其实，使用AI绘图工具做产品设计并没有想象中的难。关于如何使用AI设计产品概念图，我专门写了一篇零门槛的教程，希望能够帮助大家参赛拿奖。

学完这篇文章你可以掌握：

了解目前有哪些好用的AI绘画平台
学习如何写提示词来设计自己的产品
参加AIGC比赛，提升中奖概率

现在，让我们马上步入正题。

一、有哪些好用的AI绘画平台？无论是在线服务还是本地应用，AI绘画工具的多样化和易用性为创意表达打开了新的大门。从初学者到专业艺术家，每个人都可以找到适合自己的工具，将想象力转化为令人惊叹的艺术作品。在线使用的平台，主要有如下几个：

1. Midjourney (https://www.midjourney.com/) – 特点：极为优秀的AI绘画能力，但需付费使用。 – 是否有免费额度：否。

2. DALL-E (https://labs.openai.com/) – 特点：同样提供顶级的AI绘画服务，属于付费范畴。 – 是否有免费额度：否。

3. Bing (https://www.bing.com/images/create) – 特点：优秀的AI绘画工具，且完全免费。 – 是否有免费额度：有。

4. Leonardo.AI (https://leonardo.ai/) – 特点：提供良好的AI绘画体验，免费使用。 – 是否有免费额度：有。

5. Mage.Space (https://www.mage.space/) – 特点：良好的AI绘画能力，免费且提供多种模型选择。 – 是否有免费额度：有。

6. 百度文心一阁 (https://yige.baidu.com/) – 特点：支持中文 – 是否有免费额度：有。

7. 阿里通义万象（https://tongyi.aliyun.com/wanxiang/creation) – 特点：支持中文， – 是否有免费额度：有。

总的来说，如果你想要有良好的创作体验Midjourney和DALL-E是最理想选择，他俩卓越的创作能力是业内公认的。而对于预算有限或希望免费体验AI绘画的用户，可以尝试BingAI的绘画生成能力，因为BingAI绘画接入的就是GPT的DALL-E。另外如果想体验稍微完整的AI绘图能力Leonardo AI也是不错的选择。如果我们受网络所限，百度文心一阁和阿里通义万象也是目前国内用户的选择。如果你更倾向于在本地设备上使用AI绘画工具的用户，首选 Stable Diffusion，主要有Auto11111的WebUI和ComfyUI。另外，还有一些开箱即用的客户端工具，例如，Draw Things和Diffusion Been等。

二、如何撰写AI绘图的提示词？

我们在使用Midjourney、DALL-E、Stable Diffusion等文本生成图像工具的时候，我们需要设计文本提示词（prompts）来指导AI生成图像过程，最终获得我们想要的效果。

我们可以将AI想象为一名正在学画画的中学生，你现在正在扮演一位美术老师，为他布置作业。

我们应该怎么出题呢？下面是一些方法：

1. 需要明确具体：描述你想要的图像时，尽可能具体和详细，包含场景描述、物体、颜色、情感氛围、风格等。例如，我们出题的时候不说“一辆车”，而是说“一辆红色的跑车在沙滩上”。另外，需要尽量不要有抽象的隐喻，这位学生有可能无法理解。

2. 使用关键词：使用关键词来描述图像的主要元素，如对象、颜色、环境、气氛，虽然有些比较聪明的学生（如Dell-E和Midjourney V6）已经可以理解完整的句子所表达的语义，但是关键词依然是核心。如果我们通过特定的关键词可以帮助AI更明确的表达，特别是一些艺术风格术语，如“印象派”、“超现实主义”或具体的颜色和纹理描述。

3. 不要过于复杂：虽然要具体，但是过于复杂的提示词可能会使模型难以理解和执行，我们需要找到描述清晰具体但又不过分复杂的平衡点。

4. 渐进式迭代：不用一次到位，我们可以通过实验和调整描述来获得更好的结果。

5. 结构性陈述：好的提示词包含不同方面的描述，如主题、媒介、风格、艺术家、细节、颜色和光照等等，如果我们遵循一定的结构，我们可以写出更明确具体的提示词，帮助这位考生更好地理解你的需求。下面是一个比较常用的提示结构：

下面是一个为汽车创建的详细Prompt示例：

主体内容：一款未来风格的电动汽车。
1. 基础：一款电动汽车。
2. 基础+修饰：一款具有流线型设计的电动汽车。
3. 基础+进一步修饰+画面故事：一款流线型设计的电动汽车，在光滑的公路上高速行驶，车身表面反射着周围的城市光线。
环境：车辆行驶在一条现代化的高架桥上，背景是一个繁华的未来都市，高耸的摩天大楼和光滑的玻璃幕墙反射着夜晚的灯光。
气氛：一种科技感和速度感的结合，展现出未来交通的便捷和高效。
灯光：选择高对比度的照明，强调汽车的轮廓和流线型的设计，同时反映出城市的繁华夜景。
色彩：使用富有科技感的冷色调，如银灰色、深蓝色和白色，以突出未来感和清洁能源的概念。
构图：采用动态的角度，如斜视角或低角度视图，以强调汽车的速度和运动感。
风格参考：参考现代汽车设计和科幻电影中的未来城市景象。

最后，我们将这些描述的关键词整合成一段文本描述：电动汽车，流线型设计，高速公路，未来城市，夜景，摩天大楼，光滑玻璃外墙，高对比度照明，冷色调，科技感，银灰色，深蓝色，白色，干净能源，动态视角，斜角，低角度视图，现代汽车设计，科幻电影风格。如果使用国外的平台，我们可以使用翻译软件将提示词变成英文：Electric car, streamlined design, futuristic city, night scene, skyscrapers, smooth glass facades, high-contrast lighting, cold color tones, technology theme, silver-grey, deep blue, white, clean energy, dynamic perspective, oblique angle, low-angle view, modern car design, sci-fi movie style这里是我在Mage.Space的使用SDXL模型效果如下图：

Prompt = （主体内容） + （环境设定） + （气氛/灯光） + （构图） + （风格参考）

如果条件有限，你可以尝试国内的平台，像百度文心和阿里通义都支持中文。

三、如何使用AI进行产品设计？

当我们要做产品设计的时候，我们需要对上面的基本结构拓展：

Prompt = （产品功能 + 风格外观 + 材料构造 + 特殊要求 + 设计灵感）+ （环境设定） + （气氛/灯光）

首先，我们的产品主体描述需要更加具体，可以包含面几个维度：

产品功能：描述产品的主要用途或功能。
风格外观：指定设计风格或外观特征。
材料构造：提及所使用的材料或构造方法。
特殊要求：任何特定的设计要求或限制。
设计灵感：参考某些著名产品或设计的风格特征。

另外，我们可以加上一些工业设计常用表现手法：3D渲染风格、CG渲染、手绘、马克笔、彩色铅笔、设计草图等，下面是不同的表现手法。

我们以设计一款AI PC的笔记本为例：

内容主体：
- 产品功能：AI强大个人助理笔记本电脑
- 风格外观：融合《新世纪福音战士》初号机的设计元素，动态棱角设计，霓虹绿和紫色高光
- 材料构造：光滑金属外壳，带有在不同光线下变色的异彩效果
- 特殊要求：先进的全息触摸屏技术，3D全息交互
- 灵感参考：高科技的个人电子设备，科幻电影中的设备，如《银翼杀手》中的未来科技
表现风格：CG渲染、高科技、未来感
环境设定：高科技的未来实验室，多面全息显示屏，浮动的交互式面板，赛博朋克风格的未来城市背景
气氛灯光：神秘的蓝色和紫色背光，营造出高科技和未来感的氛围
构图：高角度俯瞰，笔记本电脑位于中心，周围环绕着先进的设备和充满活力的城市景观

我们得到以下提示词：未来风格AI强大个人助理笔记本，融合《新世纪福音战士》初号机设计元素，动态棱角设计，霓虹绿紫色高光，光滑金属外壳，异彩变色效果，先进全息触摸屏技术，3D全息交互，高科技未来实验室，多面全息显示屏，浮动交互式面板，赛博朋克风格未来都市背景，神秘蓝紫背光，高科技感，未来感，高角度俯瞰，中心位置笔记本，周围环绕先进设备和动感城市景观, 3D渲染, 4K我们可以使用翻译软件将提示词翻译成英文：Futuristic AI-powered personal assistant laptop, integrating design elements from Neon Genesis Evangelion’s Unit-01, dynamic angular design, neon green and purple highlights, sleek metal casing with iridescent color-changing effect, advanced holographic touchscreen technology, 3D holographic interaction; set in a high-tech future laboratory with multi-faceted holographic displays, floating interactive panels, against a cyberpunk-style futuristic city background; mysterious blue and purple backlighting, high-tech and futuristic atmosphere; high-angle overview composition with the laptop at the center, surrounded by advanced equipment and a dynamic cityscape.下图OpenAI的DALL-E的生成结果，这是目前表现最到位作品，我们不得不佩服业界顶流的创造力。

这个是Stable diffusion的SDXL模型生成的结果，虽然环境氛围表达到位了，但是缺少创造力，电脑就是电脑。

百度文心和阿里通义万象，效果大家自行评价。

通过上面几个平台生成效果对比，可见AI生成的作品的好坏和模型选择也有很大关系。另外，优秀好的作品介绍也很重要，我们可以使用ChatGPT或百度的文心一言来帮助我们写设计介绍，将这个文字复制给大语言模型：

请扮演一位网络营销高手，帮我写条微博，要求请根据以下产品的描述，从这款作品的作者的角度介绍作品```[这里写上你刚刚在创作过程中使用的Prompt...]```

四、参加比赛，准备拿奖目前，联想正好在做一个AI PC的设计比赛，奖品还不错，而且作品提交次数没有限制，非常适合我们这些掌握AI绘图的普通人参赛。

18 1 月 2024

OpenAI 组建新团队，收集公众意见以确保 AI 大模型与人类价值观保持一致

1 月 17 日消息，美国当地时间周二，人工智能领域的佼佼者 OpenAI 在其博客上宣布，他们正在组建一个名为“集体对齐”（Collective Alignment）的全新团队。

这个团队主要由研究人员和工程师构成，将专注于设计和实施收集公众意见的流程，以帮助训练和塑造其人工智能模型的行为，从而解决潜在的偏见和其他问题。

OpenAI 在博客中阐述道：“我们的目标是打造一个系统，它能够收集和‘编码’公众对我们模型行为的看法，并将这些宝贵的见解融入我们的产品和服务中。这样一来，我们未来的人工智能模型就能更好地‘与人类价值观保持一致’。”

为了实现这一目标，OpenAI 正积极招募来自不同技术背景的研究工程师加入这个新团队。他们表示：“我们将与外部顾问和其他团队紧密合作，包括开展试点工作，将原型整合到我们的模型中。我们需要来自不同领域的专家，共同助力这项工作的推进。”

这个“集体对齐”团队其实是 OpenAI 去年 5 月启动的公共项目的一个延伸。该项目旨在资助建立一个“民主程序”的实验，以确定人工智能系统应遵循的规则。OpenAI 曾明确表示，该计划旨在资助个人、团队和组织开发概念验证，以回答有关人工智能护栏和治理的问题。

研究工程师、OpenAI 新团队创始成员泰纳・埃伦杜（Tyna Eloundou）强调：“随着我们不断追求超级智能模型的发展，这些模型将逐渐成为我们社会不可或缺的一部分。因此，让人们有机会直接提供意见至关重要。”

例如，为了确保只有人类才能参与投票和提供意见，OpenAI 还考虑与 Worldcoin 进行合作。Worldcoin 是 OpenAI 首席执行官萨姆・阿尔特曼（Sam Altman）创建的一个加密货币项目，它提供了一种有效区分人类和人工智能机器人的方法。

自 2022 年底推出 ChatGPT 以来，OpenAI 凭借其生成式人工智能技术吸引了公众的广泛关注。这种技术能够利用简单的提示生成文本，使 ChatGPT 成为有史以来增长最快的应用程序之一。

然而，人工智能技术的快速发展也引发了人们的担忧。特别是其创造“深度伪造”图片和其他错误信息的能力，让人们在即将到来的 2024 年美国大选前夕感到不安。批评人士指出，像 ChatGPT 这样的人工智能系统由于其输入数据的影响而具有固有的偏见，用户已经发现了一些人工智能软件输出中存在种族主义或性别歧视的例子。

在最新的博客文章中，OpenAI 回顾了资助受助者的工作成果，包括视频聊天界面、人工智能模型众包审计平台以及“将信念映射到可用于微调模型行为的维度的方法”。同时，他们还公开了所有受助者工作中使用的代码以及每个提案的简要摘要。

尽管 OpenAI 试图将该项目描述为与其商业利益无关，但考虑到其首席执行官阿尔特曼对欧盟人工智能监管的批评态度，这一说法似乎有些难以令人信服。阿尔特曼以及 OpenAI 总裁格雷格・布罗克曼（Greg Brockman）和首席科学家伊利亚・苏茨凯弗（Ilya Sutskever）一再强调，人工智能的创新速度非常快，以至于我们无法指望现有的权威机构能够充分控制这项技术。因此，他们提出了将这项工作众包的解决方案。

来源：网易科技作者：小小

17 1 月 2024

“AI女友”霸占GPT商店，OpenAI苦不堪言：开发者也难出头！

AI 女友成了香饽饽，
OpenAI 管店不容易

上周，OpenAI 推出了 GPT 商店，用户可以浏览和下载由创作者们精心打造的 ChatGPT 定制版本。然而，短短几天内，商店的宁静就被打破了。爱好者们的热情催生出一波意想不到的浪潮：“AI 女友”迅速占领了商店，挑战着 OpenAI 的规定。

在 GPT 商店中搜索“女友”，网站的结果栏中将显示至少八个“AI 女友”聊天机器人，包括“韩国女友”、“虚拟甜心”、“你的女朋友斯嘉丽”、“你的 AI 女友 Tsu”等。

如果选择了其中一个，比如“虚拟甜心”，用户点击后将收到诸如“你的梦想女孩是什么样子？”、“与我分享你最黑暗的秘密”之类的提示语。

OpenAI 深知潜在的滥用问题，并在 GPT 商店上线当天更新了其使用政策。这些政策明确禁止 GPT 参与浪漫互动：“我们…… 不允许 GPT 用于培养浪漫伴侣关系或从事受监管活动。”在同一段话中，OpenAI 指出，名称中包含脏话或描绘或宣扬图形暴力的 GPT 也是不允许的。但第二天就出现的政策违规情况表明，审核可能非常困难。

说来也巧，交朋友、找女友、当陪伴的智能聊天机器人，在美国还真挺吃香。据某数据公司统计，2023 年美国人从苹果或谷歌商店下载的前 30 个聊天机器人热门应用中，足足有 7 个是跟这相关的。

“AI 女友”也让 OpenAI 意识到，管住这些 GPT 可真是个不小的挑战。虽然他们有规定，违规了就警告、限制、踢出商店、断财路，可这些规则跟现实的碰撞，还真是火花四溅。这些卖商家随后就换了关键词，把“女友”换成了“甜心”，搜索出来的选项就多了不少。

看来，OpenAI 又得抓耳挠腮了。监管这些人工智能聊天机器人，是一场持久战！

从技术角度来看，创建这些定制 GPT 非常容易，几乎所有人都可以参与。使用 OpenAI 的 GPT Builder，创作者只需用简单语言描述他们希望 GPT 拥有的功能，该工具就会尝试根据这些规范创建一个 AI 聊天机器人。这种易于创作的特点自发布以来就备受关注，使得 GPT 的开发和分享变得非常迅速。

但它也有坏的一面，比如这些 GPT 的审核机制还不完善，可能导致意想不到的、令人不快的行为。上线到现在，抄袭现象也非常严重，抄袭者可以使用同样的名称、工作原理甚至图标，社交平台上用户对此怨声载道。

17 1 月 2024

AI开始尝试预测死亡

一串由人类创造的代码正在尝试帮人类”算命”，死亡似乎不再是无法预测的事情了。近期，丹麦科技大学的研究团队声称设计出一款人工智能死亡预测器。

研究人员表示，这款名为“Life2vec”的模型可以通过强大的机器学习算法，分析构成个人生命的事件序列，预测包括寿命、疾病风险、未来收入等各种重大生活事件。从研究结果看起来，预测器颇具成效。

报告显示，该模型预测死亡的准确率高达78%，比当下其他AI模型或者保险公司使用的方法高了11%。高度具体的数据是其成功预测的关键。论文第一作者苏恩·莱曼表示，他们使用了丹麦国家登记处的数据，收集了600万人的十年日常生活记录，具体包括教育、健康、收入和职业等生活方面的信息。该模型使用了2008年1月1日至2015年12月31日期间，从35岁到65岁年龄段内230余万人的数据进行训练。

作者莱曼向媒体解释称，选择这一群体是因为该年龄段的死亡率更难以预测。为了让“Life2vec”理解这些数据，团队把人类生活的每一部分都编成了一串代码。

例如，S52表示前臂骨折，POS3513表示这个人是计算机系统技术人员。研究团队把个人生活事件当成句子中的单词，然后再根据时间顺序，绘制出详细的“个人生活序列”。“我们使用ChatGPT背后的技术来分析人的寿命，方法是将每个人生活中发生的事件表示为序列。”作者莱曼表示，“就像语言一样，生活事件发生的顺序非常重要。”与ChatGPT的原理类似，“Life2vec”也是通过大量数据来推断未来可能发生的事情。

例如，你问它“我会在四年内死亡吗？”，它会查看你过去的生活事件，包括你如何思考、感觉和行为，以及可能影响生存的遗传或环境等其他因素，然后根据统计模型为不同场景分配概率，预估出未来事件或死亡风险。为了测试“Life2vec”的效果，研究人员让模型对随机挑选的匿名人士的死亡时间进行预测。

团队选择了一组10万人的数据，其中一半人在2016年后的四年内死亡，一半人存活，然后让算法对这个人能否活过2020年进行判断。令人惊奇的是，模型预测准确率达到了78%。“Life2vec”模型能够实现对死亡的预测，一方面得益于强大的数据支持，另一方面则是因为大模型算法已经进化到可以捕获大量非结构化单词序列。

“该模型通过借助于注意力机制模型的能力，挖掘出了序列中的隐藏的深层特征，更容易拟合预测目标。这在除开语言的其他场景中拥有很好的潜力。”百图生科AI算法负责人王太峰接受界面新闻记者采访时表示。过去大模型主要被应用在自然语言以及图像处理等科学领域，而较少被应用于泛科学等社会经济领域。“科学与泛社会科学领域（包括语言学）的主要区别在于，科学领域存在客观规律。

这意味着大模型可以从这些规律出发，而不仅仅依赖于数据本身。”深势科技的研究人员进一步对界面新闻解释说，“但人类生命是一个复杂的系统，AI在生命科学领域的进步，需要该领域专家把这些问题拆解成AI可以有效解决的具体问题。”除了预测死亡，这款模型还具有一定通用性，能够预测出性格特征、幸福程度、职业成果等更为主观的人类细节。举例来说，它可以根据人们过往的工作经历来预测职业成果，告诉人们是否会更换工作或提前退休。 “Life2vec”的更大价值在于提供信息和指导。

比如未来它可以综合考虑生活方式、遗传基因、收入程度等多方面因素，在健康风险预测、个性化诊疗方案制作等方面提供更为科学准确的分析。当然，“Life2vec”仍存在许多缺陷和风险，首当其冲的便是数据安全问题。由于模型需要获取大量收入、疾病史等个人数据，一旦用人单位或者保险公司知道了个人存在的疾病风险，极有可能会影响就业或参保。其次，预测结果的可靠性也无法完全保证。

一位头部大模型企业的产品专家向记者解释称，模型预测结果会受到数据质量、模型参数、模型假设等诸多因素的影响，有不确定风险。同时，人们是否想要知道自己能活多久也没有定论。对于大多数普通人来说，预知死亡或许意味着更大的恐慌，接下来的生活很可能在长期笼罩的焦虑中度过。

为保护用来训练的丹麦公民的个人隐私信息，该AI模型并未对公众和保险公司开放。作者莱曼对CNN表示，在目前的状态下，Life2vec还没有准备好执行任何“现实世界的任务”。同时鉴于经济与社会的差异，关于该模型能否应用于其他国家仍不清楚。

17 1 月 2024

数百家初创公司，没撑过AI爆发式增长的2023年

以下文章来源于智能涌现，作者王怡宁

自ChatGPT掀起全球AI创业浪潮以来，一年多时间过去了。2023年的AI初创公司，都活得怎么样了？据PitchBook，2023年美国投资者向创业公司注入了1706亿美元，较前一年下降了30%。但值得注意的是——人工智能初创企业拿走了三分之一的蛋糕。其中，仅仅是OpenAI和Anthroric两家，就占据了交易总额的10%。投资机构Next Round Capital创始人Ken Smythe更是直接表示：

现在但凡是名字里带有AI的初创公司都有很高溢价。

在这股浪潮之下，OpenAI、Anthropic、Midjourney等明星AI初创估值狂奔。除了大厂外，中小创业团队和独立开发者们也纷纷涌入AI领域，聚焦细分市场应用的小型AI产品层出不穷。创业者希望抓住这波AI机遇，打造出具有影响力和价值的产品。不过，一边是热火朝天的创业，一边是悄无声息的沉寂，大多数水下AI创业项目都可能难逃失败的命运。2023年，依旧见证了数百家AI初创企业的消亡。

瞬间滑落的昨日明星，曾估值15亿美元提到落寞的AI初创公司，Jasper必然是其中之一。一年前，Jasper还是AI领域前途无量的明星公司，但就在今年，Jasper却是从起高楼宴宾客，再到迅速沉寂。

缺乏技术竞争力，是主要原因。当OpenAI从Jasper的技术提供商，转变为自己下场参加比赛的运动员，那些高度依赖OpenAI的所谓“创新”公司们的失败快得出人意料。Jasper的成功，离不开天时地利人和。2020年，Dave Rogenmoser因为第二次创业获得了知名创业孵化器Y Combinator的投资，率先拿到GPT-3的内测资格，结合自己擅长的营销领域，他带着团队开发出了更用户友好的Jasper。在大模型还未掀起全球浪潮时，Jasper乘着AI的风口起飞。截至2022年底，Jasper估值一度高达15亿美元，拥有100万用户和7万付费用户，公司年营收也预计达到7500万美元左右。面对外界对公司是否有护城河的猜测和质疑，当时意气风发的Dave在采访中自信表示：

即使日后OpenAI推出新一代模型，Jasper依然会是发令枪响后跑得最快的选手。

但事与愿违，他等来的却是半年后流量下滑一半，不得不在7月宣布裁员的事实。在社交媒体X上，Jasper的官方账户直到去年11月中旬，还在发布新的帖子，强调自己在品牌营销领域的优势。但只有寥寥无几的互动数据，和一条付费用户指责它们欺骗并试图维权的评论。随后，这家昔日明星创业公司在X上的更新停留在了11月29日。

因为和OpenAI正面竞争导致业务遭受重创的还有Deepgram，一家专注于语音识别和语音文字转录的AI初创公司。巅峰时期，Deepgram估值达到2.67亿美元，拥有Madrona Venture Group、Tiger Global Management和Y Combinator等投资机构加持。但在OpenAI推出价格更低的开源语音识别软件Whisper后，元气大伤的Deepgram也在去年两次宣布裁员。当然，像这样的例子在ChatGPT快速更新迭代的一年里不胜枚举。The informantion更是在最近一次OpenAI的开发者大会以后，将ChatGPT的更新对其他AI初创企业的影响称作“灭绝事件”（Extinction Event）。虽然Jasper的现状令人唏嘘，但作为初创企业，它的成功仍有可学习之处。

作为创始人，Dave虽然没有技术背景，但优势在于能在技术发展早期识别可落地的细分赛道，快速规模化。在创立Jasper之前，Dave的两次创业都与营销相关。第一次，做营销领域的知识付费；第二次，他开发了能够实时显示他人下单商品的营销插件。过往积累的经验，帮Dave找到了AI写营销文案这一赛道，形成了Jasper早期的差异化竞争优势，这点值得后来者学习。

消失在2023的AI初创当然，Jasper的失败并不是个例。有时候，即使没有来自竞争者的打击，初创公司也不一定能熬过亏损期，另一家独角兽Argo AI就是这么消失的。

2022年底，烧光了36亿美元融资后，智能驾驶初创公司Argo AI宣告破产。不同于小打小闹的创业，Argo AI背后站着的，是财力雄厚的福特汽车和大众汽车，但他们还是养不起如此体量的吞金兽，纷纷表示要更专注于能够在短期内产生回报的业务。

除了媒体们争相关注的明星公司们，更多小公司甚至来不及泛起一些水波，就消失在大公司们随手掀起的一个浪花里了，好在有个网站为他们树了赛博墓碑。智能涌现发现，国外有一个叫“Dang！”的网站开设了AI Graveyard（AI坟墓）板块，记录上百个目前已经停止运营的AI项目，其中不乏一些有趣的创业项目。

AI搭讪语生成器

当很多用户使用Tinder这类聊天约会软件时，经常会遇到的一个困难是：第一句话说什么更容易被回复？尤其是刷到心动对象以后，一句平淡无聊的开场白很有可能迅速被淹没在对方的聊天框里，将一段潜在的浪漫关系扼杀在摇篮中，AI Pickup Lines就希望帮用户解决这个问题。

根据设定，用户可以选择一个特定的主题和风格，比如萌宠、音乐、旅行甚至是诗歌，AI Pickup Lines会依照用户的要求生成无限的搭讪语，让用户不必为想出一句合适的问候而抓耳挠腮。当然，想要让AI帮你提升魅力，也得花点钱。AI Pickup Lines提供不同的订阅方案，每个用户每天有十条免费额度，如果用户想要每天生成无限条内容，可以选择9.99美元/月或99.99美元/年的订阅服务。而如果是AI Pickup Lines的超级用户，还可以选择499.99美元买下超过10万条搭讪语的整个数据库。失败原因：虽然AI Pickup Lines的创意点选得不错，但本质上它还是一个套壳大模型的产品，所谓的包含10万条搭讪语聊的数据库，在质量和数量上甚至不一定能比得过ChatGPT，想要说服用户单独为它付费实在不容易。

PromptBox提示词管理器

最早的一批AI工具用户大概都体会过写出一条好的提示词的折磨，有时候让AI能够准确理解你的意思并按照你的要求生成内容就已经能难倒一批用户了。PromptBox作为一个用户友好的免费第三方工具，就简化了AI提示词的管理，提供了一个简单的过程来有效地保存、组织、复制和粘贴AI提示词。比如，对于一些常用的提示词，用户就可以右键单击提示，然后选择“ Save to Promptbox”进行安全存储。失败原因：各家模型都在“卷”操作方式的用户友好程度，很多提示词现在可以用自然语言就写，PromptBox不幸成为时代的眼泪。

Photofix照片修复器

不少人可能都遇到过的一个难题是，好不容易有个假期出门旅游，没想到景点里是人人人人从众的景象，终于挤到标志性建筑物前拍照留念，回来一看背景里竟然还有三个路人。Photofix就旨在帮助用户轻松地去除照片中的杂物和多余的人，从此不用再上网求助PS大神P掉路人了。

除了以上功能，Photofix还能提升照片的分辨率，以及文生图功能，用户可以生成《绝命毒师》、吉卜力和写实三种风格的图片。根据任务的复杂程度，平台提供了每张图0.39-5.99美元的价格选择。如果用户想要商用，比如编辑产品图，价格则在0.49-9.99美元之间。失败原因：Photofix虽然在实用性上比AI Pickup Lines好了不少，但和上一个项目类似的是，不管是照片编辑还是文生图的功能，头部模型如Midjourney、Imagen2、Runway等都能提供更多更好的选择，何况价格也没有贵多少。

iQuit一键生成辞职信

当一个打工人下定决心决定辞职时，大概连多花一分钟构思辞职信都觉得麻烦，于是就有开发者贴心上线了这款AI一键生成辞职信的应用——iQuit。

iQuit可以根据用户输入内容生成个性化的辞职信，如用户的直属领导、离职原因、日期和语气等，确保信件适合每个人的具体情况，为打工人们节省了宝贵的离职时间。在付费方案上，每个用户注册后都可以获得两个积分用户免费试用，后续需要再购买积分来付费生成内容。不过，iQuit并没有提供清晰的定价模型，所以用户需要直接与开发团队联系获取定价信息。

失败原因：一键生成辞职信是一个非常有趣的点子，但对于一个创业项目而言，iQuit选择了一个和通用大模型功能太过垂直的赛道——毕竟，这个工作交给ChatGPT也能做的很好。另外，写辞职信是一个低频行为，想要在这部分用户中找到一小群付费用户，并且支撑起项目长期存活更加困难。

寒气中求生：重视现金流，做好“小”生意

失败的公司让我们看到，即使站在了AI的风口上，也不一定能“飞起来”，甚至还有可能因为各种各样的错误坠入深渊。当然，除了从失败者身上汲取教训，大多数人可能更关心的问题是：什么样的AI初创企业在今天能够成功？捂紧钱袋子，守好现金流
从数据来看，2023年是当之无愧的AI之年，AI行业拿到了巨量的资金。据Statista统计，2023年前三季度，全球范围内人工智能初创公司的融资笔数分别达到574、614和501笔，融资金额分别为152亿、94亿和83亿美元。

尽管今年AI赛道的投资如火如荼，但我们不能因此忽略的一个事实是：无论是在国内还是硅谷，多数投资机构都经历了一个“寒冷”的2023年。PitchBook的数据显示，美国风险投资公司在2023年筹集了670亿美元，同比下降60% ，为6年来的最低水平。资本侧的寒意很快也会蔓延到初创企业一端。据The information的“创造者经济数据库”（Creator Economy Database）最新数据，在数据库覆盖的350多家全球创业公司中，2023年募得资金量继续螺旋式下降，同比下降近58% ，至约17亿美元。其中人工智能初创企业在融资份额中占比最大，超3.24亿美元。仅对美国初创企业的投资同比下降62% ，至10.3亿美元。

国内的数据呈现相似的走势。根据IT桔子数据，截止到当年11月20日， 2023年中国人工智能赛道在一级市场的总融资事件数有530起，与去年同期相比减少26%；总融资交易额估算有631亿元，与去年同期相比下降38%。

在这样的市场环境下，“马太效应”进一步加剧。资金们挤着排队去找本来就不缺钱的头部明星企业，但大部分普通AI初创企业的境遇则非常窘迫。这也意味着，对于大部分AI初创企业企业而言，在创业初期就要重视现金流这个生死攸关的指标。就像前面提到案例一样，Dave之所以能在Jasper的创业初期成功，是因为第二次创业失败赔本的经历给了他一个狠狠的教训，让他在开始做Jasper时就明确了赚钱这个首要目标。不做亏本的生意才能让自己和公司活下去，这是很多在AI行业试图依靠烧钱闯出一条路的投资者们最需要补上的一课。对于独立创业者和小团队而言，不要过度依赖外部资金，从打造一些微型的Saas应用出发，实现每月较为稳定的现金流，并用这些资金继续迭代优化或开发新的产品，是一种更健康且可持续的运营模式。

关注垂直赛道回应真实需求

另一种常见的创业失败方式在AI的热潮中再次反复上演：拿着锤子找钉子。

创业者想让AI把所有行业重塑一遍，但没有考虑过真实场景中用户的需求。就像Jasper一度能够成功的原因，是创始人Dave早就在广告营销领域积累了多年经验，一直在一线和客户打交道，也知道他们真实的需求，才能做出广告主们愿意为之买单的产品。在今年7月一篇引发硅谷AI圈内讨论的长文中，AI创业者Sam Hogan也总结到，专注于垂直细分领域，真正让人工智能革命性提高行业生产力的初创公司才更值得期待。

在他预测的这类公司中，有已经成功的Runway，也有最近才完成新一轮融资的Harvey，后者致力于用AI帮助法律从业者完成一些费时费力的标准化工作。这些初创公司的共同特点是，选择了一个需要强know-how的垂直行业。比如，Runway专注设计领域、Harvey专注法律行业——法律行业流程漫长，律师的工作流程繁杂，并且核心数据大部分也都不对外公开，这会成为初创公司发挥力量的好赛道。

小而美的团队

观察不少今年涌现出的AI初创公司，共同的特点是团队构成非常精简。比如欧洲开源模型公司Mistral AI团队仅有20人左右，估值已达20亿。还有刚刚爆红的文生视频公司Pika，公司也仅有4名正式员工。相对于财大气粗的科技公司如Google、苹果和微软，或是国内的阿里、字节、腾讯，初创公司无法负担也不需要那么多员工，在创业初期保持一个小而美的核心团队，不仅能让内部沟通更加顺畅，任务执行效率更高，还能保持成员们对一线业务的敏感度，更及时地回应业务需求。

17 1 月 2024

“红衣大炮”周鸿祎：AI发展的十大趋势

AI发展十大趋势：

一、大模型无处不在，成为数字系统的标配。

二、开源大模型将会爆发。

三、小模型会涌现，运行在更多终端。

四、大模型企业级市场崛起，向产业化、垂直化方向发展。

五、Agent智能体激发大模型智能，成为超级生产力工具。

六、2024年成为大模型应用场景之年，ToC出现杀手级应用。

七、2024年多模态会成为大模型标配。

八、文生图、文生视频等AIGC功能实现突破性增长。

九、具身智能赋能人形机器人产业蓬勃发展。

十、大模型将推动基础科学取得突破。

近日，360创始人周鸿祎在主题为“挺住才有出路“的一场演讲中，分享了以上对人工智能大模型的十大趋势判断和相关看法。

周鸿祎是中国互联网安全企业360集团创始人兼CEO，知名投资人、知名创业导师。其创立的360是最早布局大模型的国产厂商之一，“360智脑”也是国内首个原生安全大模型。

以下是整理的精华内容，分享给大家：

美国投资界把人工智能大模型看成是80年的PC，1995年的互联网，看成是工业革命的机会。而且他们还觉得，一旦美国在人工智能上形成了优势，对其他国家和全球竞争来说就属于降维打击。日本有失去的30年的原因在于，明确错过了电脑和互联网两大机会。而美国在电脑和互联网上成功实现了自己的升级。不管是创业者还是普通人，人工智能都能我们能碰到的最大机会。工业革命让所有行业都实现了洗牌，比如互联网对汽车工业的洗牌，特斯拉的出现改变了人们对于买车的想法。

人工智能会带来洗牌的机会

人工智能不仅是规模最大，也是速度最快的工业革命。如果这个世界亘古不变，那确实对大家来说没有什么机会。所以我觉得人工智能会带来洗牌的机会。

希望大家关注人工智能在2023年最大的突破，就是大语言模型实现了真正的人工智能，来到通用人工智能的拐点，而且在奔着强人工智能的方向，在飞快地一路狂奔，而且技术发展遥遥领先。大模型可能对我们国家，对我们的产业，对在座的各位来说，对创业者来说，可能都意味着不同的机会。

我讲一讲大模型的10个趋势。

趋势一：大模型无处不在，成为数字系统的标配。

我不认为大模型是操作系统。全世界的手机操作系统就鸿蒙、iOS、安卓三款，大模型更像当年的PC一样，未来会无处不在，成为整个企业数字化、政府数字化的标配。当年超级计算机的创造者说过一个断言，说计算机这东西，全世界就需要5台。

结果现实无情地打了他们的脸。今天有多少台电脑？在座的诸位家里至少摆着一台电脑，办公室一台笔记本，你们兜里还揣着一台电脑，因为你们的手机也是。所以大模型不会被垄断，不会说全中国人民、全世界人民都用一个公司的大模型。我认为大模型会无处不在。

趋势二：开源大模型将会爆发。

最早的大模型是闭源的，闭源刚出来的时候，我们一看OpenAI做的东西，感觉这就是「曼哈顿计划」，美国人把原子弹造出来了。后来发现，人家一开源，科技就进步，所以要感谢开源。现在国内也有很多开源的模型，就是基于国际开源的模型。所以开源大爆发之后，大模型就瞬间从原子弹变成白菜了。今年年初有人创业想搞原子弹，那到年尾，就发现自己做的是茶叶蛋的生意。

未来的矛盾不再是大模型本身怎么样，而是谁能够利用大模型结合自己的业务和场景，能够把它训练出自己所需的专属功能。

趋势三：小模型会涌现，运行在更多终端

有大必有小，阴阳是两个方面，一方面现在很多公司在思考，如何把模型进一步做大，从千亿的参数做到万亿的参数。但现在出来一个趋势：把模型做小，在十几亿、几十亿或者不超过100亿的模型上，效果也能差不多。

模型做小有两个前提，一个是模型做专业。模型什么都要会，那确实要很庞大，但如果这个模型就是写点东西，或者做点翻译，那专业的模型可以做小。做小还有一个好处，就是可以运行在更多的终端。像高通去年推的CPU，还有苹果推的CPU，都已经意味着在手机、Pad、电脑上，这种小参数的大模型已经可以跑起来。

2024年大模型一定会上车。因为车上有了大模型之后，车里那个对话助理才不会表现得像白痴一样，真正帮你解决很多问题。

趋势四：大模型企业级市场崛起，向产业化、垂直化方向发展。

大模型企业级市场在2024年会起来。虽然大家天天都在秀自己大模型的成绩，说你看我的会脑筋急转弯，我的会解小学奥数题，我的会写藏头诗，但玩多了发现跟业务毫无关系。2024年中国的toB业务，企业级市场会起来。大模型要走深度化、产业化、垂直化、深度定制的方向。

趋势五：Agent智能体激发大模型智能，成为超级生产力工具。

结合“智能体架构“，大模型长出手脚。第五个稍微偏点技术，OpenAI最近也在弥补，刚有了大模型的时候，大家觉得聊天机器人确实人机界面很简单，但做久了就发现，聊天机器人不太解决问题，仅仅是陪你聊天，最多就是一个PUA能手。

所以在2024年，一个新的概念叫「智能体架构」。英文叫Agent框架。大家要关注Agent，叫智能体概念。没有Agent框架，大语言模型几乎不能投入实用。

所以今年无论在做toC的业务，在做企业级的应用，大模型一定要结合智能体框架，才能真正让大模型长出手脚，让大模型真正跟你的业务系统，跟整个互联网充分打通。

趋势六：2024年成为大模型应用场景之年，ToC出现杀手级应用。

很多人都在问，在消费者端，大模型到底有啥杀手型的应用？中国会产生什么杀手级应用，我还不知道，但是2024年一定会出来。美国有三家公司很有意思，一家叫微软，一家叫Adobe，还有一家叫Salesforce，他们没有用大模型做任何新的东西，而都是把大模型跟已有的产品和场景做了一个充分的结合，就焕发了新生。

比如微软选择了Office、Bing和Edge浏览器；Adobe选择的是它擅长的图形编辑、视频编辑。所以我觉得大模型出来之后，在To C领域意味着，我们今天的搜索、浏览器、信息流、短视频、微博、问答，甚至我们的社交可能都会用大模型来重塑一遍。至于是战术性重塑还是战略性重塑，就看各家的做法，所以2024年一定会出来这种杀手级的应用。

趋势七：2024年多模态会成为大模型标配。

第七个预言，大模型在去年主要讲的是文字能力，写稿的能力。2024年，以Gemini和OpenAI的GPT-4V版本为代表，多模态会成为未来的标准。多模态不仅能听会说，关键是它能看得懂视频，能看得懂图片。

趋势八：文生图、文生视频等AIGC功能实现突破性增长。

在大模型的支持下，AIGC会有突破性的增长。去年年初Midjourney画一张图，一看就是AI画的，经常把人画成6根手指。再到年底来看，计算机生图已经和摄影师的作品不相上下了。年初AI产生视频的能力，几乎都是动图、表情符号的能力，年底有的已经做得像好莱坞动画片了，所以这个进展特别快速。

趋势九：大模型拯救机器人行业。

大模型拯救了机器人行业。在大模型出来之前，传统的人形机器人是典型的智障产业——做得像人，但是能力极其低下，因为它不具备对这个世界知识的了解。但是有了大模型之后，机器人的产业获得了一个革命性的发展。这两天热炒的一个机器人，可以自动煎蛋，自动做家务，自动整理衣服，这完全有赖于大模型的加持。

趋势十：大模型将推动基础科学取得突破

为什么中国一定要做大模型？大模型不仅仅是语言工具，也不仅仅是聊天机器，大模型也不仅仅能在我们很多业务中发挥作用，其实大模型可能成为人类有史以来发明的最伟大的工具，成为很多科学家的工具。我们今天之所以能享受互联网，享受很多新能源，是因为前100年这个世界的物理学家取得了关键性的突破。

但在最近五六十年，人类在科技上已经很久没有突破，所以如果大模型能够成为科学家的工具，比如在美国，很多生物学家已经开始用大模型来帮助他们研究蛋白质的结构，研究分析基因。

所以我希望2024年，大模型能够推动基础科学取得突破，变成我们科技发展的利器。企业家要有AI信仰，抓住机会All in AI简单的建议是，你要有AI信仰，就是你要believe something，你要相信。

AI信仰怎么判断呢？很简单，我提了几个标准。

第一，在座的诸位可以回去扪心自问，你相不相信这次大模型是真的人工智能的拐点，还是不相信，认为是假的人工智能。

第二点，你相不相信它现在的发展速度会以指数级别发展；你相不相信它未来智力的发展速度会迅速超过我们人类；你相不相信它会是一场工业革命，在3-5年里，它会重塑我们每一位所在的行业，会重构我们的产品、业务链条和内部管理流程。

最后，除了重塑包括我们所有的产品和业务之外，还有你相不相信，你不会被大模型淘汰，但你会被那些用大模型的公司淘汰。

没有AI信仰的人看大模型，容易看不起，看不起是因为看不清，是因为心态的问题。因为看不起，所以也不愿意放下身段去琢磨，所以就看不懂，等到哪一天他们醒悟过来，已经看不见了，人家遥遥领先了。

第二个建议，就是要All in AI。什么叫All in AI呢？

真正的All in AI是你在公司里面，把信仰落实到行动中，在你的公司里让AI无孔不入。

比如说从上到下，组织里面从老板到你的中层干部，到你的员工，是否都在学习和使用AI？

还有我们有哪些业务流程可以被AI塑造？比如市场部是不是在用AI去做图？程序员是不是用AI编代码？HR是不是在用AI梳理简历？就是从小处着手，到公司内部。

还有要把产品重新思考一下，敢不敢做自我革命的事情，所谓”要想成功必先自宫”。你能不能把你的产品用AI去想，能够加持什么功能？

所以我觉得这是未来最大的一个机会。科技公司微软和Adobe，All in AI把已有产业用人工智能重做了一遍，都取得了很好的成绩。未来3-5年，如果不能用AI变成自己的武器，那么你的对手会对你造成降维打击。同样，AI虽然不会让你失业，但是会用AI的同事，会让不会用AI的同事失业。AI绝对是业务驱动的，只有在你公司从上到下、从内到外，让大家都对AI感兴趣，让业务专家都了解AI是怎么回事，我认为你才可能在未来这3-5年时间里，用AI来帮助你实现转型。

（来源：360创始人周鸿祎“挺住才有出路“的演讲）

17 1 月 2024

环球AI现状：世界并不总是平的

“人工智能领域的泡沫，总是在不断产生又破灭中循环。”梅拉妮·马歇尔在著作《AI3.0》中，这样描述人工智能领域5到10年的周期循环。2016年，击败围棋世界冠军李世石后，AlphaGo短暂掀起人脸识别、自动驾驶等人工智能浪潮。2023年，ChatGPT的横空出世让大模型成为AI界当之无愧的“顶流”。

泡沫破灭，资本冷静后，不理智的潮水终于褪去。如今，AI界鲜少再重谈人脸识别，自动驾驶难以落地，而在国内，大模型也从当红炸子鸡慢慢成为投资人投不起的领域。研究人工智能的群体已经熟悉了这一模式：在“人工智能的春天”，投资机构过度承诺，媒体过度炒作，紧接着便会迎来“人工智能”的寒冬。环球并不同此凉热。在美国，VC圈对人工智能投资热情不减。而在积极拥抱AI的东南亚，中美正在进行AI技术与投资的角逐——2020到2021年，来自美国和中国的投资者，参与了267笔东南亚人工智能公司的投资交易，占总投资比重40%。

一个可喜的现象是，在东南亚，科大讯飞、华为、海康威视等中国科技公司与东南亚当地产生千丝万缕的联系，中国科技企业正成长为东南亚AI界的中流砥柱。曾经，普利策奖得主托马斯·弗里德曼在《世界是平的》中，说世界的竞技场已变得更加平坦，变平的世界让每个个体、区域都站在同一水平线下。环顾全球AI界，我们发现，世界并不总是平的。全球范围内，不同区域AI风向有何不同？

当AI企业走出国门，又会迎来哪些机遇挑战？ChatGPT为什么并不脱胎于腾讯、谷歌等数据集庞大的大厂？对于AI初创企业有什么启发和意义？

现在整个国内投资界几乎形成了一个共识，就是“大模型的投资热正在冷却”。

作为今年创投圈最火热的赛道，大模型曾炙手可热，无数科技大厂、AI创业公司掀起一股又一股的大模型浪潮。而今全球科技公司对大模型的竞争，正进入存量时代。根据IT桔子数据，截止到2023年11月底，国内人工智能赛道一级市场的总融资额有580起，比2022年减少了26%，总融资金额是630亿元，与去年同期也下降了38%。而在大洋彼岸，美国的大模型融资依旧如火如荼。

根据Crunchbase数据，去年VC阶段的投资有11%流向了人工智能赛道，截止到今年下半年，2023年的比例增长了26%，有26%的VC阶段的投资都流向了人工智能，美国投资界对大模型的参与热情不减反增。大洋东西，AI融资正面临不同境遇。这背后，不同融资环境差异到底是如何造成的？

首先，在美国，大模型已经达到了能够产生巨大经济效益的规模，并且在一定程度上影响了宏观经济。有研究发现，这一次自硅谷刮起的大模型之风，已经为美国的GDP贡献了一个百分点的增长。而在中国，虽然百模大战愈演愈烈，但大模型的变现之路仍处在摸索的初级阶段，而商业化问题一直是上几轮AI浪潮下，难以找到最佳solution的老难题。

其二，在中国尚未出现像OpenAI一样的应用层全栈式AI公司，能够从基层大模型、中间层一直做到应用层。而大模型这种极度依靠大算力暴力美学的领域，对于初创公司来说，太烧钱，门槛太高，堪称军备竞赛。大模型不能投，但应用层又没有特别多的公司出来，投资圈开始冷静思索，大家都处在观望状态。

华映资本海外合伙人邱谆认为，这背后体现了中美技术原创能力的不同。“硅谷还是一个以原创技术为核心的，为基座的驱动力，这还是很重要的，中国的优势在于优化，不一定是原创，就是人有我有，可能人有我优，再者规模化，上一波深度学习驱动的机器视觉，可以说是AI1.0，现在大语言模型算是AI2.0, 这两波浪潮国内目前的参与都还主要在优化和规模化方面。

”1997年从北京大学毕业后，邱谆就去美国学习人工智能，从南加州大学信息科学研究院毕业后，他加入了硅谷传奇科技公司——思科，前几年回国后加入了投过壁仞科技、星辰数据等AI领域知名公司的华映资本。他持续关注中美、东南亚等地的AI创投。时间倒回到千禧年，邱谆仍在硅谷深耕技术，那时正值AI寒冬，但整个硅谷还是在不断的积累，很耐心地等待下一个突破。

“但如果我们到大洋的另外一面，就会看到一般来说，是在等美国出现下一个突破之后，我们再去投入，去做优化和规模化的事情，所以它会有一定的延迟。”“这个突破前的积累过程其实可能是需要一些耐心的，在这个阶段过去之后，我们就真的到了互联网.com那一波，就是中间层的相当于一个接口能够出现的时候，这时候才到了应用层大量涌现的时候，在中国可能就会出现大量的像当年滴滴等一堆互联网公司，这个时候可能还是会需要一定时间，可能大家还需要一定的耐心。”

在中美之外，东南亚也成为中美大模型交锋的主战场。

在东南亚，AI还正方兴未艾，虽然落地步伐相对慢，但还是能看到希望。整个东南亚地区的国家，都在拥抱AI。中美两股AI旋风正在东南亚交汇。AI在东南亚并不算是新兴行业，在大模型浪潮之前，东南亚就因低廉的人力成本等因素聚焦了智能客服、人工标注等AI相关应用。

但在今年来到东南亚后，科大讯飞云平台事业群副总裁周传福明显的感受是：除了原来的这部分传统项目，现在更多地看到像政府部门、媒体行业、金融行业等都在更加热烈地讨论、拥抱AIGC、大模型等新技术。虽然目前东南亚使用最多的还是来自OpenAI等欧美AI公司的大模型，但在东南亚AI界，也不乏科大讯飞、华为、海康威视等中国科技公司的身影。

科大讯飞、阿里巴巴相继在东南亚推出大模型，东南亚国家队也加入大模型竞赛，新加坡政府投入5200万美元的资金支持AI多模态大模型开发计划(NMLP)。周传福说：“东南亚虽然是一个区域，但是打开来看，很多国家都有很大的不同。

新加坡是东南亚唯一一个发达国家，它的AI落地会更快一些，像教育等等部门或者行业都有很多的落地应用。相对来说，新加坡（AI落地）走得比较靠前，活跃度更高，但是像马来西亚、印尼、泰国等等国家也能深刻感觉到比原来更加热烈，当然整个落地步伐相对慢，但是还是能看到希望。我们也会长期坚持在这些地方深耕。”

而越南在人工智能的竞赛里也存在弯道超车的可能。摩根大通曾分析称，越南处于新兴东南亚人工智能发展的“前沿”。早在2021年1月26日，越南政府总理批准的《到2030年国家人工智能研究、开发和应用战略》中，就明确了将人工智能发展成为支柱工业产业。

而英伟达CEO黄仁勋也再次押注越南AI，2023年12月，英伟达CEO黄仁勋会见越南政府总理范明政，并承诺将在越南建立半导体基地，将越南打造成为英伟达的第二故乡。

东南亚已成为科大讯飞海外业务的第一站和战略中心。2023年6月，科大讯飞携星火认知大模型与C端智能硬件，在新加坡举办产品发布会暨讯飞AI TechDay·新加坡站活动。

“因为科大讯飞一直以相对底层技术的创新、研究为主，所以如果把这些技术用在更多的场景、更多的设备单靠科大讯飞自己其实不行。所以整个开发者生态方面花了很大的力气。”周传福说，在东南亚的开发者生态方面，科大讯飞搭建了以新加坡为中心的讯飞开放平台国际站。

“其实我很羡慕，羡慕的点在于C端酷炫的产品是很容易抓到消费者的，但是底层技术的可能讲两天人家都不知道你在做什么。所以整个生态方面就是把技术落地应用生态是我们长期布局，不是靠一年两年，至少3-5年才能把一个基础做好，这是目前整个状态。

当然在东南亚我们也看到了很多的突破。”他认为，在这些突破的背后，离不开技术创新和本地化。

东南亚历史文化背景复杂，移民的跨国流动使得东南亚形成不同方言体系的多族群社会，各个地区方言众多。比如印度尼西亚的官方语言主要在雅加达一带通用，但其他地方又有非常多的方言。

而要做语音识别和合成的核心技术创新，就要在提升通用能力之外，针对不同方言区域的口语场景去做提升。另外，识别合成大模型领域也是科大讯飞寻求突破的重要底层技术。本地化是出海中企必须要面对的一个挑战，而对于科大讯飞来说，这也是不得不做的事情。

因为科大讯飞要面对很多B端用户场景，其中并不存在捷径，他们已经做好了深扎两三年的准备，才能在当地把行业做熟做透。目前科大讯飞的东南亚团队规模还不是特别大，大概在二三十个人左右，native speaker大概占到40%左右。本地雇员的职务多是以商务拓展，市场等岗位。

核心技术方面，还是以国内总部以及在当地派驻的技术支持为主。在国内团队和本地团队协作过程中，文化差异带来的挑战不可小觑。周传福认为，这种情况下，要把自己放到当地的国家去考虑问题，“而不能说我中国怎么怎么样，外国怎么怎么样，这对我们来说其实是一个适应的过程，说起来很简单，但真正把自己的定位要放到当地的国家。”除此之外，所有大模型企业要想跑通，都要跨越数据和人才两座大山。

让我们回到开头的问题：ChatGPT为什么并不脱胎于腾讯、谷歌等数据集庞大、人才济济的大厂？腾讯和微软数据一定是大过OpenAI的，为什么OpenAI有GPT，腾讯、微软和谷歌都没有GPT？这是因为对数据的有效利用和搜集非常关键。对初创公司来说尤甚，特别是想真正成为一家AI公司，或者只是被AI赋能的公司。

邱谆认为，私有性未必是价值本身的源泉。“你要真正能够利用AI肯定要有数据，但私有数据未必都有价值。这个对于初创公司要有一定认知。”积累和收集数据，一定要考虑算法。比如搭建数据栈平台，但它的门槛其实很高，因此光是收集梳理数据的准入门槛就将很多人拦在外面。甚至于巨头公司的数据都未必全有用。提到大模型浪潮下的AI军备竞赛，卷算力或许重要，但核心的算法人才才是这轮竞赛最重要的资源。

对于初创公司，邱谆的建议是，从现在开始去物色一些大模型算法核心人才：“作为一个初创公司，可能今天就要去搜寻一些真正核心的人才，听上去好像有点遥远，但我觉得我这个建议很可能是会有用的。对于一些初创公司，如果你今天就开始，不管你做什么，甚至你只是做应用层，都一定要过数据这一关，但光有数据又没有用，最后很可能是要看你的算法，不管你是什么算法，可能不用碰到基座大模型，但即便你要做微调，甚至只是去调API，都会需要对训练算法的深度认知，最重要的军备其实是人才。”这也是因为，目前国内大模型人才储备资源紧缺。

医者AI CEO刘呈辉曾对媒体表示，“现在国内做基座类模型的人才90%都出自清华，国内真正会调模型、训练模型的甚至不超过200个人。”

而大模型抢人大战也让用人成本水涨船高，vivo副总裁周围接受媒体采访时曾表示:”vivo大模型现在每年20亿~30亿元的投入成本，总投入成本已经超过200亿元，人才和数据算力各占一半，人才成本平均每人税后100万元。

”在当下，寻找核心人才资源对于初创公司来说尤为关键。大模型让全球的AI竞赛进一步加速进行，如何在全球化中找准自己的位置，并发挥自身优势，是所有AI企业需要面对的新课题。

17 1 月 2024

对话智谱AI CEO 张鹏：让追赶OpenAI成为可能

以下文章来源于硅星GenAI ，作者油醋

1月16日，智谱AI发布新一代基座大模型GLM-4。GLM-4在基础能力上实现大幅升级，支持最高 128K 长文本，原生支持自动联网、图片生成、数据分析等复杂任务，并在多模态能力上有了长足进步。据智谱AI透露，在内部测评中，GLM-4在性能上逼近了GPT-4。GLM模型智能体和智能体中心也在GLM-4发布当天同步上线。此前，去年6月ChatGLM-2发布，去年10月ChatGLM-3发布，而去年3月GLM-4已经完成第一个版本。CEO 张鹏认为三到四个月完成一次基础模型迭代是正常的研发速度。

去年年初，这家中国最重要的基础模型公司定下了朝GPT-4追赶的目标，之后一年基础模型继续快速发展，Meta把持着开源生态，领头羊OpenAI拿出了GPT-4，谷歌带着Gemini姗姗来迟。基础模型的竞争者逐渐收敛到少数几家，而观察中国公司在其中的位置时，目前中国唯一估值超过百亿人民币的智谱AI或许是那个锚。在GLM-4发布之际，我们与智谱AI CEO 张鹏进行了一次独家对话。以下为对话实录：

对话人 | 骆轶航、朱正

什么最重要？模型，模型，还是模型

硅星人：我们先聊聊GLM-4本身。智谱AI对标GPT-4去做自己的升级和演进，这个整体思路是怎么样的，如何让追上GPT-4这件事看起来可行，并且可能还会有一些超预期的东西？

张鹏：首先肯定是模型能力方面差距的追赶，比如多模态能力，GPT-4在3月份发布的时候其实已经带来多模态能力了。我们判断对于AGI来说，多模态这件事情可能是必须要去解决的，所以这个能力你必须有。包括模型本身能力提升所带来的像CoT这样的高阶能力，它其实根植于你底层的基础模型的能力。第二件事是，有了大脑，需要眼睛和耳朵，手和脚——需要要把这些基础模型的能力辐射出去，跟外界系统产生更密切的交互，而不是简单的做文本和图像的输入输出。这个事情就偏向应用了。

硅星人：基础模型能力的辐射，这是关于Agent（智能体）的想法了。现在人们谈起Agent，正在陷入一个概念的陷阱里，智谱AI对于Agent的有什么自己的理解？

张鹏：Agent在人工智能或者说计算机科学史上是个“老概念”，有一套相对完整的解释体系。大模型下Agent找到了一个新的视角。但Agent的本源仍然是大模型的基础能力，大脑的智力水平足够高，才能去谈理解、推理、以及规划和执行这些事。智谱AI还是从技术角度的的定义和演进来理解Agent的。然后从大模型角度来看，Agent应该怎么去演化，怎么去提供这个能力。以及它跟需求语言之间应该如何相互翻译，找到通路去对应上。

硅星人：Agent和所谓的AI原生应用（AI Native App），这两者之间是什么关系？

张鹏：首先AI Native这个范畴还是太大，我们更愿意叫做大模型的原生应用。首先说大模型原生应用，它实际上是指的我们希望说从大模型的原生能力出发，去设计和开发的应用，我们期待它是一种新的东西，而不是说把原来的应用拿来做一个升级。这个是有的，比如ChatGPT，这个产品在工程化层面其实很简单，核心就是一个模型。而对于Agent，我们的理解始终是它是模型某种能力的外化，你可以把这种能力做成某种大模型原生应用。但Agent本身也会给应用的开发过程带来一些变化。当Agent能力被用在开发阶段，它又变成一个赋能原生应用开发的过程，Agent和大模型原生应用之间的逻辑应该是这样。

硅星人：就是可能大模型原生能力本身体现了Agent的能力，Agent某种程度上也在帮助大模型原生能力开发的自动化，这样一种关系。

张鹏：对。

做垂直领域最终是为了以后不做硅星人：智谱AI在垂直领域的商业化很早，给外界的感觉一直是比较 to B，GLM模型智能体会是一个跟GPTs很像的东西吗，还是不一样？

张鹏：商业化落地这件事还是围绕着我们模型价值本身。我们早期的模型能力不太够，那可能就需要去为了填补模型本身的能力和最终业务需求之间的gap，而去垂直领域多做一点事情。你不去做，你不知道客户在想什么，也就不知道你的技术最终帮助客户提升的用户价值到底有多少。这实际上是我们去寻找Best Practice（最佳实践）的一个过程。我们希望把这个路径蹚通，回过头来把这些东西沉淀下来之后赋能给生态。

硅星人：比如说RAG（Retrieval Augmented Generation，检索增强生成），智谱AI应该是国内最早把RAG用到垂直领域了的一个。

张鹏：算是比较早，因为LangChain整个开源项目里头就有我们。RAG是很典型的一个例子，就是从垂直领域沉淀出通用型的需求，以及一套方法。这套方法可以成为一种标准化的解决路径和产品。

硅星人：所以可以这么理解，我们做很多垂直领域的事，其实是为了反哺通用模型的基础能力提升。做的目的是为了以后不做。

张鹏：对。GLM模型智能体就是在探索一种更通用的路径。

传统互联网爆款产品经理不理解最新的AI技术

硅星人：智谱AI一直以技术能力见长，你怎么看现在智谱AI的产品能力，比方说我们能够支持多少个开发者在上面，怎么提供好的工具，甚至让开发者能得到更多曝光？

张鹏：如果我们现在真的进入到了大模型的应用半场的话，产品能力是大家都很关注的一件事。智谱AI之前也有自己的一些产品化的东西，其实用户量都还不错，我觉得产品能力应该来说还不算差，当然我们会持续的在这方面去加强。但是反过头来讲，你看ChatGPT，作为一个产品本身没有什么特别复杂的东西。所以——我个人感觉，因为我不是做产品出身——所谓产品力这个东西，在这个时代它变成了一种对需求的敏锐感知能力和对于新技术的领悟能力的兼顾，在这个基础上，考验的是如何揉合这两种能力，去产生一种新的产品表达形态的这样一种复合的能力。

硅星人：这跟移动互联网时期的小步快跑、快速迭代和敏捷开发这些东西可能是不一样了。

张鹏：这一套沉淀下来的产品开发逻辑还在，尤其是ToC。但为什么现在大家说要找一款所谓的Killer App这么难，好像所有的产品经理都没有头绪。我个人觉得其实矛盾在于，原来传统的互联网爆款的产品经理，他对于现在最新的技术没办法理解。真正懂技术的这些人，对于所谓的用户需求和产品需求又没法理解。

硅星人：那当一个基础模型开始面对开发者了，也就存在一个模型的技术和产品适配问题（technology product fit）。你们要如何跟开发者去讲，你能够做什么不能做什么？

张鹏：好像现在只能开发者自己去尝试，但在这之外，其实有一些本质的东西做产品的人可以在间隙思考一下。回到第一性原理，大模型本质上解决了什么样的问题，找到这个点，然后你把你所有需求写出来，然后你去找到这两者间的连线。比如我反问你，Chatgpt解决的是什么问题？你第一天用上，它就直接告诉你这是个不一样的东西，从来没有人想过这个问题——虽然他帮你解决了很多问题。

硅星人：所以ChatGPT解决了什么问题？

张鹏：我个人认为它最本质上解决的还是人机交互的问题。机器终于有一天能够比较像样的能听懂人说什么，然后说出来的话也让人能听懂。这个是个本质的问题，它弥合了人和机器之间的距离，这是他第一性要解决的问题。顺着这个思路，哪些场景可以被这件事情解决掉，很容易判断出自动客服这类的需求。这是大模型解决的第一件事。第二是大模型在经过大量语料数据训练之后，具备超越一般人积累的知识和数据量，能很好的去解答人们日常生活当中的问题。这件事本质上解决的是我们人类社会当中人与人之间的信息和知识传递的成本和范围问题。

硅星人：那些让人被迫为了一份工作要学习一堆无用知识的问题，或者说是知识的快速消化的处理的问题，现在都可以处理了。

张鹏：对，我有更低的成本，更大的范围去获取知识了。所以这个事情又可以cover掉教育、员工内部培训这些事情。所以如果按这种逻辑分析方式的话，其实还是能找出来一些大模型应用产品具体的方向的。

硅星人：那这样其实对做产品的人的要求是非常高的。过去互联网时期中国的产品经理群体里，设计师出身的人很多，做交互做UI的人很多。那时候美国的产品经理，一看全是MBA背景。那时我们会嘲笑这帮人做MBA的怎么做好产品，现在你发现还真得靠MBA去做产品经理。

张鹏：对，我特别赞同你这么说。这背后其实是大家在对于“一个产品需要满足什么需求”这件事的着眼点不一样。设计美术出身的产品经理居多，是因为我们认为移动互联网是一个注意力经济，我要做到的事情是抓用户的注意力，只要有人关注它、点开它，我的目的就达到了。因此整个产品、招的人也都会围绕这个目标构建。如果更在意的是整个互联网经背后的经济逻辑和价值逻辑，那就不会是这样。

生态好才是真的好，不要在摩擦中消耗力量硅星人：再度回到GLM模型发布的智能体，智谱AI希望给到开发者或者第三方怎样的一个开发环境。现在有两种方向，一种是往开发平台里边去堆各种各样的工具和能力，降低开发门槛，吸引更多人。另一种就是OpenAI这样只提供一个很简单的instruction，反正我有什么你都知道。

张鹏：我们比较接近OpenAI那种思路，首先还是强调基础模型本身的技术能力。模型能力足够强，你才有可能让大家真正用起来。在这个时间发布智能体，还是因为我们觉得我们模型的能力到了这个水平了，所以就开放给大家。至于工具是可以慢慢增加的。问题的根本并不在于说你工具多少，工具少的时候我能解决少的问题，工具多了能解决更多问题了。

硅星人：国外OpenAI已经通过ChatGPT走向大众了，国内一些入局大模型的大厂有自己的流量资源优势。目前智谱AI的姿态仍然是面向业界的，有没有想过转变成真正的面向公众的一个AI品牌，这个问题重要吗？

张鹏：首先这个事儿我认为还是挺重要的，我们有我们自己的理念和终极目标，但这个过程当中，作为一个创业公司要活得好，其实还是比较依赖一个良好的生态，生态这个事情就是需要去发声，需要跟大家去讲我们怎么想。做一场DevDay，做很多活动，一是希望大家多互动，也是希望把生态发展的理念传递给大家。大家好才是真的好，很多时候我们在摩擦中消耗了太多力量了。

硅星人：那再进一步，智谱AI有没有可能成为一个面向世界的，而不是仅仅是面向中国的AI公司?

张鹏：我们没有给自己设这个限制。智谱AI的目标是要做到全世界最好的水平，我们做的所有事情都是朝着这个大目标去的。

16 1 月 2024

中国人工智能发展的优势与差距

人工智能被视为第四次工业革命的一个标志，发达国家和众多的科技公司，纷纷投入巨资展开研发和布局，我国也在全力构筑人工智能发展的先发优势。党的二十大报告指出，要推动战略性新兴产业融合集群发展，构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。什么是人工智能？人工智能将如何改变我们的生活？如何在这场技术革命中抢占先机？

一、什么是人工智能
人工智能的发展历史只有六七十年。人工智能也叫人造智能，就是由人制造出来的模仿人的智能，一般通过机器人、计算机等载体表现出来。人工智能有两个重要概念：一个是通用人工智能或者叫强人工智能，如果这种智能系统的功能、能力和人一样，甚至超过人，就叫强人工智能系统；另一个是专用人工智能或者叫弱人工智能，如果这个智能系统只能干一件事，尽管可能比人厉害，那它也是弱人工智能。比如常见的刷脸识别、语音识别系统。

1956年，10位年轻的学者，其中许多是图灵奖和诺贝尔奖的获得者，在美国达特茅斯市搞了一个暑期研究所。在两个月的讨论中，他们针对人工智能应该干什么、怎么干进行了一番讨论，列出了人工智能领域需要研究的自动计算机、编程语言、神经网络、计算规模理论等问题，并形成了一个比较前沿的报告，这被公认为是对人工智能一个比较完整的描述，这一年也被称为人工智能元年。

从1956年到1976年，这20年是人工智能发展的第一个阶段，这一时期的人工智能主要是在模拟大脑工作。这种模拟不是信号级的模拟，而是在逻辑推理等更高层面上去模拟大脑。

这一阶段比较珍贵的一个成果是数学定理证明，也就是用计算机自动进行数学定理的证明。包括代数定理证明和几何定理证明，都是由两位华人（王浩、吴文俊）完成的。后来研究人员发现仅仅通过模拟人的大脑来实现人工智能这条路太难走。因为当时只完成了数学定理证明这件事，战胜国际象棋冠军、机器谱曲等其他目标都没完成。人工智能逐渐从高潮跌到低谷，学者们开始反思是不是人工智能走歪路了，是不是要做点实事。

学者们开始尝试研发对社会有影响力的系统，比如医疗诊断专家系统、故障诊断系统，可以代替医生、专家去做一些诊断。另外就是模拟神经系统来做专家系统，这在字符识别、文字识别领域比较有效。后来应用到机器自动识别、自动分拣系统，包括今天的语音识别，基本上都是走的神经网络这条技术路线。

这两条技术路线使第二次人工智能发展专家系统的这30年，开创了百花齐放的局面。不过专家系统的高光时刻并没有持续太久，因为专家系统虽然做了很多，演示时效果也不错，但真正上线去用的时候效果并不理想，于是热度开始下降，直到2006年引发人工智能领域轰动的3篇重量级文章的问世，人工智能才开始了突飞猛进的发展。

这一年，多伦多大学教授辛顿、纽约大学教授杨立昆、蒙特利尔大学教授本杰奥，几乎同时发表了重量级的文章，从不同角度说明深度神经网络是大有可为的，是可以进行大规模学习训练的。

只要输入的数据好，它就可以解决问题。这一系列论文发表后，大家摸索了几年小有收获，但并没有重大成果产出。直到2010年以后，斯坦福大学华裔女教授李飞飞、普林斯顿大学华人教授李凯，开发了一个规模特别大的图像数据库，然后拿去参加比赛。当时比赛标准是谁做的系统错误率更低，谁就胜出。

2010年错误率最低的队是28%，2011年是26%，2012年取得了突破，降至16%。原来是辛顿的学生用辛顿公开发表文章中的技术去参加比赛，打败了所有的对手，这是一个重大进展。到了2013年，深度网络这个技术普及开来，其它路线无非是使用多深的网、多少个节点、参数怎么设定等技巧性改进，而不是方法上的革命了。

到2015年系统的错误率又实现革命性突破，降至3.6%，而人的平均错误率是5%，在图像分类这件事上，神经元网络已经超过人了。这事是谁做的呢？中国学者孙剑做的，当时他和他的团队提出了残差网络。这个残差网络，不仅在图像分类应用上是第一名，围棋里面也是最厉害的。基于此，在深度网络适合的那些弱人工智能是可以进行广泛应用研究和产业化的。

二、人工智能的特点和成长

从感知到认知，人工智能更上一层楼。

在智能水平上，感知智能日益成熟。智能可分为感知智能、认知智能和决策智能。感知智能是和我们眼看、耳听、手摸等感官直接相连的智能，现在的脸部和语音识别、机器翻译，以及诊断病人病例、产品残次识别，都发展得非常好，人工智能正在慢慢从一般的感知智能向认知智能进行升级。

类脑计算和量子计算，两条突破之路。

如果做更大规模或者做和认知有关的人工智能以及强人工智能，靠现有计算机是做不到的，怎么办？就要寻找出路，在技术路线上有两个比较可能的出路。一个是类脑智能，人对信息处理的能效比非常之高，现在的计算机不行，能效比太低了，类脑计算能效比会高一些。另一个是量子计算，其能效比是极高的，把量子计算做成比较稳定的一个系统是有可能的。当然不管是类脑、量子计算，现在还有很大的不确定性，需要继续加以研究和积累。
人与机器，混合智能具备独特优势。

在智能形态方面，人和计算机混合模式越来越多，这个叫人机混合智能。机器擅长做的事交给机器，机器做不好的事，人可以介入一下。这样人机混合的智能，是现阶段发展人工智能一个比较重要的技术途径。
应用先行，有助于技术发展。

在应用驱动方面，以前是先把技术做好，然后转化技术去做应用。现在靠应用去拉动技术发展，这条路是人工智能一个非常重要的发展形态。深度神经网络出现时，在哪儿好用，不知道，需要找一个很好的应用场景把它用起来。如果不是辛顿的学生把它拿去参加图像网络比赛，可能神经网络的热潮还会拖许久才会到来。
未雨绸缪，防止技术失控。

人工智能具有社会属性。人类会不会被人工智能奴役、摆布？这个社会属性，恰恰是我们在做人工智能时要认真对待的一个问题，要摆正人和智能系统之间的关系，对人工智能能干什么、不能干什么进行研究和立法，从法律和道德层面去约束和规范它。否则，将来可能会很被动。

三、中国人工智能发展的优势与差距
从2013年起，世界许多国家政府，尤其是发达国家纷纷调研人工智能对社会、经济可能带来的颠覆性影响，相继发布符合自身国情的人工智能战略。在这场事关未来的技术革命中，我们的机会在哪里？优势和短板分别是什么？

我国已经成为人工智能领域的超级大国之一。

改革开放以来，我们国家在基础研究方面的投入巨大，人工智能的发展有了非常好的沉淀。一些关键核心技术，中国已经走在了世界前列，比如说人脸和语音识别技术。中国人工智能的发展与各行各业的结合和渗透是非常高的，其应用和推广比其他国家做得更好。我国人工智能发展的创新生态环境已经初步形成。百度的无人驾驶、阿里的城市大脑、腾讯的智能医疗、科大讯飞的语音识别、商汤的图像与视频处理等开放平台以及华为、寒武纪、海康威视等实体经济领域平台已经创建。全球AI指数排名，中国属于第一梯队，紧随美国，在人才、教育、专利产出等方面均有所进步。中美两国引领、呈梯次分布的全球人工智能发展总格局保持不变。

四大优势护航中国人工智能发展。

第一个是政策优势，人工智能已被列为国家优先发展事项。第二个是海量数据资源优势，中国人口是美国的四倍多，手机群体和手机消费、支付量也是最大的，拥有庞大的消费、出行、医疗、旅游、物流等数据资源。第三个是应用场景优势，我国是发展中国家，很多基础设施还不够完善，这恰恰给人工智能的应用提供了一些深度场景。比如城乡的基础设施、医疗、教育、民生服务等领域的问题，人工智能系统的介入，问题可以快速得到解决。第四个是青年人才优势，我国高等教育毛入学率已达59.6%，而且学理工科的学生比例很高，这是一个非常大的人才储备库。国家自然科学基金委员会专门设立人工智能一级学科代码，资助相关基础研究、前瞻性探索和应用研究。
当然，我们也存在一些短板，特别是在四个薄弱环节急需加强。

第一，基础理论和原创算法研究比较薄弱。第二，高端器件研发能力弱，比如做深度神经网络训练的GPU（图形处理器），中国在这方面差距比较明显。第三，缺乏有影响的人工智能开源开放平台。第四，缺乏相应的高端人才。据统计，中国最顶级的人工智能高端人才数只有美国的20%，已成为国家关键领域急需的高层次人才。

四、我们该如何布局未来
未来已来，到底是哪一个未来来了？过去三十年是变化非常大、非常快的三十年。第一个是计算机的算力增强了约一百万倍，第二个是存储容量增加了约一百万倍，第三个是通信速度增加了约一百万倍。这三个一百万倍，让我们的社会、工作、生活、学习都发生了天翻地覆的变化。而下一次影响人类社会的工业革命时间可能会发生在2030年到2040年之间，其主题将会是人工智能，人工智能将是未来一个世纪的核心技术。

国家战略、人才高地、基础建设、立法保障，一个都不能少。

要想把人工智能发展好，就需要我们在很多事上起好步、布好局。一是将发展人工智能提升至国家发展战略，国家、地方和企业，要把其作为战略性新兴产业，给予大力支持。二是健全人工智能的国家研发体系。三是加快人才培养，形成一批人工智能的国家人才高地，进而带动整个人工智能理论和算法的发展。四是加强智能化基础设施建设，推动公开数据的开放、共享，同时完善相关法律法规保护数据的安全性。五是加快人工智能法律、伦理问题的研究，引导人工智能安全可控发展。六是深化国际开放合作，主动参与全球人工智能的治理和标准制定。

数据处理、开源平台、应用场景，三个抓手要记牢。

利用人工智能为各行各业赋能，抓手是什么？排在第一位的是数据，没有数据，即便是弱人工智能也没法做，所以要把数据组织起来、清洗出来、利用起来并加以安全防护。第二位是创建好自己的开源平台，与我们作为人工智能大国的地位相匹配。第三位是应用场景的培育和赋能，现在很多场景还只是投资驱动的，政府要清楚哪些是优先发展的领域，市场能做能决定的事，就交给市场去做去决定，需要政府介入、调控才能做好的事，政府就要果断去干预、去培育，扶上马，送一程。这是非常关键的一个步骤。在做大做强自己，补齐自身短板弱项后，我们要和全世界人工智能同步推进，去迎接人工智能第四次工业革命的到来。

16 1 月 2024

2027年人工智能市场规模将达2250亿美元，人工智能四大趋势

1月4日，瑞银集团在一份报告中表示，到2027年，人工智能在各经济体的广泛应用将使其成为一个规模达2250亿美元的市场。与2022年的22亿美元相比，这是一个巨大的飞跃，标志着约152%的复合年增长率。人工智能行业的收入将随之增长15倍，从2022年的180亿美元增至2027年的4200亿美元，较瑞银此前预期的上调了40%。

据消息人士称，OpenAI正在训练下一代的人工智能，暂名“Q*”（读作Q-star）。新的一年，OpenAI下一代产品可能发布；

数据瓶颈指的是可用于训练AI的高质量数据的有限性，合成数据有望打破这一瓶颈。除了对大量高质量数据的需求导致合成数据受到追捧以外，对数据安全的考量也是重要原因；

作为全球性能最强的AI，ChatGPT已遇到算力等方面的瓶颈。在此背景下，讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案。

文 | 谭笑间

2023年，世人见证了ChatGPT在全球范围的大火。以生成式人工智能为代表的新一代人工智能问世，改变了人工智能（AI）技术与应用的发展轨迹，加速了人与AI的互动进程，是人工智能发展史上的新里程碑。2024年，人工智能技术与应用的发展又会呈现出哪些趋势？让我们一同展望这些值得关注的重大趋势。

全模拟光电智能计算芯片效果图。经长期联合攻关，清华大学研究团队突破传统芯片的物理瓶颈，创造性提出光电融合的全新计算框架，并研制出国际首个全模拟光电智能计算芯片（简称ACCEL）新华社图

趋势一：从AI大模型迈向通用人工智能

2023年，ChatGPT开发者OpenAI被置于前所未有的聚光灯下，也使GPT-4后续版本的开发被推向了风口浪尖。据消息人士称，OpenAI正在训练下一代的人工智能，暂名“Q*”（读作Q-star）。新的一年，OpenAI下一代产品可能发布。

据媒体爆料，“Q*”可能是第一次采用“从零开始”的方式训练的人工智能。其特点是，智能不来自人类活动的数据，且其有能力修改自身代码以适应更复杂的学习任务。前者使得人工智能能力的发展变得愈发不透明，而后者向来被看作是诞生人工智能“奇点”的必要条件。在人工智能发展领域，“奇点”特指机器拥有了自我迭代的能力，进而在短时间内迅猛发展，导致超出人类控制。

虽然一些报道称，“Q*”目前还只能解决小学难度的数学问题，距离“奇点”还远。但鉴于虚拟环境中人工智能迭代速度可能远超想象，其仍然可能在不远的将来自主发展出在各个领域均可超过人类水平的AI。2023年，OpenAI预言，各方面超越人类水平的人工智能在十年内就会出现；英伟达创始人黄仁勋表示，通用人工智能可能在五年内超越人类。

一旦通用人工智能得以实现，就可被用于解决各种复杂的科学难题，譬如寻找外星人与地外宜居星系、人工核聚变控制、纳米或超导材料筛选、抗癌药研发等。这些问题通常需要花费人类研究员数十年的时间来寻找新的解决方案，部分前沿领域的研究量已超出人力极限。而通用人工智能在自己的虚拟世界中拥有几乎无限的时间和精力，这使得其在部分容易虚拟化的任务中，有可能成为人类研究员的替代。但届时，人类如何监督这些从智能水平上超过人类的人工智能，确保其不会危害人类，又是一个值得思考的问题。

当然，我们也不应过分高估硅谷巨头们的部分言论，因为在人工智能发展史上，已经历三次“AI寒冬”，其中不乏宏大的技术愿景因各方面限制化为泡影的例子。但目前可以肯定的是，大模型技术仍然有着不小的上升空间。除GPT-4外，谷歌的“双子座”（Gemini），Anthropic的Claude2，目前都是仅次于GPT-4的大模型，国内的百度“文心一言”与阿里“通义千问”，也是国产大模型中的佼佼者。它们在新的一年中是否会发布更具革命性的产品，同样值得期待。

趋势二：合成数据打破人工智能训练数据瓶颈

数据瓶颈指的是可用于训练AI的高质量数据的有限性，合成数据有望打破这一瓶颈。

合成数据是在模仿真实数据的基础上，由机器学习模型利用数学和统计科学原理合成的数据。关于什么是合成数据，有一个较为浅显易懂的比喻：这就像是在给AI编写专门的教材。例如，尽管英文课本的对话中出现的可能是“小明”“小红”这样的虚构人名，但并不影响学生们由此掌握英语，因此从某种意义上，对于学生而言，教材就可以看作一种经过编纂、筛选和处理的“合成数据”。

有论文表明，模型的规模至少要达到620亿参数量后，才可能训练出“思维链”能力，即进行分步骤的逻辑推理。但现实的尴尬在于，迄今为止人类产生的不重复的、可供训练的优质数据并没有这么多。使用ChatGPT等生成式人工智能以前所未有的数量产生高质量合成数据，未来的AI将由此获得更高的性能。

除了对大量高质量数据的需求导致合成数据受到追捧以外，对数据安全的考量也是重要原因。近年来，各国纷纷出台更严格的数据安全保护法律，使得客观上利用人类产生的数据训练人工智能变得更为繁琐。这些数据中不仅可能隐含个人信息，其中的许多数据还受版权保护。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下，使用互联网数据进行训练，极易导致大量法律纠纷。而若考虑对这些数据进行脱敏，又面临筛查识别准确率方面的挑战。两难之下，合成数据就成为最惠而不费的一种选择。

此外，使用人类数据进行训练，还可能导致人工智能学到有害内容。一些诸如使用日用品制造炸弹、管制化学品的方法，另一些则包括许多人工智能本不应当出现的坏习惯，譬如像人一样在任务执行过程中偷懒、为了取悦用户而说谎、产生偏见和歧视。若改用合成数据，使人工智能在训练中尽可能减少接触有害内容，则有望克服以上使用人类数据训练时附带的缺点。

从以上分析中可以看出，合成数据可以说是颇具开创性的，有望解决此前发展人工智能与数据隐私保护不可得兼的问题。但与此同时，如何确保相关的公司和机构负责任地制作合成数据，如何制作出既符合本国文化与价值观，又在规模和技术水平上足以媲美西方以英文网络资料为中心的合成数据训练集，也将成为中国面临的一个颇具挑战性的课题。

除此之外，合成数据带来的一个重大变化是，来自人类社会的大数据或将不再是AI训练所必需。在今后的数字世界中，人类数据的产生、存储和使用仍将遵循人类社会的法则和秩序，包括维护国家数据安全、保守商业数据秘密和尊重个人数据隐私，而AI训练所需的合成数据则采用另一套标准进行管理。

趋势三：量子计算机可能率先应用于人工智能

作为电子计算机发展到今天的最前沿应用，人工智能始终存在算力不足的隐忧。ChatGPT问世数月后，OpenAI总裁奥尔特曼曾公开表示，其并未鼓励更多用户注册OpenAI。2023年11月，OpenAI甚至宣布暂停ChatGPT Plus付费订阅新用户的注册，以确保现有用户拥有高质量体验。显然，作为全球性能最强的AI，ChatGPT已遇到算力等方面的瓶颈。在此背景下，讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案。

首先，人工智能领域的算法，大部分属于并行计算的范畴。举例而言，AlphaGo在下围棋的过程中，其需要同时考虑对手在不同位置落子后的应对招数，从中找到最有可能赢得棋局的下法。这就需要计算机优化并行计算的效率来实现。而量子计算机擅长进行并行计算，因为它可以同时计算和存储“0”和“1”两种状态，无需像电子计算机那样消耗额外的计算资源，譬如串联多个计算单元，或将计算任务在时间上并列。计算任务越复杂，量子计算就越具备优势。

其次，运行ChatGPT所需的硬件条件，同样也十分适合导入当前体积庞大的量子计算机，二者都需要安装在高度集成的计算中心里，由一支专业化技术团队进行管理支撑。

什么是量子计算机？量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。其不仅体积庞大，而且作为核心零部件的“量子芯片”，通常需要被置于接近绝对零度（零下273.15摄氏度）的极低温中，利用在这种极低温下部分微观粒子表现出的量子特性进行信息运算和处理，且运行结果只能存在几毫秒的时间。

既然量子计算机“又大又难维护”，为什么还要发展？原因在于，量子计算机蕴含巨大的算力潜能，以至于在一些算法上已经体现出相对于电子计算机在速度上的“绝对碾压”，即“量子优越性”。但实现“量子优越性”只是一个起点。目前的量子计算机只能完成一些专属于量子领域的计算任务，想要真正用好这种“量子优越性”，先要使其量子位足够多，以实现通用计算和可编程。而且，在实现通用计算后，量子计算机依然需要保持相对于电子计算机的优势，这被称作“量子优势”。

2022年，来自谷歌、微软、加州理工学院等机构的研究者从原理上证明了“量子优势”在预测可观测变量、量子主成分分析以及量子机器学习中确实存在。量子机器学习，实际上就是量子计算在人工智能领域的应用，也体现出未来量子计算与人工智能两大前沿技术合流的趋势。

理论上证明了，实践上就需要进一步拓展量子计算的应用前景。在2019年推出商用量子计算机“量子系统一号”后，美量子计算巨头IBM又于2023年12月推出了“量子系统二号”。新系统的最大突破在于可以模块化扩展，是该公司的首台模块化量子计算机。“量子系统二号”拥有超过1000量子位。IBM还宣布计划10年内建成10万量子位的量子计算机。这些不断增加的量子位并非只是为了竞赛，其对于实现通用计算和可编程有着不可或缺的作用。也正因如此，量子计算机的模块化，标志着其更加具备实用性。

有关量子机器学习算法的研究，已成为新的研究热点。不过，未来量子计算机不会完全取代电子计算机，更有可能出现的是量子计算机和电子计算机在不同的应用场景下发挥各自所长，实现协同发展，既极大提升算力，也兼顾成本和可行性。

在上海举行的2023世界人工智能大会上，人形机器人表演“千手观音” 辛梦晨摄/《瞭望》周刊

趋势四：AI代理和无代码软件开发带来“冲击波”

在AI应用方面，2024年值得关注的是AI代理和无代码软件开发带来的“冲击波”。

一是AI代理对劳动力结构的冲击。

截至目前，全球至少已有近两亿人使用人工智能大模型。但人们已不再满足于坐在电脑前跟AI“聊天”，而是开始开发能够自动根据任务需要向人工智能发出提示的工具。当自动提示工具与大模型两相结合，AI代理便由此诞生。

2023年4月，OpenAI联合创始人布罗克曼现场演示了GPT的“自动模式”。在该演示中，AI代理几乎“包办”了一场晚宴：不仅根据要求生成了一份晚宴的推荐菜单、一份图文并茂的邀请函，还自动将该菜单需要购买的食材加入生鲜电商APP的购物车，并自动发布了一条有关该晚宴的社交网站帖子。

AI代理还能根据比较模糊的需求提示自动制作网站，自动完成各种需要使用Office软件完成的文字和表格处理工作，甚至自动根据已有论文数据进行归纳总结生成分析论文等。

比尔·盖茨近日发长文解读AI代理未来，表示AI代理将彻底改变人们使用计算机的方式，带来自键盘、屏幕和鼠标发明以来人类与计算机互动方式上最重大的革新。

AI被看作对人类的信息收集、分析和处理进行增强的扩展性工具，使得人的工作水平更上新台阶。但与此同时，AI代理也给许多现有的工作岗位带来冲击，因为企业可能尝试雇用更少的人来完成相同的任务。这种由创新带来的对现有经济结构的破坏，被美国经济学家熊彼特称为“创造性毁灭”。随着AI代理代替大量只需要较少的计算机技能就可完成的任务，这些被迫再就业的劳动力将不得不适应新的劳动力市场需求，这注定将是一个较长时期的、伴随阵痛的过程。

二是无代码软件开发给数字经济创新带来的影响。

尽管生成式人工智能可能淘汰掉一批传统数字岗位，但在关上一扇门的同时也打开了一扇窗，这就是“无代码软件开发”。目前，以AI大模型为基础的编程辅助工具已经发展到一个新的阶段，能够根据用户十分模糊的指令来生成软件或网页代码。例如，2023年的GPT-4演示中，演示人员仅仅是在A4纸上手写了一个十分潦草的结构示意图，GPT-4就根据其自动生成了能够实际访问的网页。这无疑大大降低了开发IT服务的门槛。只要一个人有足够有创意的、能够满足许多人需求的数字服务“点子”，就可以成为互联网创新的风口，“人人皆可创新”的时代已然到来。

对此，政府需转变观念，兼顾市场监管与促进创新，一方面降低数字创新过程中的注册与融资门槛，打通中小企业发展壮大过程中的痛点，让就业与创新政策适应“人人皆可创新”的新需求；另一方面需要探索更有利于保护创新“点子”的版权与专利保护新政策，从而激励那些能够不断提出创新“点子”的人才。

综上所述，展望2024年，无论是人工智能技术自身的迭代发展，还是其对数据价值的重塑，抑或是向各行业、各领域的应用渗透，人工智能的影响可谓无处不在，既为科研、创新和经济赋能，又带来新的挑战与风险。我们应以开放的心态看待人工智能带来的诸多改变，审慎研究和应对其可能带来的新课题与新风险。

16 1 月 2024

世界最强AI公司，迈出毁灭人类的“一小步”？

据美国调查新闻网站“拦截者”报道，开发了被全世界广泛使用的人工智能产品ChatGPT的美国知名AI公司OpenAI，于近日悄悄干了一件引人关注的事情：他们删除了一项涉及他们AI模型的使用禁令。

“拦截者”网站称，在今年1月10日之前，OpenAI公司在其AI模型的使用条款中曾明确表示，禁止将其模型用于很可能会造成人员伤亡的用途上，比如“研发武器”和“军事与战争”。

然而，在1月10日对其使用条款进行一番大更新后，OpenAI公司虽然在禁止项中仍然提到禁止将其产品、模型和服务用于会导致人员伤亡的用途上，并提到了“武器开发和使用”，但先前同样被禁止的军事用途，如今却在文本中消失了。

对此，OpenAI公司的发言人在一封回复给“拦截者”网站的邮件中表示，1月10日这次对使用条款的大调整，是因为公司的产品和服务已经被全世界广泛使用，所以需要设立一套更加简洁和普适的规则，包括让规则中的文本变得更加清晰，更好被理解、记忆以及应用。

该发言人还强调，新的使用条款中提到的“不要去伤害他人”本身就是一个很宽泛同时也很好理解的概念，可以适用于很多语境之下，而且条款中还列举了武器作为一个明显的例子。

但该发言人并没有正面回应“禁止伤害”这个宽泛的表述，是否包括一切军事用途，仅称条款禁止其技术被包括军方的人用于研发和使用武器，伤害他人或摧毁他人财物，或是在未授权的情况下用于破坏任何服务或系统的安全。

有网络安全专家对“拦截者”网站表示，OpenAI删掉使用条款中禁止军事和战争用途的内容，是一个很大的变化，说明该公司新版使用条款关注的重点，是在确保法律合规之上提供更多的灵活性，但在很多国家，军事和战争都会被披上合法的外衣，所以OpenAI公司的这次调整潜在的影响将是巨大的。

其他专家亦对“拦截者”网站也表示，OpenAI的新使用条款反映出公司正在悄悄弱化其先前反对军事应用的立场。有专家还指出，OpenAI的重要合作伙伴微软公司就是美国军方主要的供应商之一。而且美军对于AI技术的需求也越来越强烈。

“拦截者”网站还特别提到，虽然OpenAI公司的产品、模型和服务如今还没有被用于操控武器去杀人，但实际上其技术已经开始被军方用于编写代码、处理武器采购以及情报分析等方面。换言之，尽管没有被直接用于杀人，该公司的技术都已经在被用于协助这样的工作了。

“在人工智能系统正被用于针对加沙地区的平民时，OpenAI决定将禁止军事和战争用途文字从其使用条款中移除，是值得关注的”，一位专家对“拦截者”网站这样说道。

16 1 月 2024

人工智能对网络安全有哪些影响？

微信公众号：计算机与网络安全一年多以来，人工智能（AI）主导了公共话语，从非正式对话到认真考虑其造福或破坏社会的潜力。在评估如何安全地使用人工智能时，重要的是检查机会和危险，因为它们现在存在或可能在短期内发展。人工智能创建内容和自动化操作的能力代表了人工智能在许多领域（包括网络安全）中使用的新前沿。

软件和数据的技术进步将对数字安全产生巨大影响。基于人工智能的工具，无论是用于自动化、认知还是生成，都可以用于好的方面，也可以用于坏的方面。例如，分析潜在入侵的网络流量的工具也可以用于使入侵更难检测。用于生成类似人类内容的工具可以很容易地用于合法和非法目的。ChatGPT的公开发布是一个罕见的时刻，一项新技术立即主导了公众的心理。在此后的一年里，这种对话并没有消退；事实上，人工智能工具(生成性或其他)的影响，以及它们如何改变社会的好坏，已经成为广泛政策辩论的一部分，从对劳动力的影响到教育，再到国家安全。这包括对网络安全的影响，生成性人工智能是否会加剧新的攻击？防御者是否会使用它来更快地检测恶意活动？人工智能对网络安全并不陌生。防御者和攻击者多年来都在使用机器学习和人工智能工具，但专家一致认为，生成性人工智能的公共可用性将重塑网络安全格局。然而，对于这将如何发生，还没有达成共识。对于这些人工智能工具的最终用户（无论是公司、政府、个人还是其他组织）现在可以做什么，以最大限度地提高人工智能对攻击者的效用，并最大限度地减少对攻击者的好处。场景

好的方面

如果防御者能够提高安全响应时间、增强人类专业知识并提高软件和设备安全性，那么人工智能工具将为他们提供优势。人工智能工具为各种目的对大量数据进行排序：为修复漏洞排定优先级，检测数据渗出，识别异常的用户行为等。有了这些新见解，这些工具被调整为减轻已确认的威胁（例如，通过隔离端点、阻止恶意URL或沙箱恶意操作），并升级需要更多分析的威胁。人工智能还增强了最终用户体验，在用户报告异常或主动提醒他们时准确有效地帮助他们，并帮助解决工具本身识别的问题。这种早期和准确的检测减少了响应时间，最大限度地减少了对误报的浪费，并有助于标记，否则可能无法检测到的真正威胁。因此，防御者能够将其有限的资源集中用于可能需要人类理解的调查。
人工智能也是通过设计原则实现安全的关键。人工智能工具将编写新的安全代码，并通过发现和修复漏洞来帮助更新现有代码。它甚至可以用更安全的语言重写现有的应用程序。随着攻击的发展或研究人员发现新的漏洞，这些工具将不断更新和改进代码。
工智能工具本身将是安全和负责的。它们产生高质量、准确的结果，并在未能做到这一点时负责。这包括区分恶意篡改和工具中所谓的“幻觉”的能力。人类处于中心位置，知道何时与人工智能系统交互，知道输出中的任何潜在限制和风险，并可以在更高风险的场景中干预或覆盖人工智能系统。人工智能驱动的网络安全工具保持了攻击者的优势，因为他们可以访问多个高质量的数据源，而攻击者必须更多地依赖“黑市”数据。

坏的方面如果攻击者能够提高攻击效率，实现犯罪协作，并比防御者适应和响应更快地学习，那么人工智能工具将为攻击者提供优势。人工智能工具减少了参与犯罪的进入障碍，并使开发复杂的社会工程技术、逃避检测、设计定制恶意软件等变得更加容易。有了这些新的效率提升，人工智能使网络攻击变得更便宜、更有效，提高了犯罪的预期回报。使用人工智能工具，犯罪分子可以更快地找到现有系统中要利用的漏洞。此外，他们可以创建个性化的鱼叉钓鱼活动，以增加成功的可能性。一旦罪犯进入系统，他们就可以使用定制的恶意软件，这些恶意软件可以针对特定的目标进行定制。在发起了许多这样的活动后，他们可以使用机器学习来查看什么是有效的，并在未来的活动中修改他们的策略和恶意软件。人工智能还改变了犯罪的市场结构，改善了攻击者的分工，使他们能够更有效地使用资源。全球网络防御的不平等分布导致攻击者在资源较少的国家部署基于人工智能的网络攻击。勒索软件变得更加有利可图，因为犯罪组织现在可以更容易地与流氓国家合作，扰乱目标国家的经济。工智能行业缺乏问责制和质量控制，使得更难追究国家或公司对不当使用复杂工具的责任。恶意人工智能平台在法律限制较少的司法管辖区开发，然后部署在世界各地。因为罪犯可以更自由地创新，他们能够设计攻击，即使是支持人工智能的防御也会因为它们的新颖性而与之抗争。这种社会环境变成了一个恶性循环，进一步侵蚀了对数字经济、社会制度和客观真理的信任。建议一般建议1、避免炒作。抵制AI浪潮的诱惑；在具有操作性或其他意义的方面使用人工智能工具。2、主动管理人工智能将做出的决策。人工智能工具将做出组织无法单独审查的决策，因此部署它们时要预先考虑和仔细规划。对于人工智能工具将做出哪些决策以及在什么级别做出肯定的选择是很重要的。以下因素有助于：1）评估使用考虑中的人工智能工具的潜在好处和危害，2）确定决策循环中必须保留的行动或过程：

需要多少人类认知？这是一个重复的战术讨程，还是一个创造性的战略决策？后者更可能需要人类的持续参与。
行动、过程或最终结果需要多少质量控制或审查？随着质量变得至关重要，倾向于深思熟虑的人类审查。
错误决策的影响或风险是什么？越严重，人类应该控制得越多。
决策的频率如何，快速做出决策的重要性如何？人工智能擅长做出重复的决策，并以人类永远无法实现的速度前进。
人工智能工具是补充人类决策还是取而代之？如果是后者，则权衡人工智能错误与人为错误的成本和收益，并为关键任务选择开发故障保护和审查机制。
决定是否不可逆转？如果是这样，请谨慎行事，并确保组织能够在不可逆转的错误决策中生存下来。

3、了解人工智能正在使用的数据类型。人类永远不可能知道人工智能使用的所有数据，但在可能的范围内，组织应该了解所使用的数据源。优先考虑对内部或专有的王冠宝石”数据进行更强大的安全控制。

4、说“不”是可以的。在部署、构建或完成人工智能工具之前，评估它的表面好处是否会大大超过潜在危害。如果一个工具的可预见危害明显大于好处，请不要使用或构建它，或者至少确保您的组织可以有效地控制它。

5、认识到旧规则仍然适用。人工智能工具可能看起来是新的、闪亮的和强大的，但不要忽视信息技术安全、网络安全和数据安全的既定基础。几乎所有长期使用的工具和最佳实践都适用于大多数人工智能开发和用例。

6、智能透明。透明度是一件好事，但组织应避免将重要通知变成无意义的点击，通常称为同意疲劳”。通知应披露与用户和工具效用相关的信息，包括隐私问题或人类监督的程度。组织应该避免让消费者过度饱和，以至于他们的信息披露毫无意义或被忽视。

7、想想社交媒体（因为人工智能正在阅读它）。组织应更新社交媒体和通信政策，以认识到大型语言模型（LLM）正在使用帖子和其他通信作为训练数据，并说明对手可能利用的信息。

8、日志、日志和更多日志。良好的日志对网络安全至关重要，人工智能驱动的漏洞利用和攻击的潜力只会加剧这一点。组织应改进日志记录、日志审查和日志维护，以最大限度地提高检测新的、人工智能生成的攻击的能力，并遵守必要时进行合法授权的审查（包括通过使用人工智能工具）。

9、让人类处于代码循环中。人工智能编写的代码应该比人工编写的代码更安全，但维护漏洞管理最佳实践的人工和技术审查仍然很重要。

10、不要将人工智能从其他IT、网络和其他学科中孤立出来。定期召集所有相关团队，如网络安全、法律、数据科学、计划/产品团队和行政领导层，就人工智能网络安全风险进行合作。当人工智能工具对组织的目标或运营产生重大影响时，组织应考虑为首席人工智能官开发新的角色。

11、要有弹性。在人工智能工具中断的情况下，组织将需要一个弹性计划，包括培训其员工执行人工智能自动化任务，以便他们能够维护关键任务操作。

12、在合同需求和义务中反映人工智能。与供应商、合作伙伴和其他人的合同可能需要包括对专有数据的限制，包括：

将提供哪些数据，特别是涉及人工智能供应商的数据。
如何使用数据。
如何保护数据。
数据是否将用于训练其他模型。
如果业务关系结束，该数据将发生什么情况。

13、创造开放的文化。人工智能已经在为钓鱼电子邮件和其他欺诈提供支持，这些欺诈通常以初级员工为目标。如果员工不敢接触高层领导，他们更有可能无法报告风险，或落入冒充高管的骗局。授权员工与高级领导层接触，确保沟通（特别是采取行动或分配资金的指示）合法。

政府特定建议1、识别高风险人工智能工具。政府应确定可能造成极端伤害并监控其使用的人工智能工具。在人工智能工具具有对社会具有高风险的用例的情况下，政府应考虑获取该工具的知识产权，并为低风险用例颁发许可证。

2、促进获得开源网络安全工具。帮助网络贫困线以下的组织访问开源网络安全工具，帮助防止基于人工智能的攻击，审查代码，并提供培训数据。

3、提供教育机会。支持整合人工智能、数据科学和网络安全技能的大学课程和认证。

行业特定建议

1、坚持基本原则。人工智能工具和模型从根本上说是软件，开发人员和部署人员应该利用现有的网络安全性、弹性和设计原则的安全性。这包括：

信任和授权
身份和访问管理
资产管理
网络访问控制/隔离策略
漏洞管理
持续监测

2、使信息共享变得简单而平常。公司应使用现有的标准化安全信息共享结构，如结构化威胁信息表达（STIX）；可信的智能信息自动交换（TAXII），以及用于人工智能网络安全目的的国家漏洞数据库。在这些不太适合的方面，公司应该共同努力，并与政府一起开发促进快速轻松共享的协议。

3、默认情况下记录。人工智能模型或工具的开发人员应将登录构建到人工智能工具中，用于网络安全、审计和其他合法授权的目的。

展望

好的方面：AI极大地提高了网络安全性

现代人工智能工具可以帮助组织快速识别和应对威胁，并提高其网络安全工作人员的效率和效力，从而使世界更安全地免受网络安全威胁。公司高管和IT安全领导者可以使用人工智能来优化决策、评估风险，并做出财务上合理的运营决策。安全团队可以使用人工智能工具来分析大量数据，并检测异常活动或恶意用户。这将使防御者能够更多地关注需要人类理解的调查。

如果防御者利用人工智能相对于攻击者的优势，这一未来将是可能的。下面是人工智能工具如何提供这些独特优势的具体描述。

1、提高防守队员的效率

人工智能增强了组织以更高的速度和更少的资源更有效地运行现有网络安全流程的能力。人工智能工具通过处理大量数据和识别异常行为来实现这一点。这些人工智能工具可以更早、更准确地检测威胁，使分析师能够更快地采取行动。虽然攻击者传统上受益由于攻击执行的不对称优势，防御者依赖于不确定的检测信号。人工智能工具改变了这种平衡。具体功能包括：

漏洞优先化-防御者从风险和缓解成本的角度分析漏洞，以优化网络安全支出的投资回报。

网络流数据-Defender分析网络流数据，通过识别与正常网络行为的偏差来发现异常的数据传输和未经授权的远程访问，从而实现对恶意活动的早期检测和响应。

用户行为-Defender分析用户行为，如登录时间、位置和活动，以检测与典型行为的偏差，以检测内部威胁。

潜在恶意软件-Defender分析文件和系统进程，以发现使用传统的基于签名的工具无法检测到的潜在恶意软件。

端点数据-安全团队分析端点数据，以发现未经授权的设备访问和处理或滥用合法工具的迹象（即，生活在陆地上”攻击）。

隔离受感染的端点或流程-安全团队采取主动步骤来隔离端点，并在可疑入侵导致系统之间的重大危害或横向移动之前减轻它们。

网络钓鱼企图-组织分析电子邮件或其他通信中的语言，以检测和阻止网络钓鱼企图。

早期和准确的检测减少了对假阳性的浪费，并有助于标记真阳性，否则可能无法检测到以进行进一步调查。评估团队使用人工智能工具，通过更好的度量、可视化和决策树来进行更有效的决策。一些示例包括：

指标-组织通过自动分析缓解措施、事件和响应来了解其网络安全有效性。

可视化-防御者通过动态可视化相关数据（如网络流量、访问模式和用户行为）来确定网络安全工作的优先级，以实时查看。

决策树-安全领导使用定制的上下文决策树，该决策树基于对特定事件的影响和置信水平的人工智能分析。

如果怀疑有恶意活动，人工智能工具会部署自动安全措施，以缩短检测和缓解之间的时间：

响应时间-人工智能工具对模式中的偏差做出响应，并在最少的人工干预下部署自动响应，从而最大限度地减少不良事件的持续时间和影响。

迭代响应时间-人工智能工具通过事件后报告进行训练，以完善其检测、评估和响应各种场景的标准。每一次入侵都是一次学习机会，并提高了安全工具在未来的响应能力。

检测质量-人工智能工具不断根据事件数据进行训练，以不断完善其决策和检测能力。

这些能力对网络安全工作人员有几个影响：

提高生产力——人工智能工具提高了效率，减少了网络安全任务所需的人数，从而减少了总体网络劳动力缺口。

提高员工满意度-人工智能工具执行平凡、乏味或例行的任务，释放网络安全人员来处理更具挑战性的问题，从而提高工作满意度并减少倦怠。

加速入职——人工智能工具使新员工能够更快地融入网络安全工作队伍。

最后，人工智能可以提高现有和新代码的安全性和质量：

代码评估-人工智能工具可以扫描现有和新代码，以查找传统静态分析可能会遗漏的易受攻击代码模式的变体。

代码建议-人工智能工具用于分析安全编码实践，并建议改进遗留代码，从而减少手动代码分析和重写所花费的时间。

代码监控-AI工具在开发代码时实时检查代码，并主动识别漏洞或与安全编码实践的偏差。

代码预测-人工智能工具用于分析现有代码以及未来可能的修改如何导致漏洞。

重写代码-AI工具可以使用更安全的现代模式、语言和库重写遗留代码。

代码自动化-人工智能工具可以自动生成代码补丁，以减轻其已识别的威胁风险。

2、防御者供应链中的更好关系

人工智能工具也在提高服务质量，以及在网络安全过程中如何对待用户。组织正在使用人工智能工具开发更有效的客户服务聊天机器人，以适应用户的知识和能力。人工智能工具实现这一点的一些方法包括：

改进的响应时间-人工智能工具生成为用户的角色、环境和他们所遇到的问题定制的自动响应。这些响应使用日志和事件数据为问题建议或自动应用最适当的解决方案，从而实现更早和更全面的解决。

高质量的用户参与-人工智能工具分析哪些解决方案和参与模型导致高用户满意度，以告知关于用户参与的最佳实践。

适应用户需求-人工智能服务工具评估用户的知识和技能水平，并提供适合个人需求的指导，包括在最终用户无法补救情况时提升人工干预。

节省劳动力-人工智能工具通过解决不需要人工分析的事项，更好地利用网络安全专家，并为网络安全专家提供定制的背景信息和需要人工分析事项的可能干预。

3、AI责任和质量的改进

人工智能工具正在生成高质量、准确的结果，并在它们未能做到这一点时负责。组织可以区分恶意篡改和大型语言模型（LLM）中所谓的“幻觉”，LLM提供自由文本输出。人类始终处于中心位置，知道何时与人工智能系统交互，输出中的任何潜在限制和风险，以及在更高风险的场景中，可以干预或覆盖人工智能系统。组织理解人工智能输出，并可以区分恶意篡改的实例，可能会将这些实例移交给政府。这通过以下方式实现：

人工智能社会契约——捍卫者与政府合作，制定了一个普遍接受和易于理解的社会契约，列出了围绕网络安全中人工智能模型的创建、使用和治理的关键道德责任。

Defender引领创新-Defender围绕人工智能模型采用创新文化，并开发流程以从经验中学习，并鼓励在如何创建和部署模型方面进行受控实验。

更好的控制-Defender可以访问模型、数据和以前的输出，包括发现实际上不正确的输出。这使得他们能够更快地识别输出是篡改与分析错误的结果。攻击者无法访问如此广泛的数据，也无法访问分析他们所拥有的数据所需的工具和基础架构。

模型监控-Defender实时监控系统，并使用其他AI工具检测与其模型的异常接触。这允许及早检测对输入的篡改和检测操纵的输出，这可以被阻止以防止负面结果。

模型透明度-Defender了解模型的功能和限制及其对其场景的影响；他们使用风险框架、系统度量和评估工具来确保其人工智能系统的安全性、安全性和可靠性。

迭代改进-即使发生篡改，Defender也会修复模型，使这种篡改尝试变得毫无用处。这种能力迫使攻击者不断创新他们在未来篡改的方式，增加了攻击者的成本。

生成式人工智能对策-防御者使用内容来源和人工智能内容检测来防止深度伪造的内容污染其平台。

与大多数攻击者相比，防御者在更有效地使用人工智能的能力上具有优势，因为最佳模型需要大量高质量数据，这些数据仅可用于最大的组织或最复杂的民族国家。因此，政府和公司比犯罪企业更有效地使用人工智能工具。防御者在这方面也受益于：

数据宽度-防御者有多个随时可用的高质量数据源用于训练其模型，而攻击者必须更多地依赖黑市”数据。黑市产品一般质量较差，因为它们的规模有限，收购成本高，缺乏质量监控。

数据深度-由于更大的容量、劳动力专业化和购买力，防御组织可以更容易地使用更多的数据。

数据迭代-Defender可以从供应商和客户那里获得关于其数据的质量、限制和使用的建设性反馈。这使得他们能够比攻击者更有效地迭代现有模型和源。

坏的方面：AI严重危害网络安全

如果犯罪分子和流氓国家能够利用现代人工智能工具来提高其攻击、协作和学习速度，使其超过防御者的适应速度，则可以增强攻击者的能力，并使防御者处于不利地位。企业网络罪犯可以使用人工智能工具来编写恶意软件，而不管他们的编码知识如何。他们可以与流氓国家合作，利用该国对高质量数据的访问来训练人工智能模型。然后，犯罪分子和流氓国家都将改进其攻击技术和能力，以避免被发现，将其用于盗窃、间谍活动或破坏性攻击。由于攻击者将使用防御者无法访问或使用的模型和数据集，因此防御者只能对每次入侵做出反应，此时攻击者可以转向新的人工智能生成技术。这些工具的速度和功能将最大限度地减少修改攻击的成本，而防御攻击的成本则以无法控制的速度增加。

如果人工智能使攻击者比防御者具有明显的优势，那么这种未来将是可能的。下面是对人工智能工具在未来如何发挥作用的具体描述。

1、提高罪犯的效率

人工智能使网络攻击变得更简单，成本更低。犯罪动机更高，因为人工智能工具可以提高几种类型攻击的回报和成功率，例如：

将资产集中在目标中-使用生成式人工智能来补充核心业务功能，既可以在专门的人工智能系统中创建和集中更敏感的数据，又可以提高罪犯利用这些数据的回报。

定制恶意软件-人工智能工具生成按需定制的恶意软件，可以根据特定目标定制。

弱威慑——罪犯不太关心违反知识产权法和道德准则等规则，对他们使用人工智能工具的限制较少。

用于加密劫持的AI自动化-帮派使用基于AI的自动化脚本来利用受害者机器的计算能力，并提高加密劫持的效率和回报。

矛式钓鱼中的生成式人工智能-攻击者使用生成式人工智能创建更个性化的钓鱼电子邮件和可信的发件人角色，从而增加成功的可能性。

OSINT的机器学习-机器学习工具通过改进对公共可用数据源的分析，帮助攻击者更好地理解其目标。

用于未授权访问的机器学习-机器学习工具帮助攻击者搜索互联网，更容易找到易受攻击的系统，从而增加成功攻击的可能性。

高级恶意软件的机器学习-攻击者将机器学习整合到恶意软件中，使其能够从经验中学习并动态修改其行为以避免检测。

攻击面枚举-机器学习工具帮助恶意软件更有效地找到有价值的资产。

漏洞发现-机器学习工具帮助攻击者找到漏洞，以便访问枚举资产管理系统。

造假活动的生成式人工智能-攻击者使用生成式人工智能创建虚假的音频和视频内容（deepfakes”），提高宏观目标虚假信息活动和微观目标社会工程活动的欺骗可能性。

AI腐蚀AI-启用AI的攻击检测和避免，人工智能使防御成为可能，使其变得无用和可利用。

2、刑事供应链中的更好关系

人工智能工具还影响参与网络犯罪的实体类型以及它们之间的互动方式。最初，人工智能模型使用大量高质量的数据集，这些数据集通常仅可用于合法组织和责任国家。随着时间的推移，犯罪集团和较小的流氓国家的反应是联合和整合他们的努力，为恶意使用创造类似的工具。这种融合增强了犯罪行为者的能力：

更好的攻击者分工——罪犯和国家具有不同的优势，他们的伙伴关系不断发展，以创造攻击者的规模经济。国家提供资源和目标清单，而犯罪组织具有特定的专门知识或意愿发动攻击，即使是流氓国家也可能不愿意这样做。对预期目标的人工智能分析用于确定潜在的合作者和最有可能成功的攻击。

防御的全球分布不平等——财政和计算资源较少的国家无法部署有效的防御措施来抵御人工智能攻击。相反，富裕国家防御能力的提高导致攻击者将注意力集中在防御能力较弱的国家。

改进了勒索软件部署-擅长使用勒索软件的犯罪组织与流氓国家合作，破坏目标国家经济。

改进影响行动——更小、更灵活的犯罪集团收集个人信息，以定制民族国家宣传。

恶意人工智能模型开发-流氓国家为犯罪组织提供数据和基础设施，用作恶意人工智能模式开发的训练场。

综合洗钱——犯罪组织通过提供绕过经济壁垒的连接和使用人工智能生成可信的交易轨迹，以洗钱援助国家。

不一致地遵守法律边界——虽然合法组织遵守限制人工智能的国家法律和国际协议，但犯罪组织跨国界使用人工智能没有限制。

此外，人工智能工具的民主化降低了希望参与网络犯罪的潜在行为者的进入壁垒：

级联成本-人工智能既减少了进入壁垒，又增加了规模经济，这两者都扩大了攻击的规模和规模，并能够更有效地改变战术。

简单的黑客工具包-罪犯使用自动化黑客工具，这些工具需要最少的知识，但可以渗透复杂的企业或政府防御。

改进的网络钓鱼提示-罪犯使用现成的生成式人工智能提示来生成个性化的、特定于文化的网络钓鱼内容，并可以大规模分发。

诈骗内容——罪犯可以很容易地为大规模社交媒体活动制造深度伪造品，

基于人工智能的勒索软件-罪犯使用现成的基于人工智能勒索软件，该软件使用来自以前受害者行为的大量数据，以最大限度地提高支付概率。

在目标方面，使用人工智能的组织必须依赖于少数拥有这些大型数据集的供应商。这在供应链中创建了集中的漏洞点，攻击者可以利用这些漏洞向其目标施加大规模成本。攻击者可以通过以下方式利用这些漏洞：

毒害训练数据-罪犯使用基于人工智能的应用程序编程接口（API）来操纵训练数据和模型，以进一步破坏用户或促进漏洞的广泛分布。

屏蔽的网络流量-罪犯可以创建难以从人类流量中分类的合成流量。

后门妥协——罪犯将后门放入客户使用的人工智能模型中；从而也可以访问客户系统。

常见漏洞-罪犯可以利用特定漏洞攻击多个公司，因为所有公司都依赖于相同的底层AI供应商。

勒索软件即服务（RaaS)攻击-以RaaS为中心的犯罪企业可以使用基于人工智能的攻击更轻松地扩展赎金支付。

跨共享资源进行间谍活动-罪犯利用多个公司使用的共享AI基础设施来过滤敏感信息。

3、AI责任和质量方面的困难

人工智能工具经常生成质量差、不准确的结果，很难与非人工智能内容区分开来。此外，模型和开发人员不应对这些错误负责。通过降低发起某些类型的网络攻击的成本，对手现在可以将其攻击外包给更小、更隐蔽的实体，从而更难追究这些国家的责任。防御人工智能攻击的成本远远超过开发它们的成本，能力差距正在扩大：

全球覆盖——尽管一些国家采取了法律保障措施，但人工智能平台的开发和使用在法律允许的管辖区内是恶意的。

与新奇事物斗争——人工智能支持的防御与不属于其训练集的攻击斗争。

罪犯之间的无许可创新——罪犯创造攻击工具没有任何限制，因为他们不遵循约束合法开发人员的相同道德规范和规则。

无注意义务——人工智能公司没有明确的法律义务来保护其数据和模型，因此许多公司没有对国防进行充分投资。

高级证据篡改-罪犯可以使用生成式人工智能廉价地创建虚假内容，使证据收集过程复杂化。

公众信心的丧失和社会机构的侵蚀——由于人工智能工具在促进恶意行为方面变得更加有效，公众对新技术失去了信心，合法创新滞后，而恶意行为者继续蓬勃发展。公众对技术失去信心，就会侵蚀对社会机构、民主制度和客观真理的信心。

污染的公共资源-基于人工智能的攻击，如深度伪造，导致更糟糕的数字公共资源，赶走缺乏过滤此类材料的手段的无辜实体。结果是，较贫穷的实体必须在比有支付能力的实体更差的平台上运营。

16 1 月 2024

应用+AI，是未来吗？

（1）引擎

1970年代，IBM发明了一个中间件叫：规则引擎。

意思就是：你可以灵活设置规则，不用把业务规则逻辑用编程语言写死在软件中。

因为中国程序员都是码农，不懂得设计程序，就是知道业务逻辑多复杂-代码就多复杂，所以各种状态机引擎、规则引擎都不会用。即使平台研发团队搞了个规则引擎，也都在业务功能中不会用或者只用一点点。

现在，人工智能热潮风起，很多IT厂商又开始用规则引擎忽悠智能化-自动化。

（2）数据

对于外行人，认为大模型=会话大模型+生成大模型。

对于内行人，大模型=海量大数据+Transformer深度神经网络。

所以，数据的重要性和稀缺性，对于内行人来说，比模型还重视。所以中国最近两年出台了无数政策在说数据安全和数据资产的事。

Open AI公司因为数据，在2023年也惹上了事。这就是，事情不火不挣钱，大家都不言语，一旦发现事情火了有利可图了，这就得说道说道了。所以2023年，Open AI免费爬取编程问答社区SegmentFault的数据做了大模型，用户一看在ChatGPT中做编程问答效果更好，就不访问SegmentFault网站了，所以SegmentFault的流量快速下滑。这让SegmentFault就怒了：你不仅爬取我的数据不给我钱，你还拉走了我的用户，这不行。

Open AI虽然去年主动去国会申请召开听证会，希望促进国会尽快立法，让大家在规则下发展。但是最终听证会也没有有效运转起来。所以美国对于数据资产的一系列的法律制定，也滞后了。

那大模型怎么持续进化？有人想到了一种方法是：数据增强，通过现有数据进行智能的变形和合成，这样就数据量翻倍了。我对这种方法认为比较狗屎。我经常说：垃圾输入必然是垃圾输出。数据增强在我眼里，和内容洗稿没啥本质差异。你把十篇内容稿件通过各种切分排列组合弄出来1000篇内容稿件，也是垃圾，而不是创造和知识。所以这种垃圾输入垃圾输出的数据增强方法，只能让大模型更傻。

那大模型怎么持续进化？我能想到的最好方法就是现在大模型的应用商店。传闻GPT应用商店里已经有300万个应用了。大家不用搞Lora微调和预训练，也不用搞指令调优，也不需要搞人工反馈的强化学习，也不用搞复杂编程开发，只需要提示模板调优+SaaS API调用就可以很方便做出一个应用。这个应用无法脱离大模型。只要人们使用应用，本质上就是源源不断地把数据输送给大模型。大模型把数据日常沉淀汇集起来，然后在大版本预训练时利用起来。每个应用产生的数据都很小，但是这么多应用产生的数据就如同无数条小河，汇聚起来就是大江大海。你如果因为安全考虑不想把你的数据沉淀给大数据，那对不起，那你用开源私有部署去玩吧。

所以，这种方法避免了数据资产的法律问题，也避免了数据增强愚蠢问题，还有了源源不断的新鲜数据血液。这个机制才是永恒永动的。

（3）技术

刚才提到了提示调优模板+公有云SaaS Open API调用。这里就再衍生一个技术：AI Agent。

Agent这个词大多在强化学习场景中使用。2023年Q4，一个新技术热词被Open AI公司内斗引爆了出来，那就是：Q* Learning。其实A*是强化学习的前置技术-动态规划中的一种算法，Q-Learning也是强化学习-时序差分中的一种算法。Q* Learning就是这么组合来的。

但是AI Agent这个热词在2023年引爆是在上半年，是在下半年Q* Learning引爆之前流行起来的。所以外行人眼里的AI Agent，其实和强化学习没半毛钱关系。

外行人眼里的AI Agent，其实是在上半年流行的提示调优模板相关。

大家都知道，现有人工智能还不能回答复杂逻辑的问题，所以大家想了一个办法，叫做：思维树CoT，意思就是把一个复杂逻辑问题，人为分解为12345步，这样就可以一点点引导大模型得到你想要的答案了。

所以，AI Agent其实是一系列2023年上半年技术的杂合，所以才有了现在AI Agent框架的说法，杂合了：

CoT模板-代码生成大模型、公有云SaaS-Open API甚至API工具（如Postman、Zapier）

RPA-UI层集成自动化、流程挖掘

SAP就想走这条路。但这条路和人工智能其实没有半毛钱关系，只是挪用了人工智能的思维树的思路而已。

（4）模型

2023年，中国发布了上百款套壳大模型以及所谓的垂直行业大模型。

依我对中国人工智能产业的了解，其实能做大模型的中国团队寥寥无几，一双手都能数过来。

其实，绝大多数所谓的大模型团队，连Lora微调都不会也不敢。虽然Lora微调也只是改动最后一层，但是即使改动最后一层也不会啊，况且改动完了还要做预训练，虽然预训练的代价已经很小，但很小也是需要不少算力的。所以，在中国，其实连Lora微调都不会做。

大多数团队只会使用提示模板调优。连RHLF（基于人工反馈的强化学习）都不会。毕竟强化学习比深度学习还难。

有些深度的团队会搞指令模板调优。

但大多数团队连所有的调优都不会也不敢，因为太消耗工程人力了。能做的，就是把自己的数据通过大模型API输入给大模型，然后让大模型自动输出结果。这就是真实的现状。

李鬼太多了。

即使是真李逵，敢于做Lora微调，敢于做提示调优和指令调优甚至RHLF，我个人认为垂直大模型也最终必然会被通用大模型吞没。

为啥我会这个观点？我类比个例子。经常有朋友问我：为啥你会这么独特地思考？我说：因为我的知识体系中有：历史、地理、政治、军事、金融、经济、哲学、人性、计算机、组织、管理，所以我的思考是多维的、非线性的、动态的。而大多数人知识不成体系，所以是单维的、线性的、静态的。

我之所以这么类比，就是因为垂直大模型就和大多数人一样是单维的、线性的，不会聪明的。真正的聪明一定是多维交汇的。就如同很多知名的数学家，在音乐造诣方面也不错，他们其实就是融会贯通。不融会贯通是走不远的。

（5）应用

2023年特别流行一个人工智能技术名词叫：RAG，意思就是检索增强生成。

这个热词来源于：微软Bing搜索，整合了GPT文本生成大模型，通过实时搜索避免了大模型因为预训练机制导致的信息陈旧问题，也通过文本摘要生成大模型弥补了传统搜索列出无数条链接内容让用户一一点开看的缺陷。

所以业界也想模仿New bing这么搞垂直搜索增强改进，所以产生了RAG技术的探索。

在说2023年流行的RAG这个热词之前，我再说说另一个技术事：向量搜索引擎、向量数据库。

我早先用的是ElasticSearch，在2020年我用了向量搜索引擎和向量数据库Milvus。

2023年，RAG火了，于是向量搜索引擎和向量数据库不知道怎么也突然火出圈了。

然后有一帮人不知是不知道呢，还是别有用心呢，就把向量搜索引擎和向量数据库，偷梁换柱李代桃僵，就等同于RAG了。

不过，热潮很快就过去了，2023年，向量数据库被证伪，又快速回到了自己过去擅长的领域。随之，RAG这股风也不如过去热了。

15 1 月 2024

AI硬核思辨：AI原生应用，在中国为什么卷不动？

对话主题:“AI落地进行时，让创新真正触手可及”

参与嘉宾：兔展智能董应赛、网易伏羲游戏李乐、WPS AI汪大炜、WeShop吴海波。

主持人：硅星人/品玩CEO骆轶航以下是对话内容实录：中国的AI原生应用发展这么慢的原因是什么？

骆轶航：感谢大家，刚才听了行远和博杰两位老师讲得非常好玩，行远其实每个东西做得看上去都跟大语言模型没有关系，其实这几年脉络是下来的，你无聊问答的那个东西做早了，你晚四年到五年做那可能就是完全不同的一个场景，其实我觉得特别有意思，他坚持一个路径能做一些非常有意思的事。博杰老师特别有意思，昨天我们几个朋友在一起讨论过这个问题，博杰老师把AI分成了有用和有趣两类，我们问你为什么不把智能、可感知、可推理甚至做一些最重要的生成当作一个划分呢？他说这是一个基础、一个标准没有这个我们谈什么？我们是在这个基础之上才去谈有趣和有用这两类。我还是做一个简单的调研，现在在场的同学们有多少人以为自己用过AI Agents？有多少人用过有用的Agent？说白了帮你法律顾问、财务顾问、文档顾问？有多少人用过有趣的Agent，陪聊之类的，我特别担心大家不用有趣的Agent。我进门的时候做那个测试，你向左还是向右，向左是愿意接受AI的陪伴，向右是不愿意，我义无反顾地选择了向左，作为一个i人，我觉得不是一个E人，我觉得如果可以不跟人沟通，用AI陪伴我觉得也还蛮好的。其实我觉得AI陪伴有用的维度我可能有一个观点跟博杰老师不太一样，跟这个阶段不太一样。但是博杰老师是在做事，我是在扯淡，这是差别。如果我们真的相信成本未来能够降下来的话，有趣一端能够创造更大的价值，因为这个世界大部分是有用的，他们也不会做很多的事情，这是一个很有意思的事，我们今天就落地去聊一聊AI的应用、AI的应用能够产生，我们怎么能够尽快地去落地，我们先上来给每个人拍一个砖，问每个人一个问题。过去也一年一些大佬拼命地去跟大家去讲，我们不要再去开发那么多模型了，“百模大战”东西太多了，赶紧开发应用吧。但过去的一年事实上至少在国内并没有出现真正的所谓的native AI APP的大繁荣，一部分人还在卷模型，普通人对AI应用很多时候可能无感，可能少部分的AI应用，最近这一两个月可能会有爬坡。我相信现在有的人可能注意到豆包现在投放量蛮大，有人人还用到了豆包、还用到了星野，海外用户可能大家都用Character AI、包括用派、用AI等等，但是其实整个应用在国内没有得到一个大的繁荣，很多平台也都推出了自己的工具包，希望开发者去开发应用，好像也没有那么多，原因是什么？是模型不行？还是什么原因？大家的观察，我相信各位都在做，有基于国内的基础模型去做的，也有基于海外的模型去做的，大家能不能直言不讳地讲讲这个原因。

“底层模型做开发还是有差距，是需要承认的”

董应赛：原来经过这几轮技术的更迭，大家可能会通常有一个认识，觉得可能在中国移动互联网，可能会更繁荣一点，就是做应用这个事在中国更有热情，大家更愿意去做，而且用户基础也在这里，觉得中国通常都会对做这件事情，或者说回到这个问题上开发AI APP的热情以为会比美国更多一点，我觉得这一次通用人工智能最重要的还是基础的技术是不是做得很扎实，这个应用的效果才能做得好。我自己的体会是因为我原来在Mate、在Facebook工作过几年，我一直跟我美国的朋友有交流，其实是会发现国外它有一个跟中国最大的一个不同就是大家的人才密度其实还是更高、更集中一点。比如说真的是OpenAI、Google等三家人才密度是非常高的，在资源、资金、算力，人才投入在相对集中的公司里面，做出来的模型确实是很好的。比如说大家都在说是不是做了接近于GPT4的能力了，刚才前一场沙龙的交流过程中听到几位专家的说法其实也比较有自信会觉得可能差距没有那么大，但是我们自己的体验在应用端，要基于这些底层的模型来做一些开发的时候，还是会觉得是有差距，是要去承认的。而且在国内事实的情况是比较分散。

骆轶航：模型太多了是吧？

董应赛：模型太多的，人才不够集中，僧多粥少，哪怕在国外、在美国做这些AI研究的公司中华人占比不低，国内大家如果更集中一点这个事情是能做得比现在更好的，大厂也想做，也涌现了很多创业公司，资金也会比较分散，可能后面我们再聊一些投资都有问题。回到根本的问题上，可能还是底层的模型，至少我们现在感觉还是有一些差距的。所以在这次AI这个浪潮里面跟之前的不同，比如说移动互联网里面，无论是抖音还是做社交平台，更依赖于底层的技术是不是成熟才能把一个应用给做好，我觉得这个是我想来分享的。

“技术永远没有做到最好的时候，但是我们却可以在目前的技术条件下做出很好的产品”

李乐：我的想法可能会相反。我举个例子，当然这个是游戏里面的例子，我昨晚也说过，2018年的时候，我就把一个SQL TO SQL的模型放到游戏里面去，那个能力大家能感知到的，可能连个小学生的作文都写不清楚，我们就很好地选择了一个游戏里面的养育系统这样一个场景，就是现在游戏里面玩家生出来的那个小孩，把对话AI加到小孩上面去，小孩的父母亲就是那些玩家可以跟小孩进行聊天。即使在这样的2018年年底那样一个技术水平下都有非常多的玩家跟他去进行聊天，所以从我的角度来说，我觉得对做产品的人来说，我觉得有更高的一个挑战，就是我们要在现有的基础情况下根据我们业务的场景去想我们应该去做什么样的一个应用，所以我觉得我们做产品的人应该要有更多的思考和主观能动性在里面，所以这个应用的市场才能做得更好一点，所以这是我的一个看法。另外一个，当然我觉得不要把它变成一个吐槽性质的东西，我们国内的模型跟海外有多大的一个差距，我们看到从现在这个时间点来看，大家已经比去年上半年的时候信心足了很多了，而且还在快速地研发的过程之中，各种性能也在不停地提升。但这里面会涉及到很多的问题，我觉得因为国内还是会做得慢一些，特别是很多高质量的开源的模型拿出来给市场的也慢一些。从我的角度来说，我了解到很多的公司也看到了市场上面一些好的例子以后，他们也有所触动，也在做相关的一个东西，我觉得站在游戏行业这个角度来说，可能在今年年中左右会有更多更好的应用出来，它可能是一个时间窗口的问题。当然，我觉得还有一个问题就是目前来看AI还是很贵的，就是你的研发很贵，你的线上推理很贵，特别是在我们游戏的场景。我们的QPS是非常大的，游戏方承受的压力也很大，大家游戏要做差异化，他们真的就是咬着牙跟我们一起做创新，我们也希望这一块算力的成本，不论是我们训练的成本还是我们在线推理的成本，都能够尽快去降低。骆轶航：我特希望我们的嘉宾在台上这么能够打起来，提供截然不同的看法，模型确实还是有问题，人才我承认，如果全球有一百人能做的，人家三家加起来占80个你确实很难受，即便这样的情况下模型还是有进步的空间，做产品的人怎么能够更快地具备AI的思维，我们那会儿老提互联网思维、移动互联网，但是做产品要有AI的思维，用好自然语言，打开他的想象力去做一些事，昨天李乐老师秀了一个demo我就非常开心。接下来让汪大炜聊一聊，你们可以不讲你们怎么进入的，你们可以讲一点感受。

“需要更多的工作来让模型与用户需求匹配起来，用户也在不断学习如何更好地使用AI应用”

汪大炜：我讲一下从去年到今年一共发生了什么事情，这个可以去解答为什么，某一部分可以解答中国为什么做应用的人比较少，我们很早就做AI了，我们2017年就开始做AI相关的事情，但那时候CV、语音这种场景的，还有翻译校对，去年12月我们就关注到GPT的事情，关注到这个事情到底能不能做？真正启动大概是2023年2月份，当时整个公司开了一个会，核心的骨干都在一起说这个事情，我们判断这个事情可能会颠覆未来办公的方式，大家一定要投入到这个里面，当时我们内部两千多号研发，所有人如果你今天不去聊天AI的事情，可能你就会逐步逐步被淘汰那种感觉就会很明显。在那个时候我们就开始找包括国内的、海外的模型的服务商，因为其实我们其实本质上不太做大模型，我们更多的还是用户场景里面找到用户的场景，去给用户提供这样的服务，所以我们找这样的合作方说哪些服务是合作方可以给我们一起共创、一起支持。海外的包括谷歌的、OpenAI我们也找了，国内的大家也看过包括 Mini Max这些、百度我们都有相关的一些合作，然后我们就开始做两件事情，第一件事情是看用户的场景里面有哪些是可以AI化去改造的，因为我们觉得AI化改造之后是能给用户带来很强的或者很大的效率上的提升，那我就去找一些事情，包括当时我们还去找了一些翻译的专门做出版社的翻译的老师，包括去做一些用语言的事情，找哪些产品可以做到。然后我们就发现了6月份发布会我们说了几个方向，比如说AIGC的方向、Copilot的方向和那个 inside方向，我们在做这件事情的时候，跟这些模型就开始说我们接进来，接进来我们调，看怎么样可以接到这个场景里去，那个时候整个行业里面的应用都是像对话式的交互方式的，我右侧一个对话面板跟它说一个我的需求，它帮我做完，基本上是这样子，我们朝着这个方向去努力，模型方我的需求是这样的，办公场景你给我做一些什么样的适配，生成的大纲你给我做格式的标签，大模型里面没有语料和训练，要把这些训练项目加进去一起去训练，让它带格式的属性标签出来，方便我后面做数据的操作，那个过程中6月份我们开了一个发布会告诉大家有这个事情可以做内测的时候，当时我们的感觉是模型叫勉勉强强可以用，可以放进来，这个完整的链路看上去可以完完整整地去使用，大概是这种感受。我们去内测过程中就发现了一些问题，用户在真正的办公使用场景里面它的任务是一个复杂的任务，不是一个简单的单一任务，当我以一个指令的方式，以一两句话，或者几句话去让他做这件事情的时候，他没有办法把这件事情一步一步猜出来，而且这个上面每一个人的想法、每个人需要改的地方都不一样，我们上了一个月的内测，我们今天的产品在今天的WPS里面是有问题的，我们后续不断地去做修改。大家可以看到最早一些用户右侧浏览这种方式很舒服，实际使用过程中我生成一个PPT难道里面的大纲内容不改呢？肯定要改，AI生成的内容跟你想要的内容是不是符合的，没有办法一步到位，你一定会去改这个东西、一定会去调整，一定会去加进自己的东西，一定会往后走，我们把AI整体的能力打散，放到用户功能流程里面每一个部分加持它，这样的情况下你会感觉变得聪明，整个过程中模型也会不断地迭代，真正到年底我们真正发公测的时候，这个模型是超过我们想象中的进步的。虽然跟OpenAI还是有一定的差距，跟3.5还是有一定的差距，但是你觉得我可以用这个，我们用户用他使用的数据告诉我，他已经真正地在用这件事情，有一部分已经用到了他的整个生产环节里面去，或者工作环节里面去，这个是我们看到觉得未来一个比较好的方向，在未来可能1年多的时间里面我们认为还是这样的方向在整个产品或应用层面的一个表现。回到这个话题里面来说，我觉得今天的国内的基础模型不是不能用，也不是说很烂、很糟糕，其实他们已经在有些场景下、有些应用的方向上有个很好的基础在上面，只是我们真正地到了用户的使用过程当中，我们真的需要做很多的事情，让用户的需求跟我模型的匹配能做起来。同时我们也看到用户也在学习，这是一个很关键的因素，我们6月份之前，我们看到用户其实在整个使用过程当中问问题，跟现在问问题的质量真的会有差别。所以我觉得这两个因素会慢慢逐步逐步地去改变大家去做AI的应用的部分的能力。

骆轶航：大炜你刚才讲这些东西都可以写个文章了，上半场我们聊TPF，TPF怎么去实现，俊旸讲的吧，铁震和俊旸两个人讲的，TPF这个事是试错试出来的，这个就是典型的TPF的过程，没有人告诉你答案，这个就是典型的TPF的过程，这个TPF的过程不仅是产品团队自己的P怎么去适应这个不可知的T，其实用户也参与进来了，我觉得这个过程实际上是一个特别特别有意思的过程，尽管这个东西跟一开始你们想的不一样，这个探索还是有价值的，我也知道你们4月份的时候，我就跟庆元总去聊过，当时的想法很美妙、很乐观，一年扑腾下来很多东西什么是能实现的，什么是不能实现的，大家有更清晰的认知，他这个特别好，但是肯定要花时间。

“现在的应用更容易被吃掉动手才知道基础模型的边界在哪里”

吴海波：我们是最近一年AI应用中商业化走得比较顺的。我觉得这个问题可以拆成两个问题相对讨论。第一个问题是native的AI APP是什么东西？

骆轶航：有这个东西吗？这个事存在吗？现在每年没有共识的概念。

吴海波：刚才这个问题的讨论是说这个APP的生态没有起来，这一拨跟上一拨有个巨大的区别，比如说以WeShop举例，我做一个电商行业的商拍，就是把商家都是要上架到线上，需要一个商品，让AI可以做一个更有效率的事情，所有人都会问一个问题，淘宝做了怎么办？抖音做了怎么办？拼多多做了怎么办？那么你在中国这个环境下避免不了地要去讨论这个问题，你做native AI APP的生态的繁荣是不可能几个大厂在那里搞几个APP出来，一定是靠千千万万的开发者冲进来，这个问题不只是有中国出来，我记得11月份的OpenAI开发布会，Twitter上有一个大V发了一篇推，OpenAI给我发了500美金的优惠券拿走了我500万美金是指的公司，大概是这个意思。我觉得中国我们以前的环境中大厂对我们的拷贝是另一个维度的东西，今天有一个维度的东西，我特别喜欢我们刚才讨论的是基础模型，公司用得比较多的是SD，SD不算大模型，单机就可以跑起来，它确实是foundation model，这个东西它在不停地吃掉一些应用层面的东西，它天然就能做应用，所以这个时候native APP没有火起来我觉得有很多很多开发者他是有顾虑的，他觉得自己一轮下来一个创新的点子有可能再过半年、一年东西没有了，场景不存在了，给另一个公司直接就吃掉了，所以这个问题不止国内，全球都有这个问题。

骆轶航：叫This model is eating native APP。

吴海波：今天如果要做应用，绕不开什么是native APP，这个东西我肯定是没有共识答案给你，但我脑子里可能有一些什么不是，大概是这个意思。关于中国的基础模型，我觉得现在是非常make sense可以理解，整个基础模型是要去争一些东西，这么多大厂他们有资源，相关有资源的人肯定要投入到这个事情上拿到一个票，现在我们国家，至少国内最好的技术、最好的资源都在做这件事情，make sense，从年初到现在看到他们的测试，我们按我们自己的场景去测，它持续进步是很快的，只是对应用的来讲，这个东西一定会成为应用行业的β，整个行业的β就像移动互联网，整个移动互联网的β不停变好的时候所有人受益，我做应用的要思考的点是我是不是α，如果我不是α，我做的事情是给β那我就完蛋了，所以我们核心是想什么是α、什么是β？但是讲了这么多好像没有什么结论，我想说的点跟前面两位嘉宾是类似的，你要动手，你动了手你才知道foundation model的边界在哪里，你才知道你的客户是怎么给你反馈的，你坐在这里思考非常哲学的问题，因为这些东西我们做应用很多做产品经理出身的人非常喜欢在哲学层面上去做很多这样的探讨、逻辑对应，可以讨论得非常形而上，但是落不了地的时候你没有感觉，一定要把自己的手弄脏才会有感觉、才会进来，我觉得这是一个非常关键的点。所以我是比较认同我们是一定要实践出真知的。

骆轶航：总结一下四位，应赛和海波客观地强调了现实、现状其实对应用造成的一些挑战，我觉得两位讲的第一个观点某种程度上我也是同意的，基础模型，基础模型的话，比如说它是GPT4，你是另外一个类似的东西，你是另外一套基础模型，其实如果你们之间有差异是会影响，这个东西其实某种意义上延缓或者阻遏了我们中国的这些产品经理的产品感和产品能力，某种程度上被这个东西所影响，其实现在应用更容易被吃掉，更容易被base model的某一部分能力吃掉，当然移动互联网早期也有这样的事情，但是我们发现这个东西更容易被吃掉，这是一个现实。但是各位谈到另外一个话题也很重要，就是动手，第一个就是基础模型有差距，但它其实赶的速度蛮快，这个我不得不承认，过去一年，我们就不说小的开源模型了，大的模型我们说陪伴模型，我天天玩陪伴，它的进步我还是非常有感知的，文心一言的进步你是肉眼可见几个月一次进步的，智普跟百川同一个道理。另外一个product market这个东西是靠动手试出来的，它不是靠大家想出来的，不动手就能有这个东西的，我觉得不是。

15 1 月 2024

深度观察：智能戒指、脑电波传感、生成式AI的新时代？

一年一度的科技界的“奥斯卡”CES已经落幕，但留给大家的震撼还未消散。作为科技界的重点保留节目，CES汇集了全球各地的新产品和黑科技，吸引了包括英伟达、英特尔、AMD等4000多家企业参加，来自中国的企业超1000家。

这是疫情后最热闹且具有看点的一届。空间计划的传说、智能家居的新玩法、芯片大厂的全新阵容、科技巨头们都拿出了看家本领争夺场馆“C”位。

与其说，这是一场消费电子展览，不如说，这是一场大型技术见面会。各个品牌产品百花齐放，实际上更多了一层暗自较劲的意味。来自东方的力量也不甘示弱，漂洋过海的黑科技引来不少现场观众驻足关注。

那么，全球消费的电子风向标将指向哪里？此次含金量满满的“科技届春晚”，谁能成为“主角”？以下，Enjoy：

智能枕头、同声传译耳机？

这届智能家居、智能穿戴有点卷

CES 2024上，智能家居和智能穿戴的发展态势超乎意料地多元蓬勃。小到耳机、手表，大到智能门锁、同声传译，将日常生活的大多需求无孔不入地考量在内。无论是亚马逊、三星的头部玩家，还是各家后起之秀，都展示了一波实力。

1.智能穿戴：

CES 2024上，诸如智能锁、智能戒指等智能穿戴的多种打开方式，正如电影科技照进现实。

Lockly智能锁团队的最新产品能够支持面部识别，还可以与NFC配合使用，通过两个2MP分辨率的红外传感器进行双目面部识别，2.6英寸内，智能锁得以在1.5秒内解锁。同时，飞利浦则针对用户手掌进行设计，推出手掌识别智能锁Deadbolt，可以记录不同年龄段的人高达50多种掌纹。

NeurGear团队推出的ZenBud耳机则通过超声波技术，利用刺激迷走神经来放松身体。迷走神经在人体中发挥着多项重要生理功能，如消化、呼吸、心率等。

中国厂商带来的Helio Ring智能戒指，采用了钛合金的材质，通体不到4克重，具备心率、睡眠、压力、血氧饱和度等健康监测功能，同时，还可以基于检测数据，给予健康指导。也有网友激情发言：智能手表尚不舒服，智能戒指能否保证不是睡眠紧箍咒？

对戒指做文章的还不止一家，VTouch另辟蹊径，将戒指化身为了一款移动麦克风，内置麦克风和距离传感器，当戒指靠近嘴巴时，麦克风就会被激活。并且，出于安全考虑，单击5次戒指就会自动触发报警，并记录当时的环境声音。

很多网友曾开玩笑：近视眼的眼镜一摘，听力也直线下降。EssilorLuxottica带来的助听眼镜则正是针对听力损坏的问题出发。Nuance Audio 眼镜，主要适用于轻度至中度听力损伤的群体，在镜框设有波束形成麦克风，头部轮廓用以校准算法，可以定向增强说话声。

2.智能家居：

宠物追踪、读取脑电波、缓解打鼾……CES 2024上，智能生态不是梦。

Motion Pillow研发的智能枕头让爱打鼾人看到希望，它可以通过AI识别调节枕头高度，以使用户头部呈现对应角度，以解决打鼾问题。

2.智能家居：

宠物追踪、读取脑电波、缓解打鼾……CES 2024上，智能生态不是梦。

Motion Pillow研发的智能枕头让爱打鼾人看到希望，它可以通过AI识别调节枕头高度，以使用户头部呈现对应角度，以解决打鼾问题。

Withings研发的Beam O，是一款多功能合一的家庭类健康监测设备，能够实时测量体温、读取血氧水平、甚至充当听诊器检测用户身体状态，以及配合做心电图。产品小小一个却高科技含量满满。

Mywave研发的Pebble，作为一款脑电波传感器，需要被贴在额头上。在用户睡眠过程中，Pebble可以追踪眼动期到深睡期，根据脑电波生成自定义的睡眠轨迹。并且，数据上传后，还会生成对应的助眠曲。

巨头的技术“撞衫”

芯片领域，英伟达、英特尔、AMD等巨头相继亮相；屏幕领域，三星、LG、TCL也不甘示弱。

1.游戏体验拉满的英伟达

英伟达在展会中展示了游戏、创造、生成式AI和机器人创新相关产品，还进行了一场特别演讲。英伟达再次为游戏党带来福音，发布了GeForce RTX™ 40 SUPER 系列 GPU，作为AI PC的核心硬件，如Matt Wuebbling所说：“GeForce RTX SUPER GPU 现已支持超过 500 款 RTX 游戏和应用”，性能再翻。

与此同时，英伟达推出了NVIDIA Avatar Cloud Engine（ACE）Production Microservices，开发者可以通过 ACE 微服务，利用 NVIDIA Audio2Face™（A2F）等 AI 模型，以及 NVIDIA Riva 自动语音识别（ASR）构建游戏和应用的虚拟角色。

全球视觉内容缔造者 Getty Images 在 CES 发布的iStock 生成式 AI 工具，则也是基于英伟达定制的AI模型生成服务，以为设计师和企业提供从文本到图像的生成工具，创建可授权的视觉效果，包括对生成图像的法律保护和使用权。

英伟达的技术还蔓延到电动汽车领域。众多 NVIDIA 汽车行业合作伙伴在拉斯维加斯举办的 CES 上展示了先进的技术，包括梅赛德斯-奔驰、Luminar、Ansys、Cerence等。

2.野心勃勃的英特尔

CES 2024中，英特尔同样推进“AI无处不在”战略，正式宣布进军汽车市场，主攻智能座舱芯片、电车能源AI管理、开放式汽车芯片定制平台三大方向，并将首款上车的芯片命名为“SDV”（Software Defined-Vehicle），主打软件定义汽车的理念。

同时，英特尔执行副总裁、客户端计算集团总经理 Michelle Johnston Holthaus还透露：核心Chiplet技术产品Arrow Lake处理器和Lunar Lake处理器将于2024年下半年上市。

3.潜入汽车的AMD

AMD在CES上宣布了口号与野心：Advancing AI PCs。此次，AMD着重升级了桌面APU产品线。推出了四款全新APU，统称为 Ryzen 8000G 系列。

它不仅展示了8000G系列APU和Radeon RX 7600 XT 16GB显卡，也在汽车领域有所作为。

AMD首款通过汽车认证的7nm器件，Versal AI Edge SoC引入了先进的AI引擎，能够优化包括前视摄像头、车舱内监控、激光雷达、4D雷达、环绕视图、自动泊车等在内的多种性能。

4.三星：世界首款！

三星和LG两家不约而同在CES 2024上推出透明屏幕，摸索着技术领域的潜力。

三星在CES2024上推出了世界上首款透明Micro led显示屏，两款彩色玻璃面板和一款完全透明的面板，能够提供高像素密度的清晰锐利的图像。

三星的透明屏主要利用了Micro LED技术，突破了传统OLED屏幕的能力，可以精确控制单个像素，并且受光的影响较小。

虽然只是原型机的概念展示，但也给了现场亿点点震撼。

5.LG：透明大杀器来袭

同样是在CES2024上，LG亮相的大杀器则是无线透明OLED电视，不仅拥有4K画质、77英寸大屏，还具有无线特性。毫不夸张地说，购买者可以将这块屏幕放在家中任意位置，例如客厅原本放置屏风的地方，作为装饰品。

当进入AOD模式时，设备就可以作为一个动态艺术品融入家庭环境中，例如山水画、艺术品，乃至鱼缸……

此外，LG还将屏幕“平移”应用到汽车上，P2P P-OLED，可以将仪表盘使用的12.3英寸P-OLED和中央屏幕使用的34英寸P-OLED连接在一起，完全代替传统仪表盘。

6.TCL：屏幕又双叒叕变大

TCL作为本届CES中展区最大的中国企业，也展示了在屏幕方面的技术扩展。虽然没有类似的透明屏幕技术，却在原有的98英寸QD Mini LED电视的基础上，继续拓宽电视的边界，推出了全新的115英寸QD Mini LED产品QM891G。

全新产品QM891G也成为了当前尺寸最大的QD Mini LED电视。

如果只将其运用于家居或者商用，那就限制住了该项技术。TCL实验性地推出了42.7寸“超大异形车载一体式显示屏”，不但可以实现8k分辨率，还能实时捕捉驾驶员状态，以减少分心和事故。

生成式AI的科技与狠活

生成式AI成为了CES 2024的一大看点。生成式AI+万物=无处不在。

WeHead的另类显示器则将生成式AI拟人化，能够提供类似真人的“面对面”服务，以实现和用户的自发对话。该设备主要通过AI Agent控制3D设备、转动机器人头部、模仿人类交流以增强交互体验。

一直备受瞩目的VR、AR、XR，仍然是CES的重头戏，开始在更多新型场景尝试落地。

索尼推出了一款搭载智能控制环的“空间”VR耳机，包含新的XR头显和手柄设备，专为“空间内容创作”设计，用户可以在虚拟与现实之间自由切换。设备采用 Snapdragon XR2+ Gen 2 平台，搭载4K OLED 微显示器和视频透视功能的XR头戴式显示器。
索尼的首席执行官表示，这款产品专为从事 3D 工作的专业人士打造，可以通过将虚拟对象叠加到物理空间，以扩展创作思维。

TCL实业旗下雷鸟创新推出了第二代双目全彩MicroLED+衍射光波导 AR眼镜雷鸟X2 Lite，作为全球首款搭载第一代骁龙AR1平台的双目全彩AR眼镜，整机仅重约60g。

Solos推出了一款搭载ChatGPT的智能眼镜Solos AirGo3，以实现实时翻译的功能，得以实现跨国界无障碍交流。

Baracoda基于生成式AI，研发了全球首款智能镜子BMind，根据用户的精神面貌提供个性化的修养建议，例如光疗、冥想、自我肯定等，以实现情绪改善，精神感知。

生成式AI的“助手化”趋势也日益增强。如：梅赛德斯-奔驰推出了对话AI虚拟助手；大众汽车紧随其后宣布所有车型搭载ChatGPT；华硕手机加持生成式AI能力以提示语音搜索、壁纸更换；联想新品电脑支持智能助手配文、问答、交互等。

汽车与机器人的多种形态

机器人和汽车一直是技术应用的行业前沿领域。此次展览，许多意想不到的公司为汽车领域注入了新的活力。

CES 2024中，小鹏汇天此次参展的陆空一体式飞行汽车，面向未来立体交通而设计。在陆行模式下，机臂、旋翼等飞行系统可完全折叠收纳进车体内；通过折叠变形系统，可以打开机臂切换到飞行模式，在条件允许的环境下实现垂直起降，飞越拥堵、障碍、河流等，满足人们短距离低空出行的需求。此外，陆空一体式飞行汽车还采用了可折叠方向盘、透明仪表盘、驾驶舱透明底盘等前瞻“黑科技”，智能座舱可以在陆行模式与飞行模式之间自由切换。

一直为影音设备出名的索尼，此次在CES 2024中“毫不客气”地展示了智驾实力。

Afeela是索尼注入游戏思维的造车尝试。PS5手柄作方向盘、Epic Games的虚拟引擎5.3支撑超宽仪表显示屏、加入3D地图与本地影音游戏、摄像头。用户既是驾驶者，也是玩家，能够用操作手柄的方式开车，趣味性十足。

宇树科技作为国内的机器人领袖，展示了三款已经备受好评的机器人：消费级机器狗Go2，行业级机器狗B2，以及通用人形机器人H1。

消费级机器狗Go2，再次秀了一把中国实力，其价格设定也更偏向于消费级。现场带的原本仅用于展示的7套Go2，就被观众一天内直接买走了4件。并且，这类机器人可以用于电力巡检、环境探测、抢险救灾等场景。

现场体验过程中，机器狗和机器人的表现也格外引人注目。

RichTech Robots带来了会聊天的机器人咖啡师。接入ChatGPT以后，AI咖啡师不仅能现场制作咖啡，还可以根据识别到的人物身份进行沟通聊天。在和情侣面对面时，它还主动念了情诗。

法国机器人创企Enchanted推出的两款机器人Miroka和Miroki可用于医院和酒店配送、物流任务。

韩国机器人创企WiRobotics推出了一款内置个性化AI教练的超轻量步行辅助可穿戴机器人WIM，称这一设备能减少用户20%的步行能量，帮行动不便的人获得更好的锻炼体验。

CES（国际消费电子展）自1967年6月在纽约首次亮相，至今已57年。作为科技行业含金量满满的风向标，CES 既是一场技术盛会，也是一场研发者与消费者互动的平台。

无论是智能家居还是电子芯片，科技发展已然驶入快车道。占据主流的产品设计，将始终服务于人、思考于人、应用于人。科技无孔不入地为每个家庭提供便利。IPC首席经济学家Shawn DuBravac曾表示：“拥有改变生活想法的人，肯定会找到实现这些想法的方法。

”创业者总能找到创新的地方。
路虽远，走在科技前沿、愉快地拥抱未来，一切都值得期待。

15 1 月 2024

谷歌千人被裁引硅谷裁员潮！27家公司宣布裁员，90%大厂码农工作遭AI冲击

过去一年，AI大模型如火如荼的发展，让所有人憧憬着美好未来。

没想到2024年的开启，却是硅谷大裁员！

大厂谷歌却是首当其冲，裁员1000多人，涉及了核心工程、谷歌助理、Pixel手机等硬件团队的人员。

截至2023年9月30日，谷歌拥有18.2万名员工。此次裁员是继2023年开年裁掉12000人之后，最大规模的一次裁员。

同在今天，Meta的Ins团队裁掉60个技术项目经理，Discord裁员17%共170人，皮克斯传言将裁员20%约300人。就连刚刚成立的初创公司Humane都裁掉了10人。

据统计裁员数据网站Layoffs.fyi统计，目前已有27家公司在今年宣布了裁员，总人数达4500+人。

就近2年的情况来看，开年大裁员几乎快发展成了硅谷的惯例了。

去年新年刚过，也是各个大厂领头，大批硅谷程序员喜提「毕业」。

去年谷歌开年直接裁员12000人，今年的数字和去年相比，其实说明行情已经好转很多了。

相比谷歌针对常年做不出成绩部门的人员缩减，反而是像皮克斯，Discord这样的中小企业，因为行业发展收到新技术的冲击，或者整体上进行的控制成本式的裁员，更能说明整个科技行业依然走在下行过程中。

千人「毕业」，谷歌高管也在其中

ChatGPT诞生以来，谷歌便一直以追赶的脚步前进。

Bard、PaLM2、Gemini多模态模型等一系列发布，都在为了弥补与微软OpenAI的差距，这是注定是一场持久战。

在专注AI研发的同时降低支出，科技巨头谷歌也在周三加入了2024年的裁员潮。

三名知情人士表示，谷歌解雇了核心工程部门、谷歌助理——语音操作虚拟助手，以及制造Pixel手机、Fitbit手表和Nest恒温器的硬件部门的员工。

大多数硬件部门裁员，影响到了一个致力于研究增强现实（AR）技术的团队。

具体来说，这次裁员不仅包括普通员工，高管也在其中。

在谷歌向加利福尼亚州提交的文件显示，「本周该州有630名员工被解雇，其中包括4名副总裁和25名董事。据称，这些级别的员工通常年薪数百万美元」。

Fitbit的发言人证实，作为重组的一部分，Fitbit的联合创始人James Park和Eric Friedman也将离开谷歌。

谷歌曾在2019年，以21亿美元向这家智能手表公司提出收购要约。

2021年1月谷歌完成对Fitbit最终收购后，James Park继续担任Fitbit的副总裁兼总经理。随后，他为谷歌发布了Pixel Watch和Pixel Watch 2，最后一次亮相是在去年10月份。

据一名现任员工和一名前员工透露，今年的裁员是由副总裁和人力资源等较低级别的领导人传达的。

谷歌发言人在一份声明中表示：

我们正负责任地投资公司最大的优先事项和未来的重大机遇。在2023年下半年的裁员之后，一些团队正在继续进行这种组织变革，其中包括全球范围部分职位的裁减。

具体裁员人数曝出

谷歌在不同地区裁员人数具体是多少人？

外媒一篇报道，直接挖出了谷歌内部裁员的员工名单，细致到岗位、部门等等。

MountainView、旧金山和Sunnyvale共有702名员工受到影响，其中包括UI设计部的许多员工。

以下是根据提交给州政府的文件，按地点列出的旧金山湾区员工裁员名单：

查尔斯顿路1900、1945、1950、1965和2000：56名员工受到影响，其中包括一名主要产品运营人员、用户体验经理和设计师、产品经理和软件工程师。

1600 Amphitheatre Parkway：177名员工受到影响，包括软件工程总监和产品经理，以及数十名软件工程师和产品经理。

1200、1300、1400和1500 Crittenden Lane：63名员工受到影响，包括软件工程师、用户体验研究员和经理。

2019、2027、2029、2051、2061 Stierlin Court：68名员工受到影响，包括技术项目管理总监、硬件工程经理、电气工程师、机械工程师和技术项目经理。

325 Gladys Ave.：随着公司「停止运营」儿童中心，72名员工将从8月9日起被解雇。所有员工均为儿童保育员或中心教师。

旧金山（裁员时间为3月10日至5月26日）

55 Spear St.：42名员工受到影响，包括用户体验经理、设计师和工程师。

345 Spear St.：26名员工受到影响，其中包括2名产品管理总监、1名软件工程总监和1名软件专业化总监，外加1名销售副总裁。

215 Fremont St.：23名员工受到影响，其中包括1名硬件总监和用户体验总监，以及1名工程副总裁。

One Market St.：14名员工受到影响，其中包括1名产品分析总监和技术撰稿人。

Sunnyvale（裁员从3月10日开始）

1225, 1260 and 154 Crossman Ave.：102名员工受到影响，包括基础设施和数据中心运营总监，以及产品管理和软件工程。

225, 227, and 242 Humboldt Court：69名员工受到影响，其中大部分是软件工程师。

看得出，目前这些裁员名单还只是在加州的员工。

在「一亩三分地」论坛上，有网友表示自己作为谷歌助理团队一员被踩了。

对于裁员的补偿，一名匿名用户解释道：

准确说，不叫裁员，而是「取消岗位」，60天让每个人转组。实际上就等于裁员。

谷歌以「取消岗位」标准裁员，能够减少补偿支出。而这一标准包也比裁员的要差，先给2个月的工资，如果没有找到组的话给14+n weeks，也没有加速vest。

关闭幼儿园，缩减员工福利

这次裁员，还使得谷歌关闭了一个有300个学位，专门为员工提供服务的幼儿园，并解雇73名员工，砍掉了一个对于很多员工来说非常重要的福利。

幼儿园预计于今年8月关闭。失去日托服务可能对公司的在职父母及其招聘工作来说造成不小的影响，加上谷歌去年还削减了一些办公室的其他福利——免费更换硬件产品和办公室免费的零食供应。

在谷歌，CEO劈柴自2022年7月以来一直在推动公司，在全球经济状况恶化的情况下，突出重点减少开支。

2023年1月，谷歌曾裁减了6%的员工，即1.2万人，这是该公司进行的最大规模的裁员。在裁员之前，谷歌共雇用了19.07万名员工，还在全球还有数万名承包商。

自那以来，该公司的高管一直表示，他们将努力大幅降低成本，以专注于生成式人工智能领域。

截至9月30日，谷歌共有18.2万名员工。谷歌称，周三的裁员是正常业务过程中进行的一系列重组的一部分。

然而，代表谷歌母公司Alphabet 1400多名员工的Alphabet工人工会称，此次裁员是「不必要的」。

我们的团队成员每天都在努力工作，为我们的用户打造优秀的产品，公司不能在每个季度赚取数十亿美元的同时继续解雇我们的同事。

一些谷歌员工已经将1月，看作每年一次大规模裁员的「新传统」。

据谷歌透露，随着部门层面做出决定，预计整个1月还会有更多裁员。

Meta裁掉60名Ins技术项目经理

根据美国职场匿名曝料网站Blind曝料，Meta将Instagram的所有技术项目经理（technical program managers）都裁撤了，不过普通的产品经理没有受到影响，裁员人数大约在60人左右。

和谷歌一样，这个裁员的数量相比于去年，几乎可以忽略不计。

Meta在前年底和去年初经历2波史诗级裁员，裁掉了差不多21000名员工，小扎也不得不亲自发视频对裁掉的员工道歉。

而这次的裁员，根据曝料网站的成员来看，更像是因为技术的影响使得团队中的有些角色失去了存在的意义，从而被裁。

不过网友也认为，职场上每个人能否发挥作用和岗位有关，但是人的因素也很重要。

皮克斯裁员：传言整体裁撤20%

根据公司的消息人士表示，皮克斯裁员规模将高达20%，使得1300人的团队在未来几个月内减少到不到1000人。

而根据内部人士的曝料，作为迪士尼的子公司，被裁的很多皮克斯员工其实是属于迪士尼的流媒体部门，属于迪士尼的流媒体控制成本转向盈利计划的一部分。

而同时，因为皮克斯今年会缩减产出作品的数量，也导致了劳动力需求的降低。

值得注意的是，去年底，另一家动画公司梦工厂的联合创始人Jeffrey Katezenberg曾在公开场合表示，因为AI技术的发展，未来3年内动画行业的成本将会降低90%。

预言一出，这翻过年来皮克斯就来了一波20%的裁员，看来在不久的将来，动画制作行业的裁员依然还会继续。

其他公司加入裁员潮

除了以上的硅谷公司，还有一大批公司将在2024年初加入这波裁员潮。

3个月前，发布首款AI硬件AI Pin侧初创公司Humane，从硅谷获得2亿美金的融资，其中还包括Sam Altman。

如今，AI Pin还未正式发货，这家由苹果前高管成立的公司宣布裁员4%，共有10人。

其中一位知情人士说，领导层最近告诉员工，今年的预算将会降低。

虽然该公司表示，这是更广泛重组的一部分，但这样的裁员并不能完全给予员工信心，尤其是考虑到公司的主要产品在去年推出后受到的困惑和质疑。

昨天，亚马逊正在裁员旗下Prime Video和亚马逊米高梅工作室（Amazon MGM Studios）的数百名员工。这是亚马逊自2022年11月开始大规模裁员以来，新一轮针对性裁员。

此外，社交软件Discord也宣布裁员17%，将影响到不同部门的170人。

据首席执行官Jason Citron向员工传达的信息，Discord并没有陷入严重的财务困境，尽管它尚未实现盈利。

Discord总共筹集了约10亿美元的资金。自从2021年拒绝了微软120亿美元的收购要约后，该公司就一直在考虑上市。

据一位熟悉内情的人士透露，该公司的资产负债表上有超过7亿美元的现金，目标是在今年实现盈利。

科技行业劳动力需求缩减，和AI有多大关系？

我们曾经报道过，在Blind和Motherboard最近组织的一项针对程序员的调查显示，90%的程序员认为现在找工作变得更难了。

而其中最主要的因素是由于，AI在代码能力上的突飞猛进，让科技公司对于初级程序员的需求有了明显的下降。

再叠加经济周期下行的因素，使得一直以来供不应求的程序员都出现了饱和。

曾任哈佛大学计算机科学教授、现为企业家的Matt Welsh向该杂志透露，由于AI能够很大程度上执行软件工程的工作，这可能导致软件行业除了最优秀的人才之外，大多数人的工作保障和薪资水平都会下降。

但是，人工智能编码平台Replit的CEO表示，这AI带来的变化对于程序员来说不一定是坏事，可能只是改变了程序员具体的工作内容，但是世界依然需要程序员。

可能不是在不久的将来——「编码」这个词将从词典中消失，因为编程将不再需要代码，而是使用计算机解决问题的纯粹行为，使越来越多的人能够使用计算机。

Replit只是触及了这项新技术的冰山一角。我认为ChatGPT将其提升到了另一个水平。我们现在正处于开发人员生产力另一次大幅跃升的开端。我认为生产力将会提高 10 倍到 100 倍。

世界上的程序员确实依然不够，他们非常昂贵。我们的编程效率越高，我们能够创建的软件就越多。人工智能助手可以帮助您调试代码，可以帮助您改进代码并重构代码，这将使软件开发生命周期的各个方面变得更好。在可访问性方面，我认为这将使人们更容易使用软件。

你会看到产品和前端工程师能够完成后端或全栈工程师过去可能做的很多工作。我认为这会给双方带来压力，这可能会影响软件工程师的就业，他们必须专业化。否则他们将不得不要么去构建产品，要么成为低级平台工程师。
他表示，拥有编码知识仍然是一项很好的技能，因为人工智能将有助于加快编程过程并打破进入计算机科学和行业的一些障碍。
随着人工智能融入编码，软件工程师的价值将更多地体现在构建新事物以及监督和管理代码的能力，而不仅仅是编写代码。
尽管进行了裁员等各种举措，当今世界仍然有很多软件职位空缺。硅谷一直在「囤积」有才华的员工。
但是不管怎样，编码工作可能很快会发生翻天覆地的变化，就像C++编码与汇编语言编码完全不同一样。
当计算机开始反过来和人交流时，这将对那些以编码为生的人产生巨大的影响。

15 1 月 2024

大模型的商业价值来自AI原生应用体验的质变

当下要想让大模型性能继续提升，关键要素是什么？

在MEET2024智能未来大会现场，百度AI技术生态总经理马艳军以文心一言为例，全面介绍了知识增强大语言模型，还介绍了围绕大模型建设的生态以及未来发展趋势。

在他看来，大模型给应用体验带来了质的飞跃，应用体验只要提升了，未来肯定会有更大的商业价值。

据了解，百度还围绕着文心一言的基础模型文心大模型以及飞桨深度学习平台做出了一系列技术创新与产业实践。

在技术的不断变迁中，马艳军总结了大模型与此前AI技术的三大不同点：

一是颠覆了交互方式；二是大幅降低了AI开发门槛；三是大模型会催生AI原生应用。

量子位在不改变原意的基础上，对演讲内容进行了编辑整理。

关于MEET智能未来大会：MEET大会是由量子位主办的智能科技领域顶级商业峰会，致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会，吸引了超过300万行业用户线上参会，全网总曝光量累积超过2000万。

演讲要点

人工智能的关键基础能力是理解、生成、逻辑和记忆。大模型恰恰因为这几种能力强，所以人们对其关注度才如此之高，并认为是通向通用人工智能的曙光。
大模型发展，如何使用数据，如何挖掘、分析、合成、标注、评估数据，整个闭环非常关键。
大模型给应用体验带来了质的飞跃，应用体验只要提升了，未来肯定会有更大的商业价值。
要想大模型效果更快提升，训练效率特别关键，软硬件协同优化非常重要。

（以下为演讲分享全文）

大模型技术越发标准化

今天跟大家的分享，将以文心一言为例，探讨知识增强大语言模型的技术创新与产业实践。

我先对文心一言做一个比较全面的介绍，然后介绍围绕着文心一言建设的整个大模型生态，以及未来会有什么样的发展趋势。

现在我们提到人工智能的应用，大家可能会想到很多词。有几个比较关键的基础能力：

理解、生成、逻辑和记忆。

一般来讲一个人工智能应用一般是这四个能力中一个或者几个的组合运用，最终形成好的人工智能应用。

大语言模型也恰恰是因为这几个方面的能力比较强，所以现在大家对它的关注度非常高，并且认为是有可能通向人工智能的曙光。

文心一言的建设，大家的关注度也非常高，首先是在底层有一个大的预训练模型，这块也是一个非常大的技术挑战。

现在随着大语言模型技术发展，实现方式也越来越标准化了，有监督的精调技术、基于人类反馈的强化学习、提示等等，这些是大家认为相对标准的一套技术。

在此基础之上，文心一言为了更好地提升回复的客观性以及时效性等一系列能力，百度专门在知识图谱注入、检索能力的引入、对话的连贯性等方面做了非常多的工作，让大家在使用的时候得到更好的体验。

文心大模型是文心一言背后的基础模型。我们2019年3月份发布了1.0版本，到今年10月份已经发展到4.0版本了。

大家如果有在使用文心一言，其中专业版背后的模型就是文心4.0。大家可能会感知到，随着4.0的上线，整个使用体验有了非常大幅的提升。它的理解能力、生成能力、逻辑能力、记忆能力，方方面面都有非常大的变化。

数据和对齐，前所未有的关键

研发期间，我们背后付出的努力还是非常大的。

首先依赖在底层资源上的巨大投入，需要在非常大的计算集群上做预训练模型的训练，基于大量的数据做训练学习。

另外，在算力之上，大家或许也都了解到，现在大模型的技术还是深度学习技术进一步发展的结果，其底层依然依赖深度学习框架和平台。

百度飞桨为大模型的训练提供了基础支撑，并且跟大规模计算集群进行联合优化、有机整合，把整个训练效率提了上来。

训练大模型，一方面是效果。要想得到好的效果，要想快点学好，训练效率特别关键，所以软硬件协同优化就显得非常重要。

不可回避的，数据是大模型训练过程中必不可缺的一环。随着大模型的发展，数据本身的质量重要度越来越高，如何使用数据，如何挖掘分析、合成、标注、评估数据，整个闭环其实非常关键。

应该说人工智能发展这么多年，以前我们也说数据重要，尤其随着深度学习的发展，大家都会说数据特别重要，需要数据、算法、算力三驾马车。

但是前所未有的，数据从未像在大模型时间点上显得如此重要，不管是质量还是整个加工闭环，都成了整个大模型训练学习当中非常关键的一环。

还有对齐，大模型技术发展对对齐技术要求非常高，为什么这么讲？

“对齐”这个术语也是因为大模型的发展被广泛知晓。背后核心还是要让大模型学会按照人类希望的内容和方式进行回复。

如何让大模型有效地跟人的要求做好对齐？这背后其实有非常多的技术需要建设。

再有，针对这么大的模型，如何在训练过程中训到一定阶段之后，完成增量式的参数调优，节省训练资源和时间，加快模型迭代速度？

所有这些技术都是在大模型研发过程中我们需要突破的。

当然文心一言面向社会开放以来，得到了非常广泛的关注，现在的用户规模已经不止七千万（截至2023年底，文心一言用户规模已破亿）。大家如果是自己使用过文心一言，相信也一定能感受到这一年当中的快速进步。

应该说大模型发展，尤其是大语言模型的发展给我们创造了一些新的机会。

大模型带来的变化

那大模型跟以前一波一波的技术变化有什么区别呢？我觉得有这几个方面：

第一个是交互方式，这次真正有了一个颠覆式的变化。

以前我们也有对话系统也可以做人机对话，对话效果往往差强人意。你说它能不能回复呢？它也能回复得还可以，但总是距离我们的预期有差距。一旦达不到临界点，其实非常影响技术的普及。大模型技术的发展，尤其是大语言模型让普及加速。

另外降低了开发门槛。

以前我们开发AI程序需要写非常多代码，写一个AI应用也需要非常多的代码，成本也非常高，大语言模型大幅降低了开发门槛。

三是大模型会催生AI原生应用。不仅是对产业应用有影响，其实对于科研，现在出现的AI for Science的趋势，也产生了非常大的影响。

所以在此驱使下，AI原生应用发展正迎来最好的时代，以大模型插件接入为基础，在此基础上进一步衍生出更强大的工具，基于这些能力必然会催生大量的AI原生应用。数字技术和实体世界加速连接与融合。

在百度大量产品当中，已经快速地在使用大语言模型来重构产品，整个产品使用体验也在快速地提升。

大家可以看一下，在办公场景、在程序员写代码的场景，大量的人工智能技术都可以使用起来。

比如说，一项最新的数据是，百度20%的代码都是由大模型，我们对应的工具叫Comate来实现的。

我们相信在未来的软件开发中，比较大比例的代码是由大模型帮我们实现的。

除了代码，像文档的分析等都能非常自然完成，大家可以感受到用了大模型之后，写作、做材料、做PPT效率会有非常大的提升，这是跟以前的技术很不一样的。

当然在商业分析决策等方面，借助大模型的交互能力也一样可以处理更加复杂的数据分析和任务处理。还有在百度网盘里面，可以用大模型唤醒历史上沉睡的大量的积累的图片、文档、各种各样的信息。

出行场景可以用智能助手能力更快帮我们实现交互，这些其实都是大模型所带来的产品体验方面质的飞跃。

应用体验只要提升了，未来肯定会带来更大的商业价值。

大模型对基础软硬件要求「极致」

大模型本身研发我前面也介绍了不少，确实是研发门槛比较高。

过去几年，一个企业研发的参数规模上亿的模型已经非常大了，成本很高。现在这几年发展不可同日而语，百亿参数规模大家都有点开始倾向于叫小模型了。

整体来讲，它的研发成本依然是比较高的。模型体积、算力要求、数据要求都非常大，对基础软硬件的考验也非常大。必须得在基础软硬件这一层有非常强的支撑，才能真正把一个优秀的、效果好的大模型高效地训练出来。

对于基础软硬件的要求也是前所未有的高。

应该说，以前很多人工智能应用开发非常依赖基础软件，但是对它的要求没有那么极致，相对来讲算力规模没有那么大，整体数据量没那么大。

现在大模型很不一样，我们建设百度飞桨深度学习平台，是开源开放的平台，有非常多开发者都在使用，用基础软件来支撑现在大模型的整个开发训练，以及未来在大量应用当中的部署。

飞桨和文心通过联合优化，平台有效的训练时间做到98%，这是非常高的。

对于了解大模型训练特点的人而言，这么大的集群规模，98%的训练时间都是有效的，这是非常难的。另外整个推理性能也有非常大的提升。

当然了，我们在建设过程当中也非常期待跟生态伙伴一起推进，所以我们建设了星河社区，提供异构算力，提供一系列的包括飞桨和文心的基础能力，形成一站式综合服务的平台，让开发者能够在这个平台上进行交流、互相促进。

从整个生态来讲，飞桨和文心平台有1070万开发者（截至2023年底），整体来说和各类生态伙伴都有全面合作，包括芯片的合作伙伴、数据和技术的合作伙伴等等。

百度希望携手生态伙伴通力合作共创共赢，能够把大模型的技术能力更好地赋能千行百业的技术应用。

在12月28日举办的第十届WAVE SUMMIT深度学习开发者大会上，百度最新发布飞桨开源框架2.6版本和大模型重构的开发工具链，包括全新发布Comate AutoWork，飞桨低代码开发工具PaddleX v2.2，升级面向生态的文心一言开发机制，打造更智能、高效、低门槛的AI原生应用开发新范式，助力开发者把握大模型时代红利。

12 1 月 2024

2023年冲出23家新晋AIGC独角兽：最高估值千亿，6家来自中国

生成式AI这把火在资本市场越烧越旺。根据智东西统计，2023年新晋的生成式AI和大模型领域相关独角兽达23家，国内新晋独角兽有6家，分别是智谱AI、MiniMax、百川智能、零一万物、智元机器人，以及已被收购的光年之外。这些独角兽企业涉及大语言模型、AI视频生成、垂直行业应用研发商以及GPU云服务提供商。

其中估值高于50亿美元的独角兽有3家，被称作OpenAI劲敌的Anthropic，估值排名第一达到184亿美元（折合约1315亿人民币），远高于排名第二GPU云服务提供商CoreWeave的70亿美元（折合约500亿人民币），Character.AI估值超50亿美元（折合约357亿人民币），排名第三。

不同赛道中，大语言模型赛道独角兽玩家达到一半有12家，垂直行业应用为8家。从地域分布来看，美国创企占比近半共10家，其次为中国共6家。

在知名产业投资方中，海外有谷歌、亚马逊、Salesforce、英伟达等玩家高频出现，国内也有腾讯、阿里、小米、美团等知名科技巨头多次注资。2023年美团联合创始人王慧文创办的光年之外也已达到独角兽企业估值，但因王慧文离岗这家创企于2023年7月被美团收购，被收购时光年之外整体估值约为11.6亿美元。

值得注意的是，2023年底，生成式AI和大模型领域多家创企传出新的融资动向，如主攻AI语音生成的Eleven Labs正在与风投机构谈判第三轮融资、马斯克创办的X.AI拟出售股份并募集10亿美元资金……这些创企极有可能率先成为2024年新晋生成式AI和大模型独角兽。

相比之下，2023年之前的AIGC及大模型相关独角兽仅有5家，2023年也成为独角兽大量涌现的关键之年。

01.11家大语言模型独角兽：最高估值近200亿，4个国内玩家在列

基于大语言模型，OpenAI打造的聊天机器人ChatGPT已经成为这一波AIGC浪潮的标志性事情。

在新晋独角兽中，主攻大语言模型研发的独角兽占比最高共11家，且估值超20亿美元的玩家就占到一半左右，Anthropic的估值高达184亿美元。

其中美国的独角兽玩家有4家，中国4家，以色列、法国、加拿大各1家。

1、Anthropic美国硅谷创企Anthropic成立于2021年，由阿莫迪兄妹从OpenAI出走创办。这家创企是OpenAI最大的劲敌之一，其估值已从2023年上半年的41亿美元增长至年底的184亿美元。

Anthropic的核心产品就是聊天机器人Claude，Claude也经常被拿来与ChatGPT相比较，虽然总体性能有差距，但Claude在长文本处理等部分指标上已经超过GPT-4。与OpenAI背靠微软类似，这家创企还拿到了谷歌、亚马逊的巨额融资。近日，据外媒The Information报道，Anthropic预测2024年底其年化收入将超过8.5亿美元。据The Information援引知情人士消息，OpenAI年化收入2023年底已突破16亿美元。

2、Character.AICharacter.AI于2021年在美国成立，2023年3月其估值突破10亿美元，9月就被披露估值超50亿美元。

这家创企的创始人是谷歌早期最重要员工之一诺姆·沙泽尔、谷歌AI大牛丹尼尔·德·弗雷塔斯，成立半年后就正式发布了聊天机器人Character.AI。Character.AI构建了一个AI角色扮演社区，用户可以和动漫人物、明星大佬甚至于自定义的各种角色交流对话。根据这家创企公布的数据显示，自2023年5月发布以来，其安卓下载量已经超过300万次。成立之初，沙泽尔就决定要让Character.AI聊天机器人的基本服务供所有人免费使用。

3、Inflection AI

Inflection AI是成立于2022年的美国创企，2022年初从微软等公司处筹集了2.25亿美元资金，当时未披露具体估值。一年后，这家创企拿到微软、英伟达等的13亿美元融资，估值达到40亿美元。

其创始团队包括DeepMind的联合创始人穆斯塔法·苏莱曼，“硅谷人脉王”、领英创始人雷德·霍夫曼。不同于ChatGPT等产品的生产力工具定位，Pi就是个人的生活小助理，苏莱曼曾解释道，Pi可以在与对话的来回对话中越来越了解用户，相较于其它聊天机器人会更人性化。

4、Cohere

加拿大AI创企Cohere成立于2019年，创始人是曾在谷歌任职的Transformer论文合著者之一艾丹·戈麦斯。今年6月，Cohere拿到英伟达、甲骨文、Salesforce的融资，估值达到22亿美元，两个月后因老虎环球基金计划出售部分Cohere持股，该公司估值升至30亿美元。除此以外，AI明星科学家李飞飞、“深度学习三巨头之一”杰弗里·辛顿、吴恩达的第一位博士生Pieter Abbeel、谷歌等都纷纷为这家创企注资。

Cohere专注于面向开发者和企业，产品主要覆盖企业日常运营中的三个关键领域：文本生成、文本分类和文本检索。

5、Mistral AI

法国AI创企Mistral AI成立于2023年，6月份拿到1.05亿欧元融资，12月底就被曝出正处于从英伟达等投资者处筹集约4.5亿欧元的最后阶段，半年时间估值从2.6亿美元飙涨到20亿美元。Mistral AI由DeepMind和Meta公司的前研究人员组建，创始人曾主导Llama大语言模型开发。2023年9月，Mistral AI发布了首个大语言模型Mistral7B，该模型在当时被称为“最好的7B模型”，在多项基准测试中优于其它开源模型。

6、智谱AI成立于2019年的智谱AI是国内目前估值最高的大模型独角兽，也是国内首个估值过百亿人民币的大模型创企。2023年，这家创企已经累计获得超25亿元的融资，美团、蚂蚁、阿里、腾讯、小米、金山、红杉、高瓴等均在投资方之列。这家创企由清华大学计算机系知识工程实验室孵化而来，且核心团队大多都是悟道大模型的研发人员。早在2022年，智谱AI就开源了高精度双语千亿模型GLM-130B和60亿参数的ChatGLM-6B，2023年推出了全自研第三代基座大模型ChatGLM 3并宣布开源ChatGLM3-6B。

7、AI21 Labs成立于2017年的以色列创企AI21 Labs，到2023年底其总融资额已达3.36亿美元，整体估值达到14亿美元，投资方包含三星Next、英伟达、谷歌等。AI21 Labs的产品包括写作工具Wordtune、大语言模型Jurassic-1 Jumbo、可定制的大语言模型Jurassic-2。Wordtune的功能与ChatGPT基本一样，其客户包括耐克、Zoom、沃尔玛、三星、阿迪达斯等知名企业。Jurassic-2就是一个大语言模型，既可以作为基础模型，也可以为企业构建特定业务领域的专属“ChatGPT”。

8、MiniMax国内明星创企MiniMax成立于2021年，创始人是前商汤科技副总裁、通用智能技术负责人闫俊杰，技术合伙人杨斌为闫俊杰的中科院校友。今年6月，MiniMax拿到一笔总规模超2.5亿美元的融资，估值超过12亿美元。投资方包括腾讯、米哈游等。MiniMax目前已经推出自研角色扮演类AI聊天应用Glow、自研通用大模型ABAB，以及为金山办公等B端客户发布了相应解决方案。公开资料显示，该公司具备自研文本、语音等多模态融合的通用大模型能力。2023年12月底，MiniMax副总裁魏伟透露，MiniMax近期计划发布国内首个基于MoE（Mixture-of-Experts）架构的大模型，对标OpenAI GPT-4。

9、百川智能2023年4月，前搜狗CEO王小川、前搜狗COO茹立云联手成立国内大模型创企百川智能。1个月后，百川智能就拿到了来自腾讯、小米、金山、清华大学资产管理有限公司、好未来等十余家机构的联合投资，整体估值超10亿美元。半年内，百川智能已经发布超7款大模型，参数规模从10亿到超百亿不等，覆盖开源、闭源。

10、零一万物2023年7月，创新工场董事长兼CEO李开复创办国内大模型创企零一万物，联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁等诸多头部玩家人才，整体估值超10亿美元。零一万物于2023年11月发布了首款开源中英双语大模型Yi，却使这家创企陷入“套壳”风波，有开发者质疑Yi完全使用了Llama的架构。随后零一万物发公告澄清，Yi完全不涉及套壳、抄袭。进行了版本更新后，Yi在多项大语言模型测评权威榜单的排名直追GPT-4。

11、Adept AI美国AI独角兽Adept AI成立于2021年，2023年3月拿到顶级风投Greylock与行业巨头微软、英伟达等的3.5亿美元融资，这家创企估值突破10亿美元。创始团队既有曾带队从事GPT-2、GPT-3研发工作的前OpenAI加州实验室工程副总裁戴维·栾，又有两位Transformer论文合著者阿希什·瓦斯瓦尼、尼基·帕玛。不过，这两位合著者此前已离开Adept AI。

Adept AI的产品与ChatGPT有所不同，基于其核心的ACT-1模型，可以根据用户指令调动一系列软件工具，从而协同执行复杂用户请求，这改变的是用户和机器人之间的交互方式。

2家AI视频生成独角兽英伟达、谷歌重金押注除了大语言模型，可以生成图片、视频、音频的多模态大模型在生成式AI市场里逐渐热络起来。文生视频方向共2家独角兽，Runway和Synthesia的估值分别为15亿和10亿美元。

1、Runway

美国AI创企Runway成立于2018年，2023年7月，在谷歌领投的D轮融资中募集到约1亿美元，估值达到15亿美元，半年时间翻了三倍。Runway已经发布了大约30余个AI创作工具，包含音频、图片、视频、3D和生成五个大类，涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。这家创企还参与了爆火的图片生成工具Stable Diffusion研发。2、Synthesia

Synthesia是一家成立于2017年的英国AI创企，2023年6月，该公司获得约9000万美元融资，估值达到10亿美元。

也是AI视频创作平台，主要面向的是虚拟人视频，可以生成教学视频、员工培训视频等。

Synthesia主要专注于大型企业客户等B端客户，可以生成教学、员工培训等虚拟人视频。Synthesia CEO曾在博客中透露，财富100强中有35%的公司正在使用Synthesia进行培训和营销，并且有超过5万个团队使用这一工具大规模制作视频，节省了80%的预算。
03.“AI算力黄牛”获英伟达青睐与头部玩家“平起平坐”大模型引发的算力需求激增，其背后的云服务提供商也成为焦点，除了微软、谷歌、亚马逊等头部云服务提供商外，被英伟达青睐的创企CoreWeave已经化身“AI算力黄牛”，一举跃升独角兽，估值达到70亿美元。

成立于2017年的美国创企CoreWeave，起家时为一家加密货币挖矿公司，2019年成功转型成云服务提供商，拿下微软、亚马逊、谷歌等玩家的巨额算力大单，为这些玩家提供大模型训练和推理算力。

同时，以英伟达H100芯片做抵押，CoreWeave还拿到23亿美元的债务融资方案。CoreWeave创始人之一Brannin McBee在今年8月的采访中透露，2022年，该公司收入约有3000万美元，预计2023年将超过5亿美元，同比暴涨1567%。

8家AIGC垂直行业应用独角兽：美国企业占一半，国内机器人玩家闯入在大模型之上，诸多玩家选择面向特定的垂直行业、应用进行研发，进一步针对用户使用中的痛点发挥生成式AI的更大价值，其中不乏金融、企业搜索、医疗、配音、翻译等。2023年新晋独角兽中，8类玩家都针对于不同的行业未有交叉，从地域分布来看美国有4家，德国有2家，分别为AI翻译和军事分析领域。中国还有一家人形机器人创企智元机器人，已经在大语言模型与机器人的结合上有所进展。

1、Glean（搜索）美国AI创企Glean成立于2019年，该公司正在洽谈至少2亿美元融资，投前估值达到20亿美元，相比2022年5月估值上涨200%。

Glean的创始人Arvind Jain是前谷歌搜索的工程师，其产品是为企业构建内部的搜索引擎，搜索公司内容的应用程序、内容资源，来帮人们找到所需的信息。

这家创企已经积累了200多家企业客户，包括Databricks、Niantic、T-Mobile等，并且这些企业中已经有大约40%客户员工每天都在使用Glean。

2、Helsing（国防）

成立于2021年的德国创企Helsing是一家国防科技企业。

2021年，Helsing在A轮中获得Spotify创办人Daniel Ek所共同创立的创投公司Prima Materia 1亿欧元投资。2023年完成了2.09亿欧元B轮募集资金，成为当时欧洲最大的AI创企，估值达到18亿美元。

Helsing的产品主要为军事任务服务，例如将军事硬件设备连接AI，从而将其接收到的红外线、传感器等数据进行分析。

3、Quantexa（金融）2016年成立的英国独角兽Quantexa，2023年4月获得1.29亿美元E轮融资后跃升独角兽，估值达到18亿美元，也是2023年英国首个新晋独角兽。

Quantexa打造的生成式AI助手Q Assist就可以让用户通过自然语言，快速帮助用户查询，从而帮助金融公司规避风险。

目前，纽约银行、汇丰银行、渣打银行、丹麦银行等大型金融机构都是其客户，该公司还将与谷歌、埃森哲、德勤等合作。

其创始人预计，2024年该公司收入将达到1亿美元，2025年实现盈利。

4、Replit（编程）美国AI创企Replit由曾在Meta任职的阿姆贾德·马萨德于2016年创立。2023年4月，这家创企拿到9740万美元B轮融资，估值增长至11.6亿美元。GitHub发布了Copilot X为开发者提供软件开发平台后，谷歌就选择联手Replit升级AI辅助编程工具Ghostwriter。Ghostwriter是Replit 2022年发布的产品，支持16种语言。Replit的产品既可以为初学者提供简单的开发工具，让其快速上手，也可以为有经验的开发者提供协作开发测试的工具。2023年4月，该公司还发布了自己的编码大模型replit-code-v1-3b。

5、Imbue（AI Agent）

美国AI创企Imbue成立于2021年，目前手握1万张英伟达H100芯片，并获得了英伟达等投资者的2亿美元融资，估值已经超过10亿美元。

这家创企的重点是构建具有推理能力的AI Agent，不过目前还没有发布任何产品。但其创始人坦言，Imbue的产品距离真正商业化落地还需要数年。Imbue的最大投资人、亿万富豪Jed McCaleb称，自己在看完Qiu和Albrecht建立AI智能体的PPT后，觉得非常满意，因此大手一挥，拍板决定投资。

6、Typeface（营销）

Typeface成立于2022年9月，创始人阿布海·帕拉斯尼斯曾先后任职于微软、甲骨文、Adobe，从0到1主导搭建了微软的云计算业务、领导了Adobe的智能化转型。2023年，该公司连拿2笔融资，估值跃升至10亿美元，投资方有Salesforce Ventures、谷歌投资、微软旗下风险基金M12等。

这家创企的主要业务是基于GPT-3.5和Stable Diffusion 2.0模型开发企业级生成式AI应用程序，提供通过文本快速自动生成营销内容和图片的平台和工具。

7、智元机器人（机器人）成立于2023年的国内明星创企智元机器人，由前华为“天才少年”、华为计算产品线昇腾部门算法工程师稚晖君（原名彭志辉）创办。成立9个月内，智元机器人就连拿5轮融资，投资方阵容集结了百度、比亚迪、奇绩创坛等。2023年12月完成的A3轮融资，金额或超过6亿元。智元机器人在2023年8月发布了首款产品“远征A1，稚晖君透露，这一机器人基于大语言模型以及公司自研的视觉控制模型完成了一系列创新，预计2024年产品会推向商业化落地。

8、DeepL（翻译）DeepL是一家德国创企，成立于2009年。2023年1月，该公司宣布完成1亿美元融资，估值超过10亿美元。该公司的产品是AI翻译工具支持中文、英语、德语、法语、日语等20+语言的翻译。2017年产品发布之初，该公司的盲测结果显示，其翻译器表现远超谷歌、微软、Meta等竞争对手，BLEU测试的结果也是如此。2023年1月，DeepL发布AI写作助手，能够调整用户上传的德文、英文写作内容。

DeepL的官网显示，目前该公司的用户已经达到百万级，并有超20000家企业正使用这一平台。

05.结语：2023年冲出的独角兽为大模型战局注入新动能大模型及生成式AI独角兽企业已经成为产业界关注的焦点，凭借着明星创始团队以及有广阔应用前景的工具，获得各路资本青睐。从大模型、聊天机器人到面向各行各业的垂直应用方案、AI算力提供商，独角兽玩家的成长之路不断加速。可以看到，以英伟达、谷歌、微软、腾讯、阿里等为代表的科技巨头玩家也是这些独角兽玩家进阶的重要推动者，与其它风投机构不同，这些玩家身处行业之中，其一举一动都牵动着科技界的神经。尽管目前来看，OpenAI这一标志性领军企业的优势性还没有企业可以比拟，但随着资金落地，这些独角兽玩家或许会在2024年迸发出更大的生命力，逐渐上升到能与OpenAI一较高下的地位。

12 1 月 2024

2024，如何构建企业的AI营销战略？

在2024年谈增长离不开AI这个关键词。

一项名为《2023AI营销现状》的报告面向900位增长责任人展开调研，其中包含约300位CEO、CMO，他们中约90%认为在未来12个月内AI对于营销来说颇为重要。

但在让AI真正驱动增长的过程中，企业也面临很多现实的困境，比如超半数的营销人认为他们还不是很了解AI，44%的被访者认为企业还没有真正的AI营销战略。

来自杜克大学的教授卡尔·梅拉就曾在《哈佛商业评论》发表文章指出，很多营销技术就像是“亮闪闪的新东西”。企业对AI等营销新技术的投入更像是在装点门面，很少能真正激发它们的价值。而要解决这一难题，需要做好两件事：“解构”增长路径，让关键业务环节更好地与技术相配合；“构建”多元技术能力，并确保其作为一个完整的系统发挥作用。

大模型阶段下，AI能帮企业做些什么

从前台应用看向后台基建，想让AI真正发挥价值，企业需要主动识别出业务增长的关键节点，并探索在这些节点中，AI能如何发挥作用，提升增长效率。纵览目前发布的一些商用AI大模型，AI正在提升人货匹配效率、提升消费者的持续连接能力，提升经营效率方面发挥作用：

更好地理解商品，提升人货匹配效率。

你觉得投放一波广告需要准备多少套投放方案？100个够不够多？实际上，有些企业会准备多达4000个投放方案，广告素材在产品价格、配色、文案等元素上进行微调，搭配不同的通路、人群，就想看看哪个效果好。这其实是企业追求更精准的人货匹配的表现，听起来挺科学，但显然需要耗费大量的人力物力。

但如果AI介入了这一环节呢？

AI之于营销的一大价值在于高效处理更大规模的数据，发现其中暗藏的关联，并自动化地完成一些基础的操作。企业不需要准备上千个方案，基于大模型数据信息的处理能力，在广告主补充输入商品信息后，系统能够对所投放的商品进行更加深入的理解，并由此进行更加高效的人货匹配。就如同那个“啤酒和尿布”的经典营销故事，两种看起来毫不相关的产品摆放在一起，却能大大提升销量，其背后便是数据洞察推动人货匹配的结果。

如今，不少企业正在受益于AI大模型助力下的人货匹配提效。比如腾讯广告曾公布过一些案例的数据，通过人货匹配，某服饰品牌下单平均起量速度提升180%，下单成本环比降低18%，销售额更环比提升260%；某美妆品配将流量引导至视频号品牌直播间，直播间广告ROI提升1.5倍。

当然，为了更好地实现“懂人，懂货，懂匹配”，企业也需要更积极地“喂养”AI，比如在广告系统中建立好商品库，让AI知道售卖的商品是什么，有哪些基础的特征；另外，企业在一方数据及时上报的基础上，亦可与平台方展开更定制化的合作，这将有助于AI大模型更好地理解企业，从而进一步提升系统匹配效率。

腾讯公司副总裁蒋杰近期在腾讯智慧营销峰会上就分享了一组数据，腾讯广告的大盘数据显示，在转向基于标准化商品库的全面商品化策略后，广告主的广告起量率提升10%，消耗规模提升12%，通俗来说就是在预期的ROI标准下，广告触达的用户、展现数量等大幅提升。

更好地理解人，提升消费者持续连接能力。

很多企业都有金牌销售，凭借着对用户的深度理解和优秀的沟通能力，他们能够为用户提供更加优质的服务、高效地促成下单转化。对于企业来说，如何培养更多的“金牌销售”、提升整体客户服务水平，以促进生意增长？AI在这之中大有可为。一方面，AI能够快速提供经过智能运算后的话术参考，在它的辅助下，客服与用户的沟通将更加顺畅；另一方面，基于自动打标，系统能够对大量数据进行高效可靠的分类处理与建模学习，以系统底层能力提升助力销售与服务环节的大幅提效。

当然，AI对人的理解并不仅仅影响销售服务环节，特别是在用户消费心智逐渐成熟的当下，消费决策的过程变得复杂而长期，据调研，市场大概有70%的用户需要长期培育，最后才会发生转化，企业与消费者的沟通也变成一个颇为复杂的过程，全链路、全周期的用户关系运营成为必然。而基于对人的理解，AI可以高效、自动化地追踪和串联起用户决策的流程，从而形成一套用户线索经营的矩阵。

蒋杰提到，随着底层系统的智能化焕新，腾讯广告以技术能力加持，打造了一套覆盖线索全场景、全周期的营销体系。这一体系从广开口，实现更多曝光触达开始，到多链路吸引用户进行浅层互动，再到提后效的留资、下单，最终落地到私域体系内实现用户的深度共鸣与长效经营，AI大模型都提供技术助力，通过对消费者的深度理解实现营销提效。实际上，腾讯广告一直强调“全域经营”理念，而这一套体系正是AI赋能之下的升级版全域经营矩阵，通过AI提升全域中每一触点的智能化水平，并通过统一的大模型统揽全域营销流程与消费者的全域流转，真正构建起一套以消费者为核心的智能化的营销体系。

目前，在这一体系的加持下，不少企业已经收获了实际的增长，比如某教育品牌的首次参课率提升23%，同时首次参课成本下降22%；而某大健康品牌的开口（曝光）成本下降了17%，同时加粉转化提升33%。

更好地理解商业，提升经营效能。

技术层面的升级只是进化的必要条件之一，将行业经验、商业敏锐度融入大模型中，不断基于特定的行业现状、行业需求调教大模型，企业才能得到一个更加贴心的AI营销助手。

以游戏行业为例，大众可能只看到“是兄弟就来砍我”的大曝光时刻，但一款游戏的营销也要经历复杂的周期。比如小游戏就会经历测试期到推广期再到召回期，比如游戏App会经历封测、预约、首发、平推、版更/周年庆等阶段。每一阶段的营销诉求不同，资源配置不同，营销策略也千差万别。在复杂的营销周期中，AI大模型对抗熵增，提升营销确定性的价值便体现出来。

一方面通过大数据洞察，企业可以实现更确定的冷启动，面向谁、展现怎样的玩法特点、启用谁为代言人等等，AI大模型会告诉你更多的洞察观点。而在投放过程中，一些智能的投放工具可以结合投放效果敏捷调整投放方案，减少人工干预，自动优化提速。另外，诸如腾讯广告游速通等全生命周期营销解决方案，还会基于游戏行业特征进行深度的模型优化，让AI大模型更加理解游戏产品的特征、营销阶段与营销诉求，实现大模型助力下的营销提效。游速通侧公开的某游戏产品投放数据显示，技术助力下，该游戏起量率较传统新游提升30%，预约激活提升23%，同时激活成本下降19%。

当然，不只游戏行业，营销大模型也正在尝试与更多的行业经验相结合，实现更加垂直深度的营销赋能。就像AI发展趋势的预测中，垂直大模型将成为大模型应用的主流方式，更加深度结合行业经验的营销大模型，也将更好地实现营销的赋能。

打造系统性的AI基建

在应用层，AI大模型的能力正在逐步拓展。而在基建层，平台与企业也需要进行系统性的布局，以确保AI能够融入营销全流程，系统性地发挥作用。在这一过程中，企业需要特别关注的是系统性这一概念。一方面，在整个营销体系中，企业往往较为关注智能投放领域的工具引进，但要真正形成智能化的营销系统，企业还需关注在智能创意、智能诊断能力上的部署；另一方面，工具之间能否进行有效的“对话”，形成顺畅的创意投放验证体系也是需要关注的话题。

不久前，腾讯广告发布了一站式AI广告创意平台“腾讯广告妙思”，在打造这一产品的过程中，蒋杰就指出能够自动化生成创意素材的AI工具其实并不少，但如何让创意贴近投放，做到“从广告诉求出发”、“更有原生感”，却是需要被攻克的课题。

一个简单的例子是，一些非广告专用的AI创意工具生成的图片总带有一些“艺术的朦胧感”，色调可能偏暗，或者多少带点西式审美的特质，这样的素材并不适合国内的广告投放。通过腾讯广告的数据积淀，妙思会了解到那些更明亮的，融入东方审美元素的素材会带来更好的投放效果，也由此避免在创意生成的过程中“走弯路”，直接产出更能推动广告提效的广告素材。另外，腾讯广告妙思还与广告投放流程紧密结合，对产出素材直接进行自动化机器审核，通过“创意生成-一站式审核-广告投放”的链路打通，减少动辄数小时的审核过程，将技术提效应用到每一个关键环节。

这便是系统性带来的优势，当服务各环节的AI工具能够基于一套底层大模型，各环节间的经验能够互联互通，一同服务于足够明确的商业目标，系统整体的效率便会明显提升。

为了进一步提升系统的整体效率，腾讯广告还着重打造了智能诊断的能力。这对企业来说就像是给复杂的AI营销系统装上了“导航”，能够识别障碍在哪里，并实时根据接收到的“路况”信息不断规划最优路径。在广告的创建期，企业可以获得优化建议，对投放效果建立起初步预期；投放时可获得投放的预判、预警；投放后也可以通过系统诊断与操作评估进行更有针对性的复盘，为下一次投放优化做好准备。

可以看到，在腾讯的体系内，大模型针对广告场景进行了系统性的部署，形成了深度垂直的能力。发起于《哈佛商业评论》中文版的新增长年度榜单评选中，蒋杰入选“2023中国新增长·先锋人物榜”，也正是因为其“决意要离业务更近，让AI、大数据的能量在应用中释放”。

2023年，蒋杰在2023腾讯数字生态大会上携腾讯混元大模型正式亮相。作为一款“从实践中来，到实践中去”的实用级大模型，腾讯混元目前已与超过300个腾讯内部业务对接。而在广告业务场景中，基于对广告真实诉求的理解，蒋杰也带领团队推进了一系列技术升级，大幅提升了广告推荐效率，助力企业降本增效。为了提升大模型的易用性，以及进一步提升效率，腾讯广告也在整合统一包括数据、策略、特征、模型到资金计费系统等模块之后，让广告系统真正成为“一盘棋”。

在平台侧系统性AI基建不断完善的同时，企业侧也需要进行相应的部署，除了必然的引入更多AI工具、培训新型人才体系之外，构建具有开放性的AI应用架构是更具挑战性的一环。在谈及AI营销未来进化空间时，蒋杰不断提及希望能与企业展开更多合作，共同推动大模型基建的持续优化。

事实上，在平台方、技术供应商提供了通用大模型的基础能力后，需要不断引入行业经验加以调教才让大模型的能力更贴近应用的场景和具体需求；而打破围墙花园，构建开放网络，推动数据合作，才能让大模型进一步理解广告效果的全貌，从而给出更加科学的决策建议。

当然，这样的体系搭建并非一夕之功，大模型的训练与商业应用也必然是一场持久战，企业需要以长期主义思维进行持续的关注、学习与投入，也需要秉持技术的开放心态，共同应对AI时代的新挑战。

12 1 月 2024

人工智能如何应用于网红营销？有哪些打法和挑战？

自问世以来，ChatGPT凭借其卓越的自然语言处理和对话生成能力，无疑成为了当红的“流量话题”。

与此同时，ChatGPT的不断升级和网红经济的快速发展，也让人工智能在网红营销领域也逐渐受到关注和应用。品牌和营销机构纷纷将AI技术引入到他们的宣传策略和推广活动中，以期为企业带来更多的商业价值和市场竞争力。

那么，在网红营销领域AI能够协助出海品牌做哪些工作？它的局限是什么？

人工智能如何应用于网红营销？

1.发现和研究网红

对于出海品牌而言，他们在选择影响者时必须考虑许多指标：

粉丝数量
帖子收到的点赞和评论数量
帖子的类型
网红的背景
网红使用的社交媒体平台
网红的粉丝类型

而人工智能工具可以帮助品牌发现网红并在选择之前对其进行彻底研究，包括根据粉丝人口统计、兴趣、品牌亲和力等帮助识别相关影响者。它还可以检测假粉或假的互动数据，保护品牌免受欺诈性数据的侵害。

随着人工智能更有能力为品牌活动推荐最匹配的影响者，这种使用人工智能选择影响者的趋势将在未来变得更加主流。

2.与虚拟网红合作

随着名人和社交媒体影响者市场成本的不断增长，虚拟网红现在被视为具有成本效益的替代品，具有显着回报的潜力（如果想要知道虚拟网红为什么这么火，可以查看Inpander的另一篇文章《“假人”带货比真人强？虚拟网红的魅力在哪里？》）。

比如，像 Miquela 这样的虚拟影响者就比真正的影响者更加活跃。她积极与 Calvin Klein、Prada 和 Samsung 等品牌合作，甚至发行了自己的音乐并出现在杂志中。

未来，这些虚拟影响者的外观和交互性将变得更加普遍和真实。它们还将变得更加专业化和利基化，以满足特定社区的需求。

3.获取有关Hashtag的帮助

每个网红营销活动都使用相关的主题标签，这需要进行一些研究。

例如，除了品牌主题标签外，您可能还需要一些行业特定的Hashtag，而 ChatGPT 可以为您提供这些标签。它还可以提供相关的趋势标签列表，但要仔细检查它们以确保它们是合适的。

4.自动生成网红邀约文案

为了从网红营销活动中获得最大收益和降低成本，人工智能可以帮您解决自动文案模版以及与提高网红沟通的效率。

例如，您可以将其添加到时事通讯中或通过电子邮件将其作为网红沟通的信息模版。当您这样做时，可以要求ChatGPT为实时通讯或电子邮件写一段文案或者新闻。

不过，要注意的是，网红营销的吸引力在于它的真实性和独创性。因此，请不要在在网红的内容创意中使用机器生成的文案，这可能会削弱KOL的真实声音，变得千篇一律。

5.把控网红营销时间节点

在开展海外网红营销活动时，运营人员需要确定活动的开始和结束日期，查看指标和参与率，跟踪每个网红制作的内容，并将实际结果与初始目标进行比较。

使用AI工具，我们就可以将这些数据记录在案，并且利用AI强大的数据分析能力，改进活动方案，从而提升整个海外网红营销活动效果。

6.检查活动指标并评估ROI

由于每个营销活动包含的帖子数量众多，拥有多个营销活动的品牌可能会发现很难监控其营销活动的效果。此外，当品牌与多个网红合作时，跟踪每次合作的ROI变得很困难。

人工智能工具可以帮助品牌实时监控各个营销活动的表现。他们帮助社交媒体报道和分析。例如，Upfluence 可以帮助您实时衡量重要指标，例如覆盖范围、参与度、关注者增长、展示次数和转化率。

这些活动的监控将完全由人工智能监控，它不仅能够提供报告，还可以通过用更匹配的影响者替换特定的影响者来提供改善个别活动绩效的建议。

人工智能在网红营销中的局限

1.跨文化语境理解挑战

虽然ChatGPT在语言理解方面表现优秀，但在理解语境、情境、情感和社交线索方面与人类相比仍有差距，在处理跨文化、跨地区的语境时可能出现误解，导致生成内容无法满足目标受众的期望和习惯，从而影响用户体验。

2.创意与原创性受限

ChatGPT在创意生成过程中，可能因受训练数据影响而模仿现有创意或模式，导致生成内容缺乏新颖性。

3.数据安全隐患

ChatGPT在内容生成过程中，有可能无意中泄露相关敏感信息，引发隐私问题和法律风险。

4.过度依赖AI技术风险

营销人员若过分依赖ChatGPT等AI技术，可能导致忽视人类创造力和情感智慧等的重要性，从而影响营销活动的效果和可持续性。

毫无疑问，网红营销领域将迎来一场惊心动魄的旅程。这是一个不断发展的世界，新的策略和AI驱动的进展将塑造前方的道路。

但如果你的团队仍然觉得这对你们来说太过于繁琐，也可以聘请对本地文化、语言及发展趋势的专业人士或者营销机构来制作对应的网红营销推广策略和方案，比如说Inpander，我们提供丰富的红人资源渠道、定制化的解决方案以及从沟通、落地到数据复盘的全流程服务，如果您感兴趣，欢迎与我们联系~

12 1 月 2024

钉钉的AI Agent魔盒

笃信AI的人，都在等一个AI的“App Store”时刻。

这是因为，苹果公司凭借App Store，塑造了移动互联网时代的软件生态。到了AI时代，AI信徒们就开始急切盼望出现一个属于AI的App Store，来定型未来的AI生态。

去年OpenAI用GPT点燃了AI Agent这把火以后，人们纷纷猜测，AI Agent会不会就是开启“App Store”时刻的关键？因为AI Agent让未来AI的形态，变得比以往任何时候更加清晰。

2024年1月9日，钉钉推出AI Agent落地实例“AI超级助理”，宣布将在今年4月份上线AI助理市场AI Agent Store，同时邀请开发者加入到钉钉的“AI Agent Store”生态中，并立下了“3年1000万个AI超级助理”的flag，致力成为AI Agent孵化、分发和交易平台。

发布会上，钉钉还用“7亿用户联合抵制”的来电海报，Callback了去年宣布用户突破6亿后，全网用户齐刷“6亿用户全抵制”的梗。

这个“3年1000万”是什么概念呢？

2008年苹果App Store携带500款应用上线，截至2022年4月29日，苹果商店（中国区）APP数量131万款。也就是说，别人14年达成的应用数量，钉钉想在3年内达成，并且翻8倍。

这个flag是不是立的太草率了？到底是什么原因让钉钉的野心如此膨胀？

先瘦身让用户不那么讨厌钉钉

钉钉自己很清楚，打工人不喜欢钉钉。

用过ToB软件的人都知道，这类软件有一个共同特点：功能繁杂、界面不美观、操作体验差，而且体积通常都很大，看起来就让人觉得臃肿、繁琐。

在1月9日发布会现场展示的一段视频中，一位up主给钉钉算了一笔账：在钉钉首页可以直接点击的按钮就有32个，算上浮层、子菜单等，光首页就包含了近100个功能按钮。

钉钉作为一个ToB应用，走向臃肿是一个不可逆的过程。

但和纯ToB应用不同的是，钉钉同时也是一款ToC应用。也就是说，无论是B端还是C端用户，钉钉全想要，同时也意味着，钉钉团队要挨两端用户的骂，尤其是小学生的骂。

B端用户来说，永远都有增加新功能的需求；对C端用户来说，永远觉得钉钉功能太多了。但两端用户都有一个共识：那就是大部分功能用不到，需要用到的功能则经常找不到。

从三年前做深价值进入业务场景开始，钉钉就一直在投入大量产品经理，试图通过产品设计，让钉钉变得简单易用。从实际效果来看，吐槽钉钉难用的声音并没有减弱，100多个功能按钮，依然没办法精简到10个。

直到AI Agent的出现。

站在具体使用者的角度，我并不需要在一大堆功能按钮里找出对应的那一个，只需要对着一个“超级助理”，说出自己的任务即可，至于怎么找到对应的功能，让AI去想办法。

在AI助理的功能演示中，用户可以像对待真人助理一样，对AI提出任务需求，比如设置铃声、打开邮箱写邮件、签到、预订酒店机票等，AI助理会主动把对应的功能推到用户手边。

叶军表示，随着AI Agent的不断完善，用户终有一天将获得一个没有菜单的钉钉。

站在用户角度来看，这不就是瘦身成功了吗？

但，钉钉要做的，远不止如此。

AI“更喜欢”臃肿

AI能够达到今天的成就，关键在于大模型、大数据。

也就是说，一个产品能覆盖的场景越丰富，AI Agent的辅助能力就越强，在面对差异化用户需求时的响应速度就越快，产品带给用户的“臃肿”感就越弱。

在AI的加持下，前台用户只会感知到和自己当前项目相关的功能，其它功能被AI隐藏了起来，使得用户不再迷失于100个功能按钮的海洋中。

例如，AI超级助理在辅助内容创业者获取灵感、补全素材时，创作者不需要从头开始去训练AI Agent进行剧本创作、分镜脚本、拍摄计划等，AI会根据自己已“掌握”的视频创作场景的需求，为用户提供对应的服务。

AI超级助理也可以将冗长的文字、语音、视频内容中的关键信息提取出来，浓缩成简短的要点总结。

那么AI是如何识别出哪些内容是要点，哪些内容是铺垫呢？

当然是依靠大数据和丰富的应用场景。而大数据又进一步加快了AI进化的速度，使其可以突破固有场景的限制，渗透到更多新场景中。

如今，AI超级助理不光可以服务职业人士，还可以应用到家长和孩子的教育中。发布会现场演示了给孩子批改作文的操作，可以看到AI既可以识别手写内容，还可以给出分析和指导，并对错字错词以及优秀佳句进行标注和解读，告诉孩子错字错在哪里、佳句好在哪里。

如果你愿意，甚至可以让AI成为你的生活助理。

如今，钉钉走到了第九个年头。也就是说，九年里积累的大量数据和应用场景，都成为了现在AI的养料。这样一来，“臃肿”反而不再是负担，而是具备了成为“数字资产”的潜力。

如果钉钉的AI Agent仅仅是做到了这样的程度，那它顶多是一个让C端用户更好用的优化版而已。实际上，钉钉的野心，是创造一个全新的生态系统。

“敲一敲”能敲开AI Agent Store的野心吗

一个很严肃的产品发布会，却以一个很不严肃的小应用作为开场。

解压小应用“敲一敲”，功能类似“线上功德APP”，敲一下会冒出一个梗词，同时还会给用户积分，可以用来兑换奖品。

实际上，这个小应用承担的使命，很像当年微信的“跳一跳”小游戏。目的是告诉大家，钉钉将在4月份正式上线AI Agent Store，欢迎开发者入驻并发布更多应用。

通过这个有点搞笑的小应用，钉钉向开发者传递了一个信息，那就是现在的AI Agent Store，门槛低、宽容度高，只要开发者有创意，就可以向钉钉提交应用。毕竟，能比“敲一敲”开发成本更低、更无厘头的应用，确实也不多见。

这就是钉钉下一步最大的野心：打造“AI助理+AI Agent Store”的完整链路，让每个人都成为AI助理的创建者，甚至都可以从中赚取分成。

在叶军看来，AI Agent会成为新SaaS的主要形态。

以前，不同的应用场景下需要打开不同的SaaS产品和APP，而AI Agent可以让企业通过调用多项AI能力，批量完成业务流程、组织管理、知识库管理等操作，并且可以和外部系统进行自动化交互。

而随着社会的发展，社会分工越来越细化，原本的大协同、巨型ERP，被打散成一个个小协同、小功能，当前的“人找功能”的逻辑，将会在AI Agent影响下，变成“功能找人”。人机交互也会从图形界面（GUI），向自然语言界面（LUI）转变，届时功能菜单也会被AI助理所替代。

这就意味着，当需求和场景越来越碎片化，就需要有足够多的AI助理来应对，进而需要更多的AI助理创建者。

在钉钉AI Agent Store的逻辑中，一个人既可以是AI助理的使用者，让AI助理为自己服务；也可以将AI助理发布到AI Agent Store上，为更多人服务。于是，用户被黏在AI Agent Store中，成为钉钉生态的一部分。

用叶军的话说，“过去大家总说钉钉服务老板，现在每个人都可以是老板了。”

如今，钉钉用户数7亿，企业用户2500万，付费DAU为2800万，软件付费企业数12万，AI魔法棒企业用户超过70万，低代码应用超1000万，全代码应用数超100万。

未来，钉钉要成为低门槛、高频和开放的AI智能助理平台。

AI浪潮席卷之下的竞争，正在变得越来越激烈。钉钉能否实现今天立下的flag，甚至能否因此而真正开启AI Agent的“App Store”时刻？

让我们拭目以待吧。

12 1 月 2024

人工智能时代的领跑者：你必须了解的全球三大AI聊天机器人！

一些结论

2022年9月至2023年8月，前50大AI工具吸引了超过240亿次访问。

其中，ChatGPT以140亿次访问量领先，占分析流量的60%以上。

过去一年，AI行业每月平均访问量达20亿次，过去六个月内激增至33亿次。

分析的50个AI工具体验了10.7倍的增长率，平均每月增加2.363亿次访问。

ChatGPT、Character AI和Google Bard的净流量增长分别为18亿次、4.634亿次和6800万次。

Craiyon、MidJourney和Quillbot在此期间面临最大的流量下降。

美国贡献了55亿次访问量，占总流量的22.62%；而欧洲国家共计贡献了39亿次访问。

AI聊天机器人工具最受欢迎，占191亿次访问量。

超过63%的AI工具用户通过移动设备访问。

性别数据显示存在差异：男性用户占69.5%，而女性用户占30.5%。

No. 1 ChatGPT (总访问次数: 146亿次)

为什么是第一名？

ChatGPT自2022年11月30日推出以来，仅五天内就达到了100万用户,迅速成为历史上增长最快的消费软件应用之一。截至2024年1月，它已经吸引了超过1.8亿用户和1亿周活跃用户，超过92%的《财富》500强公司正在使用ChatGPT。ChatGPT基于大型语言模型（LLM），支持对话式交互，能够理解和生成与用户需求相关的回答。它的成功引发了其他产品的开发，如Google的Bard和Microsoft的Bing Chat（现已更名为Copilot）。

产品介绍

ChatGPT是由OpenAI开发的一款基于大型语言模型（LLM）的聊天机器人，于2022年11月30日发布。它基于GPT-3.5或GPT-4模型，这些模型属于OpenAI的生成预训练变换器（GPT）系列，采用了由Google开发的变换器架构。ChatGPT的设计目标是生成接近人类的文本，使得与用户的对话更加自然和流畅。由于其强大的自然语言处理能力，ChatGPT能够理解并回应广泛的语言输入，包括各种复杂或罕见的语言。它在互联网上的大量文本数据上接受了训练，使其能够回答各种复杂的问题，并提供相关的详细信息。此外，ChatGPT还具有一定的记忆能力，能够记住之前的对话内容，并在此基础上生成后续的回应。

ChatGPT不仅被广泛用于一般性对话，还被应用于特定行业和场景。例如，它可以用于客户服务，为用户提供快速准确的回答；在教育领域，它可以辅助教学和学习；在内容创作上，它可以帮助生成文章、诗歌或其他文本内容。此外，ChatGPT的应用也涉及编程助手、游戏设计、法律咨询等多个领域。

由于其强大的功能和广泛的应用场景，ChatGPT迅速吸引了大量用户的关注，并在短时间内成为最受欢迎的AI聊天机器人之一。

LLM模型

GPT-3.5和GPT-4。为了适应对话应用，ChatGPT经过了特定的微调，结合了监督学习和强化学习的方法来优化其性能。这使得ChatGPT不仅能够理解和回应用户的语言输入，还能够根据对话历史调整其回应，提供更为精准和相关的信息。

功能介绍

自然语言理解与生成：ChatGPT使用先进的自然语言处理技术，能够理解和生成自然、流畅的语言。这使得它能够有效地与用户进行对话，回答问题，甚至创作内容，如文章和诗歌。

上下文记忆：ChatGPT能够记住之前的对话内容，并在此基础上生成后续的回应。这种能力使得对话更加连贯和有意义，增强了用户体验。
多语言支持：虽然主要以英语为主，但ChatGPT也能够理解和回应多种语言，使其适用于全球不同语言的用户。
定制化和集成：ChatGPT提供了高度的定制化选项，使企业和开发者能够根据自己的需求调整其功能。此外，ChatGPT可以与不同的平台和应用程序集成，如网站、移动应用和社交媒体平台。
安全和隐私保护：ChatGPT使用先进的安全协议来保护敏感的用户信息，并通过审查API过滤查询，以防止产生冒犯性的结果，确保了内容的安全性和合适性。

是否免费

免费版：免费版本允许用户体验基于GPT-3.5的聊天机器人功能，适用于常规查询和对话。
ChatGPT Plus：这是一种高级订阅服务，每月收费20美元。订阅后，用户将享受到包括但不限于对最新的GPT-4模型的访问权限（目前为40条/3小时）、更快的响应速度、以及在高峰时段的优先访问权。
ChatGPT Team：2024年1月10日最新推出的针对团队用户和需要高级功能的用户，ChatGPT可能提供更定制化的服务，包括更高的GPT-4使用上限（经测试为100条/3小时），共享GPT等。具体详情请看下图。

插件

对于PLUS及以上的用户，支持插件和自定义GPTs。

客户端

支持网页端，iOS app及安卓app

No. 2 Character AI (总访问次数: 38亿次)

为什么是第二名？

Character AI是一个采用中性语言模型生成文本回应的人工智能聊天机器人网络应用程序，允许用户开发角色，并允许您与虚构人物、历史人物和名人进行对话。与其他AI聊天机器人（如ChatGPT）不同，Character AI的输出更像人类，并允许您同时与多个机器人聊天，提供不同的视角。Character AI由前谷歌AI开发者Noam Shazeer和Daniel De Freitas开发，于2022年9月发布了测试版。自发布以来，它已成为继ChatGPT之后最受欢迎的AI聊天机器人之一。

产品介绍

Character AI是一款由前谷歌AI开发者Noam Shazeer和Daniel De Freitas创造的人工智能聊天机器人应用程序。该平台使用中性语言模型，可以生成与人类对话类似的文本回应，它的独特之处在于允许用户创造自己的角色，并与这些虚构的、历史上的或名人角色进行互动对话。与其他AI聊天机器人相比，Character AI提供了更为生动的人类般的交流体验，并支持用户同时与多个机器人进行对话，从而获得不同的视角和体验。

Character AI的测试版于2022年9月发布，凭借其个性化的聊天体验和用户自定义角色的功能，迅速成为市场上最受欢迎的AI聊天机器人之一。用户不仅可以与现成的虚构或真实人物聊天，还可以创造并定制自己的虚构角色，从而开启独特的对话体验。这些角色可以基于书籍、电影角色，甚至是现实生活中的名人。

Character AI平台通过用户友好的系统，简化了角色的创建和个性化过程。用户可以为其角色指定名称、制定问候语，并上传头像图片，使角色在对话中易于识别并能被其他用户搜索到。此外，Character AI不断在训练过程中分析大量文本，以提升其预测句子中后续单词的能力，进而提供更加吸引人、类似人类的AI对话能力。

Character AI的用户可以通过一系列简化的步骤快速创建具有个性化名称、问候语、可见性和头像的角色。进阶定制选项还允许用户修改角色的个性、回应、语言、声音、外观和动画，为用户提供深度个性化的角色体验。此外，Character AI的动态聊天机器人网络应用程序也提供了与各种著名个性如Elon Musk和Pikachu等进行互动的独特功能。

Character AI平台不仅适用于娱乐和休闲，也为如排练公众演讲、学习新方言、提高谈判技能或参与沉浸式游戏体验等多种应用提供了解决方案。它还允许用户创造独特的AI人物，并与社区共享，从而在编写引人入胜的故事或提供与虚构人物的互动对话中发挥作用。这些AI角色在教育娱乐、客户支持和一般娱乐等多个领域被广泛使用，丰富了用户的互动和体验。

LLM模型

Character AI没有公开声明使用特定的大型语言模型（LLM）名称，它是由深度机器学习和大型语言模型驱动的，这些模型在对话能力方面进行了广泛的文本分析训练。根据其网站和公告，Character AI强调的是个性化和用户能够自定义角色，这意味着它们可能已经开发了自己的独特版本的语言模型以支持其平台。

功能介绍

角色自定义创建：用户可以设计和创建独特的AI角色，设定它们的个性、喜好、和不喜欢的事物，并选择它们的对话方式。这些角色可以基于真实人物、虚构人物，或完全是用户的原创。
与多个角色交互：Character AI提供了与多个AI角色同时交互的能力，这些角色可以是历史人物、虚构角色或名人，增加了对话的维度和趣味性。
个性化对话体验：平台上的每个角色都有独特的个性、行为和声音，用户可以与这些角色进行自然而流畅的对话，仿佛在与真人交流。
丰富的角色库：用户可以与一个多样化的角色名单进行互动，这些角色包括名人、虚构角色，甚至是著名的政治讽刺角色，提供了广泛的交流体验。
用户控制和隐私：Character AI重视用户的控制和隐私权，允许用户随时删除他们的角色和相关数据，确保了用户使用的自主性和数据的安全性。

是否免费

免费使用基础功能。Character AI+的订阅服务价格为每月9.99美元，其提供的特性可以总结如下：

优先访问 – 更短等待时间：Character AI+为订阅用户提供了优先访问的特权，意味着用户可以享受到更快的服务响应时间，不需要长时间等待即可与AI角色进行互动。
回应时间更短：订阅服务还包括了缩短AI回应用户问题的时间，提升了用户体验的流畅性。
拥有特权新功能：Character AI+用户还将享有特权新功能的访问权限，这可能包括一些尚未对所有用户开放的测试功能或新工具。
c.ai+ 社区访问：订阅者将有机会访问一个专属的社区，这个社区可能提供了更多的互动和讨论机会。
c.ai+ 全员文字符识读量：此项服务可能意味着订阅用户将获得更高的文本识别量，这可以在与AI角色进行更长的对话时非常有用。

No. 3 Google Bard (总访问次数: 2.42亿次)

为什么是第三名？

Google Bard作为谷歌推出的人工智能聊天机器人，尽管是一个新进入者，但凭借谷歌的技术实力和资源，迅速在AI领域占据了一席之地。与OpenAI的ChatGPT相比，Bard在信息检索和回应生成上提供了与谷歌生态系统的紧密集成，使其在提供帮助和实用信息方面具有独特优势。

产品介绍

Google Bard是谷歌推出的一款AI聊天机器人，以其最新的语言模型Gemini Pro为基础。Bard提供了一系列的对话式AI功能，可以帮助用户完成广泛的任务，从日程安排到获取实时数据，再到自动化客户支持。它通过无缝集成跨多个平台，并提供个性化的通信服务，使Bard成为无缝互动的虚拟助手。不仅如此，Bard还能够根据用户的提示生成新的内容，特别是在文本回应方面，能够以自然和对话的方式作出回应。

Bard背后的LLM模型训练于海量的文本和代码数据集，具备生成内容的功能，尤其是在应对用户提示时的文本回应。其多功能性使其能够回答问题、提供摘要以及通过处理网络上的信息来协助研究，并为进一步的探索提供相关链接。

与ChatGPT相似，Bard也通过不断的改进和优化，提供了基于对话的高级语言模型。然而，与其他AI系统不同，Bard可以访问互联网，以便在生成回应时包含相关的当前数据。这一功能使得Bard在提供帮助和实用信息方面具有独特优势。

LLM模型

Google Bard于2023年12月经历了一次重大升级，引入了谷歌的最新大型语言模型Gemini Pro。这个模型提升了Bard的功能，使其在多个行业标准基准测试中的表现超越了之前的模型和其他竞争对手的聊天机器人，包括在某些测试中超越了OpenAI的GPT-3.5模型。Gemini Pro是专为在不同任务上具有可伸缩性而设计，而Gemini Ultra则旨在处理最复杂的输入。

Bard搭载Gemini Pro能提供更高级的推理、规划和理解能力。在测试中，用户在盲测评价中更青睐于使用Bard搭载Gemini Pro，而不是其他免费的聊天机器人选项。谷歌也在开发一个名为Bard Advanced的新版本，它将使用Gemini Ultra，这是一个神经网络，被描述为谷歌构建的最先进的AI系统。Bard Advanced预计将能够理解和处理包括文本、图像、音频、视频和代码在内的各种类型的信息。

功能介绍

实时信息更新：Bard可以访问互联网，提供基于最新数据的回应，如股票价格或最新新闻头条。
人性化对话：通过自然语言处理，Bard能够理解上下文，适应不同的对话风格，并以对话方式回应，使得与其的交流更自然和直观。
集成谷歌应用和服务：Bard现在可以与谷歌应用和服务集成，以便在回应中提供更有用的信息。
跨平台体验：Bard可以在不同的平台和设备上使用，包括安卓和iOS设备。
隐私和控制：谷歌为用户提供了对Bard活动历史的完全控制，包括删除或自动删除活动记录的选项。

是否免费

目前免费使用。

插件

支持谷歌相关的应用插件。

客户端

支持网页端。

12 1 月 2024

Gartner发布2024年十大战略技术趋势！共同主题是AI

Gartner发布2024年企业机构需要探索的十大战略技术趋势。Gartner研究副总裁Bart Willemsen表示：“由于技术变革以及社会经济方面的不确定性，我们必须大胆采取行动并从战略上提高弹性，而不是采取临时措施。IT领导者的地位特殊，他们可以制定通过技术投资帮助企业在这些不确定性和压力下保持成功的战略规划。”

Gartner杰出研究副总裁兼研究团队负责人Chris Howard表示：“IT领导者和其他高管必须评估战略技术趋势的影响与益处，但由于技术创新的速度日益加快，这并非易事。例如生成式AI和其他类型的AI虽然带来了新的机遇并推动了若干趋势的发展，但要想通过长期使用AI获得业务价值，还需要采取严谨的方法广泛采用AI并注意风险。”

2024年重要战略趋势包括：

全民化的生成式AI（Democratized Generative AI）

经过大规模预训练的模型、云计算与开源的融合正在推动生成式人工智能（生成式AI）的全民化，使这些模型能够被全球工作者所用。到 2026 年，Gartner预测超过80%的企业将使用生成式AI的API或模型，或在生产环境中部署支持生成式AI的应用，而在2023年初这一比例不到5%。

生成式AI应用可以让企业用户访问并使用大量内部和外部信息源，这意味着生成式AI的快速采用将极大地促进企业知识和技能的全民化。大型语言模型使企业能够通过丰富的语义理解，以对话的形式将员工与知识相连接。

AI信任、风险和安全管理（AI Trust, Risk and Security Management）

AI的全民化使得对AI信任、风险和安全管理（TRiSM）的需求变得更加迫切和明确。在没有护栏的情况下，AI模型可能会迅速产生脱离控制的多重负面效应，抵消AI所带来的一切正面绩效和社会收益。AI TRiSM提供用于模型运维（ModelOps）、主动数据保护、AI特定安全、模型监控（包括对数据漂移、模型漂移和/或意外结果的监控）以及第三方模型和应用输入与输出风险控制的工具。

Gartner预测，到2026年，采用AI TRiSM控制措施的企业将通过筛除多达80%的错误和非法信息来提高决策的准确性。

AI增强开发（AI-Augmented Development）

AI增强开发指使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试。AI辅助软件工程提高了开发人员的生产力，使开发团队能够满足业务运营对软件日益增长的需求。这些融入了AI的开发工具能够减少软件工程师编写代码的时间，使他们有更多的时间开展更具战略意义的活动，比如设计和组合具有吸引力的业务应用等。

智能应用（Intelligent Applications）

Gartner将智能应用中的“智能”定义为自主做出适当响应的习得性适应能力。在许多用例中，这种智能被用于更好地增强工作或提高工作的自动化程度。作为一种基础能力，应用中的智能包含各种基于AI的服务，如机器学习、向量存储和连接数据等。因此，智能应用能够提供不断适应用户的体验。

目前已存在对智能应用的明确需求。在2023年Gartner首席执行官（CEO）和业务高管调查中，26%的CEO认为对企业机构破坏力最大的风险是人才短缺。吸引和留住人才是CEO在人力资源方面的首要任务，而AI被认为是未来三年对他们所在行业影响最大的技术。

增强型互联员工队伍（Augmented-Connected Workforce）

增强型互联员工队伍（ACWF）是一种优化员工价值的战略。加速并扩大人才规模的需求推动了ACWF的发展趋势。ACWF使用智能应用和员工队伍分析提供助力员工队伍体验、福祉和自身技能发展的日常环境与指导。同时，ACWF还能为关键的利益相关方带来业务成果和积极影响。

到 2027年底，25%的首席信息官（CIO）将使用增强型互联员工队伍计划将关键岗位的胜任时间缩短50%。

持续威胁暴露管理（Continuous Threat Exposure Management）

持续威胁暴露管理（CTEM）是一种使企业机构能够持续而统一地评估企业数字与物理资产可访问性、暴露情况和可利用性的务实系统性方法。根据威胁载体或业务项目（而非基础设施组件）调整CTEM评估和修复范围不仅能发现漏洞，还能发现无法修补的威胁。

Gartner 预测，到2026年，根据 CTEM 计划确定安全投资优先级别的企业机构将减少三分之二的漏洞。

机器客户（Machine Customers）

机器客户（也被称为“客户机器人”）是一种可以自主协商并购买商品和服务以换取报酬的非人类经济行为体。到2028年，将有150亿台联网产品具备成为客户的潜力，这一数字还将在之后的几年增加数十亿。到2030年，该增长趋势将带来数万亿美元的收入，其重要性最终将超过数字商务的出现。在战略上应考虑为这些算法和设备提供便利乃至创造新型客户机器人的机会等。

可持续技术（Sustainable Technology）

可持续技术是一个数字解决方案框架，其用途是实现能够支持长期生态平衡与人权的环境、社会和治理（ESG）成果。AI、加密货币、物联网、云计算等技术的使用正在引发人们对相关能源消耗与环境影响的关注。因此，提高使用IT时的效率、循环性与可持续性变得更加重要。事实上，Gartner 预测，到 2027 年，25% CIO的个人薪酬将与他们对可持续技术的影响挂钩。

平台工程（Platform Engineering）

平台工程是构建和运营自助式内部开发平台的一门学科。每个平台都是一个由专门的产品团队创建和维护并通过与工具和流程对接来支持用户需求的层。平台工程的目标是优化生产力和用户体验并加快业务价值的实现。

行业云平台（Industry Cloud Platforms）

Gartner 预测，到2027年，将有超过70%的企业使用行业云平台（ICP）加速其业务计划，而2023年的这一比例还不到15%。ICP通过可组合功能将底层 SaaS、PaaS 和 IaaS 服务整合成全套产品，推动与行业相关的业务成果。这些功能通常包括行业数据编织、打包业务功能库、组合工具和其他平台创新功能。ICP是专为特定行业量身定制的云方案，可进一步满足企业机构的需求。

12 1 月 2024

一文盘点2023年度最热AI应用，打工人必备！建议收藏（内附工具汇总文档）

2023年，是AI行业的一个分水岭。
这一年，我们见证了AI技术的跃进式发展。
从深度学习到自然语言处理，从图像生成到视频生成，从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星，不仅重塑了人们的生活方式，也重新定义了未来的商业图景。
正如约翰·卡尔金所说：“我们塑造我们的工具，然后我们的工具塑造我们。”

通过梳理和盘点过去一年AI领域颇受关注的热门工具，希望能帮助各位更好地回顾AI技术的突破与最新进展，预见它们将如何继续影响我们的世界。
我们参考估值、影响力、用户评价等维度，选取了几大常见领域一些具有代表性的AI产品，梳理了其迭代历程、最新性能等，每个类别都有其独特的技术特点和应用场景。

一、海外版

二、国内

12 1 月 2024

如何使用AI来优化组织结构？

人工智能（AI）正引领着组织变革，它提供了崭新的机会，重新定义未来工作和劳动力，而不仅仅是优化过去所做的一切。

这需要我们以全新的方式思考组织如何处理战略、领导力、人才、文化、组织设计等，也就是组织健康的所有要素。

亚马逊、谷歌和脸书是 AI 优先的例子，它们快速地实现了规模化，并成功管理了快节奏的增长。它们减少了对“硬资产”( 如机器或设施 ) 的依赖转而专注于组织健康的关键无形资产，并利用 AI充分发挥其潜在的影响力随着过去几年 AI的迅速普及，这些公司已经为适应 AI 世界重塑了他们的人才和组织实践。

例如，将 AI学习算法应用于匹配潜在员工与空缺职位，使招聘人员能够更快地筛选申请并填补职位空缺。

2017 年3 月，字母表公司和谷歌的 CEO 孙达尔·皮柴( Sundar Pichai宣布公司正在转变为 AI优先的组织。随后，该公司发布了一系列 AI 应用的场景，包括开发用于优化机器学习的专用芯片、更广泛地使用基于人工神经网络的机器学习方法( 深度学习 )，例如癌症研究，还包括在尽可能多的设备上安装谷歌的 AI驱动助手。皮柴表示公司正在从“搜索和组织世界信息转向 AI和机器学习”。该宣告是公司愿景的战略性转变。同月，微软也宣布其打算从“移动优先”和“云优先”转变为“AI 优先”。

未来我们将见证机器在多项任务上，以更具成本效益的方式超越人类。使用 AI 来优化组织结构是一种新兴的方法，它可以帮助企业更好地适应市场变化、提高运营效率、促进员工发展，并提升企业的整体竞争力。

盛宝银行案例——基于 AI的信息检索、预测分析及个性化营销

2016年，时任瑞士盛宝银行( Saxo Bank )CEO的帕特里克·亨格( PatrickHunger)领导该银行进行了技术改革。盛宝银行不仅着手采用机器人流程自动化( Robotic Process Automation，RPA )来提高效率，解放人类去创造更大的附加值，还开发了各类 AI和机器学习项目来创造新的价值。这项工作主要聚焦三个关键领域:基于 AI的信息检索、预测分析及个性化营销。总体来说，该银行将这些举措称为“机器人技术”。

但亨格也意识到，银行数字化计划的成功将取决于一些关键原则——

1、自上而下

领导者需要精通机器人技术，这样他们才能创造令人信服的机器人技术愿景和引领这趟旅程，并阐明其对企业战略的重要性。换句话说，领导者必须授权机器人技术引领者，让他们成为日常工作中的变革推动者。

2、打破组织壁垒

许多公司在自己的业务和IT 团队之间制造了文化鸿沟。但是，机器人技术要求这些团队尽可能紧密地合作，以确保它们跟上并加快业务发展的步伐。正如亨格所认为的那样，“公司的组织设计得多聪明并不那么重要。创造组织思维共识和价值的是人际交易；所有这些都以一个扎根于文化的集体商业目标为指导。”盛宝银行当时的数据主管帕布·文卡特斯 ( Prabhu Venkatesh ) 进一步强调了这一点，并解释说:

“我们有一个双向协作模型，技术和业务团队可以自由交流想法和信息。技术团队知道什么是可能实现的，而业务团队知道什么是有用的——神奇的产品就诞生在这个交叉点上。”IT 团队和业务团队作为公司的两个平等团队，要确保持续的对话和明确的协调，这是为打破部门孤岛所做出的至关重要的努力，因而机器学习和 AI 开发团队被设计为业务组织的一个组成部分，以弥合鸿沟。盛宝银行大数据和 AI 主管克里斯蒂安·巴斯克·黑达尔 ( Christian Busk Hededal) 解释说:“我们的目标是成为一个数据驱动的组织，让技术和业务之间紧密结合。”

3、将数据展示给广泛的利益相关方

帕布·文卡特斯指出，机器人技术的一个重要能力就是将数据和关键绩效指标展示给更广泛的利益相关方群体。换句话说，即在帮助每一位员工在决策中变得更加以数据为导向的同时，牢记大局。

这不仅仅是一组宣言，更是实践的原则。听起来似乎无关紧要，但公开透明地展示执行数据会在不同团队之间制造共识，让每个人了解公司正在发生的事情，以及大家的工作会如何影响公司的业绩。

在无形中产生的积极影响是创造了一种结果导向的文化，在这种文化中，人们会主动对可见的问题采取行动，而不是依赖流程去解决问题。建立机器人技术变革引擎。通过建立强大的治理体系，盛宝银行的领导者可以根据预期的商业价值更有效地推动机器人解决方案的落地，并不断研究使企业从机器人技术中受益的新方法。这需要挑战现状，克服因机器人技术而变得过时的组织和流程障碍。最后，盛宝银行需要为运营经理提供实用的方法和工具，以便日常管理由人和机器组成的混合劳动力。盛宝银行制订了一项计划，来缓解管理人员和员工在应对任何变化时所产生的焦虑情绪: 在早期就与人力资源部门密切合作，就人力资源的重新部署提供建议。

4、确保人机融合

领导者的角色是有意识地将组织设计为一个通过包容而不是隔离来充分发挥潜力的有机体。对盛宝银行来说，人机协作意义重大，它不仅仅是当下流行的说辞，更是一套逻辑体系。在该体系之下,创新和业绩在人机生态系统中最能蓬勃发展。帕特里克·亨格指出:“当我们说我们本质上是一家科技公司时，我们的意思是科技是将人类技能付诸实践的主要工具。科技增强了我们的组织能力，让其不再受限于企业规模。”虽然有些人将数字化手段 ( 尤其是 AI) 视为机器与人类之间的矛盾“，但其他人则认为科技以前所未有的方式帮助我们展现了人性。这是一种提升组织健康的工具。这种以智能运营模型为核心的组织，将成为公司内提升个人和团队绩效的中流砥柱，使人机协作的新方法得以生根发芽。因此，组织进化的最大机会不仅仅是重新设计工作或部署自动化工具，还有从根本上重新思考“智能运营模型的架构”，为企业团队和个人创造新的价值来源。

此外，在疫情期间，随着数字化客户体验建设的深入，盛宝银行基于 AI工具的全部价值变得更加清晰，在释放人类潜力方面尤为明显。由于消费者待在家里，或至少远离实体银行分支机构，该银行基于 AI的工具帮助员工以他们意想不到的方式预测和满足快速变化的客户需求和偏好。最终，该银行的员工变得善于学习、不断努力，这也意味着银行能够以更快、更敏捷和更准确的方式做出响应。它可以全年、全天候地不断学习、扩张和运营。

AI 优先的真正含义是什么?

AI 优先不仅是利用分析( 或决策 )的力量来加强人机协作，它更是基于 AI重塑未来组织，防止 AI 只被用作优化组织的工具。换句话说，这不仅是为了更好、更便宜或更快地做同样的事情，也是为了开展新的活动，创造更多价值。

当前全球的数字经济( 有时被称为“互联网经济”)比历史上其他任何时期都更需要组织的一致性、敏捷性和智能化。组织需要将 AI嵌入组织运作的各个方面，使其成为组织 DNA 的一部分，以便有效释放公司的全部潜力。在早些年或不那么动荡的商业环境中，CEO 或高层管理团队可能单独负责开发组织的全部潜力。然而，如今，组织的基本要素必须协调一致，作为一个整体同步行动。

一项研究显示，众多不同的组织认为，在采用 AI 的主要障碍中，近一半与组织健康相关（见图 9-1 ）。该研究发表在《麻省理工学院斯隆管理评论》上，将受访者分成四个类型：先驱者（了解并采用 AI 的组织）、调查者（了解 AI 但未完成试点的组织）、实验者（在没有深入了解技术的情况下，试验 AI 的组织）和被动者（不了解也没有采用 AI 的组织）。

公司如何能清除障碍并成功挖掘 AI的价值?

根据麻省理工学院的研究成果，我认为可以总结为对组织健康的四个特定要素的高度聚焦。具体来说，成功采用 AI和其他数字技术的公司在以下四个维度表现出色，我把它们看作四项投资。

1、对战略和决策的投资

麦肯锡的一项研究表明，大多数受访者表示他们的公司已经从 AI 中获得了价值，与其他公司相比，规模更大、收入更高、成本更低。这并非运气使然，公司制定业务战略、实施战略的能力和在应用 AI过程中的变革管理，共同影响了变革实现的程度。那些在普及 AI 方面取得更大成功的公司更有可能有一组关键动作，包括协调AI和业务战略，而每六种关键动作中有五种与组织健康相关。更倾向于有效使用 AI 的公司更容易在全公司普及 AI、实现商业价值。在另一项研究中，来自高绩效公司的 36% 的受访者表示，他们的一线员工会使用AI提供的实时反馈来做日常决策，而其他公司中只有 8% 的受访者会这样做。

2、对组织和工作设计的投资

麦肯锡的研究发现，近 90% 成功普及 AI的公司将超过一半的分析预算用于推动对 AI 的采用，例如工作流程重新设计、沟通和培训;其他公司中只有 23% 倾注了类似的资源。1 在普及 AI方面做得最好的公司在变革和推动采用 AI的项目 ( 工作流程重新设计、沟通、培训 ) 上花费的资金或预算与它们在技术本身上花费的一样多。

3、对人才的投资

麦肯锡的研究发现，成功在组织内部采用 AI的公司在人才和流程方面的投资与在技术方面的一样多。一项对 1 000 家公司的调查发现，只有 8%的受访公司参与了此类实践，使得 AI的普及得以实现。13 无数研究呼应了这些发现。《麻省理工学院斯隆管理评论》和德勤数字 (Deloitte Digital) 在《科技谬论: 人如何成为数字化转型的真正关键》( The Technology Fallacy: How People Are the Real Key toDigital Transformation) 一书中发表的联合研究提供了令人信服的证据表明数字成熟度更多地与人和组织变革有关，而不是与其所使用的特定技术有关。

4、对风险缓解和认知提升的投资

公司处理风险的方式( 即质量保证审计或合规培训 ) 在很大程度上决定了权责。同样，组织学习的方式 ( 通过使用知识和协作平台 ) 通常定义了公司文化。采用 AI确实存在很大的风险，因为 AI 通常以大量数据 ( 例如搜索习惯或视频通话记录小时数为基础，滥用这些数据是非法的。因此，没有任何公司愿意冒险在未经允许、未向员工全面说明数据用途的情况下，收集和使用数据。根据欧盟通用数据保护条例 ( General Data Protection Regulation，GDPR)，在违反条例的情况下，罚款最高可达 2 000 万欧元，或公司主体在全球营业额的 4%。违规或滥用的潜在司法成本可能超过成交价格，如果发现问题，公司估值将会降低，因为应对 GDPR 监管的成本很高。因此，交易团队必须仔细审查采用 AI 技术是否合规或是否存在重大责任风险。同样，CEO 和董事会必须建立治理和监督机构，以确保公司负责任地采用AI。

总之，人工智能（AI）正引领着组织变革时刻已经到来，生成式AI和大模型所展现出来的强大能力，正在改变游戏规则和加速颠覆旧有模式。

面向未来，AI 依然面临着种种挑战，值得大模型公司、数据分析企业和用户们持续去探索。

11 1 月 2024

1400元巴掌大小AI硬件，首日卖光1万台！吕骋归来：要干翻所有App

原创关注前沿科技量子位

不出所料，果然有AI硬件炸场CES 2024！

这款AI掌机名叫Rabbit R1，誓要干掉App应用（There is no need for an app for that）。

预售价199美元（约1425元），具体长相嘛，就像下面这样：

据了解，Rabbit宣布R1在3月才会开始发货，然而消息传出，不到24小时，这家伙就火速卖出了10000台。

无论是售价、首批火爆程度，还是使用便捷度（无需订阅），R1看起来都比前段时间刷屏的另一款AI硬件——AI Pin有那么一点优势。

也难怪Rabbit公司的创始人兼CEO Jesse Lyu公开表示，自家产品或许有希望能在市场上击败AI Pin（手动狗头）。

网友们也纷纷表示对二款AI硬件的个人看法，好不热闹：

不过据了解，虽然R1具备视频通话和SIM卡插槽等功能，但“R1并非想要取代智能手机”。

更令人瞩目的地方在于，R1内置了一个Rabbit公司开发的“全新的基于AI的系统”，RabbitOS。

对此，这家公司表示：

希望R1成为用户与智能手机（无论是iPhone还是其他设备）之间的中介。
希望利用AI来改变用户与应用程序的交互方式。

还有一个特别的点在于，这家公司背后的创始人，是华人Jesse Lyu，也就是前渡鸦公司创始人。

实不相瞒，好奇心已经被勾起来了，这AI掌机到底有啥不一样？

一起来看——

Rabbit R1有些啥亮点？

当今时代，颜值先行，来展开看看Rabbit R1的外观。

R1通体亮橙色，其重量约为115克，正面有一块2.88英寸的触摸显示屏。

屏幕右侧上方，是一颗能够360° 旋转的AI摄像头。

摄像头下面是操作滚轮，侧边对应着圆形按键。滚轮用来选择、导览，而按键则是一键唤醒语音助手的快捷键。

据介绍，R1还配备了麦克风、扬声器，可以说是麻雀虽小五脏俱全。

了解了其外观，再看看内置，包括2.3GHz MediaTek处理器、4GB内存和128GB存储空间，并且支持蓝牙和 Wi-Fi。

官方宣称，R1电池续航时间为“全天”

最重点的来了！——R1搭载的是你从未见过的全新操作系统，Rabbit OS。

Rabbit OS采用底层AI技术，但用上的不是类ChatGPT的大语言模型技术，而是基于“大型动作模型（Large Action Model，LAM）”打造。

大型动作模型脱胎于大语言模型，但更强调“行为”。实际展示来看，大型动作模型和大语言模型能实现的功能看起来相差不多，用户也能通过大型动作模型用自然语言和R1进行对话。

在听到人类自然语言发出的指令后，Rabbit OS能理解人的复杂意图，然后帮人操作App完成任务。

而且，用嘴巴问就行了，不用费劲选择具体该使用什么App。

比如按下侧边按键，500毫秒就能唤醒对话系统，“问任何想问的问题”，然后得到语音回答，并且是配备字幕的那种：

现场还通过查询可口可乐公司的股价，演示了R1带有的联网功能：

用它拍下冰箱里的食材，让它提供一份低卡食谱。

R1沉思一会儿说：“不如来份绿色田园蛋包饭。”

官方介绍，R1兼容现有的所有应用程序，用户无需抛弃已有的任何数据。

听到这里，想必你也能理解为什么R1的愿景是要颠覆App了。

这不就是想要用AI操作系统，替代现在用户和手机App的手动触控交互嘛！

不过Rabbit公司创始人兼CEO说了，R1并不期待代替智能手机，从他的发言里可以看到R1目前的定位：

是一款漂亮的配件，同时也是未来的一体化设备。

Rabbit及其创始人Jesse Lyu

其实产品亮相之前，Rabbit就在科技圈和创投圈小有名气。

原因有三，即投融资情况、技术展示和创始人背景。

第一，去年年底，这家公司在2个月内公布自己获得了3笔融资。

投资方包括“全球技术领域”投资之王”科斯拉（Vinod Khosla，也是OpenAI首位风险投资人），以及韩国互联网巨头Kakao。

3轮融资总额为3000万美元。

第二，同样在去年，Rabbit曾经发布过一个叫Quantum Engine的玩意儿。

利用Quantum Engine，用户可以上传剧本，然后AI会实时生成剧情，让用户选择角色与NPC进行自由互动——而语音是用户和AI实时互动的具体方式。

网友们用它扮演《黑客帝国》和《甄嬛传》里的角色，效果很好，迅速出圈。

第三点，Rabbit背后的创始人Jesse Lyu吕骋，是位AI领域的华人连续创业者。

吕骋，毕业于西交利物浦大学和英国利物浦大学，学习的专业是金融数学。

大三时，他就创立了社交工具Timeet，旨在通过匹配日程找到共同空余时间，从而发起和组织活动。

2014年，吕骋大学毕业，创立了渡鸦科技。

主要产品有可以使用语音来访问移动应用程序的软件Flow、与AI相结合的交互系统Project Flow，用Flow中“听音乐”模块制作的音乐播放器乐流MusicFlow，以及渡鸦音箱、Raven H-1等硬件。

2017年2月，百度宣布全资收购渡鸦，吕骋携团队被收入百度麾下，自己出任百度智能家居硬件总经理。

一年多后，2018年6月，吕骋从百度离职。

离开百度后的吕骋来到美国，再次创业，成立了以AI为中心的公司Cyber Manufacture Co.，也就是今天Rabbit的前身。

One More Thing

无独有偶，同一天，另一家做AI硬件的公司跳出来了，并且是开源版。

苹果前AR原型机设计师Bart Trzynadlowski在推特上激情发声，大喊“不要别人来把你的生活产品化！”

该公司启动了一个完全开源的项目，提供开源模型和价格亲民的可穿戴硬件，开发者可以用这两样东西做出属于自己的AI硬件。

并且可以是任何外型，比如项链、别针等等，还能和Apple Watch等其他硬件适配。

据悉，关于这个开源版AI硬件的更多消息，包括GitHub仓库，都会在下周释放出来～

11 1 月 2024

让每个企业都能用上AI !

1亿用户，TikTok用了9个月，Instagram则用了两年半。

快速的用户增长与ChatGPT所展现出优秀的文本生成、语言问答、语言翻译、编程、绘画等能力息息相关。

曾经颇具科幻感的人工智能，在大模型的支撑下，正一步步成为现实。

在ChatGPT之后，百度、阿里、华为、腾讯、字节跳动、科大讯飞、商汤、中科院、清华、复旦等大厂或高校院所纷纷入局发布大模型。截止2023年10月，我国拥有10亿参数规模以上大模型的厂商及高校院所共计254家，分布于20余个省市/地区^[1]。

在各方刺激下，大模型市场持续火热，企业对于大模型应用的关注水涨船高，AI领域独特的商业模式MaaS也渐渐成为企业关注的重点。

01 点亮大模型

MaaS是继IaaS、SaaS、PaaS之后，又一个基于云计算的商业模式。

顾名思义，MaaS（Model as a Service模型即服务）是一种将AI大模型作为可服务化的产品提供给用户使用的商业模式。其业务核心是“模型-单点工具-应用场景”，即提供预先训练好的大模型，通过简单的接口、应用程序编程接口（API）或软件开发工具包（SDKs）让用户能够方便地访问大模型的功能。它不对用户设限，用户无需关注底层基础设施，也不需要深入的人工智能知识，不管是AI开发者还是普通人，都能依靠MaaS快速点亮大模型的“科技树”。

MaaS的出现解决了大模型研发与落地的难题。

在传统机器学习模型的开发中，模型的研发和落地往往是两个分离的过程。

在研发阶段，通常会需要大量的数据和计算资源来训练模型、调整模型参数等。在这期间，消耗的金钱难以预估，加上时间和人力的成本，令人望而却步。更别提在大模型出现之后，“大数据+大算力+强算法”的优势带来了对算力、数据、人才的更高要求。据悉，仅研发阶段，训练大模型的基础设施投入都是以“亿美元”为单位计算。

但纵使突破各种困难训练出大模型，也不意味着能够顺利将其部署到实际应用场景中——除了要面对运维、资源管理、服务配置等硬件难题外，还需要面对由于缺乏相关专业知识和数据使大模型无法完全发挥潜力的问题。

而MaaS模式的出现令这些问题迎刃而解，并将大模型应用和推广提上了日程。

一方面，用户可以直接调用大模型，不必关注大模型的成本问题，只需上传自身应用场景下的数据进行微调，就能让大模型为业务赋能；另一方面，大模型可以吸纳更多领域的专业知识和实时数据，从而提升预测和决策的准确性，不断进行迭代和优化，以便落实到更细分的场景中去，解决实际场景下的问题。

MaaS降低了大模型的使用门槛，对于用户和大模型企业来说，可谓是“双赢”的选择。

目前，MaaS的服务主要包括以下几个方面：

模型训练服务：这是MaaS最核心的服务，包括数据预处理、模型训练、调参等环节。MaaS可以提供一个可视化的界面来帮助用户上传数据、选择算法和超参数、运行实验等。
模型部署服务：MaaS提供了一系列的API接口，使得用户可以方便地与模型进行交互，并将训练好的模型部署到生产环境中。
模型管理：MaaS可以跟踪模型的响应时间、错误率、资源使用情况等指标，并向用户发送报警通知。同时，也提供了一些分析工具，如可视化的数据报表，以帮助用户更好地理解模型的性能。

02 MaaS的初心
其实，在人工智能领域，服务化的概念一直存在。在大模型声名鹊起之前，“MaaS”的“M”代表Machine Learning（机器学习）。
2017年，谷歌推出了Google Cloud Machine Learning Engine，帮助具有机器学习专业知识的开发人员轻松构建适用于任何类型、任何规模数据的机器学习模型。亚马逊发布的全面机器学习平台服务Amazon SageMaker，提供了端到端的机器学习工作流程，包括数据准备、模型构建、训练部署和管理等功能。除此之外，IBM Waston Machine Learning、微软Azure Machine Learning也是有名的“MaaS”服务平台。
让每个企业都用上AI，成为MaaS模式的初心。
随着人工智能领域的快速发展，大模型（Model）作为机器学习技术的前沿，代替了机器学习（Machine Learning），成为“M”新的含义，但其初心从未动摇。
工具只有落到实处才能体现其价值，大模型亦是如此。

03入局者众
随着大模型的火热，有关MaaS的竞争才刚刚开始。目前，入局MaaS领域的厂商都颇具分量。
例如，商汤推出的SenseCore商汤AI大装置由模型层、深度学习平台和计算基础设施三个部分架构而成，其中，深度学习平台是集大规模AI算力管理、专业的AI工具链、开放式AI算法与一体的工业级AI生产开放平台，帮助用户实现从数据标注，算法设计，到模型训练、部署的全链路、批量化过程。依托人工智能基础设施算力云服务提供云原生AI基础设施、AI开发平台、AI专家服务三位一体的解决方案。有效加速人工智能规模化落地，降低算法模型的生产成本和技术门槛。

商汤SenseCore云服务方案架构
阿里云通义大模型家族已推出“通义千问”、“通义听悟”和“通义万相”三个大模型，打通了语言、音视频生产和绘画创作三大重要场景，并将旗下产品如钉钉等全面接入，完成了大模型在应用端的落地。2022年，阿里云同时建立了ModelScope社区（魔搭社区），汇集开源开放的优质预训练模型，并提供了API调用模型，极大地方便了用户的使用。同时，基于此阿里云推出了大模型调用工具ModelScopeGPT（魔搭GPT），用户可以一键发送指令调用魔搭社区中其他的人工智能模型，从而实现大小模型的共同协作。此举能进一步促进AI大模型在各行各业的落地问题。
腾讯云推出了基于TI平台的行业大模型精调解决方案，该解决方案具备完整大模型精调工具链，支持用户加入自己独有的业务场景数据，进行精调训练，从而定制不同参数、不同规格的专属模型。目前，腾讯云已经推出了十余个行业超50个行业大模型应用解决方案，如金融、文旅、政务、传媒等，对企业智能化升级更具推动作用。

腾讯云MaaS
百度智能云发布了千帆大模型平台，并在后续升级中宣布全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT等国内外33个大模型，满足不同的用户在不同应用场景上的选择。目前，用户可以直接登录千帆大模型平台操作台，直接调用、部署相关服务，也可以搭配使用不同的大模型，实现大模型的落地。
如今，MaaS已经成为人工智能领域备受瞩目的发展方向之一，依靠MaaS大模型的触角将延伸到更远更细节的地方。
进入2024年，大模型市场正褪去狂热转向冷静。这意味着，受市场风潮裹挟的日子已经过去，一众入局者将利用MaaS更加理性地推动符合实际情况、可持续发展的大模型应用，以实现更大的商业价值。

4.正在路上的MaaS
数据显示，2023年MaaS的市场规模将达到261.5亿元，占中国云服务市场的10.3%^[2]，在“每个企业都能用上AI”的美好愿景支持下，MaaS具有极大的商业发展前景。
不过，在热潮之下，MaaS仍有很长的一段路要走。
首当其冲的是数据隐私和安全性的问题。作为新时代的生产要素之一，数据的重要程度不言而喻，而在大模型的微调和训练中会涉及大量的数据传输和处理。保障数据隐私、传输安全，以及合规地使用数据和存储将是MaaS需要持续关注的重点。此外，跨境数据传输、知识产权保护等问题也应被纳入考虑范围。
其次，MaaS平台中的各类大模型是其发展壮大的核心，在接入更多大模型的同时，也要对模型进行严格的评估和测试，以保证模型的高质量和稳定性。
除此之外，如何在卷算力、卷技术、卷服务的同时还能降低运营成本也是MaaS所要面对的现实问题。
归根结底，作为大模型产业商业化的重要一环，MaaS在人工智能技术的发展和商业应用方面都具有重要的意义。未来，随着人工智能技术的不断发展和普及，MaaS将会变得更加成熟和完善，为企业带来更多的便利和创新。
写在最后

俗话说得好，众人拾柴火焰高。
MaaS是众人摘取人工智能这朵高岭之花的途径。随着MaaS不断发展成熟，使用人工智能的门槛将会越来越低，人工智能的应用范围和深度将会不断扩宽挖深，进一步推动人工智能场景创新，促进其更高水平的应用。
未来，让我们一起期待着每个企业都能使用AI的智能时代到来。

11 1 月 2024

全球热门 AI 排行榜出炉！看看你用过几个？

刚刚过去的 2023 年，可以说是 AI 元年。

随着技术的飞速发展，AI 行业在这一年再次迎来了爆炸式的增长。

近日，Writerbuddy 研究了 3000 多个 AI 的数据，出具了一份行业报告：该报告细致地盘点了全球 50 大热门 AI 工具。

让无敌来带大家看看，在这百模大战的一年后，都有哪些 AI 成功杀出重围吧！

02、创意成为生产力，想到就能赚到

对于这场由大模型掀起的智能技术革命，我们今天仍然不能确切地知道它会把我们最终引向何方。然而我们可以确定的是，一场生产力的革命正在发生。

从人类进入工业社会以来，一个不可逆转的趋势是世界的分工逐渐变得越来越精细化。推动这个趋势发生的是两个方面的力量。一是因为分工可以大幅提升效率，带来更多的产出。二是因为随着社会的发展，这个世界运行的逻辑愈加复杂，客观上造成一个人再努力也只能理解它的一小部分，在极其有限的范围内发挥极其有限的作用。

然而，虽然这种分工机制在客观上是必要的，但同时也带来了一个棘手的问题：绝大部分事业不只需要个人的智慧和努力，更需要调动充分的资源才能办成。以最典型的内容行业为例，从想法到作品就得经历一个相当困难的过程。比如刘慈欣在娘子关发电厂，仅凭个人的闲暇时间就写出了《流浪地球》这部小说原型。但当郭帆想要把它拍成电影搬上荧幕的时候，数以千计的工作人员需要在幕后折腾大半年。

生成式大模型的到来正在改变这种状况。
不久前，一款名为Pika的人工智能视频生成工具爆火。这个由4名华人构成的创业公司，成立仅半年时间就获得了2亿美元估值。利用这款工具，只需要输入一段文字，给出对应的人物、场景、风格等需求，Pika就能生成你需要的视频画面。比如，输入“穿着太空服的马斯克，3D动画形式”，软件就会给出动画形象的马斯克，背后是腾空而起的一发火箭。

尽管从实际的使用体验看，目前类似Pika的视频生成工具还并不成熟，视频存在时长有限、分辨率不够、内容不合理等方面的问题。但一个确定的趋势是，在AI加持下，从想法到作品的巨大鸿沟将被弥合，并且不只限于视频，还包括其他艺术创作、软件开发等各个领域。对于拥有创意的普通人来说，未来一个人或者几个人就将等同于一支军队。
事实上，在很多科技公司内部，产品经理和研发团队的配比已经发生了变化：当AI能完成越来越多的研发工作，产品实现占据的权重就会逐渐让位给产品设计。

就其本质而言，钉钉这次发布的AI助理其实也是这个趋势的一部分。只要你有想法，创建一个AI助理只需要三步：

为AI助理定制专属的名称、头像；
选择特定知识库、文档或上传文件，对AI助理进行训练；
为AI助理配置需要的AI能力，可直接选择官方能力，或者配置自定义能力。

自定义能力包含企业自建系统、第三方应用、钉钉生态应用等等，也包含配置各大电商、视频、新闻、搜索等等各类平台的开放API，实现开放连接能力。

AI Agent的普惠正在为人们抓住风口提供更强大的工具。
跟Pika这些着眼于特定任务的垂直软件不同，钉钉更多似乎想让用户在钉钉上长出一个个“Pika”。
钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等高频的官方AI能力，用户仅需简单配置后即可使用。针对开发者、IT团队，支持通过钉钉AI PaaS快速开发自定义的AI能力，通过钉钉开放的API、连接器，与SaaS应用、本地系统等原有系统连接；也可以获取外部平台的开放API后，连接购物、视频、外部网站等各类第三方平台。

在这个能力底座的支撑下，未来钉钉上将会涌现出大批的优秀AI应用，其中可能就包括了下一个Midjourney或者Pika，这是创业者不可错过的风口。

在大会现场，叶军还宣布启动钉钉AI助理创造大赛，激励企业和个人立足具体的业务、办公和生活场景，创建创新、实用的AI应用。每类场景按照不同的评审标准决出获奖者，分享百万奖金。除了奖金和奖项，参赛者在大赛过程中将获得专属的技术和社区支持，通过社区活动、社群交流获得更多创新灵感。

所以，那些有想法的普通人，首先可能需要的是转变思维方式。因为过去我们谈到创业时，不可避免地把它跟风险联系得很紧密，于是创业就带有赌的成分，需要有搏一把的勇气。但如我们上面提到的，这个逻辑在钉钉AI助理这个问题上并不适用，你的创意就等价于你的生产力。
创业从来最缺的就是idea，但幸运的是，这次也只缺你的idea。

03、写在最后

在9日的发布会上，总裁叶军给钉钉的AI超级助理订了个很直白的目标：计划在3年内打造1000万个AI超级助理。这个不小的数字显然不是拍脑袋决定的，三年前钉钉给低代码应用立了个相同的flag，到今天已经顺利实现。相较于低代码应用，AI助理无疑进一步降低了参与门槛，“人人都是开发者”进化到了“人人都是创造者”。所以《新立场》的预期是，“7亿用户造出千万助理”这事肯定会发生得更早一些。

但需要注意的是，寄希望于用AI赚钱的创业者现在已经有了行动的紧迫性。
钉钉庞大的生态和多样化的业务场景的确意味着丰富的长尾需求，所以无论是出于个性化或者技术尝鲜的目的，AI助理一定会层出不穷，长期保持“产能旺盛”的状态。然而对于创业者来说，发现机会、尽早入场、跟钉钉AI助理生态同步壮大成长才是搞钱的最佳姿势，你的创意和钱包都没必要等。

9 1 月 2024

一文读懂 AI Agents 技术

今天来聊一下人工智能（AI）生态领域相关的技术 – AI Agents（AI 代理）。
想象一下：软件实体能够自主地与环境交互，根据收集的数据做出决策，并以最少的人为干预执行基于特定场景。幸好，借助 AI Agents 技术，这个现实比你想象的更接近了。这些智能代理正在彻底改变行业，并改变我们的生活方式。但是，大家可能会好奇：AI Agents 到底是什么？它们是如何工作的？在本篇博文中，我们将深入探索 AI Agents 的世界！
人工智能（AI）赋予机器具备判断和执行任务的能力，以协助人类在某些特定的业务场景中实现某项目标，从而显著改变了人机交互方式。在人工智能的核心体系中，我们可以关注到这些智能实体被称为智能代理（IA）的 AI Agents，能够感知环境变化并对其进行分析，以采取合理的行动来实现既定目标。
通常来说，不同类型的 AI Agents 旨在解决特定的挑战并完成特定的任务。对于构建有效且高效的人工智能系统来说，更深入地了解 AI Agents 的不同类型便显得至关重要。通过了解各种 AI Agents 类型，我们可以更好地理解它们的功能和应用领域，并根据具体需求选择最合适的 AI Agents。
AI Agents 可以是专门针对某个任务设计的，例如图像识别、语音识别或自然语言处理。这些 Agents 利用先进的算法和模型来解析输入数据并生成准确的输出。
另一类 AI Agents 便是通用型代理，它们具备更广泛的智能和适应能力。这些代理能够处理多种任务和领域，并具备学习和适应的能力。通用型代理通常基于机器学习和深度学习技术，通过从大量数据中学习和推断来改进其性能和表现。除此之外，AI Agents 还可以根据其交互方式进行分类。有些代理是自主的，它们能够独立地感知环境、做出决策并执行任务。另一些代理则是协同的，它们与人类用户进行交互，通过理解用户的意图和目标来提供帮助和建议。

1、什么是 AI Agents & Autonomous AI Agents？
其实，自 20 世纪 80 年代计算机科学家开始探索如何开发可以像人类一样交互的智能软件以来，AI Agents 已经出现。从那时起，这个概念已经发展到包括可以独立做出决策和完成特定场景任务的智能代理。
AI Agents 是一种软件程序，旨在与其环境交互，感知接收到的数据，并根据该数据采取行动以实现特定目标。AI Agents 能够模拟智能行为，可以像基于规则的系统一样简单，也可以像高级机器学习模型一样复杂。AI Agents 使用预先确定的规则或经过训练的模型来做出决策，并且可能需要外部控制或监督。

相对于传统的 AI Agents，自主 AI Agents 是一种先进的软件程序，可以在没有人类控制的情况下独立运行。它们可以自主思考、行动和学习，无需人类不断输入。这些代理广泛应用于医疗保健、金融和银行等不同行业，使事情运行得更顺畅、更高效。它们可以适应新情况，从经验中学习，并利用自己的内部系统做出决策。
随着人工智能技术的不断发展，AI Agents 的能力和应用领域也在不断扩展。在某种程度上，AI Agents 已经成为许多领域中的关键工具，帮助人们解决复杂的问题和提高工作效率。通过不断改进和优化人工智能代理的设计和算法，我们可以期待更多智能、自主的代理出现，为各行各业带来更大的帮助和创新。
在过去的几个月里，AI Agents 引起了巨大的关注和人气。一个令人印象深刻的例子便是 AutoGPT，在 GitHub 上的星星数已经达到了惊人的 140,000 颗。这反映了大家对开源 AI Agents 项目的广泛兴趣和支持。
不仅如此，我们几乎每周都能看到新的公司成立，专注于 AI Agents 的开发和应用。这表明 AI Agents 领域正在迅速发展，吸引了越来越多的创业者和投资者的关注。
这个生态系统中的 AI Agents 种类繁多，从审查代码的代理（例如 Sweep AI）到像 Lindy 这样的虚拟个人助理，涵盖了各种不同的功能和应用领域。这些代理的出现为我们提供了更多的选择和可能性，能够满足不同用户和业务的需求。
为了更好地了解这个生态系统的现状，我们对 50 多个 AI Agents 进行了概览，并将它们汇总到一个列表中。这个列表包括了各种类型的代理，涉及的领域包括自然语言处理、图像识别、语音识别、智能助理等。我们对这些代理的功能、性能和用户反馈进行了评估和总结，以便为用户提供参考和决策支持。

2、AI Agents 通常都具有哪些特征因素
通常而言，AI Agents 具有以下几个特征因素，具体表现为如下：
1、感知和理解能力
AI Agents 能够感知环境中的信息，例如图像、声音、文本等，并理解这些信息的含义和上下文。这涉及到使用传感器、计算机视觉、语音识别、自然语言处理等技术来实现对输入数据的解析和理解。
2、决策和规划能力
AI Agents 能够基于感知到的信息和存储的知识做出决策并制定行动计划，可以使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险，并选择最佳的行动策略。
3、自主学习和适应能力
AI Agents 具有学习和改进自身的能力，可以从经验中学习，并根据反馈信息不断改进自己的性能和表现。代理可以使用监督学习、增强学习、迁移学习等技术来获取新知识、调整决策制定和行动执行过程，以提高自身的智能水平和适应能力。
4、交互和沟通能力
AI Agents 能够与人类或其他代理进行交互和沟通，可以理解自然语言指令、生成自然语言回应，并使用语音、文字或其他形式与用户进行有效的交流。这涉及到自然语言处理、对话系统、语音合成等技术的应用。
5、知识表示和存储能力
AI Agents 能够组织和存储知识，并有效地检索和利用这些知识来支持决策和行动，可以使用符号逻辑、图形模型、向量表示等方式来表示和存储知识，并使用数据库或其他数据结构来实现高效的知识管理。
6、情境感知和灵活性
AI Agents 具有对不同情境的感知能力，并可以根据情境的变化做出相应调整，可以识别环境中的变化、适应新的任务要求，并灵活地调整决策和行动策略，以适应不同的场景和需求。
这些特征因素共同构成了 AI Agents 的核心能力，使其能够在各种任务和领域中展现出智能和适应性。然而，具体的 AI Agents 的特征因素可能会因应用领域、任务要求和设计选择而有所差异。

3、AI Agents 的内部结构是怎样设计的
AI Agents 的内部结构可以根据具体的应用和任务而有所不同，但通常包括以下几个核心组件。关于 AI Agents 的通用型内部结构参考示意图，我们可参考如下所示：

针对 AI Agents 具体实现过程，主要涉及以下活动，具体：
1、环境感知
首先，AI Agents 会通过传感器或其他数据源感知环境。传感器可以包括视觉传感器（如相机）、听觉传感器（如麦克风）、物理传感器（如触摸传感器）等。这些传感器帮助代理获取环境中的信息，例如图像、声音、位置等。
2、知识表示

在此阶段，AI Agents 使用适当的知识表示方法来组织和存储从环境中获取的信息。这些信息可能包括先验知识、学习到的模式或规则。常见的知识表示方法包括符号逻辑、图形模型、向量表示（如词嵌入）等。通过有效的知识表示，AI Agents 能够更好地理解和利用环境中的信息。
3、决策制定
基于感知到的环境信息和存储的知识，AI Agents 使用决策制定机制来生成适当的行动。这可能涉及使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险。决策制定过程旨在使代理能够选择最佳行动以实现其目标。
4、计划和执行行动
在这一步中，Agents 制定计划或一系列步骤来实现其目标。一旦决策制定完成，AI Agents 将执行行动并与环境进行交互。这可能涉及控制执行器（如机器人的电机）、发送指令（如语音助手的语音合成）或与其他代理进行通信。执行行动后，Agents 会观察执行结果，并将其用作反馈以调整下一步的决策。
5、反馈与改进

在完成上述的执行行动后，AI Agents 通过与环境的交互获得反馈。这些反馈可以来自环境中的直接观测结果，也可以来自人类用户或其他代理的指令和评估。Agents 使用这些反馈来学习和改进自己的行为。这可能包括使用监督学习、强化学习或迁移学习等技术来调整决策制定和行动执行过程，以提高代理的性能和适应能力。

5、AI Agents 应用于哪些现实场景下？
在现实的业务场景中，AI Agents 在各个领域都展示出了广泛的应用，对日常生活产生了重大影响。

目前来看，主要体现在如下几个方面，具体：

1、自然语言处理
AI Agents 在自然语言处理领域的应用广泛而深远。例如，智能语音助手（如 Siri、Alexa 和 Google 助手等）利用语音识别和自然语言理解技术，使用户能够通过语音与设备进行交互、获取信息和执行任务。这使得人们可以轻松地控制智能家居设备、查询天气、发送消息等，极大地提高了日常生活的便利性。

2、机器人技术
AI Agents 在机器人领域的应用也十分显著。智能机器人能够感知环境、理解语音指令、执行任务，并与人类进行交互。这种技术的应用范围非常广泛，包括工业自动化、医疗辅助、家庭服务等。例如，智能无人驾驶汽车正在逐渐成为现实，它们利用感知技术和决策制定能力来实现自主导航和安全驾驶。

3、个性化推荐
在电子商务和娱乐领域，AI Agents 通过个性化推荐系统为用户提供定制化的体验。这些系统利用机器学习和数据挖掘技术，分析用户的历史行为和偏好，并提供个性化的产品推荐、音乐推荐、电影推荐等。这不仅提高了用户的满意度，还促进了销售和用户参与度的增长。

除了上述领域，AI Agents 还在医疗诊断、金融风险管理、智能城市管理等方面发挥着重要作用。医疗领域的 AI Agents 可以帮助医生进行疾病诊断和预测，提高治疗效果和患者生存率。在金融领域，AI Agents 可以通过分析大量数据和模式识别，帮助金融机构更好地管理风险和进行投资决策。智能城市管理中，AI Agents 可以监测交通流量、优化能源利用、改善城市规划等，提高城市的可持续性和居民的生活质量。

上述场景示例表明，AI Agents 在不同领域的广泛应用已经在改变我们的日常生活。随着技术的不断进步和创新，我们可以期待更多领域的 AI Agents 将为我们带来更多的便利、效率和智能化体验。

Reference ：[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild

9 1 月 2024

2024年AI商业落地的十个方向

原创甄科学

轰轰烈烈的2023年AIGC元年结束了，心情有点复杂。

在国内，和年初ChatGPT炸雷带来的全民兴奋相比，AI并没有给普通人的生活带来多少改变。

AI——这个当之无愧的下一代信息技术革命，没像上一波移动互联网浪潮中的微信和滴滴打车，在一年的时间里实现“一夜春风来、万树梨花开”式的商业渗透。认真使用AI工具的人不多，现象级的AI产品完全没有出现。

在海外，ChatGPT以迅雷不及掩耳的速度斩获1.8亿用户，AI绘图软件MidJourney获得超1500万用户和数亿美元营收；微软的GitHub编程助手Copilot在9月份付费用户已超百万（含3万7千个组织订阅），多个小型APP号称获得数百万美元的订阅收入。

在硅谷和华尔街，逢人必谈AI。美股在AI芯片霸主英伟达和AI应用先锋微软的带领下，日日创出新高。

不夸张地说，若无AI，美国可能已陷入经济衰退；有了AI，美国走在了新一轮泡沫的路上。

比尔盖茨认为：在像美国这样的高收入国家，距离普通大众使用人工智能达到显著水平还有18到24个月的时间。在非洲，他预计在三年左右的时间里会看到类似的使用水平。据此预测，2024年美国会达到人工智能的“普惠”状态。

中国和美国的人工智能差距正在拉大。由于对英伟达GPU的禁令，全世界最紧俏的商品变成了英伟达的GPU或平替，甚至有人不恰当地把GPU比作超过毒品的新一代最暴利走私品。

和争夺土地、石油、黄金的战争一样，人工智能算力、算法变成了大国军备的新战场，也成为企业家和创业者的兵家必争之地。

时不我待，何以胜出？下文我主要采用AI在医疗、金融等严肃领域的实际需求案例，探讨AI在2024年从技术到产品商业落地的10个方向：1. 更强的多模态交互2. 可解释性更强的人工智能3. 更强的搜索增强生成4. 构造自动代理生态5. 更强、更经济节能的算力6. 更快的AI平民化进程7. AI与Web3结合的破局8. 打磨用户需要的“小”产品9. AI能力带入数据，而不是相反10. 获取用户对AI的信任

更强的多模态交互

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

在去年圣诞节，很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力，可以直接用中文和它对话。美中不足的是，总觉得GPT的中文发音是我国台湾人夹杂海外华人的腔调，有点像王力宏。

以医疗领域的需求看，病人拿到血常或肿瘤指标检查报告，想知道异常指标的意义。对自己负责的病人会上网搜索每个指标的含义。入冬以来儿童夹杂肺炎和流感，很多焦虑的家长会搜索检查结果的意义，往往费时费力，找不到准确的解读。

多模态技术的发展，可以让用户拍照上传检查报告，AI识别照片中的指标、搜索知识库、给出每个指标的含义，然后用语音告诉可能的诊断。这种体验太棒了。

在金融领域，如果上传一张K线图，AI就能识别出其形态，则可以极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域，如果能让AI读懂设计图，再设计出新的设计图，那就更厉害。

在非严肃领域，多模态会大大提高数字形象、短视频制作的效率，丰富这些应用的使用场景。

可解释性更强的人工智能

可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性，从而能够更好地理解AI如何作出决策。

当前的AI决策过程往往被视为一个“黑盒”，用户无法了解模型得出结论的内在逻辑。大语言模型最强大且是最神秘的“涌现”能力，亦无法被解释。无法被解释的决策过程，不可能在严肃商业领域获得信任。

AI看完检查报告，可以给出用药建议。如果不知道这个用药建议基于何种知识，也不知道AI做出推理和判断的过程，相信没有人敢用AI开出的药方。生命不能作AI概率游戏的试验品。

现举例说明。我问ChatGPT:

“如果换算成特斯拉的行驶里程，7200兆瓦时可以行驶多少公里？”

AI会告诉我它的逻辑——

为了估算7200兆瓦时（MWh）的电能可以让特斯拉汽车行驶多少公里，我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例，其能源效率大约为15千瓦时/100公里（即0.15千瓦时/公里）。

我们可以通过以下公式计算行驶里程：

总行驶里程=总电能（千瓦时）/每公里耗电量（千瓦时/公里）

现在我们可以计算7200兆瓦时（即7200000千瓦时）可以让特斯拉汽车行驶多少公里。我将进行计算（此处，AI写Python代码进行计算）。

使用7200兆瓦时的电能，一个特斯拉Model 3理论上可以行驶约4800万公里。

以上，AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。

AI在严密的数学推理已经取得某些突破。近期，数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁，数学家一定要会用AI。

可解释的人工智能的实现需要开发新的算法和工具，通过可视化技术、自然语言解释或简化决策逻辑的表示，以提供关于AI决策过程的深入洞察。

综上，可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域，决策的透明度和可信度至关重要，AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。

更强的搜索增强生成

搜索增强生成（Retrieval-Augmented Generation，简称RAG）是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。

RAG使得大型语言模型能够访问外部信息，帮助它们产生更准确、更具上下文意识的回应，其目标在于提高语言模型生成内容的准确性和相关性。

在RAG系统中，当模型接收到一个查询时，首先执行一个检索步骤，查找与查询相关的信息。然后，这些相关信息被融入生成过程，实现生成内容准确性和相关性的显著改善。

以病人的需求为例，我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁，但尿失禁到底是不是服药的不良反应呢？在药品说明书上找不到，医生也不确定。

朋友最初给AI的问题是“卡培他滨（Capecitabine）的副作用是否包含尿失禁?”

AI的回答是：“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状，如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的，如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。”

如果把提问改成：“搜索英文专业医学资料，卡培他滨的副作用是否包含尿失禁?”，AI开始自动用Bing搜索互联网，然后它真的搜到了多个医学文献。

AI说：“根据我找到的英文专业医学资料，尿失禁被列为卡培他滨的罕见副作用之一，发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用，尽管它并不常见。”

AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论，是更强的增强搜索要做的事情。

RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中，生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域，用户不能判断幻觉内容的对错。这导致AI的应用受限。

此处说一个题外话，为什么上面的例子需要指明搜索“英文”专业医学资料？因为在某些不指明英文的情况下，Bing搜索引擎用中文搜索，在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索，搜索到的结果大部分是广告和商业网站上意义不相关的信息。

中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此，和大模型相比，想办法打造更强的搜索增强生成技术，也许是在中文互联网开发产品致胜的关键。

构造自动代理生态

上面搜索增强生成的讨论，已经包含了自动代理的部分功能。

当AI经过自我学习和模型升级，当它了解到我总在搜索专业文献后，当我再次询问药物副作用同样模式的问题时，AI会自己启动搜索专业互联网的动作，而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。

自动代理是一种能够自动独立执行任务和做出决策的AI系统。这些代理展现了一定程度的自主性和主动性，能够理解其所处的环境、设定目标，并采取行动实现目标，不再需要人类额外指导。

有一个开源项目叫AutoGPT，它自动分解任务的动作，然后自动分步执行，就像自动执行上面的搜索任务一样。

自动代理在多个领域具有广泛的应用前景。

2024年的订外卖服务也许会变成：你只要和AI说中午订三份我常吃的外卖和客户一起吃，不要辣。AI会自动分析你常吃的外卖、剔除辣的；它知道你是和客户吃，要吃好一点、贵一些；它根据送达的时间和午餐的时间选择商家，然后自动买一份准时达保险。这些步骤在几秒内自动完成。

不止订餐服务，个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI，Siri会变成一个更高级的自动代理。现在，你只可以指示Siri打开一个app，Siri还有点愚钝。

自动代理和硬件结合，会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。

Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上，像校徽一样。它能够响应触摸、语音指令和手势，主要用于搜索和翻译信息、导航等功能，通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。

这意味着：未来的每个人都可以有一个随身携带的小秘书，它记录你的会议、见闻、聊天、思想，随叫随到，直到复制出你的数字生命，就像电影《流浪地球》里的数字生命一样。

显然，自动代理需要完整的闭环生态构建和安全管控，它需要打通交互、采购、物流、支付全环节。我相信在2024年，此闭环生态将露出雏形，重量级选手会入场。

更强、更经济节能的算力

当前AI发展的一个关键限制因素是对大量计算资源的需求。这不仅增加了成本，而且导致了巨大的能源消耗。

AI聊天工具导致大型科技公司的水资源使用量剧增。计算产生热量，进而需要大量水资源冷却设备。

有数据表明，由于AI产品（如ChatGPT）日益受欢迎，微软的全球水资源使用量增加了超过三分之一，达到了近17亿加仑。谷歌的水资源使用量也比前一年增加了大约20%，约为56亿加仑。研究员估计，使用GPT回答5到50个问题，大约消耗500毫升的水。

电力方面，根据估算，训练GPT4.0耗时150天，耗费电力720万度电，这些电够特斯拉行驶4800万公里。（这个换算是我在上文“可解释的AI”部分的例子。做任何事情，我都想用AI试试看，不试不知道，一试吓一跳。）

2024年需要更高效的AI算法以在减少计算资源需求的同时提高模型的性能。硬件方面，业内也在寻找新的材料和设计，如量子计算，以期实现更高效的数据处理、降低能耗。

在芯片禁令下，突破原有技术路径，寻找升维竞争的突破，可能是中国企业的机会。这需要强大的风险投资资本支持。

对GPU的需求刚刚开始。当全球有20%的人，每天使用AI的时候，GPU的需求将增长百倍。美股科技股的天花板还很高。能在中国实现GPU“平替”的企业可以赚大钱。

更快的AI平民化进程

这又被称为开发的民主化。它的含义是，AI的易用性使得人与计算机的深度互动简单到像聊天一样，几乎任何人都能够成为开发者。

AI开发的平民化意义重大。它意味着更多的人可以参与计算机产品的开发，不再局限于专业技术人员或拥有高级编程技能的人。

我本是一个做投资的，只有20年前大学C语言编程基础。因小孩喜欢画画，被AI绘画吸引误入AI的大坑。现在，我正在用GitHub AI编程助手和ChatGPT，用业余时间开发一个功能复杂的AI应用软件，我丝毫不觉得困难。在我和AI的共同努力下，AI正确写出了我需要的所有代码。

AI打破了计算机科学的技术壁垒，其实质是硅基生命向碳基生命敞开心扉，人类用自然语言就可以实现深度计算机技术的实现。

当大量不同背景的人都能参与到这场信息革命的浪潮中，此种多元化的参与带来了更广泛的视角和创新的可能性，必然极大加快人类技术爆炸的速度。

其意义重大程度，堪比近1000年来，人类完成的识字扫文盲运动。从第一封电子邮件发出，到人类普遍掌握互联网技能，用了数十年。而用多模态技术的交互方式，AI可以用3年时间完成高难度计算机技能向人类白丁的普及，速度加快十倍、百倍。

在平民化浪潮下，低代码、无代码平台、开源平台的发展至关重要。这些平台通过提供简化的编程接口，使非专业人士也能轻松构建和部署AI模型。

其次，用户友好的工具和界面的开发同样重要，它们能够降低AI开发的复杂性，使其更易于理解和操作。自动化和智能化的开发工具将极大地减轻人工编程的负担，提高开发效率。

预计2024年的AI编程工具将更加强大，平民化的进程会进入加速发展期。在AI的帮助下，一个没有编程基础的普通人可以编写出任何他想要的应用，如同文字扫盲运动让普通人不再需要找人代写信、自媒体技术发展让每个人不再需要找期刊投稿就能发表自己的观点。

当你有一个需求的时候，你自己就可以写出这样一个软件，不需要再去找商业软件——你完全个性化需求的软件。

回到医疗的例子，一个肿瘤病人，有过去30个月每周的检查结果数据，他想知道他的肿瘤指标变化的趋势。这些结果存储在医院的系统里，医院的信息系统不对病人提供历史数据摘录和比较功能。病人或家属需要手工摘录出每个异常指标，记录下来，划出曲线。有了AI，病人可以让AI写一个APP，每周把纸质的检验报告拍照上传，然后AI就自动识别结果，并更新画出变化趋势图。

在目前的软件范式中，用户需要寻找能满足自己需求的软件，软件开发者需要在很多人的差异化需求中寻找公约数，小众用户的需求不能被满足。AI平民化将从根本上改变人使用计算机的方式和软件开发行业的商业图景。

在AI平民化的浪潮中，中国有可能会尤为被动。在物欲横流的冲击下，中国没有像样的程序员社区，中国的教育体制培养出的是在AI时代被抛弃的程序员和知识搬运工，有科学专研精神的人不多，全民创造力无法被激发。AI平民化水平低的国家将在未来的生产效率和创造性竞争中，落后于AI平民化水平高的国家。

AI与Web3结合的破局

OpenAI创始人Altman支持的一个Web3项目是WorldCoin。WorldCoin运行在以太坊区块链上。它要做的是建立一个全球最大、公平的数字身份验证体系。为了区别谁是活人、谁是机器人，WorldCoin通过扫描人眼的虹膜来实现身份认证。到今天，已经有数百万人主动接受了WorldCoin的眼球扫描。如果不是区块链和数字世界的“原住民”，普通人很难理解这个项目的意义何在。

以区块链技术为基础的Web3在2022、2023年陷入低谷，Crypto市场处在慢慢熊市的尾端。技术信徒们的创业热情从Web3完全转移到了AI。

区块链作为数字世界的“生产关系”基础设施，和AI作为数字世界的“生产力”激发工具，有天生结合点。如果相信硅基生命的未来，硅基生命的载体应该存在于区块链上。

否极泰来，自2023年11月开始，区块链资产获得了巨大涨幅，热情被重新点燃。2024年，伴随区块链市场的复苏，AI和Web3在去中心化算力、AI经济价值的实现、智能合约自动化与优化、去中心化数据市场、个人隐私数据的使用、AI创作数字艺术品、数字孪生等方面，会找到突破点。

值得警醒的是，这种突破将快速产生暴富的机遇和归零的骗局。

打磨用户需要的“小”产品

AI时代的大平台、大公司将垄断基础设施，大语言模型的终局只会有2到3家企业和开源模型。AI创业者需要认清这个残酷现实，没有颠覆性的创新和极强的资本能力、执行能力，不要走向“一将功成万骨枯”路上的“白骨”之一。

基于此逻辑，大型科技公司将在平台战斗中巩固先机。从硬件到软件，在开发“+AI”产品的战役中，大公司的实力明显。基于此，AI将极大推动全球的资本开支、经济强势和科技股的牛市。

对应用型开发创业者，必须聚焦打磨用户需要的、完全AI原生的“小”产品。Web 2.0时代烧钱获得用户规模经济的打法不复存在。用户在APP上任何使用AI的动作，都需要支付费用，没有人会用免费模式烧这么多钱。

只有打磨出真正客户需要的产品，帮助客户提升效率的产品，才是王道。开发者需要从第一分钟开始，就有用户付费意愿认可。这种产品不怕小众。但是，由于AI开发平民化的快速发展，创业者开发出成功产品的难度越来越大。

而为了打磨产品，创业者最重要的能力是把需求产品化的能力，要跟上大平台快速迭代的AI技术发展，然后快速而经济地应用到产品需求中。

AI能力带入数据，而不是相反

英伟达金融行业高管认为，随着人工智能的进步呈指数级增长，金融服务公司将把计算能力带入数据，而不是相反。

并非只在金融行业。事实上，沉淀在企业和个人的优质数据已经足够庞大，问题是如何用AI能力全新地发挥这些数据的生产力。学术期刊数据库《知网》也推出了人工智能助手。开发者不需要守着金矿向外寻觅。

据麦肯锡公司称，像OpenAI的ChatGPT这样的深度学习算法，经过企业数据的进一步训练，每年可以在63个业务用例中增加相当于2.6万亿至4.4万亿美元的收入。巨大的金矿等待被挖掘。

开发者应聚焦用AI加持现存的有价值数据，满足用户的效率要求、让大数据在AI时代的场景中开始赚钱。

获取用户对AI的信任

让用户把更多的工作交给AI完成，需要AI获得用户的信任。

经过2023年的新鲜感，见惯了新鲜玩意儿，用户不想再把AI当玩具，而是想用它实现靠谱的真实价值。即使是情感陪伴机器人，也需要有血有肉有情感的真实体验。

能率先可控、准确、高质量地按照用户指示完成任务的AI产品将在2024年获得大发展。

与此同时，构建信任需要更多早期用户拥抱AI的意愿。一件新型事物的普及，如同一个石子投入池塘产生的涟漪。

AI是个新物种，产品开发人员和用户都需要学习如何和它相处。此种适应的过程需要工作方式、思维模式的根本转变。一件事情，如果不用AI试一下，则不知道原来还可以这样做。

比如，我写本文的传统方式是：阅读已有的AI技术和商业方向文章，加入个人思考，然后在文章末尾加上无足轻重的参考文献。而用AI写文章的方式可把顺序完全颠倒过来：先从参考文献开始，让AI阅读并写出参考文献的要点，我再取其精华，加入个人的思考。

这会不会涉及版权和“洗稿”呢？纽约时报在12月底，起诉OpenAI大量采用纽约时报的内容。纽约时报的内容被用于纽约时报的竞争对手生产新的内容。纽约时报认为自己是大冤种。

我认为，不管人还是AI，判断是否有价值内容的金标准是“独立而有价值的思想”。AI和人类的互信模式会和以往的互信模式不同。

工业革命中，机器的意义是帮助人摆脱了重复和繁重的“体力”劳动；AI智能的终极意义是帮助人摆脱重复的“脑力”劳动，帮助人更好的创新。在此目标下建立的可以信任的AI智能机器，可以跳出任何旧法律的束缚，而不应该受到惩罚。

9 1 月 2024

自研大模型赋能终端国产手机掀起AI普及风暴

自2022年11月ChatGPT面世以来，生成式人工智能的热潮已经席卷全球，成为各国科技领域角逐的焦点。

在这场全球范围内的科技竞赛中，以vivo为代表的中国科技企业积极参与其中。同时，我国也出台了一系列政策措施，支持人工智能技术的发展，推动人工智能与实体经济的深度融合。

2023年11月，vivo率先发布了自主研发的蓝心大模型BlueLM。仅一个月后，搭载这一革新性AI技术的vivo S18系列新品正式发布，迅速在市场中崭露头角，全渠道首销日销量为上一代的143%，助力vivo在2023年W51以16.21%的销量市占率，拿下中国智能手机市场销量份额榜首。

历代S系列，出货量都在数百万级。伴随着vivo S18系列全面开售，这意味着将有数百万用户在短期内迅速体验到AI这一前沿技术成果，vivo S18系列成为当下AI终端普及浪潮中的先行者和普及者。此外，从技术发布到产品落地，“vivo速度“引发行业广泛关注，在AI技术上的前瞻预判和深厚沉淀日渐浮出水面。

爆款引领AI终端普及

在5G普及的历史进程中，爆款产品起到了不可或缺的推动作用。它们不仅在技术上展现出领先的优势，更降低了新技术和新体验的门槛，赢得了广大消费者的青睐，使得新技术、新体验得以迅速走入千家万户。AI技术的普及，同样需要爆款产品的驱动。

vivo副总裁、OS产品副总裁周围曾公开表示，vivo希望利用蓝心大模型的能力，进一步重构系统，并通过智能手机的普及“让AI，走入千家万户”，为每一位用户带来更加智慧且贴心的体验。

据了解，至2021年，vivo S系列累计用户量就已经接近3000万。差不多三年时间，S就已成为中国手机市场中最成功的爆款系列之一。

vivo S18首销当日，一举打破了S系列历史首销增长纪录。vivo S18 Pro搭载vivo全新系统OriginOS 4，将行业领先的AI蓝心大模型深度融合，也将在本月13日开售。

作为全球首批AI大模型手机，vivo S18系列不仅展现了vivo在技术上的领先优势，更为AI技术的发展和普及注入了新的活力。行业领先的AI技术与S系列千万级的“规模效应”相乘，vivo S18系列将成为国内AI终端普及浪潮中的中坚力量。

技术驱动进化“智能体”

AI人工智能时代，手机变革的底层是大模型技术，呈现在用户面前的是交互和体验。扎根于vivo蓝心大模型，vivo S18 Pro走在了手机交互变革的前沿。

集成了基于vivo AI技术开发的首款全局智能辅助蓝心小V的vivo S18 Pro，绝非简单的对话工具，而是成为全能的、拟人的专属“智能体”，能在学习、生活、工作等场景切实为用户带来真正的改变。不需要思考怎么做，只需要告诉它你想要什么。

无论是文档、论文作总结和问答，还是文案创作，又或者是以文创图，都可以。同时，vivo S18 Pro也创新实现AI与影像的融合，能帮你将照片中误入的路人一次性消除，被路人挡住的画面，也能精准脑补还原。

这一切，都源自vivo自研AI蓝心大模型，它全面覆盖用户核心场景，在C-Eval、CMMLU等榜单中均处于中文大模型的第一梯队。

在其他方面，也是如此。从颜如玉、山海青到vivo S18系列花似锦，每一代都有行业首创的技术工艺突破，完成了中国设计语言的现代表达。同时， vivo S18 Pro在拍人这件事上向X系列旗舰看齐，100%继承旗舰同款算法，打造影棚级人像。

正如vivo高级副总裁、首席技术官施玉坚所讲，深厚的技术沉淀是vivo发展的根本，而只有让这些技术走近普罗大众，为用户带来极致体验，才能实现最大的价值，这也是vivo的本心所在。

当前，AI人工智能技术的普及正在深刻改变我们的生活。而中国企业如vivo正通过自主创新推动这一变革。全球首批搭载自研AI大模型、用现代工艺演绎中国设计、以影棚级人像定义人像新标准的vivo S18 Pro，不仅是行业AI终端普及者，也是S系列最强Pro，更是中国企业自主研发和科技创新的成果展示。

7 1 月 2024

从错误中学习！腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉

现有的大规模语言模型（LLM）在众多任务中取得了惊艳的效果，但它们在实际应用时仍然会出现生成与事实不符的内容。这种现象如今通常被称为“幻觉”。幻觉问题在真实场景中可能带来严重的后果，大大阻碍了大语言模型的落地。

来自苏州大学和腾讯 AI Lab 的研究者近期提出了一种简单有效的幻觉消除方法。他们首先尝试了从已有的 LLM 中诱导幻觉，构建了一个在事实性层面薄弱的 Weak LLM。在解码时，再将 Weak LLM 中所蕴含的幻觉模式从原有 LLM 的输出空间中消除。

具体而言，他们采用了对比解码（Contrastive Decoding, CD）策略将 Weak LLM 的输出分布从原 LLM 的输出分布中减去。这一先诱导再对比的幻觉消除解码算法被作者们称为 ICD 算法（Induce-then-Contrast Decoding）。

作者们在 TruthfulQA、FactScore 等常用的判别式和生成式幻觉评测集上对 ICD 算法进行了测试。实验结果表明，ICD 均能有效提升原模型输出的事实性，减少了幻觉。在 OpenAI 提出的权威幻觉评测集 TruthfulQA 上，使用了 ICD 算法的 Llama2-7B-Chat 和 Mistral-7B-Instrcut 分别可以和现阶段最优的 ChatGPT 和 GPT4 接近。

论文题目：Alleviating Hallucinations of Large Language Models through Induced Hallucinations

论文链接：https://arxiv.org/abs/2312.15710

GitHub地址：https://github.com/HillZhang1999/ICD

怎么诱导幻觉

作者通过构造幻觉数据，并用其微调原始的 LLM 诱导幻觉构建 Weak LLM。这一策略近期也在 LLM Safety 领域被应用，一些研究者们发现即使是对齐后的 LLM，其安全机制也很容易在少量的微调后被轻易攻破。为了构造幻觉样本，作者们基于现有的事实正确的句子，通过少样本提示策略，让 ChatGPT 自动去修改其中的事实，从而构造大量编造的幻觉样本。

如何利用诱导出的幻觉消除最终的幻觉

作者们使用了对比解码的策略，将诱导幻觉后的 Weak LLM 的输出分布作为惩罚项，来干预原始 LLM 的结果生成。

基于自回归结构的 LLM，其解码过程通常可以建模为：

其中，是被原始模型预测出来的下个词的分数分布，并通过 softmax 操作将其转换为概率分布。
为了减少 LLM 的幻觉，作者希望奖励原始模型的预测结果，而惩罚诱导幻觉后的弱模型的预测结果，因此，对比解码的过程可以建模为：

可以看到，该算法将 Weak LLM 的预测分布从原始模型中减除。为了控制对比的力度，此处作者额外引入了一个超参数。最终，可以对上述分布采用归一化，使用得到的新概率进行下一个词的解码预测：

此外，ICD 算法还采用了一种名为自适应合理性约束（adaptive plausibility constraint）的策略，来缓解过度的对比。由于弱模型仅仅在事实性方面效果下降，但在语法等层面仍然保持了原有的能力，所以一味的对比可能导致模型生成内容的崩坏。因此，作者使用自适应合理性约束，仅在原始模型不确定的位置进行对比。更多具体细节可以参考原始的论文。

实验结果

作者们在 TruthfulQA 和 FactScore 两个主流的幻觉评估基准上对 ICD 方法进行了测试。

TruthfulQA 是 OpenAI 发布的采用误导性问题评判语言模型幻觉的数据集。在 TruthfulQA 上，作者采用了多项选择的评估形式，并使用了官方的 MC1/2/3 指标。为了进行对比，作者也实现了原始的贪心解码，以及一些现有的解码策略，如推理时干预解码（Inference-Time Intervention, ITI），层间对比解码（DoLa），和对比不同尺寸的模型的原始对比解码（naïve CD）。

如表 1 所示，基于微调方式诱导幻觉的 ICD 方法，大大提升了 Llama2-7B-Chat 在 TruthfulQA 上的性能，并超越了前人设计的其他解码算法。此外，作者也探索了其他诱导幻觉的策略，例如使用误导性的提示词和直接对比对齐前后的模型，发现这些策略均能带来提升，但效果距离微调还有一些差距。

FactScore 是在人物传记生成任务上评估模型生成结果的事实准确性的数据集。如表 2 所示，作者提出的 ICD 方法也同样提升了 Llama2-7B-Chat 的事实准确性，使其超过了使用贪心解码的 Llama2-70B-Chat。

不同模型规模的有效性

在 Llama2-7B-Chat 以外，该论文额外在 13B 和 70B 版本上测试了 ICD 算法。这里用于对比的 Weak LLM 仍然是 7B 的规模。如表 3 所示，ICD 算法在不同尺寸的模型上展现了稳定的有效性，并且随着模型尺寸的增大，提升效果也有增大的趋势。这可能得益于 ICD 算法（诱导幻觉前后对比）和原始 CD 算法（模型尺寸对比）思想的结合。

不同模型基座的有效性

在 Llama2-7B-Chat 以外，论文也额外在 Baichuan2-7B-Chat 和 Mistral-7B-Instruct 上测试了 ICD 方法。如表 4 所示，ICD 算法在不同模型基座上也带来了稳定提升。并且在 Baichuan2 和 Mistral 上的提升要大于 Llama2。作者猜测这两个模型在许多榜单上超过了Llama2，而 ICD 算法或许能有效地利用效果更强的模型。

与直接用高质量数据微调的对比

ICD 算法需要两个步骤，即诱导和对比。论文额外探索了如果直接使用高质量的 SFT 数据微调模型，是否也能减少模型的幻觉。因此，作者使用了同等数目的幻觉数据和事实数据，分别用于 ICD 算法和直接微调，并进行了对比。

在表 5 中可以看到，ICD 算法提升了原始模型的事实性，而直接微调不仅没有提升，反而引入了更为严重的幻觉。作者猜测这一有趣的现象可能源自于 SFT 阶段的行为克隆，即如果直接教大模型回复任意的问题，而不去评估这些问题是否超过了其能力边界，单纯的行为克隆反而会教会大模型编造事实。表 5 中，这一问题也从直接微调后大模型的回复率急剧上升得到了佐证。

总结

在本文中，作者提出了一种先诱导幻觉，再利用对比解码将诱导出的幻觉消除的 ICD 策略，在多个幻觉评测基准上显著提升了性能。

然而，ICD 算法目前也存在一些限制。例如，它需要两次前向传播，导致推理时延增长。目前 ICD 算法是否会影响原始模型的其他能力，也尚未得到全面的验证。

此外，ICD 算法也提供了一些有趣的研究方向。例如，它可以和检索增强等其他幻觉消除方法结合，对比弱模型和检索增强后的强模型，或许可以带来更大的性能提升。也可以参考混合专家模型（MoE）的思路，训练多个弱模型和强模型，在解码的过程中动态对比。这些均需要研究者们在未来进一步探索。

7 1 月 2024

GoogleX创始人预警：三年内，AI能在所有领域与人类智力工作者媲美

新一轮AI革命影响正深刻影响人类社会。在通往下一代通用人工智能（AGI）时代的道路上，在短期内可预见的人机深度共存的世界里，我们当下既有的社会行为和社会规则，会发生哪些革命性的颠覆？

北京时间12月1日上午，在钛媒体2023T-EDGE全球创新大会·加州分会场上，谷歌无人车之父、Google X实验室创始人、Sage AI Labs首席执行官塞巴斯蒂安·特伦（Sebastian Thrun）就新一轮人工智能所引发的革命，首次发出全新的重磅预警。

在题为《人工智能新时代》（The New Era of Artificial Intelligence）的主题演讲中，特伦认为， AGI是一种与人类智慧相媲美的智能版本，我们在某些领域，我们已经实现了AGI。但是，我们尚未拥有的是，一种可以完成所有这些任务的人工智能。

基于在人工智能领域20多年的深耕，特伦表示，未来三年内，以下五大需要依靠人类智力的工作领域将会被颠覆，我们将看到AIGC在所有领域中都能与人类的智力工作者媲美，这意味着，所有的工作都将发生变化，没有一个工作将不受影响。

医疗行业

放射学、皮肤癌等许多领域中的诊断AI系统，能够在人们发现症状之前很久就发现潜在的致命疾病；AI可以提供个性化精准医学，根据你的背景、你的DNA以及你的个人特征量身定制的，以在最小的损害下产生最大的影响，放弃“一刀切”的时代；AI在药物研发上也起到了巨大的作用。

法律行业

AGI已经能够通过加利福尼亚州的法律入学考试，在表现上已经不逊于任何一所领先的法学院毕业生。律师工作中，与发现相关的，试图找到必要的事实，进行研究和起草文件，现在都可以由人工智能胜任。

汽车行业

我们现在拥有的汽车可以更自信、更安全地驾驶，比人类驾驶更为出色。

客服行业

客服中心的人工智能工具，可以提取最优秀的客户代理的最佳行为，提升14%的生产效率。

教育行业

AI导师可以提供个性化的指导，AI能够真正深入理解每个学习者，而且，它们可以在白天和黑夜中立即做出响应。

这也意味着，我们将重新定义社会的行为和运作方式。有的AI在我们这一边，它们可以代表我们并为我们服务，我们可以信任它们，这将是有史以来对社会的最大颠覆。（点击文末阅读原文，查看完整演讲视频）

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录，经过钛媒体APP删减：

大家好，我的名字是塞巴斯蒂安，欢迎大家来到今天在北京召开的T-EDGE大会，非常遗憾，我无法现场参加，但我还是很高兴能以这样的方式与大家见面。

我们来谈谈2017年，那时谷歌的Google Brain团队发布了一篇题为“Attention is All You Need” 的论文，它利用了相同的机器学习思想，应用于更广泛的架构，有效地将分散的数据库和机器学习结合起来，引发了一场革命。

今天，当我们看到像GPT-4这样的现代系统，接管并能够在人类水平上有效执行时，我们都能感受到这场革命，这是其中的架构，我就不花时间解释它了，因为它很复杂，有很多层，但我建议大家深入研究并完全理解它，因为这是一项出色的工作，这种架构能够将机器学习应用于大量的新系统，包括在这种情况下，词典和数据库。

现在我们都亲身经历了最近的事件，即GPT的出现，作为一种与计算机互动的新方式，在很多方面，GPT是对技术的渐进性理解，是一种演变，在技术方面，对这项技术能做什么的理解一直在进化。

今天的问题是，GPT是人工智能领域的一个“黑天鹅”事件吗？

解释一下什么是“黑天鹅”事件？这个术语的提出是因为黑天鹅很少见，发现一只黑天鹅意味着一个巨大的惊喜，在计算机领域，我一生中已经经历了两次黑天鹅事件，一次是互联网的出现，最后一次是iPhone的发明。

互联网首次使人们能够在数字化的世界中跨越海洋和许多国家无边界地进行交流，iPhone的出现更进一步，将互联网放入了你的口袋，创造了新的业务，如Airbnb、Uber以及中国的滴滴。

因此，这是完全可以想象的，在接下来的20年里，我们将看到全新的公司崛起，全新的商业模式涌现，这对于人类来说将是完全伟大的，今天有大量的应用正在被人们追求。

显然，当你看到大型语言模型中的转换器时，你会发现它们以前所未有的方式回答问题。因此，如果你的业务涉及客户互动以及客户进行研究并提出问题，你现在可以重新定义这种互动的方式，总结大量信息并以我们理解的形式呈现。

为什么一本书要有300页呢？为什么你不能在按下一个按钮的同时将这本书缩短到10页？你可以在10分钟内阅读完它，起草文件方面，你已经看到GBT在起草文件中的无与伦比的能力，如果你还没有看到，请访问GPT或任何其他人的工具箱，要求它为你起草法律文件、一首歌曲，或者一首爱情诗，无论你需要什么，它都可以为你起草。

机器翻译方面，GPT可以翻译成90种不同的语言，现在的语音识别水平非常好，与一个以母语为基础的说话者相比几乎无法比拟，这意味着你可以用任何你想要的语言进行交流，我可以与我们的中国保姆流利地用中文交谈，但与我的手机交谈时使用英语，这现在有了出色的口头和书面汉语写作软件。

我们相信这是软件工程师中智能的巅峰，你现在可以使用任何语言进行编码，你拥有一个工具箱，可以使你的代码速度提高10倍，甚至我们认为是独特的人类事物，比如创造性地生成艺术。

我稍后会举个例子，人工智能现在与人类表现竞争，以展示我们应用这些技术的我的工作的例子，利用人工智能的主要方式之一是一家名为Cresta的公司，我与我的学生们一起经营了5年。

在Cresta，我们提供给客服中心的人工智能工具，这些是在呼叫中心和客服中心工作的人员，他们与客户打交道，向客户销售产品，处理客户关注事项以及客户服务和留存，现在，正如每个呼叫中心操作员都知道的那样，一些呼叫在业务中是极好的，而其他一些则不太理想，这与他们的能力、技能水平和教育水平有关。

通过人工智能，他们可以提取最优秀的客户代理的最佳行为，每当一个客户代理满足了客户，我们就有一个积极的训练示例。然后，我们训练人工智能大脑，这个大型语言模型，以理解构成出色客户互动的要素，然后利用这个训练信号来赋能所有人。

麻省理工学院和斯坦福大学刚刚与该领域的合作伙伴共同发布了一项大规模研究，我们将立即看到一个14%的生产力增加，虽然这个数字看起来很小，我对这个数字感到比较失望，考虑到美国每年在呼叫中心和联系中心花费数十亿美元，这仍然是一笔巨额资金。

我还将大语言模型用于教育。教育的痛点是获得个性化的指导，有一个理解你的人，以你的速度和知识水平为你进行个性化培训，以确保你和你的孩子在教育领域的能力得到充分展开，在我创办的全球科技教育公司Udacity中，我们今年春天从人类导师转向了AI导师。

虽然AI导师可能还不如人类导师那样出色，但它们仍然要好得多，并且在某些方面更胜一筹，因为它们真正深刻理解每个学习者，而且，它们可以在白天和黑夜中立即作出响应，在我们基于大型语言模型推出AI导师的那一天，我们的互动和参与次数从每天200次增加到了20000次，这对于将AI系统变成个性化导师有多大的差异呢？

这只是开始，我梦想着一个世界，每个世界的孩子，每个世界的人都能发挥他们的全部潜力，因为他们身边有一个几乎不需要花费就能建立的AI导师，让他们有学习任何他们想学的东西的能力。

因此，他们的唯一限制不再是我们居住的地方、成长的地方或能在教育上花费的钱，而是我们可以共同参与全球最好的教育，无论年龄、背景或地理位置如何。

这将是一场改变游戏规则的革命。现在还有许多其他方面，人工智能将改变人类健康，我已经提到了今天在放射学、皮肤癌等许多领域中的诊断AI系统，它们能够在人们发现症状之前很久就发现潜在的致命疾病，让我们提醒大家，癌症是一种可治疗、可治愈的疾病，只要你能早日发现它。

此外，你将会看到个性化精准医学的时代，其中药物是根据你的背景、你的DNA以及你的个人特征量身定制的，以在最小的损害下产生最大的影响，放弃“一刀切”的时代，进入个性化精准医学的时代，将对医学产生深远的影响。

最后，AI在药物研发上起到了巨大的作用，原本需要数周甚至数月的工作，现在在药物设计的关键方面只需一毫秒，在这个过程中，美国和中国已经涌现出了许多可靠的公司，让我们认真追求医学的圣杯，延缓衰老的治愈方法，想象一下，如果找到一种能够阻止或减缓衰老的方法，并给予人们更长更美好的生活，你不正掌握了有史以来最大的商机吗？

现在，人工智能将影响许多其他职业之一就是法律职业，这很重要，因为至少在美国，律师的费用非常昂贵，我为我最优秀的律师每小时支付大约1000美元。这是一大笔钱，相当于其他人一个月的收入。

那么它是如何影响法律职业的呢？很大一部分律师工作与发现相关，试图找到必要的事实，进行研究和起草文件，所有这些事情现在都可以由人工智能非常非常胜任，现在有许多人工智能公司涉足这一领域并提供相关服务，但是随着发展，人工智能甚至可能做得更多，它可能成为你的律师，你解决冲突时的法官。

今天，每一次人类违规行为都受到某种法律背景的约束，这可能是一份合同、一项法律，或者只是一种惯例，几乎所有这些互动都缺乏对了解法律的人的深刻见解，在未来，法律可能成为一个全包容的主题，每天影响着我们所有人，并通过更加遵守和更深刻理解运营规则来使我们变得更好，但最终目标将是AGI，这将改变我们所有人。

什么是AGI？AGI是人工通用智能的缩写，它是一种与人类智慧相媲美的智能版本，我认为我们在某些领域已经实现了AGI，我们现在拥有的汽车可以更自信、更安全地驾驶，比人类驾驶更为出色，通过加利福尼亚州的法律入学考试，这些人工智能系统在表现上已经不逊于任何一所领先的法学院毕业生，这些毕业生成为了加利福尼亚的律师。

但我们尚未拥有的是一种可以完成所有这些任务的人工智能，我认为在未来三年左右，我们已经非常接近，在三年内，我认为你将看到人工智能系统在所有领域中都能与人类的智力工作者媲美，这意味着所有的工作都将发生变化，没有一个工作将不受影响，这意味着我们将重新定义社会的行为和运作方式，有了人工智能系统在我们这一边，它们可以代表我们并为我们服务，我们可以信任它们，这将是有史以来对社会的最大颠覆。

一切都源于这个非常简单的想法：计算机是否可以接受培训？它们是否能够学习？

答案是肯定的。可以通过给出两个例子，其中一个例子来自最近的一篇论文，类似于智能体系的计算，这里展示的是一个对数图，其中在所有三种情况下，水平和垂直线都以对数形式水平表示，是复杂性的度量，比如用于训练网络的计算量，输入网络的数据大小通常为数百亿份文档，垂直方向上找到的参数数量是测试规律，通过测试规则，我们衡量这些网络犯错误的数量。

某种测试涵盖了英语语言测试、法律测试，或者是用对数形式表示的自动驾驶汽车的驾驶测试，从历史上看，所有这些系统都表现为一条直线，这为什么很重要呢？因为随着时间的推移，我们的系统将呈指数增长，这要感谢摩尔定律，因此，水平对数形式基本上是时间的刻度，同时也意味着随着时间推移，我们的损失、误差率将呈指数下降，它们变得越来越小。

因此，我们生活在一个世界中，看到随着时间的推移呈指数级别的进步，多亏了这个被记录的现象，决策变得越来越好，我们看不到它停止变得更加聪明，只是时间问题，它们比我们所有人都更聪明。

我自己也包括在内，一旦我们有了人工智能伴侣，我们在今天所做的事情上将提高100倍的效率，这意味着你和我在两周内所做的事情可以在1小时内完成，这不是令人惊奇吗？这将会发生，我希望在我的有生之年（内），这意味着将为我们所有人提供更多的创新机会，更多的创造力，发现更多我们迫不及待想要开始新生活的事物。

非常感谢！

（本文独家首发钛媒体APP）

7 1 月 2024

CES2024：ChatGPT 已经杀疯了，AI海啸已来！

如果你在等待为了平息关于生成式人工智能的喧嚣，也许可以拉一把椅子。围绕人工智能的热潮丝毫没有平息的迹象——这一事实将在今年的 CES 上变得更加明显。

美国消费电子行业盛大的年度盛会 CES 将于 1 月 9 日重返拉斯维加斯。这是一场为期四天、熙熙攘攘的大型科技集市，展厅里摆满了新产品和充满希望的初创公司，以及触手可及的原型。CES 是一个贸易展，在这里签署销售和分销协议，概念车在拥挤的街道上滚动，科技记者和参观者在地板上徘徊寻找杰出的新产品。今年，许多首次亮相的产品都将配备大量人工智能技术。

多年来，生成式人工智能技术在公众意识的表面下浮现。它终于在 2022 年 11 月成为众人瞩目的焦点，当时 OpenAI 发布了ChaptGPT的第一个迭代。闪亮的新型聊天机器人的到来拉开了人工智能军备竞赛的序幕。由于到去年 CES 举办时，这次爆发的余波尚未完全饱和科技行业，因此去年 1 月在拉斯维加斯并没有进行太多关于 GenAI 的讨论。因此，事后看来，CES 2023 看起来几乎是原始的，比移动电话以来最伟大的技术革命晚了不到六周。

到 2024 年，情况将不再如此。“去年，我们没有像预期那样在 CES 上发布完整的人工智能公告，”Moor Insights & Strategy 首席分析师 Anshel Sag 表示。“如果你认为去年是波浪，那么今年将是海啸。”

预计在 CES 上人工智能将无处不在：汽车、踏板车、耳机、相机、扬声器和电视。在某些情况下，这些产品将仅包含另一种访问 ChatGPT 式问答服务以处理语音命令的方式。但在其他情况下，这些进步可能会更具影响力。英特尔、高通和 AMD 等公司预计将推出支持人工智能服务的芯片。这些芯片将在本地处理人工智能任务，而无需向云中的服务器发送请求，然后等待响应，从而使计算机视觉、语音到文本服务和生成计算等功能变得更加快捷。

CES 是围绕行业趋势进行叙述的地方。Sag 表示，随着本届 CES 人工智能的丰富，这很可能会发生。“人工智能将会压倒一切，”萨格说。“它将变得如此普遍和占主导地位，以至于有些人会厌倦它。”

所以您准备好了吗？AI不会替代所有人，但是可能会替代不会用AI的人！

3 1 月 2024

AI创业公司扎堆义乌“淘金”

2023年上半年人见人爱的大模型，逐渐“失宠”。前有百度创始人李彦宏说“重复开发大模型是资源浪费”，后有百川智能联合创始人洪涛说“99%的行业大模型都可能被替代”。

百模大战后，比参数拼评分乏力的大模型创业者们，逐渐“醒悟”：卷AI原生应用才更有价值。互联网大厂直接将态度体现在行动上：百度亮出20多款AI原生应用、抖音正式上线AI创作功能、吴泳铭接棒阿里“一号位”，开启淘天的AI时代……

初创企业也纷纷在各大论坛、路演中施展拳脚，成百上千的AI应用，将触角伸向电商、金融、游戏、办公等领域，包括但不限于AI绘画、AI翻译、AI视频等工具。

然而，从9.9拍写真的妙鸭相机，到跨语言翻译视频的HeyGen，大多数AI应用产品，难以摆脱公域流量出圈即顶峰的宿命。“昙花一现”的背后，问题指向了商业化落地，场景则是绕不开的关键因素。

被众多掘金者称为“创业天堂”的义乌，近期吸引了众多AI创业公司前去“淘金”。

不是北上去不起，而是义乌更具性价比

“前方到站是义乌，请下车的旅客提前做好准备。”感受义乌的人流，是从火车站听着行李箱拖动的声音开始的。2023年伊始，不少从互联网大厂裸辞、刚毕业的年轻人，疯狂涌入“世界超市”义乌，他们目标很明确，创业、淘金。

在小红书、抖音等社交平台，#裸辞，义乌创业#的帖子成为新的流量，攻略、见闻类评论如影相随。2023年8月，义乌市场经营主体突破100万，而义乌的常住人口不到200万，也就说2个人里，可能就有一个是创业者。

这里不是一线城市，试错成本低；一年发出超100亿的快递，产品销往世界各地；多年营造的营商环境，让每个人都有机会重新开始；就在今天（1月2日），浙江省科创母基金（二期）落地义乌，规模超30亿，鼓励科技创新……始终充满活力，或许这些就是吸引大家前往的原因。

前赴后继的创业者不计其数，义乌因此被称为“民间商学院”，它用持续增长的数字告诉大家：“义乌值得”。今年前11个月，义乌进出口总值首次突破5000亿元，达到5221.2亿元，同比增长18.1%。只是，这样的增长并没有让当地商户心安，即使是自己工厂的进出口销售额同样在增长。

这种不安情绪并非无中生有，近些年，整体供应链优势仍在，但原材料、人工等成本上涨，加之全域电商兴起，渠道变迁导致订单呈现“小而散”的特征，传统工厂正在失去曾赖以生存的低成本优势，同时流量贵、运营转化变低始终是缠绕着中小商家的难题。

2023年初ChatGPT的火爆，让AI获得前所未有的关注度，不少义乌商家也嗅到AI工具能在运营、办公、营销等方面，节省一定的人工成本，并通过不同途径试水。商城集团同样看到了AI给传统贸易带来的机会，决心投身其中的同时，深入思考“义乌有什么，义乌能做什么。”

40多年来，义乌凭借着“一盘好货”吃到了后端供应链的红利，但不得不承认在前沿科技面前缺乏技术基因，加之大模型自诞生起就意味着需要大量资金投入，自研大模型并基于模型开发AI应用，是一件性价比极低的事。

深入思考后，义乌商城集团与人民网、腾讯、清华大学等机构，达成战略合作，发布全球首个商贸领域大语言模型。具象的表现为Chinagoods AI 2.0的升级，众多AI创业公司抢先入驻。

专注抖音飞书AI协作和新媒体带货的企联AI，就是首批入驻的创业公司。在义博会现场，该公司市场总监邵雄与超100名义乌商家建立了联系。他感知到不少商家有心用AI工具去弥补企业在发展过程中遇到的瓶颈，但无力去落地，一方面大多数中小微企业没有足够的人力、财力自研AI工具，另一方面是工具使用的门槛和自身能力的限制。

这与当年小程序诞生类似，几乎所有人对小程序的架构、能力边界、应用场景都十分迷茫，企业独自摸索，小程序如蜗牛般向前发展。直到微信服务商的出现，一边掌握小程序的底层架构，一边对接企业帮助其打造专有小程序，在微信生态实现获客、交易、留存。

微盟、有赞的脱颖而出，从侧面印证着服务商存在即合理。进入AI时代，亦是如此，市场可能不需要太多大模型，但需要更多AI服务商。灵图科技是专注AI图文处理的服务商，为义乌小商品定制AI图文处理及商品详情页生成。

珠宝饰品是义乌的支柱产业之一，灵图科技联合创始人何道婷介绍道，饰品是占画面面积非常小的物体，另外有的吊坠、手链采用镂空设计，导致AI生成商品图时技术难度大。

在精细度上下足重功夫的灵图科技，认为义乌市场和他们的契合度极高。而伴随着义乌饰品商家使用其产品次数更多，新的需求和中间出现的问题也将推动他们的产品不断迭代。

这与卓奥优效的王童生不谋而合，其公司主要是为企业提供品牌营销方案，在他眼中，义乌本身的供应链完整，需求明确，可以有效减少沟通成本。其次是义乌不少品类形成大规模，有了标杆案例后，能更好切入整个行业。

放眼全球，义乌市场都是极具代表性的传统贸易市场，能提供“丰富AI原生应用”场景，专注智能对话与私域运营的句子互动就把义乌看作最大的落地场景，从商品数字化、创意生产、智能发布到智能客服等更多环节，AI技术都能渗透。

拥有“小商品大流通”应用场景的义乌并不想“吃独食”，反而以开放的态度欢迎服务商来义乌。因此，被贴上“高大上”标签的AI创业公司，扎堆到义乌淘金，更加顺理成章了。只是在人人都高喊AI之际，市场中的声音也复杂起来。在机会和乱象中的一次赛马

花开两朵，各表一枝。

虽然都是AI应用，但在义乌不同服务商讲述着不一样的故事。走在街头随处可见的AI数字人广告、AI翻译的名片；接二连三的营销电话，告诉你888元/套方案，连续包月还有折扣……

走访义乌产业带时，有部分商家向鲸商透露，被不少AI应用服务商骗过了：产品五花八门，效果不明显，售后也比较困难，就是一个大坑。

市场乱象也在特看数字人产品经理清慎那得到了验证，他在服务客户中了解到，上半年市场上涌现出了一群AI应用代理商，天花乱坠地说数字人直播能赚多少钱。“打着帮你赚钱的旗号割韭菜。

乱的背后，是行业标准不统一的表现，也是机会面前，大家都想分一杯羹的野心。2000年前后，马云创办的“中国黄页”是中国第一个提供互联网商业信息发布的网站，在这之后无数门户网站如雨后春笋般冒出。

当时义乌商家乘着中国加入世贸组织的东风，纷纷加码出口业务。面向复杂国际市场，很多商家不知所措。能解决企业贸易间的信息匹配问题的网站，成为不少商家的一种“解惑思路”。

一帆日用品创始人朱燕俊曾向鲸商回忆道，当时很多地推的销售员上门推销产品，起初都是抱着试一试的心态，后面发现理想与现场差距很大，久而久之选择了取消这部分的投入。一帆并非个例，这些良莠不齐的网站也逐渐不复存在。

回头来看，站在义乌商城集团的角度，在互联网大潮中确实是错过了平台化的机会，Chinagoods的诞生也仅仅三年的时间。从而义乌商家从面对黄页地推大使到电商运营服务商，都是需要自己去判断和试错。

进入AI时代，商城集团主动革新，做出改变，转型“第四方服务平台”。在面对海量的服务商时，通过战略合作将其吸纳到Chinagoods平台。

从以往市场乱象的情况来看，“信任”是服务商和经营户之间的“柏林墙”。2023年义博会后，王童生在与大多数商家的沟通过程中，他最大的体感是不信任，从而难以推进下一步的合作。

而通过平台去找服务商的话，在他看来这能让信任问题得到缓解，因为本身平台就会筛选掉资质不全的服务商。何道婷同样肯定了平台带给她们的价值，她告诉鲸商自己在做线下调研的时候，很多商户也告诉她遇到过空壳公司，卷一笔钱就跑了。

“从0开始切入市场，很难去建立信任的。”何道婷说，商城集团介入后，对服务商市场起到的还有规范作用，这对商家和服务商都是很好的帮助。

在Chinagoods平台的牵引下，不少服务商离经营户更近了一步，而在市场乱象仍未遏制，标杆服务商未出现时，这仍是一次持久战。在清慎看来，“要用产品效果说话。”

以数字人为例，他认为衡量效果的标准分为两个方面，客观上就是实际直播数据，真人和数字人卖货量的对比；而主观上的因素则相对较多，如整体的视觉效果、自然度、是否符合直播运营的需求等。、

在选择合作对象时，特看也会衡量客户是否适合去做AI这一块的投入，并非来者不拒。清慎表示，成功的模式很重要，大企业往往更具试错的能力，一般都会选择和行业头部合作，跑通之后再蔓延至同行的中小商家。

在邵雄眼中，要做长久的生意需要提供整个过程的服务。以ChatGPT举例，有用户付费了一年的费用，结果中途接口断了，无人问津也很难拿到退款。因此企联AI会在强调自己的合规性，以及从接口搭建、工具使用、后台维护等全链路服务。同理，良性的循环，客户的付费意愿也随之加强。

挤“泡沫”，找“杠杆”

作为跨境贸易主枢纽之一，义乌以其完备的供应链脱颖而出，成为各电商平台的主要货源地。近年来，经营户都在探索用数字化工具，给自己的生意降本增效，找到增长突破口。

随着人工智能生成的图片和视频文案赢得爆发，AI工具获得了大家的青睐。当经营户都试图抓住跨境电商这一轮机会时，义乌也被AI创业公司当作产业应用商业化的“杠杆”。

从“技术成熟度曲线”的角度来看，AI技术萌芽到稳步爬升的过程中，投机取巧去市场割韭菜的公司一定也不在少数，其中不乏临时换上“AI马甲”创业公司，渗透培训、代运营及代开放等全链路，当快递打包大妈都在激烈讨论AI时，这股AI“泡沫”也就面临破灭边缘了。

面对生死，真正专注技术与场景创新相结合的创业公司和大厂，则在竞争中挤“泡沫”。

特看数字人的创始团队都出身于大厂，对大厂的组织架构与业务模式上的弱点有深切感受。在阐述其与大厂的竞争时，他们清晰的知道自己的优势在哪。一方面，创业公司组织架构更灵活，反应速度快，产品迭代更迅速；另一方面，创业公司业务更聚焦，精力集中在细分场景，提供贴身服务，产品效果和服务都有更好的保障。

“小创新靠大厂，大创新仍然要靠小厂。”百川智能创始人王小川在接受媒体采访时，同样肯定了创业公司的价值。而大厂多年积累的用户数据和反馈，这是创业公司恰恰缺少的。言外之意，挖掘更多客户，在实践中迭代产品，则是这些创业者们的必由之路。

义乌市场有7.5万个商位，26个大类，拥有庞大且优质的经营户。在泡沫之外，只有真真正在技术上投入，在应用上开发和创新并深入行业做服务的AI创业公司，才能经得起市场检验，获得经营户认可，并有希望成为某一领域或者品类的Top服务商。

付出往往会有回报，有了标杆案例后，这些公司也能将成功经验向义乌市场其他商户、品类一一复制，并拓展至其他产业带，与义乌“前店后厂”、“工贸联动”的特质相呼应。这群创业者的起点可能是义乌，终点则和义乌经营户一样，“买全球买全球”。

当义乌商贸流通的产业厚度与垂类行业深度，被AI算法不断训练、学习，沉淀的大数据资产，则会进一步加速垂直品类产业数字化，这一现象可能最先体现在产业云SaaS平台，后端进一步深入产业源头工厂，前端多元化触达分销渠道，倒逼设计、制造、流通等多环节，更具碎片化、柔性化能力。

2024年的序幕已拉开，大量AI创业公司在应用落地和场景开发上，蓄势已久，爆发点可能就在今年。义乌作为最大商贸应用场景，暗流涌动正在进行时。企业竞争，不是大鱼吃小鱼，而是快鱼吃慢鱼。谁能在机会面前，快速抢占先机，谁就有可能率先获得话语权。

3 1 月 2024

从文生图到文生视频，AI行业卷疯了

前不久，身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂，让人不可思议的是，动画版的马斯克不仅神形兼备，背景和动作也非常连贯合理，而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服，3D动画”的关键词，一个身穿太空服的卡通马斯克便能跃然于屏上。近几年，随着AIGC赋能多业态应用的加速落地，整个行业的热潮，已经逐渐从文生文、文生图，转向了文生视频领域。事实上，AIGC从文字到视频是大的发展趋势，不少产业人士已经感知到了市场的风向，国内字节跳动、阿里、百度等科技大厂均已跑步入场。

AIGC迈入视频时代据了解，字节跳动于11月18日推出了文生视频模型PixelDance；阿里紧随其后也上线了Animate Anyone模型；百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。显然，AI技术与文生视频的融合已经在业界掀起了一股新的热潮。而国内玩家之所以如此积极地下场布局，其中的原因不言而喻。

首先，文生视频应用非常广泛，具备巨大的市场潜力。短视频市场虽然方兴未艾，但短视频的制作能力却跟不上各个平台爆发的短视频需求。而文生视频技术的日趋成熟和广泛应用，或将为当下热门的短视频市场带来一些变数。比如，影视和游戏等行业就是文生视频落地的重要场景，文生视频用文字就可以编辑和生成想要的故事情节，实现创意辅助和降本增效。而凭借为内容生成赋能这一独特优势，文生视频的前景也是毋庸置疑。

其次，文生视频操作十分便利，能有效降低各项成本。众所周知，个性化的视频制作麻烦、成本高昂，所以一款简单的视频生成工具，就成了不少行业和企业的渴望，而AI文生视频技术能力的突破则为这一问题带来全新解决方案。文生视频顾名思义就是无需视频制作技巧，仅用简单文字就可以生成想要的视频素材，不仅如此，还能随着输入场景和关键词不断更新，简直大大降低了视频制作的门槛和成本，可以说是创作者在数字化时代下的“福音”。

最后，文生视频产品功能惊艳，能进一步增强企业竞争力。在当下的AI赛道上，文生图的应用早已层出不穷，相比较而言，能够完全“攻下”文生视频这一阵地的玩家却是寥寥无几。归根结底，是文生视频的产品功能更加强大，其难度自然也就可想而知了。只不过，高难度往往伴随着高价值，若是有哪一个企业能凭借强大的算力、跨领域合作能力和技术自主性等优势引领这一赛道，那么其在行业内形成差异化优势也将指日可待。

万丈高楼平地起文生视频作为一种新兴的传媒形式，正以前所未有的方式影响着我们的日常生活。目前，在企业宣传、数字化人、科普创作、线上社交等领域都对文生视频技术有所运用。而为了提高视频生成的流畅度、真实感，国内入局的玩家如字节跳动、阿里和百度等都在多个方面下足了功夫。

一方面，各玩家收集了大量数据，以提高视频生成效果的多样性。文本生成视频模型往往需要大量数据来学习字幕的相关性、帧照片的写实感和时间的动态信息，而缺乏高质量配对的数据集，就难以合理组合人物、难以合理架构场景，因此，生成视频的合理性及连贯性就会大打折扣。阿里为了提高生成效果的多样性，就让其研究人员收集了大约3500万单的文本视频对和60亿文本图像对来优化模型，让生成的视频达到了预期效果。

另一方面，各玩家设计了分层编辑器，以提高文生视频语义的一致性。从简单文字生成高质量视频，就需要文生视频产品能够准确预测文字的意图，然后在保持输入文字内容和结构的同时生成精确的运动。为了达到这一目标，阿里的研究者设计了两个分层编码器，即固定CLIP编码器和可学习内容编码器，分别提取高级语义和低级细节，然后将其合并到视频扩散模型中，更好地确保了低分辨率下生成视频的语义连贯。除此之外，各玩家还提高了视频分辨率，以保证视频生成效果的高质量。文生视频最理想的效果就是用户给出提示词，系统自动生成任何风格相对应的视频，但这就对视频分辨率提出了不小的考验。阿里的文生视频将视频分辨率提高到了1280×720，还优化了初始的600个去噪step，以改进生成视频中存在的细节、伪影和噪音问题。字节跳动文生视频也提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性变得更强。

打铁还需自身硬随着人工智能和视频技术的快速发展，AIGC行业正在向AI视频倾斜，AI文生视频的爆发期或许即将到来，而参与到AI视频创作中的玩家也将会越来越多。即便是在这样的大环境下，不管是已经推出模型的字节跳动和阿里，还是正准备推出插件的百度，能入局文生视频赛道，其自身都有着不可忽视的倚仗。

一来，参与玩家算力储备充足，能很好地克服文生视频在技术上的不足。作为文生文、文生图的升级，文生视频对算力以及模型的工程化能力要求更高。据了解，文生视频的人工智能模型参数为10亿级别至100亿级别。而国内在文生视频领域有所布局的头部玩家中，无论是字节跳动还是阿里、百度，其在参数上的积累都已经十分深厚。可见，这些具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

二来，参与玩家行业经验丰富，能大大加速文生视频面世和迭代的速度。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性，一定程度上来说，文生视频可以看作是文生图的进阶版技术，这也就意味着，文生图的技术和经验可供文生视频加以运用和参考。而众所周知，字节跳动、阿里、百度等玩家早已在文生图领域有所深耕，甚至有的产品也已投入商用，凭借在文生图技术上的积淀，其在文生视频领域也有望实现大幅进步。

三来，参与玩家资源整合能力强大，能够为其文生视频的发展提供助力。相较于文字和图片，视频能承载的信息量更大，这也就是说，想要生产出更加生动、高清，真实感更强的视频，各玩家在文生视频上的投入成本也将更高。不过，值得一提的是，作为互联网大厂，阿里、百度、字节跳动经过多年发展，其在人才、资金、算力等众多资源和实力上的优势和权利不容小觑，得益于此，其文生视频产品也将拥有更强的竞争力和影响力。

山雨欲来风满楼文生视频不仅颠覆了传统媒体行业，也为内容升级和产业进化带来了许多新的商机和可能性。只不过，目前国内文生视频技术还在发展的初级阶段，虽然看上去文生视频与文生图的逻辑极其相似，但事实上，文生视频的难度要大得多，需要突破的瓶颈也有很多。

一是，文生视频数据要求高、计算难度大，参与玩家离产出令人满意的视频还有很大距离。相较于文字和图片，视频在多维信息表达、画面丰富性及动态性方面有更大优势，但这同时也意味着，文生视频对算力的需求将进一步加大；文生视频所涉及的自然语言处理、视觉处理、画面合成等领域，需要攻克的技术难点也在增加。而国内的玩家，目前仍然缺乏高质量配对数据集，因此其在语义准确性、清晰度和连续性等方面将会面临严峻挑战。

二是，文生视频成本耗费大，商业模式较单一，参与玩家想要将商业化跑通还有一定难度。与文生图相比，文生视频的计算复杂性提升，其成本耗费也会相应有所增加。另外，图片生成类的商业模式较为单一，收费模式和收费依据较为趋同，而视频生成模型的收费依据则与其类似。虽然图片生成类在多模态大模型中的商业化程度较高，可为视频生成的商业化前景提供一定参考，但作为新兴产业，文生视频的商业化想要跑通仍需一定时间。

三是，国内外企业纷纷加大了对文生视频的投入和研究，该赛道的竞争将会进一步升级。AI视频生成赛道已然十分热闹，不仅有美国AI初创公司Pika labs发布的“Pika 1.0”，还有谷歌推出的AI视频生成模型“W.A.L.T”等。而除了国外企业对文生视频技术的高度重视外，国内百度、阿里、字节、腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足该领域，并推出了相关的人工智能模型，显然，视频生成领域的竞争正日趋白热化。从文生图到文生视频，AIGC赛道的竞争已经非常激烈。虽然国内文生视频的进展相对缓慢，尚且没有明星产品的出现，但更多有人才、有技术的文生视频公司正在不断涌现。只不过，除了上述挑战之外，文生视频目前还有一些数据隐私和安全性问题需要解决，真正的商业化运作和盈利能力也还有待验证。而谁能在这次“跑马圈地”中成为最终的赢家，我们也只能拭目以待。

3 1 月 2024

电影“AI化”已成定局，华为、小米转战入局又将带来什么？

从华为、Pika、小米等联合打造电影工业化实验室、到Pika爆火，再到国内首部AI全流程制作《愚公移山》开机……业内频繁的新动态似乎都在预示着2023年国内电影开始加速进入新的制片阶段，国内AI电影热潮即将来袭。

此时以华为为首的底层技术科技企业加入赛道，对于国内电影制作而言，或许意味着一场弯道超车赛即将开始。 华为入局影视行业所为何来？

科技类企业正在加速入局AI影视行业。

今年11月初，电影工业化实验室宣布与华为、小米、商汤、Pika Labs等科技公司合作，共同探索用AI技术打造电影工业化3.0。

同月月底，刚刚加入电影工业化实验室的初创公司PikaLabs首次全网公开发布AI视频生成器1.0测试版本。

事实上，科技企业布局影视数智化赛道早有踪迹。以华为为例，2021年华为云就与鸣锣影业、中国电影科研所、上海度假区管委会等多方，在5G数字影视产业、中国影视工业化等方面达成长期战略合作。2023年华为又与华策影视在数字版权保护、影视制作技术标准确立和影视行业人工智能应用等多个维度开展合作。

这背后的核心逻辑在于，AI技术赋予影视行业巨大的增量价值，进而驱使众多科技企业加入。彭博行业研究报告指出，生成式AI市场规模将从2022年的400亿美元，增长至2032年的1.3万亿美元，未来10年年复合增速有望达到42%。而其中，东吴证券指出，在巨大的降本增效以及创意需求下，影视行业综合音频、视频、文本，是生成式AI的优质落地场景。

反之来看，站在当前时点，以华为为首的AI科技类企业陆续入局AI影视行业，在某种程度上也意味着国内影视行业正极力加速生成式AI在业内的落地，促使AI赋能影视行业。

正如，一经发布就瞬间火爆全网的Pika Labs 1.0也从侧面印证了AI影视应用离商业化不远了的。数据显示，PikaLabs1.0发布后为该网站带来20万+访问量，11月环比上涨62.8%。

一般来说，在新产品、新技术或新兴产业商业化前期，率先实现业绩兑现的环节总是更能打动资本。在AI领域同样如此，相比于技术端，AI应用侧作为盈利最先直接兑现的环节，其在产业化初期更能打动以寻求回报为主要目的的投资者们。

而此次PikaLabs1.0采用全新的AI模型，展示出的100%纯文本视频生成能力，以及以3D动画、动漫、卡通和电影等不同风格生成和编辑视频的应用能力，正是证明了AI影视应用产业化指日可待，商业价值即将兑现这个事实。因此消息一经传出，瞬间点燃了二级市场AI＋视频生成概念的炒作情绪。

资本的故事总是让人沉坠其中，而国内AI底层技术的绝对舵手华为，携手多家科技企业的强势加入似乎又在理想与现实中增添了肯定的一笔。那么，此时加速推进的“AI化”又将为国内影视产业带来怎样的机遇？

华为上场正是时国产电影迎来契机

复盘内容产业的发展历程时，不难发现，过去多年的互联网时代中，日益蓬勃发展的以信息网络技术为主的底层技术是内容产业进步的主要驱动力之一，也是该产业更新迭代中必不可少的支撑点。

因此，当前AI技术对电影行业的冲击，或许将为中国电影工业化带来不可估量的机遇。华为产业发展副总裁燕兴表示，“随着云计算、XR、AI等技术的快速发展，虚拟制作迅速推动影视质量和效率升级。”“行业的每一个环节似乎都正在经历着重构，影视产业工业化也进入到了科技赋能的阶段”

此时，以华为为首的科技企业成为影视行业中不可缺失的力量，助力科技赋能电影制作的整个流程。

以华为为例，截至目前华为已打造涵盖前期创意、中期拍摄、后期制作及发行等全流程的影视数字化服务平台，为中国影视行业数字化、智能化转型提供坚实的底层技术支撑。

内容创意方面，华为影视数字化服务平台能将创意转化为可视化图像，为导演和制片人提供直观参考，确保创意贯穿项目，避免后期出现大量的修改和返工，也在一定程度上节省总体制作时间。

拍摄方面，为内容制作公司打造可靠的云原生内容制作产线。AI等新技术驱动新技术驱动影视制作向虚拟拍摄转变，数字原生内容需增加，进而产生大量的效率、质量所需的海量算力、远程协作、弹性轻资产运营需求。

而华为云打造的数字内容生产线MetaStudio平台，支撑数字内容更高效率、更高精度、更低成本、更加智能的完成生产制作。它满足传统影视制作需求，同时提供数字原生内容的云上创作。特别是MetaStudio具备模型制作、资产管理、内容编辑、物理仿真和云渲染五大能力模块，助推媒体产业数字化转型和产业升级。以中国影史票房第一的《长津湖》为例，就是利用华为云渲染基地为后期团队提供了澎湃渲染算力。

后期制作方面，借助AI技术可以打造虚拟角色和特技，既可为内容创作提供广阔的的可能性，也可以使用视频智能编辑来提高后期制作的效率和效果。以商汤科技为例，凭借其先进的图像识别和处理技术，先后与《阿凡达》系列、《星球大战》系列、《复仇者联盟》系列、《建军大业》等多部大制作，显著增强了电影的视觉效果与情节的真实感。

此外先进的硬件端可以最大化展示创作者意图，并为影视观众提供沉浸式视听体验。除去影片剧情内容外，终端体验也是决定性因素之一。而华为主导开发的HDR Vivi技术可以准确把握每一个环节，帮助电影后期制作完整展示创作意图，并在各种设备中实现极致体验。

除去科技赋能产业更多的价值外，对于整个电影行业而言，伴随科技企业快速涌入，人工智能技术等核心技术日益成熟，或许将重塑全球电影格局，国内电影行业迎来史诗级机遇。

尽管2019-2021年疫情国内电影市场复苏较好，连续两年成为全球最大的电影市场，在全球电影中影响力也有所上升，但当时票房依旧还是以中国市场为主。且到了2022年随着全球影视市场的恢复，美国重回全球第一票仓市场，国内仅4部电影进入全球票房收入前50，前十中有8部的主产地为美国。以好莱坞五大制片为首的海外制片巨霸依旧占据全球主要地位。

因此中国电影试图完全走向世界，还需要一个契机。而全球影视行业成长相对乏力的大背景下，AI+电影的到来或许赋予中国电影这种可能性。

一方面，目前即使是莱坞出产的大电影市场情况也比较乏力。北美票房统计网站数据显示，2022年北美票房收入前十的影片都为续集电影，且多部头部作品票房未达到预期，其余多数好莱坞电影整体表现也较艰难。主要原因在于好莱坞商业片中过多的模式化、套路化，使得观众出现“超级英雄疲劳”。2023年《闪电侠》、《蓝甲虫》等大作品的惨淡收场更是证明了这点。

而与之相反，中国影视行业总体向上趋势未变。尽管受疫情影响，中国不再是全球第一票仓市场，但曾经的辉煌不是偶然。资料显示，2022年《长津湖之水门桥》闯入全球排行前十，位列第九；此外，截至2023年11月13日，中国电影票房重返500亿元，其中国产影片占比达到83.4%，进口影片仅占比达到16.6%。

国产片成为中坚力量，好莱坞光环“失灵”。截至发稿前，国内票房前十均为国产片，涵盖现实题材、悬疑犯罪、科幻以及民族情怀等多种题材，内容与制作工艺上的创新更是接连不断。相比之下，排行前20名中，仅有《速度与激情10》《阿凡达：水之道》《铃芽之旅》，以及中美合拍的《巨齿鲨2：深渊》几部好莱坞大作，尤其是最新上市的《惊奇队长2》即使“国产保护月”不在，观众依旧不愿意看。缺乏新意、不接地气是该制作大片并不为观众买单的主要原因。

另一方面，一般颠覆性技术变迁很容易带来行业格局的重塑。人工智能赋能电影产业后，其商业模式和内容形态都很可能被颠覆，此时中国影视行业借助科技企业的力量或能抓住百年难得一遇的机会。

以2023年中国影视中最值的骄傲的《流浪地球2》、《封神第一部》以及《长安三万里》三部制作为例，都在借助大量的AI技术以不同的风格展示不同的价值输出。其中，规模化使用人工智能技术的《流浪地球2》，已在全球38个国家和地区先后上映，并“走进”了维也纳联合国总部。借助更先进的技术，中国电影加速走向世界，满足观众需要的同时，通过价值传播提升中国影视在全球的影响力。

此外，近日唐季礼导演联合多牛科技，正试图运用AI技术来融合中国游戏产业与百年影视行业各自优势，开启“游戏电影化”创新模式，或许将打开中国电影工业化新局面。

总而言之，借助技术革新浪潮，“当下，中国电影在从电影大国走向电影强国的过程中，进入了一个试图创造新的世界电影格局的阶段。”正如中国电影家协会副主席、清华大学新闻与传播学院教授尹鸿表示。

AIGC浪潮席卷全球，包括华为在内的科技企业正在加快推动影视产业转型，给予影视制作新的创作模式与思路。但需要明白，技术只是内容创作的底座，而内容才是影视制作的核心血肉。因此，在追逐弯道超车的梦想时，打造并利用好先进的电影制作工艺只是其一，关键还是要依靠高质量的创意内容、创意编辑以及导演制作团队，才能打造更多精品大片。

分秒AI研究院

分秒AI研究院

分类目录归档：AI最新资讯

测试部分：

我们该如何用好V6？

学完这篇文章你可以掌握：

三、如何使用AI进行产品设计？

AI搭讪语生成器

PromptBox提示词管理器

Photofix照片修复器

iQuit一键生成辞职信

具体裁员人数曝出

关闭幼儿园，缩减员工福利

演讲要点

数据和对齐，前所未有的关键

大模型带来的变化

大模型对基础软硬件要求「极致」

一些结论

为什么是第一名？

产品介绍

LLM模型

功能介绍

是否免费

插件

客户端

为什么是第二名？

产品介绍

LLM模型

功能介绍

是否免费

为什么是第三名？

产品介绍

LLM模型

功能介绍

是否免费

插件

客户端

Rabbit R1有些啥亮点？

Rabbit及其创始人Jesse Lyu

One More Thing

热门 AI 工具 Top 5

第一名：ChatGPT

第二名：Character.ai

第三名：Quillbot

第四名：Midjourney

第五名：Hugging Face

02、 创意成为生产力，想到就能赚到

03、写在最后

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

怎么诱导幻觉

如何利用诱导出的幻觉消除最终的幻觉

实验结果

不同模型规模的有效性

不同模型基座的有效性

与直接用高质量数据微调的对比

总结

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录，经过钛媒体APP删减：

02、创意成为生产力，想到就能赚到