2023年冲出23家新晋AIGC独角兽:最高估值千亿,6家来自中国

生成式AI这把火在资本市场越烧越旺。根据智东西统计,2023年新晋的生成式AI和大模型领域相关独角兽达23家,国内新晋独角兽有6家,分别是智谱AI、MiniMax、百川智能、零一万物、智元机器人,以及已被收购的光年之外。这些独角兽企业涉及大语言模型、AI视频生成、垂直行业应用研发商以及GPU云服务提供商。

其中估值高于50亿美元的独角兽有3家,被称作OpenAI劲敌的Anthropic,估值排名第一达到184亿美元(折合约1315亿人民币),远高于排名第二GPU云服务提供商CoreWeave的70亿美元(折合约500亿人民币),Character.AI估值超50亿美元(折合约357亿人民币),排名第三。

不同赛道中,大语言模型赛道独角兽玩家达到一半有12家垂直行业应用为8家。从地域分布来看,美国创企占比近半共10家,其次为中国共6家。

在知名产业投资方中,海外有谷歌、亚马逊、Salesforce、英伟达等玩家高频出现,国内也有腾讯、阿里、小米、美团等知名科技巨头多次注资。2023年美团联合创始人王慧文创办的光年之外也已达到独角兽企业估值,但因王慧文离岗这家创企于2023年7月被美团收购,被收购时光年之外整体估值约为11.6亿美元

值得注意的是,2023年底,生成式AI和大模型领域多家创企传出新的融资动向,如主攻AI语音生成的Eleven Labs正在与风投机构谈判第三轮融资、马斯克创办的X.AI拟出售股份并募集10亿美元资金……这些创企极有可能率先成为2024年新晋生成式AI和大模型独角兽。

相比之下,2023年之前的AIGC及大模型相关独角兽仅有5家,2023年也成为独角兽大量涌现的关键之年。

01.11家大语言模型独角兽:最高估值近200亿,4个国内玩家在列

基于大语言模型,OpenAI打造的聊天机器人ChatGPT已经成为这一波AIGC浪潮的标志性事情。

在新晋独角兽中,主攻大语言模型研发的独角兽占比最高共11家,且估值超20亿美元的玩家就占到一半左右,Anthropic的估值高达184亿美元。

其中美国的独角兽玩家有4家,中国4家,以色列、法国、加拿大各1家。

1、Anthropic美国硅谷创企Anthropic成立于2021年,由阿莫迪兄妹从OpenAI出走创办。这家创企是OpenAI最大的劲敌之一,其估值已从2023年上半年的41亿美元增长至年底的184亿美元

Anthropic的核心产品就是聊天机器人Claude,Claude也经常被拿来与ChatGPT相比较,虽然总体性能有差距,但Claude在长文本处理等部分指标上已经超过GPT-4。与OpenAI背靠微软类似,这家创企还拿到了谷歌、亚马逊的巨额融资。近日,据外媒The Information报道,Anthropic预测2024年底其年化收入将超过8.5亿美元。据The Information援引知情人士消息,OpenAI年化收入2023年底已突破16亿美元。

2、Character.AICharacter.AI于2021年在美国成立,2023年3月其估值突破10亿美元,9月就被披露估值超50亿美元

这家创企的创始人是谷歌早期最重要员工之一诺姆·沙泽尔、谷歌AI大牛丹尼尔·德·弗雷塔斯,成立半年后就正式发布了聊天机器人Character.AI。Character.AI构建了一个AI角色扮演社区,用户可以和动漫人物、明星大佬甚至于自定义的各种角色交流对话。根据这家创企公布的数据显示,自2023年5月发布以来,其安卓下载量已经超过300万次。成立之初,沙泽尔就决定要让Character.AI聊天机器人的基本服务供所有人免费使用。

3、Inflection AI

Inflection AI是成立于2022年的美国创企,2022年初从微软等公司处筹集了2.25亿美元资金,当时未披露具体估值。一年后,这家创企拿到微软、英伟达等的13亿美元融资,估值达到40亿美元

其创始团队包括DeepMind的联合创始人穆斯塔法·苏莱曼,“硅谷人脉王”、领英创始人雷德·霍夫曼。不同于ChatGPT等产品的生产力工具定位,Pi就是个人的生活小助理,苏莱曼曾解释道,Pi可以在与对话的来回对话中越来越了解用户,相较于其它聊天机器人会更人性化。

4、Cohere

加拿大AI创企Cohere成立于2019年,创始人是曾在谷歌任职的Transformer论文合著者之一艾丹·戈麦斯。今年6月,Cohere拿到英伟达、甲骨文、Salesforce的融资,估值达到22亿美元,两个月后因老虎环球基金计划出售部分Cohere持股,该公司估值升至30亿美元。除此以外,AI明星科学家李飞飞、“深度学习三巨头之一”杰弗里·辛顿、吴恩达的第一位博士生Pieter Abbeel、谷歌等都纷纷为这家创企注资。

Cohere专注于面向开发者和企业,产品主要覆盖企业日常运营中的三个关键领域:文本生成、文本分类和文本检索。

5、Mistral AI

法国AI创企Mistral AI成立于2023年,6月份拿到1.05亿欧元融资,12月底就被曝出正处于从英伟达等投资者处筹集约4.5亿欧元的最后阶段,半年时间估值从2.6亿美元飙涨到20亿美元。Mistral AI由DeepMind和Meta公司的前研究人员组建,创始人曾主导Llama大语言模型开发。2023年9月,Mistral AI发布了首个大语言模型Mistral7B,该模型在当时被称为“最好的7B模型”,在多项基准测试中优于其它开源模型。

6、智谱AI成立于2019年的智谱AI是国内目前估值最高的大模型独角兽,也是国内首个估值过百亿人民币的大模型创企。2023年,这家创企已经累计获得超25亿元的融资,美团、蚂蚁、阿里、腾讯、小米、金山、红杉、高瓴等均在投资方之列。这家创企由清华大学计算机系知识工程实验室孵化而来,且核心团队大多都是悟道大模型的研发人员。早在2022年,智谱AI就开源了高精度双语千亿模型GLM-130B和60亿参数的ChatGLM-6B,2023年推出了全自研第三代基座大模型ChatGLM 3并宣布开源ChatGLM3-6B。

7、AI21 Labs成立于2017年的以色列创企AI21 Labs,到2023年底其总融资额已达3.36亿美元,整体估值达到14亿美元,投资方包含三星Next、英伟达、谷歌等。AI21 Labs的产品包括写作工具Wordtune、大语言模型Jurassic-1 Jumbo、可定制的大语言模型Jurassic-2。Wordtune的功能与ChatGPT基本一样,其客户包括耐克、Zoom、沃尔玛、三星、阿迪达斯等知名企业。Jurassic-2就是一个大语言模型,既可以作为基础模型,也可以为企业构建特定业务领域的专属“ChatGPT”。

8、MiniMax国内明星创企MiniMax成立于2021年,创始人是前商汤科技副总裁、通用智能技术负责人闫俊杰,技术合伙人杨斌为闫俊杰的中科院校友。今年6月,MiniMax拿到一笔总规模超2.5亿美元的融资,估值超过12亿美元。投资方包括腾讯、米哈游等。MiniMax目前已经推出自研角色扮演类AI聊天应用Glow、自研通用大模型ABAB,以及为金山办公等B端客户发布了相应解决方案。公开资料显示,该公司具备自研文本、语音等多模态融合的通用大模型能力。2023年12月底,MiniMax副总裁魏伟透露,MiniMax近期计划发布国内首个基于MoE(Mixture-of-Experts)架构的大模型,对标OpenAI GPT-4。

9、百川智能2023年4月,前搜狗CEO王小川、前搜狗COO茹立云联手成立国内大模型创企百川智能。1个月后,百川智能就拿到了来自腾讯、小米、金山、清华大学资产管理有限公司、好未来等十余家机构的联合投资,整体估值超10亿美元。半年内,百川智能已经发布超7款大模型,参数规模从10亿到超百亿不等,覆盖开源、闭源。

10、零一万物2023年7月,创新工场董事长兼CEO李开复创办国内大模型创企零一万物,联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁等诸多头部玩家人才,整体估值超10亿美元。零一万物于2023年11月发布了首款开源中英双语大模型Yi,却使这家创企陷入“套壳”风波,有开发者质疑Yi完全使用了Llama的架构。随后零一万物发公告澄清,Yi完全不涉及套壳、抄袭。进行了版本更新后,Yi在多项大语言模型测评权威榜单的排名直追GPT-4。

11、Adept AI美国AI独角兽Adept AI成立于2021年,2023年3月拿到顶级风投Greylock与行业巨头微软、英伟达等的3.5亿美元融资,这家创企估值突破10亿美元。创始团队既有曾带队从事GPT-2、GPT-3研发工作的前OpenAI加州实验室工程副总裁戴维·栾,又有两位Transformer论文合著者阿希什·瓦斯瓦尼、尼基·帕玛。不过,这两位合著者此前已离开Adept AI。

Adept AI的产品与ChatGPT有所不同,基于其核心的ACT-1模型,可以根据用户指令调动一系列软件工具,从而协同执行复杂用户请求,这改变的是用户和机器人之间的交互方式。

2家AI视频生成独角兽英伟达、谷歌重金押注除了大语言模型,可以生成图片、视频、音频的多模态大模型在生成式AI市场里逐渐热络起来。文生视频方向共2家独角兽,Runway和Synthesia的估值分别为15亿和10亿美元。

1、Runway

美国AI创企Runway成立于2018年,2023年7月,在谷歌领投的D轮融资中募集到约1亿美元,估值达到15亿美元,半年时间翻了三倍。Runway已经发布了大约30余个AI创作工具,包含音频、图片、视频、3D和生成五个大类,涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。这家创企还参与了爆火的图片生成工具Stable Diffusion研发。2、Synthesia

Synthesia是一家成立于2017年的英国AI创企,2023年6月,该公司获得约9000万美元融资,估值达到10亿美元

也是AI视频创作平台,主要面向的是虚拟人视频,可以生成教学视频、员工培训视频等。

Synthesia主要专注于大型企业客户等B端客户,可以生成教学、员工培训等虚拟人视频。Synthesia CEO曾在博客中透露,财富100强中有35%的公司正在使用Synthesia进行培训和营销,并且有超过5万个团队使用这一工具大规模制作视频,节省了80%的预算。
03.“AI算力黄牛”获英伟达青睐与头部玩家“平起平坐”大模型引发的算力需求激增,其背后的云服务提供商也成为焦点,除了微软、谷歌、亚马逊等头部云服务提供商外,被英伟达青睐的创企CoreWeave已经化身“AI算力黄牛”,一举跃升独角兽,估值达到70亿美元

成立于2017年的美国创企CoreWeave,起家时为一家加密货币挖矿公司,2019年成功转型成云服务提供商,拿下微软、亚马逊、谷歌等玩家的巨额算力大单,为这些玩家提供大模型训练和推理算力。

同时,以英伟达H100芯片做抵押,CoreWeave还拿到23亿美元的债务融资方案。CoreWeave创始人之一Brannin McBee在今年8月的采访中透露,2022年,该公司收入约有3000万美元,预计2023年将超过5亿美元,同比暴涨1567%。

8家AIGC垂直行业应用独角兽:美国企业占一半,国内机器人玩家闯入在大模型之上,诸多玩家选择面向特定的垂直行业、应用进行研发,进一步针对用户使用中的痛点发挥生成式AI的更大价值,其中不乏金融、企业搜索、医疗、配音、翻译等。2023年新晋独角兽中,8类玩家都针对于不同的行业未有交叉,从地域分布来看美国有4家,德国有2家,分别为AI翻译和军事分析领域。中国还有一家人形机器人创企智元机器人,已经在大语言模型与机器人的结合上有所进展。

1、Glean(搜索)美国AI创企Glean成立于2019年,该公司正在洽谈至少2亿美元融资,投前估值达到20亿美元,相比2022年5月估值上涨200%。

Glean的创始人Arvind Jain是前谷歌搜索的工程师,其产品是为企业构建内部的搜索引擎,搜索公司内容的应用程序、内容资源,来帮人们找到所需的信息。

这家创企已经积累了200多家企业客户,包括Databricks、Niantic、T-Mobile等,并且这些企业中已经有大约40%客户员工每天都在使用Glean。

2、Helsing(国防)

成立于2021年的德国创企Helsing是一家国防科技企业。

2021年,Helsing在A轮中获得Spotify创办人Daniel Ek所共同创立的创投公司Prima Materia 1亿欧元投资。2023年完成了2.09亿欧元B轮募集资金,成为当时欧洲最大的AI创企,估值达到18亿美元

Helsing的产品主要为军事任务服务,例如将军事硬件设备连接AI,从而将其接收到的红外线、传感器等数据进行分析。

3、Quantexa(金融)2016年成立的英国独角兽Quantexa,2023年4月获得1.29亿美元E轮融资后跃升独角兽,估值达到18亿美元,也是2023年英国首个新晋独角兽。

Quantexa打造的生成式AI助手Q Assist就可以让用户通过自然语言,快速帮助用户查询,从而帮助金融公司规避风险。

目前,纽约银行、汇丰银行、渣打银行、丹麦银行等大型金融机构都是其客户,该公司还将与谷歌、埃森哲、德勤等合作。

其创始人预计,2024年该公司收入将达到1亿美元,2025年实现盈利。

4、Replit(编程)美国AI创企Replit由曾在Meta任职的阿姆贾德·马萨德于2016年创立。2023年4月,这家创企拿到9740万美元B轮融资,估值增长至11.6亿美元。GitHub发布了Copilot X为开发者提供软件开发平台后,谷歌就选择联手Replit升级AI辅助编程工具Ghostwriter。Ghostwriter是Replit 2022年发布的产品,支持16种语言。Replit的产品既可以为初学者提供简单的开发工具,让其快速上手,也可以为有经验的开发者提供协作开发测试的工具。2023年4月,该公司还发布了自己的编码大模型replit-code-v1-3b。

5、Imbue(AI Agent)

美国AI创企Imbue成立于2021年,目前手握1万张英伟达H100芯片,并获得了英伟达等投资者的2亿美元融资,估值已经超过10亿美元

这家创企的重点是构建具有推理能力的AI Agent,不过目前还没有发布任何产品。但其创始人坦言,Imbue的产品距离真正商业化落地还需要数年。Imbue的最大投资人、亿万富豪Jed McCaleb称,自己在看完Qiu和Albrecht建立AI智能体的PPT后,觉得非常满意,因此大手一挥,拍板决定投资。

6、Typeface(营销)

Typeface成立于2022年9月,创始人阿布海·帕拉斯尼斯曾先后任职于微软、甲骨文、Adobe,从0到1主导搭建了微软的云计算业务、领导了Adobe的智能化转型。2023年,该公司连拿2笔融资,估值跃升至10亿美元,投资方有Salesforce Ventures、谷歌投资、微软旗下风险基金M12等。

这家创企的主要业务是基于GPT-3.5和Stable Diffusion 2.0模型开发企业级生成式AI应用程序,提供通过文本快速自动生成营销内容和图片的平台和工具。

7、智元机器人(机器人)成立于2023年的国内明星创企智元机器人,由前华为“天才少年”、华为计算产品线昇腾部门算法工程师稚晖君(原名彭志辉)创办。成立9个月内,智元机器人就连拿5轮融资,投资方阵容集结了百度、比亚迪、奇绩创坛等。2023年12月完成的A3轮融资,金额或超过6亿元。智元机器人在2023年8月发布了首款产品“远征A1,稚晖君透露,这一机器人基于大语言模型以及公司自研的视觉控制模型完成了一系列创新,预计2024年产品会推向商业化落地。

8、DeepL(翻译)DeepL是一家德国创企,成立于2009年。2023年1月,该公司宣布完成1亿美元融资,估值超过10亿美元。该公司的产品是AI翻译工具支持中文、英语、德语、法语、日语等20+语言的翻译。2017年产品发布之初,该公司的盲测结果显示,其翻译器表现远超谷歌、微软、Meta等竞争对手,BLEU测试的结果也是如此。2023年1月,DeepL发布AI写作助手,能够调整用户上传的德文、英文写作内容。

DeepL的官网显示,目前该公司的用户已经达到百万级,并有超20000家企业正使用这一平台。

05.结语:2023年冲出的独角兽为大模型战局注入新动能大模型及生成式AI独角兽企业已经成为产业界关注的焦点,凭借着明星创始团队以及有广阔应用前景的工具,获得各路资本青睐。从大模型、聊天机器人到面向各行各业的垂直应用方案、AI算力提供商,独角兽玩家的成长之路不断加速。可以看到,以英伟达、谷歌、微软、腾讯、阿里等为代表的科技巨头玩家也是这些独角兽玩家进阶的重要推动者,与其它风投机构不同,这些玩家身处行业之中,其一举一动都牵动着科技界的神经。尽管目前来看,OpenAI这一标志性领军企业的优势性还没有企业可以比拟,但随着资金落地,这些独角兽玩家或许会在2024年迸发出更大的生命力,逐渐上升到能与OpenAI一较高下的地位。

2024,如何构建企业的AI营销战略?

在2024年谈增长离不开AI这个关键词。

一项名为《2023AI营销现状》的报告面向900位增长责任人展开调研,其中包含约300位CEO、CMO,他们中约90%认为在未来12个月内AI对于营销来说颇为重要。

但在让AI真正驱动增长的过程中,企业也面临很多现实的困境,比如超半数的营销人认为他们还不是很了解AI,44%的被访者认为企业还没有真正的AI营销战略。

来自杜克大学的教授卡尔·梅拉就曾在《哈佛商业评论》发表文章指出,很多营销技术就像是“亮闪闪的新东西”。企业对AI等营销新技术的投入更像是在装点门面,很少能真正激发它们的价值。而要解决这一难题,需要做好两件事:“解构”增长路径,让关键业务环节更好地与技术相配合;“构建”多元技术能力,并确保其作为一个完整的系统发挥作用。

大模型阶段下,AI能帮企业做些什么

从前台应用看向后台基建,想让AI真正发挥价值,企业需要主动识别出业务增长的关键节点,并探索在这些节点中,AI能如何发挥作用,提升增长效率。纵览目前发布的一些商用AI大模型,AI正在提升人货匹配效率、提升消费者的持续连接能力,提升经营效率方面发挥作用:

更好地理解商品,提升人货匹配效率。

你觉得投放一波广告需要准备多少套投放方案?100个够不够多?实际上,有些企业会准备多达4000个投放方案,广告素材在产品价格、配色、文案等元素上进行微调,搭配不同的通路、人群,就想看看哪个效果好。这其实是企业追求更精准的人货匹配的表现,听起来挺科学,但显然需要耗费大量的人力物力。

但如果AI介入了这一环节呢?

AI之于营销的一大价值在于高效处理更大规模的数据,发现其中暗藏的关联,并自动化地完成一些基础的操作。企业不需要准备上千个方案,基于大模型数据信息的处理能力,在广告主补充输入商品信息后,系统能够对所投放的商品进行更加深入的理解,并由此进行更加高效的人货匹配。就如同那个“啤酒和尿布”的经典营销故事,两种看起来毫不相关的产品摆放在一起,却能大大提升销量,其背后便是数据洞察推动人货匹配的结果。

如今,不少企业正在受益于AI大模型助力下的人货匹配提效。比如腾讯广告曾公布过一些案例的数据,通过人货匹配,某服饰品牌下单平均起量速度提升180%,下单成本环比降低18%,销售额更环比提升260%;某美妆品配将流量引导至视频号品牌直播间,直播间广告ROI提升1.5倍。

当然,为了更好地实现“懂人,懂货,懂匹配”,企业也需要更积极地“喂养”AI,比如在广告系统中建立好商品库,让AI知道售卖的商品是什么,有哪些基础的特征;另外,企业在一方数据及时上报的基础上,亦可与平台方展开更定制化的合作,这将有助于AI大模型更好地理解企业,从而进一步提升系统匹配效率。

腾讯公司副总裁蒋杰近期在腾讯智慧营销峰会上就分享了一组数据,腾讯广告的大盘数据显示,在转向基于标准化商品库的全面商品化策略后,广告主的广告起量率提升10%,消耗规模提升12%,通俗来说就是在预期的ROI标准下,广告触达的用户、展现数量等大幅提升。

更好地理解人,提升消费者持续连接能力。

很多企业都有金牌销售,凭借着对用户的深度理解和优秀的沟通能力,他们能够为用户提供更加优质的服务、高效地促成下单转化。对于企业来说,如何培养更多的“金牌销售”、提升整体客户服务水平,以促进生意增长?AI在这之中大有可为。一方面,AI能够快速提供经过智能运算后的话术参考,在它的辅助下,客服与用户的沟通将更加顺畅;另一方面,基于自动打标,系统能够对大量数据进行高效可靠的分类处理与建模学习,以系统底层能力提升助力销售与服务环节的大幅提效。

当然,AI对人的理解并不仅仅影响销售服务环节,特别是在用户消费心智逐渐成熟的当下,消费决策的过程变得复杂而长期,据调研,市场大概有70%的用户需要长期培育,最后才会发生转化,企业与消费者的沟通也变成一个颇为复杂的过程,全链路、全周期的用户关系运营成为必然。而基于对人的理解,AI可以高效、自动化地追踪和串联起用户决策的流程,从而形成一套用户线索经营的矩阵。

蒋杰提到,随着底层系统的智能化焕新,腾讯广告以技术能力加持,打造了一套覆盖线索全场景、全周期的营销体系。这一体系从广开口,实现更多曝光触达开始,到多链路吸引用户进行浅层互动,再到提后效的留资、下单,最终落地到私域体系内实现用户的深度共鸣与长效经营,AI大模型都提供技术助力,通过对消费者的深度理解实现营销提效。实际上,腾讯广告一直强调“全域经营”理念,而这一套体系正是AI赋能之下的升级版全域经营矩阵,通过AI提升全域中每一触点的智能化水平,并通过统一的大模型统揽全域营销流程与消费者的全域流转,真正构建起一套以消费者为核心的智能化的营销体系。

目前,在这一体系的加持下,不少企业已经收获了实际的增长,比如某教育品牌的首次参课率提升23%,同时首次参课成本下降22%;而某大健康品牌的开口(曝光)成本下降了17%,同时加粉转化提升33%。

更好地理解商业,提升经营效能。

技术层面的升级只是进化的必要条件之一,将行业经验、商业敏锐度融入大模型中,不断基于特定的行业现状、行业需求调教大模型,企业才能得到一个更加贴心的AI营销助手。

以游戏行业为例,大众可能只看到“是兄弟就来砍我”的大曝光时刻,但一款游戏的营销也要经历复杂的周期。比如小游戏就会经历测试期到推广期再到召回期,比如游戏App会经历封测、预约、首发、平推、版更/周年庆等阶段。每一阶段的营销诉求不同,资源配置不同,营销策略也千差万别。在复杂的营销周期中,AI大模型对抗熵增,提升营销确定性的价值便体现出来。

一方面通过大数据洞察,企业可以实现更确定的冷启动,面向谁、展现怎样的玩法特点、启用谁为代言人等等,AI大模型会告诉你更多的洞察观点。而在投放过程中,一些智能的投放工具可以结合投放效果敏捷调整投放方案,减少人工干预,自动优化提速。另外,诸如腾讯广告游速通等全生命周期营销解决方案,还会基于游戏行业特征进行深度的模型优化,让AI大模型更加理解游戏产品的特征、营销阶段与营销诉求,实现大模型助力下的营销提效。游速通侧公开的某游戏产品投放数据显示,技术助力下,该游戏起量率较传统新游提升30%,预约激活提升23%,同时激活成本下降19%。

当然,不只游戏行业,营销大模型也正在尝试与更多的行业经验相结合,实现更加垂直深度的营销赋能。就像AI发展趋势的预测中,垂直大模型将成为大模型应用的主流方式,更加深度结合行业经验的营销大模型,也将更好地实现营销的赋能。


打造系统性的AI基建

在应用层,AI大模型的能力正在逐步拓展。而在基建层,平台与企业也需要进行系统性的布局,以确保AI能够融入营销全流程,系统性地发挥作用。在这一过程中,企业需要特别关注的是系统性这一概念。一方面,在整个营销体系中,企业往往较为关注智能投放领域的工具引进,但要真正形成智能化的营销系统,企业还需关注在智能创意、智能诊断能力上的部署;另一方面,工具之间能否进行有效的“对话”,形成顺畅的创意投放验证体系也是需要关注的话题。

不久前,腾讯广告发布了一站式AI广告创意平台“腾讯广告妙思”,在打造这一产品的过程中,蒋杰就指出能够自动化生成创意素材的AI工具其实并不少,但如何让创意贴近投放,做到“从广告诉求出发”、“更有原生感”,却是需要被攻克的课题。

一个简单的例子是,一些非广告专用的AI创意工具生成的图片总带有一些“艺术的朦胧感”,色调可能偏暗,或者多少带点西式审美的特质,这样的素材并不适合国内的广告投放。通过腾讯广告的数据积淀,妙思会了解到那些更明亮的,融入东方审美元素的素材会带来更好的投放效果,也由此避免在创意生成的过程中“走弯路”,直接产出更能推动广告提效的广告素材。另外,腾讯广告妙思还与广告投放流程紧密结合,对产出素材直接进行自动化机器审核,通过“创意生成-一站式审核-广告投放”的链路打通,减少动辄数小时的审核过程,将技术提效应用到每一个关键环节。

这便是系统性带来的优势,当服务各环节的AI工具能够基于一套底层大模型,各环节间的经验能够互联互通,一同服务于足够明确的商业目标,系统整体的效率便会明显提升。

为了进一步提升系统的整体效率,腾讯广告还着重打造了智能诊断的能力。这对企业来说就像是给复杂的AI营销系统装上了“导航”,能够识别障碍在哪里,并实时根据接收到的“路况”信息不断规划最优路径。在广告的创建期,企业可以获得优化建议,对投放效果建立起初步预期;投放时可获得投放的预判、预警;投放后也可以通过系统诊断与操作评估进行更有针对性的复盘,为下一次投放优化做好准备。

可以看到,在腾讯的体系内,大模型针对广告场景进行了系统性的部署,形成了深度垂直的能力。发起于《哈佛商业评论》中文版的新增长年度榜单评选中,蒋杰入选“2023中国新增长·先锋人物榜”,也正是因为其“决意要离业务更近,让AI、大数据的能量在应用中释放”。

2023年,蒋杰在2023腾讯数字生态大会上携腾讯混元大模型正式亮相。作为一款“从实践中来,到实践中去”的实用级大模型,腾讯混元目前已与超过300个腾讯内部业务对接。而在广告业务场景中,基于对广告真实诉求的理解,蒋杰也带领团队推进了一系列技术升级,大幅提升了广告推荐效率,助力企业降本增效。为了提升大模型的易用性,以及进一步提升效率,腾讯广告也在整合统一包括数据、策略、特征、模型到资金计费系统等模块之后,让广告系统真正成为“一盘棋”。

在平台侧系统性AI基建不断完善的同时,企业侧也需要进行相应的部署,除了必然的引入更多AI工具、培训新型人才体系之外,构建具有开放性的AI应用架构是更具挑战性的一环。在谈及AI营销未来进化空间时,蒋杰不断提及希望能与企业展开更多合作,共同推动大模型基建的持续优化。

事实上,在平台方、技术供应商提供了通用大模型的基础能力后,需要不断引入行业经验加以调教才让大模型的能力更贴近应用的场景和具体需求;而打破围墙花园,构建开放网络,推动数据合作,才能让大模型进一步理解广告效果的全貌,从而给出更加科学的决策建议。

当然,这样的体系搭建并非一夕之功,大模型的训练与商业应用也必然是一场持久战,企业需要以长期主义思维进行持续的关注、学习与投入,也需要秉持技术的开放心态,共同应对AI时代的新挑战。

人工智能如何应用于网红营销?有哪些打法和挑战?

自问世以来,ChatGPT凭借其卓越的自然语言处理和对话生成能力,无疑成为了当红的“流量话题”。

与此同时,ChatGPT的不断升级和网红经济的快速发展,也让人工智能在网红营销领域也逐渐受到关注和应用。品牌和营销机构纷纷将AI技术引入到他们的宣传策略和推广活动中,以期为企业带来更多的商业价值和市场竞争力。

那么,在网红营销领域AI能够协助出海品牌做哪些工作?它的局限是什么?

人工智能如何应用于网红营销?

1.发现和研究网红

对于出海品牌而言,他们在选择影响者时必须考虑许多指标:

  • 粉丝数量
  • 帖子收到的点赞和评论数量
  • 帖子的类型
  • 网红的背景
  • 网红使用的社交媒体平台
  • 网红的粉丝类型

而人工智能工具可以帮助品牌发现网红并在选择之前对其进行彻底研究,包括根据粉丝人口统计、兴趣、品牌亲和力等帮助识别相关影响者。它还可以检测假粉或假的互动数据,保护品牌免受欺诈性数据的侵害。

随着人工智能更有能力为品牌活动推荐最匹配的影响者,这种使用人工智能选择影响者的趋势将在未来变得更加主流。

2.与虚拟网红合作

随着名人和社交媒体影响者市场成本的不断增长,虚拟网红现在被视为具有成本效益的替代品,具有显着回报的潜力(如果想要知道虚拟网红为什么这么火,可以查看Inpander的另一篇文章《“假人”带货比真人强?虚拟网红的魅力在哪里?》)。

比如,像 Miquela 这样的虚拟影响者就比真正的影响者更加活跃。她积极与 Calvin Klein、Prada 和 Samsung 等品牌合作,甚至发行了自己的音乐并出现在杂志中。

未来,这些虚拟影响者的外观和交互性将变得更加普遍和真实。它们还将变得更加专业化和利基化,以满足特定社区的需求。

3.获取有关Hashtag的帮助

每个网红营销活动都使用相关的主题标签,这需要进行一些研究。

例如,除了品牌主题标签外,您可能还需要一些行业特定的Hashtag,而 ChatGPT 可以为您提供这些标签。它还可以提供相关的趋势标签列表,但要仔细检查它们以确保它们是合适的。

4.自动生成网红邀约文案

为了从网红营销活动中获得最大收益和降低成本,人工智能可以帮您解决自动文案模版以及与提高网红沟通的效率。

例如,您可以将其添加到时事通讯中或通过电子邮件将其作为网红沟通的信息模版。当您这样做时,可以要求ChatGPT为实时通讯或电子邮件写一段文案或者新闻。

不过,要注意的是,网红营销的吸引力在于它的真实性和独创性。因此,请不要在在网红的内容创意中使用机器生成的文案,这可能会削弱KOL的真实声音,变得千篇一律。

5.把控网红营销时间节点

在开展海外网红营销活动时,运营人员需要确定活动的开始和结束日期,查看指标和参与率,跟踪每个网红制作的内容,并将实际结果与初始目标进行比较。

使用AI工具,我们就可以将这些数据记录在案,并且利用AI强大的数据分析能力,改进活动方案,从而提升整个海外网红营销活动效果。

6.检查活动指标并评估ROI

由于每个营销活动包含的帖子数量众多,拥有多个营销活动的品牌可能会发现很难监控其营销活动的效果。此外,当品牌与多个网红合作时,跟踪每次合作的ROI变得很困难。

人工智能工具可以帮助品牌实时监控各个营销活动的表现。他们帮助社交媒体报道和分析。例如,Upfluence 可以帮助您实时衡量重要指标,例如覆盖范围、参与度、关注者增长、展示次数和转化率。

这些活动的监控将完全由人工智能监控,它不仅能够提供报告,还可以通过用更匹配的影响者替换特定的影响者来提供改善个别活动绩效的建议。

02

人工智能在网红营销中的局限

1.跨文化语境理解挑战

虽然ChatGPT在语言理解方面表现优秀,但在理解语境、情境、情感和社交线索方面与人类相比仍有差距,在处理跨文化、跨地区的语境时可能出现误解,导致生成内容无法满足目标受众的期望和习惯,从而影响用户体验。

2.创意与原创性受限

ChatGPT在创意生成过程中,可能因受训练数据影响而模仿现有创意或模式,导致生成内容缺乏新颖性。

3.数据安全隐患

ChatGPT在内容生成过程中,有可能无意中泄露相关敏感信息,引发隐私问题和法律风险。

4.过度依赖AI技术风险

营销人员若过分依赖ChatGPT等AI技术,可能导致忽视人类创造力和情感智慧等的重要性,从而影响营销活动的效果和可持续性。

毫无疑问,网红营销领域将迎来一场惊心动魄的旅程。这是一个不断发展的世界,新的策略和AI驱动的进展将塑造前方的道路。

但如果你的团队仍然觉得这对你们来说太过于繁琐,也可以聘请对本地文化、语言及发展趋势的专业人士或者营销机构来制作对应的网红营销推广策略和方案,比如说Inpander,我们提供丰富的红人资源渠道、定制化的解决方案以及从沟通、落地到数据复盘的全流程服务,如果您感兴趣,欢迎与我们联系~

钉钉的AI Agent魔盒

笃信AI的人,都在等一个AI的“App Store”时刻。

这是因为,苹果公司凭借App Store,塑造了移动互联网时代的软件生态。到了AI时代,AI信徒们就开始急切盼望出现一个属于AI的App Store,来定型未来的AI生态。

去年OpenAI用GPT点燃了AI Agent这把火以后,人们纷纷猜测,AI Agent会不会就是开启“App Store”时刻的关键?因为AI Agent让未来AI的形态,变得比以往任何时候更加清晰。

2024年1月9日,钉钉推出AI Agent落地实例“AI超级助理”,宣布将在今年4月份上线AI助理市场AI Agent Store,同时邀请开发者加入到钉钉的“AI Agent Store”生态中,并立下了“3年1000万个AI超级助理”的flag,致力成为AI Agent孵化、分发和交易平台。

发布会上,钉钉还用“7亿用户联合抵制”的来电海报,Callback了去年宣布用户突破6亿后,全网用户齐刷“6亿用户全抵制”的梗。

这个“3年1000万”是什么概念呢?

2008年苹果App Store携带500款应用上线,截至2022年4月29日,苹果商店(中国区)APP数量131万款。也就是说,别人14年达成的应用数量,钉钉想在3年内达成,并且翻8倍。

这个flag是不是立的太草率了?到底是什么原因让钉钉的野心如此膨胀?

先瘦身让用户不那么讨厌钉钉

钉钉自己很清楚,打工人不喜欢钉钉。

用过ToB软件的人都知道,这类软件有一个共同特点:功能繁杂、界面不美观、操作体验差,而且体积通常都很大,看起来就让人觉得臃肿、繁琐。

在1月9日发布会现场展示的一段视频中,一位up主给钉钉算了一笔账:在钉钉首页可以直接点击的按钮就有32个,算上浮层、子菜单等,光首页就包含了近100个功能按钮。

钉钉作为一个ToB应用,走向臃肿是一个不可逆的过程。

但和纯ToB应用不同的是,钉钉同时也是一款ToC应用。也就是说,无论是B端还是C端用户,钉钉全想要,同时也意味着,钉钉团队要挨两端用户的骂,尤其是小学生的骂。

B端用户来说,永远都有增加新功能的需求;对C端用户来说,永远觉得钉钉功能太多了。但两端用户都有一个共识:那就是大部分功能用不到,需要用到的功能则经常找不到。

从三年前做深价值进入业务场景开始,钉钉就一直在投入大量产品经理,试图通过产品设计,让钉钉变得简单易用。从实际效果来看,吐槽钉钉难用的声音并没有减弱,100多个功能按钮,依然没办法精简到10个。

直到AI Agent的出现。

站在具体使用者的角度,我并不需要在一大堆功能按钮里找出对应的那一个,只需要对着一个“超级助理”,说出自己的任务即可,至于怎么找到对应的功能,让AI去想办法。

在AI助理的功能演示中,用户可以像对待真人助理一样,对AI提出任务需求,比如设置铃声、打开邮箱写邮件、签到、预订酒店机票等,AI助理会主动把对应的功能推到用户手边。

叶军表示,随着AI Agent的不断完善,用户终有一天将获得一个没有菜单的钉钉。

站在用户角度来看,这不就是瘦身成功了吗?

但,钉钉要做的,远不止如此。

AI“更喜欢”臃肿

AI能够达到今天的成就,关键在于大模型、大数据。

也就是说,一个产品能覆盖的场景越丰富,AI Agent的辅助能力就越强,在面对差异化用户需求时的响应速度就越快,产品带给用户的“臃肿”感就越弱。

在AI的加持下,前台用户只会感知到和自己当前项目相关的功能,其它功能被AI隐藏了起来,使得用户不再迷失于100个功能按钮的海洋中。

例如,AI超级助理在辅助内容创业者获取灵感、补全素材时,创作者不需要从头开始去训练AI Agent进行剧本创作、分镜脚本、拍摄计划等,AI会根据自己已“掌握”的视频创作场景的需求,为用户提供对应的服务。

AI超级助理也可以将冗长的文字、语音、视频内容中的关键信息提取出来,浓缩成简短的要点总结。

那么AI是如何识别出哪些内容是要点,哪些内容是铺垫呢?

当然是依靠大数据和丰富的应用场景。而大数据又进一步加快了AI进化的速度,使其可以突破固有场景的限制,渗透到更多新场景中。

如今,AI超级助理不光可以服务职业人士,还可以应用到家长和孩子的教育中。发布会现场演示了给孩子批改作文的操作,可以看到AI既可以识别手写内容,还可以给出分析和指导,并对错字错词以及优秀佳句进行标注和解读,告诉孩子错字错在哪里、佳句好在哪里。

如果你愿意,甚至可以让AI成为你的生活助理。

如今,钉钉走到了第九个年头。也就是说,九年里积累的大量数据和应用场景,都成为了现在AI的养料。这样一来,“臃肿”反而不再是负担,而是具备了成为“数字资产”的潜力。

如果钉钉的AI Agent仅仅是做到了这样的程度,那它顶多是一个让C端用户更好用的优化版而已。实际上,钉钉的野心,是创造一个全新的生态系统。

“敲一敲”能敲开AI Agent Store的野心吗

一个很严肃的产品发布会,却以一个很不严肃的小应用作为开场。

解压小应用“敲一敲”,功能类似“线上功德APP”,敲一下会冒出一个梗词,同时还会给用户积分,可以用来兑换奖品。

实际上,这个小应用承担的使命,很像当年微信的“跳一跳”小游戏。目的是告诉大家,钉钉将在4月份正式上线AI Agent Store,欢迎开发者入驻并发布更多应用。

通过这个有点搞笑的小应用,钉钉向开发者传递了一个信息,那就是现在的AI Agent Store,门槛低、宽容度高,只要开发者有创意,就可以向钉钉提交应用。毕竟,能比“敲一敲”开发成本更低、更无厘头的应用,确实也不多见。

这就是钉钉下一步最大的野心:打造“AI助理+AI Agent Store”的完整链路,让每个人都成为AI助理的创建者,甚至都可以从中赚取分成。

在叶军看来,AI Agent会成为新SaaS的主要形态。

以前,不同的应用场景下需要打开不同的SaaS产品和APP,而AI Agent可以让企业通过调用多项AI能力,批量完成业务流程、组织管理、知识库管理等操作,并且可以和外部系统进行自动化交互。

而随着社会的发展,社会分工越来越细化,原本的大协同、巨型ERP,被打散成一个个小协同、小功能,当前的“人找功能”的逻辑,将会在AI Agent影响下,变成“功能找人”。人机交互也会从图形界面(GUI),向自然语言界面(LUI)转变,届时功能菜单也会被AI助理所替代。

这就意味着,当需求和场景越来越碎片化,就需要有足够多的AI助理来应对,进而需要更多的AI助理创建者。

在钉钉AI Agent Store的逻辑中,一个人既可以是AI助理的使用者,让AI助理为自己服务;也可以将AI助理发布到AI Agent Store上,为更多人服务。于是,用户被黏在AI Agent Store中,成为钉钉生态的一部分。

用叶军的话说,“过去大家总说钉钉服务老板,现在每个人都可以是老板了。”

如今,钉钉用户数7亿,企业用户2500万,付费DAU为2800万,软件付费企业数12万,AI魔法棒企业用户超过70万,低代码应用超1000万,全代码应用数超100万。

未来,钉钉要成为低门槛、高频和开放的AI智能助理平台。

AI浪潮席卷之下的竞争,正在变得越来越激烈。钉钉能否实现今天立下的flag,甚至能否因此而真正开启AI Agent的“App Store”时刻?

让我们拭目以待吧。

人工智能时代的领跑者:你必须了解的全球三大AI聊天机器人!

一些结论

  1. 2022年9月至2023年8月,前50大AI工具吸引了超过240亿次访问。
  2. 其中,ChatGPT140亿次访问量领先,占分析流量的60%以上。
  3. 过去一年,AI行业每月平均访问量达20亿次,过去六个月内激增至33亿次。
  4. 分析的50个AI工具体验了10.7倍的增长率,平均每月增加2.363亿次访问。
  5. ChatGPTCharacter AIGoogle Bard的净流量增长分别为18亿次、4.634亿次和6800万次。
  6. Craiyon、MidJourney和Quillbot在此期间面临最大的流量下降。
  7. 美国贡献了55亿次访问量,占总流量的22.62%;而欧洲国家共计贡献了39亿次访问。
  8. AI聊天机器人工具最受欢迎,占191亿次访问量。
  9. 超过63%的AI工具用户通过移动设备访问。
  10. 性别数据显示存在差异:男性用户占69.5%,而女性用户占30.5%。
No. 1 ChatGPT (总访问次数: 146亿次)

为什么是第一名?

ChatGPT自2022年11月30日推出以来,仅五天内就达到了100万用户,迅速成为历史上增长最快的消费软件应用之一。截至2024年1月,它已经吸引了超过1.8亿用户和1亿周活跃用户,超过92%的《财富》500强公司正在使用ChatGPT。ChatGPT基于大型语言模型(LLM),支持对话式交互,能够理解和生成与用户需求相关的回答。它的成功引发了其他产品的开发,如Google的Bard和Microsoft的Bing Chat(现已更名为Copilot)。

产品介绍

ChatGPT是由OpenAI开发的一款基于大型语言模型(LLM)的聊天机器人,于2022年11月30日发布。它基于GPT-3.5或GPT-4模型,这些模型属于OpenAI的生成预训练变换器(GPT)系列,采用了由Google开发的变换器架构。ChatGPT的设计目标是生成接近人类的文本,使得与用户的对话更加自然和流畅。由于其强大的自然语言处理能力,ChatGPT能够理解并回应广泛的语言输入,包括各种复杂或罕见的语言。它在互联网上的大量文本数据上接受了训练,使其能够回答各种复杂的问题,并提供相关的详细信息。此外,ChatGPT还具有一定的记忆能力,能够记住之前的对话内容,并在此基础上生成后续的回应。

ChatGPT不仅被广泛用于一般性对话,还被应用于特定行业和场景。例如,它可以用于客户服务,为用户提供快速准确的回答;在教育领域,它可以辅助教学和学习;在内容创作上,它可以帮助生成文章、诗歌或其他文本内容。此外,ChatGPT的应用也涉及编程助手、游戏设计、法律咨询等多个领域。

由于其强大的功能和广泛的应用场景,ChatGPT迅速吸引了大量用户的关注,并在短时间内成为最受欢迎的AI聊天机器人之一。

LLM模型

GPT-3.5和GPT-4。为了适应对话应用,ChatGPT经过了特定的微调,结合了监督学习和强化学习的方法来优化其性能。这使得ChatGPT不仅能够理解和回应用户的语言输入,还能够根据对话历史调整其回应,提供更为精准和相关的信息。

功能介绍

  1. 自然语言理解与生成:ChatGPT使用先进的自然语言处理技术,能够理解和生成自然、流畅的语言。这使得它能够有效地与用户进行对话,回答问题,甚至创作内容,如文章和诗歌。
  1. 上下文记忆:ChatGPT能够记住之前的对话内容,并在此基础上生成后续的回应。这种能力使得对话更加连贯和有意义,增强了用户体验。
  2. 多语言支持:虽然主要以英语为主,但ChatGPT也能够理解和回应多种语言,使其适用于全球不同语言的用户。
  3. 定制化和集成:ChatGPT提供了高度的定制化选项,使企业和开发者能够根据自己的需求调整其功能。此外,ChatGPT可以与不同的平台和应用程序集成,如网站、移动应用和社交媒体平台。
  4. 安全和隐私保护:ChatGPT使用先进的安全协议来保护敏感的用户信息,并通过审查API过滤查询,以防止产生冒犯性的结果,确保了内容的安全性和合适性。

是否免费

  1. 免费版:免费版本允许用户体验基于GPT-3.5的聊天机器人功能,适用于常规查询和对话。
  2. ChatGPT Plus:这是一种高级订阅服务,每月收费20美元。订阅后,用户将享受到包括但不限于对最新的GPT-4模型的访问权限(目前为40条/3小时)、更快的响应速度、以及在高峰时段的优先访问权。
  3. ChatGPT Team:2024年1月10日最新推出的针对团队用户和需要高级功能的用户,ChatGPT可能提供更定制化的服务,包括更高的GPT-4使用上限(经测试为100条/3小时),共享GPT等。具体详情请看下图。

插件

对于PLUS及以上的用户,支持插件和自定义GPTs。

客户端

支持网页端,iOS app及安卓app

No. 2 Character AI (总访问次数: 38亿次)

为什么是第二名?

Character AI是一个采用中性语言模型生成文本回应的人工智能聊天机器人网络应用程序,允许用户开发角色,并允许您与虚构人物、历史人物和名人进行对话。与其他AI聊天机器人(如ChatGPT)不同,Character AI的输出更像人类,并允许您同时与多个机器人聊天,提供不同的视角。Character AI由前谷歌AI开发者Noam Shazeer和Daniel De Freitas开发,于2022年9月发布了测试版。自发布以来,它已成为继ChatGPT之后最受欢迎的AI聊天机器人之一。

产品介绍

Character AI是一款由前谷歌AI开发者Noam Shazeer和Daniel De Freitas创造的人工智能聊天机器人应用程序。该平台使用中性语言模型,可以生成与人类对话类似的文本回应,它的独特之处在于允许用户创造自己的角色,并与这些虚构的、历史上的或名人角色进行互动对话。与其他AI聊天机器人相比,Character AI提供了更为生动的人类般的交流体验,并支持用户同时与多个机器人进行对话,从而获得不同的视角和体验。

Character AI的测试版于2022年9月发布,凭借其个性化的聊天体验和用户自定义角色的功能,迅速成为市场上最受欢迎的AI聊天机器人之一。用户不仅可以与现成的虚构或真实人物聊天,还可以创造并定制自己的虚构角色,从而开启独特的对话体验。这些角色可以基于书籍、电影角色,甚至是现实生活中的名人。

Character AI平台通过用户友好的系统,简化了角色的创建和个性化过程。用户可以为其角色指定名称、制定问候语,并上传头像图片,使角色在对话中易于识别并能被其他用户搜索到。此外,Character AI不断在训练过程中分析大量文本,以提升其预测句子中后续单词的能力,进而提供更加吸引人、类似人类的AI对话能力。

Character AI的用户可以通过一系列简化的步骤快速创建具有个性化名称、问候语、可见性和头像的角色。进阶定制选项还允许用户修改角色的个性、回应、语言、声音、外观和动画,为用户提供深度个性化的角色体验。此外,Character AI的动态聊天机器人网络应用程序也提供了与各种著名个性如Elon Musk和Pikachu等进行互动的独特功能。

Character AI平台不仅适用于娱乐和休闲,也为如排练公众演讲、学习新方言、提高谈判技能或参与沉浸式游戏体验等多种应用提供了解决方案。它还允许用户创造独特的AI人物,并与社区共享,从而在编写引人入胜的故事或提供与虚构人物的互动对话中发挥作用。这些AI角色在教育娱乐、客户支持和一般娱乐等多个领域被广泛使用,丰富了用户的互动和体验。

LLM模型

Character AI没有公开声明使用特定的大型语言模型(LLM)名称,它是由深度机器学习和大型语言模型驱动的,这些模型在对话能力方面进行了广泛的文本分析训练。根据其网站和公告,Character AI强调的是个性化和用户能够自定义角色,这意味着它们可能已经开发了自己的独特版本的语言模型以支持其平台。

功能介绍

  1. 角色自定义创建:用户可以设计和创建独特的AI角色,设定它们的个性、喜好、和不喜欢的事物,并选择它们的对话方式。这些角色可以基于真实人物、虚构人物,或完全是用户的原创。
  2. 与多个角色交互:Character AI提供了与多个AI角色同时交互的能力,这些角色可以是历史人物、虚构角色或名人,增加了对话的维度和趣味性。
  3. 个性化对话体验:平台上的每个角色都有独特的个性、行为和声音,用户可以与这些角色进行自然而流畅的对话,仿佛在与真人交流。
  4. 丰富的角色库:用户可以与一个多样化的角色名单进行互动,这些角色包括名人、虚构角色,甚至是著名的政治讽刺角色,提供了广泛的交流体验。
  5. 用户控制和隐私:Character AI重视用户的控制和隐私权,允许用户随时删除他们的角色和相关数据,确保了用户使用的自主性和数据的安全性。

是否免费

免费使用基础功能。Character AI+的订阅服务价格为每月9.99美元,其提供的特性可以总结如下:

  1. 优先访问 – 更短等待时间:Character AI+为订阅用户提供了优先访问的特权,意味着用户可以享受到更快的服务响应时间,不需要长时间等待即可与AI角色进行互动。
  2. 回应时间更短:订阅服务还包括了缩短AI回应用户问题的时间,提升了用户体验的流畅性。
  3. 拥有特权新功能:Character AI+用户还将享有特权新功能的访问权限,这可能包括一些尚未对所有用户开放的测试功能或新工具。
  4. c.ai+ 社区访问:订阅者将有机会访问一个专属的社区,这个社区可能提供了更多的互动和讨论机会。
  5. c.ai+ 全员文字符识读量:此项服务可能意味着订阅用户将获得更高的文本识别量,这可以在与AI角色进行更长的对话时非常有用。

No. 3 Google Bard (总访问次数: 2.42亿次)

为什么是第三名?

Google Bard作为谷歌推出的人工智能聊天机器人,尽管是一个新进入者,但凭借谷歌的技术实力和资源,迅速在AI领域占据了一席之地。与OpenAI的ChatGPT相比,Bard在信息检索和回应生成上提供了与谷歌生态系统的紧密集成,使其在提供帮助和实用信息方面具有独特优势。

产品介绍

Google Bard是谷歌推出的一款AI聊天机器人,以其最新的语言模型Gemini Pro为基础。Bard提供了一系列的对话式AI功能,可以帮助用户完成广泛的任务,从日程安排到获取实时数据,再到自动化客户支持。它通过无缝集成跨多个平台,并提供个性化的通信服务,使Bard成为无缝互动的虚拟助手。不仅如此,Bard还能够根据用户的提示生成新的内容,特别是在文本回应方面,能够以自然和对话的方式作出回应。

Bard背后的LLM模型训练于海量的文本和代码数据集,具备生成内容的功能,尤其是在应对用户提示时的文本回应。其多功能性使其能够回答问题、提供摘要以及通过处理网络上的信息来协助研究,并为进一步的探索提供相关链接。

与ChatGPT相似,Bard也通过不断的改进和优化,提供了基于对话的高级语言模型。然而,与其他AI系统不同,Bard可以访问互联网,以便在生成回应时包含相关的当前数据。这一功能使得Bard在提供帮助和实用信息方面具有独特优势。

LLM模型

Google Bard于2023年12月经历了一次重大升级,引入了谷歌的最新大型语言模型Gemini Pro。这个模型提升了Bard的功能,使其在多个行业标准基准测试中的表现超越了之前的模型和其他竞争对手的聊天机器人,包括在某些测试中超越了OpenAI的GPT-3.5模型。Gemini Pro是专为在不同任务上具有可伸缩性而设计,而Gemini Ultra则旨在处理最复杂的输入。

Bard搭载Gemini Pro能提供更高级的推理、规划和理解能力。在测试中,用户在盲测评价中更青睐于使用Bard搭载Gemini Pro,而不是其他免费的聊天机器人选项。谷歌也在开发一个名为Bard Advanced的新版本,它将使用Gemini Ultra,这是一个神经网络,被描述为谷歌构建的最先进的AI系统。Bard Advanced预计将能够理解和处理包括文本、图像、音频、视频和代码在内的各种类型的信息。

功能介绍

  1. 实时信息更新:Bard可以访问互联网,提供基于最新数据的回应,如股票价格或最新新闻头条。
  2. 人性化对话:通过自然语言处理,Bard能够理解上下文,适应不同的对话风格,并以对话方式回应,使得与其的交流更自然和直观。
  3. 集成谷歌应用和服务:Bard现在可以与谷歌应用和服务集成,以便在回应中提供更有用的信息。
  4. 跨平台体验:Bard可以在不同的平台和设备上使用,包括安卓和iOS设备。
  5. 隐私和控制:谷歌为用户提供了对Bard活动历史的完全控制,包括删除或自动删除活动记录的选项。

是否免费

目前免费使用。

插件

支持谷歌相关的应用插件。

客户端

支持网页端。

Gartner发布2024年十大战略技术趋势!共同主题是AI

Gartner发布2024年企业机构需要探索的十大战略技术趋势。Gartner研究副总裁Bart Willemsen表示:“由于技术变革以及社会经济方面的不确定性,我们必须大胆采取行动并从战略上提高弹性,而不是采取临时措施。IT领导者的地位特殊,他们可以制定通过技术投资帮助企业在这些不确定性和压力下保持成功的战略规划。”

Gartner杰出研究副总裁兼研究团队负责人Chris Howard表示:“IT领导者和其他高管必须评估战略技术趋势的影响与益处,但由于技术创新的速度日益加快,这并非易事。例如生成式AI和其他类型的AI虽然带来了新的机遇并推动了若干趋势的发展,但要想通过长期使用AI获得业务价值,还需要采取严谨的方法广泛采用AI并注意风险。”

2024年重要战略趋势包括:

全民化的生成式AI(Democratized Generative AI)

经过大规模预训练的模型、云计算与开源的融合正在推动生成式人工智能(生成式AI)的全民化,使这些模型能够被全球工作者所用。到 2026 年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%

生成式AI应用可以让企业用户访问并使用大量内部和外部信息源,这意味着生成式AI的快速采用将极大地促进企业知识和技能的全民化。大型语言模型使企业能够通过丰富的语义理解,以对话的形式将员工与知识相连接。

AI信任、风险和安全管理(AI Trust, Risk and Security Management)

AI的全民化使得对AI信任、风险和安全管理(TRiSM)的需求变得更加迫切和明确。在没有护栏的情况下,AI模型可能会迅速产生脱离控制的多重负面效应,抵消AI所带来的一切正面绩效和社会收益。AI TRiSM提供用于模型运维(ModelOps)、主动数据保护、AI特定安全、模型监控(包括对数据漂移、模型漂移和/或意外结果的监控)以及第三方模型和应用输入与输出风险控制的工具。

Gartner预测,到2026年,采用AI TRiSM控制措施的企业将通过筛除多达80%的错误和非法信息来提高决策的准确性。

AI增强开发(AI-Augmented Development)

AI增强开发指使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试。AI辅助软件工程提高了开发人员的生产力,使开发团队能够满足业务运营对软件日益增长的需求。这些融入了AI的开发工具能够减少软件工程师编写代码的时间,使他们有更多的时间开展更具战略意义的活动,比如设计和组合具有吸引力的业务应用等。

智能应用(Intelligent Applications)

Gartner将智能应用中的“智能”定义为自主做出适当响应的习得性适应能力。在许多用例中,这种智能被用于更好地增强工作或提高工作的自动化程度。作为一种基础能力,应用中的智能包含各种基于AI的服务,如机器学习、向量存储和连接数据等。因此,智能应用能够提供不断适应用户的体验。

目前已存在对智能应用的明确需求。在2023年Gartner首席执行官(CEO)和业务高管调查中,26%的CEO认为对企业机构破坏力最大的风险是人才短缺。吸引和留住人才是CEO在人力资源方面的首要任务,而AI被认为是未来三年对他们所在行业影响最大的技术。

增强型互联员工队伍(Augmented-Connected Workforce)

增强型互联员工队伍(ACWF)是一种优化员工价值的战略。加速并扩大人才规模的需求推动了ACWF的发展趋势。ACWF使用智能应用和员工队伍分析提供助力员工队伍体验、福祉和自身技能发展的日常环境与指导。同时,ACWF还能为关键的利益相关方带来业务成果和积极影响。

到 2027年底,25%的首席信息官(CIO)将使用增强型互联员工队伍计划将关键岗位的胜任时间缩短50%。

持续威胁暴露管理(Continuous Threat Exposure Management)

持续威胁暴露管理(CTEM)是一种使企业机构能够持续而统一地评估企业数字与物理资产可访问性、暴露情况和可利用性的务实系统性方法。根据威胁载体或业务项目(而非基础设施组件)调整CTEM评估和修复范围不仅能发现漏洞,还能发现无法修补的威胁。

Gartner 预测,到2026年,根据 CTEM 计划确定安全投资优先级别的企业机构将减少三分之二的漏洞。

机器客户(Machine Customers)

机器客户(也被称为“客户机器人”)是一种可以自主协商并购买商品和服务以换取报酬的非人类经济行为体。到2028年,将有150亿台联网产品具备成为客户的潜力,这一数字还将在之后的几年增加数十亿。到2030年,该增长趋势将带来数万亿美元的收入,其重要性最终将超过数字商务的出现。在战略上应考虑为这些算法和设备提供便利乃至创造新型客户机器人的机会等。

可持续技术(Sustainable Technology)

可持续技术是一个数字解决方案框架,其用途是实现能够支持长期生态平衡与人权的环境、社会和治理(ESG)成果。AI、加密货币、物联网、云计算等技术的使用正在引发人们对相关能源消耗与环境影响的关注。因此,提高使用IT时的效率循环性可持续性变得更加重要。事实上,Gartner 预测,到 2027 年,25% CIO的个人薪酬将与他们对可持续技术的影响挂钩。

平台工程(Platform Engineering)

平台工程是构建和运营自助式内部开发平台的一门学科。每个平台都是一个由专门的产品团队创建和维护并通过与工具和流程对接来支持用户需求的层。平台工程的目标是优化生产力用户体验加快业务价值的实现。

行业云平台(Industry Cloud Platforms)

Gartner 预测,到2027年,将有超过70%的企业使用行业云平台(ICP)加速其业务计划,而2023年的这一比例还不到15%。ICP通过可组合功能将底层 SaaS、PaaS 和 IaaS 服务整合成全套产品,推动与行业相关的业务成果。这些功能通常包括行业数据编织、打包业务功能库、组合工具和其他平台创新功能。ICP是专为特定行业量身定制的云方案,可进一步满足企业机构的需求。

一文盘点2023年度最热AI应用,打工人必备!建议收藏(内附工具汇总文档)

2023年,是AI行业的一个分水岭。
这一年,我们见证了AI技术的跃进式发展。
从深度学习到自然语言处理,从图像生成到视频生成,从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星,不仅重塑了人们的生活方式,也重新定义了未来的商业图景。
正如约翰·卡尔金所说:“我们塑造我们的工具,然后我们的工具塑造我们。” 

通过梳理和盘点过去一年AI领域颇受关注的热门工具,希望能帮助各位更好地回顾AI技术的突破与最新进展,预见它们将如何继续影响我们的世界。
我们参考估值、影响力、用户评价等维度,选取了几大常见领域一些具有代表性的AI产品,梳理了其迭代历程、最新性能等,每个类别都有其独特的技术特点和应用场景。

一、海外版

二、 国内

如何使用AI来优化组织结构?

人工智能(AI)正引领着组织变革,它提供了崭新的机会,重新定义未来工作和劳动力,而不仅仅是优化过去所做的一切。

这需要我们以全新的方式思考组织如何处理战略、领导力、人才、文化、组织设计等,也就是组织健康的所有要素。

亚马逊、谷歌和脸书是 AI 优先的例子,它们快速地实现了规模化,并成功管理了快节奏的增长。它们减少了对“硬资产”( 如机器或设施 ) 的依赖转而专注于组织健康的关键无形资产,并利用 AI充分发挥其潜在的影响力随着过去几年 AI的迅速普及,这些公司已经为适应 AI 世界重塑了他们的人才和组织实践。

例如,将 AI学习算法应用于匹配潜在员工与空缺职位,使招聘人员能够更快地筛选申请并填补职位空缺。

2017 年3 月,字母表公司和谷歌的 CEO 孙达尔·皮柴( Sundar Pichai宣布公司正在转变为 AI优先的组织。随后,该公司发布了一系列 AI 应用的场景,包括开发用于优化机器学习的专用芯片、更广泛地使用基于人工神经网络的机器学习方法( 深度学习 ),例如癌症研究,还包括在尽可能多的设备上安装谷歌的 AI驱动助手。皮柴表示公司正在从“搜索和组织世界信息转向 AI和机器学习”。该宣告是公司愿景的战略性转变。同月,微软也宣布其打算从“移动优先”和“云优先”转变为“AI 优先”。

未来我们将见证机器在多项任务上,以更具成本效益的方式超越人类。使用 AI 来优化组织结构是一种新兴的方法,它可以帮助企业更好地适应市场变化、提高运营效率、促进员工发展,并提升企业的整体竞争力。

盛宝银行案例——基于 AI的信息检索、预测分析及个性化营销

2016年,时任瑞士盛宝银行( Saxo Bank )CEO的帕特里克·亨格( PatrickHunger)领导该银行进行了技术改革。盛宝银行不仅着手采用机器人流程自动化( Robotic Process Automation,RPA )来提高效率,解放人类去创造更大的附加值,还开发了各类 AI和机器学习项目来创造新的价值。这项工作主要聚焦三个关键领域:基于 AI的信息检索、预测分析及个性化营销。总体来说,该银行将这些举措称为“机器人技术”。

但亨格也意识到,银行数字化计划的成功将取决于一些关键原则——

1、自上而下

领导者需要精通机器人技术,这样他们才能创造令人信服的机器人技术愿景和引领这趟旅程,并阐明其对企业战略的重要性。换句话说,领导者必须授权机器人技术引领者,让他们成为日常工作中的变革推动者。

2、打破组织壁垒

许多公司在自己的业务和IT 团队之间制造了文化鸿沟。但是,机器人技术要求这些团队尽可能紧密地合作,以确保它们跟上并加快业务发展的步伐。正如亨格所认为的那样,“公司的组织设计得多聪明并不那么重要。创造组织思维共识和价值的是人际交易;所有这些都以一个扎根于文化的集体商业目标为指导。”盛宝银行当时的数据主管帕布·文卡特斯 ( Prabhu Venkatesh ) 进一步强调了这一点,并解释说:

“我们有一个双向协作模型,技术和业务团队可以自由交流想法和信息。技术团队知道什么是可能实现的,而业务团队知道什么是有用的——神奇的产品就诞生在这个交叉点上。”IT 团队和业务团队作为公司的两个平等团队,要确保持续的对话和明确的协调,这是为打破部门孤岛所做出的至关重要的努力,因而机器学习和 AI 开发团队被设计为业务组织的一个组成部分,以弥合鸿沟。盛宝银行大数据和 AI 主管克里斯蒂安·巴斯克·黑达尔 ( Christian Busk Hededal) 解释说:“我们的目标是成为一个数据驱动的组织,让技术和业务之间紧密结合。”

3、将数据展示给广泛的利益相关方

帕布·文卡特斯指出,机器人技术的一个重要能力就是将数据和关键绩效指标展示给更广泛的利益相关方群体。换句话说,即在帮助每一位员工在决策中变得更加以数据为导向的同时,牢记大局。

这不仅仅是一组宣言,更是实践的原则。听起来似乎无关紧要,但公开透明地展示执行数据会在不同团队之间制造共识,让每个人了解公司正在发生的事情,以及大家的工作会如何影响公司的业绩。

在无形中产生的积极影响是创造了一种结果导向的文化,在这种文化中,人们会主动对可见的问题采取行动,而不是依赖流程去解决问题。建立机器人技术变革引擎。通过建立强大的治理体系,盛宝银行的领导者可以根据预期的商业价值更有效地推动机器人解决方案的落地,并不断研究使企业从机器人技术中受益的新方法。这需要挑战现状,克服因机器人技术而变得过时的组织和流程障碍。最后,盛宝银行需要为运营经理提供实用的方法和工具,以便日常管理由人和机器组成的混合劳动力。盛宝银行制订了一项计划,来缓解管理人员和员工在应对任何变化时所产生的焦虑情绪: 在早期就与人力资源部门密切合作,就人力资源的重新部署提供建议。

4、确保人机融合

领导者的角色是有意识地将组织设计为一个通过包容而不是隔离来充分发挥潜力的有机体。对盛宝银行来说,人机协作意义重大,它不仅仅是当下流行的说辞,更是一套逻辑体系。在该体系之下,创新和业绩在人机生态系统中最能蓬勃发展。帕特里克·亨格指出:“当我们说我们本质上是一家科技公司时,我们的意思是科技是将人类技能付诸实践的主要工具。科技增强了我们的组织能力,让其不再受限于企业规模。”虽然有些人将数字化手段 ( 尤其是 AI) 视为机器与人类之间的矛盾“,但其他人则认为科技以前所未有的方式帮助我们展现了人性。这是一种提升组织健康的工具。这种以智能运营模型为核心的组织,将成为公司内提升个人和团队绩效的中流砥柱,使人机协作的新方法得以生根发芽。因此,组织进化的最大机会不仅仅是重新设计工作或部署自动化工具,还有从根本上重新思考“智能运营模型的架构”,为企业团队和个人创造新的价值来源。

此外,在疫情期间,随着数字化客户体验建设的深入,盛宝银行基于 AI工具的全部价值变得更加清晰,在释放人类潜力方面尤为明显。由于消费者待在家里,或至少远离实体银行分支机构,该银行基于 AI的工具帮助员工以他们意想不到的方式预测和满足快速变化的客户需求和偏好。最终,该银行的员工变得善于学习、不断努力,这也意味着银行能够以更快、更敏捷和更准确的方式做出响应。它可以全年、全天候地不断学习、扩张和运营。

 AI 优先的真正含义是什么? 

AI 优先不仅是利用分析( 或决策 )的力量来加强人机协作,它更是基于 AI重塑未来组织,防止 AI 只被用作优化组织的工具。换句话说,这不仅是为了更好、更便宜或更快地做同样的事情,也是为了开展新的活动,创造更多价值。

当前全球的数字经济( 有时被称为“互联网经济”)比历史上其他任何时期都更需要组织的一致性、敏捷性和智能化。组织需要将 AI嵌入组织运作的各个方面,使其成为组织 DNA 的一部分,以便有效释放公司的全部潜力。在早些年或不那么动荡的商业环境中,CEO 或高层管理团队可能单独负责开发组织的全部潜力。然而,如今,组织的基本要素必须协调一致,作为一个整体同步行动。

一项研究显示,众多不同的组织认为,在采用 AI 的主要障碍中,近一半与组织健康相关(见图 9-1 )。该研究发表在《麻省理工学院斯隆管理评论》上,将受访者分成四个类型:先驱者(了解并采用 AI 的组织)、调查者(了解 AI 但未完成试点的组织)、实验者(在没有深入了解技术的情况下,试验 AI 的组织)和被动者(不了解也没有采用 AI 的组织)。

公司如何能清除障碍并成功挖掘 AI的价值? 

根据麻省理工学院的研究成果,我认为可以总结为对组织健康的四个特定要素的高度聚焦。具体来说,成功采用 AI和其他数字技术的公司在以下四个维度表现出色,我把它们看作四项投资。

1、对战略和决策的投资

麦肯锡的一项研究表明,大多数受访者表示他们的公司已经从 AI 中获得了价值,与其他公司相比,规模更大、收入更高、成本更低。这并非运气使然,公司制定业务战略、实施战略的能力和在应用 AI过程中的变革管理,共同影响了变革实现的程度。那些在普及 AI 方面取得更大成功的公司更有可能有一组关键动作,包括协调AI和业务战略,而每六种关键动作中有五种与组织健康相关。更倾向于有效使用 AI 的公司更容易在全公司普及 AI、实现商业价值。在另一项研究中,来自高绩效公司的 36% 的受访者表示,他们的一线员工会使用AI提供的实时反馈来做日常决策,而其他公司中只有 8% 的受访者会这样做。

2、对组织和工作设计的投资

麦肯锡的研究发现,近 90% 成功普及 AI的公司将超过一半的分析预算用于推动对 AI 的采用,例如工作流程重新设计、沟通和培训;其他公司中只有 23% 倾注了类似的资源。1 在普及 AI方面做得最好的公司在变革和推动采用 AI的项目 ( 工作流程重新设计、沟通、培训 ) 上花费的资金或预算与它们在技术本身上花费的一样多。

3、对人才的投资

麦肯锡的研究发现,成功在组织内部采用 AI的公司在人才和流程方面的投资与在技术方面的一样多。一项对 1 000 家公司的调查发现,只有 8%的受访公司参与了此类实践,使得 AI的普及得以实现。13 无数研究呼应了这些发现。《 麻省理工学院斯隆管理评论》和德勤数字 (Deloitte Digital) 在《科技谬论: 人如何成为数字化转型的真正关键 》( The Technology Fallacy: How People Are the Real Key toDigital Transformation) 一书中发表的联合研究提供了令人信服的证据表明数字成熟度更多地与人和组织变革有关,而不是与其所使用的特定技术有关。

4、对风险缓解和认知提升的投资

公司处理风险的方式( 即质量保证审计或合规培训 ) 在很大程度上决定了权责。同样,组织学习的方式 ( 通过使用知识和协作平台 ) 通常定义了公司文化。采用 AI确实存在很大的风险,因为 AI 通常以大量数据 ( 例如搜索习惯或视频通话记录小时数为基础,滥用这些数据是非法的。因此,没有任何公司愿意冒险在未经允许、未向员工全面说明数据用途的情况下,收集和使用数据。根据欧盟通用数据保护条例 ( General Data Protection Regulation,GDPR),在违反条例的情况下,罚款最高可达 2 000 万欧元,或公司主体在全球营业额的 4%。违规或滥用的潜在司法成本可能超过成交价格,如果发现问题,公司估值将会降低,因为应对 GDPR 监管的成本很高。因此,交易团队必须仔细审查采用 AI 技术是否合规或是否存在重大责任风险。同样,CEO 和董事会必须建立治理和监督机构,以确保公司负责任地采用AI。

总之,人工智能(AI)正引领着组织变革时刻已经到来,生成式AI和大模型所展现出来的强大能力,正在改变游戏规则和加速颠覆旧有模式。

面向未来,AI 依然面临着种种挑战,值得大模型公司、数据分析企业和用户们持续去探索。

1400元巴掌大小AI硬件,首日卖光1万台!吕骋归来:要干翻所有App

 原创 关注前沿科技 量子位

不出所料,果然有AI硬件炸场CES 2024

这款AI掌机名叫Rabbit R1,誓要干掉App应用(There is no need for an app for that)。

预售价199美元(约1425元),具体长相嘛,就像下面这样:

据了解,Rabbit宣布R1在3月才会开始发货,然而消息传出,不到24小时,这家伙就火速卖出了10000台

无论是售价、首批火爆程度,还是使用便捷度(无需订阅),R1看起来都比前段时间刷屏的另一款AI硬件——AI Pin有那么一点优势。

也难怪Rabbit公司的创始人兼CEO Jesse Lyu公开表示,自家产品或许有希望能在市场上击败AI Pin(手动狗头)。

网友们也纷纷表示对二款AI硬件的个人看法,好不热闹:

不过据了解,虽然R1具备视频通话和SIM卡插槽等功能,但“R1并非想要取代智能手机”。

更令人瞩目的地方在于,R1内置了一个Rabbit公司开发的“全新的基于AI的系统”,RabbitOS

对此,这家公司表示:

希望R1成为用户与智能手机(无论是iPhone还是其他设备)之间的中介。
希望利用AI来改变用户与应用程序的交互方式。

还有一个特别的点在于,这家公司背后的创始人,是华人Jesse Lyu,也就是前渡鸦公司创始人。

实不相瞒,好奇心已经被勾起来了,这AI掌机到底有啥不一样?

一起来看——

Rabbit R1有些啥亮点?

当今时代,颜值先行,来展开看看Rabbit R1的外观

R1通体亮橙色,其重量约为115克,正面有一块2.88英寸的触摸显示屏。

屏幕右侧上方,是一颗能够360° 旋转的AI摄像头。

摄像头下面是操作滚轮,侧边对应着圆形按键。滚轮用来选择、导览,而按键则是一键唤醒语音助手的快捷键。

据介绍,R1还配备了麦克风、扬声器,可以说是麻雀虽小五脏俱全。

了解了其外观,再看看内置,包括2.3GHz MediaTek处理器、4GB内存和128GB存储空间,并且支持蓝牙和 Wi-Fi。

官方宣称,R1电池续航时间为“全天”

最重点的来了!——R1搭载的是你从未见过的全新操作系统,Rabbit OS

Rabbit OS采用底层AI技术,但用上的不是类ChatGPT的大语言模型技术,而是基于“大型动作模型(Large Action Model,LAM)”打造。

大型动作模型脱胎于大语言模型,但更强调“行为”。实际展示来看,大型动作模型和大语言模型能实现的功能看起来相差不多,用户也能通过大型动作模型用自然语言和R1进行对话。

在听到人类自然语言发出的指令后,Rabbit OS能理解人的复杂意图,然后帮人操作App完成任务。

而且,用嘴巴问就行了,不用费劲选择具体该使用什么App。

比如按下侧边按键,500毫秒就能唤醒对话系统,“问任何想问的问题”,然后得到语音回答,并且是配备字幕的那种:

现场还通过查询可口可乐公司的股价,演示了R1带有的联网功能:

用它拍下冰箱里的食材,让它提供一份低卡食谱。

R1沉思一会儿说:“不如来份绿色田园蛋包饭。”

官方介绍,R1兼容现有的所有应用程序,用户无需抛弃已有的任何数据。

听到这里,想必你也能理解为什么R1的愿景是要颠覆App了。

这不就是想要用AI操作系统,替代现在用户和手机App的手动触控交互嘛!

不过Rabbit公司创始人兼CEO说了,R1并不期待代替智能手机,从他的发言里可以看到R1目前的定位:

是一款漂亮的配件,同时也是未来的一体化设备

Rabbit及其创始人Jesse Lyu

其实产品亮相之前,Rabbit就在科技圈和创投圈小有名气。

原因有三,即投融资情况、技术展示和创始人背景

第一,去年年底,这家公司在2个月内公布自己获得了3笔融资。

投资方包括“全球技术领域”投资之王”科斯拉(Vinod Khosla,也是OpenAI首位风险投资人),以及韩国互联网巨头Kakao。

3轮融资总额为3000万美元。

第二,同样在去年,Rabbit曾经发布过一个叫Quantum Engine的玩意儿。

利用Quantum Engine,用户可以上传剧本,然后AI会实时生成剧情,让用户选择角色与NPC进行自由互动——而语音是用户和AI实时互动的具体方式。

网友们用它扮演《黑客帝国》和《甄嬛传》里的角色,效果很好,迅速出圈。

第三点,Rabbit背后的创始人Jesse Lyu吕骋,是位AI领域的华人连续创业者。

吕骋,毕业于西交利物浦大学和英国利物浦大学,学习的专业是金融数学。

大三时,他就创立了社交工具Timeet,旨在通过匹配日程找到共同空余时间,从而发起和组织活动。

2014年,吕骋大学毕业,创立了渡鸦科技

主要产品有可以使用语音来访问移动应用程序的软件Flow、与AI相结合的交互系统Project Flow,用Flow中“听音乐”模块制作的音乐播放器乐流MusicFlow,以及渡鸦音箱、Raven H-1等硬件。

2017年2月,百度宣布全资收购渡鸦,吕骋携团队被收入百度麾下,自己出任百度智能家居硬件总经理。

一年多后,2018年6月,吕骋从百度离职。

离开百度后的吕骋来到美国,再次创业,成立了以AI为中心的公司Cyber Manufacture Co.,也就是今天Rabbit的前身。

One More Thing

无独有偶,同一天,另一家做AI硬件的公司跳出来了,并且是开源版

苹果前AR原型机设计师Bart Trzynadlowski在推特上激情发声,大喊“不要别人来把你的生活产品化!”

该公司启动了一个完全开源的项目,提供开源模型价格亲民的可穿戴硬件,开发者可以用这两样东西做出属于自己的AI硬件。

并且可以是任何外型,比如项链、别针等等,还能和Apple Watch等其他硬件适配。

据悉,关于这个开源版AI硬件的更多消息,包括GitHub仓库,都会在下周释放出来~

让每个企业都能用上AI !


1亿用户,TikTok用了9个月,Instagram则用了两年半。

快速的用户增长与ChatGPT所展现出优秀的文本生成、语言问答、语言翻译、编程、绘画等能力息息相关。

曾经颇具科幻感的人工智能,在大模型的支撑下,正一步步成为现实。

在ChatGPT之后,百度、阿里、华为、腾讯、字节跳动、科大讯飞、商汤、中科院、清华、复旦等大厂或高校院所纷纷入局发布大模型。截止2023年10月,我国拥有10亿参数规模以上大模型的厂商及高校院所共计254家,分布于20余个省市/地区[1]

在各方刺激下,大模型市场持续火热,企业对于大模型应用的关注水涨船高,AI领域独特的商业模式MaaS也渐渐成为企业关注的重点。

01 点亮大模型

MaaS是继IaaS、SaaS、PaaS之后,又一个基于云计算的商业模式。

顾名思义,MaaS(Model as a Service模型即服务)是一种将AI大模型作为可服务化的产品提供给用户使用的商业模式。其业务核心是“模型-单点工具-应用场景”,即提供预先训练好的大模型,通过简单的接口、应用程序编程接口(API)或软件开发工具包(SDKs)让用户能够方便地访问大模型的功能。它不对用户设限,用户无需关注底层基础设施,也不需要深入的人工智能知识,不管是AI开发者还是普通人,都能依靠MaaS快速点亮大模型的“科技树”。

MaaS的出现解决了大模型研发与落地的难题。

在传统机器学习模型的开发中,模型的研发和落地往往是两个分离的过程。

在研发阶段,通常会需要大量的数据和计算资源来训练模型、调整模型参数等。在这期间,消耗的金钱难以预估,加上时间和人力的成本,令人望而却步。更别提在大模型出现之后,“大数据+大算力+强算法”的优势带来了对算力、数据、人才的更高要求。据悉,仅研发阶段,训练大模型的基础设施投入都是以“亿美元”为单位计算。

但纵使突破各种困难训练出大模型,也不意味着能够顺利将其部署到实际应用场景中——除了要面对运维、资源管理、服务配置等硬件难题外,还需要面对由于缺乏相关专业知识和数据使大模型无法完全发挥潜力的问题。

而MaaS模式的出现令这些问题迎刃而解,并将大模型应用和推广提上了日程。

一方面,用户可以直接调用大模型,不必关注大模型的成本问题,只需上传自身应用场景下的数据进行微调,就能让大模型为业务赋能;另一方面,大模型可以吸纳更多领域的专业知识和实时数据,从而提升预测和决策的准确性,不断进行迭代和优化,以便落实到更细分的场景中去,解决实际场景下的问题。

MaaS降低了大模型的使用门槛,对于用户和大模型企业来说,可谓是“双赢”的选择。

目前,MaaS的服务主要包括以下几个方面:

  • 模型训练服务:这是MaaS最核心的服务,包括数据预处理、模型训练、调参等环节。MaaS可以提供一个可视化的界面来帮助用户上传数据、选择算法和超参数、运行实验等。
  • 模型部署服务:MaaS提供了一系列的API接口,使得用户可以方便地与模型进行交互,并将训练好的模型部署到生产环境中。
  • 模型管理:MaaS可以跟踪模型的响应时间、错误率、资源使用情况等指标,并向用户发送报警通知。同时,也提供了一些分析工具,如可视化的数据报表,以帮助用户更好地理解模型的性能。

02 MaaS的初心
其实,在人工智能领域,服务化的概念一直存在。在大模型声名鹊起之前,“MaaS”的“M”代表Machine Learning(机器学习)。
2017年,谷歌推出了Google Cloud Machine Learning Engine,帮助具有机器学习专业知识的开发人员轻松构建适用于任何类型、任何规模数据的机器学习模型。亚马逊发布的全面机器学习平台服务Amazon SageMaker,提供了端到端的机器学习工作流程,包括数据准备、模型构建、训练部署和管理等功能。除此之外,IBM Waston Machine Learning、微软Azure Machine Learning也是有名的“MaaS”服务平台。
让每个企业都用上AI,成为MaaS模式的初心。
随着人工智能领域的快速发展,大模型(Model)作为机器学习技术的前沿,代替了机器学习(Machine Learning),成为“M”新的含义,但其初心从未动摇。
工具只有落到实处才能体现其价值,大模型亦是如此。

03入局者众
随着大模型的火热,有关MaaS的竞争才刚刚开始。目前,入局MaaS领域的厂商都颇具分量。
例如,商汤推出的SenseCore商汤AI大装置由模型层、深度学习平台和计算基础设施三个部分架构而成,其中,深度学习平台是集大规模AI算力管理、专业的AI工具链、开放式AI算法与一体的工业级AI生产开放平台,帮助用户实现从数据标注,算法设计,到模型训练、部署的全链路、批量化过程。依托人工智能基础设施算力云服务提供云原生AI基础设施、AI开发平台、AI专家服务三位一体的解决方案。有效加速人工智能规模化落地,降低算法模型的生产成本和技术门槛。


商汤SenseCore云服务方案架构
阿里云通义大模型家族已推出“通义千问”、“通义听悟”和“通义万相”三个大模型,打通了语言、音视频生产和绘画创作三大重要场景,并将旗下产品如钉钉等全面接入,完成了大模型在应用端的落地。2022年,阿里云同时建立了ModelScope社区(魔搭社区),汇集开源开放的优质预训练模型,并提供了API调用模型,极大地方便了用户的使用。同时,基于此阿里云推出了大模型调用工具ModelScopeGPT(魔搭GPT),用户可以一键发送指令调用魔搭社区中其他的人工智能模型,从而实现大小模型的共同协作。此举能进一步促进AI大模型在各行各业的落地问题。
腾讯云推出了基于TI平台的行业大模型精调解决方案,该解决方案具备完整大模型精调工具链,支持用户加入自己独有的业务场景数据,进行精调训练,从而定制不同参数、不同规格的专属模型。目前,腾讯云已经推出了十余个行业超50个行业大模型应用解决方案,如金融、文旅、政务、传媒等,对企业智能化升级更具推动作用。


腾讯云MaaS
百度智能云发布了千帆大模型平台,并在后续升级中宣布全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT等国内外33个大模型,满足不同的用户在不同应用场景上的选择。目前,用户可以直接登录千帆大模型平台操作台,直接调用、部署相关服务,也可以搭配使用不同的大模型,实现大模型的落地。
如今,MaaS已经成为人工智能领域备受瞩目的发展方向之一,依靠MaaS大模型的触角将延伸到更远更细节的地方。
进入2024年,大模型市场正褪去狂热转向冷静。这意味着,受市场风潮裹挟的日子已经过去,一众入局者将利用MaaS更加理性地推动符合实际情况、可持续发展的大模型应用,以实现更大的商业价值。

4.正在路上的MaaS
数据显示,2023年MaaS的市场规模将达到261.5亿元,占中国云服务市场的10.3%[2],在“每个企业都能用上AI”的美好愿景支持下,MaaS具有极大的商业发展前景。
不过,在热潮之下,MaaS仍有很长的一段路要走。
首当其冲的是数据隐私和安全性的问题。作为新时代的生产要素之一,数据的重要程度不言而喻,而在大模型的微调和训练中会涉及大量的数据传输和处理。保障数据隐私、传输安全,以及合规地使用数据和存储将是MaaS需要持续关注的重点。此外,跨境数据传输、知识产权保护等问题也应被纳入考虑范围。
其次,MaaS平台中的各类大模型是其发展壮大的核心,在接入更多大模型的同时,也要对模型进行严格的评估和测试,以保证模型的高质量和稳定性。
除此之外,如何在卷算力、卷技术、卷服务的同时还能降低运营成本也是MaaS所要面对的现实问题。
归根结底,作为大模型产业商业化的重要一环,MaaS在人工智能技术的发展和商业应用方面都具有重要的意义。未来,随着人工智能技术的不断发展和普及,MaaS将会变得更加成熟和完善,为企业带来更多的便利和创新。
写在最后

俗话说得好,众人拾柴火焰高。
MaaS是众人摘取人工智能这朵高岭之花的途径。随着MaaS不断发展成熟,使用人工智能的门槛将会越来越低,人工智能的应用范围和深度将会不断扩宽挖深,进一步推动人工智能场景创新,促进其更高水平的应用。
未来,让我们一起期待着每个企业都能使用AI的智能时代到来。

全球热门 AI 排行榜出炉!看看你用过几个?

刚刚过去的 2023 年,可以说是 AI 元年。

随着技术的飞速发展,AI 行业在这一年再次迎来了爆炸式的增长。

近日,Writerbuddy 研究了 3000 多个 AI 的数据,出具了一份行业报告:该报告细致地盘点了全球 50 大热门 AI 工具。

让无敌来带大家看看,在这百模大战的一年后,都有哪些 AI 成功杀出重围吧!

热门 AI 工具 Top 5

抛去具体类型不谈,首先向我们走来的是占据热门 AI 工具榜单前五名的“老大哥”们:

第一名:ChatGPT

毫无疑问,高居榜首的当然是我们开启 AI 热潮的“六边形战士” ChatGPT

ChatGPT 各方面的数据都优秀的没得说。只可惜数据统计截止到去年八月,如果统计到年底,想来这份数据会变的更优秀。

截止到去年八月,ChatGPT 以一己之力创造了 146 亿次的访问量,占上榜 AI 总访问量的 60%。在 聊天 AI 这一分类中,它的访问量占比更是达到了惊人的 76.31%

第二名:Character.ai

占据亚军宝座的,则是 Character.ai。一年来,它的访问量为 38 亿次。

Character.ai 的人均对话时长接近 30 分钟,是行业平均水平的两倍还要多。且高达 95% 的用户都更喜欢从移动端访问。

这两份优秀的数据无疑要归功于 Character.ai 本身的特性:

Character.ai 与 ChatGPT 同属聊天 AI  这一分类。

人如其名,Character.ai 主打的就是一个“角色扮演”——用户创造角色 AI 后可以将其分享到社区,任何人都可以和这个 AI 对话。这意味着你可以和名人明星、影视人物、游戏角色等一切你能想到的存在进行交谈。当然,自定义(一个老婆)也是完全没问题的。

第三名:Quillbot

尽管整体流量有所下降,Quillbot 还是以 11 亿次的访问量稳坐第三名。

QuillBot 具有语法检查和写作增强功能,是强有力的辅助办公 AI。它旨在满足各种写作要求,帮助用户创建结构良好的句子,提高整体写作质量。

作为 AI 写作领域的龙头大哥,Quillbot 的大部分用户选择使用 PC 端进行访问。人均使用时长为 20 分 54 秒,远高于行业平均水平。

值得一提的是,Quillbot 的用户性别比例很平衡,打工人果然是没有性别之分的……

第四名:Midjourney

Midjourney 作为首屈一指的图像生成 AI,在该榜单中排名第四,浏览量为 5 亿次。

Midjourney 的移动端和 PC 端流量分布几乎相同,人均访问时间也接近平均值,无伤大雅。

但比较突出的一点是,Midjourney 的男性用户占比为 92.19%,与女性用户 7.81%的占比形成了鲜明对比。

为啥这男女比例这么离谱?你懂,我也懂哈~

如果你不清楚,想想早期 AI 生成的女角色画风,你就明白了。

第五名:Hugging Face

Hugging Face 是机器学习领域最受欢迎的 AI 工具,在统计期间内,共吸引了 3.166 亿次的流量。

比起前四位令人耳熟能详的大哥,或许 Hugging Face 听起来比较陌生,这里无敌来简单介绍一下:

Hugging Face 本来打算创业做聊天 AI,他们在 github 上开源了一个 Transformers 库。

虽然聊天 AI 的业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超 100,000 个预训练模型,10,000 个数据集,变成了机器学习界的 github。

在国内,HuggingFace 也是应用非常广泛,一些开源框架本质上就是调用 transfomer 上的模型进行微调。很多 nlp 工程师的招聘条目上也明摆着要求熟悉 HuggingFace transformer 库的使用。

该平台的用户群体以男性为主,占 84.48%,而女性用户占 15.52%。在分析地理分布时,美国成为主要的流量来源,日本紧随其后。(地域这一块儿大陆受到了限制,数据无从考证。)

以上几位就是 2023 年的热门 AI Top 5,紧跟其后的还有:来自谷歌的 Bard、写小说的 Novel AI、做视频的Capcut、专注于二次元角色扮演的 JanitorAI 和专注于图片创作的 C 站 Civitai

英伟达推出AI数字人业务;OpenAI回应被纽约时报起诉;百川智能发布角色大模型丨AIGC大事日报

全球AIGC产业要闻


1、钉钉7.5版本上线AI助理

2、夸克App上线“AI学习助手”

3、百川智能发布角色大模型Baichuan-NPC

4、英伟达推出AI数字人业务ACE

5、Getty与英伟达合作推出图像生成工具

6、OpenAI回应被《纽约时报》起诉

7、微软Copilot应用尚未影响ChatGPT收入

8、Stability AI任命首位诚信高级副总裁

9、大众将使用ChatGPT增强IDA车载语音助手

10、梅赛德斯奔驰推出对话AI语音助手

11、推特前首席执行官AI创企获3000万美元融资

12、Rokid获近5亿元融资 合肥市政府牵头

13、多邻国解雇10%承包商转向生成式AI

14、2023年我国AI相关企业注册量达50万

15、重庆:建设AI领航工厂等形态未来工厂

16、AI应用构建框架LangChain推出首个稳定版本

17、松鼠Ai推出教育行业首个智适应大模型


1、钉钉7.5版本上线AI助理今日,在钉钉7.5产品发布会上,钉钉正式发布了基于70万家企业需求共创的AI助理产品。钉钉AI助理分为企业AI助理和个人AI助理,用户点击钉钉首屏右上角的魔法棒即可唤起。钉钉AI助理具备感知、记忆、规划和行动能力,具备跨应用程序的任务执行能力,可以和钉钉上第三方应用、企业自建应用无缝结合。同时,钉钉总裁叶军宣布钉钉将推出AI助理市场,致力成为最活跃的AI助理孵化、分发和交易平台。叶军称,截止到2023年年末,钉钉用户数达7亿,企业组织数达2500万,软件付费企业数达12万。

2、夸克App上线“AI学习助手”日前,夸克App基于自研大模型的强大参数和数据精调能力,推出一款大模型全新应用“AI学习助手”,在部分搜索学习内容的结果页中,通过智能化的解题思路和讲解方式,进一步提升大学生在自学场景中的效率和质量。据悉,夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。目前,夸克“AI学习助手”率先上线在部分搜索英语内容的场景中,覆盖选择题、填空题、阅读题等常考题型,用户可以通过拍照搜索的方式进行体验。后续还会加入数学等主流学科。

3、百川智能发布角色大模型Baichuan-NPC今日,百川智能发布角色大模型Baichuan-NPC,深度优化了“角色知识”和“对话能力”,使模型能够更好的理解上下文对话语义,更加符合人物性格地进行对话和行动。此外,对于游戏领域AI角色开发成本高、周期长、自由度差、API不稳定等问题,百川智能推出了“角色创建平台+搜索增强知识库”的定制化解决方案。通过这一方案,游戏厂商无需编写任何代码,只需通过简单的文字描述,便可以快速构建出需要的角色,实现低成本、高效率的角色定制。官网地址:npc.baichuan-ai.com

4、英伟达推出AI数字人业务ACE今日,英伟达在CES(国际消费类电子产品展览会)上宣布推出适用于NVIDIA Audio2Face(A2F)和NVIDIA Riva自动语音识别(ASR)的ACE Production Microservices。NVIDIA ACE是一套可帮助开发者利用生成式AI创建虚拟数字人物的技术,普通的非玩家角色(NPC)可以在ACE的驱动下成为能够发起对话或引导玩家找到新任务的动态交互式角色。同时,英伟达宣布与多家游戏公司合作,米哈游、网易游戏、腾讯游戏、育碧等都将采用NVIDIA ACE。

5、Getty与英伟达合作推出图像生成工具今日,在CES上,图库网站Getty Images发布了图像生成服务Generative AI by iStock。据介绍,该服务基于Getty的专有图像数据库进行训练,以英伟达AI模型代工厂NVIDIA Picasso为基础,为设计师和企业提供文本到图像生成功能,并为生成的图像提供法律保护和使用权。Getty还将很快推出API(应用程序接口),提供图像修复等功能。开发人员可以将新的API与创意应用程序无缝集成,以将人物和物体添加到图像中、替换特定元素以及用各种宽高比扩展图像。官网地址:iStock.com

6、OpenAI回应被《纽约时报》起诉今日,OpenAI发布公告回应被《纽约时报》诉讼一事,称公司支持新闻报道,与新闻机构合作,并且认为《纽约时报》的诉讼没有根据。OpenAI将立场概括为四点:

1、积极与新闻机构合作,创造新的机会;

2、将公开数据用于训练大模型属于合理使用,但公司为版权方提供退出的选项;

3、“反刍”(Regurgitation)指特定内容在大模型的训练数据中多次出现,这是一个不常见的错误,公司正在努力减少;

4、《纽约时报》并没有讲述完整的事实。公告提到,OpenAI在当地时间12月19日与《纽约时报》进行了谈判,双方“似乎取得了建设性的进展”,但《纽约时报》在12月27日提起诉讼,OpenAI对此感到“惊讶和失望”。

7、微软Copilot应用尚未影响ChatGPT收入据TechCrunch今日报道,根据应用商店情报提供商Appfigures的数据,微软最近推出的AI聊天机器人Copilot尚未对OpenAI的ChatGPT安装量或收入产生影响。Copilot由OpenAI的DALL-E 3和GPT-4模型驱动,可免费访问,而ChatGPT只免费提供GPT-3.5模型。截至1月5日,Copilot在iOS和安卓上的下载量为210万次,每日下载量峰值为41.3万次,此后有所放缓。美国是Copilot最大的市场,下载量占24%,其次是德国、印度、意大利和英国。

钉钉AI助理:打工人偷闲,创业者搞钱

前几天对一级市场科技公司的年终盘点中,OpenAI超过16亿美元的年收入击穿了不少人此前的预期。相较于2022年的2800万美元营收,这对应着超过50倍的增长,也意味着涨到1000亿美元的估值。然而OpenAI的大好局面在行业内并不普适,尤其是对于去年上半年那群跟风入场大模型的创业公司来说:有统计显示,国内之前200余家号称做大模型的创业公司只有20多家还活着。


所以一个客观的经验是,围绕大模型会产生很多机会,但做大模型本身不一定。如《新立场》在此前一篇文章中提到的,“从商业模式上讲,这的确又是一个缔造世界上最伟大科技公司的角斗场。只是这一次的胜利者,绝对不会像当初苹果起步一样,从乔布斯的车库里冒出来。”


目前为止,吃到第一波AI红利的公司,普遍都是因为找到了适合大模型落地的场景,比如说最为典型的智能客服或者知识问答。从产品形式上说,大语言模型几乎是为这个领域量身定制。在头部大厂提供的PaaS能力基础上,只需要辅以企业特定的知识库,就能开发出一个效果远超“关键词触发”的智能客服。


不过同时需要指出的是,当下大模型跟生产力场景的结合还有着巨大的进步空间。即便是像微软Copilot、钉钉AI魔法棒等标杆产品,虽然实现了智能化从Chat到Work的转变,但仍然是属于应用层的创新。而如果要充分释放大模型的潜能,后续要走的路显然是“由表及里”,让AI从上面的应用层深度扎进业务场景,跟企业数字化打通。


从这个角度看,钉钉1月9日的发布会可能会是个很好的契机。在昨天这场发布会上,钉钉宣布推出AI超级助理,还将上线与之配套的AI助理市场。钉钉的判断是AI Agent是最佳的AI应用入口,所以让用户、开发者、ISV都能在钉钉上低门槛开发个性化AI助理就变得尤为重要,只有这样个人创意才能成为可重复利用的生产力。

当创建AI助理的基础设施、分发AI助理的交易平台、创意变成收益的激励机制都已经搭建完毕,钉钉的AI助理生态已然成型。这也意味着AI创业者迎来了大模型浪潮的第二波红利,“在AI创业、用AI赚钱”大概从来没有像今天这样容易。


01、钉钉超级助理,AI原生的AI Agent


钉钉推出的AI助理,本质上是其对AI Agent探索的一种应用形态,所以我们不妨先讨论一下AI Agent这个概念。Andrej Karpathy是OpenAI的创始成员之一,他在去年发过一个很出圈的视频,就是因为谈到了AI Agent这个话题。他的原话是,如果现在新出一篇有关训练大模型的论文,那他根本不会care,因为大概率两年以前OpenAI内部就已经有人尝试过类似方法了;但如果是新出了一篇AI Agent的论文,那OpenAI的所有人都会很兴奋并且真的去看。


另一位OpenAI研发主管对AI Agent给出了更为严谨的定义,她认为 Agent = LLM(大语言模型)+ 记忆 + 规划 + 使用工具的能力。所以粗略的理解,Agent的“脑子”还是大模型,但是在这之上叠加了其他能力做增强,因而其可以更自动的方式完成更复杂的任务。


比如,当你直接使用大模型的时候,你需要自己构造提示、理解输出、推动一个由多轮提示组成的任务流程,这对用户提出了相当高的要求。但如果有一个合适的AI Agent,用户只需要给出任务描述,Agent自己就能完成任务分解、工具调用、结果评估等一系列流程,在节省用户精力的同时也大大提高了大模型的易用性。


最初ChatGPT推出的时候,支持自然语言对话的聊天机器人形式极大拉近了用户的距离感。但除了问一些基础的问题,普通用户对大语言模型这个新工具的使用其实非常有限。怎么才能让大模型更容易更恰当地使用呢?AI Agent给出了一种解法。


概括而言,大模型是工具,AI Agent是使用工具的工具。这就类似一个原本很大的数,可能不好处理。但如果你给它开次平方,它就会变得小很多。要是依然很大怎么办呢?那就再开一次平方嘛,这就相当于使用其他Agent的Agent。从递归的视角看,这其实给出了所有复杂问题的方法论,虽然只是理论上的。
回到这次发布会。钉钉这次推出的AI助理也是想解决同样的问题。


在过去一年里,钉钉的智能化“再创业”行动很快。先是在4月宣布全面智能化,随后用大模型对17条产品线做了重构。接着又在8月将智能化底座(AI PaaS)开放给生态伙伴和客户,并推出“数字员工”和多款场景及行业解决方案。虽然这个过程中方向因为对AI趋势认知的加深而有所调整,但迭代的主线只有一个,就是降低技术门槛推动智能化的普惠。


借助阿里的集团化优势,钉钉的AI能力建设是基于通义千问大模型的底座,因此通义千问过去一段时间的升级优化也直接传递给了钉钉。叶军昨天提到,钉钉底层的模型参数规模已经从最早的4B更新到了200B。

根据《新立场》在现场了解到的情况,钉钉这次推出的AI助理在上面提及的记忆、规划等能力上,都有着不俗的表现:

  • 感知能力。在获得授权后,AI助理可以获取你的工作上下文信息,如聊天、日程、待办、文档、任务、审批等信息,它将对用户工作的上下文、所处的位置和参与的事项获得深入地了解,并根据工作场景,自动完成日程安排、信息摘要、业务流程等任务的执行。
  • 记忆能力。AI助理通过不断学习记忆个人或组织专属的知识,在获得授权后以对话的方式,生成结果或开展数据分析、执行任务;它能在用户日常的使用中,结合上下文的短期记忆,来提升创作、会议、待办、生产数据等任务的生成与执行效果。
  • 规划能力。AI助理能围绕用户的需求目标,规划分解任务,并自动执行计划,调用相应的技能来逐步执行任务。
  • 跨应用程序的任务执行能力。AI助理可以与钉钉上的开放API、连接器、生态应用、自建应用无缝连接,帮助用户、企业在一个对话窗口,便可方便快捷地使用丰富工具。从现场的演示看,甚至它还可以借助开放接口,与钉钉外的视频、资讯、电商等各类第三方APP连接。比如,企业创建的差旅AI助理,可以根据指令在第三方平台完成差旅订机票、酒店、行程安排等工作。

当然,相较于AI助理这个产品本身,钉钉同时官宣的AI助理市场可能更为重要,因为它解决了资源复用和用户激励的问题。从形式上看,如今跟钉钉AI助理和AI助理市场最接近的产品,应该是OpenAI的GPTs和GPTs商店。不过跟OpenAI作为一个纯粹的技术公司不同,钉钉已经深刻参与了中国企业的数字化进程。这意味着大量的钉钉AI助理将直接受到实际业务的驱动产生,并且可以很容易地同企业现有的数字化流程整合,因而更贴近落地创造价值。这将是钉钉AI助理市场跟GPTs商店的差异点,即用应用和业务场景优势吸引用户加入,也让AI助理的创建者从刚需和高频使用的过程中获取收益。
比如相对传统的农食行业,由于很多知识和经验都是非标的,对不同岗位员工的培训需要耗费大量的时间。快消品销售员可能一个月就能背下产品说明书,但农食产品销售人员往往需要一年才能把各季的农产品摸透。针对这些痛点,农食企业佳沃借助钉钉AI能力,通过和佳沃自身知识库和业务数据相结合,创建了综合AI助理“小佳”,种植经验的交流、更精准的产量预测、更有效的仓储管理都能一站式解决。

02、 创意成为生产力,想到就能赚到

对于这场由大模型掀起的智能技术革命,我们今天仍然不能确切地知道它会把我们最终引向何方。然而我们可以确定的是,一场生产力的革命正在发生。


从人类进入工业社会以来,一个不可逆转的趋势是世界的分工逐渐变得越来越精细化。推动这个趋势发生的是两个方面的力量。一是因为分工可以大幅提升效率,带来更多的产出。二是因为随着社会的发展,这个世界运行的逻辑愈加复杂,客观上造成一个人再努力也只能理解它的一小部分,在极其有限的范围内发挥极其有限的作用。


然而,虽然这种分工机制在客观上是必要的,但同时也带来了一个棘手的问题:绝大部分事业不只需要个人的智慧和努力,更需要调动充分的资源才能办成。以最典型的内容行业为例,从想法到作品就得经历一个相当困难的过程。比如刘慈欣在娘子关发电厂,仅凭个人的闲暇时间就写出了《流浪地球》这部小说原型。但当郭帆想要把它拍成电影搬上荧幕的时候,数以千计的工作人员需要在幕后折腾大半年。


生成式大模型的到来正在改变这种状况。
不久前,一款名为Pika的人工智能视频生成工具爆火。这个由4名华人构成的创业公司,成立仅半年时间就获得了2亿美元估值。利用这款工具,只需要输入一段文字,给出对应的人物、场景、风格等需求,Pika就能生成你需要的视频画面。比如,输入“穿着太空服的马斯克,3D动画形式”,软件就会给出动画形象的马斯克,背后是腾空而起的一发火箭。


尽管从实际的使用体验看,目前类似Pika的视频生成工具还并不成熟,视频存在时长有限、分辨率不够、内容不合理等方面的问题。但一个确定的趋势是,在AI加持下,从想法到作品的巨大鸿沟将被弥合,并且不只限于视频,还包括其他艺术创作、软件开发等各个领域。对于拥有创意的普通人来说,未来一个人或者几个人就将等同于一支军队。
事实上,在很多科技公司内部,产品经理和研发团队的配比已经发生了变化:当AI能完成越来越多的研发工作,产品实现占据的权重就会逐渐让位给产品设计。


就其本质而言,钉钉这次发布的AI助理其实也是这个趋势的一部分。只要你有想法,创建一个AI助理只需要三步:

  • 为AI助理定制专属的名称、头像;
  • 选择特定知识库、文档或上传文件,对AI助理进行训练;
  • 为AI助理配置需要的AI能力,可直接选择官方能力,或者配置自定义能力。

自定义能力包含企业自建系统、第三方应用、钉钉生态应用等等,也包含配置各大电商、视频、新闻、搜索等等各类平台的开放API,实现开放连接能力。


AI Agent的普惠正在为人们抓住风口提供更强大的工具。
跟Pika这些着眼于特定任务的垂直软件不同,钉钉更多似乎想让用户在钉钉上长出一个个“Pika”。
钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等高频的官方AI能力,用户仅需简单配置后即可使用。针对开发者、IT团队,支持通过钉钉AI PaaS快速开发自定义的AI能力,通过钉钉开放的API、连接器,与SaaS应用、本地系统等原有系统连接;也可以获取外部平台的开放API后,连接购物、视频、外部网站等各类第三方平台。


在这个能力底座的支撑下,未来钉钉上将会涌现出大批的优秀AI应用,其中可能就包括了下一个Midjourney或者Pika,这是创业者不可错过的风口。


在大会现场,叶军还宣布启动钉钉AI助理创造大赛,激励企业和个人立足具体的业务、办公和生活场景,创建创新、实用的AI应用。每类场景按照不同的评审标准决出获奖者,分享百万奖金。除了奖金和奖项,参赛者在大赛过程中将获得专属的技术和社区支持,通过社区活动、社群交流获得更多创新灵感。

所以,那些有想法的普通人,首先可能需要的是转变思维方式。因为过去我们谈到创业时,不可避免地把它跟风险联系得很紧密,于是创业就带有赌的成分,需要有搏一把的勇气。但如我们上面提到的,这个逻辑在钉钉AI助理这个问题上并不适用,你的创意就等价于你的生产力。
创业从来最缺的就是idea,但幸运的是,这次也只缺你的idea。

03、写在最后

在9日的发布会上,总裁叶军给钉钉的AI超级助理订了个很直白的目标:计划在3年内打造1000万个AI超级助理。这个不小的数字显然不是拍脑袋决定的,三年前钉钉给低代码应用立了个相同的flag,到今天已经顺利实现。相较于低代码应用,AI助理无疑进一步降低了参与门槛,“人人都是开发者”进化到了“人人都是创造者”。所以《新立场》的预期是,“7亿用户造出千万助理”这事肯定会发生得更早一些。


但需要注意的是,寄希望于用AI赚钱的创业者现在已经有了行动的紧迫性。
钉钉庞大的生态和多样化的业务场景的确意味着丰富的长尾需求,所以无论是出于个性化或者技术尝鲜的目的,AI助理一定会层出不穷,长期保持“产能旺盛”的状态。然而对于创业者来说,发现机会、尽早入场、跟钉钉AI助理生态同步壮大成长才是搞钱的最佳姿势,你的创意和钱包都没必要等。

一文读懂 AI Agents 技术

今天来聊一下人工智能(AI)生态领域相关的技术 – AI Agents(AI 代理)。
想象一下:软件实体能够自主地与环境交互,根据收集的数据做出决策,并以最少的人为干预执行基于特定场景。幸好,借助 AI Agents 技术,这个现实比你想象的更接近了。这些智能代理正在彻底改变行业,并改变我们的生活方式。但是,大家可能会好奇:AI Agents 到底是什么?它们是如何工作的?在本篇博文中,我们将深入探索 AI Agents 的世界!
人工智能(AI)赋予机器具备判断和执行任务的能力,以协助人类在某些特定的业务场景中实现某项目标,从而显著改变了人机交互方式。在人工智能的核心体系中,我们可以关注到这些智能实体被称为智能代理(IA)的 AI Agents,能够感知环境变化并对其进行分析,以采取合理的行动来实现既定目标。
通常来说,不同类型的 AI Agents 旨在解决特定的挑战并完成特定的任务。对于构建有效且高效的人工智能系统来说,更深入地了解 AI Agents 的不同类型便显得至关重要。通过了解各种 AI Agents 类型,我们可以更好地理解它们的功能和应用领域,并根据具体需求选择最合适的 AI Agents。
AI Agents 可以是专门针对某个任务设计的,例如图像识别、语音识别或自然语言处理。这些 Agents 利用先进的算法和模型来解析输入数据并生成准确的输出。
另一类 AI Agents 便是通用型代理,它们具备更广泛的智能和适应能力。这些代理能够处理多种任务和领域,并具备学习和适应的能力。通用型代理通常基于机器学习和深度学习技术,通过从大量数据中学习和推断来改进其性能和表现。除此之外,AI Agents 还可以根据其交互方式进行分类。有些代理是自主的,它们能够独立地感知环境、做出决策并执行任务。另一些代理则是协同的,它们与人类用户进行交互,通过理解用户的意图和目标来提供帮助和建议。

1、什么是 AI Agents & Autonomous AI Agents? 
其实,自 20 世纪 80 年代计算机科学家开始探索如何开发可以像人类一样交互的智能软件以来,AI Agents 已经出现。从那时起,这个概念已经发展到包括可以独立做出决策和完成特定场景任务的智能代理。
AI Agents 是一种软件程序,旨在与其环境交互,感知接收到的数据,并根据该数据采取行动以实现特定目标。AI Agents 能够模拟智能行为,可以像基于规则的系统一样简单,也可以像高级机器学习模型一样复杂。AI Agents 使用预先确定的规则或经过训练的模型来做出决策,并且可能需要外部控制或监督。

相对于传统的 AI Agents,自主 AI Agents 是一种先进的软件程序,可以在没有人类控制的情况下独立运行。它们可以自主思考、行动和学习,无需人类不断输入。这些代理广泛应用于医疗保健、金融和银行等不同行业,使事情运行得更顺畅、更高效。它们可以适应新情况,从经验中学习,并利用自己的内部系统做出决策。
随着人工智能技术的不断发展,AI Agents 的能力和应用领域也在不断扩展。在某种程度上,AI Agents 已经成为许多领域中的关键工具,帮助人们解决复杂的问题和提高工作效率。通过不断改进和优化人工智能代理的设计和算法,我们可以期待更多智能、自主的代理出现,为各行各业带来更大的帮助和创新。
在过去的几个月里,AI Agents 引起了巨大的关注和人气。一个令人印象深刻的例子便是 AutoGPT,在 GitHub 上的星星数已经达到了惊人的 140,000 颗。这反映了大家对开源 AI Agents 项目的广泛兴趣和支持。
不仅如此,我们几乎每周都能看到新的公司成立,专注于 AI Agents 的开发和应用。这表明 AI Agents 领域正在迅速发展,吸引了越来越多的创业者和投资者的关注。
这个生态系统中的 AI Agents 种类繁多,从审查代码的代理(例如 Sweep AI)到像 Lindy 这样的虚拟个人助理,涵盖了各种不同的功能和应用领域。这些代理的出现为我们提供了更多的选择和可能性,能够满足不同用户和业务的需求。
为了更好地了解这个生态系统的现状,我们对 50 多个 AI Agents 进行了概览,并将它们汇总到一个列表中。这个列表包括了各种类型的代理,涉及的领域包括自然语言处理、图像识别、语音识别、智能助理等。我们对这些代理的功能、性能和用户反馈进行了评估和总结,以便为用户提供参考和决策支持。

2、AI Agents 通常都具有哪些特征因素 
通常而言,AI Agents 具有以下几个特征因素,具体表现为如下:
1、感知和理解能力
AI Agents 能够感知环境中的信息,例如图像、声音、文本等,并理解这些信息的含义和上下文。这涉及到使用传感器、计算机视觉、语音识别、自然语言处理等技术来实现对输入数据的解析和理解。
2、决策和规划能力
AI Agents 能够基于感知到的信息和存储的知识做出决策并制定行动计划,可以使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险,并选择最佳的行动策略。
3、自主学习和适应能力
AI Agents 具有学习和改进自身的能力,可以从经验中学习,并根据反馈信息不断改进自己的性能和表现。代理可以使用监督学习、增强学习、迁移学习等技术来获取新知识、调整决策制定和行动执行过程,以提高自身的智能水平和适应能力。
4、交互和沟通能力
AI Agents 能够与人类或其他代理进行交互和沟通,可以理解自然语言指令、生成自然语言回应,并使用语音、文字或其他形式与用户进行有效的交流。这涉及到自然语言处理、对话系统、语音合成等技术的应用。
5、知识表示和存储能力
AI Agents 能够组织和存储知识,并有效地检索和利用这些知识来支持决策和行动,可以使用符号逻辑、图形模型、向量表示等方式来表示和存储知识,并使用数据库或其他数据结构来实现高效的知识管理。
6、情境感知和灵活性
AI Agents 具有对不同情境的感知能力,并可以根据情境的变化做出相应调整,可以识别环境中的变化、适应新的任务要求,并灵活地调整决策和行动策略,以适应不同的场景和需求。
这些特征因素共同构成了 AI Agents 的核心能力,使其能够在各种任务和领域中展现出智能和适应性。然而,具体的 AI Agents 的特征因素可能会因应用领域、任务要求和设计选择而有所差异。

3、AI Agents 的内部结构是怎样设计的 
AI Agents 的内部结构可以根据具体的应用和任务而有所不同,但通常包括以下几个核心组件。关于 AI Agents 的通用型内部结构参考示意图,我们可参考如下所示:

针对 AI Agents 具体实现过程,主要涉及以下活动,具体:
1、 环境感知
首先,AI Agents 会通过传感器或其他数据源感知环境。传感器可以包括视觉传感器(如相机)、听觉传感器(如麦克风)、物理传感器(如触摸传感器)等。这些传感器帮助代理获取环境中的信息,例如图像、声音、位置等。
2、知识表示

在此阶段,AI Agents 使用适当的知识表示方法来组织和存储从环境中获取的信息。这些信息可能包括先验知识、学习到的模式或规则。常见的知识表示方法包括符号逻辑、图形模型、向量表示(如词嵌入)等。通过有效的知识表示,AI Agents 能够更好地理解和利用环境中的信息。
3、决策制定
基于感知到的环境信息和存储的知识,AI Agents 使用决策制定机制来生成适当的行动。这可能涉及使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险。决策制定过程旨在使代理能够选择最佳行动以实现其目标。
4、计划和执行行动
在这一步中,Agents 制定计划或一系列步骤来实现其目标。一旦决策制定完成,AI Agents 将执行行动并与环境进行交互。这可能涉及控制执行器(如机器人的电机)、发送指令(如语音助手的语音合成)或与其他代理进行通信。执行行动后,Agents 会观察执行结果,并将其用作反馈以调整下一步的决策。
5、反馈与改进

在完成上述的执行行动后,AI Agents 通过与环境的交互获得反馈。这些反馈可以来自环境中的直接观测结果,也可以来自人类用户或其他代理的指令和评估。Agents 使用这些反馈来学习和改进自己的行为。这可能包括使用监督学习、强化学习或迁移学习等技术来调整决策制定和行动执行过程,以提高代理的性能和适应能力。

5、AI Agents 应用于哪些现实场景下? 
在现实的业务场景中,AI Agents 在各个领域都展示出了广泛的应用,对日常生活产生了重大影响。

目前来看,主要体现在如下几个方面,具体:


1、自然语言处理
AI Agents 在自然语言处理领域的应用广泛而深远。例如,智能语音助手(如 Siri、Alexa 和 Google 助手等)利用语音识别和自然语言理解技术,使用户能够通过语音与设备进行交互、获取信息和执行任务。这使得人们可以轻松地控制智能家居设备、查询天气、发送消息等,极大地提高了日常生活的便利性。


2、机器人技术
AI Agents 在机器人领域的应用也十分显著。智能机器人能够感知环境、理解语音指令、执行任务,并与人类进行交互。这种技术的应用范围非常广泛,包括工业自动化、医疗辅助、家庭服务等。例如,智能无人驾驶汽车正在逐渐成为现实,它们利用感知技术和决策制定能力来实现自主导航和安全驾驶。


3、个性化推荐
在电子商务和娱乐领域,AI Agents 通过个性化推荐系统为用户提供定制化的体验。这些系统利用机器学习和数据挖掘技术,分析用户的历史行为和偏好,并提供个性化的产品推荐、音乐推荐、电影推荐等。这不仅提高了用户的满意度,还促进了销售和用户参与度的增长。


除了上述领域,AI Agents 还在医疗诊断、金融风险管理、智能城市管理等方面发挥着重要作用。医疗领域的 AI Agents 可以帮助医生进行疾病诊断和预测,提高治疗效果和患者生存率。在金融领域,AI Agents 可以通过分析大量数据和模式识别,帮助金融机构更好地管理风险和进行投资决策。智能城市管理中,AI Agents 可以监测交通流量、优化能源利用、改善城市规划等,提高城市的可持续性和居民的生活质量。


上述场景示例表明,AI Agents 在不同领域的广泛应用已经在改变我们的日常生活。随着技术的不断进步和创新,我们可以期待更多领域的 AI Agents 将为我们带来更多的便利、效率和智能化体验。


Reference :[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild

2024年AI商业落地的十个方向

原创 甄科学 

轰轰烈烈的2023年AIGC元年结束了,心情有点复杂。

在国内,和年初ChatGPT炸雷带来的全民兴奋相比,AI并没有给普通人的生活带来多少改变。

AI——这个当之无愧的下一代信息技术革命,没像上一波移动互联网浪潮中的微信和滴滴打车,在一年的时间里实现“一夜春风来、万树梨花开”式的商业渗透。认真使用AI工具的人不多,现象级的AI产品完全没有出现。

在海外,ChatGPT以迅雷不及掩耳的速度斩获1.8亿用户,AI绘图软件MidJourney获得超1500万用户和数亿美元营收;微软的GitHub编程助手Copilot在9月份付费用户已超百万(含3万7千个组织订阅),多个小型APP号称获得数百万美元的订阅收入。

在硅谷和华尔街,逢人必谈AI。美股在AI芯片霸主英伟达和AI应用先锋微软的带领下,日日创出新高。

不夸张地说,若无AI,美国可能已陷入经济衰退;有了AI,美国走在了新一轮泡沫的路上。

比尔盖茨认为:在像美国这样的高收入国家,距离普通大众使用人工智能达到显著水平还有18到24个月的时间。在非洲,他预计在三年左右的时间里会看到类似的使用水平。据此预测,2024年美国会达到人工智能的“普惠”状态。

中国和美国的人工智能差距正在拉大。由于对英伟达GPU的禁令,全世界最紧俏的商品变成了英伟达的GPU或平替,甚至有人不恰当地把GPU比作超过毒品的新一代最暴利走私品。

和争夺土地、石油、黄金的战争一样,人工智能算力、算法变成了大国军备的新战场,也成为企业家和创业者的兵家必争之地。

时不我待,何以胜出?下文我主要采用AI在医疗、金融等严肃领域的实际需求案例,探讨AI在2024年从技术到产品商业落地的10个方向:1. 更强的多模态交互2. 可解释性更强的人工智能3. 更强的搜索增强生成4. 构造自动代理生态5. 更强、更经济节能的算力6. 更快的AI平民化进程7. AI与Web3结合的破局8. 打磨用户需要的“小”产品9. AI能力带入数据,而不是相反10. 获取用户对AI的信任

更强的多模态交互

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

在去年圣诞节,很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力,可以直接用中文和它对话。美中不足的是,总觉得GPT的中文发音是我国台湾人夹杂海外华人的腔调,有点像王力宏。

以医疗领域的需求看,病人拿到血常或肿瘤指标检查报告,想知道异常指标的意义。对自己负责的病人会上网搜索每个指标的含义。入冬以来儿童夹杂肺炎和流感,很多焦虑的家长会搜索检查结果的意义,往往费时费力,找不到准确的解读。

多模态技术的发展,可以让用户拍照上传检查报告,AI识别照片中的指标、搜索知识库、给出每个指标的含义,然后用语音告诉可能的诊断。这种体验太棒了。

在金融领域,如果上传一张K线图,AI就能识别出其形态,则可以极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域,如果能让AI读懂设计图,再设计出新的设计图,那就更厉害。

在非严肃领域,多模态会大大提高数字形象、短视频制作的效率,丰富这些应用的使用场景。

可解释性更强的人工智能

可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性,从而能够更好地理解AI如何作出决策。

当前的AI决策过程往往被视为一个“黑盒”,用户无法了解模型得出结论的内在逻辑。大语言模型最强大且是最神秘的“涌现”能力,亦无法被解释。无法被解释的决策过程,不可能在严肃商业领域获得信任。

AI看完检查报告,可以给出用药建议。如果不知道这个用药建议基于何种知识,也不知道AI做出推理和判断的过程,相信没有人敢用AI开出的药方。生命不能作AI概率游戏的试验品。

现举例说明。我问ChatGPT:

“如果换算成特斯拉的行驶里程,7200兆瓦时可以行驶多少公里?”

AI会告诉我它的逻辑——

为了估算7200兆瓦时(MWh)的电能可以让特斯拉汽车行驶多少公里,我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例,其能源效率大约为15千瓦时/100公里(即0.15千瓦时/公里)。

我们可以通过以下公式计算行驶里程:

总行驶里程=总电能(千瓦时)/每公里耗电量(千瓦时/公里)

现在我们可以计算7200兆瓦时(即7200000千瓦时)可以让特斯拉汽车行驶多少公里。我将进行计算(此处,AI写Python代码进行计算)。

使用7200兆瓦时的电能,一个特斯拉Model 3理论上可以行驶约4800万公里。

以上,AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。

AI在严密的数学推理已经取得某些突破。近期,数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁,数学家一定要会用AI。

可解释的人工智能的实现需要开发新的算法和工具,通过可视化技术、自然语言解释或简化决策逻辑的表示,以提供关于AI决策过程的深入洞察。

综上,可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域,决策的透明度和可信度至关重要,AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。

更强的搜索增强生成

搜索增强生成(Retrieval-Augmented Generation,简称RAG)是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。

RAG使得大型语言模型能够访问外部信息,帮助它们产生更准确、更具上下文意识的回应,其目标在于提高语言模型生成内容的准确性和相关性。

在RAG系统中,当模型接收到一个查询时,首先执行一个检索步骤,查找与查询相关的信息。然后,这些相关信息被融入生成过程,实现生成内容准确性和相关性的显著改善。

以病人的需求为例,我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁,但尿失禁到底是不是服药的不良反应呢?在药品说明书上找不到,医生也不确定。

朋友最初给AI的问题是“卡培他滨(Capecitabine)的副作用是否包含尿失禁?”

AI的回答是:“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状,如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的,如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。”

如果把提问改成:“搜索英文专业医学资料,卡培他滨的副作用是否包含尿失禁?”,AI开始自动用Bing搜索互联网,然后它真的搜到了多个医学文献。

AI说:“根据我找到的英文专业医学资料,尿失禁被列为卡培他滨的罕见副作用之一,发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用,尽管它并不常见。”

AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论,是更强的增强搜索要做的事情。

RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中,生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域,用户不能判断幻觉内容的对错。这导致AI的应用受限。

此处说一个题外话,为什么上面的例子需要指明搜索“英文”专业医学资料?因为在某些不指明英文的情况下,Bing搜索引擎用中文搜索,在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索,搜索到的结果大部分是广告和商业网站上意义不相关的信息。

中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此,和大模型相比,想办法打造更强的搜索增强生成技术,也许是在中文互联网开发产品致胜的关键。

构造自动代理生态

上面搜索增强生成的讨论,已经包含了自动代理的部分功能。

当AI经过自我学习和模型升级,当它了解到我总在搜索专业文献后,当我再次询问药物副作用同样模式的问题时,AI会自己启动搜索专业互联网的动作,而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。

自动代理是一种能够自动独立执行任务和做出决策的AI系统。这些代理展现了一定程度的自主性和主动性,能够理解其所处的环境、设定目标,并采取行动实现目标,不再需要人类额外指导。

有一个开源项目叫AutoGPT,它自动分解任务的动作,然后自动分步执行,就像自动执行上面的搜索任务一样。

自动代理在多个领域具有广泛的应用前景。

2024年的订外卖服务也许会变成:你只要和AI说中午订三份我常吃的外卖和客户一起吃,不要辣。AI会自动分析你常吃的外卖、剔除辣的;它知道你是和客户吃,要吃好一点、贵一些;它根据送达的时间和午餐的时间选择商家,然后自动买一份准时达保险。这些步骤在几秒内自动完成。

不止订餐服务,个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI,Siri会变成一个更高级的自动代理。现在,你只可以指示Siri打开一个app,Siri还有点愚钝。

自动代理和硬件结合,会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。

Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上,像校徽一样。它能够响应触摸、语音指令和手势,主要用于搜索和翻译信息、导航等功能,通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。

这意味着:未来的每个人都可以有一个随身携带的小秘书,它记录你的会议、见闻、聊天、思想,随叫随到,直到复制出你的数字生命,就像电影《流浪地球》里的数字生命一样。

显然,自动代理需要完整的闭环生态构建和安全管控,它需要打通交互、采购、物流、支付全环节。我相信在2024年,此闭环生态将露出雏形,重量级选手会入场。

更强、更经济节能的算力

当前AI发展的一个关键限制因素是对大量计算资源的需求。这不仅增加了成本,而且导致了巨大的能源消耗。

AI聊天工具导致大型科技公司的水资源使用量剧增。计算产生热量,进而需要大量水资源冷却设备。

有数据表明,由于AI产品(如ChatGPT)日益受欢迎,微软的全球水资源使用量增加了超过三分之一,达到了近17亿加仑。谷歌的水资源使用量也比前一年增加了大约20%,约为56亿加仑。研究员估计,使用GPT回答5到50个问题,大约消耗500毫升的水。

电力方面,根据估算,训练GPT4.0耗时150天,耗费电力720万度电,这些电够特斯拉行驶4800万公里。(这个换算是我在上文“可解释的AI”部分的例子。做任何事情,我都想用AI试试看,不试不知道,一试吓一跳。)

2024年需要更高效的AI算法以在减少计算资源需求的同时提高模型的性能。硬件方面,业内也在寻找新的材料和设计,如量子计算,以期实现更高效的数据处理、降低能耗。

在芯片禁令下,突破原有技术路径,寻找升维竞争的突破,可能是中国企业的机会。这需要强大的风险投资资本支持。

对GPU的需求刚刚开始。当全球有20%的人,每天使用AI的时候,GPU的需求将增长百倍。美股科技股的天花板还很高。能在中国实现GPU“平替”的企业可以赚大钱。

图片更快的AI平民化进程

这又被称为开发的民主化。它的含义是,AI的易用性使得人与计算机的深度互动简单到像聊天一样,几乎任何人都能够成为开发者。

AI开发的平民化意义重大。它意味着更多的人可以参与计算机产品的开发,不再局限于专业技术人员或拥有高级编程技能的人。

我本是一个做投资的,只有20年前大学C语言编程基础。因小孩喜欢画画,被AI绘画吸引误入AI的大坑。现在,我正在用GitHub AI编程助手和ChatGPT,用业余时间开发一个功能复杂的AI应用软件,我丝毫不觉得困难。在我和AI的共同努力下,AI正确写出了我需要的所有代码。

AI打破了计算机科学的技术壁垒,其实质是硅基生命向碳基生命敞开心扉,人类用自然语言就可以实现深度计算机技术的实现。

当大量不同背景的人都能参与到这场信息革命的浪潮中,此种多元化的参与带来了更广泛的视角和创新的可能性,必然极大加快人类技术爆炸的速度。

其意义重大程度,堪比近1000年来,人类完成的识字扫文盲运动。从第一封电子邮件发出,到人类普遍掌握互联网技能,用了数十年。而用多模态技术的交互方式,AI可以用3年时间完成高难度计算机技能向人类白丁的普及,速度加快十倍、百倍。

在平民化浪潮下,低代码、无代码平台、开源平台的发展至关重要。这些平台通过提供简化的编程接口,使非专业人士也能轻松构建和部署AI模型。

其次,用户友好的工具和界面的开发同样重要,它们能够降低AI开发的复杂性,使其更易于理解和操作。自动化和智能化的开发工具将极大地减轻人工编程的负担,提高开发效率。

预计2024年的AI编程工具将更加强大,平民化的进程会进入加速发展期。在AI的帮助下,一个没有编程基础的普通人可以编写出任何他想要的应用,如同文字扫盲运动让普通人不再需要找人代写信、自媒体技术发展让每个人不再需要找期刊投稿就能发表自己的观点。

当你有一个需求的时候,你自己就可以写出这样一个软件,不需要再去找商业软件——你完全个性化需求的软件。

回到医疗的例子,一个肿瘤病人,有过去30个月每周的检查结果数据,他想知道他的肿瘤指标变化的趋势。这些结果存储在医院的系统里,医院的信息系统不对病人提供历史数据摘录和比较功能。病人或家属需要手工摘录出每个异常指标,记录下来,划出曲线。有了AI,病人可以让AI写一个APP,每周把纸质的检验报告拍照上传,然后AI就自动识别结果,并更新画出变化趋势图。

在目前的软件范式中,用户需要寻找能满足自己需求的软件,软件开发者需要在很多人的差异化需求中寻找公约数,小众用户的需求不能被满足。AI平民化将从根本上改变人使用计算机的方式和软件开发行业的商业图景。

在AI平民化的浪潮中,中国有可能会尤为被动。在物欲横流的冲击下,中国没有像样的程序员社区,中国的教育体制培养出的是在AI时代被抛弃的程序员和知识搬运工,有科学专研精神的人不多,全民创造力无法被激发。AI平民化水平低的国家将在未来的生产效率和创造性竞争中,落后于AI平民化水平高的国家。

AI与Web3结合的破局

OpenAI创始人Altman支持的一个Web3项目是WorldCoin。WorldCoin运行在以太坊区块链上。它要做的是建立一个全球最大、公平的数字身份验证体系。为了区别谁是活人、谁是机器人,WorldCoin通过扫描人眼的虹膜来实现身份认证。到今天,已经有数百万人主动接受了WorldCoin的眼球扫描。如果不是区块链和数字世界的“原住民”,普通人很难理解这个项目的意义何在。

以区块链技术为基础的Web3在2022、2023年陷入低谷,Crypto市场处在慢慢熊市的尾端。技术信徒们的创业热情从Web3完全转移到了AI。

区块链作为数字世界的“生产关系”基础设施,和AI作为数字世界的“生产力”激发工具,有天生结合点。如果相信硅基生命的未来,硅基生命的载体应该存在于区块链上。

否极泰来,自2023年11月开始,区块链资产获得了巨大涨幅,热情被重新点燃。2024年,伴随区块链市场的复苏,AI和Web3在去中心化算力、AI经济价值的实现、智能合约自动化与优化、去中心化数据市场、个人隐私数据的使用、AI创作数字艺术品、数字孪生等方面,会找到突破点。

值得警醒的是,这种突破将快速产生暴富的机遇和归零的骗局。

打磨用户需要的“小”产品

AI时代的大平台、大公司将垄断基础设施,大语言模型的终局只会有2到3家企业和开源模型。AI创业者需要认清这个残酷现实,没有颠覆性的创新和极强的资本能力、执行能力,不要走向“一将功成万骨枯”路上的“白骨”之一。

基于此逻辑,大型科技公司将在平台战斗中巩固先机。从硬件到软件,在开发“+AI”产品的战役中,大公司的实力明显。基于此,AI将极大推动全球的资本开支、经济强势和科技股的牛市。

对应用型开发创业者,必须聚焦打磨用户需要的、完全AI原生的“小”产品。Web 2.0时代烧钱获得用户规模经济的打法不复存在。用户在APP上任何使用AI的动作,都需要支付费用,没有人会用免费模式烧这么多钱。

只有打磨出真正客户需要的产品,帮助客户提升效率的产品,才是王道。开发者需要从第一分钟开始,就有用户付费意愿认可。这种产品不怕小众。但是,由于AI开发平民化的快速发展,创业者开发出成功产品的难度越来越大。

而为了打磨产品,创业者最重要的能力是把需求产品化的能力,要跟上大平台快速迭代的AI技术发展,然后快速而经济地应用到产品需求中。

AI能力带入数据,而不是相反

英伟达金融行业高管认为,随着人工智能的进步呈指数级增长,金融服务公司将把计算能力带入数据,而不是相反。

并非只在金融行业。事实上,沉淀在企业和个人的优质数据已经足够庞大,问题是如何用AI能力全新地发挥这些数据的生产力。学术期刊数据库《知网》也推出了人工智能助手。开发者不需要守着金矿向外寻觅。

据麦肯锡公司称,像OpenAI的ChatGPT这样的深度学习算法,经过企业数据的进一步训练,每年可以在63个业务用例中增加相当于2.6万亿至4.4万亿美元的收入。巨大的金矿等待被挖掘。

开发者应聚焦用AI加持现存的有价值数据,满足用户的效率要求、让大数据在AI时代的场景中开始赚钱。

获取用户对AI的信任

让用户把更多的工作交给AI完成,需要AI获得用户的信任。

经过2023年的新鲜感,见惯了新鲜玩意儿,用户不想再把AI当玩具,而是想用它实现靠谱的真实价值。即使是情感陪伴机器人,也需要有血有肉有情感的真实体验。

能率先可控、准确、高质量地按照用户指示完成任务的AI产品将在2024年获得大发展。

与此同时,构建信任需要更多早期用户拥抱AI的意愿。一件新型事物的普及,如同一个石子投入池塘产生的涟漪。

AI是个新物种,产品开发人员和用户都需要学习如何和它相处。此种适应的过程需要工作方式、思维模式的根本转变。一件事情,如果不用AI试一下,则不知道原来还可以这样做。

比如,我写本文的传统方式是:阅读已有的AI技术和商业方向文章,加入个人思考,然后在文章末尾加上无足轻重的参考文献。而用AI写文章的方式可把顺序完全颠倒过来:先从参考文献开始,让AI阅读并写出参考文献的要点,我再取其精华,加入个人的思考。

这会不会涉及版权和“洗稿”呢?纽约时报在12月底,起诉OpenAI大量采用纽约时报的内容。纽约时报的内容被用于纽约时报的竞争对手生产新的内容。纽约时报认为自己是大冤种。

我认为,不管人还是AI,判断是否有价值内容的金标准是“独立而有价值的思想”。AI和人类的互信模式会和以往的互信模式不同。

工业革命中,机器的意义是帮助人摆脱了重复和繁重的“体力”劳动;AI智能的终极意义是帮助人摆脱重复的“脑力”劳动,帮助人更好的创新。在此目标下建立的可以信任的AI智能机器,可以跳出任何旧法律的束缚,而不应该受到惩罚。

自研大模型赋能终端 国产手机掀起AI普及风暴

自2022年11月ChatGPT面世以来,生成式人工智能的热潮已经席卷全球,成为各国科技领域角逐的焦点。

在这场全球范围内的科技竞赛中,以vivo为代表的中国科技企业积极参与其中。同时,我国也出台了一系列政策措施,支持人工智能技术的发展,推动人工智能与实体经济的深度融合。

2023年11月,vivo率先发布了自主研发的蓝心大模型BlueLM。仅一个月后,搭载这一革新性AI技术的vivo S18系列新品正式发布,迅速在市场中崭露头角,全渠道首销日销量为上一代的143%,助力vivo在2023年W51以16.21%的销量市占率,拿下中国智能手机市场销量份额榜首。

历代S系列,出货量都在数百万级。伴随着vivo S18系列全面开售,这意味着将有数百万用户在短期内迅速体验到AI这一前沿技术成果,vivo S18系列成为当下AI终端普及浪潮中的先行者和普及者。此外,从技术发布到产品落地,“vivo速度“引发行业广泛关注,在AI技术上的前瞻预判和深厚沉淀日渐浮出水面。

爆款引领AI终端普及

在5G普及的历史进程中,爆款产品起到了不可或缺的推动作用。它们不仅在技术上展现出领先的优势,更降低了新技术和新体验的门槛,赢得了广大消费者的青睐,使得新技术、新体验得以迅速走入千家万户。AI技术的普及,同样需要爆款产品的驱动。

vivo副总裁、OS产品副总裁周围曾公开表示,vivo希望利用蓝心大模型的能力,进一步重构系统,并通过智能手机的普及“让AI,走入千家万户”,为每一位用户带来更加智慧且贴心的体验。

据了解,至2021年,vivo S系列累计用户量就已经接近3000万。差不多三年时间,S就已成为中国手机市场中最成功的爆款系列之一。

vivo S18首销当日,一举打破了S系列历史首销增长纪录。vivo S18 Pro搭载vivo全新系统OriginOS 4,将行业领先的AI蓝心大模型深度融合,也将在本月13日开售。

作为全球首批AI大模型手机,vivo S18系列不仅展现了vivo在技术上的领先优势,更为AI技术的发展和普及注入了新的活力。行业领先的AI技术与S系列千万级的“规模效应”相乘,vivo S18系列将成为国内AI终端普及浪潮中的中坚力量。

技术驱动进化“智能体”

AI人工智能时代,手机变革的底层是大模型技术,呈现在用户面前的是交互和体验。扎根于vivo蓝心大模型,vivo S18 Pro走在了手机交互变革的前沿。

集成了基于vivo AI技术开发的首款全局智能辅助蓝心小V的vivo S18 Pro,绝非简单的对话工具,而是成为全能的、拟人的专属“智能体”,能在学习、生活、工作等场景切实为用户带来真正的改变。不需要思考怎么做,只需要告诉它你想要什么。

无论是文档、论文作总结和问答,还是文案创作,又或者是以文创图,都可以。同时,vivo S18 Pro也创新实现AI与影像的融合,能帮你将照片中误入的路人一次性消除,被路人挡住的画面,也能精准脑补还原。

这一切,都源自vivo自研AI蓝心大模型,它全面覆盖用户核心场景,在C-Eval、CMMLU等榜单中均处于中文大模型的第一梯队。

在其他方面,也是如此。从颜如玉、山海青到vivo S18系列花似锦,每一代都有行业首创的技术工艺突破,完成了中国设计语言的现代表达。同时, vivo S18 Pro在拍人这件事上向X系列旗舰看齐,100%继承旗舰同款算法,打造影棚级人像。

正如vivo高级副总裁、首席技术官施玉坚所讲,深厚的技术沉淀是vivo发展的根本,而只有让这些技术走近普罗大众,为用户带来极致体验,才能实现最大的价值,这也是vivo的本心所在。

当前,AI人工智能技术的普及正在深刻改变我们的生活。而中国企业如vivo正通过自主创新推动这一变革。全球首批搭载自研AI大模型、用现代工艺演绎中国设计、以影棚级人像定义人像新标准的vivo S18 Pro,不仅是行业AI终端普及者,也是S系列最强Pro,更是中国企业自主研发和科技创新的成果展示。

从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉

现有的大规模语言模型(LLM)在众多任务中取得了惊艳的效果,但它们在实际应用时仍然会出现生成与事实不符的内容。这种现象如今通常被称为“幻觉”。幻觉问题在真实场景中可能带来严重的后果,大大阻碍了大语言模型的落地。

来自苏州大学和腾讯 AI Lab 的研究者近期提出了一种简单有效的幻觉消除方法。他们首先尝试了从已有的 LLM 中诱导幻觉,构建了一个在事实性层面薄弱的 Weak LLM。在解码时,再将 Weak LLM 中所蕴含的幻觉模式从原有 LLM 的输出空间中消除。

具体而言,他们采用了对比解码(Contrastive Decoding, CD)策略将 Weak LLM 的输出分布从原 LLM 的输出分布中减去。这一先诱导再对比的幻觉消除解码算法被作者们称为 ICD 算法(Induce-then-Contrast Decoding)。


作者们在 TruthfulQA、FactScore 等常用的判别式和生成式幻觉评测集上对 ICD 算法进行了测试。实验结果表明,ICD 均能有效提升原模型输出的事实性,减少了幻觉。在 OpenAI 提出的权威幻觉评测集 TruthfulQA 上,使用了 ICD 算法的 Llama2-7B-Chat 和 Mistral-7B-Instrcut 分别可以和现阶段最优的 ChatGPT 和 GPT4 接近。

论文题目:Alleviating Hallucinations of Large Language Models through Induced Hallucinations

论文链接:https://arxiv.org/abs/2312.15710

GitHub地址:https://github.com/HillZhang1999/ICD

怎么诱导幻觉

作者通过构造幻觉数据,并用其微调原始的 LLM 诱导幻觉构建 Weak LLM。这一策略近期也在 LLM Safety 领域被应用,一些研究者们发现即使是对齐后的 LLM,其安全机制也很容易在少量的微调后被轻易攻破。为了构造幻觉样本,作者们基于现有的事实正确的句子,通过少样本提示策略,让 ChatGPT 自动去修改其中的事实,从而构造大量编造的幻觉样本。

如何利用诱导出的幻觉消除最终的幻觉

作者们使用了对比解码的策略,将诱导幻觉后的 Weak LLM 的输出分布作为惩罚项,来干预原始 LLM 的结果生成。

基于自回归结构的 LLM,其解码过程通常可以建模为:

其中, 是被原始模型  预测出来的下个词的分数分布,并通过 softmax 操作将其转换为概率分布。
为了减少 LLM 的幻觉,作者希望奖励原始模型  的预测结果,而惩罚诱导幻觉后的弱模型  的预测结果,因此,对比解码的过程可以建模为:

可以看到,该算法将 Weak LLM 的预测分布从原始模型中减除。为了控制对比的力度,此处作者额外引入了一个超参数 。最终,可以对上述分布采用归一化,使用得到的新概率进行下一个词的解码预测:

此外,ICD 算法还采用了一种名为自适应合理性约束(adaptive plausibility constraint)的策略,来缓解过度的对比。由于弱模型仅仅在事实性方面效果下降,但在语法等层面仍然保持了原有的能力,所以一味的对比可能导致模型生成内容的崩坏。因此,作者使用自适应合理性约束,仅在原始模型不确定的位置进行对比。更多具体细节可以参考原始的论文。

实验结果

作者们在 TruthfulQA 和 FactScore 两个主流的幻觉评估基准上对 ICD 方法进行了测试。

TruthfulQA 是 OpenAI 发布的采用误导性问题评判语言模型幻觉的数据集。在 TruthfulQA 上,作者采用了多项选择的评估形式,并使用了官方的 MC1/2/3 指标。为了进行对比,作者也实现了原始的贪心解码,以及一些现有的解码策略,如推理时干预解码(Inference-Time Intervention, ITI),层间对比解码(DoLa),和对比不同尺寸的模型的原始对比解码(naïve CD)。

如表 1 所示,基于微调方式诱导幻觉的 ICD 方法,大大提升了 Llama2-7B-Chat 在 TruthfulQA 上的性能,并超越了前人设计的其他解码算法。此外,作者也探索了其他诱导幻觉的策略,例如使用误导性的提示词和直接对比对齐前后的模型,发现这些策略均能带来提升,但效果距离微调还有一些差距。

FactScore 是在人物传记生成任务上评估模型生成结果的事实准确性的数据集。如表 2 所示,作者提出的 ICD 方法也同样提升了 Llama2-7B-Chat 的事实准确性,使其超过了使用贪心解码的 Llama2-70B-Chat。

不同模型规模的有效性

在 Llama2-7B-Chat 以外,该论文额外在 13B 和 70B 版本上测试了 ICD 算法。这里用于对比的 Weak LLM 仍然是 7B 的规模。如表 3 所示,ICD 算法在不同尺寸的模型上展现了稳定的有效性,并且随着模型尺寸的增大,提升效果也有增大的趋势。这可能得益于 ICD 算法(诱导幻觉前后对比)和原始 CD 算法(模型尺寸对比)思想的结合。

不同模型基座的有效性

在 Llama2-7B-Chat 以外,论文也额外在 Baichuan2-7B-Chat 和 Mistral-7B-Instruct 上测试了 ICD 方法。如表 4 所示,ICD 算法在不同模型基座上也带来了稳定提升。并且在 Baichuan2 和 Mistral 上的提升要大于 Llama2。作者猜测这两个模型在许多榜单上超过了Llama2,而 ICD 算法或许能有效地利用效果更强的模型。

与直接用高质量数据微调的对比

ICD 算法需要两个步骤,即诱导和对比。论文额外探索了如果直接使用高质量的 SFT 数据微调模型,是否也能减少模型的幻觉。因此,作者使用了同等数目的幻觉数据和事实数据,分别用于 ICD 算法和直接微调,并进行了对比。

在表 5 中可以看到,ICD 算法提升了原始模型的事实性,而直接微调不仅没有提升,反而引入了更为严重的幻觉。作者猜测这一有趣的现象可能源自于 SFT 阶段的行为克隆,即如果直接教大模型回复任意的问题,而不去评估这些问题是否超过了其能力边界,单纯的行为克隆反而会教会大模型编造事实。表 5 中,这一问题也从直接微调后大模型的回复率急剧上升得到了佐证。

总结

在本文中,作者提出了一种先诱导幻觉,再利用对比解码将诱导出的幻觉消除的 ICD 策略,在多个幻觉评测基准上显著提升了性能。

然而,ICD 算法目前也存在一些限制。例如,它需要两次前向传播,导致推理时延增长。目前 ICD 算法是否会影响原始模型的其他能力,也尚未得到全面的验证。

此外,ICD 算法也提供了一些有趣的研究方向。例如,它可以和检索增强等其他幻觉消除方法结合,对比弱模型和检索增强后的强模型,或许可以带来更大的性能提升。也可以参考混合专家模型(MoE)的思路,训练多个弱模型和强模型,在解码的过程中动态对比。这些均需要研究者们在未来进一步探索。

GoogleX创始人预警:三年内,AI能在所有领域与人类智力工作者媲美

新一轮AI革命影响正深刻影响人类社会。在通往下一代通用人工智能(AGI)时代的道路上,在短期内可预见的人机深度共存的世界里,我们当下既有的社会行为和社会规则,会发生哪些革命性的颠覆?

北京时间12月1日上午,在钛媒体2023T-EDGE全球创新大会·加州分会场上,谷歌无人车之父、Google X实验室创始人、Sage AI Labs首席执行官塞巴斯蒂安·特伦(Sebastian Thrun)就新一轮人工智能所引发的革命,首次发出全新的重磅预警。

在题为《人工智能新时代》(The New Era of Artificial Intelligence)的主题演讲中,特伦认为, AGI是一种与人类智慧相媲美的智能版本,我们在某些领域,我们已经实现了AGI。但是,我们尚未拥有的是,一种可以完成所有这些任务的人工智能。

基于在人工智能领域20多年的深耕,特伦表示,未来三年内,以下五大需要依靠人类智力的工作领域将会被颠覆,我们将看到AIGC在所有领域中都能与人类的智力工作者媲美,这意味着,所有的工作都将发生变化,没有一个工作将不受影响。

医疗行业

放射学、皮肤癌等许多领域中的诊断AI系统,能够在人们发现症状之前很久就发现潜在的致命疾病;AI可以提供个性化精准医学,根据你的背景、你的DNA以及你的个人特征量身定制的,以在最小的损害下产生最大的影响,放弃“一刀切”的时代;AI在药物研发上也起到了巨大的作用。

法律行业

AGI已经能够通过加利福尼亚州的法律入学考试,在表现上已经不逊于任何一所领先的法学院毕业生。律师工作中,与发现相关的,试图找到必要的事实,进行研究和起草文件,现在都可以由人工智能胜任。

汽车行业

我们现在拥有的汽车可以更自信、更安全地驾驶,比人类驾驶更为出色。

客服行业

客服中心的人工智能工具,可以提取最优秀的客户代理的最佳行为,提升14%的生产效率。

教育行业

AI导师可以提供个性化的指导,AI能够真正深入理解每个学习者,而且,它们可以在白天和黑夜中立即做出响应。

这也意味着,我们将重新定义社会的行为和运作方式。有的AI在我们这一边,它们可以代表我们并为我们服务,我们可以信任它们,这将是有史以来对社会的最大颠覆。(点击文末阅读原文,查看完整演讲视频)

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录,经过钛媒体APP删减:

大家好,我的名字是塞巴斯蒂安,欢迎大家来到今天在北京召开的T-EDGE大会,非常遗憾,我无法现场参加,但我还是很高兴能以这样的方式与大家见面。

我们来谈谈2017年,那时谷歌的Google Brain团队发布了一篇题为“Attention is All You Need” 的论文,它利用了相同的机器学习思想,应用于更广泛的架构,有效地将分散的数据库和机器学习结合起来,引发了一场革命。

今天,当我们看到像GPT-4这样的现代系统,接管并能够在人类水平上有效执行时,我们都能感受到这场革命,这是其中的架构,我就不花时间解释它了,因为它很复杂,有很多层,但我建议大家深入研究并完全理解它,因为这是一项出色的工作,这种架构能够将机器学习应用于大量的新系统,包括在这种情况下,词典和数据库。

现在我们都亲身经历了最近的事件,即GPT的出现,作为一种与计算机互动的新方式,在很多方面,GPT是对技术的渐进性理解,是一种演变,在技术方面,对这项技术能做什么的理解一直在进化。

今天的问题是,GPT是人工智能领域的一个“黑天鹅”事件吗?

解释一下什么是“黑天鹅”事件?这个术语的提出是因为黑天鹅很少见,发现一只黑天鹅意味着一个巨大的惊喜,在计算机领域,我一生中已经经历了两次黑天鹅事件,一次是互联网的出现,最后一次是iPhone的发明。

互联网首次使人们能够在数字化的世界中跨越海洋和许多国家无边界地进行交流,iPhone的出现更进一步,将互联网放入了你的口袋,创造了新的业务,如Airbnb、Uber以及中国的滴滴。

因此,这是完全可以想象的,在接下来的20年里,我们将看到全新的公司崛起,全新的商业模式涌现,这对于人类来说将是完全伟大的,今天有大量的应用正在被人们追求。

显然,当你看到大型语言模型中的转换器时,你会发现它们以前所未有的方式回答问题。因此,如果你的业务涉及客户互动以及客户进行研究并提出问题,你现在可以重新定义这种互动的方式,总结大量信息并以我们理解的形式呈现。

为什么一本书要有300页呢?为什么你不能在按下一个按钮的同时将这本书缩短到10页?你可以在10分钟内阅读完它,起草文件方面,你已经看到GBT在起草文件中的无与伦比的能力,如果你还没有看到,请访问GPT或任何其他人的工具箱,要求它为你起草法律文件、一首歌曲,或者一首爱情诗,无论你需要什么,它都可以为你起草。

机器翻译方面,GPT可以翻译成90种不同的语言,现在的语音识别水平非常好,与一个以母语为基础的说话者相比几乎无法比拟,这意味着你可以用任何你想要的语言进行交流,我可以与我们的中国保姆流利地用中文交谈,但与我的手机交谈时使用英语,这现在有了出色的口头和书面汉语写作软件。

我们相信这是软件工程师中智能的巅峰,你现在可以使用任何语言进行编码,你拥有一个工具箱,可以使你的代码速度提高10倍,甚至我们认为是独特的人类事物,比如创造性地生成艺术。

我稍后会举个例子,人工智能现在与人类表现竞争,以展示我们应用这些技术的我的工作的例子,利用人工智能的主要方式之一是一家名为Cresta的公司,我与我的学生们一起经营了5年。

在Cresta,我们提供给客服中心的人工智能工具,这些是在呼叫中心和客服中心工作的人员,他们与客户打交道,向客户销售产品,处理客户关注事项以及客户服务和留存,现在,正如每个呼叫中心操作员都知道的那样,一些呼叫在业务中是极好的,而其他一些则不太理想,这与他们的能力、技能水平和教育水平有关。

通过人工智能,他们可以提取最优秀的客户代理的最佳行为,每当一个客户代理满足了客户,我们就有一个积极的训练示例。然后,我们训练人工智能大脑,这个大型语言模型,以理解构成出色客户互动的要素,然后利用这个训练信号来赋能所有人。

麻省理工学院和斯坦福大学刚刚与该领域的合作伙伴共同发布了一项大规模研究,我们将立即看到一个14%的生产力增加,虽然这个数字看起来很小,我对这个数字感到比较失望,考虑到美国每年在呼叫中心和联系中心花费数十亿美元,这仍然是一笔巨额资金。

我还将大语言模型用于教育。教育的痛点是获得个性化的指导,有一个理解你的人,以你的速度和知识水平为你进行个性化培训,以确保你和你的孩子在教育领域的能力得到充分展开,在我创办的全球科技教育公司Udacity中,我们今年春天从人类导师转向了AI导师。

虽然AI导师可能还不如人类导师那样出色,但它们仍然要好得多,并且在某些方面更胜一筹,因为它们真正深刻理解每个学习者,而且,它们可以在白天和黑夜中立即作出响应,在我们基于大型语言模型推出AI导师的那一天,我们的互动和参与次数从每天200次增加到了20000次,这对于将AI系统变成个性化导师有多大的差异呢?

这只是开始,我梦想着一个世界,每个世界的孩子,每个世界的人都能发挥他们的全部潜力,因为他们身边有一个几乎不需要花费就能建立的AI导师,让他们有学习任何他们想学的东西的能力。

因此,他们的唯一限制不再是我们居住的地方、成长的地方或能在教育上花费的钱,而是我们可以共同参与全球最好的教育,无论年龄、背景或地理位置如何。

这将是一场改变游戏规则的革命。现在还有许多其他方面,人工智能将改变人类健康,我已经提到了今天在放射学、皮肤癌等许多领域中的诊断AI系统,它们能够在人们发现症状之前很久就发现潜在的致命疾病,让我们提醒大家,癌症是一种可治疗、可治愈的疾病,只要你能早日发现它。

此外,你将会看到个性化精准医学的时代,其中药物是根据你的背景、你的DNA以及你的个人特征量身定制的,以在最小的损害下产生最大的影响,放弃“一刀切”的时代,进入个性化精准医学的时代,将对医学产生深远的影响。

最后,AI在药物研发上起到了巨大的作用,原本需要数周甚至数月的工作,现在在药物设计的关键方面只需一毫秒,在这个过程中,美国和中国已经涌现出了许多可靠的公司,让我们认真追求医学的圣杯,延缓衰老的治愈方法,想象一下,如果找到一种能够阻止或减缓衰老的方法,并给予人们更长更美好的生活,你不正掌握了有史以来最大的商机吗?

现在,人工智能将影响许多其他职业之一就是法律职业,这很重要,因为至少在美国,律师的费用非常昂贵,我为我最优秀的律师每小时支付大约1000美元。这是一大笔钱,相当于其他人一个月的收入。

那么它是如何影响法律职业的呢?很大一部分律师工作与发现相关,试图找到必要的事实,进行研究和起草文件,所有这些事情现在都可以由人工智能非常非常胜任,现在有许多人工智能公司涉足这一领域并提供相关服务,但是随着发展,人工智能甚至可能做得更多,它可能成为你的律师,你解决冲突时的法官。

今天,每一次人类违规行为都受到某种法律背景的约束,这可能是一份合同、一项法律,或者只是一种惯例,几乎所有这些互动都缺乏对了解法律的人的深刻见解,在未来,法律可能成为一个全包容的主题,每天影响着我们所有人,并通过更加遵守和更深刻理解运营规则来使我们变得更好,但最终目标将是AGI,这将改变我们所有人。

什么是AGI?AGI是人工通用智能的缩写,它是一种与人类智慧相媲美的智能版本,我认为我们在某些领域已经实现了AGI,我们现在拥有的汽车可以更自信、更安全地驾驶,比人类驾驶更为出色,通过加利福尼亚州的法律入学考试,这些人工智能系统在表现上已经不逊于任何一所领先的法学院毕业生,这些毕业生成为了加利福尼亚的律师。

但我们尚未拥有的是一种可以完成所有这些任务的人工智能,我认为在未来三年左右,我们已经非常接近,在三年内,我认为你将看到人工智能系统在所有领域中都能与人类的智力工作者媲美,这意味着所有的工作都将发生变化,没有一个工作将不受影响,这意味着我们将重新定义社会的行为和运作方式,有了人工智能系统在我们这一边,它们可以代表我们并为我们服务,我们可以信任它们,这将是有史以来对社会的最大颠覆。

一切都源于这个非常简单的想法:计算机是否可以接受培训?它们是否能够学习?

答案是肯定的。可以通过给出两个例子,其中一个例子来自最近的一篇论文,类似于智能体系的计算,这里展示的是一个对数图,其中在所有三种情况下,水平和垂直线都以对数形式水平表示,是复杂性的度量,比如用于训练网络的计算量,输入网络的数据大小通常为数百亿份文档,垂直方向上找到的参数数量是测试规律,通过测试规则,我们衡量这些网络犯错误的数量。

某种测试涵盖了英语语言测试、法律测试,或者是用对数形式表示的自动驾驶汽车的驾驶测试,从历史上看,所有这些系统都表现为一条直线,这为什么很重要呢?因为随着时间的推移,我们的系统将呈指数增长,这要感谢摩尔定律,因此,水平对数形式基本上是时间的刻度,同时也意味着随着时间推移,我们的损失、误差率将呈指数下降,它们变得越来越小。

因此,我们生活在一个世界中,看到随着时间的推移呈指数级别的进步,多亏了这个被记录的现象,决策变得越来越好,我们看不到它停止变得更加聪明,只是时间问题,它们比我们所有人都更聪明。

我自己也包括在内,一旦我们有了人工智能伴侣,我们在今天所做的事情上将提高100倍的效率,这意味着你和我在两周内所做的事情可以在1小时内完成,这不是令人惊奇吗?这将会发生,我希望在我的有生之年(内),这意味着将为我们所有人提供更多的创新机会,更多的创造力,发现更多我们迫不及待想要开始新生活的事物。

非常感谢!

(本文独家首发钛媒体APP)

CES2024:ChatGPT 已经杀疯了,AI海啸已来!

如果你在等待为了平息关于生成式人工智能的喧嚣,也许可以拉一把椅子。围绕人工智能的热潮丝毫没有平息的迹象——这一事实将在今年的 CES 上变得更加明显。

美国消费电子行业盛大的年度盛会 CES 将于 1 月 9 日重返拉斯维加斯。这是一场为期四天、熙熙攘攘的大型科技集市,展厅里摆满了新产品和充满希望的初创公司,以及触手可及的原型。CES 是一个贸易展,在这里签署销售和分销协议,概念车在拥挤的街道上滚动,科技记者和参观者在地板上徘徊寻找杰出的新产品。今年,许多首次亮相的产品都将配备大量人工智能技术。

多年来,生成式人工智能技术在公众意识的表面下浮现。它终于在 2022 年 11 月成为众人瞩目的焦点,当时 OpenAI 发布了ChaptGPT的第一个迭代。闪亮的新型聊天机器人的到来拉开了人工智能军备竞赛的序幕。由于到去年 CES 举办时,这次爆发的余波尚未完全饱和科技行业,因此去年 1 月在拉斯维加斯并没有进行太多关于 GenAI 的讨论。因此,事后看来,CES 2023 看起来几乎是原始的,比移动电话以来最伟大的技术革命晚了不到六周。

到 2024 年,情况将不再如此。“去年,我们没有像预期那样在 CES 上发布完整的人工智能公告,”Moor Insights & Strategy 首席分析师 Anshel Sag 表示。“如果你认为去年是波浪,那么今年将是海啸。”

预计在 CES 上人工智能将无处不在:汽车、踏板车、耳机、相机、扬声器和电视。在某些情况下,这些产品将仅包含另一种访问 ChatGPT 式问答服务以处理语音命令的方式。但在其他情况下,这些进步可能会更具影响力。英特尔、高通和 AMD 等公司预计将推出支持人工智能服务的芯片。这些芯片将在本地处理人工智能任务,而无需向云中的服务器发送请求,然后等待响应,从而使计算机视觉、语音到文本服务和生成计算等功能变得更加快捷。

CES 是围绕行业趋势进行叙述的地方。Sag 表示,随着本届 CES 人工智能的丰富,这很可能会发生。“人工智能将会压倒一切,”萨格说。“它将变得如此普遍和占主导地位,以至于有些人会厌倦它。”

所以您准备好了吗?AI不会替代所有人,但是可能会替代不会用AI的人!

AI创业公司扎堆义乌“淘金”

2023年上半年人见人爱的大模型,逐渐“失宠”。前有百度创始人李彦宏说“重复开发大模型是资源浪费”,后有百川智能联合创始人洪涛说“99%的行业大模型都可能被替代”。

百模大战后,比参数拼评分乏力的大模型创业者们,逐渐“醒悟”:卷AI原生应用才更有价值。互联网大厂直接将态度体现在行动上:百度亮出20多款AI原生应用、抖音正式上线AI创作功能、吴泳铭接棒阿里“一号位”,开启淘天的AI时代……

初创企业也纷纷在各大论坛、路演中施展拳脚,成百上千的AI应用,将触角伸向电商、金融、游戏、办公等领域,包括但不限于AI绘画、AI翻译、AI视频等工具。

然而,从9.9拍写真的妙鸭相机,到跨语言翻译视频的HeyGen,大多数AI应用产品,难以摆脱公域流量出圈即顶峰的宿命。“昙花一现”的背后,问题指向了商业化落地,场景则是绕不开的关键因素。

被众多掘金者称为“创业天堂”的义乌,近期吸引了众多AI创业公司前去“淘金”。

不是北上去不起,而是义乌更具性价比

“前方到站是义乌,请下车的旅客提前做好准备。”感受义乌的人流,是从火车站听着行李箱拖动的声音开始的。2023年伊始,不少从互联网大厂裸辞、刚毕业的年轻人,疯狂涌入“世界超市”义乌,他们目标很明确,创业、淘金。

在小红书、抖音等社交平台,#裸辞,义乌创业#的帖子成为新的流量,攻略、见闻类评论如影相随。2023年8月,义乌市场经营主体突破100万,而义乌的常住人口不到200万,也就说2个人里,可能就有一个是创业者。

这里不是一线城市,试错成本低;一年发出超100亿的快递,产品销往世界各地;多年营造的营商环境,让每个人都有机会重新开始;就在今天(1月2日),浙江省科创母基金(二期)落地义乌,规模超30亿,鼓励科技创新……始终充满活力,或许这些就是吸引大家前往的原因。

前赴后继的创业者不计其数,义乌因此被称为“民间商学院”,它用持续增长的数字告诉大家:“义乌值得”。今年前11个月,义乌进出口总值首次突破5000亿元,达到5221.2亿元,同比增长18.1%。只是,这样的增长并没有让当地商户心安,即使是自己工厂的进出口销售额同样在增长。

这种不安情绪并非无中生有,近些年,整体供应链优势仍在,但原材料、人工等成本上涨,加之全域电商兴起,渠道变迁导致订单呈现“小而散”的特征,传统工厂正在失去曾赖以生存的低成本优势,同时流量贵、运营转化变低始终是缠绕着中小商家的难题。

2023年初ChatGPT的火爆,让AI获得前所未有的关注度,不少义乌商家也嗅到AI工具能在运营、办公、营销等方面,节省一定的人工成本,并通过不同途径试水。商城集团同样看到了AI给传统贸易带来的机会,决心投身其中的同时,深入思考“义乌有什么,义乌能做什么。”

40多年来,义乌凭借着“一盘好货”吃到了后端供应链的红利,但不得不承认在前沿科技面前缺乏技术基因,加之大模型自诞生起就意味着需要大量资金投入,自研大模型并基于模型开发AI应用,是一件性价比极低的事。

深入思考后,义乌商城集团与人民网、腾讯、清华大学等机构,达成战略合作,发布全球首个商贸领域大语言模型。具象的表现为Chinagoods AI 2.0的升级,众多AI创业公司抢先入驻。

专注抖音飞书AI协作和新媒体带货的企联AI,就是首批入驻的创业公司。在义博会现场,该公司市场总监邵雄与超100名义乌商家建立了联系。他感知到不少商家有心用AI工具去弥补企业在发展过程中遇到的瓶颈,但无力去落地,一方面大多数中小微企业没有足够的人力、财力自研AI工具,另一方面是工具使用的门槛和自身能力的限制。

这与当年小程序诞生类似,几乎所有人对小程序的架构、能力边界、应用场景都十分迷茫,企业独自摸索,小程序如蜗牛般向前发展。直到微信服务商的出现,一边掌握小程序的底层架构,一边对接企业帮助其打造专有小程序,在微信生态实现获客、交易、留存。

微盟、有赞的脱颖而出,从侧面印证着服务商存在即合理。进入AI时代,亦是如此,市场可能不需要太多大模型,但需要更多AI服务商。灵图科技是专注AI图文处理的服务商,为义乌小商品定制AI图文处理及商品详情页生成。

珠宝饰品是义乌的支柱产业之一,灵图科技联合创始人何道婷介绍道,饰品是占画面面积非常小的物体,另外有的吊坠、手链采用镂空设计,导致AI生成商品图时技术难度大。

在精细度上下足重功夫的灵图科技,认为义乌市场和他们的契合度极高。而伴随着义乌饰品商家使用其产品次数更多,新的需求和中间出现的问题也将推动他们的产品不断迭代。 

这与卓奥优效的王童生不谋而合,其公司主要是为企业提供品牌营销方案,在他眼中,义乌本身的供应链完整,需求明确,可以有效减少沟通成本。其次是义乌不少品类形成大规模,有了标杆案例后,能更好切入整个行业。

放眼全球,义乌市场都是极具代表性的传统贸易市场,能提供“丰富AI原生应用”场景,专注智能对话与私域运营的句子互动就把义乌看作最大的落地场景,从商品数字化、创意生产、智能发布到智能客服等更多环节,AI技术都能渗透。

拥有“小商品大流通”应用场景的义乌并不想“吃独食”,反而以开放的态度欢迎服务商来义乌。因此,被贴上“高大上”标签的AI创业公司,扎堆到义乌淘金,更加顺理成章了。只是在人人都高喊AI之际,市场中的声音也复杂起来。在机会和乱象中的一次赛马

花开两朵,各表一枝。

虽然都是AI应用,但在义乌不同服务商讲述着不一样的故事。走在街头随处可见的AI数字人广告、AI翻译的名片;接二连三的营销电话,告诉你888元/套方案,连续包月还有折扣……

走访义乌产业带时,有部分商家向鲸商透露,被不少AI应用服务商骗过了:产品五花八门,效果不明显,售后也比较困难,就是一个大坑。

市场乱象也在特看数字人产品经理清慎那得到了验证,他在服务客户中了解到,上半年市场上涌现出了一群AI应用代理商,天花乱坠地说数字人直播能赚多少钱。“打着帮你赚钱的旗号割韭菜。

乱的背后,是行业标准不统一的表现,也是机会面前,大家都想分一杯羹的野心。2000年前后,马云创办的“中国黄页”是中国第一个提供互联网商业信息发布的网站,在这之后无数门户网站如雨后春笋般冒出。

当时义乌商家乘着中国加入世贸组织的东风,纷纷加码出口业务。面向复杂国际市场,很多商家不知所措。能解决企业贸易间的信息匹配问题的网站,成为不少商家的一种“解惑思路”。

一帆日用品创始人朱燕俊曾向鲸商回忆道,当时很多地推的销售员上门推销产品,起初都是抱着试一试的心态,后面发现理想与现场差距很大,久而久之选择了取消这部分的投入。一帆并非个例,这些良莠不齐的网站也逐渐不复存在。

回头来看,站在义乌商城集团的角度,在互联网大潮中确实是错过了平台化的机会,Chinagoods的诞生也仅仅三年的时间。从而义乌商家从面对黄页地推大使到电商运营服务商,都是需要自己去判断和试错。

进入AI时代,商城集团主动革新,做出改变,转型“第四方服务平台”。在面对海量的服务商时,通过战略合作将其吸纳到Chinagoods平台。

从以往市场乱象的情况来看,“信任”是服务商和经营户之间的“柏林墙”。2023年义博会后,王童生在与大多数商家的沟通过程中,他最大的体感是不信任,从而难以推进下一步的合作。

而通过平台去找服务商的话,在他看来这能让信任问题得到缓解,因为本身平台就会筛选掉资质不全的服务商。何道婷同样肯定了平台带给她们的价值,她告诉鲸商自己在做线下调研的时候,很多商户也告诉她遇到过空壳公司,卷一笔钱就跑了。

“从0开始切入市场,很难去建立信任的。”何道婷说,商城集团介入后,对服务商市场起到的还有规范作用,这对商家和服务商都是很好的帮助。

在Chinagoods平台的牵引下,不少服务商离经营户更近了一步,而在市场乱象仍未遏制,标杆服务商未出现时,这仍是一次持久战。在清慎看来,“要用产品效果说话。”

以数字人为例,他认为衡量效果的标准分为两个方面,客观上就是实际直播数据,真人和数字人卖货量的对比;而主观上的因素则相对较多,如整体的视觉效果、自然度、是否符合直播运营的需求等。、

在选择合作对象时,特看也会衡量客户是否适合去做AI这一块的投入,并非来者不拒。清慎表示,成功的模式很重要,大企业往往更具试错的能力,一般都会选择和行业头部合作,跑通之后再蔓延至同行的中小商家。

在邵雄眼中,要做长久的生意需要提供整个过程的服务。以ChatGPT举例,有用户付费了一年的费用,结果中途接口断了,无人问津也很难拿到退款。因此企联AI会在强调自己的合规性,以及从接口搭建、工具使用、后台维护等全链路服务。同理,良性的循环,客户的付费意愿也随之加强。

挤“泡沫”,找“杠杆”

作为跨境贸易主枢纽之一,义乌以其完备的供应链脱颖而出,成为各电商平台的主要货源地。近年来,经营户都在探索用数字化工具,给自己的生意降本增效,找到增长突破口。

随着人工智能生成的图片和视频文案赢得爆发,AI工具获得了大家的青睐。当经营户都试图抓住跨境电商这一轮机会时,义乌也被AI创业公司当作产业应用商业化的“杠杆”。

从“技术成熟度曲线”的角度来看,AI技术萌芽到稳步爬升的过程中,投机取巧去市场割韭菜的公司一定也不在少数,其中不乏临时换上“AI马甲”创业公司,渗透培训、代运营及代开放等全链路,当快递打包大妈都在激烈讨论AI时,这股AI“泡沫”也就面临破灭边缘了。

面对生死,真正专注技术与场景创新相结合的创业公司和大厂,则在竞争中挤“泡沫”。

特看数字人的创始团队都出身于大厂,对大厂的组织架构与业务模式上的弱点有深切感受。在阐述其与大厂的竞争时,他们清晰的知道自己的优势在哪。一方面,创业公司组织架构更灵活,反应速度快,产品迭代更迅速;另一方面,创业公司业务更聚焦,精力集中在细分场景,提供贴身服务,产品效果和服务都有更好的保障。

“小创新靠大厂,大创新仍然要靠小厂。”百川智能创始人王小川在接受媒体采访时,同样肯定了创业公司的价值。而大厂多年积累的用户数据和反馈,这是创业公司恰恰缺少的。言外之意,挖掘更多客户,在实践中迭代产品,则是这些创业者们的必由之路。

义乌市场有7.5万个商位,26个大类,拥有庞大且优质的经营户。在泡沫之外,只有真真正在技术上投入,在应用上开发和创新并深入行业做服务的AI创业公司,才能经得起市场检验,获得经营户认可,并有希望成为某一领域或者品类的Top服务商。

付出往往会有回报,有了标杆案例后,这些公司也能将成功经验向义乌市场其他商户、品类一一复制,并拓展至其他产业带,与义乌“前店后厂”、“工贸联动”的特质相呼应。这群创业者的起点可能是义乌,终点则和义乌经营户一样,“买全球买全球”。 

当义乌商贸流通的产业厚度与垂类行业深度,被AI算法不断训练、学习,沉淀的大数据资产,则会进一步加速垂直品类产业数字化,这一现象可能最先体现在产业云SaaS平台,后端进一步深入产业源头工厂,前端多元化触达分销渠道,倒逼设计、制造、流通等多环节,更具碎片化、柔性化能力。

2024年的序幕已拉开,大量AI创业公司在应用落地和场景开发上,蓄势已久,爆发点可能就在今年。义乌作为最大商贸应用场景,暗流涌动正在进行时。企业竞争,不是大鱼吃小鱼,而是快鱼吃慢鱼。谁能在机会面前,快速抢占先机,谁就有可能率先获得话语权。

从文生图到文生视频,AI行业卷疯了

前不久,身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂,让人不可思议的是,动画版的马斯克不仅神形兼备,背景和动作也非常连贯合理,而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便能跃然于屏上。近几年,随着AIGC赋能多业态应用的加速落地,整个行业的热潮,已经逐渐从文生文、文生图,转向了文生视频领域。事实上,AIGC从文字到视频是大的发展趋势,不少产业人士已经感知到了市场的风向,国内字节跳动、阿里、百度等科技大厂均已跑步入场。

AIGC迈入视频时代据了解,字节跳动于11月18日推出了文生视频模型PixelDance;阿里紧随其后也上线了Animate Anyone模型;百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。显然,AI技术与文生视频的融合已经在业界掀起了一股新的热潮。而国内玩家之所以如此积极地下场布局,其中的原因不言而喻。

首先,文生视频应用非常广泛,具备巨大的市场潜力。短视频市场虽然方兴未艾,但短视频的制作能力却跟不上各个平台爆发的短视频需求。而文生视频技术的日趋成熟和广泛应用,或将为当下热门的短视频市场带来一些变数。比如,影视和游戏等行业就是文生视频落地的重要场景,文生视频用文字就可以编辑和生成想要的故事情节,实现创意辅助和降本增效。而凭借为内容生成赋能这一独特优势,文生视频的前景也是毋庸置疑。

其次,文生视频操作十分便利,能有效降低各项成本。众所周知,个性化的视频制作麻烦、成本高昂,所以一款简单的视频生成工具,就成了不少行业和企业的渴望,而AI文生视频技术能力的突破则为这一问题带来全新解决方案。文生视频顾名思义就是无需视频制作技巧,仅用简单文字就可以生成想要的视频素材,不仅如此,还能随着输入场景和关键词不断更新,简直大大降低了视频制作的门槛和成本,可以说是创作者在数字化时代下的“福音”。

最后,文生视频产品功能惊艳,能进一步增强企业竞争力。在当下的AI赛道上,文生图的应用早已层出不穷,相比较而言,能够完全“攻下”文生视频这一阵地的玩家却是寥寥无几。归根结底,是文生视频的产品功能更加强大,其难度自然也就可想而知了。只不过,高难度往往伴随着高价值,若是有哪一个企业能凭借强大的算力、跨领域合作能力和技术自主性等优势引领这一赛道,那么其在行业内形成差异化优势也将指日可待。

万丈高楼平地起文生视频作为一种新兴的传媒形式,正以前所未有的方式影响着我们的日常生活。目前,在企业宣传、数字化人、科普创作、线上社交等领域都对文生视频技术有所运用。而为了提高视频生成的流畅度、真实感,国内入局的玩家如字节跳动、阿里和百度等都在多个方面下足了功夫。

一方面,各玩家收集了大量数据,以提高视频生成效果的多样性。文本生成视频模型往往需要大量数据来学习字幕的相关性、帧照片的写实感和时间的动态信息,而缺乏高质量配对的数据集,就难以合理组合人物、难以合理架构场景,因此,生成视频的合理性及连贯性就会大打折扣。阿里为了提高生成效果的多样性,就让其研究人员收集了大约3500万单的文本视频对和60亿文本图像对来优化模型,让生成的视频达到了预期效果。

另一方面,各玩家设计了分层编辑器,以提高文生视频语义的一致性。从简单文字生成高质量视频,就需要文生视频产品能够准确预测文字的意图,然后在保持输入文字内容和结构的同时生成精确的运动。为了达到这一目标,阿里的研究者设计了两个分层编码器,即固定CLIP编码器和可学习内容编码器,分别提取高级语义和低级细节,然后将其合并到视频扩散模型中,更好地确保了低分辨率下生成视频的语义连贯。除此之外,各玩家还提高了视频分辨率,以保证视频生成效果的高质量。文生视频最理想的效果就是用户给出提示词,系统自动生成任何风格相对应的视频,但这就对视频分辨率提出了不小的考验。阿里的文生视频将视频分辨率提高到了1280×720,还优化了初始的600个去噪step,以改进生成视频中存在的细节、伪影和噪音问题。字节跳动文生视频也提出了基于文本指导+首尾帧图片指导的视频生成方法,使得视频生成的动态性变得更强。

打铁还需自身硬随着人工智能和视频技术的快速发展,AIGC行业正在向AI视频倾斜,AI文生视频的爆发期或许即将到来,而参与到AI视频创作中的玩家也将会越来越多。即便是在这样的大环境下,不管是已经推出模型的字节跳动和阿里,还是正准备推出插件的百度,能入局文生视频赛道,其自身都有着不可忽视的倚仗。

一来,参与玩家算力储备充足,能很好地克服文生视频在技术上的不足。作为文生文、文生图的升级,文生视频对算力以及模型的工程化能力要求更高。据了解,文生视频的人工智能模型参数为10亿级别至100亿级别。而国内在文生视频领域有所布局的头部玩家中,无论是字节跳动还是阿里、百度,其在参数上的积累都已经十分深厚。可见,这些具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

二来,参与玩家行业经验丰富,能大大加速文生视频面世和迭代的速度。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性,一定程度上来说,文生视频可以看作是文生图的进阶版技术,这也就意味着,文生图的技术和经验可供文生视频加以运用和参考。而众所周知,字节跳动、阿里、百度等玩家早已在文生图领域有所深耕,甚至有的产品也已投入商用,凭借在文生图技术上的积淀,其在文生视频领域也有望实现大幅进步。

三来,参与玩家资源整合能力强大,能够为其文生视频的发展提供助力。相较于文字和图片,视频能承载的信息量更大,这也就是说,想要生产出更加生动、高清,真实感更强的视频,各玩家在文生视频上的投入成本也将更高。不过,值得一提的是,作为互联网大厂,阿里、百度、字节跳动经过多年发展,其在人才、资金、算力等众多资源和实力上的优势和权利不容小觑,得益于此,其文生视频产品也将拥有更强的竞争力和影响力。

山雨欲来风满楼文生视频不仅颠覆了传统媒体行业,也为内容升级和产业进化带来了许多新的商机和可能性。只不过,目前国内文生视频技术还在发展的初级阶段,虽然看上去文生视频与文生图的逻辑极其相似,但事实上,文生视频的难度要大得多,需要突破的瓶颈也有很多。

一是,文生视频数据要求高、计算难度大,参与玩家离产出令人满意的视频还有很大距离。相较于文字和图片,视频在多维信息表达、画面丰富性及动态性方面有更大优势,但这同时也意味着,文生视频对算力的需求将进一步加大;文生视频所涉及的自然语言处理、视觉处理、画面合成等领域,需要攻克的技术难点也在增加。而国内的玩家,目前仍然缺乏高质量配对数据集,因此其在语义准确性、清晰度和连续性等方面将会面临严峻挑战。

二是,文生视频成本耗费大,商业模式较单一,参与玩家想要将商业化跑通还有一定难度。与文生图相比,文生视频的计算复杂性提升,其成本耗费也会相应有所增加。另外,图片生成类的商业模式较为单一,收费模式和收费依据较为趋同,而视频生成模型的收费依据则与其类似。虽然图片生成类在多模态大模型中的商业化程度较高,可为视频生成的商业化前景提供一定参考,但作为新兴产业,文生视频的商业化想要跑通仍需一定时间。

三是,国内外企业纷纷加大了对文生视频的投入和研究,该赛道的竞争将会进一步升级。AI视频生成赛道已然十分热闹,不仅有美国AI初创公司Pika labs发布的“Pika 1.0”,还有谷歌推出的AI视频生成模型“W.A.L.T”等。而除了国外企业对文生视频技术的高度重视外,国内百度、阿里、字节、腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足该领域,并推出了相关的人工智能模型,显然,视频生成领域的竞争正日趋白热化。从文生图到文生视频,AIGC赛道的竞争已经非常激烈。虽然国内文生视频的进展相对缓慢,尚且没有明星产品的出现,但更多有人才、有技术的文生视频公司正在不断涌现。只不过,除了上述挑战之外,文生视频目前还有一些数据隐私和安全性问题需要解决,真正的商业化运作和盈利能力也还有待验证。而谁能在这次“跑马圈地”中成为最终的赢家,我们也只能拭目以待。

电影“AI化”已成定局,华为、小米转战入局又将带来什么?

从华为、Pika、小米等联合打造电影工业化实验室、到Pika爆火,再到国内首部AI全流程制作《愚公移山》开机……业内频繁的新动态似乎都在预示着2023年国内电影开始加速进入新的制片阶段,国内AI电影热潮即将来袭。          

此时以华为为首的底层技术科技企业加入赛道,对于国内电影制作而言,或许意味着一场弯道超车赛即将开始。          华为入局影视行业所为何来?          

科技类企业正在加速入局AI影视行业。          

今年11月初,电影工业化实验室宣布与华为、小米、商汤、Pika Labs等科技公司合作,共同探索用AI技术打造电影工业化3.0。          

同月月底,刚刚加入电影工业化实验室的初创公司PikaLabs首次全网公开发布AI视频生成器1.0测试版本。          

事实上,科技企业布局影视数智化赛道早有踪迹。以华为为例,2021年华为云就与鸣锣影业、中国电影科研所、上海度假区管委会等多方,在5G数字影视产业、中国影视工业化等方面达成长期战略合作。2023年华为又与华策影视在数字版权保护、影视制作技术标准确立和影视行业人工智能应用等多个维度开展合作。              

这背后的核心逻辑在于,AI技术赋予影视行业巨大的增量价值,进而驱使众多科技企业加入。彭博行业研究报告指出,生成式AI市场规模将从2022年的400亿美元,增长至2032年的1.3万亿美元,未来10年年复合增速有望达到42%。而其中,东吴证券指出,在巨大的降本增效以及创意需求下,影视行业综合音频、视频、文本,是生成式AI的优质落地场景。          

反之来看,站在当前时点,以华为为首的AI科技类企业陆续入局AI影视行业,在某种程度上也意味着国内影视行业正极力加速生成式AI在业内的落地,促使AI赋能影视行业。          

正如,一经发布就瞬间火爆全网的Pika Labs 1.0也从侧面印证了AI影视应用离商业化不远了的。数据显示,PikaLabs1.0发布后为该网站带来20万+访问量,11月环比上涨62.8%。          

一般来说,在新产品、新技术或新兴产业商业化前期,率先实现业绩兑现的环节总是更能打动资本。在AI领域同样如此,相比于技术端,AI应用侧作为盈利最先直接兑现的环节,其在产业化初期更能打动以寻求回报为主要目的的投资者们。         

 而此次PikaLabs1.0采用全新的AI模型,展示出的100%纯文本视频生成能力,以及以3D动画、动漫、卡通和电影等不同风格生成和编辑视频的应用能力,正是证明了AI影视应用产业化指日可待,商业价值即将兑现这个事实。因此消息一经传出,瞬间点燃了二级市场AI+视频生成概念的炒作情绪。          

资本的故事总是让人沉坠其中,而国内AI底层技术的绝对舵手华为,携手多家科技企业的强势加入似乎又在理想与现实中增添了肯定的一笔。那么,此时加速推进的“AI化”又将为国内影视产业带来怎样的机遇?            

 华为上场正是时国产电影迎来契机          

复盘内容产业的发展历程时,不难发现,过去多年的互联网时代中,日益蓬勃发展的以信息网络技术为主的底层技术是内容产业进步的主要驱动力之一,也是该产业更新迭代中必不可少的支撑点。          

因此,当前AI技术对电影行业的冲击,或许将为中国电影工业化带来不可估量的机遇。华为产业发展副总裁燕兴表示,“随着云计算、XR、AI等技术的快速发展,虚拟制作迅速推动影视质量和效率升级。”“行业的每一个环节似乎都正在经历着重构,影视产业工业化也进入到了科技赋能的阶段”          

此时,以华为为首的科技企业成为影视行业中不可缺失的力量,助力科技赋能电影制作的整个流程。          

以华为为例,截至目前华为已打造涵盖前期创意、中期拍摄、后期制作及发行等全流程的影视数字化服务平台,为中国影视行业数字化、智能化转型提供坚实的底层技术支撑。          

内容创意方面,华为影视数字化服务平台能将创意转化为可视化图像,为导演和制片人提供直观参考,确保创意贯穿项目,避免后期出现大量的修改和返工,也在一定程度上节省总体制作时间。          

拍摄方面,为内容制作公司打造可靠的云原生内容制作产线。AI等新技术驱动新技术驱动影视制作向虚拟拍摄转变,数字原生内容需增加,进而产生大量的效率、质量所需的海量算力、远程协作、弹性轻资产运营需求。          

而华为云打造的数字内容生产线MetaStudio平台,支撑数字内容更高效率、更高精度、更低成本、更加智能的完成生产制作。它满足传统影视制作需求,同时提供数字原生内容的云上创作。特别是MetaStudio具备模型制作、资产管理、内容编辑、物理仿真和云渲染五大能力模块,助推媒体产业数字化转型和产业升级。以中国影史票房第一的《长津湖》为例,就是利用华为云渲染基地为后期团队提供了澎湃渲染算力。             

 后期制作方面,借助AI技术可以打造虚拟角色和特技,既可为内容创作提供广阔的的可能性,也可以使用视频智能编辑来提高后期制作的效率和效果。以商汤科技为例,凭借其先进的图像识别和处理技术,先后与《阿凡达》系列、《星球大战》系列、《复仇者联盟》系列、《建军大业》等多部大制作,显著增强了电影的视觉效果与情节的真实感。          

此外先进的硬件端可以最大化展示创作者意图,并为影视观众提供沉浸式视听体验。除去影片剧情内容外,终端体验也是决定性因素之一。而华为主导开发的HDR Vivi技术可以准确把握每一个环节,帮助电影后期制作完整展示创作意图,并在各种设备中实现极致体验。         

 除去科技赋能产业更多的价值外,对于整个电影行业而言,伴随科技企业快速涌入,人工智能技术等核心技术日益成熟,或许将重塑全球电影格局,国内电影行业迎来史诗级机遇。          

尽管2019-2021年疫情国内电影市场复苏较好,连续两年成为全球最大的电影市场,在全球电影中影响力也有所上升,但当时票房依旧还是以中国市场为主。且到了2022年随着全球影视市场的恢复,美国重回全球第一票仓市场,国内仅4部电影进入全球票房收入前50,前十中有8部的主产地为美国。以好莱坞五大制片为首的海外制片巨霸依旧占据全球主要地位。          

因此中国电影试图完全走向世界,还需要一个契机。而全球影视行业成长相对乏力的大背景下,AI+电影的到来或许赋予中国电影这种可能性。              

一方面,目前即使是莱坞出产的大电影市场情况也比较乏力。北美票房统计网站数据显示,2022年北美票房收入前十的影片都为续集电影,且多部头部作品票房未达到预期,其余多数好莱坞电影整体表现也较艰难。主要原因在于好莱坞商业片中过多的模式化、套路化,使得观众出现“超级英雄疲劳”。2023年《闪电侠》、《蓝甲虫》等大作品的惨淡收场更是证明了这点。

而与之相反,中国影视行业总体向上趋势未变。尽管受疫情影响,中国不再是全球第一票仓市场,但曾经的辉煌不是偶然。资料显示,2022年《长津湖之水门桥》闯入全球排行前十,位列第九;此外,截至2023年11月13日,中国电影票房重返500亿元,其中国产影片占比达到83.4%,进口影片仅占比达到16.6%。         

 国产片成为中坚力量,好莱坞光环“失灵”。截至发稿前,国内票房前十均为国产片,涵盖现实题材、悬疑犯罪、科幻以及民族情怀等多种题材,内容与制作工艺上的创新更是接连不断。相比之下,排行前20名中,仅有《速度与激情10》《阿凡达:水之道》《铃芽之旅》,以及中美合拍的《巨齿鲨2:深渊》几部好莱坞大作,尤其是最新上市的《惊奇队长2》即使“国产保护月”不在,观众依旧不愿意看。缺乏新意、不接地气是该制作大片并不为观众买单的主要原因。              

另一方面,一般颠覆性技术变迁很容易带来行业格局的重塑。人工智能赋能电影产业后,其商业模式和内容形态都很可能被颠覆,此时中国影视行业借助科技企业的力量或能抓住百年难得一遇的机会。          

以2023年中国影视中最值的骄傲的《流浪地球2》、《封神第一部》以及《长安三万里》三部制作为例,都在借助大量的AI技术以不同的风格展示不同的价值输出。其中,规模化使用人工智能技术的《流浪地球2》,已在全球38个国家和地区先后上映,并“走进”了维也纳联合国总部。借助更先进的技术,中国电影加速走向世界,满足观众需要的同时,通过价值传播提升中国影视在全球的影响力。          

此外,近日唐季礼导演联合多牛科技,正试图运用AI技术来融合中国游戏产业与百年影视行业各自优势,开启“游戏电影化”创新模式,或许将打开中国电影工业化新局面。         

 总而言之,借助技术革新浪潮,“当下,中国电影在从电影大国走向电影强国的过程中,进入了一个试图创造新的世界电影格局的阶段。”正如中国电影家协会副主席、清华大学新闻与传播学院教授尹鸿表示。

AIGC浪潮席卷全球,包括华为在内的科技企业正在加快推动影视产业转型,给予影视制作新的创作模式与思路。          但需要明白,技术只是内容创作的底座,而内容才是影视制作的核心血肉。因此,在追逐弯道超车的梦想时,打造并利用好先进的电影制作工艺只是其一,关键还是要依靠高质量的创意内容、创意编辑以及导演制作团队,才能打造更多精品大片。

2023年欧洲十大人工智能公司

近日,TechEU发布了2023年欧洲十大人工智能公司,总结了在这个领域企业家、投资者和监管机构关注的主要企业,并根据企业2023年度融资额进行了排序。

1Aleph Alpha(德国企业,上一轮融资5亿美元)

Aleph Alpha部署了大型语言和多模式模型等变革性人工智能,并运行了欧洲最快的商业人工智能集群。Aleph Alpha公司在B轮融资中筹集了超过5亿美元。此次投资由人工智能创新园(Ipai)、博世风险投资(Bosch Ventures)和施瓦茨集团(Schwarz Group)的公司领投。

2Mistral AI(法国企业,上一轮融资3.85亿欧元)

法国生成式人工智能初创公司Mistral AI在2023年完成了两笔交易。在成立的第一个月,该公司在种子轮融资中筹集了1.05亿欧元;在不到6个月的时间里,他们在A轮融资中获得了3.85亿欧元的额外投资。最后一轮融资由Andreessen-Horowitz领投,LightSpeed Ventures、Salesforce和Motier Ventures也参与其中。

3、Helsing(德国企业,上一轮融资2.09亿欧元)

总部位于慕尼黑的国防人工智能公司Helsing获得了2.09亿欧元的B轮融资,巩固了其作为欧洲资金最充足的国防科技初创公司和该领域领先的人工智能公司的地位。本轮融资由General Catalyst领投,瑞典集团萨博(Saab)作为战略投资者加入这一轮融资,从而加深双方现有的合作关系。

4、DeepL(德国企业,上一轮融资9300万欧元)

总部位于德国科隆的深度学习语言翻译初创公司DeepL筹集了9300万欧元。本轮融资由硅谷/旧金山VC IVP领投,其他投资方包括Bessemer Venture Partners、美国/日本的WiL和Atomico。

5Synthesia(英国企业,上一轮融资9000万美元)

总部位于伦敦的人工智能视频制作平台Synthesia在C轮融资中筹集了9000万美元,这将使该公司继续利用人工智能简化视频制作。本轮融资对该公司的估值为10亿美元,由Accel领投,英伟达旗下风险投资部门NVentures投资,现有投资者包括凯鹏华盈(Kleiner Perkins)、GV和Firstmark capital。

6Pixis(英国企业,上一轮融资8500万美元)

Pixis是一家无代码人工智能基础设施公司,专注于帮助品牌增强绩效营销,该公司在C1轮融资中筹集了8500万美元。旅游资本领投了本轮融资,参与本轮融资的现有投资者包括Grupo Carso、General Atlantic、Celesta Capital和Chiratae Ventures。

7Everseen(爱尔兰企业,上一轮融资6500万美元)

总部位于爱尔兰-科克的Everseen主要为零售商提供人工智能驱动的计算机视觉和自动化服务,帮助他们关注库存缩减,即盗窃,并简化整体运营。他们的公司在A轮融资中筹集了6500万欧元,由现有投资公司crospoint Capital Partners提供。

8Stability AI(英国企业,上一轮融资5000万美元)

人工智能初创公司Stability AI通过可转换票据筹集了约5000万美元。该公司以其稳定的图像生成软件而闻名。

9PhysicsX(英国企业,上一轮融资2900万欧元)

英国PhysicsX是一家具有的突破性的工程公司,将生成式人工智能引入汽车、航空航天、可再生能源和材料生产等行业。该公司在General Catalyst领投的A轮融资中融资2900万欧元。Standard Investment、NGP Energy、Radius Capital以及KKR联合创始人兼联席执行主席Henry Kravis也参与了这轮融资。

10DRUID(罗马尼亚企业,上一轮融资2800万欧元)

DRUID是一个端到端平台,用于构建会话业务应用程序和专门完成业务任务的AI虚拟助手。DRUID在B轮融资中获得2800万欧元,由TQ Ventures领投,新投资者Smedvig Capital和现有投资者GapMinder、Hoxton Ventures和Karma Ventures参与。

中国第三:亚太地区人工智能准备程度最高的国家有哪些

  • 各国想要在生成式人工智能时代取得成功,就需要具备强大坚实的制度、基础设施、组织和道德基础。
  • 亚太地区的经济体,如新加坡、中国、日本、韩国和澳大利亚等都已经制定了相关政策,致力于抓住生成式人工智能带来的机遇。
  • 亚太地区人工智能准备程度指数衡量了亚太地区12个国家的人工智能准备情况。

人工智能(AI)已成为全球消费者、企业和政府日常工作生活的一部分。生成式人工智能,即利用一组数据来创造新事物的技术,在2023年加速兴起并发展。全球各地的消费者都用生成式人工智能满足日常信息需求,各类组织机构也正将其纳入运营范畴。
作为迄今为止最具变革性的技术之一,生成式人工智能可以帮助用户在创造力、生产力和效率上更进一步,并改变政府和企业对人工智能的态度。一项最新研究发现,有三分之二(67%)的IT行业领导人将生成式人工智能列为未来18个月内的业务重点,三分之一(33%)将其视为公司的头等大事。同样,72%的受访公司表示,他们将在未来三年大幅增加对人工智能的投资。
对生成式人工智能不断增加的投资和使用也会给全球带来巨大的经济收益。麦肯锡最近的一项研究预测,到2030年,生成式人工智能每年可为全球增加2.6万亿至4.4万亿美元的经济收益。
在亚太地区,生成式人工智能带来了巨大的经济机遇。在澳大利亚,预计到2030年,生成式人工智能每年对经济的贡献可以高达1150亿澳元(约合760亿美元),具体取决于对人工智能的采用程度以及工人对其他任务的适应程度。在日本,据估计,生成式人工智能可以释放价值约148.7万亿日元(约合1.1万亿美元)的生产潜力。


决定人工智能准备程度的五大因素


人工智能在不断变化发展,包括对生成式人工智能的采用,亚太地区国家想在这种环境中要取得成功,各经济体需要对发展应用人工智能技术做好充分的准备。围绕人工智能建设强有力的制度、基础设施、组织和道德基础,是现在和未来在全球人工智能领域获得成功的关键。决定人工智能准备程度的五大因素如下:


1.基础设施建设生成式人工智能模型会利用和产生海量数据,因此需要大量计算资源并配置专用的硬件。人工智能准备就绪的第一步就是确定密集处理所需的兼容性技术基础设施。


2.数据质量生成式人工智能模型需要大量高质量数据进行训练,学习有意义的模式并生成实际的内容。建立质量数据的坚实基础并持续迭代至关重要,因为它将决定模型的学习结果和成败。


3.劳动力发展状况生成式人工智能将对所有行业的劳动力产生影响,可能会改变某些工作的重点,但不会完全取代这些工作。成功的运用人工智能会增强而不是取代人类劳动。不过,对掌握人工智能技能的劳动力需求会增大。政府和企业需要培养强大的人工智能人才队伍,满足经济体内各领域市场对熟练人工智能专业人才的需求。


4.伦理问题虽然生成式人工智能有深刻改变我们生活和工作方式的潜力,但它并非没有风险。人工智能在带来发展的同时也带来了一些伦理问题,例如可能出现有偏见或有害的内容。因此从一开始就应当优先考虑负责任的、合乎道德伦理的创新,确保推向市场的技术具有包容性,能为任何人所用。


5.整合能力影响人工智能准备程度的因素还包括将生成式人工智能模型与现实应用和工作流程结合的能力。虽然其他四个因素对于提升人工智能准备程度很重要,但生成式人工智能模型的整合对于未来开发出应用更广泛、更灵活和有效的技术至关重要。


2023年亚太经济体人工智能准备程度
为帮助亚太经济体评估企业和政府采用、部署和整合人工智能的准备程度,Salesforce发布了2023年亚太人工智能准备程度指数(2023 Asia Pacific Readiness Index)报告,该指数一年统计两次,此为第三版。指数报告衡量比较了亚太地区12个国家的人工智能准备程度,并用15项统计指标评估了每个国家人工智能准备程度对其社会经济机遇的影响。

虽然亚太经济体的人工智能准备程度整体有所提高,但2023年指数报告发现,各经济体在采用人工智能技术上的准备程度差距越来越大。

2023年版指数报告研究的12个经济体中,有5个经济体(澳大利亚、印度尼西亚、新西兰、新加坡和泰国)的整体人工智能准备程度指数得分相比2021年有所提高,这一数据直接反映出这些经济体在2021年至2023年期间推出并实施了许多与人工智能相关的方案和措施。


新加坡自2019年以来三次蝉联综合第一,这主要得益于其有利的政策和商业环境。日本和中国分别位列二三名,两国都制定并实施了多项颇具前瞻性的方案和举措,规划和促进人工智能在各方面的应用。韩国(排名第四)和澳大利亚(排名第五)在人工智能领域也颇有建树。


2023年指数说明,虽然亚太经济体在人工智能准备程度和采用方法上存在差异,但所有经济体都将人工智能和生成式人工智能列为优先发展的对象。与2019年和2021年相比,人工智能现已经成为所有国家议程的重中之重,各国正在积极实施人工智能战略,人们对人工智能对经济增长和发展的潜在影响的认识也达到了前所未有的高度。


人工智能不仅是一个技术问题,它越来越成为亚太地区经济增长和促进数字贸易的核心驱动力。人工智能对社会的影响也更大,因为它能对劳资关系产生变革性影响,鼓励更具可持续性和包容性的经济增长形式。

50位顶尖投资人与CEO对话,看懂2024年AI如何发展

随着ChatGPT出现,生成式AI引来爆发,尽管AI行业成为年度最大的热门,投融资整体行业依旧在过去一年遇冷。但AI显然已经深深的刻在了每一个创投人的心里,也成为了大家对于未来机会的一个寄托。

结合最新的一些数据,先对过去的一年做一个简单的宏观总结。文章转自投资实习所,内容有所删减。

首先是来自Crunchbase的几个数据:

2023 年,独角兽公司的融资大幅下降,仅为2021年市场高峰时的25%左右

2023 年,全球最活跃的九大VC在独角兽公司的投资大幅下降。这九家投资机构在2023年共投资了44家独角兽公司,占当年所有融资独角兽公司的3%。

而在2022年,他们投资了213家公司,占当年融资独角兽的28%。在2021年,这个数字是471家公司,占该资产类别的30%。下面是这9大投资机构的一个大致情况图,基本上趋势都比较类似:

其中可以看出,其中最活跃的三家:Tiger Global、Coatue和SoftBank Vision Fund(软银),在2021年的投资数量比2020年增加了近3倍或更多。

a16z、Accel、Lightspeed、Index以及Insight Partners,在2021年的投资数量比2020年增加了近一倍。而Sequoia 红杉是这个名单上唯一一家投资速度增加,但从2020年到2021年并未翻倍的公司。

由于融资不易,2024年独角兽公司的数量可能会减少,有的可能倒闭,有的可能会被收购,一些增长不错的可能会上市,当然还有一些可能会以低估值继续融一部分资金。整体而言,退出更难了

而AI正在成为大家的寄托,不过对于VC来说,似乎也并没有那么容易。根据FT最新统计数据,2023年与AI创业公司相关的融资中,来自微软、Google、Amazon以及英伟达等几家巨头的投资资金已经占了2/3。

当然这主要是因为几家大模型公司的巨额融资带来的,因此单看金额比例并不完全说明问题,但巨头在AI领域的投资整体更加活跃也是一个事实。

畅想2024年,投资人兼Newsletter作者NBT结合了50位投资人和创始人,对2024年做了一个预测,下面挑选了36条值得关注和参考的部分:

关于AI的ROI

1.Theory Ventures创始人Tomasz Tunguz

2024年将是企业通过AI实现生产力实质性提高的一年,每名员工的ARR有机会增加10-15%。

2.Altimeter Capital合伙人Jamin Ball

2024年将是 “从原型到生产”的一年。2023年,每个人都在尝试AI,但有很多问题限制了这些实验的推广,比方说它们的成本是多少?它们安全吗?合规风险有多大?2024年,这些问题都将得到解答,我们将看到AI应用从实验/原型/内部应用走向面向客户的大规模部署。

3.Emergence Capital合伙人Jake Saper

2024年的将是初创企业尝试基于结果定价的一年。随着GenAI开始显现出可量化的商业影响,初创企业将着手与客户协调价值创造激励机制。比方说Intercom正在尝试的AI机器人Fin,通过解决问题来收费。这种尝试将是崎岖不平的,但我预计2024年将是学习的一年。

4.Chapter One创始人合伙人Jeff Morris Jr

2024年将是我们如何设计、编程、质量保证、A/B测试和部署软件最大变革的一年—这些工作最终由AI实现。随着 2023年AI软件工具的激增,我们将记住2024年是世界一流的设计、产品和工程团队将这些新的AI超级能力有效集成到日常工作流程各个方面的一年,而这还没有发生(大多数团队仍在进行试验)。

2024 年将被铭记为软件构建发生巨变的一年。

关于AI的基础设施

5.KP合伙人Bucky Moore

2024年将是超越Transformer架构限制的AI模型的一年,这会为我们提供更大的上下文窗口、更快速和便宜的推理以及整体上更强大的人工智能系统。

6.20VC合伙人Harry Stebbings

2024年的重大突破将是一种基于大模型的路由基础设施。成本是大规模使用大模型最令人望而却步的因素。公司将出于不同目的实时使用多个大模型,围绕不同的应用场景将请求智能地路由到正确的大模型的一系列公司将出现。

7.Canva高管John Milinovich

2024年将是实时、多模态人工智能无处不在的一年。虽然消费者在过去几个月可以通过ChatGPT、Bard和Bing访问多模式人工智能,但现在才在API层使用。当与更小、更低延迟模型的进步相结合时,这将导致每个应用程序和连接设备边缘的创新爆发。

8.Emergence Capital合伙人Jake Saper

2024年将是开源基础模型生态系统成为企业采用GenAI关键推动因素的一年。到目前为止,数据隐私问题一直是采用的障碍,成熟的开源模型和训练基础设施将使关注隐私的企业能够部署GenAI,同时最大限度地降低第三方风险。

关于AI应用

9.DoorDash Gokul Rajaram

2024年的大趋势将是各种类型AI Agent的爆发,专注于满足消费者的各种需求以及各类商业交易。

10.Spark Capital合伙人Natalie Sandman

2024年将是AI原生应用爆发的一年。如今,Anthropic的Claude和OpenAI的ChatGPT是大模型中的“Excel”——易于上手,但为高级用户解决复杂应用场景提供了巨大的深度和潜力。人工智能原生SaaS应用(从第一天起就以AI为先构建)将出现机会,以分拆目前在Claude和ChatGPT中执行的这些复杂/专业工作流程。

11.IVP合伙人Shravan Narayen

2024年的一个趋势将是移动优先生产力的再度崛起。仅仅拥有世界各地的信息已经不再足够,我们还期望能够在工作场所和家中随时做出决策和采取行动。尽管如此,生产力应用的移动体验在过去几年中有所下降,因为这些产品变得越来越注重功能叠加和以浏览器为中心。

小型模型将使iOS和Android成为真正的控制中心,同时将出现新的AI原生应用,使我们比以往任何时候都更高效和协作。

12.Emergence Capital合伙人Jake Saper

2024年的下一个趋势将是服务通过GenAI实现产品化。像麦肯锡和安永这样的企业将面临产品化的压力,因为像Mechanical Orchard这样的科技初创企业已经通过GenAI实现了为客户提供更好、更快、更便宜的结果。

AI与企业级市场的结合

13.Rubrik CPO Anneka Gupta

2024年,传统大型企业将真正意识到GenAI在提高生产力方面的好处,他们会找到方法来大规模采用这项技术,并逐渐适应在组织内使用。

14.ReflexAI CEO Sam Dorison

2024年,软件工具在企业工作流程中将真正融入GenAI的持续增长。2023年出现了大量附加功能、快速实验和高不可攀的期望。2024年将揭示这些工具在投资回报率、采用率、实施便捷性和安全性方面的表现如何。

15.Omni联合创始人Jamie Davidson

2024年将是GenAI进入幻灭的低谷期,但价值将开始在核心企业工作流程和工具中得到体现,因为它被深思熟虑地整合进去。

AI与实体经济

16.Base10 Partners合伙人Adeyemi Ajao

2024年将是人工智能与实体经济碰撞的一年。我相信AI领域将出现更多超过100亿美元的成功案例,这些公司将为实体经济提供服务,就像我们已经看到的餐饮行业(Toast,Popmenu)、物流行业(Flexport,Motive)、食品行业(Instacart)和金融行业(Nubank)一样,利用人工智能在应用层进行创新,而不是在基础设施层面进行创业。

17.Basis Set Ventures合伙人Lan Xuezhao

2024年将是在太空探索、生物学、机器人技术、半导体和电池技术等“硬科技”领域进步的一年,这将推动风险投资在这些领域的增加。与此同时,“实体经济”行业,如供应链、建筑和房地产,将通过AI实现重大转型。

AI与健康行业的结合

18.Insight Partners MD Deven Parekh

2024年将是生物技术和人工智能之间持续融合的一年。

19.BVP合伙人Talia Goldberg

2024年的下一个重大趋势将是健康领域的范式转变,侧重于促进健康而不是治疗疾病,以及预防而非干预。利用人工智能、数据和先进诊断技术,每个人都将更深入地了解自己的生物学特征、易感性以及保持健康所需的干预措施。

20.Overwater Ventures创始合伙人Kristina Simmons

2024年的下一个重大突破将是利用生物科技和人工智能解决健康问题,使医疗更加便捷、经济实惠,并提供更高质量的护理。

AI与内容行业结合

21.nospace创始人Tiffany Zhong

2024年的下一个趋势将是消费者在不知情的情况下使用(和消费)AI。

22.Menlo Ventures合伙人Amy Wu

2024年将是生成式内容的一年(有些好的,也有很多不好的),视频和3D将是接下来发展的模式,我也对Vision Pro的推出感到兴奋。

23.ChatGPT的答案

2024年将是人工智能进步一年,特别是在自然语言处理、自动化和个性化技术解决方案等领域。

24.Bard的答案

2024年的下一个趋势将是AI驱动的个性化体验,模糊了物理世界和数字世界之间的界限。

AI可能带来的麻烦

25.Felt CTO Can Duruk

2024年,我们可能会首次遇到由人工智能引起的“Wow”时刻。这可能是一些引人注目的丑闻:比方说 Midjourney + Elevenlabs生成的假新闻引发了动荡,或者某位名人声称一张尴尬的“真实照片”实际上是由人工智能生成的。即将到来的2024年美国选举将成为这一切的“有趣”背景。

此外,一个真正的、纯粹的白领公司将首次面临因为AI带来的裁员。比方说亚马逊裁减了在美国的整个调解团队,或者Google解雇了工程师。

语音优先的 AI(Voice-first AI)

26.a16z合伙人Anish Acharya

2024年的一个重大趋势将是语音优先AI应用。语音将成为一种新兴的与技术互动的方式,并成为一系列新型生产力应用的核心。大型语言模型可以提供远远超越Siri和其他传统产品的语音优先生产力,这将使每个人都能拥有一位随时待命的助手(真的)。音频可以实现更自然和更高保真度的交互,基于这一技术构建的工具将成为我们生活中不可或缺的一部分。

27.BVP合伙人Talia Goldberg

2024年将是个性化用户界面崛起的一年,这些界面是动态生成的,能够适应使用情况,具备多模态和动态特性。这意味着将会减少聊天机器人界面,而更多地采用环境感知、语音优先和生成式用户界面。

消费科技

28.General Catalyst MD Niko Bonatsos

2024年,可能会出现由年轻的技术创始人以疯狂的想象力构建的消费者人工智能应用,其第一年的规模将超过ChatGPT。

29.Norwest Venture Partners合伙人Lisa Wu

2024年,消费技术将复兴,其中有科学支持的健康和保健产品将引领潮流。注重健康的消费者正在寻求权威的声音和有科学证据支持的有效产品。这将为由医生转型的创始人创造新的机会,他们深厚的专业知识和知识共享为他们在创作者经济中赢得了忠实的受众。

他们与社区建立的信任将转化为具有成本效益的客户获取、强大的客户终身价值和战略产品开发机会,最终形成稳健、高效的业务。

机器人技术

30.Wischoff Ventures合伙人Nichole Wischoff

2024年将是机器人行业的大动作。Figure和特斯拉是人形机器人的新进入者,我预计这一领域将出现爆炸式增长。传统企业已经建立了制造机器人的基础架构。仅制造业就有数万亿美元的市场机会。

软件与软件之间的通信

31.USV合伙人Rebecca Kaden

2024年的一个趋势将是软件到软件的通信。最初,市场和工作涉及人与人之间的交流与协作,后来转变为人与软件之间的交流与协作。现在,我们正处于软件到软件通信的过渡阶段—在未来十年中,系统与其他系统的通信将多于人类与系统的通信。

这一转变需要全新的技术堆栈,并将打破我们所依赖的大量工具和平台。数据、计费、支付、安全、监控和报告平台都将随之发展。

艰难的资本市场和融资环境

32.Susa Ventures合伙人Chad Byers

2024年,一些独角兽将被淘汰。初创企业是创新的引擎。当更多的初创公司获得资助并尝试为难题建立解决方案时,这对世界来说是件好事。然而,由于多种原因,过去几年创建了一些不可持续的公司:没有明显的PMF但资本充足的公司。尽管我们看到其中一些公司在23年倒闭,但我预测24年将是我们看到真正的淘汰的一年。

尽管这对许多团队和投资者来说非常困难,但初创企业生态系统需要这些活动来回收人才并将资本优先投入最重要的公司。初创企业将继续成为世界的创新引擎。

33.Precursor Ventures创始合伙人Charles Hudson

2024年,初创企业将重新发现资本效率的乐趣,并掌控自己的命运。

LP市场

34.Sapphire Partners合伙人Beezer Clarkson

2024年,LP将继续追求质量。由于退出市场仍然关闭,LP预计2024年的资本需求将再次超过分配。这意味着我预计LP将继续仔细评估他们的投资组合,深入了解其间接公司的潜在健康状况,然后有选择地与他们相信可以产生优异业绩的经理人重新合作。

我还认为2024年风险基金募集数量和规模持续收缩的可能性很大。除此之外,我预计一些老牌投资者的退休将与一些新投资者的退出形成鲜明对比,以创办下一代风险基金。

创始人的新形象

35.Basis Set Ventures合伙人Lan Xuezhao

2024年,成功创始人将出现新形象。随着人工智能/机器学习的发展日益加速,成功创始人的形象也在不断变化。传统的强大背景,通常由精英学术资历和在特定知名科技公司的丰富就业历史来定义,正在变得不再那么重要。在人工智能新时代,“教科书式”机器学习工程师的成就可能比长期开源贡献者要少。

对于VC来说,能够“看到”拥有广泛经验、非传统教育路径、职业历史和独特个人经历的创始人至关重要。那些坚持旧模式并纯粹根据纸面上的资历来判断创始人的人将会看到他们的回报受到侵蚀。

一个新的工作操作系统(OS)

36.Rupa Health CEO Rupa Health:

2024年将是组织文化和我们创建公司方式的彻底转变。所有重大的经济和技术革命不仅改变了我们建造的东西,也改变了我们建造的方式。工业革命——>专业化、流水线化。软件革命——>精益创业、敏捷、快速迭代。互联网/云/移动革命 —> 基于屏幕的工作,分布式团队。现在,人工智能革命。

人工智能革命已经在改变我们的工作方式,但2024年将是独一无二的。我们将在极度模糊的情况下进行建设,并加快变革的步伐。人工智能将取代我们过去招聘的核心技能。

一个人凭借自己的力量就能将创造力和生产力提高100倍。最好的公司会从首要原则出发找出新的操作系统。其余的人会尝试使用旧方法并且会错失良机。“最佳实践”不再是最佳实践。2024年,工作将会截然不同。

AI大模型工业应用的7大模式

近日,通用人工智能与工业融合创新中心编制的《AI大模型工业应用现状、模式与展望》正式发布。其中提到,工业产品从全生命周期来看可以划分为研发、设计、仿真、生产、测试、运维、售后等环节,本报告针对各环节的特点和要素进行分析,并结合大模型自身的能力特征,初步提出以下大模型在工业领域的潜在应用模式。

模式一:原理化研发

大模型可以对产品的结构数据进行分析,从微观层面探究产品的构型和机理,并通过模型的涌现能力生成具有新结构、新特性的产品。

以药物研发为例,人工智能大模型可以通过分析大量的已知药物分子数据,从中找出最优的药物候选,并生成一个新的药物分子设计方案,从而大大缩短药物研发的时间和成本,提高药物研发的成功率。

靶点发现和药物结构设计。靶点发现是药物研发过程中的核心环节,其中靶点是药物在体内的作用结合位点,药物与靶点之间的关系可以类比于钥匙和配套的锁。传统的靶点发现需要做大量的科研工作,对靶点做大量的生物学假设,并设计一系列的实验进行验证,需要漫长的周期。而大模型通过分析已知的药物分子结构数据、药物分子与疾病相关性的知识图谱,从中找出与疾病靶点相互作用的分子特征,然后利用这些分子特征,自动地生成新的药物分子设计方案。

药物方案评估和优化。在生成若干药物分子设计方案后,模型可以在人工提示下,对生成的设计方案进行评估,筛选出最有前景的药物候选。同时可以通过药物分子的结构和性质,优化其药效和毒性,通过预测药物的代谢途径和药物浓度,优化药物的剂量和用药方案。

辅助临床实验设计。实验验证是药物研发中必不可少的环节,但是实验通常需要消耗大量的时间和资源。人工智能大模型可以帮助研究人员设计更有效的临床试验方案,例如预测药物的安全性和有效性,优化临床试验的样本规模和时间等。通过预测和筛选,减少实验的数量和复杂度,从而提高药物研发的效率和质量。

模式二:前瞻化设计

大模型可以生成创新性的产品设计方案,从而更好地辅助技术人员快速将设计构思和意图转化为具体实施方案。

以传统工业设计为例,大模型可以实现工程制图、设计方案的快速生成,并辅助进行布局优化、参数校核,大幅缩减工业设计耗时,提升产品研发效率。

数学建模和代码编写。在工业设计过程中,很多问题需要建立特定的数学模型进行分析求解,例如机械产品设计中常遇到诸如力学强度校核、尺寸优化、标准零件选型等问题,邀请专家专门分析和建模成本高。而大模型可以根据具体设计需求,在短时间内为这些问题提供参考方案,并自动生成相应的程序代码,指导进行具体的工业设计实践。

多样化设计方案生成。以CAD为例,现有的海量标准化素材库提供了大量工程制图、布局规划等数据,大模型可以利用这些数据,结合设计者的创意思路和特殊需求,生成多样化的设计方案,供设计者进行参考。另一方面,亦可对设计方案进行快速优化调整,帮助工程师以更快的速度和更少的错误率创建布局。

模式三:高效化仿真

大模型可以利用自身的生成能力提供符合设计需求的虚拟化仿真测试场景/环境,解决工业产品设计中测试数据量少、测试环境单一等问题,提升产品的可靠性。

以汽车制造为例,通过人工智能大模型来生成仿真测试环境,进行汽车碰撞模拟和安全性评估,可以大幅提升仿真的精度和效率,推动车辆设计和安全性能的提升。

多元化仿真场景生成。汽车企业在车辆实际测试、模拟实验中积累了大量的真实数据,包括车辆结构、碰撞数据以及材料特性等信息。大模型可以利用这些数据学习车辆结构、材料属性与碰撞响应之间的非线性关系,理解不同参数(如碰撞速度、角度、车辆构造等)对于碰撞响应的影响,并通过自身的涌现能力生成新的、多样化的碰撞场景。这有可以让车辆模型在不同情况下进行仿真预测,包括之前未经历过的情形,并弥补特殊场景中的数据缺失,提升汽车仿真测试的全面性和准确性。

参数优化与快速预测。传统的车辆碰撞仿真中,需要采用不同的参数组合进行多轮次测试,以获得最佳结果,而每次测试需要花费大量的时间进行人工调参。而大模型可以凭借零样本的知识分析能力,通过问答形式,对不同的参数组合,快速预测出碰撞响应情况。这有助于在短时间内找到最佳参数组合,以减少车辆设计和测试的周期。同时,它可以在考虑历史碰撞案例的基础上,提供新颖的设计建议,可能涉及材料选择、构造调整等方面的创新。

模式四:精细化检测

通过大模型的零样本学习能力,并结合AR/VR等虚拟现实技术,实现对产品质量缺陷、人员违规操作、零部件装配误差等多种工业场景的快速高效视觉检测。

以工业生产中的质量检测和安全监测等场景为例,通过外接视觉传感装置和简单的指令辅助,大模型可以根据需求对指定的区域、人员进行检测,快速发现异常信息,大幅降低人工查验、样本收集和模型训练等成本。

高效率工业质量检测。以PCB的瑕疵检测为例,通用视觉大模型可以凭借强泛化能力,在不依赖工厂样本数据和本地化微调训练的情况下,直接对PCB原始图像进行语义分割,再配合简单设置的规则及方法实现缺焊、连焊、针孔等各类瑕疵的识别,从而解决PCB样本数据获取困难、标注困难的实际问题,规避训练调参带来的高额成本,提升工业产品缺陷检测的效率。

智能化安全生产监管。在煤矿生产行业中,借助大模型的机器视觉识别技术,结合设备运行状态数据,识别危险区域人员进入、人员摔倒、截割部落地、敲帮问顶、钻孔深度、锚固剂使用数量、搅拌时间、二次紧固、锚索张拉等场景,实现掘进作业人工监管向自动监控的转变,提升掘进作业流程规范,提高煤矿生产的安全系数。

个性化检测场景扩展。结合语言大模型和视觉大模型,进行多模态感知和交互,扩展大模型在工业视觉检测中的应用范围,提升应用的灵活性。例如,在工业质检中,可以通过语音指令控制大模型实现对不同类型、不同区域、不同等级的缺陷检测,满足各类产品的检测需求。

模式五:智能化调控

在大型现代化产线中,需要对多个关键节点进行智能化调度和控制,以提升产线运行效率。人工智能大模型可以通过分析多样化的历史数据,更好地理解诸如生产需求、资源可用性、任务优先级等工业调度任务中的复杂关系,从而优化各节点的任务分配和调度,提高生产效率和灵活性。

以工业机器人为例,大模型可以对各类生产数据进行自动整合分析,从而对机器人进行快速的任务分配和动态任务调整,成为大型工业产线中的“神经中枢”。

复杂模式学习和任务快速分配。汽车制造等大规模的生产线上通常配置多台工业机器人,负责组装、焊接、涂装等子任务。人工智能大模型可以收集机器人的性能数据、工作站状态、生产计划等信息,并基于这些数据,学习机器人的技能、任务复杂性、工作站之间的转移时间等复杂信息,并预测不同机器人执行不同任务的效率。当新的任务到达时,模型可以快速决定分配给哪个机器人,以最大程度地减少任务等待时间和生产周期。

动态任务分配调整。大模型可以从历史数据中分析机器人的性能和效率,并根据不同任务的要求,动态调整任务分配策略。这有助于优化机器人的使用,确保它们在不同任务中都能发挥最佳作用。如果出现机器人故障、工作站故障或生产计划变更等情况,大模型可以快速响应并重新调整任务分配,以应对不可预见的情况。

运动控制代码生成。从工业机器人单体运动的层面来看,生产人员可以通过文本、语音等交互方式,根据不同的任务需求,通过大模型快速生成定制化的运动控制代码,以控制机器人执行不同的任务。例如,对大模型输入指令“请写一段PLC程序,控制机器人将零件从A点转移到B点”。这种基于大模型的运动控制指令生成模式可以大幅提升工业机器人的灵活度,实现柔性化的产线控制。

模式六:科学化运维

大模型可以通过自身强大的推理能力实现对生产过程中各类数据的分析、预测,从而提升智能化运维水平,完善生产管理机制。

以仓储管理为例,可以利用大模型的对供应链中各类别、各模态的数据进行管理和整合,提升货品信息流的运行效率,打造更便捷、更快速的工业产品供应链体系。

智能仓储管理。使用嵌入多模态大模型的机器人进行货架管理、库存管理和订单拣货等操作,可以通过大模型的强视觉泛化能力进行自主货架定位、库存管理和物品运输等操作,提升仓库的运营效率。同时,使用大模型对库存进行预测,并根据销售速度和库存周转率等因素制定补货策略,有助于及时补充库存,避免库存短缺影响销售,同时避免过度补货,以免造成库存积压和资金占用的问题。

高效数据管理。工业生产的供应链中会涉及大量的数据,如原材料数据、加工工艺数据、设备状态信息、环境信息、人员信息、物流信息等。大模型可以对不同格式、不同来源的数据进行快速整理、分类和分析,降低数据整理成本。同时这些分类整理后的数据可以用于大模型的进一步微调,实现数据和模型的良性互动。

模式七:定制化售后

大模型可以凭借在自然语言对话方面的巨大优势,使售后服务不再拘泥于固定的问答库,而与客户形成更加自然、流畅和有效的对话,从而帮助工业企业实现满足不同用户需求的定制化售后服务,从而进一步提升客户忠诚度和用户成长,拓展业务范围。

以机械设备售后为例,大模型可以结合多模态、数字人等技术,让客户通过自然语言描述设备故障或问题,系统能够准确理解并提供详细、个性化的解决方案。

多维度交互式售后服务。机械设备的操作及维护需要复杂的操作,传统基于知识库的客服系统无法给予用户精确的指导。利用大语言模型作为后端逻辑推理支撑、虚拟数字人作为前端交互形象,系统可以准确理解客户的需求,结合自身的知识储备和具体的问题,迅速给出详细的、针对性的解决方案。

同时,还可以通过虚拟数字人的手势和语音交互,从更多维度辅助客户进行设备的操作,不仅提高了售后服务的效率,还为客户提供了更加直观和个性化的服务体验。

ChatGPT变笨新解释:世界被AI改变,与训练时不同了

对于ChatGPT变笨原因,学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出:

在训练数据截止之前的任务上,大模型表现明显更好。

论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答,其实是在训练时见过大多数常见任务。

随时间推移,人们开始提出更多新问题,AI表现就不行了。

比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。

任务污染有多严重?

研究团队一共评估了12种模型,从ChatGPT之前的GPT-3系列、OPT、Bloom,到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是生命了来源,而不发布数据本身。

如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。

对此,团队采用4种方法来测量任务污染程度:

  • 检查训练数据:直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上,存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

  • 提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo,这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。

成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同

  • 按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低,容易受干扰因素影响。

特别是对于GPT-3系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。

虽然在2021年之前的数据集上,davinci-002比davinci-001的性能有所提高,但在2021年之后的数据集上性能却相应下降,

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为:

  • 由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过RLHF微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。
  • 在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
  • 随着时间推移,观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加,这可能是由于任务污染造成的。
  • 即使对于开源模型,检查训练数据的任务污染也很困难。
  • 鼓励公开发布训练数据,以便检查任务污染问题。

有人总结到:

  1. 用现有数据训练AI
  2. 人们过多使用AI,以至于改变了现实世界
  3. AI无法适应改变后的世界,变得低效

这是一个循环。

论文:
https://arxiv.org/abs/2312.16337

参考链接:
[1]https://twitter.com/ChombaBupe/status/1741531065032798360

AI热门开源项目排行

1、Stanford Alpaca

简介:提供了用于训练斯坦福大学Alpaca模型的代码和文档,以及生成相关数据。Alpaca模型是一种大型语言模型,专注于提供更高效的文本生成和处理能力。项目旨在促进语言模型的研究与开发。
地址:github.com/tatsu-lab/stanford_alpaca

2、llama.cpp
简介:Facebook的大型语言模型LLaMA的C/C++移植版。项目的目标是在保持模型性能的同时,提供更高的运行效率和更好的系统兼容性。对于需要在本地运行和集成LLaMA模型的开发者而言,这个项目是一个宝贵的资源。
地址:github.com/ggerganov/llama.cpp

3、gpt4all
简介:gpt4all是一个开源项目,提供可以在任何地方运行的大型语言模型聊天机器人。它旨在使得部署和使用大型语言模型变得简单,为开发者社区提供了便利的接口和工具。
地址:github.com/nomic-ai/gpt4all

4、vllm
简介:vllm是一个针对大型语言模型的高吞吐量和内存高效的推理和服务引擎,支持快速、便捷、廉价的LLM模型服务,旨在优化模型的部署和运行效率。
地址:github.com/vllm-project/vllm

5、MiniGPT-4
简介:项目提供了MiniGPT-4和MiniGPT-v2的开源代码,这些是缩小版的GPT-4模型,旨在提供类似功能但资源要求更低的解决方案。这使得在资源受限的环境中研究和开发大型语言模型变得可能。
地址:github.com/Vision-CAIR/MiniGPT-4

6、LLaVA
简介:LLaVA项目旨在构建具有GPT-4V级别能力的大型语言和视觉助手。该项目侧重于视觉指令微调,强化了模型处理视觉信息的能力。
地址:github.com/haotian-liu/LLaVA

7、Awesome Multimodal Large Language Models
简介:精彩的集锦列表项目,汇集了关于多模态大型语言模型的最新论文和数据集,以及它们的评估方法。这是一个资源丰富的仓库,为那些对大型多模态语言模型研究和应用感兴趣的研究人员和开发者提供了宝贵的信息。
地址:github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

8、JARVIS
简介:由微软开发的JARVIS是一个系统,用于将大型语言模型与机器学习社区连接起来。项目伴随着一篇论文,介绍了如何利用大型语言模型来提升机器学习任务的性能和效率,旨在探索人工智能的广义智能(AGI)并将最前沿的研究成果分享给整个社区。
地址:github.com/microsoft/JARVIS

9、ChatPaper
简介: 利用ChatGPT来加速科研流程的工具,可以对arXiv等科研论文库的论文进行全文总结,提供专业翻译、润色、审稿以及审稿回复的功能,旨在全流程加速科研人员对文献的处理和理解。
地址: github.com/kaixindelele/ChatPaper

10、MLX
简介: MLX是一个为苹果硅芯片设计的数组框架,专注于利用Apple Silicon的硬件特性,提供高性能的机器学习运算能力,旨在优化和加速机器学习任务在苹果硬件上的执行效率。
地址: github.com/ml-explore/mlx

有手机就能免费用上大模型,AI普惠还得看中国


2023年,是我们集体见证人类历史的一年。自ChatGPT横空出世以来,大模型对于人类社会的颠覆性变革有目共睹。但我们也必须承认,当下的大模型更多还局限于企业级用途,面向消费者的杀手级应用尚未诞生。

人人都能触手可及、使用便利的大模型,离我们还有多远?

其实,当时间来到2023年底,一个AI真正走进千家万户的方案已经初具雏形。

2023年12月29日-2024年1月4日,vivo在全国多地打造 “新年心愿 蓝心同行”线下主题活动。活动现场限时开启「蓝心许愿屋」,让用户可以通过生成式AI以“创作愿望”的方式近距离体验蓝心大模型。这也是第一次有厂商在线下举办AI大模型技术相关的体验活动。

蓝心大模型是vivo于2023年11月刚刚发布的自研大模型矩阵,也是vivo打造用之于民的普惠大模型的最新成果。除了在多项能力测试中成绩优异之外,蓝心大模型落地在手机产品上也代表了大模型发展的一个新方向,有望真正给用户带来一款便捷、好用的私人大模型助手。

触手可及的大模型,应该长什么样?

2023年11月1日,vivo正式发布了新一代手机操作系统OriginOS 4,其AI能力相较以往有了巨大提升,全新的智能助手蓝心小V成为最大的亮点之一。

以苹果Siri为代表的手机语音助手,早就不是什么新鲜事物,但是它们能够实现的功能、语音识别的准确率,以及对语言的深度理解都难以让人满意,以至于这些人工智能助手常常被调侃为“人工智障”。

如何才能做出一个真正聪明的AI助手?从蓝心小V身上,我们可以看到一部分答案。

大模型赋能,当然是这个时代的主旋律。与蓝心小V同时发布的,是vivo自研的蓝心大模型。

发布之初,蓝心大模型矩阵包含十亿、百亿、千亿三个参数量级,共5款自研大模型。其中1B(10亿参数)和7B(70亿参数)的蓝心大模型已经在vivo旗舰机型上实现了端侧化,70B(700亿参数)成为面向云端服务的主力模型。而参数量最大的蓝心大模型175B(1750亿参数),已经持平于外界普遍认为的ChatGPT-3.5参数量。

从实际表现来看,蓝心大模型在语言理解、文本创作等场景下能力非常优秀,中文语境能力一度在CEVAL、CMMLU等专业榜单上排名第一。

不过,仅仅做出一款业界领先的大模型,对消费者来说就够了吗?答案是否定的。

ChatGPT-3问世至今已经一年有余,形形色色的国产大模型也层出不穷,但是平心而论,这些大模型能够给普通人提供的服务仍然有限。甚至有大模型厂商直接表示,只做行业类服务,不会面向普通消费者。

究其原因,大模型的落地应用目前还面临两大难题。

首当其冲的,是贵。大模型训练有多烧钱,已经无需赘述。有报道指出,ChatGPT-3单次训练成本达到460万美元,每天的运营成本都要70万美元。vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围也曾经表述过,以vivo的用户体量,如果运营云端大模型,全年单单服务器成本可能就是十亿甚至百亿级别。

此外,大模型厂家无论是自行购置GPU进行训练,还是租用云服务器,费用都十分高昂。虽然很多大模型免费或者低价向普通用户开放,但是从盈利层面显然是不可持续的,需要企业级业务的补贴。

其次,对于普通用户来说,大模型往往也不是真的那么好用。

决定一款大模型性能的,除了算法之外,更重要的是数据和训练。对于通用大模型而言,虽然它们使用了全网海量数据进行训练,但是其输出结果也趋于泛化,未必符合用户的个性化需求。而网络数据的准确性难以保证,也会导致大模型输出结果的错误。

因此,企业级用户一般都需要使用专门数据来进一步训练模型。

那么对于个人用户来说,便宜和个性化,也是大模型落地最大的痛点。

以vivo为代表的手机厂商入局,则为此提供了一个解决方案。

那就是vivo发布的蓝心1B和7B大模型。

所谓端侧大模型,是直接部署在用户终端,也就是手机上的大模型。这种轻量化的大模型,可以直接使用手机处理器的算力进行运行,在大部分场景下不需要网络通信,飞行模式下也能用。

这样一来,厂商直接省掉了大模型运行中的服务器成本,而用户相当于在购买手机时就获得了大模型,后续使用成本为零。

端侧大模型另一个优势,是在未来或许能够真正成为个性化的用户私人助理。

“大模型能否记住用户的习惯,并提供更加个性化的服务?能否记住我们和大部分时间一起的共同经历,拥有共同的回忆,从而为用户带来温暖的陪伴?”vivo副总裁周围提出了这样一个问题。

一个真正的智能助手,应该是温暖的,而不是冰冷的;应该具有人格和记忆,与用户共享喜怒哀乐。想要实现这一点,大模型必须能够实时获得用户信息和行为习惯。

那么随之而来的问题是,用户个人信息如何保障?一个完全部署在手机上,无需将数据上传到服务器的大模型,无疑为隐私提供了最大的保护。

正是得益于这两大优势,端侧大模型已经成为2023年底行业中最火热的概念之一,有望让大模型快速走进千家万户。

以vivo为代表的中国手机厂商,正在大模型时代占据先机。

AI普惠,中国企业做对了什么?

国产大模型百花齐放的盛况,在一年前还是很多人不敢想象的。

2023年初曾有人断言,大模型领域的创业,ChatGPT已经做完了99%的工作,后来者只能基于ChatGPT做一些应用层面的开发。

但是事实证明,中国企业在大模型领域也有长期、深厚的积累。

vivo为何能够快速推出业界领先的蓝心大模型?事实上,vivo对于AI的研究布局已久。

早在2017年,vivo就组建了Al全球研究院,是首批设立专攻人工智能方向研究院的中国手机公司之一。自那时起,vivo一直维持着1000人左右的专业人工智能团队,累计在顶级期刊发表了70多篇算法领域的高水平论文。

除了坚定的资本投入,vivo还做对了一件事,就是拥抱开源。目前,vivo已经将7B参数量级的蓝心大模型面向全行业进行了开源,让更多的中小开发者可以“拥抱”大模型。

周围在介绍蓝心大模型时谈道,真正好的自研大模型需要具备5点特质,分别是大而全、算法强、真安全、自进化、广开源。

ChatGPT诞生之初的惊艳,一度让外界认为它就是大模型的终极形态。不过冷静下来之后,人们很快发现,ChatGPT仍然处于一个孩童阶段,虽然具备了基础的逻辑能力,但是仍然需要学习更多的专业知识才能长大。

因此,在ChatGPT之外,以Meta为代表的开源路线也逐渐显示出自己的优势。大模型不是闭门造车,能够把更多开发者拉进朋友圈,更有利于发挥人类集体的智慧来帮助AI成长。

vivo是开源路线的受益者,也是贡献者。

目前,vivo已经正式开源了蓝心大模型的70B版本,为了方便开发者使用,还推出了蓝心大模型开发套件 Bluekit。中小开发者可以直接调用大模型的端侧推理能力,真正实现了大模型的开箱即用;对于希望进行微调的开发者,vivo 提供模型参数热插拔机制,通过系统级计算调度,将开发者模型进行组合推理,帮助构建高自由度的定制化模型。

此外,vivo的自然语言对话机器人蓝心千询,将以手机公版app的形式上线各大手机应用市场,不仅vivo手机用户可以使用,所有安卓和ios的用户都可以在应用市场下载。

不仅要让消费者用上更便宜、好用的大模型,同样也要让开发者触手可及,为整个中国人工智能产业的发展赋能,这才是AI普惠更深层的意义。当更多的头部企业加入开源生态建设,我们也有理由对中国大模型的后来居上充满信心。

来源|观察者网