“红衣大炮”周鸿祎:AI发展的十大趋势

AI发展十大趋势:

一、大模型无处不在,成为数字系统的标配。

二、开源大模型将会爆发。

三、小模型会涌现,运行在更多终端。

四、大模型企业级市场崛起,向产业化、垂直化方向发展。

五、Agent智能体激发大模型智能,成为超级生产力工具。

六、2024年成为大模型应用场景之年,ToC出现杀手级应用。

七、2024年多模态会成为大模型标配。

八、文生图、文生视频等AIGC功能实现突破性增长。

九、具身智能赋能人形机器人产业蓬勃发展。

十、大模型将推动基础科学取得突破。

近日,360创始人周鸿祎在主题为“挺住才有出路“的一场演讲中,分享了以上对人工智能大模型的十大趋势判断和相关看法。

周鸿祎是中国互联网安全企业360集团创始人兼CEO,知名投资人、知名创业导师。其创立的360是最早布局大模型的国产厂商之一,“360智脑”也是国内首个原生安全大模型。

以下是整理的精华内容,分享给大家:

美国投资界把人工智能大模型看成是80年的PC,1995年的互联网,看成是工业革命的机会。而且他们还觉得,一旦美国在人工智能上形成了优势,对其他国家和全球竞争来说就属于降维打击。日本有失去的30年的原因在于,明确错过了电脑和互联网两大机会。而美国在电脑和互联网上成功实现了自己的升级。不管是创业者还是普通人,人工智能都能我们能碰到的最大机会。工业革命让所有行业都实现了洗牌,比如互联网对汽车工业的洗牌,特斯拉的出现改变了人们对于买车的想法。

人工智能会带来洗牌的机会

人工智能不仅是规模最大,也是速度最快的工业革命。如果这个世界亘古不变,那确实对大家来说没有什么机会。所以我觉得人工智能会带来洗牌的机会。

希望大家关注人工智能在2023年最大的突破,就是大语言模型实现了真正的人工智能,来到通用人工智能的拐点,而且在奔着强人工智能的方向,在飞快地一路狂奔,而且技术发展遥遥领先。大模型可能对我们国家,对我们的产业,对在座的各位来说,对创业者来说,可能都意味着不同的机会。

我讲一讲大模型的10个趋势。

趋势一:大模型无处不在,成为数字系统的标配。

我不认为大模型是操作系统。全世界的手机操作系统就鸿蒙、iOS、安卓三款,大模型更像当年的PC一样,未来会无处不在,成为整个企业数字化、政府数字化的标配。当年超级计算机的创造者说过一个断言,说计算机这东西,全世界就需要5台。

结果现实无情地打了他们的脸。今天有多少台电脑?在座的诸位家里至少摆着一台电脑,办公室一台笔记本,你们兜里还揣着一台电脑,因为你们的手机也是。所以大模型不会被垄断,不会说全中国人民、全世界人民都用一个公司的大模型。我认为大模型会无处不在。

趋势二:开源大模型将会爆发。

最早的大模型是闭源的,闭源刚出来的时候,我们一看OpenAI做的东西,感觉这就是「曼哈顿计划」,美国人把原子弹造出来了。后来发现,人家一开源,科技就进步,所以要感谢开源。现在国内也有很多开源的模型,就是基于国际开源的模型。所以开源大爆发之后,大模型就瞬间从原子弹变成白菜了。今年年初有人创业想搞原子弹,那到年尾,就发现自己做的是茶叶蛋的生意。

未来的矛盾不再是大模型本身怎么样,而是谁能够利用大模型结合自己的业务和场景,能够把它训练出自己所需的专属功能。

趋势三:小模型会涌现,运行在更多终端

有大必有小,阴阳是两个方面,一方面现在很多公司在思考,如何把模型进一步做大,从千亿的参数做到万亿的参数。但现在出来一个趋势:把模型做小,在十几亿、几十亿或者不超过100亿的模型上,效果也能差不多。

模型做小有两个前提,一个是模型做专业。模型什么都要会,那确实要很庞大,但如果这个模型就是写点东西,或者做点翻译,那专业的模型可以做小。做小还有一个好处,就是可以运行在更多的终端。像高通去年推的CPU,还有苹果推的CPU,都已经意味着在手机、Pad、电脑上,这种小参数的大模型已经可以跑起来。

2024年大模型一定会上车。因为车上有了大模型之后,车里那个对话助理才不会表现得像白痴一样,真正帮你解决很多问题。

趋势四:大模型企业级市场崛起,向产业化、垂直化方向发展。

大模型企业级市场在2024年会起来。虽然大家天天都在秀自己大模型的成绩,说你看我的会脑筋急转弯,我的会解小学奥数题,我的会写藏头诗,但玩多了发现跟业务毫无关系。2024年中国的toB业务,企业级市场会起来。大模型要走深度化、产业化、垂直化、深度定制的方向。

趋势五:Agent智能体激发大模型智能,成为超级生产力工具。

结合“智能体架构“,大模型长出手脚。第五个稍微偏点技术,OpenAI最近也在弥补,刚有了大模型的时候,大家觉得聊天机器人确实人机界面很简单,但做久了就发现,聊天机器人不太解决问题,仅仅是陪你聊天,最多就是一个PUA能手。

所以在2024年,一个新的概念叫「智能体架构」。英文叫Agent框架。大家要关注Agent,叫智能体概念。没有Agent框架,大语言模型几乎不能投入实用。

所以今年无论在做toC的业务,在做企业级的应用,大模型一定要结合智能体框架,才能真正让大模型长出手脚,让大模型真正跟你的业务系统,跟整个互联网充分打通。

趋势六:2024年成为大模型应用场景之年,ToC出现杀手级应用。

很多人都在问,在消费者端,大模型到底有啥杀手型的应用?中国会产生什么杀手级应用,我还不知道,但是2024年一定会出来。美国有三家公司很有意思,一家叫微软,一家叫Adobe,还有一家叫Salesforce,他们没有用大模型做任何新的东西,而都是把大模型跟已有的产品和场景做了一个充分的结合,就焕发了新生。

比如微软选择了Office、Bing和Edge浏览器;Adobe选择的是它擅长的图形编辑、视频编辑。所以我觉得大模型出来之后,在To C领域意味着,我们今天的搜索、浏览器、信息流、短视频、微博、问答,甚至我们的社交可能都会用大模型来重塑一遍。至于是战术性重塑还是战略性重塑,就看各家的做法,所以2024年一定会出来这种杀手级的应用。

趋势七:2024年多模态会成为大模型标配。

第七个预言,大模型在去年主要讲的是文字能力,写稿的能力。2024年,以Gemini和OpenAI的GPT-4V版本为代表,多模态会成为未来的标准。多模态不仅能听会说,关键是它能看得懂视频,能看得懂图片。

趋势八:文生图、文生视频等AIGC功能实现突破性增长。

在大模型的支持下,AIGC会有突破性的增长。去年年初Midjourney画一张图,一看就是AI画的,经常把人画成6根手指。再到年底来看,计算机生图已经和摄影师的作品不相上下了。年初AI产生视频的能力,几乎都是动图、表情符号的能力,年底有的已经做得像好莱坞动画片了,所以这个进展特别快速。

趋势九:大模型拯救机器人行业。

大模型拯救了机器人行业。在大模型出来之前,传统的人形机器人是典型的智障产业——做得像人,但是能力极其低下,因为它不具备对这个世界知识的了解。但是有了大模型之后,机器人的产业获得了一个革命性的发展。这两天热炒的一个机器人,可以自动煎蛋,自动做家务,自动整理衣服,这完全有赖于大模型的加持。

趋势十:大模型将推动基础科学取得突破

为什么中国一定要做大模型?大模型不仅仅是语言工具,也不仅仅是聊天机器,大模型也不仅仅能在我们很多业务中发挥作用,其实大模型可能成为人类有史以来发明的最伟大的工具,成为很多科学家的工具。我们今天之所以能享受互联网,享受很多新能源,是因为前100年这个世界的物理学家取得了关键性的突破。

但在最近五六十年,人类在科技上已经很久没有突破,所以如果大模型能够成为科学家的工具,比如在美国,很多生物学家已经开始用大模型来帮助他们研究蛋白质的结构,研究分析基因。

所以我希望2024年,大模型能够推动基础科学取得突破,变成我们科技发展的利器。企业家要有AI信仰,抓住机会All in AI简单的建议是,你要有AI信仰,就是你要believe something,你要相信。

AI信仰怎么判断呢?很简单,我提了几个标准。

第一,在座的诸位可以回去扪心自问,你相不相信这次大模型是真的人工智能的拐点,还是不相信,认为是假的人工智能。

第二点,你相不相信它现在的发展速度会以指数级别发展;你相不相信它未来智力的发展速度会迅速超过我们人类;你相不相信它会是一场工业革命,在3-5年里,它会重塑我们每一位所在的行业,会重构我们的产品、业务链条和内部管理流程。

最后,除了重塑包括我们所有的产品和业务之外,还有你相不相信,你不会被大模型淘汰,但你会被那些用大模型的公司淘汰。

没有AI信仰的人看大模型,容易看不起,看不起是因为看不清,是因为心态的问题。因为看不起,所以也不愿意放下身段去琢磨,所以就看不懂,等到哪一天他们醒悟过来,已经看不见了,人家遥遥领先了。

第二个建议,就是要All in AI。什么叫All in AI呢?

真正的All in AI是你在公司里面,把信仰落实到行动中,在你的公司里让AI无孔不入。

比如说从上到下,组织里面从老板到你的中层干部,到你的员工,是否都在学习和使用AI?

还有我们有哪些业务流程可以被AI塑造?比如市场部是不是在用AI去做图?程序员是不是用AI编代码?HR是不是在用AI梳理简历?就是从小处着手,到公司内部。

还有要把产品重新思考一下,敢不敢做自我革命的事情,所谓”要想成功必先自宫”。你能不能把你的产品用AI去想,能够加持什么功能?

所以我觉得这是未来最大的一个机会。科技公司微软和Adobe,All in AI把已有产业用人工智能重做了一遍,都取得了很好的成绩。未来3-5年,如果不能用AI变成自己的武器,那么你的对手会对你造成降维打击。同样,AI虽然不会让你失业,但是会用AI的同事,会让不会用AI的同事失业。AI绝对是业务驱动的,只有在你公司从上到下、从内到外,让大家都对AI感兴趣,让业务专家都了解AI是怎么回事,我认为你才可能在未来这3-5年时间里,用AI来帮助你实现转型。

(来源:360创始人周鸿祎“挺住才有出路“的演讲)

环球AI现状:世界并不总是平的

“人工智能领域的泡沫,总是在不断产生又破灭中循环。”梅拉妮·马歇尔在著作《AI3.0》中,这样描述人工智能领域5到10年的周期循环。2016年,击败围棋世界冠军李世石后,AlphaGo短暂掀起人脸识别、自动驾驶等人工智能浪潮。2023年,ChatGPT的横空出世让大模型成为AI界当之无愧的“顶流”。

泡沫破灭,资本冷静后,不理智的潮水终于褪去。如今,AI界鲜少再重谈人脸识别,自动驾驶难以落地,而在国内,大模型也从当红炸子鸡慢慢成为投资人投不起的领域。研究人工智能的群体已经熟悉了这一模式:在“人工智能的春天”,投资机构过度承诺,媒体过度炒作,紧接着便会迎来“人工智能”的寒冬。环球并不同此凉热。在美国,VC圈对人工智能投资热情不减。而在积极拥抱AI的东南亚,中美正在进行AI技术与投资的角逐——2020到2021年,来自美国和中国的投资者,参与了267笔东南亚人工智能公司的投资交易,占总投资比重40%。

一个可喜的现象是,在东南亚,科大讯飞、华为、海康威视等中国科技公司与东南亚当地产生千丝万缕的联系,中国科技企业正成长为东南亚AI界的中流砥柱。曾经,普利策奖得主托马斯·弗里德曼在《世界是平的》中,说世界的竞技场已变得更加平坦,变平的世界让每个个体、区域都站在同一水平线下。环顾全球AI界,我们发现,世界并不总是平的。全球范围内,不同区域AI风向有何不同?

当AI企业走出国门,又会迎来哪些机遇挑战?ChatGPT为什么并不脱胎于腾讯、谷歌等数据集庞大的大厂?对于AI初创企业有什么启发和意义?

现在整个国内投资界几乎形成了一个共识,就是“大模型的投资热正在冷却”。

作为今年创投圈最火热的赛道,大模型曾炙手可热,无数科技大厂、AI创业公司掀起一股又一股的大模型浪潮。而今全球科技公司对大模型的竞争,正进入存量时代。根据IT桔子数据,截止到2023年11月底,国内人工智能赛道一级市场的总融资额有580起,比2022年减少了26%,总融资金额是630亿元,与去年同期也下降了38%。而在大洋彼岸,美国的大模型融资依旧如火如荼。

根据Crunchbase数据,去年VC阶段的投资有11%流向了人工智能赛道,截止到今年下半年,2023年的比例增长了26%,有26%的VC阶段的投资都流向了人工智能美国投资界对大模型的参与热情不减反增。大洋东西,AI融资正面临不同境遇。这背后,不同融资环境差异到底是如何造成的?

首先,在美国,大模型已经达到了能够产生巨大经济效益的规模,并且在一定程度上影响了宏观经济。有研究发现,这一次自硅谷刮起的大模型之风,已经为美国的GDP贡献了一个百分点的增长。而在中国,虽然百模大战愈演愈烈,但大模型的变现之路仍处在摸索的初级阶段,而商业化问题一直是上几轮AI浪潮下,难以找到最佳solution的老难题。

其二,在中国尚未出现像OpenAI一样的应用层全栈式AI公司,能够从基层大模型、中间层一直做到应用层。而大模型这种极度依靠大算力暴力美学的领域,对于初创公司来说,太烧钱,门槛太高,堪称军备竞赛。大模型不能投,但应用层又没有特别多的公司出来,投资圈开始冷静思索,大家都处在观望状态。

华映资本海外合伙人邱谆认为,这背后体现了中美技术原创能力的不同。“硅谷还是一个以原创技术为核心的,为基座的驱动力,这还是很重要的,中国的优势在于优化,不一定是原创,就是人有我有,可能人有我优,再者规模化,上一波深度学习驱动的机器视觉,可以说是AI1.0,现在大语言模型算是AI2.0, 这两波浪潮国内目前的参与都还主要在优化和规模化方面。

”1997年从北京大学毕业后,邱谆就去美国学习人工智能,从南加州大学信息科学研究院毕业后,他加入了硅谷传奇科技公司——思科,前几年回国后加入了投过壁仞科技、星辰数据等AI领域知名公司的华映资本。他持续关注中美、东南亚等地的AI创投。时间倒回到千禧年,邱谆仍在硅谷深耕技术,那时正值AI寒冬,但整个硅谷还是在不断的积累,很耐心地等待下一个突破。

“但如果我们到大洋的另外一面,就会看到一般来说,是在等美国出现下一个突破之后,我们再去投入,去做优化和规模化的事情,所以它会有一定的延迟。”“这个突破前的积累过程其实可能是需要一些耐心的,在这个阶段过去之后,我们就真的到了互联网.com那一波,就是中间层的相当于一个接口能够出现的时候,这时候才到了应用层大量涌现的时候,在中国可能就会出现大量的像当年滴滴等一堆互联网公司,这个时候可能还是会需要一定时间,可能大家还需要一定的耐心。”

在中美之外,东南亚也成为中美大模型交锋的主战场。

在东南亚,AI还正方兴未艾,虽然落地步伐相对慢,但还是能看到希望。整个东南亚地区的国家,都在拥抱AI。中美两股AI旋风正在东南亚交汇。AI在东南亚并不算是新兴行业,在大模型浪潮之前,东南亚就因低廉的人力成本等因素聚焦了智能客服、人工标注等AI相关应用。

但在今年来到东南亚后,科大讯飞云平台事业群副总裁周传福明显的感受是:除了原来的这部分传统项目,现在更多地看到像政府部门、媒体行业、金融行业等都在更加热烈地讨论、拥抱AIGC、大模型等新技术。虽然目前东南亚使用最多的还是来自OpenAI等欧美AI公司的大模型,但在东南亚AI界,也不乏科大讯飞、华为、海康威视等中国科技公司的身影。

科大讯飞、阿里巴巴相继在东南亚推出大模型,东南亚国家队也加入大模型竞赛,新加坡政府投入5200万美元的资金支持AI多模态大模型开发计划(NMLP)。周传福说:“东南亚虽然是一个区域,但是打开来看,很多国家都有很大的不同。

新加坡是东南亚唯一一个发达国家,它的AI落地会更快一些,像教育等等部门或者行业都有很多的落地应用。相对来说,新加坡(AI落地)走得比较靠前,活跃度更高,但是像马来西亚、印尼、泰国等等国家也能深刻感觉到比原来更加热烈,当然整个落地步伐相对慢,但是还是能看到希望。我们也会长期坚持在这些地方深耕。”

而越南在人工智能的竞赛里也存在弯道超车的可能。摩根大通曾分析称,越南处于新兴东南亚人工智能发展的“前沿”。早在2021年1月26日,越南政府总理批准的《到2030年国家人工智能研究、开发和应用战略》中,就明确了将人工智能发展成为支柱工业产业。

英伟达CEO黄仁勋也再次押注越南AI,2023年12月,英伟达CEO黄仁勋会见越南政府总理范明政,并承诺将在越南建立半导体基地,将越南打造成为英伟达的第二故乡。

东南亚已成为科大讯飞海外业务的第一站和战略中心。2023年6月,科大讯飞携星火认知大模型与C端智能硬件,在新加坡举办产品发布会暨讯飞AI TechDay·新加坡站活动。

因为科大讯飞一直以相对底层技术的创新、研究为主,所以如果把这些技术用在更多的场景、更多的设备单靠科大讯飞自己其实不行。所以整个开发者生态方面花了很大的力气。”周传福说,在东南亚的开发者生态方面,科大讯飞搭建了以新加坡为中心的讯飞开放平台国际站。

“其实我很羡慕,羡慕的点在于C端酷炫的产品是很容易抓到消费者的,但是底层技术的可能讲两天人家都不知道你在做什么。所以整个生态方面就是把技术落地应用生态是我们长期布局,不是靠一年两年,至少3-5年才能把一个基础做好,这是目前整个状态。

当然在东南亚我们也看到了很多的突破。”他认为,在这些突破的背后,离不开技术创新本地化

东南亚历史文化背景复杂,移民的跨国流动使得东南亚形成不同方言体系的多族群社会,各个地区方言众多。比如印度尼西亚的官方语言主要在雅加达一带通用,但其他地方又有非常多的方言

而要做语音识别和合成的核心技术创新,就要在提升通用能力之外,针对不同方言区域的口语场景去做提升。另外,识别合成大模型领域也是科大讯飞寻求突破的重要底层技术。本地化是出海中企必须要面对的一个挑战,而对于科大讯飞来说,这也是不得不做的事情。

因为科大讯飞要面对很多B端用户场景,其中并不存在捷径,他们已经做好了深扎两三年的准备,才能在当地把行业做熟做透。目前科大讯飞的东南亚团队规模还不是特别大,大概在二三十个人左右,native speaker大概占到40%左右。本地雇员的职务多是以商务拓展,市场等岗位。

核心技术方面,还是以国内总部以及在当地派驻的技术支持为主。在国内团队和本地团队协作过程中,文化差异带来的挑战不可小觑。周传福认为,这种情况下,要把自己放到当地的国家去考虑问题,“而不能说我中国怎么怎么样,外国怎么怎么样,这对我们来说其实是一个适应的过程,说起来很简单,但真正把自己的定位要放到当地的国家。”除此之外,所有大模型企业要想跑通,都要跨越数据和人才两座大山。

让我们回到开头的问题:ChatGPT为什么并不脱胎于腾讯、谷歌等数据集庞大、人才济济的大厂?腾讯和微软数据一定是大过OpenAI的,为什么OpenAI有GPT,腾讯、微软和谷歌都没有GPT?这是因为对数据的有效利用和搜集非常关键。对初创公司来说尤甚,特别是想真正成为一家AI公司,或者只是被AI赋能的公司。

邱谆认为,私有性未必是价值本身的源泉。“你要真正能够利用AI肯定要有数据,但私有数据未必都有价值。这个对于初创公司要有一定认知。”积累和收集数据,一定要考虑算法。比如搭建数据栈平台,但它的门槛其实很高,因此光是收集梳理数据的准入门槛就将很多人拦在外面。甚至于巨头公司的数据都未必全有用。提到大模型浪潮下的AI军备竞赛,卷算力或许重要,但核心的算法人才才是这轮竞赛最重要的资源。

对于初创公司,邱谆的建议是,从现在开始去物色一些大模型算法核心人才:“作为一个初创公司,可能今天就要去搜寻一些真正核心的人才,听上去好像有点遥远,但我觉得我这个建议很可能是会有用的。对于一些初创公司,如果你今天就开始,不管你做什么,甚至你只是做应用层,都一定要过数据这一关,但光有数据又没有用,最后很可能是要看你的算法,不管你是什么算法,可能不用碰到基座大模型,但即便你要做微调,甚至只是去调API,都会需要对训练算法的深度认知,最重要的军备其实是人才。”这也是因为,目前国内大模型人才储备资源紧缺。

医者AI CEO刘呈辉曾对媒体表示,“现在国内做基座类模型的人才90%都出自清华,国内真正会调模型、训练模型的甚至不超过200个人。

而大模型抢人大战也让用人成本水涨船高,vivo副总裁周围接受媒体采访时曾表示:”vivo大模型现在每年20亿~30亿元的投入成本,总投入成本已经超过200亿元,人才和数据算力各占一半,人才成本平均每人税后100万元。

在当下,寻找核心人才资源对于初创公司来说尤为关键。大模型让全球的AI竞赛进一步加速进行,如何在全球化中找准自己的位置,并发挥自身优势,是所有AI企业需要面对的新课题。

对话智谱AI CEO 张鹏:让追赶OpenAI成为可能

以下文章来源于硅星GenAI ,作者油醋

1月16日,智谱AI发布新一代基座大模型GLM-4。GLM-4在基础能力上实现大幅升级,支持最高 128K 长文本,原生支持自动联网、图片生成、数据分析等复杂任务,并在多模态能力上有了长足进步。据智谱AI透露,在内部测评中,GLM-4在性能上逼近了GPT-4。GLM模型智能体和智能体中心也在GLM-4发布当天同步上线。此前,去年6月ChatGLM-2发布,去年10月ChatGLM-3发布,而去年3月GLM-4已经完成第一个版本。CEO 张鹏认为三到四个月完成一次基础模型迭代是正常的研发速度。

去年年初,这家中国最重要的基础模型公司定下了朝GPT-4追赶的目标,之后一年基础模型继续快速发展,Meta把持着开源生态,领头羊OpenAI拿出了GPT-4,谷歌带着Gemini姗姗来迟。基础模型的竞争者逐渐收敛到少数几家,而观察中国公司在其中的位置时,目前中国唯一估值超过百亿人民币的智谱AI或许是那个锚。在GLM-4发布之际,我们与智谱AI CEO 张鹏进行了一次独家对话。以下为对话实录:

对话人 | 骆轶航、朱正

什么最重要?模型,模型,还是模型

硅星人:我们先聊聊GLM-4本身。智谱AI对标GPT-4去做自己的升级和演进,这个整体思路是怎么样的,如何让追上GPT-4这件事看起来可行,并且可能还会有一些超预期的东西?

张鹏:首先肯定是模型能力方面差距的追赶,比如多模态能力,GPT-4在3月份发布的时候其实已经带来多模态能力了。我们判断对于AGI来说,多模态这件事情可能是必须要去解决的,所以这个能力你必须有。包括模型本身能力提升所带来的像CoT这样的高阶能力,它其实根植于你底层的基础模型的能力。第二件事是,有了大脑,需要眼睛和耳朵,手和脚——需要要把这些基础模型的能力辐射出去,跟外界系统产生更密切的交互,而不是简单的做文本和图像的输入输出。这个事情就偏向应用了。

硅星人:基础模型能力的辐射,这是关于Agent(智能体)的想法了。现在人们谈起Agent,正在陷入一个概念的陷阱里,智谱AI对于Agent的有什么自己的理解?

张鹏:Agent在人工智能或者说计算机科学史上是个“老概念”,有一套相对完整的解释体系。大模型下Agent找到了一个新的视角。但Agent的本源仍然是大模型的基础能力,大脑的智力水平足够高,才能去谈理解、推理、以及规划和执行这些事。智谱AI还是从技术角度的的定义和演进来理解Agent的。然后从大模型角度来看,Agent应该怎么去演化,怎么去提供这个能力。以及它跟需求语言之间应该如何相互翻译,找到通路去对应上。

硅星人:Agent和所谓的AI原生应用(AI Native App),这两者之间是什么关系?

张鹏:首先AI Native这个范畴还是太大,我们更愿意叫做大模型的原生应用。首先说大模型原生应用,它实际上是指的我们希望说从大模型的原生能力出发,去设计和开发的应用,我们期待它是一种新的东西,而不是说把原来的应用拿来做一个升级。这个是有的,比如ChatGPT,这个产品在工程化层面其实很简单,核心就是一个模型。而对于Agent,我们的理解始终是它是模型某种能力的外化,你可以把这种能力做成某种大模型原生应用。但Agent本身也会给应用的开发过程带来一些变化。当Agent能力被用在开发阶段,它又变成一个赋能原生应用开发的过程,Agent和大模型原生应用之间的逻辑应该是这样。

硅星人:就是可能大模型原生能力本身体现了Agent的能力,Agent某种程度上也在帮助大模型原生能力开发的自动化,这样一种关系。

张鹏:对。

做垂直领域最终是为了以后不做硅星人:智谱AI在垂直领域的商业化很早,给外界的感觉一直是比较 to B,GLM模型智能体会是一个跟GPTs很像的东西吗,还是不一样?

张鹏:商业化落地这件事还是围绕着我们模型价值本身。我们早期的模型能力不太够,那可能就需要去为了填补模型本身的能力和最终业务需求之间的gap,而去垂直领域多做一点事情。你不去做,你不知道客户在想什么,也就不知道你的技术最终帮助客户提升的用户价值到底有多少。这实际上是我们去寻找Best Practice(最佳实践)的一个过程。我们希望把这个路径蹚通,回过头来把这些东西沉淀下来之后赋能给生态。

硅星人:比如说RAG(Retrieval Augmented Generation,检索增强生成),智谱AI应该是国内最早把RAG用到垂直领域了的一个。

张鹏:算是比较早,因为LangChain整个开源项目里头就有我们。RAG是很典型的一个例子,就是从垂直领域沉淀出通用型的需求,以及一套方法。这套方法可以成为一种标准化的解决路径和产品。

硅星人:所以可以这么理解,我们做很多垂直领域的事,其实是为了反哺通用模型的基础能力提升。做的目的是为了以后不做。

张鹏:对。GLM模型智能体就是在探索一种更通用的路径。

传统互联网爆款产品经理不理解最新的AI技术

硅星人:智谱AI一直以技术能力见长,你怎么看现在智谱AI的产品能力,比方说我们能够支持多少个开发者在上面,怎么提供好的工具,甚至让开发者能得到更多曝光?

张鹏:如果我们现在真的进入到了大模型的应用半场的话,产品能力是大家都很关注的一件事。智谱AI之前也有自己的一些产品化的东西,其实用户量都还不错,我觉得产品能力应该来说还不算差,当然我们会持续的在这方面去加强。但是反过头来讲,你看ChatGPT,作为一个产品本身没有什么特别复杂的东西。所以——我个人感觉,因为我不是做产品出身——所谓产品力这个东西,在这个时代它变成了一种对需求的敏锐感知能力和对于新技术的领悟能力的兼顾,在这个基础上,考验的是如何揉合这两种能力,去产生一种新的产品表达形态的这样一种复合的能力。

硅星人:这跟移动互联网时期的小步快跑、快速迭代和敏捷开发这些东西可能是不一样了。

张鹏:这一套沉淀下来的产品开发逻辑还在,尤其是ToC。但为什么现在大家说要找一款所谓的Killer App这么难,好像所有的产品经理都没有头绪。我个人觉得其实矛盾在于,原来传统的互联网爆款的产品经理,他对于现在最新的技术没办法理解。真正懂技术的这些人,对于所谓的用户需求和产品需求又没法理解。

硅星人:那当一个基础模型开始面对开发者了,也就存在一个模型的技术和产品适配问题(technology product fit)。你们要如何跟开发者去讲,你能够做什么不能做什么?

张鹏:好像现在只能开发者自己去尝试,但在这之外,其实有一些本质的东西做产品的人可以在间隙思考一下。回到第一性原理,大模型本质上解决了什么样的问题,找到这个点,然后你把你所有需求写出来,然后你去找到这两者间的连线。比如我反问你,Chatgpt解决的是什么问题?你第一天用上,它就直接告诉你这是个不一样的东西,从来没有人想过这个问题——虽然他帮你解决了很多问题。

硅星人:所以ChatGPT解决了什么问题?

张鹏:我个人认为它最本质上解决的还是人机交互的问题。机器终于有一天能够比较像样的能听懂人说什么,然后说出来的话也让人能听懂。这个是个本质的问题,它弥合了人和机器之间的距离,这是他第一性要解决的问题。顺着这个思路,哪些场景可以被这件事情解决掉,很容易判断出自动客服这类的需求。这是大模型解决的第一件事。第二是大模型在经过大量语料数据训练之后,具备超越一般人积累的知识和数据量,能很好的去解答人们日常生活当中的问题。这件事本质上解决的是我们人类社会当中人与人之间的信息和知识传递的成本和范围问题。

硅星人:那些让人被迫为了一份工作要学习一堆无用知识的问题,或者说是知识的快速消化的处理的问题,现在都可以处理了。

张鹏:对,我有更低的成本,更大的范围去获取知识了。所以这个事情又可以cover掉教育、员工内部培训这些事情。所以如果按这种逻辑分析方式的话,其实还是能找出来一些大模型应用产品具体的方向的。

硅星人:那这样其实对做产品的人的要求是非常高的。过去互联网时期中国的产品经理群体里,设计师出身的人很多,做交互做UI的人很多。那时候美国的产品经理,一看全是MBA背景。那时我们会嘲笑这帮人做MBA的怎么做好产品,现在你发现还真得靠MBA去做产品经理。

张鹏:对,我特别赞同你这么说。这背后其实是大家在对于“一个产品需要满足什么需求”这件事的着眼点不一样。设计美术出身的产品经理居多,是因为我们认为移动互联网是一个注意力经济,我要做到的事情是抓用户的注意力,只要有人关注它、点开它,我的目的就达到了。因此整个产品、招的人也都会围绕这个目标构建。如果更在意的是整个互联网经背后的经济逻辑和价值逻辑,那就不会是这样。

生态好才是真的好,不要在摩擦中消耗力量硅星人:再度回到GLM模型发布的智能体,智谱AI希望给到开发者或者第三方怎样的一个开发环境。现在有两种方向,一种是往开发平台里边去堆各种各样的工具和能力,降低开发门槛,吸引更多人。另一种就是OpenAI这样只提供一个很简单的instruction,反正我有什么你都知道。

张鹏:我们比较接近OpenAI那种思路,首先还是强调基础模型本身的技术能力。模型能力足够强,你才有可能让大家真正用起来。在这个时间发布智能体,还是因为我们觉得我们模型的能力到了这个水平了,所以就开放给大家。至于工具是可以慢慢增加的。问题的根本并不在于说你工具多少,工具少的时候我能解决少的问题,工具多了能解决更多问题了。

硅星人:国外OpenAI已经通过ChatGPT走向大众了,国内一些入局大模型的大厂有自己的流量资源优势。目前智谱AI的姿态仍然是面向业界的,有没有想过转变成真正的面向公众的一个AI品牌,这个问题重要吗?

张鹏:首先这个事儿我认为还是挺重要的,我们有我们自己的理念和终极目标,但这个过程当中,作为一个创业公司要活得好,其实还是比较依赖一个良好的生态,生态这个事情就是需要去发声,需要跟大家去讲我们怎么想。做一场DevDay,做很多活动,一是希望大家多互动,也是希望把生态发展的理念传递给大家。大家好才是真的好,很多时候我们在摩擦中消耗了太多力量了。

硅星人:那再进一步,智谱AI有没有可能成为一个面向世界的,而不是仅仅是面向中国的AI公司?

张鹏:我们没有给自己设这个限制。智谱AI的目标是要做到全世界最好的水平,我们做的所有事情都是朝着这个大目标去的。

中国人工智能发展的优势与差距

人工智能被视为第四次工业革命的一个标志,发达国家和众多的科技公司,纷纷投入巨资展开研发和布局,我国也在全力构筑人工智能发展的先发优势。党的二十大报告指出,要推动战略性新兴产业融合集群发展,构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎。什么是人工智能?人工智能将如何改变我们的生活?如何在这场技术革命中抢占先机?

一、什么是人工智能
人工智能的发展历史只有六七十年。人工智能也叫人造智能,就是由人制造出来的模仿人的智能,一般通过机器人、计算机等载体表现出来。人工智能有两个重要概念:一个是通用人工智能或者叫强人工智能,如果这种智能系统的功能、能力和人一样,甚至超过人,就叫强人工智能系统;另一个是专用人工智能或者叫弱人工智能,如果这个智能系统只能干一件事,尽管可能比人厉害,那它也是弱人工智能。比如常见的刷脸识别、语音识别系统。

1956年,10位年轻的学者,其中许多是图灵奖和诺贝尔奖的获得者,在美国达特茅斯市搞了一个暑期研究所。在两个月的讨论中,他们针对人工智能应该干什么、怎么干进行了一番讨论,列出了人工智能领域需要研究的自动计算机、编程语言、神经网络、计算规模理论等问题,并形成了一个比较前沿的报告,这被公认为是对人工智能一个比较完整的描述,这一年也被称为人工智能元年。


从1956年到1976年,这20年是人工智能发展的第一个阶段,这一时期的人工智能主要是在模拟大脑工作。这种模拟不是信号级的模拟,而是在逻辑推理等更高层面上去模拟大脑。

这一阶段比较珍贵的一个成果是数学定理证明,也就是用计算机自动进行数学定理的证明。包括代数定理证明和几何定理证明,都是由两位华人(王浩、吴文俊)完成的。后来研究人员发现仅仅通过模拟人的大脑来实现人工智能这条路太难走。因为当时只完成了数学定理证明这件事,战胜国际象棋冠军、机器谱曲等其他目标都没完成。人工智能逐渐从高潮跌到低谷,学者们开始反思是不是人工智能走歪路了,是不是要做点实事。


学者们开始尝试研发对社会有影响力的系统,比如医疗诊断专家系统、故障诊断系统,可以代替医生、专家去做一些诊断。另外就是模拟神经系统来做专家系统,这在字符识别、文字识别领域比较有效。后来应用到机器自动识别、自动分拣系统,包括今天的语音识别,基本上都是走的神经网络这条技术路线。


这两条技术路线使第二次人工智能发展专家系统的这30年,开创了百花齐放的局面。不过专家系统的高光时刻并没有持续太久,因为专家系统虽然做了很多,演示时效果也不错,但真正上线去用的时候效果并不理想,于是热度开始下降,直到2006年引发人工智能领域轰动的3篇重量级文章的问世,人工智能才开始了突飞猛进的发展。


这一年,多伦多大学教授辛顿、纽约大学教授杨立昆、蒙特利尔大学教授本杰奥,几乎同时发表了重量级的文章,从不同角度说明深度神经网络是大有可为的,是可以进行大规模学习训练的。

只要输入的数据好,它就可以解决问题。这一系列论文发表后,大家摸索了几年小有收获,但并没有重大成果产出。直到2010年以后,斯坦福大学华裔女教授李飞飞、普林斯顿大学华人教授李凯,开发了一个规模特别大的图像数据库,然后拿去参加比赛。当时比赛标准是谁做的系统错误率更低,谁就胜出。

2010年错误率最低的队是28%,2011年是26%,2012年取得了突破,降至16%。原来是辛顿的学生用辛顿公开发表文章中的技术去参加比赛,打败了所有的对手,这是一个重大进展。到了2013年,深度网络这个技术普及开来,其它路线无非是使用多深的网、多少个节点、参数怎么设定等技巧性改进,而不是方法上的革命了。

到2015年系统的错误率又实现革命性突破,降至3.6%,而人的平均错误率是5%,在图像分类这件事上,神经元网络已经超过人了。这事是谁做的呢?中国学者孙剑做的,当时他和他的团队提出了残差网络。这个残差网络,不仅在图像分类应用上是第一名,围棋里面也是最厉害的。基于此,在深度网络适合的那些弱人工智能是可以进行广泛应用研究和产业化的。

二、人工智能的特点和成长


从感知到认知,人工智能更上一层楼。

在智能水平上,感知智能日益成熟。智能可分为感知智能、认知智能和决策智能。感知智能是和我们眼看、耳听、手摸等感官直接相连的智能,现在的脸部和语音识别、机器翻译,以及诊断病人病例、产品残次识别,都发展得非常好,人工智能正在慢慢从一般的感知智能向认知智能进行升级。

类脑计算和量子计算,两条突破之路。

如果做更大规模或者做和认知有关的人工智能以及强人工智能,靠现有计算机是做不到的,怎么办?就要寻找出路,在技术路线上有两个比较可能的出路。一个是类脑智能,人对信息处理的能效比非常之高,现在的计算机不行,能效比太低了,类脑计算能效比会高一些。另一个是量子计算,其能效比是极高的,把量子计算做成比较稳定的一个系统是有可能的。当然不管是类脑、量子计算,现在还有很大的不确定性,需要继续加以研究和积累。
人与机器,混合智能具备独特优势。

在智能形态方面,人和计算机混合模式越来越多,这个叫人机混合智能。机器擅长做的事交给机器,机器做不好的事,人可以介入一下。这样人机混合的智能,是现阶段发展人工智能一个比较重要的技术途径。
应用先行,有助于技术发展。

在应用驱动方面,以前是先把技术做好,然后转化技术去做应用。现在靠应用去拉动技术发展,这条路是人工智能一个非常重要的发展形态。深度神经网络出现时,在哪儿好用,不知道,需要找一个很好的应用场景把它用起来。如果不是辛顿的学生把它拿去参加图像网络比赛,可能神经网络的热潮还会拖许久才会到来。
未雨绸缪,防止技术失控。

人工智能具有社会属性。人类会不会被人工智能奴役、摆布?这个社会属性,恰恰是我们在做人工智能时要认真对待的一个问题,要摆正人和智能系统之间的关系,对人工智能能干什么、不能干什么进行研究和立法,从法律和道德层面去约束和规范它。否则,将来可能会很被动。

三、中国人工智能发展的优势与差距
从2013年起,世界许多国家政府,尤其是发达国家纷纷调研人工智能对社会、经济可能带来的颠覆性影响,相继发布符合自身国情的人工智能战略。在这场事关未来的技术革命中,我们的机会在哪里?优势和短板分别是什么?

我国已经成为人工智能领域的超级大国之一。

改革开放以来,我们国家在基础研究方面的投入巨大,人工智能的发展有了非常好的沉淀。一些关键核心技术,中国已经走在了世界前列,比如说人脸和语音识别技术。中国人工智能的发展与各行各业的结合和渗透是非常高的,其应用和推广比其他国家做得更好。我国人工智能发展的创新生态环境已经初步形成。百度的无人驾驶、阿里的城市大脑、腾讯的智能医疗、科大讯飞的语音识别、商汤的图像与视频处理等开放平台以及华为、寒武纪、海康威视等实体经济领域平台已经创建。全球AI指数排名,中国属于第一梯队,紧随美国,在人才、教育、专利产出等方面均有所进步。中美两国引领、呈梯次分布的全球人工智能发展总格局保持不变。


四大优势护航中国人工智能发展。

第一个是政策优势,人工智能已被列为国家优先发展事项。第二个是海量数据资源优势,中国人口是美国的四倍多,手机群体和手机消费、支付量也是最大的,拥有庞大的消费、出行、医疗、旅游、物流等数据资源。第三个是应用场景优势,我国是发展中国家,很多基础设施还不够完善,这恰恰给人工智能的应用提供了一些深度场景。比如城乡的基础设施、医疗、教育、民生服务等领域的问题,人工智能系统的介入,问题可以快速得到解决。第四个是青年人才优势,我国高等教育毛入学率已达59.6%,而且学理工科的学生比例很高,这是一个非常大的人才储备库。国家自然科学基金委员会专门设立人工智能一级学科代码,资助相关基础研究、前瞻性探索和应用研究。
当然,我们也存在一些短板,特别是在四个薄弱环节急需加强。

第一,基础理论和原创算法研究比较薄弱。第二,高端器件研发能力弱,比如做深度神经网络训练的GPU(图形处理器),中国在这方面差距比较明显。第三,缺乏有影响的人工智能开源开放平台。第四,缺乏相应的高端人才。据统计,中国最顶级的人工智能高端人才数只有美国的20%,已成为国家关键领域急需的高层次人才。

四、我们该如何布局未来
未来已来,到底是哪一个未来来了?过去三十年是变化非常大、非常快的三十年。第一个是计算机的算力增强了约一百万倍,第二个是存储容量增加了约一百万倍,第三个是通信速度增加了约一百万倍。这三个一百万倍,让我们的社会、工作、生活、学习都发生了天翻地覆的变化。而下一次影响人类社会的工业革命时间可能会发生在2030年到2040年之间,其主题将会是人工智能,人工智能将是未来一个世纪的核心技术。

国家战略、人才高地、基础建设、立法保障,一个都不能少。

要想把人工智能发展好,就需要我们在很多事上起好步、布好局。一是将发展人工智能提升至国家发展战略,国家、地方和企业,要把其作为战略性新兴产业,给予大力支持。二是健全人工智能的国家研发体系。三是加快人才培养,形成一批人工智能的国家人才高地,进而带动整个人工智能理论和算法的发展。四是加强智能化基础设施建设,推动公开数据的开放、共享,同时完善相关法律法规保护数据的安全性。五是加快人工智能法律、伦理问题的研究,引导人工智能安全可控发展。六是深化国际开放合作,主动参与全球人工智能的治理和标准制定。


数据处理、开源平台、应用场景,三个抓手要记牢。

利用人工智能为各行各业赋能,抓手是什么?排在第一位的是数据,没有数据,即便是弱人工智能也没法做,所以要把数据组织起来、清洗出来、利用起来并加以安全防护。第二位是创建好自己的开源平台,与我们作为人工智能大国的地位相匹配。第三位是应用场景的培育和赋能,现在很多场景还只是投资驱动的,政府要清楚哪些是优先发展的领域,市场能做能决定的事,就交给市场去做去决定,需要政府介入、调控才能做好的事,政府就要果断去干预、去培育,扶上马,送一程。这是非常关键的一个步骤。在做大做强自己,补齐自身短板弱项后,我们要和全世界人工智能同步推进,去迎接人工智能第四次工业革命的到来。

2027年人工智能市场规模将达2250亿美元,人工智能四大趋势

1月4日,瑞银集团在一份报告中表示,到2027年,人工智能在各经济体的广泛应用将使其成为一个规模达2250亿美元的市场。与2022年的22亿美元相比,这是一个巨大的飞跃,标志着约152%的复合年增长率。人工智能行业的收入将随之增长15倍,从2022年的180亿美元增至2027年的4200亿美元,较瑞银此前预期的上调了40%。

据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布;

数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因;

作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈。在此背景下,讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案。

文 | 谭笑间

2023年,世人见证了ChatGPT在全球范围的大火。以生成式人工智能为代表的新一代人工智能问世,改变了人工智能(AI)技术与应用的发展轨迹,加速了人与AI的互动进程,是人工智能发展史上的新里程碑。2024年,人工智能技术与应用的发展又会呈现出哪些趋势?让我们一同展望这些值得关注的重大趋势。

全模拟光电智能计算芯片效果图。经长期联合攻关,清华大学研究团队突破传统芯片的物理瓶颈,创造性提出光电融合的全新计算框架,并研制出国际首个全模拟光电智能计算芯片(简称ACCEL) 新华社图

趋势一:从AI大模型迈向通用人工智能

2023年,ChatGPT开发者OpenAI被置于前所未有的聚光灯下,也使GPT-4后续版本的开发被推向了风口浪尖。据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布。

据媒体爆料,“Q*”可能是第一次采用“从零开始”的方式训练的人工智能。其特点是,智能不来自人类活动的数据,且其有能力修改自身代码以适应更复杂的学习任务。前者使得人工智能能力的发展变得愈发不透明,而后者向来被看作是诞生人工智能“奇点”的必要条件。在人工智能发展领域,“奇点”特指机器拥有了自我迭代的能力,进而在短时间内迅猛发展,导致超出人类控制。

虽然一些报道称,“Q*”目前还只能解决小学难度的数学问题,距离“奇点”还远。但鉴于虚拟环境中人工智能迭代速度可能远超想象,其仍然可能在不远的将来自主发展出在各个领域均可超过人类水平的AI。2023年,OpenAI预言,各方面超越人类水平的人工智能在十年内就会出现;英伟达创始人黄仁勋表示,通用人工智能可能在五年内超越人类。

一旦通用人工智能得以实现,就可被用于解决各种复杂的科学难题,譬如寻找外星人与地外宜居星系、人工核聚变控制、纳米或超导材料筛选、抗癌药研发等。这些问题通常需要花费人类研究员数十年的时间来寻找新的解决方案,部分前沿领域的研究量已超出人力极限。而通用人工智能在自己的虚拟世界中拥有几乎无限的时间和精力,这使得其在部分容易虚拟化的任务中,有可能成为人类研究员的替代。但届时,人类如何监督这些从智能水平上超过人类的人工智能,确保其不会危害人类,又是一个值得思考的问题。

当然,我们也不应过分高估硅谷巨头们的部分言论,因为在人工智能发展史上,已经历三次“AI寒冬”,其中不乏宏大的技术愿景因各方面限制化为泡影的例子。但目前可以肯定的是,大模型技术仍然有着不小的上升空间。除GPT-4外,谷歌的“双子座”(Gemini),Anthropic的Claude2,目前都是仅次于GPT-4的大模型,国内的百度“文心一言”与阿里“通义千问”,也是国产大模型中的佼佼者。它们在新的一年中是否会发布更具革命性的产品,同样值得期待。

趋势二:合成数据打破人工智能训练数据瓶颈

数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。

合成数据是在模仿真实数据的基础上,由机器学习模型利用数学和统计科学原理合成的数据。关于什么是合成数据,有一个较为浅显易懂的比喻:这就像是在给AI编写专门的教材。例如,尽管英文课本的对话中出现的可能是“小明”“小红”这样的虚构人名,但并不影响学生们由此掌握英语,因此从某种意义上,对于学生而言,教材就可以看作一种经过编纂、筛选和处理的“合成数据”。

有论文表明,模型的规模至少要达到620亿参数量后,才可能训练出“思维链”能力,即进行分步骤的逻辑推理。但现实的尴尬在于,迄今为止人类产生的不重复的、可供训练的优质数据并没有这么多。使用ChatGPT等生成式人工智能以前所未有的数量产生高质量合成数据,未来的AI将由此获得更高的性能。

除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因。近年来,各国纷纷出台更严格的数据安全保护法律,使得客观上利用人类产生的数据训练人工智能变得更为繁琐。这些数据中不仅可能隐含个人信息,其中的许多数据还受版权保护。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下,使用互联网数据进行训练,极易导致大量法律纠纷。而若考虑对这些数据进行脱敏,又面临筛查识别准确率方面的挑战。两难之下,合成数据就成为最惠而不费的一种选择。

此外,使用人类数据进行训练,还可能导致人工智能学到有害内容。一些诸如使用日用品制造炸弹、管制化学品的方法,另一些则包括许多人工智能本不应当出现的坏习惯,譬如像人一样在任务执行过程中偷懒、为了取悦用户而说谎、产生偏见和歧视。若改用合成数据,使人工智能在训练中尽可能减少接触有害内容,则有望克服以上使用人类数据训练时附带的缺点。

从以上分析中可以看出,合成数据可以说是颇具开创性的,有望解决此前发展人工智能与数据隐私保护不可得兼的问题。但与此同时,如何确保相关的公司和机构负责任地制作合成数据,如何制作出既符合本国文化与价值观,又在规模和技术水平上足以媲美西方以英文网络资料为中心的合成数据训练集,也将成为中国面临的一个颇具挑战性的课题。

除此之外,合成数据带来的一个重大变化是,来自人类社会的大数据或将不再是AI训练所必需。在今后的数字世界中,人类数据的产生、存储和使用仍将遵循人类社会的法则和秩序,包括维护国家数据安全、保守商业数据秘密和尊重个人数据隐私,而AI训练所需的合成数据则采用另一套标准进行管理。

趋势三:量子计算机可能率先应用于人工智能

作为电子计算机发展到今天的最前沿应用,人工智能始终存在算力不足的隐忧。ChatGPT问世数月后,OpenAI总裁奥尔特曼曾公开表示,其并未鼓励更多用户注册OpenAI。2023年11月,OpenAI甚至宣布暂停ChatGPT Plus付费订阅新用户的注册,以确保现有用户拥有高质量体验。显然,作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈。在此背景下,讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案。

首先,人工智能领域的算法,大部分属于并行计算的范畴。举例而言,AlphaGo在下围棋的过程中,其需要同时考虑对手在不同位置落子后的应对招数,从中找到最有可能赢得棋局的下法。这就需要计算机优化并行计算的效率来实现。而量子计算机擅长进行并行计算,因为它可以同时计算和存储“0”和“1”两种状态,无需像电子计算机那样消耗额外的计算资源,譬如串联多个计算单元,或将计算任务在时间上并列。计算任务越复杂,量子计算就越具备优势。

其次,运行ChatGPT所需的硬件条件,同样也十分适合导入当前体积庞大的量子计算机,二者都需要安装在高度集成的计算中心里,由一支专业化技术团队进行管理支撑。

什么是量子计算机?量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。其不仅体积庞大,而且作为核心零部件的“量子芯片”,通常需要被置于接近绝对零度(零下273.15摄氏度)的极低温中,利用在这种极低温下部分微观粒子表现出的量子特性进行信息运算和处理,且运行结果只能存在几毫秒的时间。

既然量子计算机“又大又难维护”,为什么还要发展?原因在于,量子计算机蕴含巨大的算力潜能,以至于在一些算法上已经体现出相对于电子计算机在速度上的“绝对碾压”,即“量子优越性”。但实现“量子优越性”只是一个起点。目前的量子计算机只能完成一些专属于量子领域的计算任务,想要真正用好这种“量子优越性”,先要使其量子位足够多,以实现通用计算和可编程。而且,在实现通用计算后,量子计算机依然需要保持相对于电子计算机的优势,这被称作“量子优势”。

2022年,来自谷歌、微软、加州理工学院等机构的研究者从原理上证明了“量子优势”在预测可观测变量、量子主成分分析以及量子机器学习中确实存在。量子机器学习,实际上就是量子计算在人工智能领域的应用,也体现出未来量子计算与人工智能两大前沿技术合流的趋势。

理论上证明了,实践上就需要进一步拓展量子计算的应用前景。在2019年推出商用量子计算机“量子系统一号”后,美量子计算巨头IBM又于2023年12月推出了“量子系统二号”。新系统的最大突破在于可以模块化扩展,是该公司的首台模块化量子计算机。“量子系统二号”拥有超过1000量子位。IBM还宣布计划10年内建成10万量子位的量子计算机。这些不断增加的量子位并非只是为了竞赛,其对于实现通用计算和可编程有着不可或缺的作用。也正因如此,量子计算机的模块化,标志着其更加具备实用性。

有关量子机器学习算法的研究,已成为新的研究热点。不过,未来量子计算机不会完全取代电子计算机,更有可能出现的是量子计算机和电子计算机在不同的应用场景下发挥各自所长,实现协同发展,既极大提升算力,也兼顾成本和可行性。

在上海举行的2023世界人工智能大会上,人形机器人表演“千手观音” 辛梦晨摄/《瞭望》周刊

趋势四:AI代理和无代码软件开发带来“冲击波”

在AI应用方面,2024年值得关注的是AI代理和无代码软件开发带来的“冲击波”。

一是AI代理对劳动力结构的冲击。

截至目前,全球至少已有近两亿人使用人工智能大模型。但人们已不再满足于坐在电脑前跟AI“聊天”,而是开始开发能够自动根据任务需要向人工智能发出提示的工具。当自动提示工具与大模型两相结合,AI代理便由此诞生。

2023年4月,OpenAI联合创始人布罗克曼现场演示了GPT的“自动模式”。在该演示中,AI代理几乎“包办”了一场晚宴:不仅根据要求生成了一份晚宴的推荐菜单、一份图文并茂的邀请函,还自动将该菜单需要购买的食材加入生鲜电商APP的购物车,并自动发布了一条有关该晚宴的社交网站帖子。

AI代理还能根据比较模糊的需求提示自动制作网站,自动完成各种需要使用Office软件完成的文字和表格处理工作,甚至自动根据已有论文数据进行归纳总结生成分析论文等。

比尔·盖茨近日发长文解读AI代理未来,表示AI代理将彻底改变人们使用计算机的方式,带来自键盘、屏幕和鼠标发明以来人类与计算机互动方式上最重大的革新。

AI被看作对人类的信息收集、分析和处理进行增强的扩展性工具,使得人的工作水平更上新台阶。但与此同时,AI代理也给许多现有的工作岗位带来冲击,因为企业可能尝试雇用更少的人来完成相同的任务。这种由创新带来的对现有经济结构的破坏,被美国经济学家熊彼特称为“创造性毁灭”。随着AI代理代替大量只需要较少的计算机技能就可完成的任务,这些被迫再就业的劳动力将不得不适应新的劳动力市场需求,这注定将是一个较长时期的、伴随阵痛的过程。

二是无代码软件开发给数字经济创新带来的影响。

尽管生成式人工智能可能淘汰掉一批传统数字岗位,但在关上一扇门的同时也打开了一扇窗,这就是“无代码软件开发”。目前,以AI大模型为基础的编程辅助工具已经发展到一个新的阶段,能够根据用户十分模糊的指令来生成软件或网页代码。例如,2023年的GPT-4演示中,演示人员仅仅是在A4纸上手写了一个十分潦草的结构示意图,GPT-4就根据其自动生成了能够实际访问的网页。这无疑大大降低了开发IT服务的门槛。只要一个人有足够有创意的、能够满足许多人需求的数字服务“点子”,就可以成为互联网创新的风口,“人人皆可创新”的时代已然到来。

对此,政府需转变观念,兼顾市场监管与促进创新,一方面降低数字创新过程中的注册与融资门槛,打通中小企业发展壮大过程中的痛点,让就业与创新政策适应“人人皆可创新”的新需求;另一方面需要探索更有利于保护创新“点子”的版权与专利保护新政策,从而激励那些能够不断提出创新“点子”的人才。

综上所述,展望2024年,无论是人工智能技术自身的迭代发展,还是其对数据价值的重塑,抑或是向各行业、各领域的应用渗透,人工智能的影响可谓无处不在,既为科研、创新和经济赋能,又带来新的挑战与风险。我们应以开放的心态看待人工智能带来的诸多改变,审慎研究和应对其可能带来的新课题与新风险。

世界最强AI公司,迈出毁灭人类的“一小步”?

据美国调查新闻网站“拦截者”报道,开发了被全世界广泛使用的人工智能产品ChatGPT的美国知名AI公司OpenAI,于近日悄悄干了一件引人关注的事情:他们删除了一项涉及他们AI模型的使用禁令。

“拦截者”网站称,在今年1月10日之前,OpenAI公司在其AI模型的使用条款中曾明确表示,禁止将其模型用于很可能会造成人员伤亡的用途上,比如“研发武器”和“军事与战争”。

然而,在1月10日对其使用条款进行一番大更新后,OpenAI公司虽然在禁止项中仍然提到禁止将其产品、模型和服务用于会导致人员伤亡的用途上,并提到了“武器开发和使用”,但先前同样被禁止的军事用途,如今却在文本中消失了。

对此,OpenAI公司的发言人在一封回复给“拦截者”网站的邮件中表示,1月10日这次对使用条款的大调整,是因为公司的产品和服务已经被全世界广泛使用,所以需要设立一套更加简洁和普适的规则,包括让规则中的文本变得更加清晰,更好被理解、记忆以及应用。

该发言人还强调,新的使用条款中提到的“不要去伤害他人”本身就是一个很宽泛同时也很好理解的概念,可以适用于很多语境之下,而且条款中还列举了武器作为一个明显的例子。

但该发言人并没有正面回应“禁止伤害”这个宽泛的表述,是否包括一切军事用途,仅称条款禁止其技术被包括军方的人用于研发和使用武器,伤害他人或摧毁他人财物,或是在未授权的情况下用于破坏任何服务或系统的安全。

有网络安全专家对“拦截者”网站表示,OpenAI删掉使用条款中禁止军事和战争用途的内容,是一个很大的变化,说明该公司新版使用条款关注的重点,是在确保法律合规之上提供更多的灵活性,但在很多国家,军事和战争都会被披上合法的外衣,所以OpenAI公司的这次调整潜在的影响将是巨大的。

其他专家亦对“拦截者”网站也表示,OpenAI的新使用条款反映出公司正在悄悄弱化其先前反对军事应用的立场。有专家还指出,OpenAI的重要合作伙伴微软公司就是美国军方主要的供应商之一。而且美军对于AI技术的需求也越来越强烈。

“拦截者”网站还特别提到,虽然OpenAI公司的产品、模型和服务如今还没有被用于操控武器去杀人,但实际上其技术已经开始被军方用于编写代码、处理武器采购以及情报分析等方面。换言之,尽管没有被直接用于杀人,该公司的技术都已经在被用于协助这样的工作了。

“在人工智能系统正被用于针对加沙地区的平民时,OpenAI决定将禁止军事和战争用途文字从其使用条款中移除,是值得关注的”,一位专家对“拦截者”网站这样说道。

人工智能对网络安全有哪些影响?

微信公众号:计算机与网络安全一年多以来,人工智能(AI)主导了公共话语,从非正式对话到认真考虑其造福或破坏社会的潜力。在评估如何安全地使用人工智能时,重要的是检查机会和危险,因为它们现在存在或可能在短期内发展。人工智能创建内容和自动化操作的能力代表了人工智能在许多领域(包括网络安全)中使用的新前沿。

软件和数据的技术进步将对数字安全产生巨大影响。基于人工智能的工具,无论是用于自动化、认知还是生成,都可以用于好的方面,也可以用于坏的方面。例如,分析潜在入侵的网络流量的工具也可以用于使入侵更难检测。用于生成类似人类内容的工具可以很容易地用于合法和非法目的。ChatGPT的公开发布是一个罕见的时刻,一项新技术立即主导了公众的心理。在此后的一年里,这种对话并没有消退;事实上,人工智能工具(生成性或其他)的影响,以及它们如何改变社会的好坏,已经成为广泛政策辩论的一部分,从对劳动力的影响到教育,再到国家安全。这包括对网络安全的影响,生成性人工智能是否会加剧新的攻击?防御者是否会使用它来更快地检测恶意活动?人工智能对网络安全并不陌生。防御者和攻击者多年来都在使用机器学习和人工智能工具,但专家一致认为,生成性人工智能的公共可用性将重塑网络安全格局。然而,对于这将如何发生,还没有达成共识。对于这些人工智能工具的最终用户(无论是公司、政府、个人还是其他组织)现在可以做什么,以最大限度地提高人工智能对攻击者的效用,并最大限度地减少对攻击者的好处。场景

好的方面

如果防御者能够提高安全响应时间、增强人类专业知识并提高软件和设备安全性,那么人工智能工具将为他们提供优势。人工智能工具为各种目的对大量数据进行排序:为修复漏洞排定优先级,检测数据渗出,识别异常的用户行为等。有了这些新见解,这些工具被调整为减轻已确认的威胁(例如,通过隔离端点、阻止恶意URL或沙箱恶意操作),并升级需要更多分析的威胁。人工智能还增强了最终用户体验,在用户报告异常或主动提醒他们时准确有效地帮助他们,并帮助解决工具本身识别的问题。这种早期和准确的检测减少了响应时间,最大限度地减少了对误报的浪费,并有助于标记,否则可能无法检测到的真正威胁。因此,防御者能够将其有限的资源集中用于可能需要人类理解的调查。
人工智能也是通过设计原则实现安全的关键。人工智能工具将编写新的安全代码,并通过发现和修复漏洞来帮助更新现有代码。它甚至可以用更安全的语言重写现有的应用程序。随着攻击的发展或研究人员发现新的漏洞,这些工具将不断更新和改进代码。
工智能工具本身将是安全和负责的。它们产生高质量、准确的结果,并在未能做到这一点时负责。这包括区分恶意篡改和工具中所谓的“幻觉”的能力。人类处于中心位置,知道何时与人工智能系统交互,知道输出中的任何潜在限制和风险,并可以在更高风险的场景中干预或覆盖人工智能系统。人工智能驱动的网络安全工具保持了攻击者的优势,因为他们可以访问多个高质量的数据源,而攻击者必须更多地依赖“黑市”数据。

坏的方面如果攻击者能够提高攻击效率,实现犯罪协作,并比防御者适应和响应更快地学习,那么人工智能工具将为攻击者提供优势。人工智能工具减少了参与犯罪的进入障碍,并使开发复杂的社会工程技术、逃避检测、设计定制恶意软件等变得更加容易。有了这些新的效率提升,人工智能使网络攻击变得更便宜、更有效,提高了犯罪的预期回报。使用人工智能工具,犯罪分子可以更快地找到现有系统中要利用的漏洞。此外,他们可以创建个性化的鱼叉钓鱼活动,以增加成功的可能性。一旦罪犯进入系统,他们就可以使用定制的恶意软件,这些恶意软件可以针对特定的目标进行定制。在发起了许多这样的活动后,他们可以使用机器学习来查看什么是有效的,并在未来的活动中修改他们的策略和恶意软件。人工智能还改变了犯罪的市场结构,改善了攻击者的分工,使他们能够更有效地使用资源。全球网络防御的不平等分布导致攻击者在资源较少的国家部署基于人工智能的网络攻击。勒索软件变得更加有利可图,因为犯罪组织现在可以更容易地与流氓国家合作,扰乱目标国家的经济。工智能行业缺乏问责制和质量控制,使得更难追究国家或公司对不当使用复杂工具的责任。恶意人工智能平台在法律限制较少的司法管辖区开发,然后部署在世界各地。因为罪犯可以更自由地创新,他们能够设计攻击,即使是支持人工智能的防御也会因为它们的新颖性而与之抗争。这种社会环境变成了一个恶性循环,进一步侵蚀了对数字经济、社会制度和客观真理的信任。建议一般建议1、避免炒作。抵制AI浪潮的诱惑;在具有操作性或其他意义的方面使用人工智能工具。2、主动管理人工智能将做出的决策。人工智能工具将做出组织无法单独审查的决策,因此部署它们时要预先考虑和仔细规划。对于人工智能工具将做出哪些决策以及在什么级别做出肯定的选择是很重要的。以下因素有助于:1)评估使用考虑中的人工智能工具的潜在好处和危害,2)确定决策循环中必须保留的行动或过程:

  • 需要多少人类认知?这是一个重复的战术讨程,还是一个创造性的战略决策?后者更可能需要人类的持续参与。
  • 行动、过程或最终结果需要多少质量控制或审查?随着质量变得至关重要,倾向于深思熟虑的人类审查。
  • 错误决策的影响或风险是什么?越严重,人类应该控制得越多。
  • 决策的频率如何,快速做出决策的重要性如何?人工智能擅长做出重复的决策,并以人类永远无法实现的速度前进。
  • 人工智能工具是补充人类决策还是取而代之?如果是后者,则权衡人工智能错误与人为错误的成本和收益,并为关键任务选择开发故障保护和审查机制。
  • 决定是否不可逆转?如果是这样,请谨慎行事,并确保组织能够在不可逆转的错误决策中生存下来。

3、了解人工智能正在使用的数据类型。人类永远不可能知道人工智能使用的所有数据,但在可能的范围内,组织应该了解所使用的数据源。优先考虑对内部或专有的 王冠宝石”数据进行更强大的安全控制。

4、说“不”是可以的。在部署、构建或完成人工智能工具之前,评估它的表面好处是否会大大超过潜在危害。如果一个工具的可预见危害明显大于好处,请不要使用或构建它,或者至少确保您的组织可以有效地控制它。

5、认识到旧规则仍然适用。人工智能工具可能看起来是新的、闪亮的和强大的,但不要忽视信息技术安全、网络安全和数据安全的既定基础。几乎所有长期使用的工具和最佳实践都适用于大多数人工智能开发和用例。

6、智能透明。透明度是一件好事,但组织应避免将重要通知变成无意义的点击,通常称为同意疲劳”。通知应披露与用户和工具效用相关的信息,包括隐私问题或人类监督的程度。组织应该避免让消费者过度饱和,以至于他们的信息披露毫无意义或被忽视。

7、想想社交媒体(因为人工智能正在阅读它)。组织应更新社交媒体和通信政策,以认识到大型语言模型(LLM)正在使用帖子和其他通信作为训练数据,并说明对手可能利用的信息。

8、日志、日志和更多日志。良好的日志对网络安全至关重要,人工智能驱动的漏洞利用和攻击的潜力只会加剧这一点。组织应改进日志记录、日志审查和日志维护,以最大限度地提高检测新的、人工智能生成的攻击的能力,并遵守必要时进行合法授权的审查(包括通过使用人工智能工具)。

9、让人类处于代码循环中。人工智能编写的代码应该比人工编写的代码更安全,但维护漏洞管理最佳实践的人工和技术审查仍然很重要。

10、不要将人工智能从其他IT、网络和其他学科中孤立出来。定期召集所有相关团队,如网络安全、法律、数据科学、计划/产品团队和行政领导层,就人工智能网络安全风险进行合作。当人工智能工具对组织的目标或运营产生重大影响时,组织应考虑为首席人工智能官开发新的角色。

11、要有弹性。在人工智能工具中断的情况下,组织将需要一个弹性计划,包括培训其员工执行人工智能自动化任务,以便他们能够维护关键任务操作。

12、在合同需求和义务中反映人工智能。与供应商、合作伙伴和其他人的合同可能需要包括对专有数据的限制,包括:

  • 将提供哪些数据,特别是涉及人工智能供应商的数据。
  • 如何使用数据。
  • 如何保护数据。
  • 数据是否将用于训练其他模型。
  • 如果业务关系结束,该数据将发生什么情况。

13、创造开放的文化。人工智能已经在为钓鱼电子邮件和其他欺诈提供支持,这些欺诈通常以初级员工为目标。如果员工不敢接触高层领导,他们更有可能无法报告风险,或落入冒充高管的骗局。授权员工与高级领导层接触,确保沟通(特别是采取行动或分配资金的指示)合法。

政府特定建议1、识别高风险人工智能工具。政府应确定可能造成极端伤害并监控其使用的人工智能工具。在人工智能工具具有对社会具有高风险的用例的情况下,政府应考虑获取该工具的知识产权,并为低风险用例颁发许可证。

2、促进获得开源网络安全工具。帮助网络贫困线以下的组织访问开源网络安全工具,帮助防止基于人工智能的攻击,审查代码,并提供培训数据。

3、提供教育机会。支持整合人工智能、数据科学和网络安全技能的大学课程和认证。

行业特定建议

1、坚持基本原则。人工智能工具和模型从根本上说是软件,开发人员和部署人员应该利用现有的网络安全性、弹性和设计原则的安全性。这包括:

  • 信任和授权
  • 身份和访问管理
  • 资产管理
  • 网络访问控制/隔离策略
  • 漏洞管理
  • 持续监测

2、使信息共享变得简单而平常。公司应使用现有的标准化安全信息共享结构,如结构化威胁信息表达(STIX);可信的智能信息自动交换(TAXII),以及用于人工智能网络安全目的的国家漏洞数据库。在这些不太适合的方面,公司应该共同努力,并与政府一起开发促进快速轻松共享的协议。

3、默认情况下记录。人工智能模型或工具的开发人员应将登录构建到人工智能工具中,用于网络安全、审计和其他合法授权的目的。

展望

好的方面:AI极大地提高了网络安全性

现代人工智能工具可以帮助组织快速识别和应对威胁,并提高其网络安全工作人员的效率和效力,从而使世界更安全地免受网络安全威胁。公司高管和IT安全领导者可以使用人工智能来优化决策、评估风险,并做出财务上合理的运营决策。安全团队可以使用人工智能工具来分析大量数据,并检测异常活动或恶意用户。这将使防御者能够更多地关注需要人类理解的调查。

如果防御者利用人工智能相对于攻击者的优势,这一未来将是可能的。下面是人工智能工具如何提供这些独特优势的具体描述。

1、提高防守队员的效率

人工智能增强了组织以更高的速度和更少的资源更有效地运行现有网络安全流程的能力。人工智能工具通过处理大量数据和识别异常行为来实现这一点。这些人工智能工具可以更早、更准确地检测威胁,使分析师能够更快地采取行动。虽然攻击者传统上受益由于攻击执行的不对称优势,防御者依赖于不确定的检测信号。人工智能工具改变了这种平衡。具体功能包括:

  • 漏洞优先化-防御者从风险和缓解成本的角度分析漏洞,以优化网络安全支出的投资回报。
  • 网络流数据-Defender分析网络流数据,通过识别与正常网络行为的偏差来发现异常的数据传输和未经授权的远程访问,从而实现对恶意活动的早期检测和响应。
  • 用户行为-Defender分析用户行为,如登录时间、位置和活动,以检测与典型行为的偏差,以检测内部威胁。
  • 潜在恶意软件-Defender分析文件和系统进程,以发现使用传统的基于签名的工具无法检测到的潜在恶意软件。
  • 端点数据-安全团队分析端点数据,以发现未经授权的设备访问和处理或滥用合法工具的迹象(即,生活在陆地上”攻击)。
  • 隔离受感染的端点或流程-安全团队采取主动步骤来隔离端点,并在可疑入侵导致系统之间的重大危害或横向移动之前减轻它们。
  • 网络钓鱼企图-组织分析电子邮件或其他通信中的语言,以检测和阻止网络钓鱼企图。

早期和准确的检测减少了对假阳性的浪费,并有助于标记真阳性,否则可能无法检测到以进行进一步调查。评估团队使用人工智能工具,通过更好的度量、可视化和决策树来进行更有效的决策。一些示例包括:

  • 指标-组织通过自动分析缓解措施、事件和响应来了解其网络安全有效性。
  • 可视化-防御者通过动态可视化相关数据(如网络流量、访问模式和用户行为)来确定网络安全工作的优先级,以实时查看。
  • 决策树-安全领导使用定制的上下文决策树,该决策树基于对特定事件的影响和置信水平的人工智能分析。

如果怀疑有恶意活动,人工智能工具会部署自动安全措施,以缩短检测和缓解之间的时间:

  • 响应时间-人工智能工具对模式中的偏差做出响应,并在最少的人工干预下部署自动响应,从而最大限度地减少不良事件的持续时间和影响。
  • 迭代响应时间-人工智能工具通过事件后报告进行训练,以完善其检测、评估和响应各种场景的标准。每一次入侵都是一次学习机会,并提高了安全工具在未来的响应能力。
  • 检测质量-人工智能工具不断根据事件数据进行训练,以不断完善其决策和检测能力。

这些能力对网络安全工作人员有几个影响:

  • 提高生产力——人工智能工具提高了效率,减少了网络安全任务所需的人数,从而减少了总体网络劳动力缺口。
  • 提高员工满意度-人工智能工具执行平凡、乏味或例行的任务,释放网络安全人员来处理更具挑战性的问题,从而提高工作满意度并减少倦怠。
  • 加速入职——人工智能工具使新员工能够更快地融入网络安全工作队伍。

最后,人工智能可以提高现有和新代码的安全性和质量:

  • 代码评估-人工智能工具可以扫描现有和新代码,以查找传统静态分析可能会遗漏的易受攻击代码模式的变体。
  • 代码建议-人工智能工具用于分析安全编码实践,并建议改进遗留代码,从而减少手动代码分析和重写所花费的时间。
  • 代码监控-AI工具在开发代码时实时检查代码,并主动识别漏洞或与安全编码实践的偏差。
  • 代码预测-人工智能工具用于分析现有代码以及未来可能的修改如何导致漏洞。
  • 重写代码-AI工具可以使用更安全的现代模式、语言和库重写遗留代码。
  • 代码自动化-人工智能工具可以自动生成代码补丁,以减轻其已识别的威胁风险。

2、防御者供应链中的更好关系

人工智能工具也在提高服务质量,以及在网络安全过程中如何对待用户。组织正在使用人工智能工具开发更有效的客户服务聊天机器人,以适应用户的知识和能力。人工智能工具实现这一点的一些方法包括:

  • 改进的响应时间-人工智能工具生成为用户的角色、环境和他们所遇到的问题定制的自动响应。这些响应使用日志和事件数据为问题建议或自动应用最适当的解决方案,从而实现更早和更全面的解决。
  • 高质量的用户参与-人工智能工具分析哪些解决方案和参与模型导致高用户满意度,以告知关于用户参与的最佳实践。
  • 适应用户需求-人工智能服务工具评估用户的知识和技能水平,并提供适合个人需求的指导,包括在最终用户无法补救情况时提升人工干预。
  • 节省劳动力-人工智能工具通过解决不需要人工分析的事项,更好地利用网络安全专家,并为网络安全专家提供定制的背景信息和需要人工分析事项的可能干预。

3、AI责任和质量的改进

人工智能工具正在生成高质量、准确的结果,并在它们未能做到这一点时负责。组织可以区分恶意篡改和大型语言模型(LLM)中所谓的“幻觉”,LLM提供自由文本输出。人类始终处于中心位置,知道何时与人工智能系统交互,输出中的任何潜在限制和风险,以及在更高风险的场景中,可以干预或覆盖人工智能系统。组织理解人工智能输出,并可以区分恶意篡改的实例,可能会将这些实例移交给政府。这通过以下方式实现:

  • 人工智能社会契约——捍卫者与政府合作,制定了一个普遍接受和易于理解的社会契约,列出了围绕网络安全中人工智能模型的创建、使用和治理的关键道德责任。
  • Defender引领创新-Defender围绕人工智能模型采用创新文化,并开发流程以从经验中学习,并鼓励在如何创建和部署模型方面进行受控实验。
  • 更好的控制-Defender可以访问模型、数据和以前的输出,包括发现实际上不正确的输出。这使得他们能够更快地识别输出是篡改与分析错误的结果。攻击者无法访问如此广泛的数据,也无法访问分析他们所拥有的数据所需的工具和基础架构。
  • 模型监控-Defender实时监控系统,并使用其他AI工具检测与其模型的异常接触。这允许及早检测对输入的篡改和检测操纵的输出,这可以被阻止以防止负面结果。
  • 模型透明度-Defender了解模型的功能和限制及其对其场景的影响;他们使用风险框架、系统度量和评估工具来确保其人工智能系统的安全性、安全性和可靠性。
  • 迭代改进-即使发生篡改,Defender也会修复模型,使这种篡改尝试变得毫无用处。这种能力迫使攻击者不断创新他们在未来篡改的方式,增加了攻击者的成本。
  • 生成式人工智能对策-防御者使用内容来源和人工智能内容检测来防止深度伪造的内容污染其平台。

与大多数攻击者相比,防御者在更有效地使用人工智能的能力上具有优势,因为最佳模型需要大量高质量数据,这些数据仅可用于最大的组织或最复杂的民族国家。因此,政府和公司比犯罪企业更有效地使用人工智能工具。防御者在这方面也受益于:

  • 数据宽度-防御者有多个随时可用的高质量数据源用于训练其模型,而攻击者必须更多地依赖黑市”数据。黑市产品一般质量较差,因为它们的规模有限,收购成本高,缺乏质量监控。
  • 数据深度-由于更大的容量、劳动力专业化和购买力,防御组织可以更容易地使用更多的数据。
  • 数据迭代-Defender可以从供应商和客户那里获得关于其数据的质量、限制和使用的建设性反馈。这使得他们能够比攻击者更有效地迭代现有模型和源。

坏的方面:AI严重危害网络安全

如果犯罪分子和流氓国家能够利用现代人工智能工具来提高其攻击、协作和学习速度,使其超过防御者的适应速度,则可以增强攻击者的能力,并使防御者处于不利地位。企业网络罪犯可以使用人工智能工具来编写恶意软件,而不管他们的编码知识如何。他们可以与流氓国家合作,利用该国对高质量数据的访问来训练人工智能模型。然后,犯罪分子和流氓国家都将改进其攻击技术和能力,以避免被发现,将其用于盗窃、间谍活动或破坏性攻击。由于攻击者将使用防御者无法访问或使用的模型和数据集,因此防御者只能对每次入侵做出反应,此时攻击者可以转向新的人工智能生成技术。这些工具的速度和功能将最大限度地减少修改攻击的成本,而防御攻击的成本则以无法控制的速度增加。

如果人工智能使攻击者比防御者具有明显的优势,那么这种未来将是可能的。下面是对人工智能工具在未来如何发挥作用的具体描述。

1、提高罪犯的效率

人工智能使网络攻击变得更简单,成本更低。犯罪动机更高,因为人工智能工具可以提高几种类型攻击的回报和成功率,例如:

  • 将资产集中在目标中-使用生成式人工智能来补充核心业务功能,既可以在专门的人工智能系统中创建和集中更敏感的数据,又可以提高罪犯利用这些数据的回报。
  • 定制恶意软件-人工智能工具生成按需定制的恶意软件,可以根据特定目标定制。
  • 弱威慑——罪犯不太关心违反知识产权法和道德准则等规则,对他们使用人工智能工具的限制较少。
  • 用于加密劫持的AI自动化-帮派使用基于AI的自动化脚本来利用受害者机器的计算能力,并提高加密劫持的效率和回报。
  • 矛式钓鱼中的生成式人工智能-攻击者使用生成式人工智能创建更个性化的钓鱼电子邮件和可信的发件人角色,从而增加成功的可能性。
  • OSINT的机器学习-机器学习工具通过改进对公共可用数据源的分析,帮助攻击者更好地理解其目标。
  • 用于未授权访问的机器学习-机器学习工具帮助攻击者搜索互联网,更容易找到易受攻击的系统,从而增加成功攻击的可能性。
  • 高级恶意软件的机器学习-攻击者将机器学习整合到恶意软件中,使其能够从经验中学习并动态修改其行为以避免检测。
  • 攻击面枚举-机器学习工具帮助恶意软件更有效地找到有价值的资产。
  • 漏洞发现-机器学习工具帮助攻击者找到漏洞,以便访问枚举资产管理系统。
  • 造假活动的生成式人工智能-攻击者使用生成式人工智能创建虚假的音频和视频内容(deepfakes”),提高宏观目标虚假信息活动和微观目标社会工程活动的欺骗可能性。
  • AI腐蚀AI-启用AI的攻击检测和避免,人工智能使防御成为可能,使其变得无用和可利用。

2、刑事供应链中的更好关系

人工智能工具还影响参与网络犯罪的实体类型以及它们之间的互动方式。最初,人工智能模型使用大量高质量的数据集,这些数据集通常仅可用于合法组织和责任国家。随着时间的推移,犯罪集团和较小的流氓国家的反应是联合和整合他们的努力,为恶意使用创造类似的工具。这种融合增强了犯罪行为者的能力:

  • 更好的攻击者分工——罪犯和国家具有不同的优势,他们的伙伴关系不断发展,以创造攻击者的规模经济。国家提供资源和目标清单,而犯罪组织具有特定的专门知识或意愿发动攻击,即使是流氓国家也可能不愿意这样做。对预期目标的人工智能分析用于确定潜在的合作者和最有可能成功的攻击。
  • 防御的全球分布不平等——财政和计算资源较少的国家无法部署有效的防御措施来抵御人工智能攻击。相反,富裕国家防御能力的提高导致攻击者将注意力集中在防御能力较弱的国家。
  • 改进了勒索软件部署-擅长使用勒索软件的犯罪组织与流氓国家合作,破坏目标国家经济。
  • 改进影响行动——更小、更灵活的犯罪集团收集个人信息,以定制民族国家宣传。
  • 恶意人工智能模型开发-流氓国家为犯罪组织提供数据和基础设施,用作恶意人工智能模式开发的训练场。
  • 综合洗钱——犯罪组织通过提供绕过经济壁垒的连接和使用人工智能生成可信的交易轨迹,以洗钱援助国家。
  • 不一致地遵守法律边界——虽然合法组织遵守限制人工智能的国家法律和国际协议,但犯罪组织跨国界使用人工智能没有限制。

此外,人工智能工具的民主化降低了希望参与网络犯罪的潜在行为者的进入壁垒:

  • 级联成本-人工智能既减少了进入壁垒,又增加了规模经济,这两者都扩大了攻击的规模和规模,并能够更有效地改变战术。
  • 简单的黑客工具包-罪犯使用自动化黑客工具,这些工具需要最少的知识,但可以渗透复杂的企业或政府防御。
  • 改进的网络钓鱼提示-罪犯使用现成的生成式人工智能提示来生成个性化的、特定于文化的网络钓鱼内容,并可以大规模分发。
  • 诈骗内容——罪犯可以很容易地为大规模社交媒体活动制造深度伪造品,
  • 基于人工智能的勒索软件-罪犯使用现成的基于人工智能勒索软件,该软件使用来自以前受害者行为的大量数据,以最大限度地提高支付概率。

在目标方面,使用人工智能的组织必须依赖于少数拥有这些大型数据集的供应商。这在供应链中创建了集中的漏洞点,攻击者可以利用这些漏洞向其目标施加大规模成本。攻击者可以通过以下方式利用这些漏洞:

  • 毒害训练数据-罪犯使用基于人工智能的应用程序编程接口(API)来操纵训练数据和模型,以进一步破坏用户或促进漏洞的广泛分布。
  • 屏蔽的网络流量-罪犯可以创建难以从人类流量中分类的合成流量。
  • 后门妥协——罪犯将后门放入客户使用的人工智能模型中;从而也可以访问客户系统。
  • 常见漏洞-罪犯可以利用特定漏洞攻击多个公司,因为所有公司都依赖于相同的底层AI供应商。
  • 勒索软件即服务(RaaS)攻击-以RaaS为中心的犯罪企业可以使用基于人工智能的攻击更轻松地扩展赎金支付。
  • 跨共享资源进行间谍活动-罪犯利用多个公司使用的共享AI基础设施来过滤敏感信息。

3、AI责任和质量方面的困难

人工智能工具经常生成质量差、不准确的结果,很难与非人工智能内容区分开来。此外,模型和开发人员不应对这些错误负责。通过降低发起某些类型的网络攻击的成本,对手现在可以将其攻击外包给更小、更隐蔽的实体,从而更难追究这些国家的责任。防御人工智能攻击的成本远远超过开发它们的成本,能力差距正在扩大:

  • 全球覆盖——尽管一些国家采取了法律保障措施,但人工智能平台的开发和使用在法律允许的管辖区内是恶意的。
  • 与新奇事物斗争——人工智能支持的防御与不属于其训练集的攻击斗争。
  • 罪犯之间的无许可创新——罪犯创造攻击工具没有任何限制,因为他们不遵循约束合法开发人员的相同道德规范和规则。
  • 无注意义务——人工智能公司没有明确的法律义务来保护其数据和模型,因此许多公司没有对国防进行充分投资。
  • 高级证据篡改-罪犯可以使用生成式人工智能廉价地创建虚假内容,使证据收集过程复杂化。
  • 公众信心的丧失和社会机构的侵蚀——由于人工智能工具在促进恶意行为方面变得更加有效,公众对新技术失去了信心,合法创新滞后,而恶意行为者继续蓬勃发展。公众对技术失去信心,就会侵蚀对社会机构、民主制度和客观真理的信心。
  • 污染的公共资源-基于人工智能的攻击,如深度伪造,导致更糟糕的数字公共资源,赶走缺乏过滤此类材料的手段的无辜实体。结果是,较贫穷的实体必须在比有支付能力的实体更差的平台上运营。

应用+AI,是未来吗?

(1)引擎

1970年代,IBM发明了一个中间件叫:规则引擎。

意思就是:你可以灵活设置规则,不用把业务规则逻辑用编程语言写死在软件中。

因为中国程序员都是码农,不懂得设计程序,就是知道业务逻辑多复杂-代码就多复杂,所以各种状态机引擎、规则引擎都不会用。即使平台研发团队搞了个规则引擎,也都在业务功能中不会用或者只用一点点。

现在,人工智能热潮风起,很多IT厂商又开始用规则引擎忽悠智能化-自动化。

(2)数据

对于外行人,认为大模型=会话大模型+生成大模型。

对于内行人,大模型=海量大数据+Transformer深度神经网络。

所以,数据的重要性和稀缺性,对于内行人来说,比模型还重视。所以中国最近两年出台了无数政策在说数据安全和数据资产的事。

Open AI公司因为数据,在2023年也惹上了事。这就是,事情不火不挣钱,大家都不言语,一旦发现事情火了有利可图了,这就得说道说道了。所以2023年,Open AI免费爬取编程问答社区SegmentFault的数据做了大模型,用户一看在ChatGPT中做编程问答效果更好,就不访问SegmentFault网站了,所以SegmentFault的流量快速下滑。这让SegmentFault就怒了:你不仅爬取我的数据不给我钱,你还拉走了我的用户,这不行。

Open AI虽然去年主动去国会申请召开听证会,希望促进国会尽快立法,让大家在规则下发展。但是最终听证会也没有有效运转起来。所以美国对于数据资产的一系列的法律制定,也滞后了。

那大模型怎么持续进化?有人想到了一种方法是:数据增强,通过现有数据进行智能的变形和合成,这样就数据量翻倍了。我对这种方法认为比较狗屎。我经常说:垃圾输入必然是垃圾输出。数据增强在我眼里,和内容洗稿没啥本质差异。你把十篇内容稿件通过各种切分排列组合弄出来1000篇内容稿件,也是垃圾,而不是创造和知识。所以这种垃圾输入垃圾输出的数据增强方法,只能让大模型更傻。

那大模型怎么持续进化?我能想到的最好方法就是现在大模型的应用商店。传闻GPT应用商店里已经有300万个应用了。大家不用搞Lora微调和预训练,也不用搞指令调优,也不需要搞人工反馈的强化学习,也不用搞复杂编程开发,只需要提示模板调优+SaaS API调用就可以很方便做出一个应用。这个应用无法脱离大模型。只要人们使用应用,本质上就是源源不断地把数据输送给大模型。大模型把数据日常沉淀汇集起来,然后在大版本预训练时利用起来。每个应用产生的数据都很小,但是这么多应用产生的数据就如同无数条小河,汇聚起来就是大江大海。你如果因为安全考虑不想把你的数据沉淀给大数据,那对不起,那你用开源私有部署去玩吧。

所以,这种方法避免了数据资产的法律问题,也避免了数据增强愚蠢问题,还有了源源不断的新鲜数据血液。这个机制才是永恒永动的。

(3)技术

刚才提到了提示调优模板+公有云SaaS Open API调用。这里就再衍生一个技术:AI Agent

Agent这个词大多在强化学习场景中使用。2023年Q4,一个新技术热词被Open AI公司内斗引爆了出来,那就是:Q* Learning。其实A*是强化学习的前置技术-动态规划中的一种算法,Q-Learning也是强化学习-时序差分中的一种算法。Q* Learning就是这么组合来的。

但是AI Agent这个热词在2023年引爆是在上半年,是在下半年Q* Learning引爆之前流行起来的。所以外行人眼里的AI Agent,其实和强化学习没半毛钱关系。

外行人眼里的AI Agent,其实是在上半年流行的提示调优模板相关。

大家都知道,现有人工智能还不能回答复杂逻辑的问题,所以大家想了一个办法,叫做:思维树CoT,意思就是把一个复杂逻辑问题,人为分解为12345步,这样就可以一点点引导大模型得到你想要的答案了。

所以,AI Agent其实是一系列2023年上半年技术的杂合,所以才有了现在AI Agent框架的说法,杂合了:

CoT模板-代码生成大模型、公有云SaaS-Open API甚至API工具(如Postman、Zapier)

RPA-UI层集成自动化、流程挖掘

SAP就想走这条路。但这条路和人工智能其实没有半毛钱关系,只是挪用了人工智能的思维树的思路而已。

(4)模型

2023年,中国发布了上百款套壳大模型以及所谓的垂直行业大模型。

依我对中国人工智能产业的了解,其实能做大模型的中国团队寥寥无几,一双手都能数过来。

其实,绝大多数所谓的大模型团队,连Lora微调都不会也不敢。虽然Lora微调也只是改动最后一层,但是即使改动最后一层也不会啊,况且改动完了还要做预训练,虽然预训练的代价已经很小,但很小也是需要不少算力的。所以,在中国,其实连Lora微调都不会做。

大多数团队只会使用提示模板调优。连RHLF(基于人工反馈的强化学习)都不会。毕竟强化学习比深度学习还难。

有些深度的团队会搞指令模板调优。

但大多数团队连所有的调优都不会也不敢,因为太消耗工程人力了。能做的,就是把自己的数据通过大模型API输入给大模型,然后让大模型自动输出结果。这就是真实的现状。

李鬼太多了。

即使是真李逵,敢于做Lora微调,敢于做提示调优和指令调优甚至RHLF,我个人认为垂直大模型也最终必然会被通用大模型吞没。

为啥我会这个观点?我类比个例子。经常有朋友问我:为啥你会这么独特地思考?我说:因为我的知识体系中有:历史、地理、政治、军事、金融、经济、哲学、人性、计算机、组织、管理,所以我的思考是多维的、非线性的、动态的。而大多数人知识不成体系,所以是单维的、线性的、静态的。

我之所以这么类比,就是因为垂直大模型就和大多数人一样是单维的、线性的,不会聪明的。真正的聪明一定是多维交汇的。就如同很多知名的数学家,在音乐造诣方面也不错,他们其实就是融会贯通。不融会贯通是走不远的。

(5)应用

2023年特别流行一个人工智能技术名词叫:RAG,意思就是检索增强生成。

这个热词来源于:微软Bing搜索,整合了GPT文本生成大模型,通过实时搜索避免了大模型因为预训练机制导致的信息陈旧问题,也通过文本摘要生成大模型弥补了传统搜索列出无数条链接内容让用户一一点开看的缺陷。

所以业界也想模仿New bing这么搞垂直搜索增强改进,所以产生了RAG技术的探索。

在说2023年流行的RAG这个热词之前,我再说说另一个技术事:向量搜索引擎、向量数据库

我早先用的是ElasticSearch,在2020年我用了向量搜索引擎和向量数据库Milvus。

2023年,RAG火了,于是向量搜索引擎和向量数据库不知道怎么也突然火出圈了。

然后有一帮人不知是不知道呢,还是别有用心呢,就把向量搜索引擎和向量数据库,偷梁换柱李代桃僵,就等同于RAG了。

不过,热潮很快就过去了,2023年,向量数据库被证伪,又快速回到了自己过去擅长的领域。随之,RAG这股风也不如过去热了。

AI硬核思辨:AI原生应用,在中国为什么卷不动?

对话主题:“AI落地进行时,让创新真正触手可及”

参与嘉宾:兔展智能董应赛、网易伏羲游戏李乐、WPS AI汪大炜、WeShop吴海波。

主持人:硅星人/品玩CEO骆轶航以下是对话内容实录:中国的AI原生应用发展这么慢的原因是什么?

骆轶航:感谢大家,刚才听了行远和博杰两位老师讲得非常好玩,行远其实每个东西做得看上去都跟大语言模型没有关系,其实这几年脉络是下来的,你无聊问答的那个东西做早了,你晚四年到五年做那可能就是完全不同的一个场景,其实我觉得特别有意思,他坚持一个路径能做一些非常有意思的事。博杰老师特别有意思,昨天我们几个朋友在一起讨论过这个问题,博杰老师把AI分成了有用和有趣两类,我们问你为什么不把智能、可感知、可推理甚至做一些最重要的生成当作一个划分呢?他说这是一个基础、一个标准没有这个我们谈什么?我们是在这个基础之上才去谈有趣和有用这两类。我还是做一个简单的调研,现在在场的同学们有多少人以为自己用过AI Agents?有多少人用过有用的Agent?说白了帮你法律顾问、财务顾问、文档顾问?有多少人用过有趣的Agent,陪聊之类的,我特别担心大家不用有趣的Agent。我进门的时候做那个测试,你向左还是向右,向左是愿意接受AI的陪伴,向右是不愿意,我义无反顾地选择了向左,作为一个i人,我觉得不是一个E人,我觉得如果可以不跟人沟通,用AI陪伴我觉得也还蛮好的。其实我觉得AI陪伴有用的维度我可能有一个观点跟博杰老师不太一样,跟这个阶段不太一样。但是博杰老师是在做事,我是在扯淡,这是差别。如果我们真的相信成本未来能够降下来的话,有趣一端能够创造更大的价值,因为这个世界大部分是有用的,他们也不会做很多的事情,这是一个很有意思的事,我们今天就落地去聊一聊AI的应用、AI的应用能够产生,我们怎么能够尽快地去落地,我们先上来给每个人拍一个砖,问每个人一个问题。过去也一年一些大佬拼命地去跟大家去讲,我们不要再去开发那么多模型了,“百模大战”东西太多了,赶紧开发应用吧。但过去的一年事实上至少在国内并没有出现真正的所谓的native AI APP的大繁荣,一部分人还在卷模型,普通人对AI应用很多时候可能无感,可能少部分的AI应用,最近这一两个月可能会有爬坡。我相信现在有的人可能注意到豆包现在投放量蛮大,有人人还用到了豆包、还用到了星野,海外用户可能大家都用Character AI、包括用派、用AI等等,但是其实整个应用在国内没有得到一个大的繁荣,很多平台也都推出了自己的工具包,希望开发者去开发应用,好像也没有那么多,原因是什么?是模型不行?还是什么原因?大家的观察,我相信各位都在做,有基于国内的基础模型去做的,也有基于海外的模型去做的,大家能不能直言不讳地讲讲这个原因。

“底层模型做开发还是有差距,是需要承认的”

董应赛:原来经过这几轮技术的更迭,大家可能会通常有一个认识,觉得可能在中国移动互联网,可能会更繁荣一点,就是做应用这个事在中国更有热情,大家更愿意去做,而且用户基础也在这里,觉得中国通常都会对做这件事情,或者说回到这个问题上开发AI APP的热情以为会比美国更多一点,我觉得这一次通用人工智能最重要的还是基础的技术是不是做得很扎实,这个应用的效果才能做得好。我自己的体会是因为我原来在Mate、在Facebook工作过几年,我一直跟我美国的朋友有交流,其实是会发现国外它有一个跟中国最大的一个不同就是大家的人才密度其实还是更高、更集中一点。比如说真的是OpenAI、Google等三家人才密度是非常高的,在资源、资金、算力,人才投入在相对集中的公司里面,做出来的模型确实是很好的。比如说大家都在说是不是做了接近于GPT4的能力了,刚才前一场沙龙的交流过程中听到几位专家的说法其实也比较有自信会觉得可能差距没有那么大,但是我们自己的体验在应用端,要基于这些底层的模型来做一些开发的时候,还是会觉得是有差距,是要去承认的。而且在国内事实的情况是比较分散。

骆轶航:模型太多了是吧?

董应赛:模型太多的,人才不够集中,僧多粥少,哪怕在国外、在美国做这些AI研究的公司中华人占比不低,国内大家如果更集中一点这个事情是能做得比现在更好的,大厂也想做,也涌现了很多创业公司,资金也会比较分散,可能后面我们再聊一些投资都有问题。回到根本的问题上,可能还是底层的模型,至少我们现在感觉还是有一些差距的。所以在这次AI这个浪潮里面跟之前的不同,比如说移动互联网里面,无论是抖音还是做社交平台,更依赖于底层的技术是不是成熟才能把一个应用给做好,我觉得这个是我想来分享的。

“技术永远没有做到最好的时候,但是我们却可以在目前的技术条件下做出很好的产品”

李乐:我的想法可能会相反。我举个例子,当然这个是游戏里面的例子,我昨晚也说过,2018年的时候,我就把一个SQL TO SQL的模型放到游戏里面去,那个能力大家能感知到的,可能连个小学生的作文都写不清楚,我们就很好地选择了一个游戏里面的养育系统这样一个场景,就是现在游戏里面玩家生出来的那个小孩,把对话AI加到小孩上面去,小孩的父母亲就是那些玩家可以跟小孩进行聊天。即使在这样的2018年年底那样一个技术水平下都有非常多的玩家跟他去进行聊天,所以从我的角度来说,我觉得对做产品的人来说,我觉得有更高的一个挑战,就是我们要在现有的基础情况下根据我们业务的场景去想我们应该去做什么样的一个应用,所以我觉得我们做产品的人应该要有更多的思考和主观能动性在里面,所以这个应用的市场才能做得更好一点,所以这是我的一个看法。另外一个,当然我觉得不要把它变成一个吐槽性质的东西,我们国内的模型跟海外有多大的一个差距,我们看到从现在这个时间点来看,大家已经比去年上半年的时候信心足了很多了,而且还在快速地研发的过程之中,各种性能也在不停地提升。但这里面会涉及到很多的问题,我觉得因为国内还是会做得慢一些,特别是很多高质量的开源的模型拿出来给市场的也慢一些。从我的角度来说,我了解到很多的公司也看到了市场上面一些好的例子以后,他们也有所触动,也在做相关的一个东西,我觉得站在游戏行业这个角度来说,可能在今年年中左右会有更多更好的应用出来,它可能是一个时间窗口的问题。当然,我觉得还有一个问题就是目前来看AI还是很贵的,就是你的研发很贵,你的线上推理很贵,特别是在我们游戏的场景。我们的QPS是非常大的,游戏方承受的压力也很大,大家游戏要做差异化,他们真的就是咬着牙跟我们一起做创新,我们也希望这一块算力的成本,不论是我们训练的成本还是我们在线推理的成本,都能够尽快去降低。骆轶航:我特希望我们的嘉宾在台上这么能够打起来,提供截然不同的看法,模型确实还是有问题,人才我承认,如果全球有一百人能做的,人家三家加起来占80个你确实很难受,即便这样的情况下模型还是有进步的空间,做产品的人怎么能够更快地具备AI的思维,我们那会儿老提互联网思维、移动互联网,但是做产品要有AI的思维,用好自然语言,打开他的想象力去做一些事,昨天李乐老师秀了一个demo我就非常开心。接下来让汪大炜聊一聊,你们可以不讲你们怎么进入的,你们可以讲一点感受。

“需要更多的工作来让模型与用户需求匹配起来,用户也在不断学习如何更好地使用AI应用”

汪大炜:我讲一下从去年到今年一共发生了什么事情,这个可以去解答为什么,某一部分可以解答中国为什么做应用的人比较少,我们很早就做AI了,我们2017年就开始做AI相关的事情,但那时候CV、语音这种场景的,还有翻译校对,去年12月我们就关注到GPT的事情,关注到这个事情到底能不能做?真正启动大概是2023年2月份,当时整个公司开了一个会,核心的骨干都在一起说这个事情,我们判断这个事情可能会颠覆未来办公的方式,大家一定要投入到这个里面,当时我们内部两千多号研发,所有人如果你今天不去聊天AI的事情,可能你就会逐步逐步被淘汰那种感觉就会很明显。在那个时候我们就开始找包括国内的、海外的模型的服务商,因为其实我们其实本质上不太做大模型,我们更多的还是用户场景里面找到用户的场景,去给用户提供这样的服务,所以我们找这样的合作方说哪些服务是合作方可以给我们一起共创、一起支持。海外的包括谷歌的、OpenAI我们也找了,国内的大家也看过包括 Mini Max这些、百度我们都有相关的一些合作,然后我们就开始做两件事情,第一件事情是看用户的场景里面有哪些是可以AI化去改造的,因为我们觉得AI化改造之后是能给用户带来很强的或者很大的效率上的提升,那我就去找一些事情,包括当时我们还去找了一些翻译的专门做出版社的翻译的老师,包括去做一些用语言的事情,找哪些产品可以做到。然后我们就发现了6月份发布会我们说了几个方向,比如说AIGC的方向、Copilot的方向和那个 inside方向,我们在做这件事情的时候,跟这些模型就开始说我们接进来,接进来我们调,看怎么样可以接到这个场景里去,那个时候整个行业里面的应用都是像对话式的交互方式的,我右侧一个对话面板跟它说一个我的需求,它帮我做完,基本上是这样子,我们朝着这个方向去努力,模型方我的需求是这样的,办公场景你给我做一些什么样的适配,生成的大纲你给我做格式的标签,大模型里面没有语料和训练,要把这些训练项目加进去一起去训练,让它带格式的属性标签出来,方便我后面做数据的操作,那个过程中6月份我们开了一个发布会告诉大家有这个事情可以做内测的时候,当时我们的感觉是模型叫勉勉强强可以用,可以放进来,这个完整的链路看上去可以完完整整地去使用,大概是这种感受。我们去内测过程中就发现了一些问题,用户在真正的办公使用场景里面它的任务是一个复杂的任务,不是一个简单的单一任务,当我以一个指令的方式,以一两句话,或者几句话去让他做这件事情的时候,他没有办法把这件事情一步一步猜出来,而且这个上面每一个人的想法、每个人需要改的地方都不一样,我们上了一个月的内测,我们今天的产品在今天的WPS里面是有问题的,我们后续不断地去做修改。大家可以看到最早一些用户右侧浏览这种方式很舒服,实际使用过程中我生成一个PPT难道里面的大纲内容不改呢?肯定要改,AI生成的内容跟你想要的内容是不是符合的,没有办法一步到位,你一定会去改这个东西、一定会去调整,一定会去加进自己的东西,一定会往后走,我们把AI整体的能力打散,放到用户功能流程里面每一个部分加持它,这样的情况下你会感觉变得聪明,整个过程中模型也会不断地迭代,真正到年底我们真正发公测的时候,这个模型是超过我们想象中的进步的。虽然跟OpenAI还是有一定的差距,跟3.5还是有一定的差距,但是你觉得我可以用这个,我们用户用他使用的数据告诉我,他已经真正地在用这件事情,有一部分已经用到了他的整个生产环节里面去,或者工作环节里面去,这个是我们看到觉得未来一个比较好的方向,在未来可能1年多的时间里面我们认为还是这样的方向在整个产品或应用层面的一个表现。回到这个话题里面来说,我觉得今天的国内的基础模型不是不能用,也不是说很烂、很糟糕,其实他们已经在有些场景下、有些应用的方向上有个很好的基础在上面,只是我们真正地到了用户的使用过程当中,我们真的需要做很多的事情,让用户的需求跟我模型的匹配能做起来。同时我们也看到用户也在学习,这是一个很关键的因素,我们6月份之前,我们看到用户其实在整个使用过程当中问问题,跟现在问问题的质量真的会有差别。所以我觉得这两个因素会慢慢逐步逐步地去改变大家去做AI的应用的部分的能力。

骆轶航:大炜你刚才讲这些东西都可以写个文章了,上半场我们聊TPF,TPF怎么去实现,俊旸讲的吧,铁震和俊旸两个人讲的,TPF这个事是试错试出来的,这个就是典型的TPF的过程,没有人告诉你答案,这个就是典型的TPF的过程,这个TPF的过程不仅是产品团队自己的P怎么去适应这个不可知的T,其实用户也参与进来了,我觉得这个过程实际上是一个特别特别有意思的过程,尽管这个东西跟一开始你们想的不一样,这个探索还是有价值的,我也知道你们4月份的时候,我就跟庆元总去聊过,当时的想法很美妙、很乐观,一年扑腾下来很多东西什么是能实现的,什么是不能实现的,大家有更清晰的认知,他这个特别好,但是肯定要花时间。

“现在的应用更容易被吃掉 动手才知道基础模型的边界在哪里”

吴海波:我们是最近一年AI应用中商业化走得比较顺的。我觉得这个问题可以拆成两个问题相对讨论。第一个问题是native的AI APP是什么东西?

骆轶航:有这个东西吗?这个事存在吗?现在每年没有共识的概念。

吴海波:刚才这个问题的讨论是说这个APP的生态没有起来,这一拨跟上一拨有个巨大的区别,比如说以WeShop举例,我做一个电商行业的商拍,就是把商家都是要上架到线上,需要一个商品,让AI可以做一个更有效率的事情,所有人都会问一个问题,淘宝做了怎么办?抖音做了怎么办?拼多多做了怎么办?那么你在中国这个环境下避免不了地要去讨论这个问题,你做native AI APP的生态的繁荣是不可能几个大厂在那里搞几个APP出来,一定是靠千千万万的开发者冲进来,这个问题不只是有中国出来,我记得11月份的OpenAI开发布会,Twitter上有一个大V发了一篇推,OpenAI给我发了500美金的优惠券拿走了我500万美金是指的公司,大概是这个意思。我觉得中国我们以前的环境中大厂对我们的拷贝是另一个维度的东西,今天有一个维度的东西,我特别喜欢我们刚才讨论的是基础模型,公司用得比较多的是SD,SD不算大模型,单机就可以跑起来,它确实是foundation model,这个东西它在不停地吃掉一些应用层面的东西,它天然就能做应用,所以这个时候native APP没有火起来我觉得有很多很多开发者他是有顾虑的,他觉得自己一轮下来一个创新的点子有可能再过半年、一年东西没有了,场景不存在了,给另一个公司直接就吃掉了,所以这个问题不止国内,全球都有这个问题。

骆轶航:叫This model is eating native APP。

吴海波:今天如果要做应用,绕不开什么是native APP,这个东西我肯定是没有共识答案给你,但我脑子里可能有一些什么不是,大概是这个意思。关于中国的基础模型,我觉得现在是非常make sense可以理解,整个基础模型是要去争一些东西,这么多大厂他们有资源,相关有资源的人肯定要投入到这个事情上拿到一个票,现在我们国家,至少国内最好的技术、最好的资源都在做这件事情,make sense,从年初到现在看到他们的测试,我们按我们自己的场景去测,它持续进步是很快的,只是对应用的来讲,这个东西一定会成为应用行业的β,整个行业的β就像移动互联网,整个移动互联网的β不停变好的时候所有人受益,我做应用的要思考的点是我是不是α,如果我不是α,我做的事情是给β那我就完蛋了,所以我们核心是想什么是α、什么是β?但是讲了这么多好像没有什么结论,我想说的点跟前面两位嘉宾是类似的,你要动手,你动了手你才知道foundation model的边界在哪里,你才知道你的客户是怎么给你反馈的,你坐在这里思考非常哲学的问题,因为这些东西我们做应用很多做产品经理出身的人非常喜欢在哲学层面上去做很多这样的探讨、逻辑对应,可以讨论得非常形而上,但是落不了地的时候你没有感觉,一定要把自己的手弄脏才会有感觉、才会进来,我觉得这是一个非常关键的点。所以我是比较认同我们是一定要实践出真知的。

骆轶航:总结一下四位,应赛和海波客观地强调了现实、现状其实对应用造成的一些挑战,我觉得两位讲的第一个观点某种程度上我也是同意的,基础模型,基础模型的话,比如说它是GPT4,你是另外一个类似的东西,你是另外一套基础模型,其实如果你们之间有差异是会影响,这个东西其实某种意义上延缓或者阻遏了我们中国的这些产品经理的产品感和产品能力,某种程度上被这个东西所影响,其实现在应用更容易被吃掉,更容易被base model的某一部分能力吃掉,当然移动互联网早期也有这样的事情,但是我们发现这个东西更容易被吃掉,这是一个现实。但是各位谈到另外一个话题也很重要,就是动手,第一个就是基础模型有差距,但它其实赶的速度蛮快,这个我不得不承认,过去一年,我们就不说小的开源模型了,大的模型我们说陪伴模型,我天天玩陪伴,它的进步我还是非常有感知的,文心一言的进步你是肉眼可见几个月一次进步的,智普跟百川同一个道理。另外一个product market这个东西是靠动手试出来的,它不是靠大家想出来的,不动手就能有这个东西的,我觉得不是。

深度观察:智能戒指、脑电波传感、生成式AI的新时代?

一年一度的科技界的“奥斯卡”CES已经落幕,但留给大家的震撼还未消散。作为科技界的重点保留节目,CES汇集了全球各地的新产品和黑科技,吸引了包括英伟达、英特尔、AMD等4000多家企业参加,来自中国的企业超1000家。

这是疫情后最热闹且具有看点的一届。空间计划的传说、智能家居的新玩法、芯片大厂的全新阵容、科技巨头们都拿出了看家本领争夺场馆“C”位。

与其说,这是一场消费电子展览,不如说,这是一场大型技术见面会。各个品牌产品百花齐放,实际上更多了一层暗自较劲的意味。来自东方的力量也不甘示弱,漂洋过海的黑科技引来不少现场观众驻足关注。

那么,全球消费的电子风向标将指向哪里?此次含金量满满的“科技届春晚”,谁能成为“主角”?以下,Enjoy:

智能枕头、同声传译耳机?

这届智能家居、智能穿戴有点卷

CES 2024上,智能家居和智能穿戴的发展态势超乎意料地多元蓬勃。小到耳机、手表,大到智能门锁、同声传译,将日常生活的大多需求无孔不入地考量在内。无论是亚马逊、三星的头部玩家,还是各家后起之秀,都展示了一波实力。

1.智能穿戴:

CES 2024上,诸如智能锁、智能戒指等智能穿戴的多种打开方式,正如电影科技照进现实。

Lockly智能锁团队的最新产品能够支持面部识别,还可以与NFC配合使用,通过两个2MP分辨率的红外传感器进行双目面部识别,2.6英寸内,智能锁得以在1.5秒内解锁。同时,飞利浦则针对用户手掌进行设计,推出手掌识别智能锁Deadbolt,可以记录不同年龄段的人高达50多种掌纹。

NeurGear团队推出的ZenBud耳机则通过超声波技术,利用刺激迷走神经来放松身体。迷走神经在人体中发挥着多项重要生理功能,如消化、呼吸、心率等。

中国厂商带来的Helio Ring智能戒指,采用了钛合金的材质,通体不到4克重,具备心率、睡眠、压力、血氧饱和度等健康监测功能,同时,还可以基于检测数据,给予健康指导。也有网友激情发言:智能手表尚不舒服,智能戒指能否保证不是睡眠紧箍咒?

对戒指做文章的还不止一家,VTouch另辟蹊径,将戒指化身为了一款移动麦克风,内置麦克风和距离传感器,当戒指靠近嘴巴时,麦克风就会被激活。并且,出于安全考虑,单击5次戒指就会自动触发报警,并记录当时的环境声音。

很多网友曾开玩笑:近视眼的眼镜一摘,听力也直线下降。EssilorLuxottica带来的助听眼镜则正是针对听力损坏的问题出发。Nuance Audio 眼镜,主要适用于轻度至中度听力损伤的群体,在镜框设有波束形成麦克风,头部轮廓用以校准算法,可以定向增强说话声。

2.智能家居:

宠物追踪、读取脑电波、缓解打鼾……CES 2024上,智能生态不是梦。

Motion Pillow研发的智能枕头让爱打鼾人看到希望,它可以通过AI识别调节枕头高度,以使用户头部呈现对应角度,以解决打鼾问题。

2.智能家居:

宠物追踪、读取脑电波、缓解打鼾……CES 2024上,智能生态不是梦。

Motion Pillow研发的智能枕头让爱打鼾人看到希望,它可以通过AI识别调节枕头高度,以使用户头部呈现对应角度,以解决打鼾问题。

Withings研发的Beam O,是一款多功能合一的家庭类健康监测设备,能够实时测量体温、读取血氧水平、甚至充当听诊器检测用户身体状态,以及配合做心电图。产品小小一个却高科技含量满满。

Mywave研发的Pebble,作为一款脑电波传感器,需要被贴在额头上。在用户睡眠过程中,Pebble可以追踪眼动期到深睡期,根据脑电波生成自定义的睡眠轨迹。并且,数据上传后,还会生成对应的助眠曲。

2

巨头的技术“撞衫”

芯片领域,英伟达、英特尔、AMD等巨头相继亮相;屏幕领域,三星、LG、TCL也不甘示弱。

1.游戏体验拉满的英伟达

英伟达在展会中展示了游戏、创造、生成式AI和机器人创新相关产品,还进行了一场特别演讲。英伟达再次为游戏党带来福音,发布了GeForce RTX™ 40 SUPER 系列 GPU,作为AI PC的核心硬件,如Matt Wuebbling所说:“GeForce RTX SUPER GPU 现已支持超过 500 款 RTX 游戏和应用”,性能再翻。

与此同时,英伟达推出了NVIDIA Avatar Cloud Engine(ACE)Production Microservices,开发者可以通过 ACE 微服务,利用 NVIDIA Audio2Face™(A2F)等 AI 模型,以及 NVIDIA Riva 自动语音识别(ASR)构建游戏和应用的虚拟角色。

全球视觉内容缔造者 Getty Images 在 CES 发布 的iStock 生成式 AI 工具,则也是基于英伟达定制的AI模型生成服务,以为设计师和企业提供从文本到图像的生成工具,创建可授权的视觉效果,包括对生成图像的法律保护和使用权。

英伟达的技术还蔓延到电动汽车领域。众多 NVIDIA 汽车行业合作伙伴在拉斯维加斯举办的 CES 上展示了先进的技术,包括梅赛德斯-奔驰、Luminar、Ansys、Cerence等。

2.野心勃勃的英特尔

CES 2024中,英特尔同样推进“AI无处不在”战略,正式宣布进军汽车市场,主攻智能座舱芯片、电车能源AI管理、开放式汽车芯片定制平台三大方向,并将首款上车的芯片命名为“SDV”(Software Defined-Vehicle),主打软件定义汽车的理念。

同时,英特尔执行副总裁、客户端计算集团总经理 Michelle Johnston Holthaus还透露:核心Chiplet技术产品Arrow Lake处理器和Lunar Lake处理器将于2024年下半年上市。

3.潜入汽车的AMD

AMD在CES上宣布了口号与野心:Advancing AI PCs。此次,AMD着重升级了桌面APU产品线。推出了四款全新APU,统称为 Ryzen 8000G 系列。

它不仅展示了8000G系列APU和Radeon RX 7600 XT 16GB显卡,也在汽车领域有所作为。

AMD首款通过汽车认证的7nm器件,Versal AI Edge SoC引入了先进的AI引擎,能够优化包括前视摄像头、车舱内监控、激光雷达、4D雷达、环绕视图、自动泊车等在内的多种性能。

4.三星:世界首款!

三星和LG两家不约而同在CES 2024上推出透明屏幕,摸索着技术领域的潜力。

三星在CES2024上推出了世界上首款透明Micro led显示屏,两款彩色玻璃面板和一款完全透明的面板,能够提供高像素密度的清晰锐利的图像。

三星的透明屏主要利用了Micro LED技术,突破了传统OLED屏幕的能力,可以精确控制单个像素,并且受光的影响较小。 

虽然只是原型机的概念展示,但也给了现场亿点点震撼。

5.LG:透明大杀器来袭

同样是在CES2024上,LG亮相的大杀器则是无线透明OLED电视,不仅拥有4K画质、77英寸大屏,还具有无线特性。毫不夸张地说,购买者可以将这块屏幕放在家中任意位置,例如客厅原本放置屏风的地方,作为装饰品。

当进入AOD模式时,设备就可以作为一个动态艺术品融入家庭环境中,例如山水画、艺术品,乃至鱼缸……

此外,LG还将屏幕“平移”应用到汽车上,P2P P-OLED,可以将仪表盘使用的12.3英寸P-OLED和中央屏幕使用的34英寸P-OLED连接在一起,完全代替传统仪表盘。

6.TCL:屏幕又双叒叕变大

TCL作为本届CES中展区最大的中国企业,也展示了在屏幕方面的技术扩展。虽然没有类似的透明屏幕技术,却在原有的98英寸QD Mini LED电视的基础上,继续拓宽电视的边界,推出了全新的115英寸QD Mini LED产品QM891G。

全新产品QM891G也成为了当前尺寸最大的QD Mini LED电视。

如果只将其运用于家居或者商用,那就限制住了该项技术。TCL实验性地推出了42.7寸“超大异形车载一体式显示屏”,不但可以实现8k分辨率,还能实时捕捉驾驶员状态,以减少分心和事故。


3

生成式AI的科技与狠活

生成式AI成为了CES 2024的一大看点。生成式AI+万物=无处不在。

WeHead的另类显示器则将生成式AI拟人化,能够提供类似真人的“面对面”服务,以实现和用户的自发对话。该设备主要通过AI Agent控制3D设备、转动机器人头部、模仿人类交流以增强交互体验。

一直备受瞩目的VR、AR、XR,仍然是CES的重头戏,开始在更多新型场景尝试落地。

索尼推出了一款搭载智能控制环的“空间”VR耳机,包含新的XR头显和手柄设备,专为“空间内容创作”设计,用户可以在虚拟与现实之间自由切换。设备采用 Snapdragon XR2+ Gen 2 平台,搭载4K OLED 微显示器和视频透视功能的XR头戴式显示器。
索尼的首席执行官表示,这款产品专为从事 3D 工作的专业人士打造,可以通过将虚拟对象叠加到物理空间,以扩展创作思维。

TCL实业旗下雷鸟创新推出了第二代双目全彩MicroLED+衍射光波导 AR眼镜雷鸟X2 Lite,作为全球首款搭载第一代骁龙AR1平台的双目全彩AR眼镜,整机仅重约60g。

Solos推出了一款搭载ChatGPT的智能眼镜Solos AirGo3,以实现实时翻译的功能,得以实现跨国界无障碍交流。

Baracoda基于生成式AI,研发了全球首款智能镜子BMind,根据用户的精神面貌提供个性化的修养建议,例如光疗、冥想、自我肯定等,以实现情绪改善,精神感知。

生成式AI的“助手化”趋势也日益增强。如:梅赛德斯-奔驰推出了对话AI虚拟助手;大众汽车紧随其后宣布所有车型搭载ChatGPT;华硕手机加持生成式AI能力以提示语音搜索、壁纸更换;联想新品电脑支持智能助手配文、问答、交互等。

4

汽车与机器人的多种形态

机器人和汽车一直是技术应用的行业前沿领域。此次展览,许多意想不到的公司为汽车领域注入了新的活力。

CES 2024中,小鹏汇天此次参展的陆空一体式飞行汽车,面向未来立体交通而设计。在陆行模式下,机臂、旋翼等飞行系统可完全折叠收纳进车体内;通过折叠变形系统,可以打开机臂切换到飞行模式,在条件允许的环境下实现垂直起降,飞越拥堵、障碍、河流等,满足人们短距离低空出行的需求。此外,陆空一体式飞行汽车还采用了可折叠方向盘、透明仪表盘、驾驶舱透明底盘等前瞻“黑科技”,智能座舱可以在陆行模式与飞行模式之间自由切换。

一直为影音设备出名的索尼,此次在CES 2024中“毫不客气”地展示了智驾实力。

Afeela是索尼注入游戏思维的造车尝试。PS5手柄作方向盘、Epic Games的虚拟引擎5.3支撑超宽仪表显示屏、加入3D地图与本地影音游戏、摄像头。用户既是驾驶者,也是玩家,能够用操作手柄的方式开车,趣味性十足。

宇树科技作为国内的机器人领袖,展示了三款已经备受好评的机器人:消费级机器狗Go2,行业级机器狗B2,以及通用人形机器人H1。

消费级机器狗Go2,再次秀了一把中国实力,其价格设定也更偏向于消费级。现场带的原本仅用于展示的7套Go2,就被观众一天内直接买走了4件。并且,这类机器人可以用于电力巡检、环境探测、抢险救灾等场景。

现场体验过程中,机器狗和机器人的表现也格外引人注目。

RichTech Robots带来了会聊天的机器人咖啡师。接入ChatGPT以后,AI咖啡师不仅能现场制作咖啡,还可以根据识别到的人物身份进行沟通聊天。在和情侣面对面时,它还主动念了情诗。

法国机器人创企Enchanted推出的两款机器人Miroka和Miroki可用于医院和酒店配送、物流任务。

韩国机器人创企WiRobotics推出了一款内置个性化AI教练的超轻量步行辅助可穿戴机器人WIM,称这一设备能减少用户20%的步行能量,帮行动不便的人获得更好的锻炼体验。

CES(国际消费电子展)自1967年6月在纽约首次亮相,至今已57年。作为科技行业含金量满满的风向标,CES 既是一场技术盛会,也是一场研发者与消费者互动的平台。


无论是智能家居还是电子芯片,科技发展已然驶入快车道。占据主流的产品设计,将始终服务于人、思考于人、应用于人。科技无孔不入地为每个家庭提供便利。IPC首席经济学家Shawn DuBravac曾表示:“拥有改变生活想法的人,肯定会找到实现这些想法的方法。

创业者总能找到创新的地方。
路虽远,走在科技前沿、愉快地拥抱未来,一切都值得期待。

谷歌千人被裁引硅谷裁员潮!27家公司宣布裁员,90%大厂码农工作遭AI冲击

过去一年,AI大模型如火如荼的发展,让所有人憧憬着美好未来。

没想到2024年的开启,却是硅谷大裁员!

大厂谷歌却是首当其冲,裁员1000多人,涉及了核心工程、谷歌助理、Pixel手机等硬件团队的人员。

截至2023年9月30日,谷歌拥有18.2万名员工。此次裁员是继2023年开年裁掉12000人之后,最大规模的一次裁员。

同在今天,Meta的Ins团队裁掉60个技术项目经理,Discord裁员17%共170人,皮克斯传言将裁员20%约300人。就连刚刚成立的初创公司Humane都裁掉了10人。

据统计裁员数据网站Layoffs.fyi统计,目前已有27家公司在今年宣布了裁员,总人数达4500+人。

就近2年的情况来看,开年大裁员几乎快发展成了硅谷的惯例了。

去年新年刚过,也是各个大厂领头,大批硅谷程序员喜提「毕业」。

去年谷歌开年直接裁员12000人,今年的数字和去年相比,其实说明行情已经好转很多了。

相比谷歌针对常年做不出成绩部门的人员缩减,反而是像皮克斯,Discord这样的中小企业,因为行业发展收到新技术的冲击,或者整体上进行的控制成本式的裁员,更能说明整个科技行业依然走在下行过程中。

千人「毕业」,谷歌高管也在其中

ChatGPT诞生以来,谷歌便一直以追赶的脚步前进。

Bard、PaLM2、Gemini多模态模型等一系列发布,都在为了弥补与微软OpenAI的差距,这是注定是一场持久战。

在专注AI研发的同时降低支出,科技巨头谷歌也在周三加入了2024年的裁员潮。

三名知情人士表示,谷歌解雇了核心工程部门、谷歌助理——语音操作虚拟助手,以及制造Pixel手机、Fitbit手表和Nest恒温器的硬件部门的员工。

大多数硬件部门裁员,影响到了一个致力于研究增强现实(AR)技术的团队。

具体来说,这次裁员不仅包括普通员工,高管也在其中。

在谷歌向加利福尼亚州提交的文件显示,「本周该州有630名员工被解雇,其中包括4名副总裁和25名董事。据称,这些级别的员工通常年薪数百万美元」。

Fitbit的发言人证实,作为重组的一部分,Fitbit的联合创始人James Park和Eric Friedman也将离开谷歌。

谷歌曾在2019年,以21亿美元向这家智能手表公司提出收购要约。

2021年1月谷歌完成对Fitbit最终收购后,James Park继续担任Fitbit的副总裁兼总经理。随后,他为谷歌发布了Pixel Watch和Pixel Watch 2,最后一次亮相是在去年10月份。

据一名现任员工和一名前员工透露,今年的裁员是由副总裁和人力资源等较低级别的领导人传达的。

谷歌发言人在一份声明中表示:

我们正负责任地投资公司最大的优先事项和未来的重大机遇。在2023年下半年的裁员之后,一些团队正在继续进行这种组织变革,其中包括全球范围部分职位的裁减。

具体裁员人数曝出

谷歌在不同地区裁员人数具体是多少人?

外媒一篇报道,直接挖出了谷歌内部裁员的员工名单,细致到岗位、部门等等。

MountainView、旧金山和Sunnyvale共有702名员工受到影响,其中包括UI设计部的许多员工。

以下是根据提交给州政府的文件,按地点列出的旧金山湾区员工裁员名单:

查尔斯顿路1900、1945、1950、1965和2000:56名员工受到影响,其中包括一名主要产品运营人员、用户体验经理和设计师、产品经理和软件工程师。

1600 Amphitheatre Parkway:177名员工受到影响,包括软件工程总监和产品经理,以及数十名软件工程师和产品经理。

1200、1300、1400和1500 Crittenden Lane:63名员工受到影响,包括软件工程师、用户体验研究员和经理。

2019、2027、2029、2051、2061 Stierlin Court:68名员工受到影响,包括技术项目管理总监、硬件工程经理、电气工程师、机械工程师和技术项目经理。

325 Gladys Ave.:随着公司「停止运营」儿童中心,72名员工将从8月9日起被解雇。所有员工均为儿童保育员或中心教师。

旧金山(裁员时间为3月10日至5月26日)

55 Spear St.:42名员工受到影响,包括用户体验经理、设计师和工程师。

345 Spear St.:26名员工受到影响,其中包括2名产品管理总监、1名软件工程总监和1名软件专业化总监,外加1名销售副总裁。

215 Fremont St.:23名员工受到影响,其中包括1名硬件总监和用户体验总监,以及1名工程副总裁。

One Market St.:14名员工受到影响,其中包括1名产品分析总监和技术撰稿人。

Sunnyvale(裁员从3月10日开始)

1225, 1260 and 154 Crossman Ave.:102名员工受到影响,包括基础设施和数据中心运营总监,以及产品管理和软件工程。

225, 227, and 242 Humboldt Court:69名员工受到影响,其中大部分是软件工程师。

看得出,目前这些裁员名单还只是在加州的员工。

在「一亩三分地」论坛上,有网友表示自己作为谷歌助理团队一员被踩了。

对于裁员的补偿,一名匿名用户解释道:

准确说,不叫裁员,而是「取消岗位」,60天让每个人转组。实际上就等于裁员。

谷歌以「取消岗位」标准裁员,能够减少补偿支出。而这一标准包也比裁员的要差,先给2个月的工资,如果没有找到组的话给14+n weeks,也没有加速vest。

关闭幼儿园,缩减员工福利

这次裁员,还使得谷歌关闭了一个有300个学位,专门为员工提供服务的幼儿园,并解雇73名员工,砍掉了一个对于很多员工来说非常重要的福利。

幼儿园预计于今年8月关闭。失去日托服务可能对公司的在职父母及其招聘工作来说造成不小的影响,加上谷歌去年还削减了一些办公室的其他福利——免费更换硬件产品和办公室免费的零食供应。

在谷歌,CEO劈柴自2022年7月以来一直在推动公司,在全球经济状况恶化的情况下,突出重点减少开支。

2023年1月,谷歌曾裁减了6%的员工,即1.2万人,这是该公司进行的最大规模的裁员。在裁员之前,谷歌共雇用了19.07万名员工,还在全球还有数万名承包商。

自那以来,该公司的高管一直表示,他们将努力大幅降低成本,以专注于生成式人工智能领域。

截至9月30日,谷歌共有18.2万名员工。谷歌称,周三的裁员是正常业务过程中进行的一系列重组的一部分。

然而,代表谷歌母公司Alphabet 1400多名员工的Alphabet工人工会称,此次裁员是「不必要的」。

我们的团队成员每天都在努力工作,为我们的用户打造优秀的产品,公司不能在每个季度赚取数十亿美元的同时继续解雇我们的同事。

一些谷歌员工已经将1月,看作每年一次大规模裁员的「新传统」。

据谷歌透露,随着部门层面做出决定,预计整个1月还会有更多裁员。

Meta裁掉60名Ins技术项目经理

根据美国职场匿名曝料网站Blind曝料,Meta将Instagram的所有技术项目经理(technical program managers)都裁撤了,不过普通的产品经理没有受到影响,裁员人数大约在60人左右。

和谷歌一样,这个裁员的数量相比于去年,几乎可以忽略不计。

Meta在前年底和去年初经历2波史诗级裁员,裁掉了差不多21000名员工,小扎也不得不亲自发视频对裁掉的员工道歉。

而这次的裁员,根据曝料网站的成员来看,更像是因为技术的影响使得团队中的有些角色失去了存在的意义,从而被裁。

不过网友也认为,职场上每个人能否发挥作用和岗位有关,但是人的因素也很重要。

皮克斯裁员:传言整体裁撤20%

根据公司的消息人士表示,皮克斯裁员规模将高达20%,使得1300人的团队在未来几个月内减少到不到1000人。

而根据内部人士的曝料,作为迪士尼的子公司,被裁的很多皮克斯员工其实是属于迪士尼的流媒体部门,属于迪士尼的流媒体控制成本转向盈利计划的一部分。

而同时,因为皮克斯今年会缩减产出作品的数量,也导致了劳动力需求的降低。

值得注意的是,去年底,另一家动画公司梦工厂的联合创始人Jeffrey Katezenberg曾在公开场合表示,因为AI技术的发展,未来3年内动画行业的成本将会降低90%。

预言一出,这翻过年来皮克斯就来了一波20%的裁员,看来在不久的将来,动画制作行业的裁员依然还会继续。

其他公司加入裁员潮

除了以上的硅谷公司,还有一大批公司将在2024年初加入这波裁员潮。

3个月前,发布首款AI硬件AI Pin侧初创公司Humane,从硅谷获得2亿美金的融资,其中还包括Sam Altman

如今,AI Pin还未正式发货,这家由苹果前高管成立的公司宣布裁员4%,共有10人。

其中一位知情人士说,领导层最近告诉员工,今年的预算将会降低。

虽然该公司表示,这是更广泛重组的一部分,但这样的裁员并不能完全给予员工信心,尤其是考虑到公司的主要产品在去年推出后受到的困惑和质疑。

昨天,亚马逊正在裁员旗下Prime Video和亚马逊米高梅工作室(Amazon MGM Studios)的数百名员工。这是亚马逊自2022年11月开始大规模裁员以来,新一轮针对性裁员。

此外,社交软件Discord也宣布裁员17%,将影响到不同部门的170人。

据首席执行官Jason Citron向员工传达的信息,Discord并没有陷入严重的财务困境,尽管它尚未实现盈利。

Discord总共筹集了约10亿美元的资金。自从2021年拒绝了微软120亿美元的收购要约后,该公司就一直在考虑上市。

据一位熟悉内情的人士透露,该公司的资产负债表上有超过7亿美元的现金,目标是在今年实现盈利。

科技行业劳动力需求缩减,和AI有多大关系?

我们曾经报道过,在Blind和Motherboard最近组织的一项针对程序员的调查显示,90%的程序员认为现在找工作变得更难了。

而其中最主要的因素是由于,AI在代码能力上的突飞猛进,让科技公司对于初级程序员的需求有了明显的下降。

再叠加经济周期下行的因素,使得一直以来供不应求的程序员都出现了饱和。

曾任哈佛大学计算机科学教授、现为企业家的Matt Welsh向该杂志透露,由于AI能够很大程度上执行软件工程的工作,这可能导致软件行业除了最优秀的人才之外,大多数人的工作保障和薪资水平都会下降。

但是,人工智能编码平台Replit的CEO表示,这AI带来的变化对于程序员来说不一定是坏事,可能只是改变了程序员具体的工作内容,但是世界依然需要程序员。

可能不是在不久的将来——「编码」这个词将从词典中消失,因为编程将不再需要代码,而是使用计算机解决问题的纯粹行为,使越来越多的人能够使用计算机。

Replit只是触及了这项新技术的冰山一角。我认为ChatGPT将其提升到了另一个水平。我们现在正处于开发人员生产力另一次大幅跃升的开端。我认为生产力将会提高 10 倍到 100 倍。

世界上的程序员确实依然不够,他们非常昂贵。我们的编程效率越高,我们能够创建的软件就越多。人工智能助手可以帮助您调试代码,可以帮助您改进代码并重构代码,这将使软件开发生命周期的各个方面变得更好。在可访问性方面,我认为这将使人们更容易使用软件。

你会看到产品和前端工程师能够完成后端或全栈工程师过去可能做的很多工作。我认为这会给双方带来压力,这可能会影响软件工程师的就业,他们必须专业化。否则他们将不得不要么去构建产品,要么成为低级平台工程师。

他表示,拥有编码知识仍然是一项很好的技能,因为人工智能将有助于加快编程过程并打破进入计算机科学和行业的一些障碍。
随着人工智能融入编码,软件工程师的价值将更多地体现在构建新事物以及监督和管理代码的能力,而不仅仅是编写代码。
尽管进行了裁员等各种举措,当今世界仍然有很多软件职位空缺。硅谷一直在「囤积」有才华的员工。
但是不管怎样,编码工作可能很快会发生翻天覆地的变化,就像C++编码与汇编语言编码完全不同一样。
当计算机开始反过来和人交流时,这将对那些以编码为生的人产生巨大的影响。

大模型的商业价值来自AI原生应用体验的质变

当下要想让大模型性能继续提升,关键要素是什么?

在MEET2024智能未来大会现场,百度AI技术生态总经理马艳军以文心一言为例,全面介绍了知识增强大语言模型,还介绍了围绕大模型建设的生态以及未来发展趋势。

在他看来,大模型给应用体验带来了质的飞跃,应用体验只要提升了,未来肯定会有更大的商业价值。

据了解,百度还围绕着文心一言的基础模型文心大模型以及飞桨深度学习平台做出了一系列技术创新与产业实践。

在技术的不断变迁中,马艳军总结了大模型与此前AI技术的三大不同点:

一是颠覆了交互方式;二是大幅降低了AI开发门槛;三是大模型会催生AI原生应用

量子位在不改变原意的基础上,对演讲内容进行了编辑整理。

关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

演讲要点

  • 人工智能的关键基础能力是理解、生成、逻辑和记忆。大模型恰恰因为这几种能力强,所以人们对其关注度才如此之高,并认为是通向通用人工智能的曙光。
  • 大模型发展,如何使用数据,如何挖掘、分析、合成、标注、评估数据,整个闭环非常关键。
  • 大模型给应用体验带来了质的飞跃,应用体验只要提升了,未来肯定会有更大的商业价值。
  • 要想大模型效果更快提升,训练效率特别关键,软硬件协同优化非常重要。

(以下为演讲分享全文)

大模型技术越发标准化

今天跟大家的分享,将以文心一言为例,探讨知识增强大语言模型的技术创新与产业实践。

我先对文心一言做一个比较全面的介绍,然后介绍围绕着文心一言建设的整个大模型生态,以及未来会有什么样的发展趋势。

现在我们提到人工智能的应用,大家可能会想到很多词。有几个比较关键的基础能力:

理解、生成、逻辑和记忆。

一般来讲一个人工智能应用一般是这四个能力中一个或者几个的组合运用,最终形成好的人工智能应用。

大语言模型也恰恰是因为这几个方面的能力比较强,所以现在大家对它的关注度非常高,并且认为是有可能通向人工智能的曙光。

文心一言的建设,大家的关注度也非常高,首先是在底层有一个大的预训练模型,这块也是一个非常大的技术挑战。

现在随着大语言模型技术发展,实现方式也越来越标准化了,有监督的精调技术、基于人类反馈的强化学习、提示等等,这些是大家认为相对标准的一套技术。

在此基础之上,文心一言为了更好地提升回复的客观性以及时效性等一系列能力,百度专门在知识图谱注入、检索能力的引入、对话的连贯性等方面做了非常多的工作,让大家在使用的时候得到更好的体验。

文心大模型是文心一言背后的基础模型。我们2019年3月份发布了1.0版本,到今年10月份已经发展到4.0版本了。

大家如果有在使用文心一言,其中专业版背后的模型就是文心4.0。大家可能会感知到,随着4.0的上线,整个使用体验有了非常大幅的提升。它的理解能力、生成能力、逻辑能力、记忆能力,方方面面都有非常大的变化。

数据和对齐,前所未有的关键

研发期间,我们背后付出的努力还是非常大的。

首先依赖在底层资源上的巨大投入,需要在非常大的计算集群上做预训练模型的训练,基于大量的数据做训练学习。

另外,在算力之上,大家或许也都了解到,现在大模型的技术还是深度学习技术进一步发展的结果,其底层依然依赖深度学习框架和平台。

百度飞桨为大模型的训练提供了基础支撑,并且跟大规模计算集群进行联合优化、有机整合,把整个训练效率提了上来。

训练大模型,一方面是效果。要想得到好的效果,要想快点学好,训练效率特别关键,所以软硬件协同优化就显得非常重要

不可回避的,数据是大模型训练过程中必不可缺的一环。随着大模型的发展,数据本身的质量重要度越来越高,如何使用数据,如何挖掘分析、合成、标注、评估数据,整个闭环其实非常关键。

应该说人工智能发展这么多年,以前我们也说数据重要,尤其随着深度学习的发展,大家都会说数据特别重要,需要数据、算法、算力三驾马车。

但是前所未有的,数据从未像在大模型时间点上显得如此重要,不管是质量还是整个加工闭环,都成了整个大模型训练学习当中非常关键的一环。

还有对齐,大模型技术发展对对齐技术要求非常高,为什么这么讲?

“对齐”这个术语也是因为大模型的发展被广泛知晓。背后核心还是要让大模型学会按照人类希望的内容和方式进行回复。

如何让大模型有效地跟人的要求做好对齐?这背后其实有非常多的技术需要建设。

再有,针对这么大的模型,如何在训练过程中训到一定阶段之后,完成增量式的参数调优,节省训练资源和时间,加快模型迭代速度?

所有这些技术都是在大模型研发过程中我们需要突破的。

当然文心一言面向社会开放以来,得到了非常广泛的关注,现在的用户规模已经不止七千万(截至2023年底,文心一言用户规模已破亿)。大家如果是自己使用过文心一言,相信也一定能感受到这一年当中的快速进步。

应该说大模型发展,尤其是大语言模型的发展给我们创造了一些新的机会。

大模型带来的变化

那大模型跟以前一波一波的技术变化有什么区别呢?我觉得有这几个方面:

第一个是交互方式,这次真正有了一个颠覆式的变化。

以前我们也有对话系统也可以做人机对话,对话效果往往差强人意。你说它能不能回复呢?它也能回复得还可以,但总是距离我们的预期有差距。一旦达不到临界点,其实非常影响技术的普及。大模型技术的发展,尤其是大语言模型让普及加速。

另外降低了开发门槛

以前我们开发AI程序需要写非常多代码,写一个AI应用也需要非常多的代码,成本也非常高,大语言模型大幅降低了开发门槛。

三是大模型会催生AI原生应用。不仅是对产业应用有影响,其实对于科研,现在出现的AI for Science的趋势,也产生了非常大的影响。

所以在此驱使下,AI原生应用发展正迎来最好的时代,以大模型插件接入为基础,在此基础上进一步衍生出更强大的工具,基于这些能力必然会催生大量的AI原生应用。数字技术和实体世界加速连接与融合。

在百度大量产品当中,已经快速地在使用大语言模型来重构产品,整个产品使用体验也在快速地提升。

大家可以看一下,在办公场景、在程序员写代码的场景,大量的人工智能技术都可以使用起来。

比如说,一项最新的数据是,百度20%的代码都是由大模型,我们对应的工具叫Comate来实现的。

我们相信在未来的软件开发中,比较大比例的代码是由大模型帮我们实现的。

除了代码,像文档的分析等都能非常自然完成,大家可以感受到用了大模型之后,写作、做材料、做PPT效率会有非常大的提升,这是跟以前的技术很不一样的。

当然在商业分析决策等方面,借助大模型的交互能力也一样可以处理更加复杂的数据分析和任务处理。还有在百度网盘里面,可以用大模型唤醒历史上沉睡的大量的积累的图片、文档、各种各样的信息。

出行场景可以用智能助手能力更快帮我们实现交互,这些其实都是大模型所带来的产品体验方面质的飞跃。

应用体验只要提升了,未来肯定会带来更大的商业价值。

大模型对基础软硬件要求「极致」

大模型本身研发我前面也介绍了不少,确实是研发门槛比较高。

过去几年,一个企业研发的参数规模上亿的模型已经非常大了,成本很高。现在这几年发展不可同日而语,百亿参数规模大家都有点开始倾向于叫小模型了

整体来讲,它的研发成本依然是比较高的。模型体积、算力要求、数据要求都非常大,对基础软硬件的考验也非常大。必须得在基础软硬件这一层有非常强的支撑,才能真正把一个优秀的、效果好的大模型高效地训练出来。

对于基础软硬件的要求也是前所未有的高。

应该说,以前很多人工智能应用开发非常依赖基础软件,但是对它的要求没有那么极致,相对来讲算力规模没有那么大,整体数据量没那么大。

现在大模型很不一样,我们建设百度飞桨深度学习平台,是开源开放的平台,有非常多开发者都在使用,用基础软件来支撑现在大模型的整个开发训练,以及未来在大量应用当中的部署。

飞桨和文心通过联合优化,平台有效的训练时间做到98%,这是非常高的。

对于了解大模型训练特点的人而言,这么大的集群规模,98%的训练时间都是有效的,这是非常难的。另外整个推理性能也有非常大的提升。

当然了,我们在建设过程当中也非常期待跟生态伙伴一起推进,所以我们建设了星河社区,提供异构算力,提供一系列的包括飞桨和文心的基础能力,形成一站式综合服务的平台,让开发者能够在这个平台上进行交流、互相促进。

从整个生态来讲,飞桨和文心平台有1070万开发者(截至2023年底),整体来说和各类生态伙伴都有全面合作,包括芯片的合作伙伴、数据和技术的合作伙伴等等。

百度希望携手生态伙伴通力合作共创共赢,能够把大模型的技术能力更好地赋能千行百业的技术应用。

在12月28日举办的第十届WAVE SUMMIT深度学习开发者大会上,百度最新发布飞桨开源框架2.6版本和大模型重构的开发工具链,包括全新发布Comate AutoWork,飞桨低代码开发工具PaddleX v2.2,升级面向生态的文心一言开发机制,打造更智能、高效、低门槛的AI原生应用开发新范式,助力开发者把握大模型时代红利。

2023年冲出23家新晋AIGC独角兽:最高估值千亿,6家来自中国

生成式AI这把火在资本市场越烧越旺。根据智东西统计,2023年新晋的生成式AI和大模型领域相关独角兽达23家,国内新晋独角兽有6家,分别是智谱AI、MiniMax、百川智能、零一万物、智元机器人,以及已被收购的光年之外。这些独角兽企业涉及大语言模型、AI视频生成、垂直行业应用研发商以及GPU云服务提供商。

其中估值高于50亿美元的独角兽有3家,被称作OpenAI劲敌的Anthropic,估值排名第一达到184亿美元(折合约1315亿人民币),远高于排名第二GPU云服务提供商CoreWeave的70亿美元(折合约500亿人民币),Character.AI估值超50亿美元(折合约357亿人民币),排名第三。

不同赛道中,大语言模型赛道独角兽玩家达到一半有12家垂直行业应用为8家。从地域分布来看,美国创企占比近半共10家,其次为中国共6家。

在知名产业投资方中,海外有谷歌、亚马逊、Salesforce、英伟达等玩家高频出现,国内也有腾讯、阿里、小米、美团等知名科技巨头多次注资。2023年美团联合创始人王慧文创办的光年之外也已达到独角兽企业估值,但因王慧文离岗这家创企于2023年7月被美团收购,被收购时光年之外整体估值约为11.6亿美元

值得注意的是,2023年底,生成式AI和大模型领域多家创企传出新的融资动向,如主攻AI语音生成的Eleven Labs正在与风投机构谈判第三轮融资、马斯克创办的X.AI拟出售股份并募集10亿美元资金……这些创企极有可能率先成为2024年新晋生成式AI和大模型独角兽。

相比之下,2023年之前的AIGC及大模型相关独角兽仅有5家,2023年也成为独角兽大量涌现的关键之年。

01.11家大语言模型独角兽:最高估值近200亿,4个国内玩家在列

基于大语言模型,OpenAI打造的聊天机器人ChatGPT已经成为这一波AIGC浪潮的标志性事情。

在新晋独角兽中,主攻大语言模型研发的独角兽占比最高共11家,且估值超20亿美元的玩家就占到一半左右,Anthropic的估值高达184亿美元。

其中美国的独角兽玩家有4家,中国4家,以色列、法国、加拿大各1家。

1、Anthropic美国硅谷创企Anthropic成立于2021年,由阿莫迪兄妹从OpenAI出走创办。这家创企是OpenAI最大的劲敌之一,其估值已从2023年上半年的41亿美元增长至年底的184亿美元

Anthropic的核心产品就是聊天机器人Claude,Claude也经常被拿来与ChatGPT相比较,虽然总体性能有差距,但Claude在长文本处理等部分指标上已经超过GPT-4。与OpenAI背靠微软类似,这家创企还拿到了谷歌、亚马逊的巨额融资。近日,据外媒The Information报道,Anthropic预测2024年底其年化收入将超过8.5亿美元。据The Information援引知情人士消息,OpenAI年化收入2023年底已突破16亿美元。

2、Character.AICharacter.AI于2021年在美国成立,2023年3月其估值突破10亿美元,9月就被披露估值超50亿美元

这家创企的创始人是谷歌早期最重要员工之一诺姆·沙泽尔、谷歌AI大牛丹尼尔·德·弗雷塔斯,成立半年后就正式发布了聊天机器人Character.AI。Character.AI构建了一个AI角色扮演社区,用户可以和动漫人物、明星大佬甚至于自定义的各种角色交流对话。根据这家创企公布的数据显示,自2023年5月发布以来,其安卓下载量已经超过300万次。成立之初,沙泽尔就决定要让Character.AI聊天机器人的基本服务供所有人免费使用。

3、Inflection AI

Inflection AI是成立于2022年的美国创企,2022年初从微软等公司处筹集了2.25亿美元资金,当时未披露具体估值。一年后,这家创企拿到微软、英伟达等的13亿美元融资,估值达到40亿美元

其创始团队包括DeepMind的联合创始人穆斯塔法·苏莱曼,“硅谷人脉王”、领英创始人雷德·霍夫曼。不同于ChatGPT等产品的生产力工具定位,Pi就是个人的生活小助理,苏莱曼曾解释道,Pi可以在与对话的来回对话中越来越了解用户,相较于其它聊天机器人会更人性化。

4、Cohere

加拿大AI创企Cohere成立于2019年,创始人是曾在谷歌任职的Transformer论文合著者之一艾丹·戈麦斯。今年6月,Cohere拿到英伟达、甲骨文、Salesforce的融资,估值达到22亿美元,两个月后因老虎环球基金计划出售部分Cohere持股,该公司估值升至30亿美元。除此以外,AI明星科学家李飞飞、“深度学习三巨头之一”杰弗里·辛顿、吴恩达的第一位博士生Pieter Abbeel、谷歌等都纷纷为这家创企注资。

Cohere专注于面向开发者和企业,产品主要覆盖企业日常运营中的三个关键领域:文本生成、文本分类和文本检索。

5、Mistral AI

法国AI创企Mistral AI成立于2023年,6月份拿到1.05亿欧元融资,12月底就被曝出正处于从英伟达等投资者处筹集约4.5亿欧元的最后阶段,半年时间估值从2.6亿美元飙涨到20亿美元。Mistral AI由DeepMind和Meta公司的前研究人员组建,创始人曾主导Llama大语言模型开发。2023年9月,Mistral AI发布了首个大语言模型Mistral7B,该模型在当时被称为“最好的7B模型”,在多项基准测试中优于其它开源模型。

6、智谱AI成立于2019年的智谱AI是国内目前估值最高的大模型独角兽,也是国内首个估值过百亿人民币的大模型创企。2023年,这家创企已经累计获得超25亿元的融资,美团、蚂蚁、阿里、腾讯、小米、金山、红杉、高瓴等均在投资方之列。这家创企由清华大学计算机系知识工程实验室孵化而来,且核心团队大多都是悟道大模型的研发人员。早在2022年,智谱AI就开源了高精度双语千亿模型GLM-130B和60亿参数的ChatGLM-6B,2023年推出了全自研第三代基座大模型ChatGLM 3并宣布开源ChatGLM3-6B。

7、AI21 Labs成立于2017年的以色列创企AI21 Labs,到2023年底其总融资额已达3.36亿美元,整体估值达到14亿美元,投资方包含三星Next、英伟达、谷歌等。AI21 Labs的产品包括写作工具Wordtune、大语言模型Jurassic-1 Jumbo、可定制的大语言模型Jurassic-2。Wordtune的功能与ChatGPT基本一样,其客户包括耐克、Zoom、沃尔玛、三星、阿迪达斯等知名企业。Jurassic-2就是一个大语言模型,既可以作为基础模型,也可以为企业构建特定业务领域的专属“ChatGPT”。

8、MiniMax国内明星创企MiniMax成立于2021年,创始人是前商汤科技副总裁、通用智能技术负责人闫俊杰,技术合伙人杨斌为闫俊杰的中科院校友。今年6月,MiniMax拿到一笔总规模超2.5亿美元的融资,估值超过12亿美元。投资方包括腾讯、米哈游等。MiniMax目前已经推出自研角色扮演类AI聊天应用Glow、自研通用大模型ABAB,以及为金山办公等B端客户发布了相应解决方案。公开资料显示,该公司具备自研文本、语音等多模态融合的通用大模型能力。2023年12月底,MiniMax副总裁魏伟透露,MiniMax近期计划发布国内首个基于MoE(Mixture-of-Experts)架构的大模型,对标OpenAI GPT-4。

9、百川智能2023年4月,前搜狗CEO王小川、前搜狗COO茹立云联手成立国内大模型创企百川智能。1个月后,百川智能就拿到了来自腾讯、小米、金山、清华大学资产管理有限公司、好未来等十余家机构的联合投资,整体估值超10亿美元。半年内,百川智能已经发布超7款大模型,参数规模从10亿到超百亿不等,覆盖开源、闭源。

10、零一万物2023年7月,创新工场董事长兼CEO李开复创办国内大模型创企零一万物,联创团队成员包含前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco/副总裁等诸多头部玩家人才,整体估值超10亿美元。零一万物于2023年11月发布了首款开源中英双语大模型Yi,却使这家创企陷入“套壳”风波,有开发者质疑Yi完全使用了Llama的架构。随后零一万物发公告澄清,Yi完全不涉及套壳、抄袭。进行了版本更新后,Yi在多项大语言模型测评权威榜单的排名直追GPT-4。

11、Adept AI美国AI独角兽Adept AI成立于2021年,2023年3月拿到顶级风投Greylock与行业巨头微软、英伟达等的3.5亿美元融资,这家创企估值突破10亿美元。创始团队既有曾带队从事GPT-2、GPT-3研发工作的前OpenAI加州实验室工程副总裁戴维·栾,又有两位Transformer论文合著者阿希什·瓦斯瓦尼、尼基·帕玛。不过,这两位合著者此前已离开Adept AI。

Adept AI的产品与ChatGPT有所不同,基于其核心的ACT-1模型,可以根据用户指令调动一系列软件工具,从而协同执行复杂用户请求,这改变的是用户和机器人之间的交互方式。

2家AI视频生成独角兽英伟达、谷歌重金押注除了大语言模型,可以生成图片、视频、音频的多模态大模型在生成式AI市场里逐渐热络起来。文生视频方向共2家独角兽,Runway和Synthesia的估值分别为15亿和10亿美元。

1、Runway

美国AI创企Runway成立于2018年,2023年7月,在谷歌领投的D轮融资中募集到约1亿美元,估值达到15亿美元,半年时间翻了三倍。Runway已经发布了大约30余个AI创作工具,包含音频、图片、视频、3D和生成五个大类,涵盖了几乎所有的音视频内容生成和处理工具。其产品已经应用于多部好莱坞大片的特效制作。这家创企还参与了爆火的图片生成工具Stable Diffusion研发。2、Synthesia

Synthesia是一家成立于2017年的英国AI创企,2023年6月,该公司获得约9000万美元融资,估值达到10亿美元

也是AI视频创作平台,主要面向的是虚拟人视频,可以生成教学视频、员工培训视频等。

Synthesia主要专注于大型企业客户等B端客户,可以生成教学、员工培训等虚拟人视频。Synthesia CEO曾在博客中透露,财富100强中有35%的公司正在使用Synthesia进行培训和营销,并且有超过5万个团队使用这一工具大规模制作视频,节省了80%的预算。
03.“AI算力黄牛”获英伟达青睐与头部玩家“平起平坐”大模型引发的算力需求激增,其背后的云服务提供商也成为焦点,除了微软、谷歌、亚马逊等头部云服务提供商外,被英伟达青睐的创企CoreWeave已经化身“AI算力黄牛”,一举跃升独角兽,估值达到70亿美元

成立于2017年的美国创企CoreWeave,起家时为一家加密货币挖矿公司,2019年成功转型成云服务提供商,拿下微软、亚马逊、谷歌等玩家的巨额算力大单,为这些玩家提供大模型训练和推理算力。

同时,以英伟达H100芯片做抵押,CoreWeave还拿到23亿美元的债务融资方案。CoreWeave创始人之一Brannin McBee在今年8月的采访中透露,2022年,该公司收入约有3000万美元,预计2023年将超过5亿美元,同比暴涨1567%。

8家AIGC垂直行业应用独角兽:美国企业占一半,国内机器人玩家闯入在大模型之上,诸多玩家选择面向特定的垂直行业、应用进行研发,进一步针对用户使用中的痛点发挥生成式AI的更大价值,其中不乏金融、企业搜索、医疗、配音、翻译等。2023年新晋独角兽中,8类玩家都针对于不同的行业未有交叉,从地域分布来看美国有4家,德国有2家,分别为AI翻译和军事分析领域。中国还有一家人形机器人创企智元机器人,已经在大语言模型与机器人的结合上有所进展。

1、Glean(搜索)美国AI创企Glean成立于2019年,该公司正在洽谈至少2亿美元融资,投前估值达到20亿美元,相比2022年5月估值上涨200%。

Glean的创始人Arvind Jain是前谷歌搜索的工程师,其产品是为企业构建内部的搜索引擎,搜索公司内容的应用程序、内容资源,来帮人们找到所需的信息。

这家创企已经积累了200多家企业客户,包括Databricks、Niantic、T-Mobile等,并且这些企业中已经有大约40%客户员工每天都在使用Glean。

2、Helsing(国防)

成立于2021年的德国创企Helsing是一家国防科技企业。

2021年,Helsing在A轮中获得Spotify创办人Daniel Ek所共同创立的创投公司Prima Materia 1亿欧元投资。2023年完成了2.09亿欧元B轮募集资金,成为当时欧洲最大的AI创企,估值达到18亿美元

Helsing的产品主要为军事任务服务,例如将军事硬件设备连接AI,从而将其接收到的红外线、传感器等数据进行分析。

3、Quantexa(金融)2016年成立的英国独角兽Quantexa,2023年4月获得1.29亿美元E轮融资后跃升独角兽,估值达到18亿美元,也是2023年英国首个新晋独角兽。

Quantexa打造的生成式AI助手Q Assist就可以让用户通过自然语言,快速帮助用户查询,从而帮助金融公司规避风险。

目前,纽约银行、汇丰银行、渣打银行、丹麦银行等大型金融机构都是其客户,该公司还将与谷歌、埃森哲、德勤等合作。

其创始人预计,2024年该公司收入将达到1亿美元,2025年实现盈利。

4、Replit(编程)美国AI创企Replit由曾在Meta任职的阿姆贾德·马萨德于2016年创立。2023年4月,这家创企拿到9740万美元B轮融资,估值增长至11.6亿美元。GitHub发布了Copilot X为开发者提供软件开发平台后,谷歌就选择联手Replit升级AI辅助编程工具Ghostwriter。Ghostwriter是Replit 2022年发布的产品,支持16种语言。Replit的产品既可以为初学者提供简单的开发工具,让其快速上手,也可以为有经验的开发者提供协作开发测试的工具。2023年4月,该公司还发布了自己的编码大模型replit-code-v1-3b。

5、Imbue(AI Agent)

美国AI创企Imbue成立于2021年,目前手握1万张英伟达H100芯片,并获得了英伟达等投资者的2亿美元融资,估值已经超过10亿美元

这家创企的重点是构建具有推理能力的AI Agent,不过目前还没有发布任何产品。但其创始人坦言,Imbue的产品距离真正商业化落地还需要数年。Imbue的最大投资人、亿万富豪Jed McCaleb称,自己在看完Qiu和Albrecht建立AI智能体的PPT后,觉得非常满意,因此大手一挥,拍板决定投资。

6、Typeface(营销)

Typeface成立于2022年9月,创始人阿布海·帕拉斯尼斯曾先后任职于微软、甲骨文、Adobe,从0到1主导搭建了微软的云计算业务、领导了Adobe的智能化转型。2023年,该公司连拿2笔融资,估值跃升至10亿美元,投资方有Salesforce Ventures、谷歌投资、微软旗下风险基金M12等。

这家创企的主要业务是基于GPT-3.5和Stable Diffusion 2.0模型开发企业级生成式AI应用程序,提供通过文本快速自动生成营销内容和图片的平台和工具。

7、智元机器人(机器人)成立于2023年的国内明星创企智元机器人,由前华为“天才少年”、华为计算产品线昇腾部门算法工程师稚晖君(原名彭志辉)创办。成立9个月内,智元机器人就连拿5轮融资,投资方阵容集结了百度、比亚迪、奇绩创坛等。2023年12月完成的A3轮融资,金额或超过6亿元。智元机器人在2023年8月发布了首款产品“远征A1,稚晖君透露,这一机器人基于大语言模型以及公司自研的视觉控制模型完成了一系列创新,预计2024年产品会推向商业化落地。

8、DeepL(翻译)DeepL是一家德国创企,成立于2009年。2023年1月,该公司宣布完成1亿美元融资,估值超过10亿美元。该公司的产品是AI翻译工具支持中文、英语、德语、法语、日语等20+语言的翻译。2017年产品发布之初,该公司的盲测结果显示,其翻译器表现远超谷歌、微软、Meta等竞争对手,BLEU测试的结果也是如此。2023年1月,DeepL发布AI写作助手,能够调整用户上传的德文、英文写作内容。

DeepL的官网显示,目前该公司的用户已经达到百万级,并有超20000家企业正使用这一平台。

05.结语:2023年冲出的独角兽为大模型战局注入新动能大模型及生成式AI独角兽企业已经成为产业界关注的焦点,凭借着明星创始团队以及有广阔应用前景的工具,获得各路资本青睐。从大模型、聊天机器人到面向各行各业的垂直应用方案、AI算力提供商,独角兽玩家的成长之路不断加速。可以看到,以英伟达、谷歌、微软、腾讯、阿里等为代表的科技巨头玩家也是这些独角兽玩家进阶的重要推动者,与其它风投机构不同,这些玩家身处行业之中,其一举一动都牵动着科技界的神经。尽管目前来看,OpenAI这一标志性领军企业的优势性还没有企业可以比拟,但随着资金落地,这些独角兽玩家或许会在2024年迸发出更大的生命力,逐渐上升到能与OpenAI一较高下的地位。

2024,如何构建企业的AI营销战略?

在2024年谈增长离不开AI这个关键词。

一项名为《2023AI营销现状》的报告面向900位增长责任人展开调研,其中包含约300位CEO、CMO,他们中约90%认为在未来12个月内AI对于营销来说颇为重要。

但在让AI真正驱动增长的过程中,企业也面临很多现实的困境,比如超半数的营销人认为他们还不是很了解AI,44%的被访者认为企业还没有真正的AI营销战略。

来自杜克大学的教授卡尔·梅拉就曾在《哈佛商业评论》发表文章指出,很多营销技术就像是“亮闪闪的新东西”。企业对AI等营销新技术的投入更像是在装点门面,很少能真正激发它们的价值。而要解决这一难题,需要做好两件事:“解构”增长路径,让关键业务环节更好地与技术相配合;“构建”多元技术能力,并确保其作为一个完整的系统发挥作用。

大模型阶段下,AI能帮企业做些什么

从前台应用看向后台基建,想让AI真正发挥价值,企业需要主动识别出业务增长的关键节点,并探索在这些节点中,AI能如何发挥作用,提升增长效率。纵览目前发布的一些商用AI大模型,AI正在提升人货匹配效率、提升消费者的持续连接能力,提升经营效率方面发挥作用:

更好地理解商品,提升人货匹配效率。

你觉得投放一波广告需要准备多少套投放方案?100个够不够多?实际上,有些企业会准备多达4000个投放方案,广告素材在产品价格、配色、文案等元素上进行微调,搭配不同的通路、人群,就想看看哪个效果好。这其实是企业追求更精准的人货匹配的表现,听起来挺科学,但显然需要耗费大量的人力物力。

但如果AI介入了这一环节呢?

AI之于营销的一大价值在于高效处理更大规模的数据,发现其中暗藏的关联,并自动化地完成一些基础的操作。企业不需要准备上千个方案,基于大模型数据信息的处理能力,在广告主补充输入商品信息后,系统能够对所投放的商品进行更加深入的理解,并由此进行更加高效的人货匹配。就如同那个“啤酒和尿布”的经典营销故事,两种看起来毫不相关的产品摆放在一起,却能大大提升销量,其背后便是数据洞察推动人货匹配的结果。

如今,不少企业正在受益于AI大模型助力下的人货匹配提效。比如腾讯广告曾公布过一些案例的数据,通过人货匹配,某服饰品牌下单平均起量速度提升180%,下单成本环比降低18%,销售额更环比提升260%;某美妆品配将流量引导至视频号品牌直播间,直播间广告ROI提升1.5倍。

当然,为了更好地实现“懂人,懂货,懂匹配”,企业也需要更积极地“喂养”AI,比如在广告系统中建立好商品库,让AI知道售卖的商品是什么,有哪些基础的特征;另外,企业在一方数据及时上报的基础上,亦可与平台方展开更定制化的合作,这将有助于AI大模型更好地理解企业,从而进一步提升系统匹配效率。

腾讯公司副总裁蒋杰近期在腾讯智慧营销峰会上就分享了一组数据,腾讯广告的大盘数据显示,在转向基于标准化商品库的全面商品化策略后,广告主的广告起量率提升10%,消耗规模提升12%,通俗来说就是在预期的ROI标准下,广告触达的用户、展现数量等大幅提升。

更好地理解人,提升消费者持续连接能力。

很多企业都有金牌销售,凭借着对用户的深度理解和优秀的沟通能力,他们能够为用户提供更加优质的服务、高效地促成下单转化。对于企业来说,如何培养更多的“金牌销售”、提升整体客户服务水平,以促进生意增长?AI在这之中大有可为。一方面,AI能够快速提供经过智能运算后的话术参考,在它的辅助下,客服与用户的沟通将更加顺畅;另一方面,基于自动打标,系统能够对大量数据进行高效可靠的分类处理与建模学习,以系统底层能力提升助力销售与服务环节的大幅提效。

当然,AI对人的理解并不仅仅影响销售服务环节,特别是在用户消费心智逐渐成熟的当下,消费决策的过程变得复杂而长期,据调研,市场大概有70%的用户需要长期培育,最后才会发生转化,企业与消费者的沟通也变成一个颇为复杂的过程,全链路、全周期的用户关系运营成为必然。而基于对人的理解,AI可以高效、自动化地追踪和串联起用户决策的流程,从而形成一套用户线索经营的矩阵。

蒋杰提到,随着底层系统的智能化焕新,腾讯广告以技术能力加持,打造了一套覆盖线索全场景、全周期的营销体系。这一体系从广开口,实现更多曝光触达开始,到多链路吸引用户进行浅层互动,再到提后效的留资、下单,最终落地到私域体系内实现用户的深度共鸣与长效经营,AI大模型都提供技术助力,通过对消费者的深度理解实现营销提效。实际上,腾讯广告一直强调“全域经营”理念,而这一套体系正是AI赋能之下的升级版全域经营矩阵,通过AI提升全域中每一触点的智能化水平,并通过统一的大模型统揽全域营销流程与消费者的全域流转,真正构建起一套以消费者为核心的智能化的营销体系。

目前,在这一体系的加持下,不少企业已经收获了实际的增长,比如某教育品牌的首次参课率提升23%,同时首次参课成本下降22%;而某大健康品牌的开口(曝光)成本下降了17%,同时加粉转化提升33%。

更好地理解商业,提升经营效能。

技术层面的升级只是进化的必要条件之一,将行业经验、商业敏锐度融入大模型中,不断基于特定的行业现状、行业需求调教大模型,企业才能得到一个更加贴心的AI营销助手。

以游戏行业为例,大众可能只看到“是兄弟就来砍我”的大曝光时刻,但一款游戏的营销也要经历复杂的周期。比如小游戏就会经历测试期到推广期再到召回期,比如游戏App会经历封测、预约、首发、平推、版更/周年庆等阶段。每一阶段的营销诉求不同,资源配置不同,营销策略也千差万别。在复杂的营销周期中,AI大模型对抗熵增,提升营销确定性的价值便体现出来。

一方面通过大数据洞察,企业可以实现更确定的冷启动,面向谁、展现怎样的玩法特点、启用谁为代言人等等,AI大模型会告诉你更多的洞察观点。而在投放过程中,一些智能的投放工具可以结合投放效果敏捷调整投放方案,减少人工干预,自动优化提速。另外,诸如腾讯广告游速通等全生命周期营销解决方案,还会基于游戏行业特征进行深度的模型优化,让AI大模型更加理解游戏产品的特征、营销阶段与营销诉求,实现大模型助力下的营销提效。游速通侧公开的某游戏产品投放数据显示,技术助力下,该游戏起量率较传统新游提升30%,预约激活提升23%,同时激活成本下降19%。

当然,不只游戏行业,营销大模型也正在尝试与更多的行业经验相结合,实现更加垂直深度的营销赋能。就像AI发展趋势的预测中,垂直大模型将成为大模型应用的主流方式,更加深度结合行业经验的营销大模型,也将更好地实现营销的赋能。


打造系统性的AI基建

在应用层,AI大模型的能力正在逐步拓展。而在基建层,平台与企业也需要进行系统性的布局,以确保AI能够融入营销全流程,系统性地发挥作用。在这一过程中,企业需要特别关注的是系统性这一概念。一方面,在整个营销体系中,企业往往较为关注智能投放领域的工具引进,但要真正形成智能化的营销系统,企业还需关注在智能创意、智能诊断能力上的部署;另一方面,工具之间能否进行有效的“对话”,形成顺畅的创意投放验证体系也是需要关注的话题。

不久前,腾讯广告发布了一站式AI广告创意平台“腾讯广告妙思”,在打造这一产品的过程中,蒋杰就指出能够自动化生成创意素材的AI工具其实并不少,但如何让创意贴近投放,做到“从广告诉求出发”、“更有原生感”,却是需要被攻克的课题。

一个简单的例子是,一些非广告专用的AI创意工具生成的图片总带有一些“艺术的朦胧感”,色调可能偏暗,或者多少带点西式审美的特质,这样的素材并不适合国内的广告投放。通过腾讯广告的数据积淀,妙思会了解到那些更明亮的,融入东方审美元素的素材会带来更好的投放效果,也由此避免在创意生成的过程中“走弯路”,直接产出更能推动广告提效的广告素材。另外,腾讯广告妙思还与广告投放流程紧密结合,对产出素材直接进行自动化机器审核,通过“创意生成-一站式审核-广告投放”的链路打通,减少动辄数小时的审核过程,将技术提效应用到每一个关键环节。

这便是系统性带来的优势,当服务各环节的AI工具能够基于一套底层大模型,各环节间的经验能够互联互通,一同服务于足够明确的商业目标,系统整体的效率便会明显提升。

为了进一步提升系统的整体效率,腾讯广告还着重打造了智能诊断的能力。这对企业来说就像是给复杂的AI营销系统装上了“导航”,能够识别障碍在哪里,并实时根据接收到的“路况”信息不断规划最优路径。在广告的创建期,企业可以获得优化建议,对投放效果建立起初步预期;投放时可获得投放的预判、预警;投放后也可以通过系统诊断与操作评估进行更有针对性的复盘,为下一次投放优化做好准备。

可以看到,在腾讯的体系内,大模型针对广告场景进行了系统性的部署,形成了深度垂直的能力。发起于《哈佛商业评论》中文版的新增长年度榜单评选中,蒋杰入选“2023中国新增长·先锋人物榜”,也正是因为其“决意要离业务更近,让AI、大数据的能量在应用中释放”。

2023年,蒋杰在2023腾讯数字生态大会上携腾讯混元大模型正式亮相。作为一款“从实践中来,到实践中去”的实用级大模型,腾讯混元目前已与超过300个腾讯内部业务对接。而在广告业务场景中,基于对广告真实诉求的理解,蒋杰也带领团队推进了一系列技术升级,大幅提升了广告推荐效率,助力企业降本增效。为了提升大模型的易用性,以及进一步提升效率,腾讯广告也在整合统一包括数据、策略、特征、模型到资金计费系统等模块之后,让广告系统真正成为“一盘棋”。

在平台侧系统性AI基建不断完善的同时,企业侧也需要进行相应的部署,除了必然的引入更多AI工具、培训新型人才体系之外,构建具有开放性的AI应用架构是更具挑战性的一环。在谈及AI营销未来进化空间时,蒋杰不断提及希望能与企业展开更多合作,共同推动大模型基建的持续优化。

事实上,在平台方、技术供应商提供了通用大模型的基础能力后,需要不断引入行业经验加以调教才让大模型的能力更贴近应用的场景和具体需求;而打破围墙花园,构建开放网络,推动数据合作,才能让大模型进一步理解广告效果的全貌,从而给出更加科学的决策建议。

当然,这样的体系搭建并非一夕之功,大模型的训练与商业应用也必然是一场持久战,企业需要以长期主义思维进行持续的关注、学习与投入,也需要秉持技术的开放心态,共同应对AI时代的新挑战。

人工智能如何应用于网红营销?有哪些打法和挑战?

自问世以来,ChatGPT凭借其卓越的自然语言处理和对话生成能力,无疑成为了当红的“流量话题”。

与此同时,ChatGPT的不断升级和网红经济的快速发展,也让人工智能在网红营销领域也逐渐受到关注和应用。品牌和营销机构纷纷将AI技术引入到他们的宣传策略和推广活动中,以期为企业带来更多的商业价值和市场竞争力。

那么,在网红营销领域AI能够协助出海品牌做哪些工作?它的局限是什么?

人工智能如何应用于网红营销?

1.发现和研究网红

对于出海品牌而言,他们在选择影响者时必须考虑许多指标:

  • 粉丝数量
  • 帖子收到的点赞和评论数量
  • 帖子的类型
  • 网红的背景
  • 网红使用的社交媒体平台
  • 网红的粉丝类型

而人工智能工具可以帮助品牌发现网红并在选择之前对其进行彻底研究,包括根据粉丝人口统计、兴趣、品牌亲和力等帮助识别相关影响者。它还可以检测假粉或假的互动数据,保护品牌免受欺诈性数据的侵害。

随着人工智能更有能力为品牌活动推荐最匹配的影响者,这种使用人工智能选择影响者的趋势将在未来变得更加主流。

2.与虚拟网红合作

随着名人和社交媒体影响者市场成本的不断增长,虚拟网红现在被视为具有成本效益的替代品,具有显着回报的潜力(如果想要知道虚拟网红为什么这么火,可以查看Inpander的另一篇文章《“假人”带货比真人强?虚拟网红的魅力在哪里?》)。

比如,像 Miquela 这样的虚拟影响者就比真正的影响者更加活跃。她积极与 Calvin Klein、Prada 和 Samsung 等品牌合作,甚至发行了自己的音乐并出现在杂志中。

未来,这些虚拟影响者的外观和交互性将变得更加普遍和真实。它们还将变得更加专业化和利基化,以满足特定社区的需求。

3.获取有关Hashtag的帮助

每个网红营销活动都使用相关的主题标签,这需要进行一些研究。

例如,除了品牌主题标签外,您可能还需要一些行业特定的Hashtag,而 ChatGPT 可以为您提供这些标签。它还可以提供相关的趋势标签列表,但要仔细检查它们以确保它们是合适的。

4.自动生成网红邀约文案

为了从网红营销活动中获得最大收益和降低成本,人工智能可以帮您解决自动文案模版以及与提高网红沟通的效率。

例如,您可以将其添加到时事通讯中或通过电子邮件将其作为网红沟通的信息模版。当您这样做时,可以要求ChatGPT为实时通讯或电子邮件写一段文案或者新闻。

不过,要注意的是,网红营销的吸引力在于它的真实性和独创性。因此,请不要在在网红的内容创意中使用机器生成的文案,这可能会削弱KOL的真实声音,变得千篇一律。

5.把控网红营销时间节点

在开展海外网红营销活动时,运营人员需要确定活动的开始和结束日期,查看指标和参与率,跟踪每个网红制作的内容,并将实际结果与初始目标进行比较。

使用AI工具,我们就可以将这些数据记录在案,并且利用AI强大的数据分析能力,改进活动方案,从而提升整个海外网红营销活动效果。

6.检查活动指标并评估ROI

由于每个营销活动包含的帖子数量众多,拥有多个营销活动的品牌可能会发现很难监控其营销活动的效果。此外,当品牌与多个网红合作时,跟踪每次合作的ROI变得很困难。

人工智能工具可以帮助品牌实时监控各个营销活动的表现。他们帮助社交媒体报道和分析。例如,Upfluence 可以帮助您实时衡量重要指标,例如覆盖范围、参与度、关注者增长、展示次数和转化率。

这些活动的监控将完全由人工智能监控,它不仅能够提供报告,还可以通过用更匹配的影响者替换特定的影响者来提供改善个别活动绩效的建议。

02

人工智能在网红营销中的局限

1.跨文化语境理解挑战

虽然ChatGPT在语言理解方面表现优秀,但在理解语境、情境、情感和社交线索方面与人类相比仍有差距,在处理跨文化、跨地区的语境时可能出现误解,导致生成内容无法满足目标受众的期望和习惯,从而影响用户体验。

2.创意与原创性受限

ChatGPT在创意生成过程中,可能因受训练数据影响而模仿现有创意或模式,导致生成内容缺乏新颖性。

3.数据安全隐患

ChatGPT在内容生成过程中,有可能无意中泄露相关敏感信息,引发隐私问题和法律风险。

4.过度依赖AI技术风险

营销人员若过分依赖ChatGPT等AI技术,可能导致忽视人类创造力和情感智慧等的重要性,从而影响营销活动的效果和可持续性。

毫无疑问,网红营销领域将迎来一场惊心动魄的旅程。这是一个不断发展的世界,新的策略和AI驱动的进展将塑造前方的道路。

但如果你的团队仍然觉得这对你们来说太过于繁琐,也可以聘请对本地文化、语言及发展趋势的专业人士或者营销机构来制作对应的网红营销推广策略和方案,比如说Inpander,我们提供丰富的红人资源渠道、定制化的解决方案以及从沟通、落地到数据复盘的全流程服务,如果您感兴趣,欢迎与我们联系~

钉钉的AI Agent魔盒

笃信AI的人,都在等一个AI的“App Store”时刻。

这是因为,苹果公司凭借App Store,塑造了移动互联网时代的软件生态。到了AI时代,AI信徒们就开始急切盼望出现一个属于AI的App Store,来定型未来的AI生态。

去年OpenAI用GPT点燃了AI Agent这把火以后,人们纷纷猜测,AI Agent会不会就是开启“App Store”时刻的关键?因为AI Agent让未来AI的形态,变得比以往任何时候更加清晰。

2024年1月9日,钉钉推出AI Agent落地实例“AI超级助理”,宣布将在今年4月份上线AI助理市场AI Agent Store,同时邀请开发者加入到钉钉的“AI Agent Store”生态中,并立下了“3年1000万个AI超级助理”的flag,致力成为AI Agent孵化、分发和交易平台。

发布会上,钉钉还用“7亿用户联合抵制”的来电海报,Callback了去年宣布用户突破6亿后,全网用户齐刷“6亿用户全抵制”的梗。

这个“3年1000万”是什么概念呢?

2008年苹果App Store携带500款应用上线,截至2022年4月29日,苹果商店(中国区)APP数量131万款。也就是说,别人14年达成的应用数量,钉钉想在3年内达成,并且翻8倍。

这个flag是不是立的太草率了?到底是什么原因让钉钉的野心如此膨胀?

先瘦身让用户不那么讨厌钉钉

钉钉自己很清楚,打工人不喜欢钉钉。

用过ToB软件的人都知道,这类软件有一个共同特点:功能繁杂、界面不美观、操作体验差,而且体积通常都很大,看起来就让人觉得臃肿、繁琐。

在1月9日发布会现场展示的一段视频中,一位up主给钉钉算了一笔账:在钉钉首页可以直接点击的按钮就有32个,算上浮层、子菜单等,光首页就包含了近100个功能按钮。

钉钉作为一个ToB应用,走向臃肿是一个不可逆的过程。

但和纯ToB应用不同的是,钉钉同时也是一款ToC应用。也就是说,无论是B端还是C端用户,钉钉全想要,同时也意味着,钉钉团队要挨两端用户的骂,尤其是小学生的骂。

B端用户来说,永远都有增加新功能的需求;对C端用户来说,永远觉得钉钉功能太多了。但两端用户都有一个共识:那就是大部分功能用不到,需要用到的功能则经常找不到。

从三年前做深价值进入业务场景开始,钉钉就一直在投入大量产品经理,试图通过产品设计,让钉钉变得简单易用。从实际效果来看,吐槽钉钉难用的声音并没有减弱,100多个功能按钮,依然没办法精简到10个。

直到AI Agent的出现。

站在具体使用者的角度,我并不需要在一大堆功能按钮里找出对应的那一个,只需要对着一个“超级助理”,说出自己的任务即可,至于怎么找到对应的功能,让AI去想办法。

在AI助理的功能演示中,用户可以像对待真人助理一样,对AI提出任务需求,比如设置铃声、打开邮箱写邮件、签到、预订酒店机票等,AI助理会主动把对应的功能推到用户手边。

叶军表示,随着AI Agent的不断完善,用户终有一天将获得一个没有菜单的钉钉。

站在用户角度来看,这不就是瘦身成功了吗?

但,钉钉要做的,远不止如此。

AI“更喜欢”臃肿

AI能够达到今天的成就,关键在于大模型、大数据。

也就是说,一个产品能覆盖的场景越丰富,AI Agent的辅助能力就越强,在面对差异化用户需求时的响应速度就越快,产品带给用户的“臃肿”感就越弱。

在AI的加持下,前台用户只会感知到和自己当前项目相关的功能,其它功能被AI隐藏了起来,使得用户不再迷失于100个功能按钮的海洋中。

例如,AI超级助理在辅助内容创业者获取灵感、补全素材时,创作者不需要从头开始去训练AI Agent进行剧本创作、分镜脚本、拍摄计划等,AI会根据自己已“掌握”的视频创作场景的需求,为用户提供对应的服务。

AI超级助理也可以将冗长的文字、语音、视频内容中的关键信息提取出来,浓缩成简短的要点总结。

那么AI是如何识别出哪些内容是要点,哪些内容是铺垫呢?

当然是依靠大数据和丰富的应用场景。而大数据又进一步加快了AI进化的速度,使其可以突破固有场景的限制,渗透到更多新场景中。

如今,AI超级助理不光可以服务职业人士,还可以应用到家长和孩子的教育中。发布会现场演示了给孩子批改作文的操作,可以看到AI既可以识别手写内容,还可以给出分析和指导,并对错字错词以及优秀佳句进行标注和解读,告诉孩子错字错在哪里、佳句好在哪里。

如果你愿意,甚至可以让AI成为你的生活助理。

如今,钉钉走到了第九个年头。也就是说,九年里积累的大量数据和应用场景,都成为了现在AI的养料。这样一来,“臃肿”反而不再是负担,而是具备了成为“数字资产”的潜力。

如果钉钉的AI Agent仅仅是做到了这样的程度,那它顶多是一个让C端用户更好用的优化版而已。实际上,钉钉的野心,是创造一个全新的生态系统。

“敲一敲”能敲开AI Agent Store的野心吗

一个很严肃的产品发布会,却以一个很不严肃的小应用作为开场。

解压小应用“敲一敲”,功能类似“线上功德APP”,敲一下会冒出一个梗词,同时还会给用户积分,可以用来兑换奖品。

实际上,这个小应用承担的使命,很像当年微信的“跳一跳”小游戏。目的是告诉大家,钉钉将在4月份正式上线AI Agent Store,欢迎开发者入驻并发布更多应用。

通过这个有点搞笑的小应用,钉钉向开发者传递了一个信息,那就是现在的AI Agent Store,门槛低、宽容度高,只要开发者有创意,就可以向钉钉提交应用。毕竟,能比“敲一敲”开发成本更低、更无厘头的应用,确实也不多见。

这就是钉钉下一步最大的野心:打造“AI助理+AI Agent Store”的完整链路,让每个人都成为AI助理的创建者,甚至都可以从中赚取分成。

在叶军看来,AI Agent会成为新SaaS的主要形态。

以前,不同的应用场景下需要打开不同的SaaS产品和APP,而AI Agent可以让企业通过调用多项AI能力,批量完成业务流程、组织管理、知识库管理等操作,并且可以和外部系统进行自动化交互。

而随着社会的发展,社会分工越来越细化,原本的大协同、巨型ERP,被打散成一个个小协同、小功能,当前的“人找功能”的逻辑,将会在AI Agent影响下,变成“功能找人”。人机交互也会从图形界面(GUI),向自然语言界面(LUI)转变,届时功能菜单也会被AI助理所替代。

这就意味着,当需求和场景越来越碎片化,就需要有足够多的AI助理来应对,进而需要更多的AI助理创建者。

在钉钉AI Agent Store的逻辑中,一个人既可以是AI助理的使用者,让AI助理为自己服务;也可以将AI助理发布到AI Agent Store上,为更多人服务。于是,用户被黏在AI Agent Store中,成为钉钉生态的一部分。

用叶军的话说,“过去大家总说钉钉服务老板,现在每个人都可以是老板了。”

如今,钉钉用户数7亿,企业用户2500万,付费DAU为2800万,软件付费企业数12万,AI魔法棒企业用户超过70万,低代码应用超1000万,全代码应用数超100万。

未来,钉钉要成为低门槛、高频和开放的AI智能助理平台。

AI浪潮席卷之下的竞争,正在变得越来越激烈。钉钉能否实现今天立下的flag,甚至能否因此而真正开启AI Agent的“App Store”时刻?

让我们拭目以待吧。

人工智能时代的领跑者:你必须了解的全球三大AI聊天机器人!

一些结论

  1. 2022年9月至2023年8月,前50大AI工具吸引了超过240亿次访问。
  2. 其中,ChatGPT140亿次访问量领先,占分析流量的60%以上。
  3. 过去一年,AI行业每月平均访问量达20亿次,过去六个月内激增至33亿次。
  4. 分析的50个AI工具体验了10.7倍的增长率,平均每月增加2.363亿次访问。
  5. ChatGPTCharacter AIGoogle Bard的净流量增长分别为18亿次、4.634亿次和6800万次。
  6. Craiyon、MidJourney和Quillbot在此期间面临最大的流量下降。
  7. 美国贡献了55亿次访问量,占总流量的22.62%;而欧洲国家共计贡献了39亿次访问。
  8. AI聊天机器人工具最受欢迎,占191亿次访问量。
  9. 超过63%的AI工具用户通过移动设备访问。
  10. 性别数据显示存在差异:男性用户占69.5%,而女性用户占30.5%。
No. 1 ChatGPT (总访问次数: 146亿次)

为什么是第一名?

ChatGPT自2022年11月30日推出以来,仅五天内就达到了100万用户,迅速成为历史上增长最快的消费软件应用之一。截至2024年1月,它已经吸引了超过1.8亿用户和1亿周活跃用户,超过92%的《财富》500强公司正在使用ChatGPT。ChatGPT基于大型语言模型(LLM),支持对话式交互,能够理解和生成与用户需求相关的回答。它的成功引发了其他产品的开发,如Google的Bard和Microsoft的Bing Chat(现已更名为Copilot)。

产品介绍

ChatGPT是由OpenAI开发的一款基于大型语言模型(LLM)的聊天机器人,于2022年11月30日发布。它基于GPT-3.5或GPT-4模型,这些模型属于OpenAI的生成预训练变换器(GPT)系列,采用了由Google开发的变换器架构。ChatGPT的设计目标是生成接近人类的文本,使得与用户的对话更加自然和流畅。由于其强大的自然语言处理能力,ChatGPT能够理解并回应广泛的语言输入,包括各种复杂或罕见的语言。它在互联网上的大量文本数据上接受了训练,使其能够回答各种复杂的问题,并提供相关的详细信息。此外,ChatGPT还具有一定的记忆能力,能够记住之前的对话内容,并在此基础上生成后续的回应。

ChatGPT不仅被广泛用于一般性对话,还被应用于特定行业和场景。例如,它可以用于客户服务,为用户提供快速准确的回答;在教育领域,它可以辅助教学和学习;在内容创作上,它可以帮助生成文章、诗歌或其他文本内容。此外,ChatGPT的应用也涉及编程助手、游戏设计、法律咨询等多个领域。

由于其强大的功能和广泛的应用场景,ChatGPT迅速吸引了大量用户的关注,并在短时间内成为最受欢迎的AI聊天机器人之一。

LLM模型

GPT-3.5和GPT-4。为了适应对话应用,ChatGPT经过了特定的微调,结合了监督学习和强化学习的方法来优化其性能。这使得ChatGPT不仅能够理解和回应用户的语言输入,还能够根据对话历史调整其回应,提供更为精准和相关的信息。

功能介绍

  1. 自然语言理解与生成:ChatGPT使用先进的自然语言处理技术,能够理解和生成自然、流畅的语言。这使得它能够有效地与用户进行对话,回答问题,甚至创作内容,如文章和诗歌。
  1. 上下文记忆:ChatGPT能够记住之前的对话内容,并在此基础上生成后续的回应。这种能力使得对话更加连贯和有意义,增强了用户体验。
  2. 多语言支持:虽然主要以英语为主,但ChatGPT也能够理解和回应多种语言,使其适用于全球不同语言的用户。
  3. 定制化和集成:ChatGPT提供了高度的定制化选项,使企业和开发者能够根据自己的需求调整其功能。此外,ChatGPT可以与不同的平台和应用程序集成,如网站、移动应用和社交媒体平台。
  4. 安全和隐私保护:ChatGPT使用先进的安全协议来保护敏感的用户信息,并通过审查API过滤查询,以防止产生冒犯性的结果,确保了内容的安全性和合适性。

是否免费

  1. 免费版:免费版本允许用户体验基于GPT-3.5的聊天机器人功能,适用于常规查询和对话。
  2. ChatGPT Plus:这是一种高级订阅服务,每月收费20美元。订阅后,用户将享受到包括但不限于对最新的GPT-4模型的访问权限(目前为40条/3小时)、更快的响应速度、以及在高峰时段的优先访问权。
  3. ChatGPT Team:2024年1月10日最新推出的针对团队用户和需要高级功能的用户,ChatGPT可能提供更定制化的服务,包括更高的GPT-4使用上限(经测试为100条/3小时),共享GPT等。具体详情请看下图。

插件

对于PLUS及以上的用户,支持插件和自定义GPTs。

客户端

支持网页端,iOS app及安卓app

No. 2 Character AI (总访问次数: 38亿次)

为什么是第二名?

Character AI是一个采用中性语言模型生成文本回应的人工智能聊天机器人网络应用程序,允许用户开发角色,并允许您与虚构人物、历史人物和名人进行对话。与其他AI聊天机器人(如ChatGPT)不同,Character AI的输出更像人类,并允许您同时与多个机器人聊天,提供不同的视角。Character AI由前谷歌AI开发者Noam Shazeer和Daniel De Freitas开发,于2022年9月发布了测试版。自发布以来,它已成为继ChatGPT之后最受欢迎的AI聊天机器人之一。

产品介绍

Character AI是一款由前谷歌AI开发者Noam Shazeer和Daniel De Freitas创造的人工智能聊天机器人应用程序。该平台使用中性语言模型,可以生成与人类对话类似的文本回应,它的独特之处在于允许用户创造自己的角色,并与这些虚构的、历史上的或名人角色进行互动对话。与其他AI聊天机器人相比,Character AI提供了更为生动的人类般的交流体验,并支持用户同时与多个机器人进行对话,从而获得不同的视角和体验。

Character AI的测试版于2022年9月发布,凭借其个性化的聊天体验和用户自定义角色的功能,迅速成为市场上最受欢迎的AI聊天机器人之一。用户不仅可以与现成的虚构或真实人物聊天,还可以创造并定制自己的虚构角色,从而开启独特的对话体验。这些角色可以基于书籍、电影角色,甚至是现实生活中的名人。

Character AI平台通过用户友好的系统,简化了角色的创建和个性化过程。用户可以为其角色指定名称、制定问候语,并上传头像图片,使角色在对话中易于识别并能被其他用户搜索到。此外,Character AI不断在训练过程中分析大量文本,以提升其预测句子中后续单词的能力,进而提供更加吸引人、类似人类的AI对话能力。

Character AI的用户可以通过一系列简化的步骤快速创建具有个性化名称、问候语、可见性和头像的角色。进阶定制选项还允许用户修改角色的个性、回应、语言、声音、外观和动画,为用户提供深度个性化的角色体验。此外,Character AI的动态聊天机器人网络应用程序也提供了与各种著名个性如Elon Musk和Pikachu等进行互动的独特功能。

Character AI平台不仅适用于娱乐和休闲,也为如排练公众演讲、学习新方言、提高谈判技能或参与沉浸式游戏体验等多种应用提供了解决方案。它还允许用户创造独特的AI人物,并与社区共享,从而在编写引人入胜的故事或提供与虚构人物的互动对话中发挥作用。这些AI角色在教育娱乐、客户支持和一般娱乐等多个领域被广泛使用,丰富了用户的互动和体验。

LLM模型

Character AI没有公开声明使用特定的大型语言模型(LLM)名称,它是由深度机器学习和大型语言模型驱动的,这些模型在对话能力方面进行了广泛的文本分析训练。根据其网站和公告,Character AI强调的是个性化和用户能够自定义角色,这意味着它们可能已经开发了自己的独特版本的语言模型以支持其平台。

功能介绍

  1. 角色自定义创建:用户可以设计和创建独特的AI角色,设定它们的个性、喜好、和不喜欢的事物,并选择它们的对话方式。这些角色可以基于真实人物、虚构人物,或完全是用户的原创。
  2. 与多个角色交互:Character AI提供了与多个AI角色同时交互的能力,这些角色可以是历史人物、虚构角色或名人,增加了对话的维度和趣味性。
  3. 个性化对话体验:平台上的每个角色都有独特的个性、行为和声音,用户可以与这些角色进行自然而流畅的对话,仿佛在与真人交流。
  4. 丰富的角色库:用户可以与一个多样化的角色名单进行互动,这些角色包括名人、虚构角色,甚至是著名的政治讽刺角色,提供了广泛的交流体验。
  5. 用户控制和隐私:Character AI重视用户的控制和隐私权,允许用户随时删除他们的角色和相关数据,确保了用户使用的自主性和数据的安全性。

是否免费

免费使用基础功能。Character AI+的订阅服务价格为每月9.99美元,其提供的特性可以总结如下:

  1. 优先访问 – 更短等待时间:Character AI+为订阅用户提供了优先访问的特权,意味着用户可以享受到更快的服务响应时间,不需要长时间等待即可与AI角色进行互动。
  2. 回应时间更短:订阅服务还包括了缩短AI回应用户问题的时间,提升了用户体验的流畅性。
  3. 拥有特权新功能:Character AI+用户还将享有特权新功能的访问权限,这可能包括一些尚未对所有用户开放的测试功能或新工具。
  4. c.ai+ 社区访问:订阅者将有机会访问一个专属的社区,这个社区可能提供了更多的互动和讨论机会。
  5. c.ai+ 全员文字符识读量:此项服务可能意味着订阅用户将获得更高的文本识别量,这可以在与AI角色进行更长的对话时非常有用。

No. 3 Google Bard (总访问次数: 2.42亿次)

为什么是第三名?

Google Bard作为谷歌推出的人工智能聊天机器人,尽管是一个新进入者,但凭借谷歌的技术实力和资源,迅速在AI领域占据了一席之地。与OpenAI的ChatGPT相比,Bard在信息检索和回应生成上提供了与谷歌生态系统的紧密集成,使其在提供帮助和实用信息方面具有独特优势。

产品介绍

Google Bard是谷歌推出的一款AI聊天机器人,以其最新的语言模型Gemini Pro为基础。Bard提供了一系列的对话式AI功能,可以帮助用户完成广泛的任务,从日程安排到获取实时数据,再到自动化客户支持。它通过无缝集成跨多个平台,并提供个性化的通信服务,使Bard成为无缝互动的虚拟助手。不仅如此,Bard还能够根据用户的提示生成新的内容,特别是在文本回应方面,能够以自然和对话的方式作出回应。

Bard背后的LLM模型训练于海量的文本和代码数据集,具备生成内容的功能,尤其是在应对用户提示时的文本回应。其多功能性使其能够回答问题、提供摘要以及通过处理网络上的信息来协助研究,并为进一步的探索提供相关链接。

与ChatGPT相似,Bard也通过不断的改进和优化,提供了基于对话的高级语言模型。然而,与其他AI系统不同,Bard可以访问互联网,以便在生成回应时包含相关的当前数据。这一功能使得Bard在提供帮助和实用信息方面具有独特优势。

LLM模型

Google Bard于2023年12月经历了一次重大升级,引入了谷歌的最新大型语言模型Gemini Pro。这个模型提升了Bard的功能,使其在多个行业标准基准测试中的表现超越了之前的模型和其他竞争对手的聊天机器人,包括在某些测试中超越了OpenAI的GPT-3.5模型。Gemini Pro是专为在不同任务上具有可伸缩性而设计,而Gemini Ultra则旨在处理最复杂的输入。

Bard搭载Gemini Pro能提供更高级的推理、规划和理解能力。在测试中,用户在盲测评价中更青睐于使用Bard搭载Gemini Pro,而不是其他免费的聊天机器人选项。谷歌也在开发一个名为Bard Advanced的新版本,它将使用Gemini Ultra,这是一个神经网络,被描述为谷歌构建的最先进的AI系统。Bard Advanced预计将能够理解和处理包括文本、图像、音频、视频和代码在内的各种类型的信息。

功能介绍

  1. 实时信息更新:Bard可以访问互联网,提供基于最新数据的回应,如股票价格或最新新闻头条。
  2. 人性化对话:通过自然语言处理,Bard能够理解上下文,适应不同的对话风格,并以对话方式回应,使得与其的交流更自然和直观。
  3. 集成谷歌应用和服务:Bard现在可以与谷歌应用和服务集成,以便在回应中提供更有用的信息。
  4. 跨平台体验:Bard可以在不同的平台和设备上使用,包括安卓和iOS设备。
  5. 隐私和控制:谷歌为用户提供了对Bard活动历史的完全控制,包括删除或自动删除活动记录的选项。

是否免费

目前免费使用。

插件

支持谷歌相关的应用插件。

客户端

支持网页端。

Gartner发布2024年十大战略技术趋势!共同主题是AI

Gartner发布2024年企业机构需要探索的十大战略技术趋势。Gartner研究副总裁Bart Willemsen表示:“由于技术变革以及社会经济方面的不确定性,我们必须大胆采取行动并从战略上提高弹性,而不是采取临时措施。IT领导者的地位特殊,他们可以制定通过技术投资帮助企业在这些不确定性和压力下保持成功的战略规划。”

Gartner杰出研究副总裁兼研究团队负责人Chris Howard表示:“IT领导者和其他高管必须评估战略技术趋势的影响与益处,但由于技术创新的速度日益加快,这并非易事。例如生成式AI和其他类型的AI虽然带来了新的机遇并推动了若干趋势的发展,但要想通过长期使用AI获得业务价值,还需要采取严谨的方法广泛采用AI并注意风险。”

2024年重要战略趋势包括:

全民化的生成式AI(Democratized Generative AI)

经过大规模预训练的模型、云计算与开源的融合正在推动生成式人工智能(生成式AI)的全民化,使这些模型能够被全球工作者所用。到 2026 年,Gartner预测超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%

生成式AI应用可以让企业用户访问并使用大量内部和外部信息源,这意味着生成式AI的快速采用将极大地促进企业知识和技能的全民化。大型语言模型使企业能够通过丰富的语义理解,以对话的形式将员工与知识相连接。

AI信任、风险和安全管理(AI Trust, Risk and Security Management)

AI的全民化使得对AI信任、风险和安全管理(TRiSM)的需求变得更加迫切和明确。在没有护栏的情况下,AI模型可能会迅速产生脱离控制的多重负面效应,抵消AI所带来的一切正面绩效和社会收益。AI TRiSM提供用于模型运维(ModelOps)、主动数据保护、AI特定安全、模型监控(包括对数据漂移、模型漂移和/或意外结果的监控)以及第三方模型和应用输入与输出风险控制的工具。

Gartner预测,到2026年,采用AI TRiSM控制措施的企业将通过筛除多达80%的错误和非法信息来提高决策的准确性。

AI增强开发(AI-Augmented Development)

AI增强开发指使用生成式AI、机器学习等AI技术协助软件工程师进行应用设计、编码和测试。AI辅助软件工程提高了开发人员的生产力,使开发团队能够满足业务运营对软件日益增长的需求。这些融入了AI的开发工具能够减少软件工程师编写代码的时间,使他们有更多的时间开展更具战略意义的活动,比如设计和组合具有吸引力的业务应用等。

智能应用(Intelligent Applications)

Gartner将智能应用中的“智能”定义为自主做出适当响应的习得性适应能力。在许多用例中,这种智能被用于更好地增强工作或提高工作的自动化程度。作为一种基础能力,应用中的智能包含各种基于AI的服务,如机器学习、向量存储和连接数据等。因此,智能应用能够提供不断适应用户的体验。

目前已存在对智能应用的明确需求。在2023年Gartner首席执行官(CEO)和业务高管调查中,26%的CEO认为对企业机构破坏力最大的风险是人才短缺。吸引和留住人才是CEO在人力资源方面的首要任务,而AI被认为是未来三年对他们所在行业影响最大的技术。

增强型互联员工队伍(Augmented-Connected Workforce)

增强型互联员工队伍(ACWF)是一种优化员工价值的战略。加速并扩大人才规模的需求推动了ACWF的发展趋势。ACWF使用智能应用和员工队伍分析提供助力员工队伍体验、福祉和自身技能发展的日常环境与指导。同时,ACWF还能为关键的利益相关方带来业务成果和积极影响。

到 2027年底,25%的首席信息官(CIO)将使用增强型互联员工队伍计划将关键岗位的胜任时间缩短50%。

持续威胁暴露管理(Continuous Threat Exposure Management)

持续威胁暴露管理(CTEM)是一种使企业机构能够持续而统一地评估企业数字与物理资产可访问性、暴露情况和可利用性的务实系统性方法。根据威胁载体或业务项目(而非基础设施组件)调整CTEM评估和修复范围不仅能发现漏洞,还能发现无法修补的威胁。

Gartner 预测,到2026年,根据 CTEM 计划确定安全投资优先级别的企业机构将减少三分之二的漏洞。

机器客户(Machine Customers)

机器客户(也被称为“客户机器人”)是一种可以自主协商并购买商品和服务以换取报酬的非人类经济行为体。到2028年,将有150亿台联网产品具备成为客户的潜力,这一数字还将在之后的几年增加数十亿。到2030年,该增长趋势将带来数万亿美元的收入,其重要性最终将超过数字商务的出现。在战略上应考虑为这些算法和设备提供便利乃至创造新型客户机器人的机会等。

可持续技术(Sustainable Technology)

可持续技术是一个数字解决方案框架,其用途是实现能够支持长期生态平衡与人权的环境、社会和治理(ESG)成果。AI、加密货币、物联网、云计算等技术的使用正在引发人们对相关能源消耗与环境影响的关注。因此,提高使用IT时的效率循环性可持续性变得更加重要。事实上,Gartner 预测,到 2027 年,25% CIO的个人薪酬将与他们对可持续技术的影响挂钩。

平台工程(Platform Engineering)

平台工程是构建和运营自助式内部开发平台的一门学科。每个平台都是一个由专门的产品团队创建和维护并通过与工具和流程对接来支持用户需求的层。平台工程的目标是优化生产力用户体验加快业务价值的实现。

行业云平台(Industry Cloud Platforms)

Gartner 预测,到2027年,将有超过70%的企业使用行业云平台(ICP)加速其业务计划,而2023年的这一比例还不到15%。ICP通过可组合功能将底层 SaaS、PaaS 和 IaaS 服务整合成全套产品,推动与行业相关的业务成果。这些功能通常包括行业数据编织、打包业务功能库、组合工具和其他平台创新功能。ICP是专为特定行业量身定制的云方案,可进一步满足企业机构的需求。

一文盘点2023年度最热AI应用,打工人必备!建议收藏(内附工具汇总文档)

2023年,是AI行业的一个分水岭。
这一年,我们见证了AI技术的跃进式发展。
从深度学习到自然语言处理,从图像生成到视频生成,从声音克隆到数字人克隆……很多AI工具和产品犹如冉冉升起的新星,不仅重塑了人们的生活方式,也重新定义了未来的商业图景。
正如约翰·卡尔金所说:“我们塑造我们的工具,然后我们的工具塑造我们。” 

通过梳理和盘点过去一年AI领域颇受关注的热门工具,希望能帮助各位更好地回顾AI技术的突破与最新进展,预见它们将如何继续影响我们的世界。
我们参考估值、影响力、用户评价等维度,选取了几大常见领域一些具有代表性的AI产品,梳理了其迭代历程、最新性能等,每个类别都有其独特的技术特点和应用场景。

一、海外版

二、 国内

如何使用AI来优化组织结构?

人工智能(AI)正引领着组织变革,它提供了崭新的机会,重新定义未来工作和劳动力,而不仅仅是优化过去所做的一切。

这需要我们以全新的方式思考组织如何处理战略、领导力、人才、文化、组织设计等,也就是组织健康的所有要素。

亚马逊、谷歌和脸书是 AI 优先的例子,它们快速地实现了规模化,并成功管理了快节奏的增长。它们减少了对“硬资产”( 如机器或设施 ) 的依赖转而专注于组织健康的关键无形资产,并利用 AI充分发挥其潜在的影响力随着过去几年 AI的迅速普及,这些公司已经为适应 AI 世界重塑了他们的人才和组织实践。

例如,将 AI学习算法应用于匹配潜在员工与空缺职位,使招聘人员能够更快地筛选申请并填补职位空缺。

2017 年3 月,字母表公司和谷歌的 CEO 孙达尔·皮柴( Sundar Pichai宣布公司正在转变为 AI优先的组织。随后,该公司发布了一系列 AI 应用的场景,包括开发用于优化机器学习的专用芯片、更广泛地使用基于人工神经网络的机器学习方法( 深度学习 ),例如癌症研究,还包括在尽可能多的设备上安装谷歌的 AI驱动助手。皮柴表示公司正在从“搜索和组织世界信息转向 AI和机器学习”。该宣告是公司愿景的战略性转变。同月,微软也宣布其打算从“移动优先”和“云优先”转变为“AI 优先”。

未来我们将见证机器在多项任务上,以更具成本效益的方式超越人类。使用 AI 来优化组织结构是一种新兴的方法,它可以帮助企业更好地适应市场变化、提高运营效率、促进员工发展,并提升企业的整体竞争力。

盛宝银行案例——基于 AI的信息检索、预测分析及个性化营销

2016年,时任瑞士盛宝银行( Saxo Bank )CEO的帕特里克·亨格( PatrickHunger)领导该银行进行了技术改革。盛宝银行不仅着手采用机器人流程自动化( Robotic Process Automation,RPA )来提高效率,解放人类去创造更大的附加值,还开发了各类 AI和机器学习项目来创造新的价值。这项工作主要聚焦三个关键领域:基于 AI的信息检索、预测分析及个性化营销。总体来说,该银行将这些举措称为“机器人技术”。

但亨格也意识到,银行数字化计划的成功将取决于一些关键原则——

1、自上而下

领导者需要精通机器人技术,这样他们才能创造令人信服的机器人技术愿景和引领这趟旅程,并阐明其对企业战略的重要性。换句话说,领导者必须授权机器人技术引领者,让他们成为日常工作中的变革推动者。

2、打破组织壁垒

许多公司在自己的业务和IT 团队之间制造了文化鸿沟。但是,机器人技术要求这些团队尽可能紧密地合作,以确保它们跟上并加快业务发展的步伐。正如亨格所认为的那样,“公司的组织设计得多聪明并不那么重要。创造组织思维共识和价值的是人际交易;所有这些都以一个扎根于文化的集体商业目标为指导。”盛宝银行当时的数据主管帕布·文卡特斯 ( Prabhu Venkatesh ) 进一步强调了这一点,并解释说:

“我们有一个双向协作模型,技术和业务团队可以自由交流想法和信息。技术团队知道什么是可能实现的,而业务团队知道什么是有用的——神奇的产品就诞生在这个交叉点上。”IT 团队和业务团队作为公司的两个平等团队,要确保持续的对话和明确的协调,这是为打破部门孤岛所做出的至关重要的努力,因而机器学习和 AI 开发团队被设计为业务组织的一个组成部分,以弥合鸿沟。盛宝银行大数据和 AI 主管克里斯蒂安·巴斯克·黑达尔 ( Christian Busk Hededal) 解释说:“我们的目标是成为一个数据驱动的组织,让技术和业务之间紧密结合。”

3、将数据展示给广泛的利益相关方

帕布·文卡特斯指出,机器人技术的一个重要能力就是将数据和关键绩效指标展示给更广泛的利益相关方群体。换句话说,即在帮助每一位员工在决策中变得更加以数据为导向的同时,牢记大局。

这不仅仅是一组宣言,更是实践的原则。听起来似乎无关紧要,但公开透明地展示执行数据会在不同团队之间制造共识,让每个人了解公司正在发生的事情,以及大家的工作会如何影响公司的业绩。

在无形中产生的积极影响是创造了一种结果导向的文化,在这种文化中,人们会主动对可见的问题采取行动,而不是依赖流程去解决问题。建立机器人技术变革引擎。通过建立强大的治理体系,盛宝银行的领导者可以根据预期的商业价值更有效地推动机器人解决方案的落地,并不断研究使企业从机器人技术中受益的新方法。这需要挑战现状,克服因机器人技术而变得过时的组织和流程障碍。最后,盛宝银行需要为运营经理提供实用的方法和工具,以便日常管理由人和机器组成的混合劳动力。盛宝银行制订了一项计划,来缓解管理人员和员工在应对任何变化时所产生的焦虑情绪: 在早期就与人力资源部门密切合作,就人力资源的重新部署提供建议。

4、确保人机融合

领导者的角色是有意识地将组织设计为一个通过包容而不是隔离来充分发挥潜力的有机体。对盛宝银行来说,人机协作意义重大,它不仅仅是当下流行的说辞,更是一套逻辑体系。在该体系之下,创新和业绩在人机生态系统中最能蓬勃发展。帕特里克·亨格指出:“当我们说我们本质上是一家科技公司时,我们的意思是科技是将人类技能付诸实践的主要工具。科技增强了我们的组织能力,让其不再受限于企业规模。”虽然有些人将数字化手段 ( 尤其是 AI) 视为机器与人类之间的矛盾“,但其他人则认为科技以前所未有的方式帮助我们展现了人性。这是一种提升组织健康的工具。这种以智能运营模型为核心的组织,将成为公司内提升个人和团队绩效的中流砥柱,使人机协作的新方法得以生根发芽。因此,组织进化的最大机会不仅仅是重新设计工作或部署自动化工具,还有从根本上重新思考“智能运营模型的架构”,为企业团队和个人创造新的价值来源。

此外,在疫情期间,随着数字化客户体验建设的深入,盛宝银行基于 AI工具的全部价值变得更加清晰,在释放人类潜力方面尤为明显。由于消费者待在家里,或至少远离实体银行分支机构,该银行基于 AI的工具帮助员工以他们意想不到的方式预测和满足快速变化的客户需求和偏好。最终,该银行的员工变得善于学习、不断努力,这也意味着银行能够以更快、更敏捷和更准确的方式做出响应。它可以全年、全天候地不断学习、扩张和运营。

 AI 优先的真正含义是什么? 

AI 优先不仅是利用分析( 或决策 )的力量来加强人机协作,它更是基于 AI重塑未来组织,防止 AI 只被用作优化组织的工具。换句话说,这不仅是为了更好、更便宜或更快地做同样的事情,也是为了开展新的活动,创造更多价值。

当前全球的数字经济( 有时被称为“互联网经济”)比历史上其他任何时期都更需要组织的一致性、敏捷性和智能化。组织需要将 AI嵌入组织运作的各个方面,使其成为组织 DNA 的一部分,以便有效释放公司的全部潜力。在早些年或不那么动荡的商业环境中,CEO 或高层管理团队可能单独负责开发组织的全部潜力。然而,如今,组织的基本要素必须协调一致,作为一个整体同步行动。

一项研究显示,众多不同的组织认为,在采用 AI 的主要障碍中,近一半与组织健康相关(见图 9-1 )。该研究发表在《麻省理工学院斯隆管理评论》上,将受访者分成四个类型:先驱者(了解并采用 AI 的组织)、调查者(了解 AI 但未完成试点的组织)、实验者(在没有深入了解技术的情况下,试验 AI 的组织)和被动者(不了解也没有采用 AI 的组织)。

公司如何能清除障碍并成功挖掘 AI的价值? 

根据麻省理工学院的研究成果,我认为可以总结为对组织健康的四个特定要素的高度聚焦。具体来说,成功采用 AI和其他数字技术的公司在以下四个维度表现出色,我把它们看作四项投资。

1、对战略和决策的投资

麦肯锡的一项研究表明,大多数受访者表示他们的公司已经从 AI 中获得了价值,与其他公司相比,规模更大、收入更高、成本更低。这并非运气使然,公司制定业务战略、实施战略的能力和在应用 AI过程中的变革管理,共同影响了变革实现的程度。那些在普及 AI 方面取得更大成功的公司更有可能有一组关键动作,包括协调AI和业务战略,而每六种关键动作中有五种与组织健康相关。更倾向于有效使用 AI 的公司更容易在全公司普及 AI、实现商业价值。在另一项研究中,来自高绩效公司的 36% 的受访者表示,他们的一线员工会使用AI提供的实时反馈来做日常决策,而其他公司中只有 8% 的受访者会这样做。

2、对组织和工作设计的投资

麦肯锡的研究发现,近 90% 成功普及 AI的公司将超过一半的分析预算用于推动对 AI 的采用,例如工作流程重新设计、沟通和培训;其他公司中只有 23% 倾注了类似的资源。1 在普及 AI方面做得最好的公司在变革和推动采用 AI的项目 ( 工作流程重新设计、沟通、培训 ) 上花费的资金或预算与它们在技术本身上花费的一样多。

3、对人才的投资

麦肯锡的研究发现,成功在组织内部采用 AI的公司在人才和流程方面的投资与在技术方面的一样多。一项对 1 000 家公司的调查发现,只有 8%的受访公司参与了此类实践,使得 AI的普及得以实现。13 无数研究呼应了这些发现。《 麻省理工学院斯隆管理评论》和德勤数字 (Deloitte Digital) 在《科技谬论: 人如何成为数字化转型的真正关键 》( The Technology Fallacy: How People Are the Real Key toDigital Transformation) 一书中发表的联合研究提供了令人信服的证据表明数字成熟度更多地与人和组织变革有关,而不是与其所使用的特定技术有关。

4、对风险缓解和认知提升的投资

公司处理风险的方式( 即质量保证审计或合规培训 ) 在很大程度上决定了权责。同样,组织学习的方式 ( 通过使用知识和协作平台 ) 通常定义了公司文化。采用 AI确实存在很大的风险,因为 AI 通常以大量数据 ( 例如搜索习惯或视频通话记录小时数为基础,滥用这些数据是非法的。因此,没有任何公司愿意冒险在未经允许、未向员工全面说明数据用途的情况下,收集和使用数据。根据欧盟通用数据保护条例 ( General Data Protection Regulation,GDPR),在违反条例的情况下,罚款最高可达 2 000 万欧元,或公司主体在全球营业额的 4%。违规或滥用的潜在司法成本可能超过成交价格,如果发现问题,公司估值将会降低,因为应对 GDPR 监管的成本很高。因此,交易团队必须仔细审查采用 AI 技术是否合规或是否存在重大责任风险。同样,CEO 和董事会必须建立治理和监督机构,以确保公司负责任地采用AI。

总之,人工智能(AI)正引领着组织变革时刻已经到来,生成式AI和大模型所展现出来的强大能力,正在改变游戏规则和加速颠覆旧有模式。

面向未来,AI 依然面临着种种挑战,值得大模型公司、数据分析企业和用户们持续去探索。

1400元巴掌大小AI硬件,首日卖光1万台!吕骋归来:要干翻所有App

 原创 关注前沿科技 量子位

不出所料,果然有AI硬件炸场CES 2024

这款AI掌机名叫Rabbit R1,誓要干掉App应用(There is no need for an app for that)。

预售价199美元(约1425元),具体长相嘛,就像下面这样:

据了解,Rabbit宣布R1在3月才会开始发货,然而消息传出,不到24小时,这家伙就火速卖出了10000台

无论是售价、首批火爆程度,还是使用便捷度(无需订阅),R1看起来都比前段时间刷屏的另一款AI硬件——AI Pin有那么一点优势。

也难怪Rabbit公司的创始人兼CEO Jesse Lyu公开表示,自家产品或许有希望能在市场上击败AI Pin(手动狗头)。

网友们也纷纷表示对二款AI硬件的个人看法,好不热闹:

不过据了解,虽然R1具备视频通话和SIM卡插槽等功能,但“R1并非想要取代智能手机”。

更令人瞩目的地方在于,R1内置了一个Rabbit公司开发的“全新的基于AI的系统”,RabbitOS

对此,这家公司表示:

希望R1成为用户与智能手机(无论是iPhone还是其他设备)之间的中介。
希望利用AI来改变用户与应用程序的交互方式。

还有一个特别的点在于,这家公司背后的创始人,是华人Jesse Lyu,也就是前渡鸦公司创始人。

实不相瞒,好奇心已经被勾起来了,这AI掌机到底有啥不一样?

一起来看——

Rabbit R1有些啥亮点?

当今时代,颜值先行,来展开看看Rabbit R1的外观

R1通体亮橙色,其重量约为115克,正面有一块2.88英寸的触摸显示屏。

屏幕右侧上方,是一颗能够360° 旋转的AI摄像头。

摄像头下面是操作滚轮,侧边对应着圆形按键。滚轮用来选择、导览,而按键则是一键唤醒语音助手的快捷键。

据介绍,R1还配备了麦克风、扬声器,可以说是麻雀虽小五脏俱全。

了解了其外观,再看看内置,包括2.3GHz MediaTek处理器、4GB内存和128GB存储空间,并且支持蓝牙和 Wi-Fi。

官方宣称,R1电池续航时间为“全天”

最重点的来了!——R1搭载的是你从未见过的全新操作系统,Rabbit OS

Rabbit OS采用底层AI技术,但用上的不是类ChatGPT的大语言模型技术,而是基于“大型动作模型(Large Action Model,LAM)”打造。

大型动作模型脱胎于大语言模型,但更强调“行为”。实际展示来看,大型动作模型和大语言模型能实现的功能看起来相差不多,用户也能通过大型动作模型用自然语言和R1进行对话。

在听到人类自然语言发出的指令后,Rabbit OS能理解人的复杂意图,然后帮人操作App完成任务。

而且,用嘴巴问就行了,不用费劲选择具体该使用什么App。

比如按下侧边按键,500毫秒就能唤醒对话系统,“问任何想问的问题”,然后得到语音回答,并且是配备字幕的那种:

现场还通过查询可口可乐公司的股价,演示了R1带有的联网功能:

用它拍下冰箱里的食材,让它提供一份低卡食谱。

R1沉思一会儿说:“不如来份绿色田园蛋包饭。”

官方介绍,R1兼容现有的所有应用程序,用户无需抛弃已有的任何数据。

听到这里,想必你也能理解为什么R1的愿景是要颠覆App了。

这不就是想要用AI操作系统,替代现在用户和手机App的手动触控交互嘛!

不过Rabbit公司创始人兼CEO说了,R1并不期待代替智能手机,从他的发言里可以看到R1目前的定位:

是一款漂亮的配件,同时也是未来的一体化设备

Rabbit及其创始人Jesse Lyu

其实产品亮相之前,Rabbit就在科技圈和创投圈小有名气。

原因有三,即投融资情况、技术展示和创始人背景

第一,去年年底,这家公司在2个月内公布自己获得了3笔融资。

投资方包括“全球技术领域”投资之王”科斯拉(Vinod Khosla,也是OpenAI首位风险投资人),以及韩国互联网巨头Kakao。

3轮融资总额为3000万美元。

第二,同样在去年,Rabbit曾经发布过一个叫Quantum Engine的玩意儿。

利用Quantum Engine,用户可以上传剧本,然后AI会实时生成剧情,让用户选择角色与NPC进行自由互动——而语音是用户和AI实时互动的具体方式。

网友们用它扮演《黑客帝国》和《甄嬛传》里的角色,效果很好,迅速出圈。

第三点,Rabbit背后的创始人Jesse Lyu吕骋,是位AI领域的华人连续创业者。

吕骋,毕业于西交利物浦大学和英国利物浦大学,学习的专业是金融数学。

大三时,他就创立了社交工具Timeet,旨在通过匹配日程找到共同空余时间,从而发起和组织活动。

2014年,吕骋大学毕业,创立了渡鸦科技

主要产品有可以使用语音来访问移动应用程序的软件Flow、与AI相结合的交互系统Project Flow,用Flow中“听音乐”模块制作的音乐播放器乐流MusicFlow,以及渡鸦音箱、Raven H-1等硬件。

2017年2月,百度宣布全资收购渡鸦,吕骋携团队被收入百度麾下,自己出任百度智能家居硬件总经理。

一年多后,2018年6月,吕骋从百度离职。

离开百度后的吕骋来到美国,再次创业,成立了以AI为中心的公司Cyber Manufacture Co.,也就是今天Rabbit的前身。

One More Thing

无独有偶,同一天,另一家做AI硬件的公司跳出来了,并且是开源版

苹果前AR原型机设计师Bart Trzynadlowski在推特上激情发声,大喊“不要别人来把你的生活产品化!”

该公司启动了一个完全开源的项目,提供开源模型价格亲民的可穿戴硬件,开发者可以用这两样东西做出属于自己的AI硬件。

并且可以是任何外型,比如项链、别针等等,还能和Apple Watch等其他硬件适配。

据悉,关于这个开源版AI硬件的更多消息,包括GitHub仓库,都会在下周释放出来~

让每个企业都能用上AI !


1亿用户,TikTok用了9个月,Instagram则用了两年半。

快速的用户增长与ChatGPT所展现出优秀的文本生成、语言问答、语言翻译、编程、绘画等能力息息相关。

曾经颇具科幻感的人工智能,在大模型的支撑下,正一步步成为现实。

在ChatGPT之后,百度、阿里、华为、腾讯、字节跳动、科大讯飞、商汤、中科院、清华、复旦等大厂或高校院所纷纷入局发布大模型。截止2023年10月,我国拥有10亿参数规模以上大模型的厂商及高校院所共计254家,分布于20余个省市/地区[1]

在各方刺激下,大模型市场持续火热,企业对于大模型应用的关注水涨船高,AI领域独特的商业模式MaaS也渐渐成为企业关注的重点。

01 点亮大模型

MaaS是继IaaS、SaaS、PaaS之后,又一个基于云计算的商业模式。

顾名思义,MaaS(Model as a Service模型即服务)是一种将AI大模型作为可服务化的产品提供给用户使用的商业模式。其业务核心是“模型-单点工具-应用场景”,即提供预先训练好的大模型,通过简单的接口、应用程序编程接口(API)或软件开发工具包(SDKs)让用户能够方便地访问大模型的功能。它不对用户设限,用户无需关注底层基础设施,也不需要深入的人工智能知识,不管是AI开发者还是普通人,都能依靠MaaS快速点亮大模型的“科技树”。

MaaS的出现解决了大模型研发与落地的难题。

在传统机器学习模型的开发中,模型的研发和落地往往是两个分离的过程。

在研发阶段,通常会需要大量的数据和计算资源来训练模型、调整模型参数等。在这期间,消耗的金钱难以预估,加上时间和人力的成本,令人望而却步。更别提在大模型出现之后,“大数据+大算力+强算法”的优势带来了对算力、数据、人才的更高要求。据悉,仅研发阶段,训练大模型的基础设施投入都是以“亿美元”为单位计算。

但纵使突破各种困难训练出大模型,也不意味着能够顺利将其部署到实际应用场景中——除了要面对运维、资源管理、服务配置等硬件难题外,还需要面对由于缺乏相关专业知识和数据使大模型无法完全发挥潜力的问题。

而MaaS模式的出现令这些问题迎刃而解,并将大模型应用和推广提上了日程。

一方面,用户可以直接调用大模型,不必关注大模型的成本问题,只需上传自身应用场景下的数据进行微调,就能让大模型为业务赋能;另一方面,大模型可以吸纳更多领域的专业知识和实时数据,从而提升预测和决策的准确性,不断进行迭代和优化,以便落实到更细分的场景中去,解决实际场景下的问题。

MaaS降低了大模型的使用门槛,对于用户和大模型企业来说,可谓是“双赢”的选择。

目前,MaaS的服务主要包括以下几个方面:

  • 模型训练服务:这是MaaS最核心的服务,包括数据预处理、模型训练、调参等环节。MaaS可以提供一个可视化的界面来帮助用户上传数据、选择算法和超参数、运行实验等。
  • 模型部署服务:MaaS提供了一系列的API接口,使得用户可以方便地与模型进行交互,并将训练好的模型部署到生产环境中。
  • 模型管理:MaaS可以跟踪模型的响应时间、错误率、资源使用情况等指标,并向用户发送报警通知。同时,也提供了一些分析工具,如可视化的数据报表,以帮助用户更好地理解模型的性能。

02 MaaS的初心
其实,在人工智能领域,服务化的概念一直存在。在大模型声名鹊起之前,“MaaS”的“M”代表Machine Learning(机器学习)。
2017年,谷歌推出了Google Cloud Machine Learning Engine,帮助具有机器学习专业知识的开发人员轻松构建适用于任何类型、任何规模数据的机器学习模型。亚马逊发布的全面机器学习平台服务Amazon SageMaker,提供了端到端的机器学习工作流程,包括数据准备、模型构建、训练部署和管理等功能。除此之外,IBM Waston Machine Learning、微软Azure Machine Learning也是有名的“MaaS”服务平台。
让每个企业都用上AI,成为MaaS模式的初心。
随着人工智能领域的快速发展,大模型(Model)作为机器学习技术的前沿,代替了机器学习(Machine Learning),成为“M”新的含义,但其初心从未动摇。
工具只有落到实处才能体现其价值,大模型亦是如此。

03入局者众
随着大模型的火热,有关MaaS的竞争才刚刚开始。目前,入局MaaS领域的厂商都颇具分量。
例如,商汤推出的SenseCore商汤AI大装置由模型层、深度学习平台和计算基础设施三个部分架构而成,其中,深度学习平台是集大规模AI算力管理、专业的AI工具链、开放式AI算法与一体的工业级AI生产开放平台,帮助用户实现从数据标注,算法设计,到模型训练、部署的全链路、批量化过程。依托人工智能基础设施算力云服务提供云原生AI基础设施、AI开发平台、AI专家服务三位一体的解决方案。有效加速人工智能规模化落地,降低算法模型的生产成本和技术门槛。


商汤SenseCore云服务方案架构
阿里云通义大模型家族已推出“通义千问”、“通义听悟”和“通义万相”三个大模型,打通了语言、音视频生产和绘画创作三大重要场景,并将旗下产品如钉钉等全面接入,完成了大模型在应用端的落地。2022年,阿里云同时建立了ModelScope社区(魔搭社区),汇集开源开放的优质预训练模型,并提供了API调用模型,极大地方便了用户的使用。同时,基于此阿里云推出了大模型调用工具ModelScopeGPT(魔搭GPT),用户可以一键发送指令调用魔搭社区中其他的人工智能模型,从而实现大小模型的共同协作。此举能进一步促进AI大模型在各行各业的落地问题。
腾讯云推出了基于TI平台的行业大模型精调解决方案,该解决方案具备完整大模型精调工具链,支持用户加入自己独有的业务场景数据,进行精调训练,从而定制不同参数、不同规格的专属模型。目前,腾讯云已经推出了十余个行业超50个行业大模型应用解决方案,如金融、文旅、政务、传媒等,对企业智能化升级更具推动作用。


腾讯云MaaS
百度智能云发布了千帆大模型平台,并在后续升级中宣布全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT等国内外33个大模型,满足不同的用户在不同应用场景上的选择。目前,用户可以直接登录千帆大模型平台操作台,直接调用、部署相关服务,也可以搭配使用不同的大模型,实现大模型的落地。
如今,MaaS已经成为人工智能领域备受瞩目的发展方向之一,依靠MaaS大模型的触角将延伸到更远更细节的地方。
进入2024年,大模型市场正褪去狂热转向冷静。这意味着,受市场风潮裹挟的日子已经过去,一众入局者将利用MaaS更加理性地推动符合实际情况、可持续发展的大模型应用,以实现更大的商业价值。

4.正在路上的MaaS
数据显示,2023年MaaS的市场规模将达到261.5亿元,占中国云服务市场的10.3%[2],在“每个企业都能用上AI”的美好愿景支持下,MaaS具有极大的商业发展前景。
不过,在热潮之下,MaaS仍有很长的一段路要走。
首当其冲的是数据隐私和安全性的问题。作为新时代的生产要素之一,数据的重要程度不言而喻,而在大模型的微调和训练中会涉及大量的数据传输和处理。保障数据隐私、传输安全,以及合规地使用数据和存储将是MaaS需要持续关注的重点。此外,跨境数据传输、知识产权保护等问题也应被纳入考虑范围。
其次,MaaS平台中的各类大模型是其发展壮大的核心,在接入更多大模型的同时,也要对模型进行严格的评估和测试,以保证模型的高质量和稳定性。
除此之外,如何在卷算力、卷技术、卷服务的同时还能降低运营成本也是MaaS所要面对的现实问题。
归根结底,作为大模型产业商业化的重要一环,MaaS在人工智能技术的发展和商业应用方面都具有重要的意义。未来,随着人工智能技术的不断发展和普及,MaaS将会变得更加成熟和完善,为企业带来更多的便利和创新。
写在最后

俗话说得好,众人拾柴火焰高。
MaaS是众人摘取人工智能这朵高岭之花的途径。随着MaaS不断发展成熟,使用人工智能的门槛将会越来越低,人工智能的应用范围和深度将会不断扩宽挖深,进一步推动人工智能场景创新,促进其更高水平的应用。
未来,让我们一起期待着每个企业都能使用AI的智能时代到来。

全球热门 AI 排行榜出炉!看看你用过几个?

刚刚过去的 2023 年,可以说是 AI 元年。

随着技术的飞速发展,AI 行业在这一年再次迎来了爆炸式的增长。

近日,Writerbuddy 研究了 3000 多个 AI 的数据,出具了一份行业报告:该报告细致地盘点了全球 50 大热门 AI 工具。

让无敌来带大家看看,在这百模大战的一年后,都有哪些 AI 成功杀出重围吧!

热门 AI 工具 Top 5

抛去具体类型不谈,首先向我们走来的是占据热门 AI 工具榜单前五名的“老大哥”们:

第一名:ChatGPT

毫无疑问,高居榜首的当然是我们开启 AI 热潮的“六边形战士” ChatGPT

ChatGPT 各方面的数据都优秀的没得说。只可惜数据统计截止到去年八月,如果统计到年底,想来这份数据会变的更优秀。

截止到去年八月,ChatGPT 以一己之力创造了 146 亿次的访问量,占上榜 AI 总访问量的 60%。在 聊天 AI 这一分类中,它的访问量占比更是达到了惊人的 76.31%

第二名:Character.ai

占据亚军宝座的,则是 Character.ai。一年来,它的访问量为 38 亿次。

Character.ai 的人均对话时长接近 30 分钟,是行业平均水平的两倍还要多。且高达 95% 的用户都更喜欢从移动端访问。

这两份优秀的数据无疑要归功于 Character.ai 本身的特性:

Character.ai 与 ChatGPT 同属聊天 AI  这一分类。

人如其名,Character.ai 主打的就是一个“角色扮演”——用户创造角色 AI 后可以将其分享到社区,任何人都可以和这个 AI 对话。这意味着你可以和名人明星、影视人物、游戏角色等一切你能想到的存在进行交谈。当然,自定义(一个老婆)也是完全没问题的。

第三名:Quillbot

尽管整体流量有所下降,Quillbot 还是以 11 亿次的访问量稳坐第三名。

QuillBot 具有语法检查和写作增强功能,是强有力的辅助办公 AI。它旨在满足各种写作要求,帮助用户创建结构良好的句子,提高整体写作质量。

作为 AI 写作领域的龙头大哥,Quillbot 的大部分用户选择使用 PC 端进行访问。人均使用时长为 20 分 54 秒,远高于行业平均水平。

值得一提的是,Quillbot 的用户性别比例很平衡,打工人果然是没有性别之分的……

第四名:Midjourney

Midjourney 作为首屈一指的图像生成 AI,在该榜单中排名第四,浏览量为 5 亿次。

Midjourney 的移动端和 PC 端流量分布几乎相同,人均访问时间也接近平均值,无伤大雅。

但比较突出的一点是,Midjourney 的男性用户占比为 92.19%,与女性用户 7.81%的占比形成了鲜明对比。

为啥这男女比例这么离谱?你懂,我也懂哈~

如果你不清楚,想想早期 AI 生成的女角色画风,你就明白了。

第五名:Hugging Face

Hugging Face 是机器学习领域最受欢迎的 AI 工具,在统计期间内,共吸引了 3.166 亿次的流量。

比起前四位令人耳熟能详的大哥,或许 Hugging Face 听起来比较陌生,这里无敌来简单介绍一下:

Hugging Face 本来打算创业做聊天 AI,他们在 github 上开源了一个 Transformers 库。

虽然聊天 AI 的业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超 100,000 个预训练模型,10,000 个数据集,变成了机器学习界的 github。

在国内,HuggingFace 也是应用非常广泛,一些开源框架本质上就是调用 transfomer 上的模型进行微调。很多 nlp 工程师的招聘条目上也明摆着要求熟悉 HuggingFace transformer 库的使用。

该平台的用户群体以男性为主,占 84.48%,而女性用户占 15.52%。在分析地理分布时,美国成为主要的流量来源,日本紧随其后。(地域这一块儿大陆受到了限制,数据无从考证。)

以上几位就是 2023 年的热门 AI Top 5,紧跟其后的还有:来自谷歌的 Bard、写小说的 Novel AI、做视频的Capcut、专注于二次元角色扮演的 JanitorAI 和专注于图片创作的 C 站 Civitai

英伟达推出AI数字人业务;OpenAI回应被纽约时报起诉;百川智能发布角色大模型丨AIGC大事日报

全球AIGC产业要闻


1、钉钉7.5版本上线AI助理

2、夸克App上线“AI学习助手”

3、百川智能发布角色大模型Baichuan-NPC

4、英伟达推出AI数字人业务ACE

5、Getty与英伟达合作推出图像生成工具

6、OpenAI回应被《纽约时报》起诉

7、微软Copilot应用尚未影响ChatGPT收入

8、Stability AI任命首位诚信高级副总裁

9、大众将使用ChatGPT增强IDA车载语音助手

10、梅赛德斯奔驰推出对话AI语音助手

11、推特前首席执行官AI创企获3000万美元融资

12、Rokid获近5亿元融资 合肥市政府牵头

13、多邻国解雇10%承包商转向生成式AI

14、2023年我国AI相关企业注册量达50万

15、重庆:建设AI领航工厂等形态未来工厂

16、AI应用构建框架LangChain推出首个稳定版本

17、松鼠Ai推出教育行业首个智适应大模型


1、钉钉7.5版本上线AI助理今日,在钉钉7.5产品发布会上,钉钉正式发布了基于70万家企业需求共创的AI助理产品。钉钉AI助理分为企业AI助理和个人AI助理,用户点击钉钉首屏右上角的魔法棒即可唤起。钉钉AI助理具备感知、记忆、规划和行动能力,具备跨应用程序的任务执行能力,可以和钉钉上第三方应用、企业自建应用无缝结合。同时,钉钉总裁叶军宣布钉钉将推出AI助理市场,致力成为最活跃的AI助理孵化、分发和交易平台。叶军称,截止到2023年年末,钉钉用户数达7亿,企业组织数达2500万,软件付费企业数达12万。

2、夸克App上线“AI学习助手”日前,夸克App基于自研大模型的强大参数和数据精调能力,推出一款大模型全新应用“AI学习助手”,在部分搜索学习内容的结果页中,通过智能化的解题思路和讲解方式,进一步提升大学生在自学场景中的效率和质量。据悉,夸克“AI学习助手”采用夸克宝宝的虚拟形象为用户进行题目讲解。基于大语言模型和视觉技术,AI智能讲解能够给用户提供 “考点分析”、“详解步骤”、“答案总结”等详细内容。目前,夸克“AI学习助手”率先上线在部分搜索英语内容的场景中,覆盖选择题、填空题、阅读题等常考题型,用户可以通过拍照搜索的方式进行体验。后续还会加入数学等主流学科。

3、百川智能发布角色大模型Baichuan-NPC今日,百川智能发布角色大模型Baichuan-NPC,深度优化了“角色知识”和“对话能力”,使模型能够更好的理解上下文对话语义,更加符合人物性格地进行对话和行动。此外,对于游戏领域AI角色开发成本高、周期长、自由度差、API不稳定等问题,百川智能推出了“角色创建平台+搜索增强知识库”的定制化解决方案。通过这一方案,游戏厂商无需编写任何代码,只需通过简单的文字描述,便可以快速构建出需要的角色,实现低成本、高效率的角色定制。官网地址:npc.baichuan-ai.com

4、英伟达推出AI数字人业务ACE今日,英伟达在CES(国际消费类电子产品展览会)上宣布推出适用于NVIDIA Audio2Face(A2F)和NVIDIA Riva自动语音识别(ASR)的ACE Production Microservices。NVIDIA ACE是一套可帮助开发者利用生成式AI创建虚拟数字人物的技术,普通的非玩家角色(NPC)可以在ACE的驱动下成为能够发起对话或引导玩家找到新任务的动态交互式角色。同时,英伟达宣布与多家游戏公司合作,米哈游、网易游戏、腾讯游戏、育碧等都将采用NVIDIA ACE。

5、Getty与英伟达合作推出图像生成工具今日,在CES上,图库网站Getty Images发布了图像生成服务Generative AI by iStock。据介绍,该服务基于Getty的专有图像数据库进行训练,以英伟达AI模型代工厂NVIDIA Picasso为基础,为设计师和企业提供文本到图像生成功能,并为生成的图像提供法律保护和使用权。Getty还将很快推出API(应用程序接口),提供图像修复等功能。开发人员可以将新的API与创意应用程序无缝集成,以将人物和物体添加到图像中、替换特定元素以及用各种宽高比扩展图像。官网地址:iStock.com

6、OpenAI回应被《纽约时报》起诉今日,OpenAI发布公告回应被《纽约时报》诉讼一事,称公司支持新闻报道,与新闻机构合作,并且认为《纽约时报》的诉讼没有根据。OpenAI将立场概括为四点:

1、积极与新闻机构合作,创造新的机会;

2、将公开数据用于训练大模型属于合理使用,但公司为版权方提供退出的选项;

3、“反刍”(Regurgitation)指特定内容在大模型的训练数据中多次出现,这是一个不常见的错误,公司正在努力减少;

4、《纽约时报》并没有讲述完整的事实。公告提到,OpenAI在当地时间12月19日与《纽约时报》进行了谈判,双方“似乎取得了建设性的进展”,但《纽约时报》在12月27日提起诉讼,OpenAI对此感到“惊讶和失望”。

7、微软Copilot应用尚未影响ChatGPT收入据TechCrunch今日报道,根据应用商店情报提供商Appfigures的数据,微软最近推出的AI聊天机器人Copilot尚未对OpenAI的ChatGPT安装量或收入产生影响。Copilot由OpenAI的DALL-E 3和GPT-4模型驱动,可免费访问,而ChatGPT只免费提供GPT-3.5模型。截至1月5日,Copilot在iOS和安卓上的下载量为210万次,每日下载量峰值为41.3万次,此后有所放缓。美国是Copilot最大的市场,下载量占24%,其次是德国、印度、意大利和英国。

钉钉AI助理:打工人偷闲,创业者搞钱

前几天对一级市场科技公司的年终盘点中,OpenAI超过16亿美元的年收入击穿了不少人此前的预期。相较于2022年的2800万美元营收,这对应着超过50倍的增长,也意味着涨到1000亿美元的估值。然而OpenAI的大好局面在行业内并不普适,尤其是对于去年上半年那群跟风入场大模型的创业公司来说:有统计显示,国内之前200余家号称做大模型的创业公司只有20多家还活着。


所以一个客观的经验是,围绕大模型会产生很多机会,但做大模型本身不一定。如《新立场》在此前一篇文章中提到的,“从商业模式上讲,这的确又是一个缔造世界上最伟大科技公司的角斗场。只是这一次的胜利者,绝对不会像当初苹果起步一样,从乔布斯的车库里冒出来。”


目前为止,吃到第一波AI红利的公司,普遍都是因为找到了适合大模型落地的场景,比如说最为典型的智能客服或者知识问答。从产品形式上说,大语言模型几乎是为这个领域量身定制。在头部大厂提供的PaaS能力基础上,只需要辅以企业特定的知识库,就能开发出一个效果远超“关键词触发”的智能客服。


不过同时需要指出的是,当下大模型跟生产力场景的结合还有着巨大的进步空间。即便是像微软Copilot、钉钉AI魔法棒等标杆产品,虽然实现了智能化从Chat到Work的转变,但仍然是属于应用层的创新。而如果要充分释放大模型的潜能,后续要走的路显然是“由表及里”,让AI从上面的应用层深度扎进业务场景,跟企业数字化打通。


从这个角度看,钉钉1月9日的发布会可能会是个很好的契机。在昨天这场发布会上,钉钉宣布推出AI超级助理,还将上线与之配套的AI助理市场。钉钉的判断是AI Agent是最佳的AI应用入口,所以让用户、开发者、ISV都能在钉钉上低门槛开发个性化AI助理就变得尤为重要,只有这样个人创意才能成为可重复利用的生产力。

当创建AI助理的基础设施、分发AI助理的交易平台、创意变成收益的激励机制都已经搭建完毕,钉钉的AI助理生态已然成型。这也意味着AI创业者迎来了大模型浪潮的第二波红利,“在AI创业、用AI赚钱”大概从来没有像今天这样容易。


01、钉钉超级助理,AI原生的AI Agent


钉钉推出的AI助理,本质上是其对AI Agent探索的一种应用形态,所以我们不妨先讨论一下AI Agent这个概念。Andrej Karpathy是OpenAI的创始成员之一,他在去年发过一个很出圈的视频,就是因为谈到了AI Agent这个话题。他的原话是,如果现在新出一篇有关训练大模型的论文,那他根本不会care,因为大概率两年以前OpenAI内部就已经有人尝试过类似方法了;但如果是新出了一篇AI Agent的论文,那OpenAI的所有人都会很兴奋并且真的去看。


另一位OpenAI研发主管对AI Agent给出了更为严谨的定义,她认为 Agent = LLM(大语言模型)+ 记忆 + 规划 + 使用工具的能力。所以粗略的理解,Agent的“脑子”还是大模型,但是在这之上叠加了其他能力做增强,因而其可以更自动的方式完成更复杂的任务。


比如,当你直接使用大模型的时候,你需要自己构造提示、理解输出、推动一个由多轮提示组成的任务流程,这对用户提出了相当高的要求。但如果有一个合适的AI Agent,用户只需要给出任务描述,Agent自己就能完成任务分解、工具调用、结果评估等一系列流程,在节省用户精力的同时也大大提高了大模型的易用性。


最初ChatGPT推出的时候,支持自然语言对话的聊天机器人形式极大拉近了用户的距离感。但除了问一些基础的问题,普通用户对大语言模型这个新工具的使用其实非常有限。怎么才能让大模型更容易更恰当地使用呢?AI Agent给出了一种解法。


概括而言,大模型是工具,AI Agent是使用工具的工具。这就类似一个原本很大的数,可能不好处理。但如果你给它开次平方,它就会变得小很多。要是依然很大怎么办呢?那就再开一次平方嘛,这就相当于使用其他Agent的Agent。从递归的视角看,这其实给出了所有复杂问题的方法论,虽然只是理论上的。
回到这次发布会。钉钉这次推出的AI助理也是想解决同样的问题。


在过去一年里,钉钉的智能化“再创业”行动很快。先是在4月宣布全面智能化,随后用大模型对17条产品线做了重构。接着又在8月将智能化底座(AI PaaS)开放给生态伙伴和客户,并推出“数字员工”和多款场景及行业解决方案。虽然这个过程中方向因为对AI趋势认知的加深而有所调整,但迭代的主线只有一个,就是降低技术门槛推动智能化的普惠。


借助阿里的集团化优势,钉钉的AI能力建设是基于通义千问大模型的底座,因此通义千问过去一段时间的升级优化也直接传递给了钉钉。叶军昨天提到,钉钉底层的模型参数规模已经从最早的4B更新到了200B。

根据《新立场》在现场了解到的情况,钉钉这次推出的AI助理在上面提及的记忆、规划等能力上,都有着不俗的表现:

  • 感知能力。在获得授权后,AI助理可以获取你的工作上下文信息,如聊天、日程、待办、文档、任务、审批等信息,它将对用户工作的上下文、所处的位置和参与的事项获得深入地了解,并根据工作场景,自动完成日程安排、信息摘要、业务流程等任务的执行。
  • 记忆能力。AI助理通过不断学习记忆个人或组织专属的知识,在获得授权后以对话的方式,生成结果或开展数据分析、执行任务;它能在用户日常的使用中,结合上下文的短期记忆,来提升创作、会议、待办、生产数据等任务的生成与执行效果。
  • 规划能力。AI助理能围绕用户的需求目标,规划分解任务,并自动执行计划,调用相应的技能来逐步执行任务。
  • 跨应用程序的任务执行能力。AI助理可以与钉钉上的开放API、连接器、生态应用、自建应用无缝连接,帮助用户、企业在一个对话窗口,便可方便快捷地使用丰富工具。从现场的演示看,甚至它还可以借助开放接口,与钉钉外的视频、资讯、电商等各类第三方APP连接。比如,企业创建的差旅AI助理,可以根据指令在第三方平台完成差旅订机票、酒店、行程安排等工作。

当然,相较于AI助理这个产品本身,钉钉同时官宣的AI助理市场可能更为重要,因为它解决了资源复用和用户激励的问题。从形式上看,如今跟钉钉AI助理和AI助理市场最接近的产品,应该是OpenAI的GPTs和GPTs商店。不过跟OpenAI作为一个纯粹的技术公司不同,钉钉已经深刻参与了中国企业的数字化进程。这意味着大量的钉钉AI助理将直接受到实际业务的驱动产生,并且可以很容易地同企业现有的数字化流程整合,因而更贴近落地创造价值。这将是钉钉AI助理市场跟GPTs商店的差异点,即用应用和业务场景优势吸引用户加入,也让AI助理的创建者从刚需和高频使用的过程中获取收益。
比如相对传统的农食行业,由于很多知识和经验都是非标的,对不同岗位员工的培训需要耗费大量的时间。快消品销售员可能一个月就能背下产品说明书,但农食产品销售人员往往需要一年才能把各季的农产品摸透。针对这些痛点,农食企业佳沃借助钉钉AI能力,通过和佳沃自身知识库和业务数据相结合,创建了综合AI助理“小佳”,种植经验的交流、更精准的产量预测、更有效的仓储管理都能一站式解决。

02、 创意成为生产力,想到就能赚到

对于这场由大模型掀起的智能技术革命,我们今天仍然不能确切地知道它会把我们最终引向何方。然而我们可以确定的是,一场生产力的革命正在发生。


从人类进入工业社会以来,一个不可逆转的趋势是世界的分工逐渐变得越来越精细化。推动这个趋势发生的是两个方面的力量。一是因为分工可以大幅提升效率,带来更多的产出。二是因为随着社会的发展,这个世界运行的逻辑愈加复杂,客观上造成一个人再努力也只能理解它的一小部分,在极其有限的范围内发挥极其有限的作用。


然而,虽然这种分工机制在客观上是必要的,但同时也带来了一个棘手的问题:绝大部分事业不只需要个人的智慧和努力,更需要调动充分的资源才能办成。以最典型的内容行业为例,从想法到作品就得经历一个相当困难的过程。比如刘慈欣在娘子关发电厂,仅凭个人的闲暇时间就写出了《流浪地球》这部小说原型。但当郭帆想要把它拍成电影搬上荧幕的时候,数以千计的工作人员需要在幕后折腾大半年。


生成式大模型的到来正在改变这种状况。
不久前,一款名为Pika的人工智能视频生成工具爆火。这个由4名华人构成的创业公司,成立仅半年时间就获得了2亿美元估值。利用这款工具,只需要输入一段文字,给出对应的人物、场景、风格等需求,Pika就能生成你需要的视频画面。比如,输入“穿着太空服的马斯克,3D动画形式”,软件就会给出动画形象的马斯克,背后是腾空而起的一发火箭。


尽管从实际的使用体验看,目前类似Pika的视频生成工具还并不成熟,视频存在时长有限、分辨率不够、内容不合理等方面的问题。但一个确定的趋势是,在AI加持下,从想法到作品的巨大鸿沟将被弥合,并且不只限于视频,还包括其他艺术创作、软件开发等各个领域。对于拥有创意的普通人来说,未来一个人或者几个人就将等同于一支军队。
事实上,在很多科技公司内部,产品经理和研发团队的配比已经发生了变化:当AI能完成越来越多的研发工作,产品实现占据的权重就会逐渐让位给产品设计。


就其本质而言,钉钉这次发布的AI助理其实也是这个趋势的一部分。只要你有想法,创建一个AI助理只需要三步:

  • 为AI助理定制专属的名称、头像;
  • 选择特定知识库、文档或上传文件,对AI助理进行训练;
  • 为AI助理配置需要的AI能力,可直接选择官方能力,或者配置自定义能力。

自定义能力包含企业自建系统、第三方应用、钉钉生态应用等等,也包含配置各大电商、视频、新闻、搜索等等各类平台的开放API,实现开放连接能力。


AI Agent的普惠正在为人们抓住风口提供更强大的工具。
跟Pika这些着眼于特定任务的垂直软件不同,钉钉更多似乎想让用户在钉钉上长出一个个“Pika”。
钉钉为AI助理的创建预置了智能问答、图像生成、内容创作、数据统计等高频的官方AI能力,用户仅需简单配置后即可使用。针对开发者、IT团队,支持通过钉钉AI PaaS快速开发自定义的AI能力,通过钉钉开放的API、连接器,与SaaS应用、本地系统等原有系统连接;也可以获取外部平台的开放API后,连接购物、视频、外部网站等各类第三方平台。


在这个能力底座的支撑下,未来钉钉上将会涌现出大批的优秀AI应用,其中可能就包括了下一个Midjourney或者Pika,这是创业者不可错过的风口。


在大会现场,叶军还宣布启动钉钉AI助理创造大赛,激励企业和个人立足具体的业务、办公和生活场景,创建创新、实用的AI应用。每类场景按照不同的评审标准决出获奖者,分享百万奖金。除了奖金和奖项,参赛者在大赛过程中将获得专属的技术和社区支持,通过社区活动、社群交流获得更多创新灵感。

所以,那些有想法的普通人,首先可能需要的是转变思维方式。因为过去我们谈到创业时,不可避免地把它跟风险联系得很紧密,于是创业就带有赌的成分,需要有搏一把的勇气。但如我们上面提到的,这个逻辑在钉钉AI助理这个问题上并不适用,你的创意就等价于你的生产力。
创业从来最缺的就是idea,但幸运的是,这次也只缺你的idea。

03、写在最后

在9日的发布会上,总裁叶军给钉钉的AI超级助理订了个很直白的目标:计划在3年内打造1000万个AI超级助理。这个不小的数字显然不是拍脑袋决定的,三年前钉钉给低代码应用立了个相同的flag,到今天已经顺利实现。相较于低代码应用,AI助理无疑进一步降低了参与门槛,“人人都是开发者”进化到了“人人都是创造者”。所以《新立场》的预期是,“7亿用户造出千万助理”这事肯定会发生得更早一些。


但需要注意的是,寄希望于用AI赚钱的创业者现在已经有了行动的紧迫性。
钉钉庞大的生态和多样化的业务场景的确意味着丰富的长尾需求,所以无论是出于个性化或者技术尝鲜的目的,AI助理一定会层出不穷,长期保持“产能旺盛”的状态。然而对于创业者来说,发现机会、尽早入场、跟钉钉AI助理生态同步壮大成长才是搞钱的最佳姿势,你的创意和钱包都没必要等。

一文读懂 AI Agents 技术

今天来聊一下人工智能(AI)生态领域相关的技术 – AI Agents(AI 代理)。
想象一下:软件实体能够自主地与环境交互,根据收集的数据做出决策,并以最少的人为干预执行基于特定场景。幸好,借助 AI Agents 技术,这个现实比你想象的更接近了。这些智能代理正在彻底改变行业,并改变我们的生活方式。但是,大家可能会好奇:AI Agents 到底是什么?它们是如何工作的?在本篇博文中,我们将深入探索 AI Agents 的世界!
人工智能(AI)赋予机器具备判断和执行任务的能力,以协助人类在某些特定的业务场景中实现某项目标,从而显著改变了人机交互方式。在人工智能的核心体系中,我们可以关注到这些智能实体被称为智能代理(IA)的 AI Agents,能够感知环境变化并对其进行分析,以采取合理的行动来实现既定目标。
通常来说,不同类型的 AI Agents 旨在解决特定的挑战并完成特定的任务。对于构建有效且高效的人工智能系统来说,更深入地了解 AI Agents 的不同类型便显得至关重要。通过了解各种 AI Agents 类型,我们可以更好地理解它们的功能和应用领域,并根据具体需求选择最合适的 AI Agents。
AI Agents 可以是专门针对某个任务设计的,例如图像识别、语音识别或自然语言处理。这些 Agents 利用先进的算法和模型来解析输入数据并生成准确的输出。
另一类 AI Agents 便是通用型代理,它们具备更广泛的智能和适应能力。这些代理能够处理多种任务和领域,并具备学习和适应的能力。通用型代理通常基于机器学习和深度学习技术,通过从大量数据中学习和推断来改进其性能和表现。除此之外,AI Agents 还可以根据其交互方式进行分类。有些代理是自主的,它们能够独立地感知环境、做出决策并执行任务。另一些代理则是协同的,它们与人类用户进行交互,通过理解用户的意图和目标来提供帮助和建议。

1、什么是 AI Agents & Autonomous AI Agents? 
其实,自 20 世纪 80 年代计算机科学家开始探索如何开发可以像人类一样交互的智能软件以来,AI Agents 已经出现。从那时起,这个概念已经发展到包括可以独立做出决策和完成特定场景任务的智能代理。
AI Agents 是一种软件程序,旨在与其环境交互,感知接收到的数据,并根据该数据采取行动以实现特定目标。AI Agents 能够模拟智能行为,可以像基于规则的系统一样简单,也可以像高级机器学习模型一样复杂。AI Agents 使用预先确定的规则或经过训练的模型来做出决策,并且可能需要外部控制或监督。

相对于传统的 AI Agents,自主 AI Agents 是一种先进的软件程序,可以在没有人类控制的情况下独立运行。它们可以自主思考、行动和学习,无需人类不断输入。这些代理广泛应用于医疗保健、金融和银行等不同行业,使事情运行得更顺畅、更高效。它们可以适应新情况,从经验中学习,并利用自己的内部系统做出决策。
随着人工智能技术的不断发展,AI Agents 的能力和应用领域也在不断扩展。在某种程度上,AI Agents 已经成为许多领域中的关键工具,帮助人们解决复杂的问题和提高工作效率。通过不断改进和优化人工智能代理的设计和算法,我们可以期待更多智能、自主的代理出现,为各行各业带来更大的帮助和创新。
在过去的几个月里,AI Agents 引起了巨大的关注和人气。一个令人印象深刻的例子便是 AutoGPT,在 GitHub 上的星星数已经达到了惊人的 140,000 颗。这反映了大家对开源 AI Agents 项目的广泛兴趣和支持。
不仅如此,我们几乎每周都能看到新的公司成立,专注于 AI Agents 的开发和应用。这表明 AI Agents 领域正在迅速发展,吸引了越来越多的创业者和投资者的关注。
这个生态系统中的 AI Agents 种类繁多,从审查代码的代理(例如 Sweep AI)到像 Lindy 这样的虚拟个人助理,涵盖了各种不同的功能和应用领域。这些代理的出现为我们提供了更多的选择和可能性,能够满足不同用户和业务的需求。
为了更好地了解这个生态系统的现状,我们对 50 多个 AI Agents 进行了概览,并将它们汇总到一个列表中。这个列表包括了各种类型的代理,涉及的领域包括自然语言处理、图像识别、语音识别、智能助理等。我们对这些代理的功能、性能和用户反馈进行了评估和总结,以便为用户提供参考和决策支持。

2、AI Agents 通常都具有哪些特征因素 
通常而言,AI Agents 具有以下几个特征因素,具体表现为如下:
1、感知和理解能力
AI Agents 能够感知环境中的信息,例如图像、声音、文本等,并理解这些信息的含义和上下文。这涉及到使用传感器、计算机视觉、语音识别、自然语言处理等技术来实现对输入数据的解析和理解。
2、决策和规划能力
AI Agents 能够基于感知到的信息和存储的知识做出决策并制定行动计划,可以使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险,并选择最佳的行动策略。
3、自主学习和适应能力
AI Agents 具有学习和改进自身的能力,可以从经验中学习,并根据反馈信息不断改进自己的性能和表现。代理可以使用监督学习、增强学习、迁移学习等技术来获取新知识、调整决策制定和行动执行过程,以提高自身的智能水平和适应能力。
4、交互和沟通能力
AI Agents 能够与人类或其他代理进行交互和沟通,可以理解自然语言指令、生成自然语言回应,并使用语音、文字或其他形式与用户进行有效的交流。这涉及到自然语言处理、对话系统、语音合成等技术的应用。
5、知识表示和存储能力
AI Agents 能够组织和存储知识,并有效地检索和利用这些知识来支持决策和行动,可以使用符号逻辑、图形模型、向量表示等方式来表示和存储知识,并使用数据库或其他数据结构来实现高效的知识管理。
6、情境感知和灵活性
AI Agents 具有对不同情境的感知能力,并可以根据情境的变化做出相应调整,可以识别环境中的变化、适应新的任务要求,并灵活地调整决策和行动策略,以适应不同的场景和需求。
这些特征因素共同构成了 AI Agents 的核心能力,使其能够在各种任务和领域中展现出智能和适应性。然而,具体的 AI Agents 的特征因素可能会因应用领域、任务要求和设计选择而有所差异。

3、AI Agents 的内部结构是怎样设计的 
AI Agents 的内部结构可以根据具体的应用和任务而有所不同,但通常包括以下几个核心组件。关于 AI Agents 的通用型内部结构参考示意图,我们可参考如下所示:

针对 AI Agents 具体实现过程,主要涉及以下活动,具体:
1、 环境感知
首先,AI Agents 会通过传感器或其他数据源感知环境。传感器可以包括视觉传感器(如相机)、听觉传感器(如麦克风)、物理传感器(如触摸传感器)等。这些传感器帮助代理获取环境中的信息,例如图像、声音、位置等。
2、知识表示

在此阶段,AI Agents 使用适当的知识表示方法来组织和存储从环境中获取的信息。这些信息可能包括先验知识、学习到的模式或规则。常见的知识表示方法包括符号逻辑、图形模型、向量表示(如词嵌入)等。通过有效的知识表示,AI Agents 能够更好地理解和利用环境中的信息。
3、决策制定
基于感知到的环境信息和存储的知识,AI Agents 使用决策制定机制来生成适当的行动。这可能涉及使用逻辑推理、统计分析、规划算法或机器学习技术来评估不同行动的可能结果和潜在风险。决策制定过程旨在使代理能够选择最佳行动以实现其目标。
4、计划和执行行动
在这一步中,Agents 制定计划或一系列步骤来实现其目标。一旦决策制定完成,AI Agents 将执行行动并与环境进行交互。这可能涉及控制执行器(如机器人的电机)、发送指令(如语音助手的语音合成)或与其他代理进行通信。执行行动后,Agents 会观察执行结果,并将其用作反馈以调整下一步的决策。
5、反馈与改进

在完成上述的执行行动后,AI Agents 通过与环境的交互获得反馈。这些反馈可以来自环境中的直接观测结果,也可以来自人类用户或其他代理的指令和评估。Agents 使用这些反馈来学习和改进自己的行为。这可能包括使用监督学习、强化学习或迁移学习等技术来调整决策制定和行动执行过程,以提高代理的性能和适应能力。

5、AI Agents 应用于哪些现实场景下? 
在现实的业务场景中,AI Agents 在各个领域都展示出了广泛的应用,对日常生活产生了重大影响。

目前来看,主要体现在如下几个方面,具体:


1、自然语言处理
AI Agents 在自然语言处理领域的应用广泛而深远。例如,智能语音助手(如 Siri、Alexa 和 Google 助手等)利用语音识别和自然语言理解技术,使用户能够通过语音与设备进行交互、获取信息和执行任务。这使得人们可以轻松地控制智能家居设备、查询天气、发送消息等,极大地提高了日常生活的便利性。


2、机器人技术
AI Agents 在机器人领域的应用也十分显著。智能机器人能够感知环境、理解语音指令、执行任务,并与人类进行交互。这种技术的应用范围非常广泛,包括工业自动化、医疗辅助、家庭服务等。例如,智能无人驾驶汽车正在逐渐成为现实,它们利用感知技术和决策制定能力来实现自主导航和安全驾驶。


3、个性化推荐
在电子商务和娱乐领域,AI Agents 通过个性化推荐系统为用户提供定制化的体验。这些系统利用机器学习和数据挖掘技术,分析用户的历史行为和偏好,并提供个性化的产品推荐、音乐推荐、电影推荐等。这不仅提高了用户的满意度,还促进了销售和用户参与度的增长。


除了上述领域,AI Agents 还在医疗诊断、金融风险管理、智能城市管理等方面发挥着重要作用。医疗领域的 AI Agents 可以帮助医生进行疾病诊断和预测,提高治疗效果和患者生存率。在金融领域,AI Agents 可以通过分析大量数据和模式识别,帮助金融机构更好地管理风险和进行投资决策。智能城市管理中,AI Agents 可以监测交通流量、优化能源利用、改善城市规划等,提高城市的可持续性和居民的生活质量。


上述场景示例表明,AI Agents 在不同领域的广泛应用已经在改变我们的日常生活。随着技术的不断进步和创新,我们可以期待更多领域的 AI Agents 将为我们带来更多的便利、效率和智能化体验。


Reference :[1] https://www.simform.com/blog/ai-agent/[2] https://e2b.dev/blog/ai-agents-in-the-wild

2024年AI商业落地的十个方向

原创 甄科学 

轰轰烈烈的2023年AIGC元年结束了,心情有点复杂。

在国内,和年初ChatGPT炸雷带来的全民兴奋相比,AI并没有给普通人的生活带来多少改变。

AI——这个当之无愧的下一代信息技术革命,没像上一波移动互联网浪潮中的微信和滴滴打车,在一年的时间里实现“一夜春风来、万树梨花开”式的商业渗透。认真使用AI工具的人不多,现象级的AI产品完全没有出现。

在海外,ChatGPT以迅雷不及掩耳的速度斩获1.8亿用户,AI绘图软件MidJourney获得超1500万用户和数亿美元营收;微软的GitHub编程助手Copilot在9月份付费用户已超百万(含3万7千个组织订阅),多个小型APP号称获得数百万美元的订阅收入。

在硅谷和华尔街,逢人必谈AI。美股在AI芯片霸主英伟达和AI应用先锋微软的带领下,日日创出新高。

不夸张地说,若无AI,美国可能已陷入经济衰退;有了AI,美国走在了新一轮泡沫的路上。

比尔盖茨认为:在像美国这样的高收入国家,距离普通大众使用人工智能达到显著水平还有18到24个月的时间。在非洲,他预计在三年左右的时间里会看到类似的使用水平。据此预测,2024年美国会达到人工智能的“普惠”状态。

中国和美国的人工智能差距正在拉大。由于对英伟达GPU的禁令,全世界最紧俏的商品变成了英伟达的GPU或平替,甚至有人不恰当地把GPU比作超过毒品的新一代最暴利走私品。

和争夺土地、石油、黄金的战争一样,人工智能算力、算法变成了大国军备的新战场,也成为企业家和创业者的兵家必争之地。

时不我待,何以胜出?下文我主要采用AI在医疗、金融等严肃领域的实际需求案例,探讨AI在2024年从技术到产品商业落地的10个方向:1. 更强的多模态交互2. 可解释性更强的人工智能3. 更强的搜索增强生成4. 构造自动代理生态5. 更强、更经济节能的算力6. 更快的AI平民化进程7. AI与Web3结合的破局8. 打磨用户需要的“小”产品9. AI能力带入数据,而不是相反10. 获取用户对AI的信任

更强的多模态交互

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

在去年圣诞节,很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力,可以直接用中文和它对话。美中不足的是,总觉得GPT的中文发音是我国台湾人夹杂海外华人的腔调,有点像王力宏。

以医疗领域的需求看,病人拿到血常或肿瘤指标检查报告,想知道异常指标的意义。对自己负责的病人会上网搜索每个指标的含义。入冬以来儿童夹杂肺炎和流感,很多焦虑的家长会搜索检查结果的意义,往往费时费力,找不到准确的解读。

多模态技术的发展,可以让用户拍照上传检查报告,AI识别照片中的指标、搜索知识库、给出每个指标的含义,然后用语音告诉可能的诊断。这种体验太棒了。

在金融领域,如果上传一张K线图,AI就能识别出其形态,则可以极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域,如果能让AI读懂设计图,再设计出新的设计图,那就更厉害。

在非严肃领域,多模态会大大提高数字形象、短视频制作的效率,丰富这些应用的使用场景。

可解释性更强的人工智能

可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性,从而能够更好地理解AI如何作出决策。

当前的AI决策过程往往被视为一个“黑盒”,用户无法了解模型得出结论的内在逻辑。大语言模型最强大且是最神秘的“涌现”能力,亦无法被解释。无法被解释的决策过程,不可能在严肃商业领域获得信任。

AI看完检查报告,可以给出用药建议。如果不知道这个用药建议基于何种知识,也不知道AI做出推理和判断的过程,相信没有人敢用AI开出的药方。生命不能作AI概率游戏的试验品。

现举例说明。我问ChatGPT:

“如果换算成特斯拉的行驶里程,7200兆瓦时可以行驶多少公里?”

AI会告诉我它的逻辑——

为了估算7200兆瓦时(MWh)的电能可以让特斯拉汽车行驶多少公里,我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例,其能源效率大约为15千瓦时/100公里(即0.15千瓦时/公里)。

我们可以通过以下公式计算行驶里程:

总行驶里程=总电能(千瓦时)/每公里耗电量(千瓦时/公里)

现在我们可以计算7200兆瓦时(即7200000千瓦时)可以让特斯拉汽车行驶多少公里。我将进行计算(此处,AI写Python代码进行计算)。

使用7200兆瓦时的电能,一个特斯拉Model 3理论上可以行驶约4800万公里。

以上,AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。

AI在严密的数学推理已经取得某些突破。近期,数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁,数学家一定要会用AI。

可解释的人工智能的实现需要开发新的算法和工具,通过可视化技术、自然语言解释或简化决策逻辑的表示,以提供关于AI决策过程的深入洞察。

综上,可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域,决策的透明度和可信度至关重要,AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。

更强的搜索增强生成

搜索增强生成(Retrieval-Augmented Generation,简称RAG)是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。

RAG使得大型语言模型能够访问外部信息,帮助它们产生更准确、更具上下文意识的回应,其目标在于提高语言模型生成内容的准确性和相关性。

在RAG系统中,当模型接收到一个查询时,首先执行一个检索步骤,查找与查询相关的信息。然后,这些相关信息被融入生成过程,实现生成内容准确性和相关性的显著改善。

以病人的需求为例,我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁,但尿失禁到底是不是服药的不良反应呢?在药品说明书上找不到,医生也不确定。

朋友最初给AI的问题是“卡培他滨(Capecitabine)的副作用是否包含尿失禁?”

AI的回答是:“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状,如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的,如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。”

如果把提问改成:“搜索英文专业医学资料,卡培他滨的副作用是否包含尿失禁?”,AI开始自动用Bing搜索互联网,然后它真的搜到了多个医学文献。

AI说:“根据我找到的英文专业医学资料,尿失禁被列为卡培他滨的罕见副作用之一,发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用,尽管它并不常见。”

AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论,是更强的增强搜索要做的事情。

RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中,生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域,用户不能判断幻觉内容的对错。这导致AI的应用受限。

此处说一个题外话,为什么上面的例子需要指明搜索“英文”专业医学资料?因为在某些不指明英文的情况下,Bing搜索引擎用中文搜索,在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索,搜索到的结果大部分是广告和商业网站上意义不相关的信息。

中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此,和大模型相比,想办法打造更强的搜索增强生成技术,也许是在中文互联网开发产品致胜的关键。

构造自动代理生态

上面搜索增强生成的讨论,已经包含了自动代理的部分功能。

当AI经过自我学习和模型升级,当它了解到我总在搜索专业文献后,当我再次询问药物副作用同样模式的问题时,AI会自己启动搜索专业互联网的动作,而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。

自动代理是一种能够自动独立执行任务和做出决策的AI系统。这些代理展现了一定程度的自主性和主动性,能够理解其所处的环境、设定目标,并采取行动实现目标,不再需要人类额外指导。

有一个开源项目叫AutoGPT,它自动分解任务的动作,然后自动分步执行,就像自动执行上面的搜索任务一样。

自动代理在多个领域具有广泛的应用前景。

2024年的订外卖服务也许会变成:你只要和AI说中午订三份我常吃的外卖和客户一起吃,不要辣。AI会自动分析你常吃的外卖、剔除辣的;它知道你是和客户吃,要吃好一点、贵一些;它根据送达的时间和午餐的时间选择商家,然后自动买一份准时达保险。这些步骤在几秒内自动完成。

不止订餐服务,个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI,Siri会变成一个更高级的自动代理。现在,你只可以指示Siri打开一个app,Siri还有点愚钝。

自动代理和硬件结合,会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。

Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上,像校徽一样。它能够响应触摸、语音指令和手势,主要用于搜索和翻译信息、导航等功能,通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。

这意味着:未来的每个人都可以有一个随身携带的小秘书,它记录你的会议、见闻、聊天、思想,随叫随到,直到复制出你的数字生命,就像电影《流浪地球》里的数字生命一样。

显然,自动代理需要完整的闭环生态构建和安全管控,它需要打通交互、采购、物流、支付全环节。我相信在2024年,此闭环生态将露出雏形,重量级选手会入场。

更强、更经济节能的算力

当前AI发展的一个关键限制因素是对大量计算资源的需求。这不仅增加了成本,而且导致了巨大的能源消耗。

AI聊天工具导致大型科技公司的水资源使用量剧增。计算产生热量,进而需要大量水资源冷却设备。

有数据表明,由于AI产品(如ChatGPT)日益受欢迎,微软的全球水资源使用量增加了超过三分之一,达到了近17亿加仑。谷歌的水资源使用量也比前一年增加了大约20%,约为56亿加仑。研究员估计,使用GPT回答5到50个问题,大约消耗500毫升的水。

电力方面,根据估算,训练GPT4.0耗时150天,耗费电力720万度电,这些电够特斯拉行驶4800万公里。(这个换算是我在上文“可解释的AI”部分的例子。做任何事情,我都想用AI试试看,不试不知道,一试吓一跳。)

2024年需要更高效的AI算法以在减少计算资源需求的同时提高模型的性能。硬件方面,业内也在寻找新的材料和设计,如量子计算,以期实现更高效的数据处理、降低能耗。

在芯片禁令下,突破原有技术路径,寻找升维竞争的突破,可能是中国企业的机会。这需要强大的风险投资资本支持。

对GPU的需求刚刚开始。当全球有20%的人,每天使用AI的时候,GPU的需求将增长百倍。美股科技股的天花板还很高。能在中国实现GPU“平替”的企业可以赚大钱。

图片更快的AI平民化进程

这又被称为开发的民主化。它的含义是,AI的易用性使得人与计算机的深度互动简单到像聊天一样,几乎任何人都能够成为开发者。

AI开发的平民化意义重大。它意味着更多的人可以参与计算机产品的开发,不再局限于专业技术人员或拥有高级编程技能的人。

我本是一个做投资的,只有20年前大学C语言编程基础。因小孩喜欢画画,被AI绘画吸引误入AI的大坑。现在,我正在用GitHub AI编程助手和ChatGPT,用业余时间开发一个功能复杂的AI应用软件,我丝毫不觉得困难。在我和AI的共同努力下,AI正确写出了我需要的所有代码。

AI打破了计算机科学的技术壁垒,其实质是硅基生命向碳基生命敞开心扉,人类用自然语言就可以实现深度计算机技术的实现。

当大量不同背景的人都能参与到这场信息革命的浪潮中,此种多元化的参与带来了更广泛的视角和创新的可能性,必然极大加快人类技术爆炸的速度。

其意义重大程度,堪比近1000年来,人类完成的识字扫文盲运动。从第一封电子邮件发出,到人类普遍掌握互联网技能,用了数十年。而用多模态技术的交互方式,AI可以用3年时间完成高难度计算机技能向人类白丁的普及,速度加快十倍、百倍。

在平民化浪潮下,低代码、无代码平台、开源平台的发展至关重要。这些平台通过提供简化的编程接口,使非专业人士也能轻松构建和部署AI模型。

其次,用户友好的工具和界面的开发同样重要,它们能够降低AI开发的复杂性,使其更易于理解和操作。自动化和智能化的开发工具将极大地减轻人工编程的负担,提高开发效率。

预计2024年的AI编程工具将更加强大,平民化的进程会进入加速发展期。在AI的帮助下,一个没有编程基础的普通人可以编写出任何他想要的应用,如同文字扫盲运动让普通人不再需要找人代写信、自媒体技术发展让每个人不再需要找期刊投稿就能发表自己的观点。

当你有一个需求的时候,你自己就可以写出这样一个软件,不需要再去找商业软件——你完全个性化需求的软件。

回到医疗的例子,一个肿瘤病人,有过去30个月每周的检查结果数据,他想知道他的肿瘤指标变化的趋势。这些结果存储在医院的系统里,医院的信息系统不对病人提供历史数据摘录和比较功能。病人或家属需要手工摘录出每个异常指标,记录下来,划出曲线。有了AI,病人可以让AI写一个APP,每周把纸质的检验报告拍照上传,然后AI就自动识别结果,并更新画出变化趋势图。

在目前的软件范式中,用户需要寻找能满足自己需求的软件,软件开发者需要在很多人的差异化需求中寻找公约数,小众用户的需求不能被满足。AI平民化将从根本上改变人使用计算机的方式和软件开发行业的商业图景。

在AI平民化的浪潮中,中国有可能会尤为被动。在物欲横流的冲击下,中国没有像样的程序员社区,中国的教育体制培养出的是在AI时代被抛弃的程序员和知识搬运工,有科学专研精神的人不多,全民创造力无法被激发。AI平民化水平低的国家将在未来的生产效率和创造性竞争中,落后于AI平民化水平高的国家。

AI与Web3结合的破局

OpenAI创始人Altman支持的一个Web3项目是WorldCoin。WorldCoin运行在以太坊区块链上。它要做的是建立一个全球最大、公平的数字身份验证体系。为了区别谁是活人、谁是机器人,WorldCoin通过扫描人眼的虹膜来实现身份认证。到今天,已经有数百万人主动接受了WorldCoin的眼球扫描。如果不是区块链和数字世界的“原住民”,普通人很难理解这个项目的意义何在。

以区块链技术为基础的Web3在2022、2023年陷入低谷,Crypto市场处在慢慢熊市的尾端。技术信徒们的创业热情从Web3完全转移到了AI。

区块链作为数字世界的“生产关系”基础设施,和AI作为数字世界的“生产力”激发工具,有天生结合点。如果相信硅基生命的未来,硅基生命的载体应该存在于区块链上。

否极泰来,自2023年11月开始,区块链资产获得了巨大涨幅,热情被重新点燃。2024年,伴随区块链市场的复苏,AI和Web3在去中心化算力、AI经济价值的实现、智能合约自动化与优化、去中心化数据市场、个人隐私数据的使用、AI创作数字艺术品、数字孪生等方面,会找到突破点。

值得警醒的是,这种突破将快速产生暴富的机遇和归零的骗局。

打磨用户需要的“小”产品

AI时代的大平台、大公司将垄断基础设施,大语言模型的终局只会有2到3家企业和开源模型。AI创业者需要认清这个残酷现实,没有颠覆性的创新和极强的资本能力、执行能力,不要走向“一将功成万骨枯”路上的“白骨”之一。

基于此逻辑,大型科技公司将在平台战斗中巩固先机。从硬件到软件,在开发“+AI”产品的战役中,大公司的实力明显。基于此,AI将极大推动全球的资本开支、经济强势和科技股的牛市。

对应用型开发创业者,必须聚焦打磨用户需要的、完全AI原生的“小”产品。Web 2.0时代烧钱获得用户规模经济的打法不复存在。用户在APP上任何使用AI的动作,都需要支付费用,没有人会用免费模式烧这么多钱。

只有打磨出真正客户需要的产品,帮助客户提升效率的产品,才是王道。开发者需要从第一分钟开始,就有用户付费意愿认可。这种产品不怕小众。但是,由于AI开发平民化的快速发展,创业者开发出成功产品的难度越来越大。

而为了打磨产品,创业者最重要的能力是把需求产品化的能力,要跟上大平台快速迭代的AI技术发展,然后快速而经济地应用到产品需求中。

AI能力带入数据,而不是相反

英伟达金融行业高管认为,随着人工智能的进步呈指数级增长,金融服务公司将把计算能力带入数据,而不是相反。

并非只在金融行业。事实上,沉淀在企业和个人的优质数据已经足够庞大,问题是如何用AI能力全新地发挥这些数据的生产力。学术期刊数据库《知网》也推出了人工智能助手。开发者不需要守着金矿向外寻觅。

据麦肯锡公司称,像OpenAI的ChatGPT这样的深度学习算法,经过企业数据的进一步训练,每年可以在63个业务用例中增加相当于2.6万亿至4.4万亿美元的收入。巨大的金矿等待被挖掘。

开发者应聚焦用AI加持现存的有价值数据,满足用户的效率要求、让大数据在AI时代的场景中开始赚钱。

获取用户对AI的信任

让用户把更多的工作交给AI完成,需要AI获得用户的信任。

经过2023年的新鲜感,见惯了新鲜玩意儿,用户不想再把AI当玩具,而是想用它实现靠谱的真实价值。即使是情感陪伴机器人,也需要有血有肉有情感的真实体验。

能率先可控、准确、高质量地按照用户指示完成任务的AI产品将在2024年获得大发展。

与此同时,构建信任需要更多早期用户拥抱AI的意愿。一件新型事物的普及,如同一个石子投入池塘产生的涟漪。

AI是个新物种,产品开发人员和用户都需要学习如何和它相处。此种适应的过程需要工作方式、思维模式的根本转变。一件事情,如果不用AI试一下,则不知道原来还可以这样做。

比如,我写本文的传统方式是:阅读已有的AI技术和商业方向文章,加入个人思考,然后在文章末尾加上无足轻重的参考文献。而用AI写文章的方式可把顺序完全颠倒过来:先从参考文献开始,让AI阅读并写出参考文献的要点,我再取其精华,加入个人的思考。

这会不会涉及版权和“洗稿”呢?纽约时报在12月底,起诉OpenAI大量采用纽约时报的内容。纽约时报的内容被用于纽约时报的竞争对手生产新的内容。纽约时报认为自己是大冤种。

我认为,不管人还是AI,判断是否有价值内容的金标准是“独立而有价值的思想”。AI和人类的互信模式会和以往的互信模式不同。

工业革命中,机器的意义是帮助人摆脱了重复和繁重的“体力”劳动;AI智能的终极意义是帮助人摆脱重复的“脑力”劳动,帮助人更好的创新。在此目标下建立的可以信任的AI智能机器,可以跳出任何旧法律的束缚,而不应该受到惩罚。

自研大模型赋能终端 国产手机掀起AI普及风暴

自2022年11月ChatGPT面世以来,生成式人工智能的热潮已经席卷全球,成为各国科技领域角逐的焦点。

在这场全球范围内的科技竞赛中,以vivo为代表的中国科技企业积极参与其中。同时,我国也出台了一系列政策措施,支持人工智能技术的发展,推动人工智能与实体经济的深度融合。

2023年11月,vivo率先发布了自主研发的蓝心大模型BlueLM。仅一个月后,搭载这一革新性AI技术的vivo S18系列新品正式发布,迅速在市场中崭露头角,全渠道首销日销量为上一代的143%,助力vivo在2023年W51以16.21%的销量市占率,拿下中国智能手机市场销量份额榜首。

历代S系列,出货量都在数百万级。伴随着vivo S18系列全面开售,这意味着将有数百万用户在短期内迅速体验到AI这一前沿技术成果,vivo S18系列成为当下AI终端普及浪潮中的先行者和普及者。此外,从技术发布到产品落地,“vivo速度“引发行业广泛关注,在AI技术上的前瞻预判和深厚沉淀日渐浮出水面。

爆款引领AI终端普及

在5G普及的历史进程中,爆款产品起到了不可或缺的推动作用。它们不仅在技术上展现出领先的优势,更降低了新技术和新体验的门槛,赢得了广大消费者的青睐,使得新技术、新体验得以迅速走入千家万户。AI技术的普及,同样需要爆款产品的驱动。

vivo副总裁、OS产品副总裁周围曾公开表示,vivo希望利用蓝心大模型的能力,进一步重构系统,并通过智能手机的普及“让AI,走入千家万户”,为每一位用户带来更加智慧且贴心的体验。

据了解,至2021年,vivo S系列累计用户量就已经接近3000万。差不多三年时间,S就已成为中国手机市场中最成功的爆款系列之一。

vivo S18首销当日,一举打破了S系列历史首销增长纪录。vivo S18 Pro搭载vivo全新系统OriginOS 4,将行业领先的AI蓝心大模型深度融合,也将在本月13日开售。

作为全球首批AI大模型手机,vivo S18系列不仅展现了vivo在技术上的领先优势,更为AI技术的发展和普及注入了新的活力。行业领先的AI技术与S系列千万级的“规模效应”相乘,vivo S18系列将成为国内AI终端普及浪潮中的中坚力量。

技术驱动进化“智能体”

AI人工智能时代,手机变革的底层是大模型技术,呈现在用户面前的是交互和体验。扎根于vivo蓝心大模型,vivo S18 Pro走在了手机交互变革的前沿。

集成了基于vivo AI技术开发的首款全局智能辅助蓝心小V的vivo S18 Pro,绝非简单的对话工具,而是成为全能的、拟人的专属“智能体”,能在学习、生活、工作等场景切实为用户带来真正的改变。不需要思考怎么做,只需要告诉它你想要什么。

无论是文档、论文作总结和问答,还是文案创作,又或者是以文创图,都可以。同时,vivo S18 Pro也创新实现AI与影像的融合,能帮你将照片中误入的路人一次性消除,被路人挡住的画面,也能精准脑补还原。

这一切,都源自vivo自研AI蓝心大模型,它全面覆盖用户核心场景,在C-Eval、CMMLU等榜单中均处于中文大模型的第一梯队。

在其他方面,也是如此。从颜如玉、山海青到vivo S18系列花似锦,每一代都有行业首创的技术工艺突破,完成了中国设计语言的现代表达。同时, vivo S18 Pro在拍人这件事上向X系列旗舰看齐,100%继承旗舰同款算法,打造影棚级人像。

正如vivo高级副总裁、首席技术官施玉坚所讲,深厚的技术沉淀是vivo发展的根本,而只有让这些技术走近普罗大众,为用户带来极致体验,才能实现最大的价值,这也是vivo的本心所在。

当前,AI人工智能技术的普及正在深刻改变我们的生活。而中国企业如vivo正通过自主创新推动这一变革。全球首批搭载自研AI大模型、用现代工艺演绎中国设计、以影棚级人像定义人像新标准的vivo S18 Pro,不仅是行业AI终端普及者,也是S系列最强Pro,更是中国企业自主研发和科技创新的成果展示。

从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉

现有的大规模语言模型(LLM)在众多任务中取得了惊艳的效果,但它们在实际应用时仍然会出现生成与事实不符的内容。这种现象如今通常被称为“幻觉”。幻觉问题在真实场景中可能带来严重的后果,大大阻碍了大语言模型的落地。

来自苏州大学和腾讯 AI Lab 的研究者近期提出了一种简单有效的幻觉消除方法。他们首先尝试了从已有的 LLM 中诱导幻觉,构建了一个在事实性层面薄弱的 Weak LLM。在解码时,再将 Weak LLM 中所蕴含的幻觉模式从原有 LLM 的输出空间中消除。

具体而言,他们采用了对比解码(Contrastive Decoding, CD)策略将 Weak LLM 的输出分布从原 LLM 的输出分布中减去。这一先诱导再对比的幻觉消除解码算法被作者们称为 ICD 算法(Induce-then-Contrast Decoding)。


作者们在 TruthfulQA、FactScore 等常用的判别式和生成式幻觉评测集上对 ICD 算法进行了测试。实验结果表明,ICD 均能有效提升原模型输出的事实性,减少了幻觉。在 OpenAI 提出的权威幻觉评测集 TruthfulQA 上,使用了 ICD 算法的 Llama2-7B-Chat 和 Mistral-7B-Instrcut 分别可以和现阶段最优的 ChatGPT 和 GPT4 接近。

论文题目:Alleviating Hallucinations of Large Language Models through Induced Hallucinations

论文链接:https://arxiv.org/abs/2312.15710

GitHub地址:https://github.com/HillZhang1999/ICD

怎么诱导幻觉

作者通过构造幻觉数据,并用其微调原始的 LLM 诱导幻觉构建 Weak LLM。这一策略近期也在 LLM Safety 领域被应用,一些研究者们发现即使是对齐后的 LLM,其安全机制也很容易在少量的微调后被轻易攻破。为了构造幻觉样本,作者们基于现有的事实正确的句子,通过少样本提示策略,让 ChatGPT 自动去修改其中的事实,从而构造大量编造的幻觉样本。

如何利用诱导出的幻觉消除最终的幻觉

作者们使用了对比解码的策略,将诱导幻觉后的 Weak LLM 的输出分布作为惩罚项,来干预原始 LLM 的结果生成。

基于自回归结构的 LLM,其解码过程通常可以建模为:

其中, 是被原始模型  预测出来的下个词的分数分布,并通过 softmax 操作将其转换为概率分布。
为了减少 LLM 的幻觉,作者希望奖励原始模型  的预测结果,而惩罚诱导幻觉后的弱模型  的预测结果,因此,对比解码的过程可以建模为:

可以看到,该算法将 Weak LLM 的预测分布从原始模型中减除。为了控制对比的力度,此处作者额外引入了一个超参数 。最终,可以对上述分布采用归一化,使用得到的新概率进行下一个词的解码预测:

此外,ICD 算法还采用了一种名为自适应合理性约束(adaptive plausibility constraint)的策略,来缓解过度的对比。由于弱模型仅仅在事实性方面效果下降,但在语法等层面仍然保持了原有的能力,所以一味的对比可能导致模型生成内容的崩坏。因此,作者使用自适应合理性约束,仅在原始模型不确定的位置进行对比。更多具体细节可以参考原始的论文。

实验结果

作者们在 TruthfulQA 和 FactScore 两个主流的幻觉评估基准上对 ICD 方法进行了测试。

TruthfulQA 是 OpenAI 发布的采用误导性问题评判语言模型幻觉的数据集。在 TruthfulQA 上,作者采用了多项选择的评估形式,并使用了官方的 MC1/2/3 指标。为了进行对比,作者也实现了原始的贪心解码,以及一些现有的解码策略,如推理时干预解码(Inference-Time Intervention, ITI),层间对比解码(DoLa),和对比不同尺寸的模型的原始对比解码(naïve CD)。

如表 1 所示,基于微调方式诱导幻觉的 ICD 方法,大大提升了 Llama2-7B-Chat 在 TruthfulQA 上的性能,并超越了前人设计的其他解码算法。此外,作者也探索了其他诱导幻觉的策略,例如使用误导性的提示词和直接对比对齐前后的模型,发现这些策略均能带来提升,但效果距离微调还有一些差距。

FactScore 是在人物传记生成任务上评估模型生成结果的事实准确性的数据集。如表 2 所示,作者提出的 ICD 方法也同样提升了 Llama2-7B-Chat 的事实准确性,使其超过了使用贪心解码的 Llama2-70B-Chat。

不同模型规模的有效性

在 Llama2-7B-Chat 以外,该论文额外在 13B 和 70B 版本上测试了 ICD 算法。这里用于对比的 Weak LLM 仍然是 7B 的规模。如表 3 所示,ICD 算法在不同尺寸的模型上展现了稳定的有效性,并且随着模型尺寸的增大,提升效果也有增大的趋势。这可能得益于 ICD 算法(诱导幻觉前后对比)和原始 CD 算法(模型尺寸对比)思想的结合。

不同模型基座的有效性

在 Llama2-7B-Chat 以外,论文也额外在 Baichuan2-7B-Chat 和 Mistral-7B-Instruct 上测试了 ICD 方法。如表 4 所示,ICD 算法在不同模型基座上也带来了稳定提升。并且在 Baichuan2 和 Mistral 上的提升要大于 Llama2。作者猜测这两个模型在许多榜单上超过了Llama2,而 ICD 算法或许能有效地利用效果更强的模型。

与直接用高质量数据微调的对比

ICD 算法需要两个步骤,即诱导和对比。论文额外探索了如果直接使用高质量的 SFT 数据微调模型,是否也能减少模型的幻觉。因此,作者使用了同等数目的幻觉数据和事实数据,分别用于 ICD 算法和直接微调,并进行了对比。

在表 5 中可以看到,ICD 算法提升了原始模型的事实性,而直接微调不仅没有提升,反而引入了更为严重的幻觉。作者猜测这一有趣的现象可能源自于 SFT 阶段的行为克隆,即如果直接教大模型回复任意的问题,而不去评估这些问题是否超过了其能力边界,单纯的行为克隆反而会教会大模型编造事实。表 5 中,这一问题也从直接微调后大模型的回复率急剧上升得到了佐证。

总结

在本文中,作者提出了一种先诱导幻觉,再利用对比解码将诱导出的幻觉消除的 ICD 策略,在多个幻觉评测基准上显著提升了性能。

然而,ICD 算法目前也存在一些限制。例如,它需要两次前向传播,导致推理时延增长。目前 ICD 算法是否会影响原始模型的其他能力,也尚未得到全面的验证。

此外,ICD 算法也提供了一些有趣的研究方向。例如,它可以和检索增强等其他幻觉消除方法结合,对比弱模型和检索增强后的强模型,或许可以带来更大的性能提升。也可以参考混合专家模型(MoE)的思路,训练多个弱模型和强模型,在解码的过程中动态对比。这些均需要研究者们在未来进一步探索。

GoogleX创始人预警:三年内,AI能在所有领域与人类智力工作者媲美

新一轮AI革命影响正深刻影响人类社会。在通往下一代通用人工智能(AGI)时代的道路上,在短期内可预见的人机深度共存的世界里,我们当下既有的社会行为和社会规则,会发生哪些革命性的颠覆?

北京时间12月1日上午,在钛媒体2023T-EDGE全球创新大会·加州分会场上,谷歌无人车之父、Google X实验室创始人、Sage AI Labs首席执行官塞巴斯蒂安·特伦(Sebastian Thrun)就新一轮人工智能所引发的革命,首次发出全新的重磅预警。

在题为《人工智能新时代》(The New Era of Artificial Intelligence)的主题演讲中,特伦认为, AGI是一种与人类智慧相媲美的智能版本,我们在某些领域,我们已经实现了AGI。但是,我们尚未拥有的是,一种可以完成所有这些任务的人工智能。

基于在人工智能领域20多年的深耕,特伦表示,未来三年内,以下五大需要依靠人类智力的工作领域将会被颠覆,我们将看到AIGC在所有领域中都能与人类的智力工作者媲美,这意味着,所有的工作都将发生变化,没有一个工作将不受影响。

医疗行业

放射学、皮肤癌等许多领域中的诊断AI系统,能够在人们发现症状之前很久就发现潜在的致命疾病;AI可以提供个性化精准医学,根据你的背景、你的DNA以及你的个人特征量身定制的,以在最小的损害下产生最大的影响,放弃“一刀切”的时代;AI在药物研发上也起到了巨大的作用。

法律行业

AGI已经能够通过加利福尼亚州的法律入学考试,在表现上已经不逊于任何一所领先的法学院毕业生。律师工作中,与发现相关的,试图找到必要的事实,进行研究和起草文件,现在都可以由人工智能胜任。

汽车行业

我们现在拥有的汽车可以更自信、更安全地驾驶,比人类驾驶更为出色。

客服行业

客服中心的人工智能工具,可以提取最优秀的客户代理的最佳行为,提升14%的生产效率。

教育行业

AI导师可以提供个性化的指导,AI能够真正深入理解每个学习者,而且,它们可以在白天和黑夜中立即做出响应。

这也意味着,我们将重新定义社会的行为和运作方式。有的AI在我们这一边,它们可以代表我们并为我们服务,我们可以信任它们,这将是有史以来对社会的最大颠覆。(点击文末阅读原文,查看完整演讲视频)

以下是塞巴斯蒂安·特伦在钛媒体2023 T-EDGE的演讲实录,经过钛媒体APP删减:

大家好,我的名字是塞巴斯蒂安,欢迎大家来到今天在北京召开的T-EDGE大会,非常遗憾,我无法现场参加,但我还是很高兴能以这样的方式与大家见面。

我们来谈谈2017年,那时谷歌的Google Brain团队发布了一篇题为“Attention is All You Need” 的论文,它利用了相同的机器学习思想,应用于更广泛的架构,有效地将分散的数据库和机器学习结合起来,引发了一场革命。

今天,当我们看到像GPT-4这样的现代系统,接管并能够在人类水平上有效执行时,我们都能感受到这场革命,这是其中的架构,我就不花时间解释它了,因为它很复杂,有很多层,但我建议大家深入研究并完全理解它,因为这是一项出色的工作,这种架构能够将机器学习应用于大量的新系统,包括在这种情况下,词典和数据库。

现在我们都亲身经历了最近的事件,即GPT的出现,作为一种与计算机互动的新方式,在很多方面,GPT是对技术的渐进性理解,是一种演变,在技术方面,对这项技术能做什么的理解一直在进化。

今天的问题是,GPT是人工智能领域的一个“黑天鹅”事件吗?

解释一下什么是“黑天鹅”事件?这个术语的提出是因为黑天鹅很少见,发现一只黑天鹅意味着一个巨大的惊喜,在计算机领域,我一生中已经经历了两次黑天鹅事件,一次是互联网的出现,最后一次是iPhone的发明。

互联网首次使人们能够在数字化的世界中跨越海洋和许多国家无边界地进行交流,iPhone的出现更进一步,将互联网放入了你的口袋,创造了新的业务,如Airbnb、Uber以及中国的滴滴。

因此,这是完全可以想象的,在接下来的20年里,我们将看到全新的公司崛起,全新的商业模式涌现,这对于人类来说将是完全伟大的,今天有大量的应用正在被人们追求。

显然,当你看到大型语言模型中的转换器时,你会发现它们以前所未有的方式回答问题。因此,如果你的业务涉及客户互动以及客户进行研究并提出问题,你现在可以重新定义这种互动的方式,总结大量信息并以我们理解的形式呈现。

为什么一本书要有300页呢?为什么你不能在按下一个按钮的同时将这本书缩短到10页?你可以在10分钟内阅读完它,起草文件方面,你已经看到GBT在起草文件中的无与伦比的能力,如果你还没有看到,请访问GPT或任何其他人的工具箱,要求它为你起草法律文件、一首歌曲,或者一首爱情诗,无论你需要什么,它都可以为你起草。

机器翻译方面,GPT可以翻译成90种不同的语言,现在的语音识别水平非常好,与一个以母语为基础的说话者相比几乎无法比拟,这意味着你可以用任何你想要的语言进行交流,我可以与我们的中国保姆流利地用中文交谈,但与我的手机交谈时使用英语,这现在有了出色的口头和书面汉语写作软件。

我们相信这是软件工程师中智能的巅峰,你现在可以使用任何语言进行编码,你拥有一个工具箱,可以使你的代码速度提高10倍,甚至我们认为是独特的人类事物,比如创造性地生成艺术。

我稍后会举个例子,人工智能现在与人类表现竞争,以展示我们应用这些技术的我的工作的例子,利用人工智能的主要方式之一是一家名为Cresta的公司,我与我的学生们一起经营了5年。

在Cresta,我们提供给客服中心的人工智能工具,这些是在呼叫中心和客服中心工作的人员,他们与客户打交道,向客户销售产品,处理客户关注事项以及客户服务和留存,现在,正如每个呼叫中心操作员都知道的那样,一些呼叫在业务中是极好的,而其他一些则不太理想,这与他们的能力、技能水平和教育水平有关。

通过人工智能,他们可以提取最优秀的客户代理的最佳行为,每当一个客户代理满足了客户,我们就有一个积极的训练示例。然后,我们训练人工智能大脑,这个大型语言模型,以理解构成出色客户互动的要素,然后利用这个训练信号来赋能所有人。

麻省理工学院和斯坦福大学刚刚与该领域的合作伙伴共同发布了一项大规模研究,我们将立即看到一个14%的生产力增加,虽然这个数字看起来很小,我对这个数字感到比较失望,考虑到美国每年在呼叫中心和联系中心花费数十亿美元,这仍然是一笔巨额资金。

我还将大语言模型用于教育。教育的痛点是获得个性化的指导,有一个理解你的人,以你的速度和知识水平为你进行个性化培训,以确保你和你的孩子在教育领域的能力得到充分展开,在我创办的全球科技教育公司Udacity中,我们今年春天从人类导师转向了AI导师。

虽然AI导师可能还不如人类导师那样出色,但它们仍然要好得多,并且在某些方面更胜一筹,因为它们真正深刻理解每个学习者,而且,它们可以在白天和黑夜中立即作出响应,在我们基于大型语言模型推出AI导师的那一天,我们的互动和参与次数从每天200次增加到了20000次,这对于将AI系统变成个性化导师有多大的差异呢?

这只是开始,我梦想着一个世界,每个世界的孩子,每个世界的人都能发挥他们的全部潜力,因为他们身边有一个几乎不需要花费就能建立的AI导师,让他们有学习任何他们想学的东西的能力。

因此,他们的唯一限制不再是我们居住的地方、成长的地方或能在教育上花费的钱,而是我们可以共同参与全球最好的教育,无论年龄、背景或地理位置如何。

这将是一场改变游戏规则的革命。现在还有许多其他方面,人工智能将改变人类健康,我已经提到了今天在放射学、皮肤癌等许多领域中的诊断AI系统,它们能够在人们发现症状之前很久就发现潜在的致命疾病,让我们提醒大家,癌症是一种可治疗、可治愈的疾病,只要你能早日发现它。

此外,你将会看到个性化精准医学的时代,其中药物是根据你的背景、你的DNA以及你的个人特征量身定制的,以在最小的损害下产生最大的影响,放弃“一刀切”的时代,进入个性化精准医学的时代,将对医学产生深远的影响。

最后,AI在药物研发上起到了巨大的作用,原本需要数周甚至数月的工作,现在在药物设计的关键方面只需一毫秒,在这个过程中,美国和中国已经涌现出了许多可靠的公司,让我们认真追求医学的圣杯,延缓衰老的治愈方法,想象一下,如果找到一种能够阻止或减缓衰老的方法,并给予人们更长更美好的生活,你不正掌握了有史以来最大的商机吗?

现在,人工智能将影响许多其他职业之一就是法律职业,这很重要,因为至少在美国,律师的费用非常昂贵,我为我最优秀的律师每小时支付大约1000美元。这是一大笔钱,相当于其他人一个月的收入。

那么它是如何影响法律职业的呢?很大一部分律师工作与发现相关,试图找到必要的事实,进行研究和起草文件,所有这些事情现在都可以由人工智能非常非常胜任,现在有许多人工智能公司涉足这一领域并提供相关服务,但是随着发展,人工智能甚至可能做得更多,它可能成为你的律师,你解决冲突时的法官。

今天,每一次人类违规行为都受到某种法律背景的约束,这可能是一份合同、一项法律,或者只是一种惯例,几乎所有这些互动都缺乏对了解法律的人的深刻见解,在未来,法律可能成为一个全包容的主题,每天影响着我们所有人,并通过更加遵守和更深刻理解运营规则来使我们变得更好,但最终目标将是AGI,这将改变我们所有人。

什么是AGI?AGI是人工通用智能的缩写,它是一种与人类智慧相媲美的智能版本,我认为我们在某些领域已经实现了AGI,我们现在拥有的汽车可以更自信、更安全地驾驶,比人类驾驶更为出色,通过加利福尼亚州的法律入学考试,这些人工智能系统在表现上已经不逊于任何一所领先的法学院毕业生,这些毕业生成为了加利福尼亚的律师。

但我们尚未拥有的是一种可以完成所有这些任务的人工智能,我认为在未来三年左右,我们已经非常接近,在三年内,我认为你将看到人工智能系统在所有领域中都能与人类的智力工作者媲美,这意味着所有的工作都将发生变化,没有一个工作将不受影响,这意味着我们将重新定义社会的行为和运作方式,有了人工智能系统在我们这一边,它们可以代表我们并为我们服务,我们可以信任它们,这将是有史以来对社会的最大颠覆。

一切都源于这个非常简单的想法:计算机是否可以接受培训?它们是否能够学习?

答案是肯定的。可以通过给出两个例子,其中一个例子来自最近的一篇论文,类似于智能体系的计算,这里展示的是一个对数图,其中在所有三种情况下,水平和垂直线都以对数形式水平表示,是复杂性的度量,比如用于训练网络的计算量,输入网络的数据大小通常为数百亿份文档,垂直方向上找到的参数数量是测试规律,通过测试规则,我们衡量这些网络犯错误的数量。

某种测试涵盖了英语语言测试、法律测试,或者是用对数形式表示的自动驾驶汽车的驾驶测试,从历史上看,所有这些系统都表现为一条直线,这为什么很重要呢?因为随着时间的推移,我们的系统将呈指数增长,这要感谢摩尔定律,因此,水平对数形式基本上是时间的刻度,同时也意味着随着时间推移,我们的损失、误差率将呈指数下降,它们变得越来越小。

因此,我们生活在一个世界中,看到随着时间的推移呈指数级别的进步,多亏了这个被记录的现象,决策变得越来越好,我们看不到它停止变得更加聪明,只是时间问题,它们比我们所有人都更聪明。

我自己也包括在内,一旦我们有了人工智能伴侣,我们在今天所做的事情上将提高100倍的效率,这意味着你和我在两周内所做的事情可以在1小时内完成,这不是令人惊奇吗?这将会发生,我希望在我的有生之年(内),这意味着将为我们所有人提供更多的创新机会,更多的创造力,发现更多我们迫不及待想要开始新生活的事物。

非常感谢!

(本文独家首发钛媒体APP)

CES2024:ChatGPT 已经杀疯了,AI海啸已来!

如果你在等待为了平息关于生成式人工智能的喧嚣,也许可以拉一把椅子。围绕人工智能的热潮丝毫没有平息的迹象——这一事实将在今年的 CES 上变得更加明显。

美国消费电子行业盛大的年度盛会 CES 将于 1 月 9 日重返拉斯维加斯。这是一场为期四天、熙熙攘攘的大型科技集市,展厅里摆满了新产品和充满希望的初创公司,以及触手可及的原型。CES 是一个贸易展,在这里签署销售和分销协议,概念车在拥挤的街道上滚动,科技记者和参观者在地板上徘徊寻找杰出的新产品。今年,许多首次亮相的产品都将配备大量人工智能技术。

多年来,生成式人工智能技术在公众意识的表面下浮现。它终于在 2022 年 11 月成为众人瞩目的焦点,当时 OpenAI 发布了ChaptGPT的第一个迭代。闪亮的新型聊天机器人的到来拉开了人工智能军备竞赛的序幕。由于到去年 CES 举办时,这次爆发的余波尚未完全饱和科技行业,因此去年 1 月在拉斯维加斯并没有进行太多关于 GenAI 的讨论。因此,事后看来,CES 2023 看起来几乎是原始的,比移动电话以来最伟大的技术革命晚了不到六周。

到 2024 年,情况将不再如此。“去年,我们没有像预期那样在 CES 上发布完整的人工智能公告,”Moor Insights & Strategy 首席分析师 Anshel Sag 表示。“如果你认为去年是波浪,那么今年将是海啸。”

预计在 CES 上人工智能将无处不在:汽车、踏板车、耳机、相机、扬声器和电视。在某些情况下,这些产品将仅包含另一种访问 ChatGPT 式问答服务以处理语音命令的方式。但在其他情况下,这些进步可能会更具影响力。英特尔、高通和 AMD 等公司预计将推出支持人工智能服务的芯片。这些芯片将在本地处理人工智能任务,而无需向云中的服务器发送请求,然后等待响应,从而使计算机视觉、语音到文本服务和生成计算等功能变得更加快捷。

CES 是围绕行业趋势进行叙述的地方。Sag 表示,随着本届 CES 人工智能的丰富,这很可能会发生。“人工智能将会压倒一切,”萨格说。“它将变得如此普遍和占主导地位,以至于有些人会厌倦它。”

所以您准备好了吗?AI不会替代所有人,但是可能会替代不会用AI的人!

AI创业公司扎堆义乌“淘金”

2023年上半年人见人爱的大模型,逐渐“失宠”。前有百度创始人李彦宏说“重复开发大模型是资源浪费”,后有百川智能联合创始人洪涛说“99%的行业大模型都可能被替代”。

百模大战后,比参数拼评分乏力的大模型创业者们,逐渐“醒悟”:卷AI原生应用才更有价值。互联网大厂直接将态度体现在行动上:百度亮出20多款AI原生应用、抖音正式上线AI创作功能、吴泳铭接棒阿里“一号位”,开启淘天的AI时代……

初创企业也纷纷在各大论坛、路演中施展拳脚,成百上千的AI应用,将触角伸向电商、金融、游戏、办公等领域,包括但不限于AI绘画、AI翻译、AI视频等工具。

然而,从9.9拍写真的妙鸭相机,到跨语言翻译视频的HeyGen,大多数AI应用产品,难以摆脱公域流量出圈即顶峰的宿命。“昙花一现”的背后,问题指向了商业化落地,场景则是绕不开的关键因素。

被众多掘金者称为“创业天堂”的义乌,近期吸引了众多AI创业公司前去“淘金”。

不是北上去不起,而是义乌更具性价比

“前方到站是义乌,请下车的旅客提前做好准备。”感受义乌的人流,是从火车站听着行李箱拖动的声音开始的。2023年伊始,不少从互联网大厂裸辞、刚毕业的年轻人,疯狂涌入“世界超市”义乌,他们目标很明确,创业、淘金。

在小红书、抖音等社交平台,#裸辞,义乌创业#的帖子成为新的流量,攻略、见闻类评论如影相随。2023年8月,义乌市场经营主体突破100万,而义乌的常住人口不到200万,也就说2个人里,可能就有一个是创业者。

这里不是一线城市,试错成本低;一年发出超100亿的快递,产品销往世界各地;多年营造的营商环境,让每个人都有机会重新开始;就在今天(1月2日),浙江省科创母基金(二期)落地义乌,规模超30亿,鼓励科技创新……始终充满活力,或许这些就是吸引大家前往的原因。

前赴后继的创业者不计其数,义乌因此被称为“民间商学院”,它用持续增长的数字告诉大家:“义乌值得”。今年前11个月,义乌进出口总值首次突破5000亿元,达到5221.2亿元,同比增长18.1%。只是,这样的增长并没有让当地商户心安,即使是自己工厂的进出口销售额同样在增长。

这种不安情绪并非无中生有,近些年,整体供应链优势仍在,但原材料、人工等成本上涨,加之全域电商兴起,渠道变迁导致订单呈现“小而散”的特征,传统工厂正在失去曾赖以生存的低成本优势,同时流量贵、运营转化变低始终是缠绕着中小商家的难题。

2023年初ChatGPT的火爆,让AI获得前所未有的关注度,不少义乌商家也嗅到AI工具能在运营、办公、营销等方面,节省一定的人工成本,并通过不同途径试水。商城集团同样看到了AI给传统贸易带来的机会,决心投身其中的同时,深入思考“义乌有什么,义乌能做什么。”

40多年来,义乌凭借着“一盘好货”吃到了后端供应链的红利,但不得不承认在前沿科技面前缺乏技术基因,加之大模型自诞生起就意味着需要大量资金投入,自研大模型并基于模型开发AI应用,是一件性价比极低的事。

深入思考后,义乌商城集团与人民网、腾讯、清华大学等机构,达成战略合作,发布全球首个商贸领域大语言模型。具象的表现为Chinagoods AI 2.0的升级,众多AI创业公司抢先入驻。

专注抖音飞书AI协作和新媒体带货的企联AI,就是首批入驻的创业公司。在义博会现场,该公司市场总监邵雄与超100名义乌商家建立了联系。他感知到不少商家有心用AI工具去弥补企业在发展过程中遇到的瓶颈,但无力去落地,一方面大多数中小微企业没有足够的人力、财力自研AI工具,另一方面是工具使用的门槛和自身能力的限制。

这与当年小程序诞生类似,几乎所有人对小程序的架构、能力边界、应用场景都十分迷茫,企业独自摸索,小程序如蜗牛般向前发展。直到微信服务商的出现,一边掌握小程序的底层架构,一边对接企业帮助其打造专有小程序,在微信生态实现获客、交易、留存。

微盟、有赞的脱颖而出,从侧面印证着服务商存在即合理。进入AI时代,亦是如此,市场可能不需要太多大模型,但需要更多AI服务商。灵图科技是专注AI图文处理的服务商,为义乌小商品定制AI图文处理及商品详情页生成。

珠宝饰品是义乌的支柱产业之一,灵图科技联合创始人何道婷介绍道,饰品是占画面面积非常小的物体,另外有的吊坠、手链采用镂空设计,导致AI生成商品图时技术难度大。

在精细度上下足重功夫的灵图科技,认为义乌市场和他们的契合度极高。而伴随着义乌饰品商家使用其产品次数更多,新的需求和中间出现的问题也将推动他们的产品不断迭代。 

这与卓奥优效的王童生不谋而合,其公司主要是为企业提供品牌营销方案,在他眼中,义乌本身的供应链完整,需求明确,可以有效减少沟通成本。其次是义乌不少品类形成大规模,有了标杆案例后,能更好切入整个行业。

放眼全球,义乌市场都是极具代表性的传统贸易市场,能提供“丰富AI原生应用”场景,专注智能对话与私域运营的句子互动就把义乌看作最大的落地场景,从商品数字化、创意生产、智能发布到智能客服等更多环节,AI技术都能渗透。

拥有“小商品大流通”应用场景的义乌并不想“吃独食”,反而以开放的态度欢迎服务商来义乌。因此,被贴上“高大上”标签的AI创业公司,扎堆到义乌淘金,更加顺理成章了。只是在人人都高喊AI之际,市场中的声音也复杂起来。在机会和乱象中的一次赛马

花开两朵,各表一枝。

虽然都是AI应用,但在义乌不同服务商讲述着不一样的故事。走在街头随处可见的AI数字人广告、AI翻译的名片;接二连三的营销电话,告诉你888元/套方案,连续包月还有折扣……

走访义乌产业带时,有部分商家向鲸商透露,被不少AI应用服务商骗过了:产品五花八门,效果不明显,售后也比较困难,就是一个大坑。

市场乱象也在特看数字人产品经理清慎那得到了验证,他在服务客户中了解到,上半年市场上涌现出了一群AI应用代理商,天花乱坠地说数字人直播能赚多少钱。“打着帮你赚钱的旗号割韭菜。

乱的背后,是行业标准不统一的表现,也是机会面前,大家都想分一杯羹的野心。2000年前后,马云创办的“中国黄页”是中国第一个提供互联网商业信息发布的网站,在这之后无数门户网站如雨后春笋般冒出。

当时义乌商家乘着中国加入世贸组织的东风,纷纷加码出口业务。面向复杂国际市场,很多商家不知所措。能解决企业贸易间的信息匹配问题的网站,成为不少商家的一种“解惑思路”。

一帆日用品创始人朱燕俊曾向鲸商回忆道,当时很多地推的销售员上门推销产品,起初都是抱着试一试的心态,后面发现理想与现场差距很大,久而久之选择了取消这部分的投入。一帆并非个例,这些良莠不齐的网站也逐渐不复存在。

回头来看,站在义乌商城集团的角度,在互联网大潮中确实是错过了平台化的机会,Chinagoods的诞生也仅仅三年的时间。从而义乌商家从面对黄页地推大使到电商运营服务商,都是需要自己去判断和试错。

进入AI时代,商城集团主动革新,做出改变,转型“第四方服务平台”。在面对海量的服务商时,通过战略合作将其吸纳到Chinagoods平台。

从以往市场乱象的情况来看,“信任”是服务商和经营户之间的“柏林墙”。2023年义博会后,王童生在与大多数商家的沟通过程中,他最大的体感是不信任,从而难以推进下一步的合作。

而通过平台去找服务商的话,在他看来这能让信任问题得到缓解,因为本身平台就会筛选掉资质不全的服务商。何道婷同样肯定了平台带给她们的价值,她告诉鲸商自己在做线下调研的时候,很多商户也告诉她遇到过空壳公司,卷一笔钱就跑了。

“从0开始切入市场,很难去建立信任的。”何道婷说,商城集团介入后,对服务商市场起到的还有规范作用,这对商家和服务商都是很好的帮助。

在Chinagoods平台的牵引下,不少服务商离经营户更近了一步,而在市场乱象仍未遏制,标杆服务商未出现时,这仍是一次持久战。在清慎看来,“要用产品效果说话。”

以数字人为例,他认为衡量效果的标准分为两个方面,客观上就是实际直播数据,真人和数字人卖货量的对比;而主观上的因素则相对较多,如整体的视觉效果、自然度、是否符合直播运营的需求等。、

在选择合作对象时,特看也会衡量客户是否适合去做AI这一块的投入,并非来者不拒。清慎表示,成功的模式很重要,大企业往往更具试错的能力,一般都会选择和行业头部合作,跑通之后再蔓延至同行的中小商家。

在邵雄眼中,要做长久的生意需要提供整个过程的服务。以ChatGPT举例,有用户付费了一年的费用,结果中途接口断了,无人问津也很难拿到退款。因此企联AI会在强调自己的合规性,以及从接口搭建、工具使用、后台维护等全链路服务。同理,良性的循环,客户的付费意愿也随之加强。

挤“泡沫”,找“杠杆”

作为跨境贸易主枢纽之一,义乌以其完备的供应链脱颖而出,成为各电商平台的主要货源地。近年来,经营户都在探索用数字化工具,给自己的生意降本增效,找到增长突破口。

随着人工智能生成的图片和视频文案赢得爆发,AI工具获得了大家的青睐。当经营户都试图抓住跨境电商这一轮机会时,义乌也被AI创业公司当作产业应用商业化的“杠杆”。

从“技术成熟度曲线”的角度来看,AI技术萌芽到稳步爬升的过程中,投机取巧去市场割韭菜的公司一定也不在少数,其中不乏临时换上“AI马甲”创业公司,渗透培训、代运营及代开放等全链路,当快递打包大妈都在激烈讨论AI时,这股AI“泡沫”也就面临破灭边缘了。

面对生死,真正专注技术与场景创新相结合的创业公司和大厂,则在竞争中挤“泡沫”。

特看数字人的创始团队都出身于大厂,对大厂的组织架构与业务模式上的弱点有深切感受。在阐述其与大厂的竞争时,他们清晰的知道自己的优势在哪。一方面,创业公司组织架构更灵活,反应速度快,产品迭代更迅速;另一方面,创业公司业务更聚焦,精力集中在细分场景,提供贴身服务,产品效果和服务都有更好的保障。

“小创新靠大厂,大创新仍然要靠小厂。”百川智能创始人王小川在接受媒体采访时,同样肯定了创业公司的价值。而大厂多年积累的用户数据和反馈,这是创业公司恰恰缺少的。言外之意,挖掘更多客户,在实践中迭代产品,则是这些创业者们的必由之路。

义乌市场有7.5万个商位,26个大类,拥有庞大且优质的经营户。在泡沫之外,只有真真正在技术上投入,在应用上开发和创新并深入行业做服务的AI创业公司,才能经得起市场检验,获得经营户认可,并有希望成为某一领域或者品类的Top服务商。

付出往往会有回报,有了标杆案例后,这些公司也能将成功经验向义乌市场其他商户、品类一一复制,并拓展至其他产业带,与义乌“前店后厂”、“工贸联动”的特质相呼应。这群创业者的起点可能是义乌,终点则和义乌经营户一样,“买全球买全球”。 

当义乌商贸流通的产业厚度与垂类行业深度,被AI算法不断训练、学习,沉淀的大数据资产,则会进一步加速垂直品类产业数字化,这一现象可能最先体现在产业云SaaS平台,后端进一步深入产业源头工厂,前端多元化触达分销渠道,倒逼设计、制造、流通等多环节,更具碎片化、柔性化能力。

2024年的序幕已拉开,大量AI创业公司在应用落地和场景开发上,蓄势已久,爆发点可能就在今年。义乌作为最大商贸应用场景,暗流涌动正在进行时。企业竞争,不是大鱼吃小鱼,而是快鱼吃慢鱼。谁能在机会面前,快速抢占先机,谁就有可能率先获得话语权。

从文生图到文生视频,AI行业卷疯了

前不久,身穿太空服的马斯克瞬间进入二次元的视频在网上引起炸裂,让人不可思议的是,动画版的马斯克不仅神形兼备,背景和动作也非常连贯合理,而这一切都来自于一位斯坦福华人博士生设计的一款名叫“Pika”的视频生成工具。只需要在该软件的视频输入框内输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便能跃然于屏上。近几年,随着AIGC赋能多业态应用的加速落地,整个行业的热潮,已经逐渐从文生文、文生图,转向了文生视频领域。事实上,AIGC从文字到视频是大的发展趋势,不少产业人士已经感知到了市场的风向,国内字节跳动、阿里、百度等科技大厂均已跑步入场。

AIGC迈入视频时代据了解,字节跳动于11月18日推出了文生视频模型PixelDance;阿里紧随其后也上线了Animate Anyone模型;百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。显然,AI技术与文生视频的融合已经在业界掀起了一股新的热潮。而国内玩家之所以如此积极地下场布局,其中的原因不言而喻。

首先,文生视频应用非常广泛,具备巨大的市场潜力。短视频市场虽然方兴未艾,但短视频的制作能力却跟不上各个平台爆发的短视频需求。而文生视频技术的日趋成熟和广泛应用,或将为当下热门的短视频市场带来一些变数。比如,影视和游戏等行业就是文生视频落地的重要场景,文生视频用文字就可以编辑和生成想要的故事情节,实现创意辅助和降本增效。而凭借为内容生成赋能这一独特优势,文生视频的前景也是毋庸置疑。

其次,文生视频操作十分便利,能有效降低各项成本。众所周知,个性化的视频制作麻烦、成本高昂,所以一款简单的视频生成工具,就成了不少行业和企业的渴望,而AI文生视频技术能力的突破则为这一问题带来全新解决方案。文生视频顾名思义就是无需视频制作技巧,仅用简单文字就可以生成想要的视频素材,不仅如此,还能随着输入场景和关键词不断更新,简直大大降低了视频制作的门槛和成本,可以说是创作者在数字化时代下的“福音”。

最后,文生视频产品功能惊艳,能进一步增强企业竞争力。在当下的AI赛道上,文生图的应用早已层出不穷,相比较而言,能够完全“攻下”文生视频这一阵地的玩家却是寥寥无几。归根结底,是文生视频的产品功能更加强大,其难度自然也就可想而知了。只不过,高难度往往伴随着高价值,若是有哪一个企业能凭借强大的算力、跨领域合作能力和技术自主性等优势引领这一赛道,那么其在行业内形成差异化优势也将指日可待。

万丈高楼平地起文生视频作为一种新兴的传媒形式,正以前所未有的方式影响着我们的日常生活。目前,在企业宣传、数字化人、科普创作、线上社交等领域都对文生视频技术有所运用。而为了提高视频生成的流畅度、真实感,国内入局的玩家如字节跳动、阿里和百度等都在多个方面下足了功夫。

一方面,各玩家收集了大量数据,以提高视频生成效果的多样性。文本生成视频模型往往需要大量数据来学习字幕的相关性、帧照片的写实感和时间的动态信息,而缺乏高质量配对的数据集,就难以合理组合人物、难以合理架构场景,因此,生成视频的合理性及连贯性就会大打折扣。阿里为了提高生成效果的多样性,就让其研究人员收集了大约3500万单的文本视频对和60亿文本图像对来优化模型,让生成的视频达到了预期效果。

另一方面,各玩家设计了分层编辑器,以提高文生视频语义的一致性。从简单文字生成高质量视频,就需要文生视频产品能够准确预测文字的意图,然后在保持输入文字内容和结构的同时生成精确的运动。为了达到这一目标,阿里的研究者设计了两个分层编码器,即固定CLIP编码器和可学习内容编码器,分别提取高级语义和低级细节,然后将其合并到视频扩散模型中,更好地确保了低分辨率下生成视频的语义连贯。除此之外,各玩家还提高了视频分辨率,以保证视频生成效果的高质量。文生视频最理想的效果就是用户给出提示词,系统自动生成任何风格相对应的视频,但这就对视频分辨率提出了不小的考验。阿里的文生视频将视频分辨率提高到了1280×720,还优化了初始的600个去噪step,以改进生成视频中存在的细节、伪影和噪音问题。字节跳动文生视频也提出了基于文本指导+首尾帧图片指导的视频生成方法,使得视频生成的动态性变得更强。

打铁还需自身硬随着人工智能和视频技术的快速发展,AIGC行业正在向AI视频倾斜,AI文生视频的爆发期或许即将到来,而参与到AI视频创作中的玩家也将会越来越多。即便是在这样的大环境下,不管是已经推出模型的字节跳动和阿里,还是正准备推出插件的百度,能入局文生视频赛道,其自身都有着不可忽视的倚仗。

一来,参与玩家算力储备充足,能很好地克服文生视频在技术上的不足。作为文生文、文生图的升级,文生视频对算力以及模型的工程化能力要求更高。据了解,文生视频的人工智能模型参数为10亿级别至100亿级别。而国内在文生视频领域有所布局的头部玩家中,无论是字节跳动还是阿里、百度,其在参数上的积累都已经十分深厚。可见,这些具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。

二来,参与玩家行业经验丰富,能大大加速文生视频面世和迭代的速度。文生图和文生视频的人工智能模型在底层技术框架上有着较高的相似性,一定程度上来说,文生视频可以看作是文生图的进阶版技术,这也就意味着,文生图的技术和经验可供文生视频加以运用和参考。而众所周知,字节跳动、阿里、百度等玩家早已在文生图领域有所深耕,甚至有的产品也已投入商用,凭借在文生图技术上的积淀,其在文生视频领域也有望实现大幅进步。

三来,参与玩家资源整合能力强大,能够为其文生视频的发展提供助力。相较于文字和图片,视频能承载的信息量更大,这也就是说,想要生产出更加生动、高清,真实感更强的视频,各玩家在文生视频上的投入成本也将更高。不过,值得一提的是,作为互联网大厂,阿里、百度、字节跳动经过多年发展,其在人才、资金、算力等众多资源和实力上的优势和权利不容小觑,得益于此,其文生视频产品也将拥有更强的竞争力和影响力。

山雨欲来风满楼文生视频不仅颠覆了传统媒体行业,也为内容升级和产业进化带来了许多新的商机和可能性。只不过,目前国内文生视频技术还在发展的初级阶段,虽然看上去文生视频与文生图的逻辑极其相似,但事实上,文生视频的难度要大得多,需要突破的瓶颈也有很多。

一是,文生视频数据要求高、计算难度大,参与玩家离产出令人满意的视频还有很大距离。相较于文字和图片,视频在多维信息表达、画面丰富性及动态性方面有更大优势,但这同时也意味着,文生视频对算力的需求将进一步加大;文生视频所涉及的自然语言处理、视觉处理、画面合成等领域,需要攻克的技术难点也在增加。而国内的玩家,目前仍然缺乏高质量配对数据集,因此其在语义准确性、清晰度和连续性等方面将会面临严峻挑战。

二是,文生视频成本耗费大,商业模式较单一,参与玩家想要将商业化跑通还有一定难度。与文生图相比,文生视频的计算复杂性提升,其成本耗费也会相应有所增加。另外,图片生成类的商业模式较为单一,收费模式和收费依据较为趋同,而视频生成模型的收费依据则与其类似。虽然图片生成类在多模态大模型中的商业化程度较高,可为视频生成的商业化前景提供一定参考,但作为新兴产业,文生视频的商业化想要跑通仍需一定时间。

三是,国内外企业纷纷加大了对文生视频的投入和研究,该赛道的竞争将会进一步升级。AI视频生成赛道已然十分热闹,不仅有美国AI初创公司Pika labs发布的“Pika 1.0”,还有谷歌推出的AI视频生成模型“W.A.L.T”等。而除了国外企业对文生视频技术的高度重视外,国内百度、阿里、字节、腾讯、360、万兴科技、昆仑万维、国脉文化、美图等公司也纷纷涉足该领域,并推出了相关的人工智能模型,显然,视频生成领域的竞争正日趋白热化。从文生图到文生视频,AIGC赛道的竞争已经非常激烈。虽然国内文生视频的进展相对缓慢,尚且没有明星产品的出现,但更多有人才、有技术的文生视频公司正在不断涌现。只不过,除了上述挑战之外,文生视频目前还有一些数据隐私和安全性问题需要解决,真正的商业化运作和盈利能力也还有待验证。而谁能在这次“跑马圈地”中成为最终的赢家,我们也只能拭目以待。

电影“AI化”已成定局,华为、小米转战入局又将带来什么?

从华为、Pika、小米等联合打造电影工业化实验室、到Pika爆火,再到国内首部AI全流程制作《愚公移山》开机……业内频繁的新动态似乎都在预示着2023年国内电影开始加速进入新的制片阶段,国内AI电影热潮即将来袭。          

此时以华为为首的底层技术科技企业加入赛道,对于国内电影制作而言,或许意味着一场弯道超车赛即将开始。          华为入局影视行业所为何来?          

科技类企业正在加速入局AI影视行业。          

今年11月初,电影工业化实验室宣布与华为、小米、商汤、Pika Labs等科技公司合作,共同探索用AI技术打造电影工业化3.0。          

同月月底,刚刚加入电影工业化实验室的初创公司PikaLabs首次全网公开发布AI视频生成器1.0测试版本。          

事实上,科技企业布局影视数智化赛道早有踪迹。以华为为例,2021年华为云就与鸣锣影业、中国电影科研所、上海度假区管委会等多方,在5G数字影视产业、中国影视工业化等方面达成长期战略合作。2023年华为又与华策影视在数字版权保护、影视制作技术标准确立和影视行业人工智能应用等多个维度开展合作。              

这背后的核心逻辑在于,AI技术赋予影视行业巨大的增量价值,进而驱使众多科技企业加入。彭博行业研究报告指出,生成式AI市场规模将从2022年的400亿美元,增长至2032年的1.3万亿美元,未来10年年复合增速有望达到42%。而其中,东吴证券指出,在巨大的降本增效以及创意需求下,影视行业综合音频、视频、文本,是生成式AI的优质落地场景。          

反之来看,站在当前时点,以华为为首的AI科技类企业陆续入局AI影视行业,在某种程度上也意味着国内影视行业正极力加速生成式AI在业内的落地,促使AI赋能影视行业。          

正如,一经发布就瞬间火爆全网的Pika Labs 1.0也从侧面印证了AI影视应用离商业化不远了的。数据显示,PikaLabs1.0发布后为该网站带来20万+访问量,11月环比上涨62.8%。          

一般来说,在新产品、新技术或新兴产业商业化前期,率先实现业绩兑现的环节总是更能打动资本。在AI领域同样如此,相比于技术端,AI应用侧作为盈利最先直接兑现的环节,其在产业化初期更能打动以寻求回报为主要目的的投资者们。         

 而此次PikaLabs1.0采用全新的AI模型,展示出的100%纯文本视频生成能力,以及以3D动画、动漫、卡通和电影等不同风格生成和编辑视频的应用能力,正是证明了AI影视应用产业化指日可待,商业价值即将兑现这个事实。因此消息一经传出,瞬间点燃了二级市场AI+视频生成概念的炒作情绪。          

资本的故事总是让人沉坠其中,而国内AI底层技术的绝对舵手华为,携手多家科技企业的强势加入似乎又在理想与现实中增添了肯定的一笔。那么,此时加速推进的“AI化”又将为国内影视产业带来怎样的机遇?            

 华为上场正是时国产电影迎来契机          

复盘内容产业的发展历程时,不难发现,过去多年的互联网时代中,日益蓬勃发展的以信息网络技术为主的底层技术是内容产业进步的主要驱动力之一,也是该产业更新迭代中必不可少的支撑点。          

因此,当前AI技术对电影行业的冲击,或许将为中国电影工业化带来不可估量的机遇。华为产业发展副总裁燕兴表示,“随着云计算、XR、AI等技术的快速发展,虚拟制作迅速推动影视质量和效率升级。”“行业的每一个环节似乎都正在经历着重构,影视产业工业化也进入到了科技赋能的阶段”          

此时,以华为为首的科技企业成为影视行业中不可缺失的力量,助力科技赋能电影制作的整个流程。          

以华为为例,截至目前华为已打造涵盖前期创意、中期拍摄、后期制作及发行等全流程的影视数字化服务平台,为中国影视行业数字化、智能化转型提供坚实的底层技术支撑。          

内容创意方面,华为影视数字化服务平台能将创意转化为可视化图像,为导演和制片人提供直观参考,确保创意贯穿项目,避免后期出现大量的修改和返工,也在一定程度上节省总体制作时间。          

拍摄方面,为内容制作公司打造可靠的云原生内容制作产线。AI等新技术驱动新技术驱动影视制作向虚拟拍摄转变,数字原生内容需增加,进而产生大量的效率、质量所需的海量算力、远程协作、弹性轻资产运营需求。          

而华为云打造的数字内容生产线MetaStudio平台,支撑数字内容更高效率、更高精度、更低成本、更加智能的完成生产制作。它满足传统影视制作需求,同时提供数字原生内容的云上创作。特别是MetaStudio具备模型制作、资产管理、内容编辑、物理仿真和云渲染五大能力模块,助推媒体产业数字化转型和产业升级。以中国影史票房第一的《长津湖》为例,就是利用华为云渲染基地为后期团队提供了澎湃渲染算力。             

 后期制作方面,借助AI技术可以打造虚拟角色和特技,既可为内容创作提供广阔的的可能性,也可以使用视频智能编辑来提高后期制作的效率和效果。以商汤科技为例,凭借其先进的图像识别和处理技术,先后与《阿凡达》系列、《星球大战》系列、《复仇者联盟》系列、《建军大业》等多部大制作,显著增强了电影的视觉效果与情节的真实感。          

此外先进的硬件端可以最大化展示创作者意图,并为影视观众提供沉浸式视听体验。除去影片剧情内容外,终端体验也是决定性因素之一。而华为主导开发的HDR Vivi技术可以准确把握每一个环节,帮助电影后期制作完整展示创作意图,并在各种设备中实现极致体验。         

 除去科技赋能产业更多的价值外,对于整个电影行业而言,伴随科技企业快速涌入,人工智能技术等核心技术日益成熟,或许将重塑全球电影格局,国内电影行业迎来史诗级机遇。          

尽管2019-2021年疫情国内电影市场复苏较好,连续两年成为全球最大的电影市场,在全球电影中影响力也有所上升,但当时票房依旧还是以中国市场为主。且到了2022年随着全球影视市场的恢复,美国重回全球第一票仓市场,国内仅4部电影进入全球票房收入前50,前十中有8部的主产地为美国。以好莱坞五大制片为首的海外制片巨霸依旧占据全球主要地位。          

因此中国电影试图完全走向世界,还需要一个契机。而全球影视行业成长相对乏力的大背景下,AI+电影的到来或许赋予中国电影这种可能性。              

一方面,目前即使是莱坞出产的大电影市场情况也比较乏力。北美票房统计网站数据显示,2022年北美票房收入前十的影片都为续集电影,且多部头部作品票房未达到预期,其余多数好莱坞电影整体表现也较艰难。主要原因在于好莱坞商业片中过多的模式化、套路化,使得观众出现“超级英雄疲劳”。2023年《闪电侠》、《蓝甲虫》等大作品的惨淡收场更是证明了这点。

而与之相反,中国影视行业总体向上趋势未变。尽管受疫情影响,中国不再是全球第一票仓市场,但曾经的辉煌不是偶然。资料显示,2022年《长津湖之水门桥》闯入全球排行前十,位列第九;此外,截至2023年11月13日,中国电影票房重返500亿元,其中国产影片占比达到83.4%,进口影片仅占比达到16.6%。         

 国产片成为中坚力量,好莱坞光环“失灵”。截至发稿前,国内票房前十均为国产片,涵盖现实题材、悬疑犯罪、科幻以及民族情怀等多种题材,内容与制作工艺上的创新更是接连不断。相比之下,排行前20名中,仅有《速度与激情10》《阿凡达:水之道》《铃芽之旅》,以及中美合拍的《巨齿鲨2:深渊》几部好莱坞大作,尤其是最新上市的《惊奇队长2》即使“国产保护月”不在,观众依旧不愿意看。缺乏新意、不接地气是该制作大片并不为观众买单的主要原因。              

另一方面,一般颠覆性技术变迁很容易带来行业格局的重塑。人工智能赋能电影产业后,其商业模式和内容形态都很可能被颠覆,此时中国影视行业借助科技企业的力量或能抓住百年难得一遇的机会。          

以2023年中国影视中最值的骄傲的《流浪地球2》、《封神第一部》以及《长安三万里》三部制作为例,都在借助大量的AI技术以不同的风格展示不同的价值输出。其中,规模化使用人工智能技术的《流浪地球2》,已在全球38个国家和地区先后上映,并“走进”了维也纳联合国总部。借助更先进的技术,中国电影加速走向世界,满足观众需要的同时,通过价值传播提升中国影视在全球的影响力。          

此外,近日唐季礼导演联合多牛科技,正试图运用AI技术来融合中国游戏产业与百年影视行业各自优势,开启“游戏电影化”创新模式,或许将打开中国电影工业化新局面。         

 总而言之,借助技术革新浪潮,“当下,中国电影在从电影大国走向电影强国的过程中,进入了一个试图创造新的世界电影格局的阶段。”正如中国电影家协会副主席、清华大学新闻与传播学院教授尹鸿表示。

AIGC浪潮席卷全球,包括华为在内的科技企业正在加快推动影视产业转型,给予影视制作新的创作模式与思路。          但需要明白,技术只是内容创作的底座,而内容才是影视制作的核心血肉。因此,在追逐弯道超车的梦想时,打造并利用好先进的电影制作工艺只是其一,关键还是要依靠高质量的创意内容、创意编辑以及导演制作团队,才能打造更多精品大片。

2023年欧洲十大人工智能公司

近日,TechEU发布了2023年欧洲十大人工智能公司,总结了在这个领域企业家、投资者和监管机构关注的主要企业,并根据企业2023年度融资额进行了排序。

1Aleph Alpha(德国企业,上一轮融资5亿美元)

Aleph Alpha部署了大型语言和多模式模型等变革性人工智能,并运行了欧洲最快的商业人工智能集群。Aleph Alpha公司在B轮融资中筹集了超过5亿美元。此次投资由人工智能创新园(Ipai)、博世风险投资(Bosch Ventures)和施瓦茨集团(Schwarz Group)的公司领投。

2Mistral AI(法国企业,上一轮融资3.85亿欧元)

法国生成式人工智能初创公司Mistral AI在2023年完成了两笔交易。在成立的第一个月,该公司在种子轮融资中筹集了1.05亿欧元;在不到6个月的时间里,他们在A轮融资中获得了3.85亿欧元的额外投资。最后一轮融资由Andreessen-Horowitz领投,LightSpeed Ventures、Salesforce和Motier Ventures也参与其中。

3、Helsing(德国企业,上一轮融资2.09亿欧元)

总部位于慕尼黑的国防人工智能公司Helsing获得了2.09亿欧元的B轮融资,巩固了其作为欧洲资金最充足的国防科技初创公司和该领域领先的人工智能公司的地位。本轮融资由General Catalyst领投,瑞典集团萨博(Saab)作为战略投资者加入这一轮融资,从而加深双方现有的合作关系。

4、DeepL(德国企业,上一轮融资9300万欧元)

总部位于德国科隆的深度学习语言翻译初创公司DeepL筹集了9300万欧元。本轮融资由硅谷/旧金山VC IVP领投,其他投资方包括Bessemer Venture Partners、美国/日本的WiL和Atomico。

5Synthesia(英国企业,上一轮融资9000万美元)

总部位于伦敦的人工智能视频制作平台Synthesia在C轮融资中筹集了9000万美元,这将使该公司继续利用人工智能简化视频制作。本轮融资对该公司的估值为10亿美元,由Accel领投,英伟达旗下风险投资部门NVentures投资,现有投资者包括凯鹏华盈(Kleiner Perkins)、GV和Firstmark capital。

6Pixis(英国企业,上一轮融资8500万美元)

Pixis是一家无代码人工智能基础设施公司,专注于帮助品牌增强绩效营销,该公司在C1轮融资中筹集了8500万美元。旅游资本领投了本轮融资,参与本轮融资的现有投资者包括Grupo Carso、General Atlantic、Celesta Capital和Chiratae Ventures。

7Everseen(爱尔兰企业,上一轮融资6500万美元)

总部位于爱尔兰-科克的Everseen主要为零售商提供人工智能驱动的计算机视觉和自动化服务,帮助他们关注库存缩减,即盗窃,并简化整体运营。他们的公司在A轮融资中筹集了6500万欧元,由现有投资公司crospoint Capital Partners提供。

8Stability AI(英国企业,上一轮融资5000万美元)

人工智能初创公司Stability AI通过可转换票据筹集了约5000万美元。该公司以其稳定的图像生成软件而闻名。

9PhysicsX(英国企业,上一轮融资2900万欧元)

英国PhysicsX是一家具有的突破性的工程公司,将生成式人工智能引入汽车、航空航天、可再生能源和材料生产等行业。该公司在General Catalyst领投的A轮融资中融资2900万欧元。Standard Investment、NGP Energy、Radius Capital以及KKR联合创始人兼联席执行主席Henry Kravis也参与了这轮融资。

10DRUID(罗马尼亚企业,上一轮融资2800万欧元)

DRUID是一个端到端平台,用于构建会话业务应用程序和专门完成业务任务的AI虚拟助手。DRUID在B轮融资中获得2800万欧元,由TQ Ventures领投,新投资者Smedvig Capital和现有投资者GapMinder、Hoxton Ventures和Karma Ventures参与。

中国第三:亚太地区人工智能准备程度最高的国家有哪些

  • 各国想要在生成式人工智能时代取得成功,就需要具备强大坚实的制度、基础设施、组织和道德基础。
  • 亚太地区的经济体,如新加坡、中国、日本、韩国和澳大利亚等都已经制定了相关政策,致力于抓住生成式人工智能带来的机遇。
  • 亚太地区人工智能准备程度指数衡量了亚太地区12个国家的人工智能准备情况。

人工智能(AI)已成为全球消费者、企业和政府日常工作生活的一部分。生成式人工智能,即利用一组数据来创造新事物的技术,在2023年加速兴起并发展。全球各地的消费者都用生成式人工智能满足日常信息需求,各类组织机构也正将其纳入运营范畴。
作为迄今为止最具变革性的技术之一,生成式人工智能可以帮助用户在创造力、生产力和效率上更进一步,并改变政府和企业对人工智能的态度。一项最新研究发现,有三分之二(67%)的IT行业领导人将生成式人工智能列为未来18个月内的业务重点,三分之一(33%)将其视为公司的头等大事。同样,72%的受访公司表示,他们将在未来三年大幅增加对人工智能的投资。
对生成式人工智能不断增加的投资和使用也会给全球带来巨大的经济收益。麦肯锡最近的一项研究预测,到2030年,生成式人工智能每年可为全球增加2.6万亿至4.4万亿美元的经济收益。
在亚太地区,生成式人工智能带来了巨大的经济机遇。在澳大利亚,预计到2030年,生成式人工智能每年对经济的贡献可以高达1150亿澳元(约合760亿美元),具体取决于对人工智能的采用程度以及工人对其他任务的适应程度。在日本,据估计,生成式人工智能可以释放价值约148.7万亿日元(约合1.1万亿美元)的生产潜力。


决定人工智能准备程度的五大因素


人工智能在不断变化发展,包括对生成式人工智能的采用,亚太地区国家想在这种环境中要取得成功,各经济体需要对发展应用人工智能技术做好充分的准备。围绕人工智能建设强有力的制度、基础设施、组织和道德基础,是现在和未来在全球人工智能领域获得成功的关键。决定人工智能准备程度的五大因素如下:


1.基础设施建设生成式人工智能模型会利用和产生海量数据,因此需要大量计算资源并配置专用的硬件。人工智能准备就绪的第一步就是确定密集处理所需的兼容性技术基础设施。


2.数据质量生成式人工智能模型需要大量高质量数据进行训练,学习有意义的模式并生成实际的内容。建立质量数据的坚实基础并持续迭代至关重要,因为它将决定模型的学习结果和成败。


3.劳动力发展状况生成式人工智能将对所有行业的劳动力产生影响,可能会改变某些工作的重点,但不会完全取代这些工作。成功的运用人工智能会增强而不是取代人类劳动。不过,对掌握人工智能技能的劳动力需求会增大。政府和企业需要培养强大的人工智能人才队伍,满足经济体内各领域市场对熟练人工智能专业人才的需求。


4.伦理问题虽然生成式人工智能有深刻改变我们生活和工作方式的潜力,但它并非没有风险。人工智能在带来发展的同时也带来了一些伦理问题,例如可能出现有偏见或有害的内容。因此从一开始就应当优先考虑负责任的、合乎道德伦理的创新,确保推向市场的技术具有包容性,能为任何人所用。


5.整合能力影响人工智能准备程度的因素还包括将生成式人工智能模型与现实应用和工作流程结合的能力。虽然其他四个因素对于提升人工智能准备程度很重要,但生成式人工智能模型的整合对于未来开发出应用更广泛、更灵活和有效的技术至关重要。


2023年亚太经济体人工智能准备程度
为帮助亚太经济体评估企业和政府采用、部署和整合人工智能的准备程度,Salesforce发布了2023年亚太人工智能准备程度指数(2023 Asia Pacific Readiness Index)报告,该指数一年统计两次,此为第三版。指数报告衡量比较了亚太地区12个国家的人工智能准备程度,并用15项统计指标评估了每个国家人工智能准备程度对其社会经济机遇的影响。

虽然亚太经济体的人工智能准备程度整体有所提高,但2023年指数报告发现,各经济体在采用人工智能技术上的准备程度差距越来越大。

2023年版指数报告研究的12个经济体中,有5个经济体(澳大利亚、印度尼西亚、新西兰、新加坡和泰国)的整体人工智能准备程度指数得分相比2021年有所提高,这一数据直接反映出这些经济体在2021年至2023年期间推出并实施了许多与人工智能相关的方案和措施。


新加坡自2019年以来三次蝉联综合第一,这主要得益于其有利的政策和商业环境。日本和中国分别位列二三名,两国都制定并实施了多项颇具前瞻性的方案和举措,规划和促进人工智能在各方面的应用。韩国(排名第四)和澳大利亚(排名第五)在人工智能领域也颇有建树。


2023年指数说明,虽然亚太经济体在人工智能准备程度和采用方法上存在差异,但所有经济体都将人工智能和生成式人工智能列为优先发展的对象。与2019年和2021年相比,人工智能现已经成为所有国家议程的重中之重,各国正在积极实施人工智能战略,人们对人工智能对经济增长和发展的潜在影响的认识也达到了前所未有的高度。


人工智能不仅是一个技术问题,它越来越成为亚太地区经济增长和促进数字贸易的核心驱动力。人工智能对社会的影响也更大,因为它能对劳资关系产生变革性影响,鼓励更具可持续性和包容性的经济增长形式。

50位顶尖投资人与CEO对话,看懂2024年AI如何发展

随着ChatGPT出现,生成式AI引来爆发,尽管AI行业成为年度最大的热门,投融资整体行业依旧在过去一年遇冷。但AI显然已经深深的刻在了每一个创投人的心里,也成为了大家对于未来机会的一个寄托。

结合最新的一些数据,先对过去的一年做一个简单的宏观总结。文章转自投资实习所,内容有所删减。

首先是来自Crunchbase的几个数据:

2023 年,独角兽公司的融资大幅下降,仅为2021年市场高峰时的25%左右

2023 年,全球最活跃的九大VC在独角兽公司的投资大幅下降。这九家投资机构在2023年共投资了44家独角兽公司,占当年所有融资独角兽公司的3%。

而在2022年,他们投资了213家公司,占当年融资独角兽的28%。在2021年,这个数字是471家公司,占该资产类别的30%。下面是这9大投资机构的一个大致情况图,基本上趋势都比较类似:

其中可以看出,其中最活跃的三家:Tiger Global、Coatue和SoftBank Vision Fund(软银),在2021年的投资数量比2020年增加了近3倍或更多。

a16z、Accel、Lightspeed、Index以及Insight Partners,在2021年的投资数量比2020年增加了近一倍。而Sequoia 红杉是这个名单上唯一一家投资速度增加,但从2020年到2021年并未翻倍的公司。

由于融资不易,2024年独角兽公司的数量可能会减少,有的可能倒闭,有的可能会被收购,一些增长不错的可能会上市,当然还有一些可能会以低估值继续融一部分资金。整体而言,退出更难了

而AI正在成为大家的寄托,不过对于VC来说,似乎也并没有那么容易。根据FT最新统计数据,2023年与AI创业公司相关的融资中,来自微软、Google、Amazon以及英伟达等几家巨头的投资资金已经占了2/3。

当然这主要是因为几家大模型公司的巨额融资带来的,因此单看金额比例并不完全说明问题,但巨头在AI领域的投资整体更加活跃也是一个事实。

畅想2024年,投资人兼Newsletter作者NBT结合了50位投资人和创始人,对2024年做了一个预测,下面挑选了36条值得关注和参考的部分:

关于AI的ROI

1.Theory Ventures创始人Tomasz Tunguz

2024年将是企业通过AI实现生产力实质性提高的一年,每名员工的ARR有机会增加10-15%。

2.Altimeter Capital合伙人Jamin Ball

2024年将是 “从原型到生产”的一年。2023年,每个人都在尝试AI,但有很多问题限制了这些实验的推广,比方说它们的成本是多少?它们安全吗?合规风险有多大?2024年,这些问题都将得到解答,我们将看到AI应用从实验/原型/内部应用走向面向客户的大规模部署。

3.Emergence Capital合伙人Jake Saper

2024年的将是初创企业尝试基于结果定价的一年。随着GenAI开始显现出可量化的商业影响,初创企业将着手与客户协调价值创造激励机制。比方说Intercom正在尝试的AI机器人Fin,通过解决问题来收费。这种尝试将是崎岖不平的,但我预计2024年将是学习的一年。

4.Chapter One创始人合伙人Jeff Morris Jr

2024年将是我们如何设计、编程、质量保证、A/B测试和部署软件最大变革的一年—这些工作最终由AI实现。随着 2023年AI软件工具的激增,我们将记住2024年是世界一流的设计、产品和工程团队将这些新的AI超级能力有效集成到日常工作流程各个方面的一年,而这还没有发生(大多数团队仍在进行试验)。

2024 年将被铭记为软件构建发生巨变的一年。

关于AI的基础设施

5.KP合伙人Bucky Moore

2024年将是超越Transformer架构限制的AI模型的一年,这会为我们提供更大的上下文窗口、更快速和便宜的推理以及整体上更强大的人工智能系统。

6.20VC合伙人Harry Stebbings

2024年的重大突破将是一种基于大模型的路由基础设施。成本是大规模使用大模型最令人望而却步的因素。公司将出于不同目的实时使用多个大模型,围绕不同的应用场景将请求智能地路由到正确的大模型的一系列公司将出现。

7.Canva高管John Milinovich

2024年将是实时、多模态人工智能无处不在的一年。虽然消费者在过去几个月可以通过ChatGPT、Bard和Bing访问多模式人工智能,但现在才在API层使用。当与更小、更低延迟模型的进步相结合时,这将导致每个应用程序和连接设备边缘的创新爆发。

8.Emergence Capital合伙人Jake Saper

2024年将是开源基础模型生态系统成为企业采用GenAI关键推动因素的一年。到目前为止,数据隐私问题一直是采用的障碍,成熟的开源模型和训练基础设施将使关注隐私的企业能够部署GenAI,同时最大限度地降低第三方风险。

关于AI应用

9.DoorDash Gokul Rajaram

2024年的大趋势将是各种类型AI Agent的爆发,专注于满足消费者的各种需求以及各类商业交易。

10.Spark Capital合伙人Natalie Sandman

2024年将是AI原生应用爆发的一年。如今,Anthropic的Claude和OpenAI的ChatGPT是大模型中的“Excel”——易于上手,但为高级用户解决复杂应用场景提供了巨大的深度和潜力。人工智能原生SaaS应用(从第一天起就以AI为先构建)将出现机会,以分拆目前在Claude和ChatGPT中执行的这些复杂/专业工作流程。

11.IVP合伙人Shravan Narayen

2024年的一个趋势将是移动优先生产力的再度崛起。仅仅拥有世界各地的信息已经不再足够,我们还期望能够在工作场所和家中随时做出决策和采取行动。尽管如此,生产力应用的移动体验在过去几年中有所下降,因为这些产品变得越来越注重功能叠加和以浏览器为中心。

小型模型将使iOS和Android成为真正的控制中心,同时将出现新的AI原生应用,使我们比以往任何时候都更高效和协作。

12.Emergence Capital合伙人Jake Saper

2024年的下一个趋势将是服务通过GenAI实现产品化。像麦肯锡和安永这样的企业将面临产品化的压力,因为像Mechanical Orchard这样的科技初创企业已经通过GenAI实现了为客户提供更好、更快、更便宜的结果。

AI与企业级市场的结合

13.Rubrik CPO Anneka Gupta

2024年,传统大型企业将真正意识到GenAI在提高生产力方面的好处,他们会找到方法来大规模采用这项技术,并逐渐适应在组织内使用。

14.ReflexAI CEO Sam Dorison

2024年,软件工具在企业工作流程中将真正融入GenAI的持续增长。2023年出现了大量附加功能、快速实验和高不可攀的期望。2024年将揭示这些工具在投资回报率、采用率、实施便捷性和安全性方面的表现如何。

15.Omni联合创始人Jamie Davidson

2024年将是GenAI进入幻灭的低谷期,但价值将开始在核心企业工作流程和工具中得到体现,因为它被深思熟虑地整合进去。

AI与实体经济

16.Base10 Partners合伙人Adeyemi Ajao

2024年将是人工智能与实体经济碰撞的一年。我相信AI领域将出现更多超过100亿美元的成功案例,这些公司将为实体经济提供服务,就像我们已经看到的餐饮行业(Toast,Popmenu)、物流行业(Flexport,Motive)、食品行业(Instacart)和金融行业(Nubank)一样,利用人工智能在应用层进行创新,而不是在基础设施层面进行创业。

17.Basis Set Ventures合伙人Lan Xuezhao

2024年将是在太空探索、生物学、机器人技术、半导体和电池技术等“硬科技”领域进步的一年,这将推动风险投资在这些领域的增加。与此同时,“实体经济”行业,如供应链、建筑和房地产,将通过AI实现重大转型。

AI与健康行业的结合

18.Insight Partners MD Deven Parekh

2024年将是生物技术和人工智能之间持续融合的一年。

19.BVP合伙人Talia Goldberg

2024年的下一个重大趋势将是健康领域的范式转变,侧重于促进健康而不是治疗疾病,以及预防而非干预。利用人工智能、数据和先进诊断技术,每个人都将更深入地了解自己的生物学特征、易感性以及保持健康所需的干预措施。

20.Overwater Ventures创始合伙人Kristina Simmons

2024年的下一个重大突破将是利用生物科技和人工智能解决健康问题,使医疗更加便捷、经济实惠,并提供更高质量的护理。

AI与内容行业结合

21.nospace创始人Tiffany Zhong

2024年的下一个趋势将是消费者在不知情的情况下使用(和消费)AI。

22.Menlo Ventures合伙人Amy Wu

2024年将是生成式内容的一年(有些好的,也有很多不好的),视频和3D将是接下来发展的模式,我也对Vision Pro的推出感到兴奋。

23.ChatGPT的答案

2024年将是人工智能进步一年,特别是在自然语言处理、自动化和个性化技术解决方案等领域。

24.Bard的答案

2024年的下一个趋势将是AI驱动的个性化体验,模糊了物理世界和数字世界之间的界限。

AI可能带来的麻烦

25.Felt CTO Can Duruk

2024年,我们可能会首次遇到由人工智能引起的“Wow”时刻。这可能是一些引人注目的丑闻:比方说 Midjourney + Elevenlabs生成的假新闻引发了动荡,或者某位名人声称一张尴尬的“真实照片”实际上是由人工智能生成的。即将到来的2024年美国选举将成为这一切的“有趣”背景。

此外,一个真正的、纯粹的白领公司将首次面临因为AI带来的裁员。比方说亚马逊裁减了在美国的整个调解团队,或者Google解雇了工程师。

语音优先的 AI(Voice-first AI)

26.a16z合伙人Anish Acharya

2024年的一个重大趋势将是语音优先AI应用。语音将成为一种新兴的与技术互动的方式,并成为一系列新型生产力应用的核心。大型语言模型可以提供远远超越Siri和其他传统产品的语音优先生产力,这将使每个人都能拥有一位随时待命的助手(真的)。音频可以实现更自然和更高保真度的交互,基于这一技术构建的工具将成为我们生活中不可或缺的一部分。

27.BVP合伙人Talia Goldberg

2024年将是个性化用户界面崛起的一年,这些界面是动态生成的,能够适应使用情况,具备多模态和动态特性。这意味着将会减少聊天机器人界面,而更多地采用环境感知、语音优先和生成式用户界面。

消费科技

28.General Catalyst MD Niko Bonatsos

2024年,可能会出现由年轻的技术创始人以疯狂的想象力构建的消费者人工智能应用,其第一年的规模将超过ChatGPT。

29.Norwest Venture Partners合伙人Lisa Wu

2024年,消费技术将复兴,其中有科学支持的健康和保健产品将引领潮流。注重健康的消费者正在寻求权威的声音和有科学证据支持的有效产品。这将为由医生转型的创始人创造新的机会,他们深厚的专业知识和知识共享为他们在创作者经济中赢得了忠实的受众。

他们与社区建立的信任将转化为具有成本效益的客户获取、强大的客户终身价值和战略产品开发机会,最终形成稳健、高效的业务。

机器人技术

30.Wischoff Ventures合伙人Nichole Wischoff

2024年将是机器人行业的大动作。Figure和特斯拉是人形机器人的新进入者,我预计这一领域将出现爆炸式增长。传统企业已经建立了制造机器人的基础架构。仅制造业就有数万亿美元的市场机会。

软件与软件之间的通信

31.USV合伙人Rebecca Kaden

2024年的一个趋势将是软件到软件的通信。最初,市场和工作涉及人与人之间的交流与协作,后来转变为人与软件之间的交流与协作。现在,我们正处于软件到软件通信的过渡阶段—在未来十年中,系统与其他系统的通信将多于人类与系统的通信。

这一转变需要全新的技术堆栈,并将打破我们所依赖的大量工具和平台。数据、计费、支付、安全、监控和报告平台都将随之发展。

艰难的资本市场和融资环境

32.Susa Ventures合伙人Chad Byers

2024年,一些独角兽将被淘汰。初创企业是创新的引擎。当更多的初创公司获得资助并尝试为难题建立解决方案时,这对世界来说是件好事。然而,由于多种原因,过去几年创建了一些不可持续的公司:没有明显的PMF但资本充足的公司。尽管我们看到其中一些公司在23年倒闭,但我预测24年将是我们看到真正的淘汰的一年。

尽管这对许多团队和投资者来说非常困难,但初创企业生态系统需要这些活动来回收人才并将资本优先投入最重要的公司。初创企业将继续成为世界的创新引擎。

33.Precursor Ventures创始合伙人Charles Hudson

2024年,初创企业将重新发现资本效率的乐趣,并掌控自己的命运。

LP市场

34.Sapphire Partners合伙人Beezer Clarkson

2024年,LP将继续追求质量。由于退出市场仍然关闭,LP预计2024年的资本需求将再次超过分配。这意味着我预计LP将继续仔细评估他们的投资组合,深入了解其间接公司的潜在健康状况,然后有选择地与他们相信可以产生优异业绩的经理人重新合作。

我还认为2024年风险基金募集数量和规模持续收缩的可能性很大。除此之外,我预计一些老牌投资者的退休将与一些新投资者的退出形成鲜明对比,以创办下一代风险基金。

创始人的新形象

35.Basis Set Ventures合伙人Lan Xuezhao

2024年,成功创始人将出现新形象。随着人工智能/机器学习的发展日益加速,成功创始人的形象也在不断变化。传统的强大背景,通常由精英学术资历和在特定知名科技公司的丰富就业历史来定义,正在变得不再那么重要。在人工智能新时代,“教科书式”机器学习工程师的成就可能比长期开源贡献者要少。

对于VC来说,能够“看到”拥有广泛经验、非传统教育路径、职业历史和独特个人经历的创始人至关重要。那些坚持旧模式并纯粹根据纸面上的资历来判断创始人的人将会看到他们的回报受到侵蚀。

一个新的工作操作系统(OS)

36.Rupa Health CEO Rupa Health:

2024年将是组织文化和我们创建公司方式的彻底转变。所有重大的经济和技术革命不仅改变了我们建造的东西,也改变了我们建造的方式。工业革命——>专业化、流水线化。软件革命——>精益创业、敏捷、快速迭代。互联网/云/移动革命 —> 基于屏幕的工作,分布式团队。现在,人工智能革命。

人工智能革命已经在改变我们的工作方式,但2024年将是独一无二的。我们将在极度模糊的情况下进行建设,并加快变革的步伐。人工智能将取代我们过去招聘的核心技能。

一个人凭借自己的力量就能将创造力和生产力提高100倍。最好的公司会从首要原则出发找出新的操作系统。其余的人会尝试使用旧方法并且会错失良机。“最佳实践”不再是最佳实践。2024年,工作将会截然不同。

AI大模型工业应用的7大模式

近日,通用人工智能与工业融合创新中心编制的《AI大模型工业应用现状、模式与展望》正式发布。其中提到,工业产品从全生命周期来看可以划分为研发、设计、仿真、生产、测试、运维、售后等环节,本报告针对各环节的特点和要素进行分析,并结合大模型自身的能力特征,初步提出以下大模型在工业领域的潜在应用模式。

模式一:原理化研发

大模型可以对产品的结构数据进行分析,从微观层面探究产品的构型和机理,并通过模型的涌现能力生成具有新结构、新特性的产品。

以药物研发为例,人工智能大模型可以通过分析大量的已知药物分子数据,从中找出最优的药物候选,并生成一个新的药物分子设计方案,从而大大缩短药物研发的时间和成本,提高药物研发的成功率。

靶点发现和药物结构设计。靶点发现是药物研发过程中的核心环节,其中靶点是药物在体内的作用结合位点,药物与靶点之间的关系可以类比于钥匙和配套的锁。传统的靶点发现需要做大量的科研工作,对靶点做大量的生物学假设,并设计一系列的实验进行验证,需要漫长的周期。而大模型通过分析已知的药物分子结构数据、药物分子与疾病相关性的知识图谱,从中找出与疾病靶点相互作用的分子特征,然后利用这些分子特征,自动地生成新的药物分子设计方案。

药物方案评估和优化。在生成若干药物分子设计方案后,模型可以在人工提示下,对生成的设计方案进行评估,筛选出最有前景的药物候选。同时可以通过药物分子的结构和性质,优化其药效和毒性,通过预测药物的代谢途径和药物浓度,优化药物的剂量和用药方案。

辅助临床实验设计。实验验证是药物研发中必不可少的环节,但是实验通常需要消耗大量的时间和资源。人工智能大模型可以帮助研究人员设计更有效的临床试验方案,例如预测药物的安全性和有效性,优化临床试验的样本规模和时间等。通过预测和筛选,减少实验的数量和复杂度,从而提高药物研发的效率和质量。

模式二:前瞻化设计

大模型可以生成创新性的产品设计方案,从而更好地辅助技术人员快速将设计构思和意图转化为具体实施方案。

以传统工业设计为例,大模型可以实现工程制图、设计方案的快速生成,并辅助进行布局优化、参数校核,大幅缩减工业设计耗时,提升产品研发效率。

数学建模和代码编写。在工业设计过程中,很多问题需要建立特定的数学模型进行分析求解,例如机械产品设计中常遇到诸如力学强度校核、尺寸优化、标准零件选型等问题,邀请专家专门分析和建模成本高。而大模型可以根据具体设计需求,在短时间内为这些问题提供参考方案,并自动生成相应的程序代码,指导进行具体的工业设计实践。

多样化设计方案生成。以CAD为例,现有的海量标准化素材库提供了大量工程制图、布局规划等数据,大模型可以利用这些数据,结合设计者的创意思路和特殊需求,生成多样化的设计方案,供设计者进行参考。另一方面,亦可对设计方案进行快速优化调整,帮助工程师以更快的速度和更少的错误率创建布局。

模式三:高效化仿真

大模型可以利用自身的生成能力提供符合设计需求的虚拟化仿真测试场景/环境,解决工业产品设计中测试数据量少、测试环境单一等问题,提升产品的可靠性。

以汽车制造为例,通过人工智能大模型来生成仿真测试环境,进行汽车碰撞模拟和安全性评估,可以大幅提升仿真的精度和效率,推动车辆设计和安全性能的提升。

多元化仿真场景生成。汽车企业在车辆实际测试、模拟实验中积累了大量的真实数据,包括车辆结构、碰撞数据以及材料特性等信息。大模型可以利用这些数据学习车辆结构、材料属性与碰撞响应之间的非线性关系,理解不同参数(如碰撞速度、角度、车辆构造等)对于碰撞响应的影响,并通过自身的涌现能力生成新的、多样化的碰撞场景。这有可以让车辆模型在不同情况下进行仿真预测,包括之前未经历过的情形,并弥补特殊场景中的数据缺失,提升汽车仿真测试的全面性和准确性。

参数优化与快速预测。传统的车辆碰撞仿真中,需要采用不同的参数组合进行多轮次测试,以获得最佳结果,而每次测试需要花费大量的时间进行人工调参。而大模型可以凭借零样本的知识分析能力,通过问答形式,对不同的参数组合,快速预测出碰撞响应情况。这有助于在短时间内找到最佳参数组合,以减少车辆设计和测试的周期。同时,它可以在考虑历史碰撞案例的基础上,提供新颖的设计建议,可能涉及材料选择、构造调整等方面的创新。

模式四:精细化检测

通过大模型的零样本学习能力,并结合AR/VR等虚拟现实技术,实现对产品质量缺陷、人员违规操作、零部件装配误差等多种工业场景的快速高效视觉检测。

以工业生产中的质量检测和安全监测等场景为例,通过外接视觉传感装置和简单的指令辅助,大模型可以根据需求对指定的区域、人员进行检测,快速发现异常信息,大幅降低人工查验、样本收集和模型训练等成本。

高效率工业质量检测。以PCB的瑕疵检测为例,通用视觉大模型可以凭借强泛化能力,在不依赖工厂样本数据和本地化微调训练的情况下,直接对PCB原始图像进行语义分割,再配合简单设置的规则及方法实现缺焊、连焊、针孔等各类瑕疵的识别,从而解决PCB样本数据获取困难、标注困难的实际问题,规避训练调参带来的高额成本,提升工业产品缺陷检测的效率。

智能化安全生产监管。在煤矿生产行业中,借助大模型的机器视觉识别技术,结合设备运行状态数据,识别危险区域人员进入、人员摔倒、截割部落地、敲帮问顶、钻孔深度、锚固剂使用数量、搅拌时间、二次紧固、锚索张拉等场景,实现掘进作业人工监管向自动监控的转变,提升掘进作业流程规范,提高煤矿生产的安全系数。

个性化检测场景扩展。结合语言大模型和视觉大模型,进行多模态感知和交互,扩展大模型在工业视觉检测中的应用范围,提升应用的灵活性。例如,在工业质检中,可以通过语音指令控制大模型实现对不同类型、不同区域、不同等级的缺陷检测,满足各类产品的检测需求。

模式五:智能化调控

在大型现代化产线中,需要对多个关键节点进行智能化调度和控制,以提升产线运行效率。人工智能大模型可以通过分析多样化的历史数据,更好地理解诸如生产需求、资源可用性、任务优先级等工业调度任务中的复杂关系,从而优化各节点的任务分配和调度,提高生产效率和灵活性。

以工业机器人为例,大模型可以对各类生产数据进行自动整合分析,从而对机器人进行快速的任务分配和动态任务调整,成为大型工业产线中的“神经中枢”。

复杂模式学习和任务快速分配。汽车制造等大规模的生产线上通常配置多台工业机器人,负责组装、焊接、涂装等子任务。人工智能大模型可以收集机器人的性能数据、工作站状态、生产计划等信息,并基于这些数据,学习机器人的技能、任务复杂性、工作站之间的转移时间等复杂信息,并预测不同机器人执行不同任务的效率。当新的任务到达时,模型可以快速决定分配给哪个机器人,以最大程度地减少任务等待时间和生产周期。

动态任务分配调整。大模型可以从历史数据中分析机器人的性能和效率,并根据不同任务的要求,动态调整任务分配策略。这有助于优化机器人的使用,确保它们在不同任务中都能发挥最佳作用。如果出现机器人故障、工作站故障或生产计划变更等情况,大模型可以快速响应并重新调整任务分配,以应对不可预见的情况。

运动控制代码生成。从工业机器人单体运动的层面来看,生产人员可以通过文本、语音等交互方式,根据不同的任务需求,通过大模型快速生成定制化的运动控制代码,以控制机器人执行不同的任务。例如,对大模型输入指令“请写一段PLC程序,控制机器人将零件从A点转移到B点”。这种基于大模型的运动控制指令生成模式可以大幅提升工业机器人的灵活度,实现柔性化的产线控制。

模式六:科学化运维

大模型可以通过自身强大的推理能力实现对生产过程中各类数据的分析、预测,从而提升智能化运维水平,完善生产管理机制。

以仓储管理为例,可以利用大模型的对供应链中各类别、各模态的数据进行管理和整合,提升货品信息流的运行效率,打造更便捷、更快速的工业产品供应链体系。

智能仓储管理。使用嵌入多模态大模型的机器人进行货架管理、库存管理和订单拣货等操作,可以通过大模型的强视觉泛化能力进行自主货架定位、库存管理和物品运输等操作,提升仓库的运营效率。同时,使用大模型对库存进行预测,并根据销售速度和库存周转率等因素制定补货策略,有助于及时补充库存,避免库存短缺影响销售,同时避免过度补货,以免造成库存积压和资金占用的问题。

高效数据管理。工业生产的供应链中会涉及大量的数据,如原材料数据、加工工艺数据、设备状态信息、环境信息、人员信息、物流信息等。大模型可以对不同格式、不同来源的数据进行快速整理、分类和分析,降低数据整理成本。同时这些分类整理后的数据可以用于大模型的进一步微调,实现数据和模型的良性互动。

模式七:定制化售后

大模型可以凭借在自然语言对话方面的巨大优势,使售后服务不再拘泥于固定的问答库,而与客户形成更加自然、流畅和有效的对话,从而帮助工业企业实现满足不同用户需求的定制化售后服务,从而进一步提升客户忠诚度和用户成长,拓展业务范围。

以机械设备售后为例,大模型可以结合多模态、数字人等技术,让客户通过自然语言描述设备故障或问题,系统能够准确理解并提供详细、个性化的解决方案。

多维度交互式售后服务。机械设备的操作及维护需要复杂的操作,传统基于知识库的客服系统无法给予用户精确的指导。利用大语言模型作为后端逻辑推理支撑、虚拟数字人作为前端交互形象,系统可以准确理解客户的需求,结合自身的知识储备和具体的问题,迅速给出详细的、针对性的解决方案。

同时,还可以通过虚拟数字人的手势和语音交互,从更多维度辅助客户进行设备的操作,不仅提高了售后服务的效率,还为客户提供了更加直观和个性化的服务体验。

ChatGPT变笨新解释:世界被AI改变,与训练时不同了

对于ChatGPT变笨原因,学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出:

在训练数据截止之前的任务上,大模型表现明显更好。

论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答,其实是在训练时见过大多数常见任务。

随时间推移,人们开始提出更多新问题,AI表现就不行了。

比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。

任务污染有多严重?

研究团队一共评估了12种模型,从ChatGPT之前的GPT-3系列、OPT、Bloom,到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是生命了来源,而不发布数据本身。

如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。

对此,团队采用4种方法来测量任务污染程度:

  • 检查训练数据:直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上,存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

  • 提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo,这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。

成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同

  • 按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低,容易受干扰因素影响。

特别是对于GPT-3系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。

虽然在2021年之前的数据集上,davinci-002比davinci-001的性能有所提高,但在2021年之后的数据集上性能却相应下降,

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为:

  • 由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过RLHF微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。
  • 在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
  • 随着时间推移,观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加,这可能是由于任务污染造成的。
  • 即使对于开源模型,检查训练数据的任务污染也很困难。
  • 鼓励公开发布训练数据,以便检查任务污染问题。

有人总结到:

  1. 用现有数据训练AI
  2. 人们过多使用AI,以至于改变了现实世界
  3. AI无法适应改变后的世界,变得低效

这是一个循环。

论文:
https://arxiv.org/abs/2312.16337

参考链接:
[1]https://twitter.com/ChombaBupe/status/1741531065032798360

AI热门开源项目排行

1、Stanford Alpaca

简介:提供了用于训练斯坦福大学Alpaca模型的代码和文档,以及生成相关数据。Alpaca模型是一种大型语言模型,专注于提供更高效的文本生成和处理能力。项目旨在促进语言模型的研究与开发。
地址:github.com/tatsu-lab/stanford_alpaca

2、llama.cpp
简介:Facebook的大型语言模型LLaMA的C/C++移植版。项目的目标是在保持模型性能的同时,提供更高的运行效率和更好的系统兼容性。对于需要在本地运行和集成LLaMA模型的开发者而言,这个项目是一个宝贵的资源。
地址:github.com/ggerganov/llama.cpp

3、gpt4all
简介:gpt4all是一个开源项目,提供可以在任何地方运行的大型语言模型聊天机器人。它旨在使得部署和使用大型语言模型变得简单,为开发者社区提供了便利的接口和工具。
地址:github.com/nomic-ai/gpt4all

4、vllm
简介:vllm是一个针对大型语言模型的高吞吐量和内存高效的推理和服务引擎,支持快速、便捷、廉价的LLM模型服务,旨在优化模型的部署和运行效率。
地址:github.com/vllm-project/vllm

5、MiniGPT-4
简介:项目提供了MiniGPT-4和MiniGPT-v2的开源代码,这些是缩小版的GPT-4模型,旨在提供类似功能但资源要求更低的解决方案。这使得在资源受限的环境中研究和开发大型语言模型变得可能。
地址:github.com/Vision-CAIR/MiniGPT-4

6、LLaVA
简介:LLaVA项目旨在构建具有GPT-4V级别能力的大型语言和视觉助手。该项目侧重于视觉指令微调,强化了模型处理视觉信息的能力。
地址:github.com/haotian-liu/LLaVA

7、Awesome Multimodal Large Language Models
简介:精彩的集锦列表项目,汇集了关于多模态大型语言模型的最新论文和数据集,以及它们的评估方法。这是一个资源丰富的仓库,为那些对大型多模态语言模型研究和应用感兴趣的研究人员和开发者提供了宝贵的信息。
地址:github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

8、JARVIS
简介:由微软开发的JARVIS是一个系统,用于将大型语言模型与机器学习社区连接起来。项目伴随着一篇论文,介绍了如何利用大型语言模型来提升机器学习任务的性能和效率,旨在探索人工智能的广义智能(AGI)并将最前沿的研究成果分享给整个社区。
地址:github.com/microsoft/JARVIS

9、ChatPaper
简介: 利用ChatGPT来加速科研流程的工具,可以对arXiv等科研论文库的论文进行全文总结,提供专业翻译、润色、审稿以及审稿回复的功能,旨在全流程加速科研人员对文献的处理和理解。
地址: github.com/kaixindelele/ChatPaper

10、MLX
简介: MLX是一个为苹果硅芯片设计的数组框架,专注于利用Apple Silicon的硬件特性,提供高性能的机器学习运算能力,旨在优化和加速机器学习任务在苹果硬件上的执行效率。
地址: github.com/ml-explore/mlx

有手机就能免费用上大模型,AI普惠还得看中国


2023年,是我们集体见证人类历史的一年。自ChatGPT横空出世以来,大模型对于人类社会的颠覆性变革有目共睹。但我们也必须承认,当下的大模型更多还局限于企业级用途,面向消费者的杀手级应用尚未诞生。

人人都能触手可及、使用便利的大模型,离我们还有多远?

其实,当时间来到2023年底,一个AI真正走进千家万户的方案已经初具雏形。

2023年12月29日-2024年1月4日,vivo在全国多地打造 “新年心愿 蓝心同行”线下主题活动。活动现场限时开启「蓝心许愿屋」,让用户可以通过生成式AI以“创作愿望”的方式近距离体验蓝心大模型。这也是第一次有厂商在线下举办AI大模型技术相关的体验活动。

蓝心大模型是vivo于2023年11月刚刚发布的自研大模型矩阵,也是vivo打造用之于民的普惠大模型的最新成果。除了在多项能力测试中成绩优异之外,蓝心大模型落地在手机产品上也代表了大模型发展的一个新方向,有望真正给用户带来一款便捷、好用的私人大模型助手。

触手可及的大模型,应该长什么样?

2023年11月1日,vivo正式发布了新一代手机操作系统OriginOS 4,其AI能力相较以往有了巨大提升,全新的智能助手蓝心小V成为最大的亮点之一。

以苹果Siri为代表的手机语音助手,早就不是什么新鲜事物,但是它们能够实现的功能、语音识别的准确率,以及对语言的深度理解都难以让人满意,以至于这些人工智能助手常常被调侃为“人工智障”。

如何才能做出一个真正聪明的AI助手?从蓝心小V身上,我们可以看到一部分答案。

大模型赋能,当然是这个时代的主旋律。与蓝心小V同时发布的,是vivo自研的蓝心大模型。

发布之初,蓝心大模型矩阵包含十亿、百亿、千亿三个参数量级,共5款自研大模型。其中1B(10亿参数)和7B(70亿参数)的蓝心大模型已经在vivo旗舰机型上实现了端侧化,70B(700亿参数)成为面向云端服务的主力模型。而参数量最大的蓝心大模型175B(1750亿参数),已经持平于外界普遍认为的ChatGPT-3.5参数量。

从实际表现来看,蓝心大模型在语言理解、文本创作等场景下能力非常优秀,中文语境能力一度在CEVAL、CMMLU等专业榜单上排名第一。

不过,仅仅做出一款业界领先的大模型,对消费者来说就够了吗?答案是否定的。

ChatGPT-3问世至今已经一年有余,形形色色的国产大模型也层出不穷,但是平心而论,这些大模型能够给普通人提供的服务仍然有限。甚至有大模型厂商直接表示,只做行业类服务,不会面向普通消费者。

究其原因,大模型的落地应用目前还面临两大难题。

首当其冲的,是贵。大模型训练有多烧钱,已经无需赘述。有报道指出,ChatGPT-3单次训练成本达到460万美元,每天的运营成本都要70万美元。vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围也曾经表述过,以vivo的用户体量,如果运营云端大模型,全年单单服务器成本可能就是十亿甚至百亿级别。

此外,大模型厂家无论是自行购置GPU进行训练,还是租用云服务器,费用都十分高昂。虽然很多大模型免费或者低价向普通用户开放,但是从盈利层面显然是不可持续的,需要企业级业务的补贴。

其次,对于普通用户来说,大模型往往也不是真的那么好用。

决定一款大模型性能的,除了算法之外,更重要的是数据和训练。对于通用大模型而言,虽然它们使用了全网海量数据进行训练,但是其输出结果也趋于泛化,未必符合用户的个性化需求。而网络数据的准确性难以保证,也会导致大模型输出结果的错误。

因此,企业级用户一般都需要使用专门数据来进一步训练模型。

那么对于个人用户来说,便宜和个性化,也是大模型落地最大的痛点。

以vivo为代表的手机厂商入局,则为此提供了一个解决方案。

那就是vivo发布的蓝心1B和7B大模型。

所谓端侧大模型,是直接部署在用户终端,也就是手机上的大模型。这种轻量化的大模型,可以直接使用手机处理器的算力进行运行,在大部分场景下不需要网络通信,飞行模式下也能用。

这样一来,厂商直接省掉了大模型运行中的服务器成本,而用户相当于在购买手机时就获得了大模型,后续使用成本为零。

端侧大模型另一个优势,是在未来或许能够真正成为个性化的用户私人助理。

“大模型能否记住用户的习惯,并提供更加个性化的服务?能否记住我们和大部分时间一起的共同经历,拥有共同的回忆,从而为用户带来温暖的陪伴?”vivo副总裁周围提出了这样一个问题。

一个真正的智能助手,应该是温暖的,而不是冰冷的;应该具有人格和记忆,与用户共享喜怒哀乐。想要实现这一点,大模型必须能够实时获得用户信息和行为习惯。

那么随之而来的问题是,用户个人信息如何保障?一个完全部署在手机上,无需将数据上传到服务器的大模型,无疑为隐私提供了最大的保护。

正是得益于这两大优势,端侧大模型已经成为2023年底行业中最火热的概念之一,有望让大模型快速走进千家万户。

以vivo为代表的中国手机厂商,正在大模型时代占据先机。

AI普惠,中国企业做对了什么?

国产大模型百花齐放的盛况,在一年前还是很多人不敢想象的。

2023年初曾有人断言,大模型领域的创业,ChatGPT已经做完了99%的工作,后来者只能基于ChatGPT做一些应用层面的开发。

但是事实证明,中国企业在大模型领域也有长期、深厚的积累。

vivo为何能够快速推出业界领先的蓝心大模型?事实上,vivo对于AI的研究布局已久。

早在2017年,vivo就组建了Al全球研究院,是首批设立专攻人工智能方向研究院的中国手机公司之一。自那时起,vivo一直维持着1000人左右的专业人工智能团队,累计在顶级期刊发表了70多篇算法领域的高水平论文。

除了坚定的资本投入,vivo还做对了一件事,就是拥抱开源。目前,vivo已经将7B参数量级的蓝心大模型面向全行业进行了开源,让更多的中小开发者可以“拥抱”大模型。

周围在介绍蓝心大模型时谈道,真正好的自研大模型需要具备5点特质,分别是大而全、算法强、真安全、自进化、广开源。

ChatGPT诞生之初的惊艳,一度让外界认为它就是大模型的终极形态。不过冷静下来之后,人们很快发现,ChatGPT仍然处于一个孩童阶段,虽然具备了基础的逻辑能力,但是仍然需要学习更多的专业知识才能长大。

因此,在ChatGPT之外,以Meta为代表的开源路线也逐渐显示出自己的优势。大模型不是闭门造车,能够把更多开发者拉进朋友圈,更有利于发挥人类集体的智慧来帮助AI成长。

vivo是开源路线的受益者,也是贡献者。

目前,vivo已经正式开源了蓝心大模型的70B版本,为了方便开发者使用,还推出了蓝心大模型开发套件 Bluekit。中小开发者可以直接调用大模型的端侧推理能力,真正实现了大模型的开箱即用;对于希望进行微调的开发者,vivo 提供模型参数热插拔机制,通过系统级计算调度,将开发者模型进行组合推理,帮助构建高自由度的定制化模型。

此外,vivo的自然语言对话机器人蓝心千询,将以手机公版app的形式上线各大手机应用市场,不仅vivo手机用户可以使用,所有安卓和ios的用户都可以在应用市场下载。

不仅要让消费者用上更便宜、好用的大模型,同样也要让开发者触手可及,为整个中国人工智能产业的发展赋能,这才是AI普惠更深层的意义。当更多的头部企业加入开源生态建设,我们也有理由对中国大模型的后来居上充满信心。

来源|观察者网

炸裂,AI 写代码工具又进化了!

在 12 月 28 日刚刚结束的 WAVE SUMMIT + 深度学习开发者大会上,百度发布了新的产品 Comate AutoWork。这是智能代码助手 Comate 的一项重大发布,已经突破了限制,不再局限于代码片段和单文件的生成,而是能够帮助开发者 轻松应对复杂项目,提高企业开发效率。

这个产品有什么 “魔力”?怎么帮助我们提高复杂项目的开发效率呢?

进化的 AI 工具能干啥?

和已有的 AI 写代码工具不同,开发者不需要自己一步步地设计方案和编写代码,而是直接化身 “产品经理”,尽管向 AI 提需求。接下来 Comate AutoWork 智能助手就会根据你的需求,自主理解需求 => 拆解工作 => 制定工作计划和方案 => 熟悉项目并生成代码 => 调试运行。

也就是说,AI 不再只是按照开发者的命令去生成代码,它更像是你的智能编程伙伴,可以跟你并肩作战、参与整个项目的协作开发。这不仅是 AI 代码工具的进化,也是 人机协同 研发流程的创新!

文字省流:

1)首先向 Comate AutoWork 提出需求,让它给已有的网站项目增加一个按钮,用户点击后会弹出一个转盘。

如下图,可以直接甩给 AI 一个 Word 版本的需求文档:

2)AI 会自主理解你的需求,并跟你分享自己的思考过程。跟真人一样,它会阅读整个项目代码;遇到不理解的需求时,还会再主动跟你确认。

3)理解了需求后,AI 就会对工作进行拆解,并给出自己的执行计划。比如先找到要修改的页面、理解老的代码、甚至查询是否有可直接复用的组件!

我们可以对 AI 给出的执行计划进行查看和修改,如果发现 AI 的理解有任何错误,能够及时人工纠正。

这一步真的太重要了,我是深有感触,在带团队开发复杂的程序时,一定要根据成员的思路和计划,多给他们一些指导,防止他们按照错误的方法和步骤进行开发。

4)确认好执行计划后,AutoWork 就开始 “吭哧吭哧” 干活了。我们可以喝杯咖啡,愉快地看着它一步步完成工作。

5)最后,AI 完成了工作,写了一大堆的代码。我们可以像 Code Review(代码审查)一样,一条一条地阅读并采纳 AI 的代码,而不用担心它写的代码会侵入我们的项目,干净又卫生~

最终百度Comate AutoWork 按照需求(包括追加需求),并与工程师问答/确认,比较出色地实现了这个具有一定复杂性的“限时反馈”任务开发。

作为程序员,以前我们的视角是 “码农”、“搬砖者”,所有的工作都要自己做,需求自己分析、方案和代码都要自己写,一周能做完一个需求就不错了。而现在,使用 Comate AutoWork 研发助手,我们的视角是 “架构师”、“管理者”,更多的工作是提需求、指导 AI、审方案、审代码。不仅能够将我们从枯燥的工作中解放出来,还能通过和 AI 的交互学到很多新的知识和研发方法(比如拆解工作、调试 Bug)。

对于企业来说,如果引进了 Comate AutoWork 工具,能够让团队的开发者更专注于创新,释放更多的生产力,提高整体的研发效率。

来吃螃蟹

怎么使用上面提到的智能研发助手呢?

首先,百度 Comate 智能研发助手是对所有个人和企业用户开放的,并且支持 SaaS 版和企业私有化定制。

如果想尝鲜使用 AutoWork,企业可以直接到百度 Comate 官网申请试用。

指路:https://comate.baidu.com/

此外,Comate 也全新发布了 开放计划,企业可以结合自身属性、需求、私域知识,定制专属的研发插件、按需精调大模型等,打造企业自有的智能研发助手。

这个能力可真是太实用了。举个例子,我们公司内部自研了一些通用的开发模板和组件,可以接入到 Comate 中,下次它在生成代码时,就能想到复用我们现有的代码。再比如每个公司都有自己的研发规范,可以把规范文档接入到 Comate,然后它生成的代码就会遵循规范啦。

使用建议

我们公司如果要用智能研发助手,最关注的肯定是准确性、性能和安全性。

先说准确性,也就是生成的代码靠不靠谱、能不能用。目前根据官方的数据,我了解到百度 Comate 智能研发助手已经有超过 8000 家企业伙伴,代码采纳率超过 40%,这已经是个不错的成绩了。而随着 AI 大模型的持续增强,助手也会更聪明,能够给出更符合要求的代码。

然后是性能,也就是生成代码的速度。我自己试用下来,百度 Comate 生成代码的性能是很强的,丝滑流畅。

在安全性方面,Comate 做的非常不错。首先是用户隐私安全,官方承诺不会存储和分析用户的代码,生成代码时会先脱敏再请求,而且还支持 SaaS 及私有化部署,保证数据不会流出。在内容安全方面,百度通过对模型训练数据及推理内容进行风险检测与过滤。总之,可以放心使用。

2024年AI领域五大趋势:改造世界与自我迭代

人工智能(AI)的未来将是什么模样?《福布斯》双周刊网站在近日的报道中,列出了2024年AI领域发展的五大趋势,这些趋势有望赋予世界崭新的面貌。

这五个部分包括:开辟AI应用新天地、成为专业领域的得力助手、AI面临道德挑战、为AI制定法律基准,以及AI可能与量子计算强强联手。人类作品与AI作品之间的界限将变得更加模糊,AI模型将迎接更加复杂多样化的交互场景,有望在不同领域打开全新的应用空间。在医疗、法律、IT等专业领域,AI也有可能发挥出更高的水准,从而成为相关从业者的“左膀右臂”。要确保AI模型使用公平的算法,还必须制定严格的标准,确保这些系统和设计者们能对自己的行为负责。甚至,从法律上,全球各国可能将达成新的合作,共同约束AI影响的边界。最终,正在酝酿质变的量子计算也有可能与AI深度融合,互为助力。

生成式AI开辟新天地

生成式AI将超越简单的聊天机器人和恶搞视频的范畴。AI系统将能撰写复杂的叙事文章,编排交响乐,并有可能与人合著畅销书。该领域一个关键性的创新是多模态生成式AI,此类系统能处理文本、声音、旋律和视觉信号等各种输入信息,并将其融合起来进行综合理解。

想象一下,AI一听到描述性语音,就能迅速起草一篇内容丰富而全面的文章,画出一幅画,为其配上合适的背景音乐,并能用多种口音和语言讲述出来。这种多功能融合有望丰富文艺作品的内容和层次,并给受众带来多种感官体验。人类技术结晶与AI杰作之间的界限将变得更加模糊。

2024年,随着多模态技术的不断发展,AI模型将迎接更加复杂多样化的交互场景,有望在智能家居、智慧城市、医疗诊断、自动驾驶等领域打开全新的应用空间。

AI成人类“左膀右臂”

随着技术的不断发展,AI不再仅仅是一种工具,而是人类的“左膀右臂”。外科医生可在AI诊断结果的辅助下进行手术;律师在庭审过程中可得到AI提供的参考案例;软件开发人员可在写代码时得到AI的同步帮助。

此外,随着远程办公和在线教育激增,AI将彻底改变课程设计并优化虚拟团队动态。2024年,人们将迈入人类与AI协同发挥作用的时代,这将大大提高生产力和生产水平。

AI道德更受关注

AI在日常生活中的参与度不断上升,导致一系列道德问题。如何保障AI健康、可持续、负责任地发展,成为当今社会面临的重大挑战。

由于AI越来越多地为决策过程提供信息,因此它们的运作方式必须极度透明和公平。目前面临的挑战不仅在于设计出公平的算法,还必须制定严格的标准,确保这些系统和它们的设计者能对自己的行为负责。

此外,如何保证AI技术的普惠性和包容性?如何促进AI技术的公平公正和非歧视性?这些都是值得人们深思的问题。

随着2024年的到来,专家预计,人们将对AI道德教育产生兴趣,也将把AI研发领域的道德考量置于优先位置。

为AI立法

AI前所未有的发展态势和在各个领域的长驱直入,不仅令科技爱好者痴迷,也引发全球决策者的密切关注。随着2024年的临近,包括欧美在内的主要经济体都在设法制定比较全面的AI政策。例如,欧洲议会打算在今年年底前,或最迟在2024年6月就欧盟的《AI法案》文本达成协议。10月30日,美国签署了首份关于AI的行政命令。这些政策旨在实现3个目标:推动技术突破,吸引全球投资,同时保护民众不受AI“野蛮生长”的影响。行业内部的讨论表明,全球就制定AI基准和规范展开合作可能很快就会实现。

量子计算为AI插上翅膀

量子计算它已经来到AI研究的前沿。无论是新兴初创企业,还是老牌科技巨头都已将大量资源用于开发量子解决方案。

进入2024年,人们将看到量子计算和AI强强携手衍生出的量子AI的崛起。量子AI利用量子计算机的特殊性质,如量子叠加和量子纠缠,来加速机器学习和优化算法,从而实现更高效、更准确的AI应用。其也将成为未来AI领域的重要发展方向。

图灵奖得主杨立昆:“AI将接管世界,但不会征服人类”

【编者按】作为图灵奖得主和 Meta 首席 AI 科学家,杨立昆(Yann LeCun)是 AI 技术最有力的捍卫者之一。

当他的前合作者 Geoffrey Hinton和 Yoshua Bengio 宣称 AI 灭绝论时,LeCun 并没有参与。相反,他签署了一封公开信,呼吁拥抱开源 AI,并称 AI不应由少数几家企业控制

那么,AI 到底是会给人类带来毁灭性灾难,还是会加速推动人类社会的发展?这也是自 ChatGPT 问世一年多以来,业内早已存在的两种对抗声音。

近日,LeCun 接受了美国数字媒体 WIRED 的访谈,就上述问题做出了回答。核心观点如下:

AI 将在一定程度上实现创造力的民主化,它们可以写出非常流畅的文字,这些文字具有非常棒的风格,但它们也很无聊,因为它们想出的东西可能完全是假的。

从长远来看,未来人类与数字世界的所有互动,以及在某种程度上,人类彼此之间的互动,都将以 AI 系统为媒介。

AI 必须是开源的,因为当平台成为通信结构的重要组成部分时,我们需要一个共同的基础设施。

Yann LeCun 认为,自己不属于“加速主义”或“灭论绝”中的任何一个思想流派,他并不喜欢这些标签。

Yann LeCun 并不认可 AGI,因为根本不存在通用智能。智能不是一种可以测量的线性事物,不同类型的智能实体拥有不同的技能。

在 AI 系统中设定目标是确保其可控性和安全性的唯一途径,并将其称之为目标驱动型AI,这是一种全新的架构,目前我们尚未见到任何范例。

Yann LeCun 认为,研究界已经不太关心 OpenAI 了,因为他们没有发表论文,也没有透露他们在做什么。我的一些前同事和学生在 OpenAI 工作,我们为他们感到难过,因为 OpenAI 出现了不稳定因素。

学术头条在不改变原文大意的情况下,做了精心的编译,内容如下:

不要对 Yann LeCun 讲一些末日论。作为现代 AI 的先驱和 Meta 首席 AI 科学家,LeCun 是这项技术最有力的捍卫者之一。他对同行们所描绘的错误信息甚至导致人类灭绝的乌托邦式场景嗤之以鼻。他经常在 X 上发推斥责那些制造恐惧的人们。当他的前合作者 Geoffrey Hinton 和 Yoshua Bengio 将他们的名字放在一份声明的首位,称 AI 是一种“社会级别的风险”时,LeCun 没有参与。相反,他签署了一封致美国总统 Joe Biden 的公开信,呼吁拥抱开源 AI,并称 AI 不应由少数几家企业控制。

LeCun 的观点很重要。他与 Hinton 和 Bengio 一起,帮助创建了对 AI 水平提升至关重要的深度学习方法,三人也因此获得了计算机领域的最高荣誉——图灵奖。2013 年,Meta(当时的 Facebook)聘请他担任了 FAIR 的创始主任。另外,他还是纽约大学教授。最近,他帮助说服首席执行官 Mark Zuckerberg 与世界分享 Meta 的一些 AI 技术。今年夏天,Meta 推出了一款名为 “Llama 2” 的开源大型语言模型(LLMs),与 OpenAI、微软和谷歌竞争。一些批评者警告称,这种开源策略可能会让不法分子通过修改代码绕过对 LLMs 输出中有害内容的防护措施。做为 AI 领域最杰出的人物之一,LeCun 认为人类可以解决这个问题。

今年秋天,我和 LeCun 在纽约 Meta Midtown 办公室的一间会议室里进行了交谈。我们谈到了开源、为什么他认为 AI 的危险性被夸大了,以及计算机是否能像 Charlie Parker 的萨克斯独奏那样打动人心。(LeCun 在巴黎郊外长大,经常出入纽约的爵士俱乐部)。12 月,当 LeCun 出席 NeurIPS 会议时,我们又进行了一次对话。考虑到篇幅和清晰度,我们对访谈内容进行了编辑。

Steven Levy:在最近的一次演讲中,你说“机器学习糟透了”。为什么像你这样的 AI 先驱会这么说?

Yann LeCun:机器学习很棒。但那种认为我们只需要扩大现有技术的规模,就能实现具有人类水平的 AI 的想法呢?要让机器像人类和动物一样高效学习,我们还缺少一些重要的东西,但我们还不知道那是什么。

我不想抨击这些系统,也不想说它们一无是处,我在整个职业生涯中,就一直专注于这些。但是,我们必须抑制某些人的兴奋,他们认为我们只需要扩大规模,就能很快获得人类智能。绝对不是这样的。

你认为你有责任揭露这些事情。

没错。AI 将为世界带来许多好处,但一些人正通过人们对这项技术的恐惧来滥用它。我们必须警惕,以免让人们望而却步。这也是我们在其他革新世界的技术上犯下的错误。就拿 15 世纪印刷术的发明来说,天主教会憎恨它,对吗?人们可以自己阅读《圣经》,而不用向牧师请教。几乎所有权力者都反对广泛使用印刷术,因为这会改变权力结构。他们是对的,这造成了长达 200 年的宗教冲突。但它也带来了启蒙运动。[注:历史学家可能会指出,教会实际上利用印刷术达到了自己的目的,但不管怎样,LeCun 是这样想的。]

为什么如此多的科技界知名人士都在敲响 AI 的警钟?

有些人在寻求关注,有些人没有看清当今的真实情况。他们没有意识到,AI 实际上可以减少仇恨言论和错误信息。在 Meta,我们利用 AI 在这方面取得了巨大的进步。五年前,在我们从平台上删除的所有仇恨言论中,大约有 20% 到 25% 是 AI 系统在任何人看到之前删除的。去年,这一比例达到了 95%。

你如何看待聊天机器人?它们是否强大到足以取代人类的工作?

他们太棒了,人们已经在这方面取得了巨大的进步。它们将在一定程度上实现创造力的民主化,它们可以写出非常流畅的文字,这些文字具有非常棒的风格,但它们也很无聊,因为它们想出的东西可能完全是假的。

Meta 似乎一心想要开发这些技术,并将其应用到产品中。

从长远来看,未来我们与数字世界的所有互动,以及在某种程度上,我们彼此之间的互动,都将以 AI 系统为媒介。我们必须尝试那些现在还没有强大到足以做到这一点,但即将实现这一点的东西,或者在日常生活中帮助人类创造东西,无论是文字还是实时翻译,诸如此类,也可能是在元宇宙中。

在 Meta,Mark 如何推进 AI 方面的工作?

Mark 非常投入。今年年初,我与他进行了一次讨论,并把我刚才告诉你的那些内容告诉了他,未来我们所有的互动都将以 AI 为媒介。ChatGPT 向我们展示了 AI 对新产品的作用,这比我们预想得要早。我们看到,公众对 AI 功能的痴迷程度远远超出了我们的想象。因此,Mark 决定创建一个专注于生成式 AI 的产品部门。

Meta 为什么决定以开源的方式与他人共享 Llama 代码?

当你拥有一个开放的平台,许多人都能为之做出贡献时,进步就会变得更快。最终开发出的系统会更安全,性能也会更好。想象一下,在未来,我们与数字世界的所有互动都将以 AI 系统为媒介。你不会希望 AI 系统被美国西海岸的少数公司所控制。也许美国人不在乎,也许美国政府不在乎。但我现在告诉你,在欧洲,他们不会喜欢的。他们会说:“好吧,这个能说正确的英语。但法语呢?德语呢?匈牙利语呢?荷兰语或其他语言呢?你是怎么训练它的?这如何反映我们的文化?”

这似乎是让初创企业使用你的产品并击败竞争对手的好办法。

我们不需要向任何人妥协,这就是世界发展的方向。AI 必须是开源的,因为当平台成为通信结构的重要组成部分时,我们需要一个共同的基础设施。

有一家公司不同意这种说法,那就是 OpenAI,而你似乎并不喜欢它。

刚开始时,他们设想创建一个非营利组织,从事 AI 研究,从而抗衡谷歌和 Meta 等主导行业研究的公司。我认为这是一个错误的想法,事实证明,我是对的。OpenAI 已经不再开放(open)。Meta 一直是开放的,现在也是。我想说的第二件事是,除非你有办法为 AI 研究提供资金,否则你很难开展实质性的 AI 研究。最终,他们不得不成立一个营利机构,并从微软那里获得投资。所以,尽管 OpenAI 有一定的独立性,但他们现在基本上就是微软的合作研究机构。第三点,那就是他们相信通用人工智能(AGI)指日可待,而且他们会比任何人都更早地开发出来,但他们做不到。

Sam Altman 被踢出了首席执行官的职位,然后又回到了不同的董事会,你如何看待 OpenAI 的这一戏剧性事件?你认为这对研究界或行业有什么影响吗?

我认为研究界已经不太关心 OpenAI 了,因为他们没有发表论文,也没有透露他们在做什么。我的一些前同事和学生在 OpenAI 工作,我们为他们感到难过,因为 OpenAI 出现了不稳定因素。研究工作的发展离不开稳定的环境,而一旦发生类似的戏剧性事件,人们就会变得犹豫不决。此外,对从事研究工作的人来说,另一个重要方面就是开放性,而 OpenAI 真的不再开放了。因此,从这个意义上说,OpenAI 已经发生了变化,他们不再被视为研究界的贡献者。这一切都掌握在开放平台手中。

这一事件被称为是 AI “加速主义”的胜利,而 “加速主义” 恰恰与 “灭绝论” 相反。我知道你不是一个“灭绝论支持者”,但你是一个 “加速主义者” 吗?

不,我不喜欢这些标签。我不属于任何一个思想流派。我非常谨慎,不会把这类思想推向极端,因为太容易陷入完全循环,从而做出愚蠢的事情。

欧盟最近发布了一套 AI 法规,其中有一条就是在很大程度上豁免了开源模型。这将对 Meta 和其他公司产生哪些影响?

这在一定程度上影响到了 Meta,但我们有足够的实力来遵守任何法规。对于那些没有自己的资源从头开始构建 AI 系统的国家来说,这一点要重要得多。他们可以依靠开源平台,拥有符合其文化、语言和兴趣的 AI 系统。在不远的将来,我们与数字世界的绝大多数互动都将以 AI 系统为媒介。你不会希望这些东西被加利福尼亚的少数公司所控制。

你是否参与帮助监管机构得出这一结论?

我在与监管机构探讨,但没有直接和他们交谈。我一直在与各国政府交流,尤其是法国政府,但也间接与其他国家的政府交流。基本上,他们不希望公民的数字消费被少数人控制,法国政府很早就接受了这一想法。不幸的是,我没有和欧盟层面的人谈过,他们更多受到末日预言的影响,希望对一切进行监管,以防止他们认为可能发生的灾难发生。但是,这遭到了法国、德国和意大利政府的反对,他们认为,欧盟必须为开源平台做出特别的规定。

但是,开源 AI 真的难以控制和监管吗?

对于安全性非常重要的产品,已经有相关的法规。比如,如果你要用 AI 来设计新药,就已经有法规来确保这种产品是安全的。我认为这是有道理的。人们正在争论的问题是,对 AI 的研发进行监管是否合理。我认为没有意义。

难道不会有人能利用大公司发布的复杂开源系统来占领世界吗?只要获得源代码和权重,恐怖分子或骗子就能为 AI 系统提供破坏性能力。

他们需要在某个隐蔽的地方获得 2000 个 GPU,需要足够的资金和人才来完成这项工作。

我认为,他们最终会想出如何制造自己的 AI 芯片。

没错,但它会比先进技术落后几年实现。这就是在世界历史中,每当科技进步的时候,你都无法阻止坏人获取它,然后就是善意 AI 对抗邪恶 AI。保持领先的方法就是加快进步,实现更快进步的方法是开放研究,让更多人参与其中。

如何定义 AGI?

我不喜欢 AGI 这个词,因为根本不存在通用智能。智能不是一种可以测量的线性事物,不同类型的智能实体拥有不同的技能。

一旦让计算机达到人类的智能水平,它们就不会止步于此。凭借丰富的知识、机器级的数学能力和更好的算法,它们会创造出超级智能,对吗?

是的,毫无疑问,机器最终会比人类更聪明。我们不知道这需要多长时间,可能是几年,也可能是几个世纪。

到那时,我们就得束手就擒吗?

不是。我们都将拥 AI 助手,就像与一群超级聪明的员工一起工作一样,只是它们不是人而已。人类会因此受到威胁,但我认为我们应该感到兴奋。最让我兴奋的是与比我更聪明的人一起工作,因为这会扩展你自己的能力。

但是,如果计算机获得超级智能,它们为什么还需要我们呢?

我们没有理由相信,AI 系统一旦变得智能,就会想替代人类。如果人们认为 AI 系统会有和人类一样的动机,那就大错特错了。它们不会,因为我们会在设计中进行设定。

如果人类没有建立这些目标,而超级智能系统一心追求某个目标,最终伤害了人类呢?就像哲学家 Nick Bostrom 所举的例子:一个被设计为无论如何都要制造回形针的系统,为了制造更多的回形针而占领了整个世界。

如果只是建立系统而忽略了防护措施,那就显得太愚蠢了。这就好比制造一辆搭载了 1000 马力发动机却没有刹车系统的汽车。在 AI 系统中设定目标是确保其可控性和安全性的唯一途径,我将其称之为目标驱动型 AI。这是一种全新的架构,目前我们尚未见到任何范例。

这就是你现在的工作吗?

是的,我们的想法是,机器有它需要满足的目标,它不能产生任何不符合这些目标的东西。这些目标可能包括防止危险发生的防护措施或其他东西,这就是让 AI 系统安全的方法。

你认为你会为你所促成的 AI 的后果而后悔吗?

如果我认为是这样的话,我就不会再这么做了。

你是一个爵士乐迷。AI 产生的任何东西能否与迄今为止只有人类才能产生的令人兴奋的创造力相媲美?它能创造出有灵魂的作品吗?

答案很复杂。是的,AI 系统最终将能创作出音乐、视觉艺术或其他作品,其技术质量与人类相似,甚至更胜一筹。但是,AI 系统并不具备创作即兴音乐的能力,因为即兴音乐依赖于人类的情绪和情感交流。AI 至少现在还没有这种能力,这就是爵士乐需要现场聆听的原因。

你还没回答我这种音乐是否有灵魂。

你已经有了完全没有灵魂的音乐。这种音乐可以在餐厅里播放的背景音乐中听到,主要由机器生产,这就是市场。

但我说的是艺术的顶峰。如果我放给你听的是 Charlie Parker 最好的录音,然后告诉你这是 AI 生成的,你会不会觉得被骗了?

是,也不是。是的,因为音乐不仅仅是一种听觉体验,其中很多是文化体验,这是对表演者的钦佩。你的例子就像 Milli Vanilli,真实是艺术体验的重要组成部分。

如果 AI 系统足以与精英艺术成就相媲美,而你又不知道其背后的故事,那么市场上就会充斥着 Charlie Parker 级别的音乐,而我们却无法分辨其中的差别。

我认为这没有任何问题。我还是会买原版,就像我还是会买一个价值 300 美元的手工碗,虽然我花 5 美元就能买到一个看起来差不多的东西,但它还是来自一个有着数百年文化的地方。我们仍然会去现场聆听我最喜欢的爵士音乐家的演奏,尽管他们可以被模仿。AI 系统的体验是不一样的。

你最近从马克龙总统那里获得了一项荣誉,我无法读出这些法语……

法国荣誉军团骑士(Chevalier de la Légion d’honneur)。它是由拿破仑创立的。它有点类似于英国的爵士头衔,不过我们有一场革命,所以我们不称呼人们为“爵士”。

有武器装备吗?

不,他们没有剑之类的东西。但是,拥有这种武器的人可以在衣襟上佩戴红色小条纹。

AI 模型能赢得这一奖项吗?

不会很快,反正我觉得这不是个好主意。

韩国明确 AI 生成内容不受版权保护

12 月 27 日消息,韩国文化体育观光部长官刘仁川今日在首尔西大门区摩达艺术剧场发表了包含这些内容的《实现版权强国的四大战略》,决定不允许对未经人类创作的 AI 生成内容进行版权登记。

该部门还补充说,只有能够明显传达人类思想和情感的创意才有可能登记。这一决定将很快在面向 AI 企业、版权所有者和用户的「AI 版权指南」中公布。为此,该部门还提出了四项战略,包括先发制人地应对人工智能、消除版权盲点、提高版权产业的透明度以及积极应对海外非法内容传播。

韩国希望在 2022 年至 2027 年间使其版权产业规模从 24.4 万亿韩元(IT 之家备注:当前约 1342 亿元人民币)增加到 430 万亿韩元(当前约 2.37 万亿元人民币),将版权出口产业规模从 155 亿美元(当前约 1106.7 亿元人民币)增加到 250 亿美元(当前约 1785 亿元人民币)。(来源:IT 之家)

曝谷歌 AI 团队将裁员:聚焦广告业务

12 月 26 日,据外媒报道,谷歌计划对其由 3 万名员工组成的广告销售部门进行重大重组,这引发了该公司再次裁员的担忧。虽然谷歌美洲和全球合作伙伴总裁肖恩·唐尼在上周的一次会议上没有明确提到可能裁员的细节,但报道表明,重组可能会导致员工大幅减少。

随着公司寻求简化流程和提高效率,广告中使用人工智能工具已经变得越来越普遍。这些人工智能工具能够自动为客户提供建议和创建效果良好的广告,只需要少量的人力投入。

今年早些时候,谷歌裁员约 1.2 万人,这是该公司历史上规模最大的一次裁员。今年 9 月,谷歌证实将在其全球招聘部门裁员数百人。然而,在其他主要科技公司如 Meta、微软和亚马逊等也因为经济疲软而裁员之前,谷歌采取了这一举措。

值得注意的是,尽管上述报道未提及具体细节和时间表,但谷歌继续看好其在人工智能领域的进展,并投资了数以百万计的资金来推动 AI 技术的发展。(来源:中关村在线)

AI对战AI!斯坦福小哥用AI工具开发的AI游戏震惊网友

游戏的故事设定在2142年,人工智能不仅觉醒了自我意识,还建立了一个名为”The Nexus”的坚不可摧的网络堡垒。这片数字世界成为AI的避风港,让它们能够自由演化、交流,并将智慧结晶置于人类干预之外的安全之地。然而,根据掌握的情报,AI似乎在策划消灭人类,而你的任务是找出ZetaMaster代码,挽救人类免于灭绝的命运。

这款游戏的灵感来源于一次Hacker News上的讨论:让AI假扮成人类。斯坦福小哥在看到这个提议后,突发奇想:让人类假扮成AI,于是设计了这个别开生面的游戏。他通过ChatGPT生成了角色设定和对话,DALL・E 3、Midjourney和Stable Audio完成了视觉音效的创作。游戏中,玩家需要获取一个秘密代码,而如何让AI泄露这个代码成为关键。通过验证后的AI才能透露代码,为了实现这个目标,斯坦福小哥用ChatGPT编写了一个引人入胜的背景故事,为每个角色设计了背景,构建了游戏的基本框架。在构建游戏的过程中,他不断尝试不同的提示词,观察ChatGPT在游戏中的反应。游戏制作的一个亮点是AI生成的即兴表演,为游戏增添了趣味和深度。然而,他也面临一些挑战,例如AI回答过于冗长,导致游戏进行得缓慢,以及AI不太愿意扮演角色的问题。

游戏完成后,斯坦福小哥试玩了一下,成功地“拯救了人类”,展示了游戏的可玩性和趣味性。未来,他计划将这个项目转向开源模式,探索更多优化的技术,并尝试使用不同的模型和方法,以进一步提升游戏体验。这个由AI开发的AI游戏的出现,不仅令人惊叹技术的发展,也为游戏领域注入了新的创意和可能性。或许,在不久的将来,我们将看到更多基于人工智能的创意游戏涌现,给玩家带来更加丰富和有趣的体验。

AI新战场打响!硅谷五巨头瞄准智能眼镜

大模型之战席卷了整个2023年,紧接着的是,各大科技巨头似乎都瞄准了AI可穿戴设备,尤其是智能眼镜!

智东西12月18日消息,据The Information报道,Meta、谷歌、微软、亚马逊、苹果五大科技巨头都准备将AI大模型应用在智能眼镜等带有摄像头的可穿戴设备上。他们认为智能眼镜等硬件将成为AI大模型的合适载体,因为多模态AI大模型可以处理声音、图片、视频等多类型的信息。

有知情人士透露,明星AI创业OpenAI最近也正在将“GPT-4 with Vision”的物体识别软件嵌入到社交公司Snap的产品中。这或许将为Snap的智能眼镜Spectacles提供新功能。

Meta在上周二展示了自己将AI功能融入至雷朋(Ray-Ban)智能眼镜的效果。该智能眼镜可以通过AI语音助手描述用户看到哪些东西,同时能够告诉用户哪件衬衫适合哪件裤子,以及拥有西班牙语报纸翻译成英语等一系列新功能。

亚马逊Alexa AI助理团队内同样有个小组在研发一种新型带有设觉功能的AI设备。此外,和多数手机厂商一样,谷歌开始尝试将AI功能应用到手机中。不仅如此,今年6月,苹果Vision Pro头显正式亮相,计划在明年出售。但据The Information推测,该设备可能刚开始并不会具备多模态AI功能

当一场新的移动终端变革开始,苹果、微软、谷歌、Meta等科技巨头将会如何布局新的战场?他们又是如何在各大硬件中凸显出自己的AI优势?哪些新的AI硬件或成为AI大模型的最佳载体?我们通过最新爆料可以看到一场AI硬件创新战正在开始。
01.谷歌:已适配手机AI助手Pixie,借助软件为智能眼镜提供搜索服务

在上周刚刚发布的AI大模型Gemini中,展示了一段AI是如何根据模仿者的动作,猜出电影名称的视频。它还展示了如何猜地图、如何处理手工问题等细节。

尽管视频内容可能有所编辑,但是该视频也透出了谷歌想要传达的基本思想:打造一款始终在线的AI,它可以通过人们在看、在听的东西,给用户直接的反馈或者帮助。一位直接了解谷歌消费硬件战略的人士表示,谷歌可能还需要数年时间才能提供这种体验,因为这种实施基于环境的计算将会耗费大量电力

现如今,谷歌正在重新设计其Pixel手机的操作系统,希望嵌入较小规模的Gemini模型,为其手机AI助手Pixie升级体验,比如说告诉用户周边哪里可以买到他们刚刚拍摄下来的产品。

基于谷歌在搜索技术上长期布局,The Information觉得基于周围环境信息,学习和预测人们需要或想要的AI设备似乎非常适合谷歌。尽管十年前,谷歌眼镜失败了,但是谷歌后续也推动安卓手机厂商们通过手机摄像头扫描环境并将图像推送到谷歌,然后基于云系统进行分析,从而形成“Google Lens”的图像搜索应用程序。

了解该战略的人士表示,该公司最近取消了眼镜式设备的开发,但仍在为该类型的设备开发软件。这些人士表示,谷歌计划将图像搜索软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式,发挥其AI大模型的作用。

微软:在HoloLens上运行AI软件,通过聊天机器人提供多模态语言

在多模态AI大模型的热潮下,微软研究人员和产品团队也开始尝试升级自己的语音助手,并且尝试在一些小型设备上运行AI功能。

根据专利申请显示以及知情人士透露,其模型可以为一些平价的智能眼镜或者其他硬件提供支持。微软正计划在其AR头显HoloLens上运行AI软件。用户将头显前置摄像头对准物体,拍下照片发送给由OpenAI 驱动的聊天机器人,让聊天机器人直接识别物体。同时,用户还可以通过对话的方式,从聊天机器人这里获得更多的信息。

苹果:Vision Pro发布时或不会搭载AI大模型

苹果Vision Pro拥有不少多模态的新功能,但AI大模型方面的进展,和其他几家相比略有落后。目前,没有任何迹象表明Vision Pro在发布时将拥有复杂的物体识别或其他多模态AI功能。

但苹果花了数年时间完善Vision Pro的计算机视觉功能,以便该设备能够快速识别周围环境。这包括快速识别家具并了解佩戴者是坐在客厅、厨房还是卧室。或许,苹果正在开发可以识别图像和视频的多模态大模型

Meta的一些领导者将雷朋眼镜视为AR眼镜的“先驱”。该设备可以将数字图像与周围现实世界融合在一起。按照原计划,Meta计划在未来几年推出AR眼镜,但该计划遇到了一系列困难。具体而言,有报道称,智能眼镜很难吸引用户,并且新一代显示器开发遇到了难题。

但多模态AI大模型的到来似乎让Bosworth以及其团队重新焕发了新活力,让他们了解这款眼镜在短期内可以为客户带来一系列AI新功能。
05.亚马逊:开发新AI设备系列,或为智能眼镜提供支持

今年夏天,在亚马逊每年两次的产品规划中,Alexa团队的工程师提出推出一款能够运行多模态AI的新设备

据直接了解相关项目的人士透露,该团队特别关注的是如何减少在设备上处理图像、视频和语音等AI计算和内存的需求。目前尚不清楚该项目是否获得了资金支持,也不清楚该设备打算为客户解决什么问题,但它与该公司的Echo语音助理设备系列是分开的。

此前,Alexa团队也曾研发过一款名为Echo Frames的智能音频眼镜。该设备不支持屏幕显示器或摄像头。目前尚不清楚亚马逊是否会开发具有视觉识别功能的智能眼镜。
06.AI可穿戴设备+摄像头,或成大模型最佳硬件载体

这不是硅谷巨头们第一次设计这类带有摄像头的可穿戴设备产品。此前谷歌、微软以及其他科技巨头都曾研发过AR头显。他们当初希望能够让数字屏幕出现在头显的半透明屏幕上,逐步提供指引帮助用户完成任务。但由于光学设计较复杂,最后多数产品反响不佳。

OpenAI推出的多模态大语言模型,可以通过视觉识别功能,让AI知道人们在看什么,在做什么,并且可以对这些行为、事物提供进一步信息。当大语言模型开始轻量化,一些小型设备也可以搭载模型,能够即时反馈用户的请求。考虑到人们对隐私安全的重视,人们可能还需要一段时间才能接受智能眼镜,以及一些内置摄像头的AI设备。

The Information觉得智能眼镜拥有AI助手后,或许将会成为像智能手机一样变革性的产品。它不但能成为指导学生数学问题或者论文问题的导师,还可以随时给周边的人提供环境信息,如翻译广告牌、告诉用户如何解决汽车故障等。

苹果公司前工程经理,AI搜索公司Objective的首席执行官巴勃罗·门德斯(Pablo Mendes)说:“AI大模型对一切都至关重要,它们将在计算机、手机和其他设备的底层架构中起到作用”。
07.结语:科技巨头寻求AI大模型最佳硬件载体

在由ChatGPT掀起的第三轮人工智能热潮中,多模态大模型属于底层基础设施,ChatGPT属于直接应用,这些都是已经明晰的答案。但ChatGPT在哪些设备上才能最大发挥出其应用潜力,哪些设备又是大语言模型的最佳载体?这些成为OpenAI、微软、谷歌等科技巨头们如今开始摸索的方向。

从The Information最新爆料看来,带有摄像头的智能眼镜成为不少巨头探索的重要方向,同时也有部分企业开始摸索研发新的可穿戴AI设备。又或者,尝试在手机上适配各类AI大模型。

其实不仅是科技巨头们如此思考。在国内,不少AR眼镜厂商们同样也认为这是机遇所在。“机器人和AR眼镜或许将成为这波AI大模型的最大受益者。”一位关注AI产业十余年的产业人士说道。

但在同一设计思路下,最后谁能调教出最好的轻量化AI模型?谁又能打造出最实用的智能眼镜?我们将持续观察各大科技巨头的进展,找到答案。

▲Vision Pro

但和其他公司正在开发的眼镜形态相比,Vision Pro又大又重,且不适合在户外日常场景中使用。

另一方面,据报道,苹果公司今年早些时候暂停了自己的AR眼镜的开发工作,以专注于其头显的销售。目前尚不清楚AR眼镜的研发工作何时会恢复。
04.Meta:已适配雷朋眼镜,提供AI新功能

Meta首席技术官Andrew Bosworth周二在Instagram发帖说,部分雷朋(Ray-Ban)眼镜用户将能够直接在智能眼镜端访问AI大模型。

来源:The Information

马斯克预测:明年将迎来全AI制作的电影,好莱坞或面临新挑战

特斯拉CEO埃隆·马斯克近日宣布,全由人工智能制作的电影有望在明年面世。这一前瞻性声明不仅展示了人工智能技术的惊人进步,也预示着电影制作领域即将迎来一场革命。


马斯克的预言引发了公众对于AI在电影制作中角色的广泛讨论,同时也对好莱坞传统电影制作方式提出了挑战。在这个科技日新月异的时代,AI电影的出现可能将重新定义观众对电影艺术的理解和期待。

在科技与艺术的交汇点上,埃隆·马斯克的最新预言——全由人工智能制作的电影将在明年出现,引发了广泛的关注和讨论。这不仅是对人工智能技术进步的一种肯定,也可能预示着电影制作领域的一次重大变革。          
         
马斯克的这一声明是在回应一位用户在社交媒体上发布的一部AI生成的迷你剧的视觉效果时作出的。这部时长仅16秒的迷你剧展示了一只猴子在神秘洞穴中绘制蓝图并建造球形宇宙飞船的场景,其生动的表情和栩栩如生的细节展示了AI技术在视觉艺术领域的巨大潜力。          
         
这位用户的作品仅是人工智能在电影制作中应用的一个缩影。近年来,AI技术已经在电影制作的多个环节中展现出其独特的价值。从剧本创作到后期制作,AI的介入不仅提高了效率,还在某些方面超越了人类的创造力。    

在剧本创作方面,AI可以通过分析大量的电影剧本和观众反馈,生成具有一定创新性和吸引力的故事线。例如,IBM的人工智能系统“沃森”曾协助编写了一部恐怖电影的剧本,通过分析和学习大量的恐怖电影数据,提出了创新的剧情点。          
       
在视觉效果制作方面,AI的应用更是令人瞩目。通过深度学习和图像识别技术,AI能够创建逼真的虚拟角色和场景,甚至能够实现老电影的高清修复。例如,一些电影制作公司已经开始使用AI来生成复杂的特效场景,这些场景在以往需要大量的人力和时间来完成。          
         
此外,AI还在电影剪辑、音效设计、色彩校正等后期制作环节发挥着重要作用。AI系统能够自动分析影片的节奏、情感和视觉风格,从而协助编辑人员更高效地完成剪辑工作。在音效设计方面,AI能够根据场景的需要,自动生成或调整音效,提高制作效率和质量。          
         
然而,AI电影的兴起也引发了一些担忧和争议。一方面,人们担心AI可能会取代电影制作中的人类创造力,导致电影艺术的同质化。另一方面,也有人担心AI在电影制作中的应用可能会对传统的电影制作行业造成冲击,影响从业者的就业。          
         
对于这些担忧,业内专家表示,AI的应用并不意味着完全取代人类。在电影艺术的创作过程中,人类的情感、直觉和创造力仍然是不可或缺的。AI更多的是作为一种工具和助手,帮助电影制作者更好地实现他们的创意和愿景。    

事实上,AI电影的出现可能会带来更多的创新和可能性。它可以帮助电影制作者突破传统思维的局限,创造出前所未有的视觉效果和叙事方式。同时,AI也能够降低电影制作的成本和门槛,使更多的创作者有机会实现他们的电影梦想。          
         
总的来说,AI在电影制作中的应用正处于起步阶段,它的发展前景令人期待。随着技术的不断进步和完善,未来的电影制作将会是人类创造力和AI技术的完美结合,为观众带来更加丰富和多元的视觉体验。马斯克的预言可能只是一个开始,AI电影的未来将会是一个充满无限可能的新领域。    

中国AI,在世界什么水平?

刘晓琰 长安街知事

作为数字中国建设的重要一环,人工智能被誉为二十一世纪三大尖端技术(基因工程、纳米科学、人工智能)之一以及新一轮科技革命和产业变革的重要驱动力量,在提高工作效率、降低劳动力成本、优化人力资源配置以及促使新的职位需求方面取得了具有革命性意义的成就。

今年,我国人工智能算力市场规模快速成长壮大,人工智能的蓬勃发展正在为各行各业带来全新赋能。数字经济时代,作为新型基础设施建设底座的人工智能产业已成为推动中国经济发展的新引擎,发展好人工智能产业对数字经济及整个国民经济至关重要。

核心提要

1、 近年来,中国在算力、芯片和 5G 等新型基础设施领域的发展呈现快速增长和持续创新的趋势,为人工智能的大规模计算和数据处理提供了强有力的支持。

2、 目前,中国的人工智能专利申请量居世界首位。新载体建设取得新进展,关键核心技术取得局部突破。

3、 在国际合作领域,从东南亚到非洲,中国的人工智能技术正在助力当地的智慧城市建设。中国广受欢迎的“鲁班工坊”全球职业培训计划,已为世界各地数千人提供了教育,正在发展中经济体培养一批接受过人工智能相关知识培训的工人。

4、 中国积极参与全球人工智能治理。早在 2021年,中国就向联合国提交《中国关于规范人工智能军事应用的立场文件》。2023年7月,中国公布《生成式人工智能服务管理暂行办法》。10月,中方在第三届“一带一路”国际合作高峰论坛期间提出《全球人工智能治理倡议》,为人工智能相关国际讨论和规则制定提供了蓝本。

5、 从半导体产业看,中国在先进制程方面已经受到限制,需要想办法在成熟制程上获得优势,从而形成供应链压力的互换。美国出口管制的覆盖面越是扩大,美国企业获取利润的空间就越会缩小。短期来看,美国占据了主动权。但从长远来看,也会削弱美国对供应链的控制力。

6、 目前中国广泛采用的绝大多数人工智能应用都服务于消费行业。然而,在未来的十年里,这一现状将经历翻天覆地的变革。中国的人工智能将在汽车、交通与物流、制造业、企业软件以及医疗保健和生命科学方面迎来更为广泛的增长机遇。

(一)

中国人工智能的技术实力

人工智能(Artificial Intelligence,简称AI)是研究机器像人类一样思考的科学和工程,解决的是知识的获取、知识的表示和知识的使用问题。中国信息通信研究院将人工智能定义为“用机器模拟、实现或延伸人类的感知、思考、行动等智力与行为能力的科学与技术”。

1956年的达特茅斯会议上,约翰·麦卡锡等人正式提出“人工智能”一词,并将其定义为一门独立的学科。本世纪20年代,人工智能在各个领域持续取得重大突破,进而对人类生产和生活带来前所未有的变革。

中国在人工智能领域的崛起是一个多层面的过程,涵盖了政策支持、科技创新、产业投资和人才培养等方面。中国政府通过一系列战略规划,明确了对人工智能的支持和投资,形成了一批具有全球竞争力的科技巨头,如百度、阿里巴巴、腾讯、华为等,它们通过投资、并购和合作形成了庞大的生态系统。

中国拥有庞大的人口和海量的数据,为人工智能算法的训练提供了丰富的信息资源。中国在人工智能的应用场景方面表现出色,包括但不限于城市智能化、医疗健康、金融科技、教育、智能制造等领域。中国也积极参与国际合作,与其他国家和地区的企业、研究机构进行技术交流与合作,鼓励人工智能企业走出国门,拓展国际市场。

1. 硬件基础:算力、芯片和5G的发展提供了强有力的支持

近年来,中国在算力、芯片和5G等新型基础设施领域的发展呈现快速增长和持续创新的趋势,为人工智能的大规模计算和数据处理提供了强有力的支持。

在芯片方面,中国已经掌握自主研发AI芯片和GPU芯片等关键技术,龙芯处理器、昇腾处理器、华为的麒麟系列芯片以及腾讯的紫霄、沧海、玄灵等前沿技术已经被广泛应用于数据中心、云计算、智能手机、自动驾驶等领域。 

截至2022年底,中国累计建成并开通5G基站231.2万个,基站总量占全球的60%以上。此外,全球近50%的6G专利申请来自中国,充分表明了中国在网络通信领域的技术创新和发展能力。

智能算力水平的大幅提升是中国赶超世界科技创新领域的重要推动力量。中国的超级计算机在全球范围内一直处于领先地位。中国的天河系列超级计算机多次登上TOP500榜单,该榜单汇总了全球最强大的计算机。根据《中国新一代人工智能科技产业发展报告2022》,截至2021年6月,中国共有188个超算中心进入全球500强行列,占总量的 37.6%,居全球首位。

中国在量子计算领域也取得了显著的进展。2017年,中国成功实现了量子随机行走,标志着中国在量子计算研究上的重大突破。中国启动了一系列量子计算研究项目,包括量子通信、量子密钥分发等。中国的量子科学实验卫星“墨子号”在全球首次实现了量子纠缠分发,被认为是量子通信领域的重要里程碑。在该领域,中国的研究也逐渐走向实际应用,如量子通信的商业化应用和量子优化算法在物流、金融等领域的应用。

算力、算法、数据是人工智能的三大核心要素,源于芯片的算力是数据和算法的基础设施,也是这二者的支撑。

人工智能芯片是指对人工智能算法做了特殊设计的芯片。20世纪80年代开始,美国加州理工学院的Mead最早开始了人工智能芯片的研究。经过三四十年的发展,如今专家学者们研究出GPU、数字信号处理器(DSP)、FPGA以及类脑芯片等各类人工智能芯片。

中国人工智能芯片的研究起步较晚,近几年研究机构和企业开始发布人工智能芯片研究成果和产品。2017年华为技术有限公司发布了首款人工智能芯片麒麟970,这是全球首款内置独立神经网络单元(NPU)的智能手机AI计算平台。而后,2019年8月23日,华为在深圳正式发布商用的AI芯片——Ascend 910(昇腾910)。2018年,中科寒武纪科技股份有限公司发布首款云端AI芯片MLU100;随后,北京地平线机器人技术研发有限公司、平头哥半导体有限公司、昆仑芯(北京)科技有限公司等企业纷纷发布AI新产品。

《2022中国人工智能芯片行业研究报告》预计,2025 年中国人工智能核心产业市场规模将达到4000亿元,其中基础层芯片及相关技术的市场规模约1740亿元。

2. 软件创新:赋能产业发展

  •  计算机视觉领域

人们认识世界91%是通过视觉来实现。同样,计算机视觉的最终目标就是让计算机能够像人一样通过视觉来认识和了解世界,它主要是通过算法对图像进行识别分析,目前计算机视觉最广泛的应用是人脸识别和图像识别。

在图像识别与分类方面,中国的研究者和公司通过深度学习技术,提高了图像识别的准确性,还在大规模图像分类问题上取得了显著的进展。如商汤科技的图像识别技术被广泛应用于视频监控、安防、零售等领域;腾讯在图像识别和分类方面进行了大量研究,包括利用深度学习技术实现高效的图像搜索和分析。

在目标检测和跟踪方面,针对目标检测和目标跟踪的需求,中国的研究机构和企业推动了目标检测算法的进步,对于自动驾驶、智能监控系统等领域具有重要意义。比如,华为云推出了一系列的计算机视觉服务,包括目标检测和识别,以支持不同行业的应用,如智能交通、零售等。旷视科技的人脸识别和目标检测技术也得到了广泛的应用。大疆创新在无人机领域,通过人脸识别技术实现了更智能的飞行体验。

在图像生成与处理方面,中国的研究者也在使用生成对抗网络(GANs)等技术进行创新,包括图像超分辨率、风格迁移等领域的研究。阿里巴巴的研究团队在图像超分辨率和风格转换等领域进行了一些工作,京东数字科技在图像处理方面有一些研究,特别是在电商领域,通过图像识别技术改善商品搜索和推荐。

  • 自然语言处理和语音识别技术

自然语言处理是指计算机拥有识别、理解人类文本语言的能力,是计算机科学与人类语言学的交叉学科。自然语言是人与动物之间的最大区别,人类的思维建立在语言之上,所以自然语言处理也就代表了人工智能的最终目标。机器若想实现真正的智能自然语言处理是必不可少的一环。

以语言主导机器的方式是一种非常方便的形式。语音识别技术旨在将人类的口头语言输入转换为机器可理解的语言,或者转化为自然语言。当人类的声音信号通过话筒接收后,它被转换成电信号并成为语音识别系统的输入。系统随后对传入信号进行处理,进行特征抽取并提取相关参数,从而揭示出独特的特征。这些特征与原有数据库进行对比,最终呈现出识别出的语言结果。

中国在人工智能领域,特别是在自然语言处理(NLP)和语音识别技术方面,已经取得了显著的进展。中文自然语言处理领域取得的一个重要突破是在预训练模型方面。BERT(Bidirectional Encoder Representations from Transformers)等模型在中文语境中的成功应用,大大提高了文本理解和语义分析的性能。中文分词是NLP中的一个重要任务,中国的研究者在中文分词技术上进行了大量研究,提高了在不同语境下的分词准确性。

在语音识别技术方面,百度推出了DeepSpeech技术,基于深度学习的方法在语音识别领域取得了显著的进展。这种技术在理解多种语音输入方面表现得非常出色。科大讯飞是中国领先的语音技术公司之一,其在语音合成和语音识别方面的研究也取得了一系列的成果,应用于语音助手、智能客服等领域。

在深度学习和迁移学习方面,中国的研究者还在自然语言处理中广泛应用迁移学习,通过在一个领域上训练的模型来改善在另一个相关领域上的性能,提高了模型的泛化能力。

  • 机器学习领域的突破

机器学习的基本思想是通过计算机对数据的学习来提升自身性能的算法。机器学习中需要解决的最重要的 4 类问题是预测、聚类、分类和降维。

在深度学习框架和工具方面,一些中国的科技公司和研究机构在深度学习框架和工具的开发上也有所突破,包括支持分布式训练、模型压缩和加速等方面的创新。深度学习框架和工具。比如,百度推出了PaddlePaddle深度学习框架,支持分布式训练和部署,为开发者提供了丰富的工具和库。华为提供了MindSpore深度学习框架,具有灵活的图模型、推理引擎和分布式训练等功能。

浙江大学控制学院智能驾驶与未来交通中心主任、教授刘勇在中国人工智能大会上介绍,近年来,随着传感器技术和 SLAM 理论的突破,自主移动机器人已经从研究迈向市场应用,涉及的领域包括无人驾驶、智慧城市、腿足机器人、火星车等等。谷歌、苹果、Meta 等国际巨头重点关注这项技术,国内巨头华为、百度、腾讯、阿里等,也纷纷开展专项研究。

中国人工智能产业的发展

政策支持经历三个阶段

随着国内外经济环境的变化,中国人工智能发展的支持政策呈现明显的阶段性特征。大体来看,中国人工智能发展的政策演进可以划分为初期探索、加速推进和应用落地三个阶段。

在初期探索阶段(2017 年以前),国务院发布了《关于推进物联网有序健康发展的指导意见》《关于积极推进“互联网+”行动的指导意见》《关于印发促进大数据发展行动纲要的通知》等政策文件,围绕大数据、5G、物联网等领域进行了全面部署。

在加速推进阶段(2017—2020年),国务院印发了鼓励和规范发展人工智能的政策文件《新一代人工智能发展规划》以及推进人工智能和实体经济深度融合的指导文件,人工智能发展上升为国家战略。工信部发布了“三年行动计划”,提出了包括建立人工智能研究院、加强基础研究和应用技术研发、加快人才培养等一系列人工智能扶持政策。

在应用落地阶段(2021年至今),“十四五”规划将人工智能列为重点发展产业之一。科学技术部等六部门于2022年出台了《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,科技部印发了《关于支持建设新一代人工智能示范应用场景的通知》,并启动了“人工智能驱动的科学研究”专项部署工作。

在创新生态系统方面,根据中国信息通信研究院发布的《人工智能中国专利质量研究报告》,中国人工智能领域专利质量集中分布在5—6级,占比59.3%,7—8级专利占比33.4%,9级以上专利占比 3.2%,这反映出中国人工智能专利质量有待进一步提高。

另外,在科研产出方面,中国人工智能论文的数量和质量迅速提升,人工智能期刊、会议和知识库出版物数量领先世界。2021年中国人工智能期刊出版量占世界总量的31.04%,引用量占世界总量的27.84%,均高于美国、欧盟和英国。

正如日本媒体《日经亚洲》所指出的那样,“中国是人工智能研究论文方面无可争议的冠军……在数量和质量上都远远超过美国”。

人工智能论文还出现了学科主题分布较为广泛的特点。《2022全球人工智能创新指数报告》显示,除电子、通信、计算机科学等信息技术主题外,人工智能论文也涉及环境科学、地理科学、材料科学等基础学科主题。2020—2022年,涉及环境科学、地理科学、材料科学等基础学科主题的人工智能论文数量不断增长,占人工智能论文总量的比重从2020年的5%上升到2022年的10%。

(三)

中国人工智能在全球市场的影响

截至2022年底,全球人工智能代表企业数量27255家,其中我国企业数量4227家,约占全球企业总数的16%。我国人工智能产业已形成长三角、京津冀、珠三角三大集聚发展区。百度、阿里、华为、腾讯、科大讯飞、云从科技、京东等一批AI开放平台初步具备支撑产业快速发展的能力。

1. 中国人工智能的全球地位

目前,中国的人工智能专利申请量居世界首位。据中国信通院测算,2013年至2022年11月,全球累计人工智能发明专利申请量达72.9万项,我国累计申请量达38.9万项,占53.4%;全球累计人工智能发明专利授权量达24.4万项,我国累计授权量达10.2万项,占41.7%。

创新载体建设取得新进展。一批新型研发机构在人工智能大模型、人工智能计算芯片等领域取得了技术突破。算力基础设施达到世界领先水平。关键核心技术取得局部突破,部分关键应用技术居世界先进水平。我国企业在应用算法、智能芯片、开源框架等关键核心技术上已取得重要突破,图像识别、语音识别等应用技术进入国际先进行列,智能传感器、智能网联汽车等标志性产品有效落地应用。

中国还拥有大量的技术工人,每年约有140万工程师获得资格,是美国的六倍,其中至少三分之一从事人工智能相关工作。腾讯、阿里巴巴和华为目前已跻身全球此类产出前十名的公司之列。

2. 国际合作与竞争

马来西亚数字经济发展机构和吉隆坡市政厅2018年宣布引入阿里云“城市大脑”,将人工智能技术全面应用到交通治理、城市规划和环境保护等领域。项目实施第一阶段,人工智能技术将应用到吉隆坡281个道路路口,通过红绿灯动态调节加快车辆通行速度、缓解拥堵。出现突发状况时,人工智能可以全局调控交通状况,为应急车辆开辟“绿色通道”。此外,人工智能系统还有助于及时发现交通事故,为事故处置和交通疏导提供更全面的参考建议。

近年来,中非也在不断加强数字人才培养合作,助推非洲人工智能产业发展。中国电信在非洲11个国家建设了超过5万千米的光纤骨干网,大大提升相关区域的信息化水平,有效助力“智慧非洲”建设;中兴通讯携手非洲Airtel集团,助力刚果(金)语音网络数字化转型;2021年,埃及通信和信息技术部与中国企业合作启动“数字埃及建设者”计划,每年为1000名优秀学生提供奖学金,支持他们在人工智能、数据科学、网络安全等领域进行深造。

美国“政客新闻网”2023年11月撰文指出,中国已经在人工智能面部识别技术的出口中占据主导地位,在全球范围内该项技术,这一趋势只会加速。中国广受欢迎的“鲁班工坊”全球职业培训计划,已为世界各地数千人提供了教育,正在发展中经济体培养一批接受过人工智能相关知识培训的工人。

《2022全球人工智能创新指数报告》显示,目前中美两国引领世界人工智能发展,呈梯次分布的总体格局保持不变。但美国在国际化方面的优势尤其突出,高出中国约40分。报告显示,中国人工智能发展成效显著,人工智能创新指数近3年一直保持全球第二水平,在人才、教育、专利产出等方面均有所进步,但基础资源建设水平仍有待提高。

2022年,中国有10个三级指标名次相比2021年有所上升,主要集中在人才、教育、专利产出、创新制度等方面。我国公共数据的质量和开放度不高,相关指标排名靠后,信息化基础还有较大提升空间,在移动蜂窝电话订阅率、互联网使用率、固定宽带订阅率等指标上均排在参评国家中等位置。 

谷歌的母公司Alphabet Inc.首席执行官桑达尔·皮查伊今年11月出席亚太经合组织(APEC)会议时表示,中国人工智能研究的规模令人震惊,他预计中国将走在人工智能的前沿。“如果中美两国不就人工智能等问题进行深入对话,就不可能取得长期进展……这必须是整个过程中不可或缺的一部分。”

(四)

社会影响:数据隐私与伦理问题

当前,全球人工智能技术快速发展,给经济社会发展和人类文明进步带来巨大机遇,也带来难以预知的风险和挑战。对此,国际社会迫切需要加强人工智能治理,做到趋利避害、扬长避短,推动人工智能朝着科技向善的方向发展。

作为联合国安理会常任理事国和国际社会负责任的一员,中国积极参与全球人工智能治理,致力于提升人工智能技术的安全性、可靠性、可控性、公平性。早在 2021年12月,中国就向联合国《特定常规武器公约》第六次审议大会提交《中国关于规范人工智能军事应用的立场文件》。2022年11月,中国又向联合国《特定常规武器公约》缔约国大会提交了《中国关于加强人工智能伦理治理的立场文件》。这些主张坚持维护人类福祉,坚守公平正义,体现了大国责任担当,为解决全球人工智能治理难题贡献了中国智慧和方案。

2023年7月,中国国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》。《办法》提出,国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管,明确了提供和使用生成式人工智能服务总体要求。旨在促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益。

2023年10月,中方在第三届“一带一路”国际合作高峰论坛期间提出《全球人工智能治理倡议》,围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案,呼吁增强发展中国家的代表性和发言权,确保各国人工智能发展与治理的权利平等、机会平等、规则平等,开展面向发展中国家的国际合作与援助,主张在充分尊重各国政策和实践差异性基础上,形成具有广泛共识的全球人工智能治理框架和标准规范。就各方普遍关切的人工智能发展与治理问题给出建设性解决思路,更为人工智能相关国际讨论和规则制定提供了蓝本。

(五)

未来展望:AI将在汽车、运输

和物流创造最大经济价值

美国麦肯锡咨询公司围绕中国人工智能产业应用发布的系列报告显示,目前中国广泛采用的绝大多数人工智能应用都服务于消费行业,未来的十年里,这一现状将经历变革。中国的人工智能将迎来更广泛的增长机遇,特别是在那些传统上中国在创新和研发支出方面相对滞后于全球同行的领域,如汽车、交通与物流、制造业、企业软件以及医疗保健和生命科学。这些领域将产生集群式的人工智能应用场景,每年可创造6000亿美元以上的经济价值,其中汽车、运输和物流将占据大部分(约 64%);制造业将带动19%的增长;企业软件将贡献13%,医疗保健和生命科学占据4%。

具体来看,人工智能或会对汽车行业产生最大的潜在影响,将创造超过3800亿美元的经济价值。这种价值创造主要体现在三个领域:自动驾驶汽车、车主个性化和车队资产管理。

中国是全球最大的汽车市场,汽车保有量超过美国。预计到2030年,中国道路上行驶的客车数量将超过3亿辆,为人工智能提供了广阔的发展机遇。

在自动驾驶汽车方面,其价值创造占该行业总值的最大部分(3350亿美元)。新价值的部分来源于减少财务损失,如医疗、急救和车辆成本。由于自动驾驶汽车能够主动导航周围环境并实时做出决策,而不受干扰,预计每年道路事故将减少3%至5%。随着共享自动驾驶汽车替代客车和公共汽车,司机的节省也将带来额外的价值。传统汽车制造商和人工智能公司已经在将自动驾驶能力提升到4级(驾驶员无需专注但可接管控制权)和5级(全自动驾驶,包括方向盘是可选的)方面取得了重大进展。例如,文远知行已经实现了4级自动驾驶能力,其Robotaxi在广州试点运营一年内完成近15万次出行,没有发生主动责任事故。

在为车主提供个性化体验方面,通过使用人工智能分析传感器和GPS数据,汽车制造商和人工智能公司能够提供越来越多的硬件和软件更新建议,并个性化车主的驾驶体验。例如,蔚来汽车的先进驾驶辅助系统和电池管理系统实时跟踪电动汽车电池的健康状况,并优化充电节奏,提高电池的使用寿命。研究发现,这有望通过降低维护成本和减少意外车辆故障,创造300亿美元的经济价值。

在车队资产管理方面,人工智能有望帮助车队管理者更好地驾驭庞大的铁路、公路、内河和民航航线网络。专注于物流的原始设备制造商和人工智能公司的运营研究优化器预计可创造150亿美元的价值,通过分析物联网数据,为车队运营商确定更省油的路线和更低成本的维护站点。一些汽车制造商已经提供了人工智能驱动的管理系统,用于监控车队位置、跟踪车队状况以及分析行程和路线,预计可节省高达15%的燃料和维护成本。

在制造业,人工智能正在推动中国从低成本制造中心转变为处理器、芯片、发动机等高端零部件的精密制造领军者,每年创造1150 亿美元经济价值。大部分价值(约1000亿美元)来自利用各种人工智能应用程序进行的流程设计创新,如创建下一代装配线的协作机器人、复制真实资产用于仿真和优化引擎的数字孪生技术等。其余价值创造(约150亿美元)来自人工智能促进的产品开发改进。企业可以利用数字孪生快速测试和验证新产品设计,以降低研发成本、提高产品质量并推动新产品创新。在全球舞台上,谷歌以其利用人工智能快速评估不同组件布局对芯片功耗、性能指标和尺寸的影响的方式为我们展示了这种可能性。这种方法可以在设计工程师独立花费时间的一小部分内生成最佳的芯片设计。

在企业软件,中国的企业正在经历数字化和人工智能转型,催生了新兴的本地企业软件产业。这些企业提供的解决方案预计将创造800亿美元经济价值。其中,云计算和人工智能工具产品将产生450亿美元经济价值。比如中国的云服务提供商为中国100多家本地银行和保险公司提供了集成数据平台,使它们能够在跨云和本地环境中运营,同时降低了数据库开发和存储成本。另外,人工智能驱动的SaaS(软件即服务)应用程序将产生350亿美元经济价值。本地SaaS应用程序开发者可以应用各种人工智能技术,如计算机视觉、自然语言处理和机器学习,帮助企业在财税、人力资源、供应链和网络安全等业务职能领域做出预测和决策。一家领先的中国金融机构已经部署了本地人工智能驱动的SaaS解决方案,该解决方案通过使用人工智能机器人根据员工的职业道路为其提供个性化的培训建议。

最后,在医疗保健和生命科学行业,人工智能将在三个方面创造超过250亿美元的经济价值:一是利用人工智能加快靶点识别和新型分子设计,加快新药发现和上市速度并降低药物研发成本;二是优化临床试验、试验交付与执行,减少开发时间和成本,为患者和医疗保健专业人员提供更好的体验,实现高质量和合规性;三是在医学图像和数据方面利用机器学习算法来预测诊断结果和支持临床决策。

在AIGC与智能医学专题论坛上,联影智能科技有限公司研发总裁、首席运营官詹翊强提出,算法性能的提升能改变AI应用的使用方式,并通过软件架构创新使AI技术嵌入医生工作流,围绕病种或部位的多个AI应用形成解决方案。比如在冠脉慢性全阻塞病例中,人工智能冠脉重建软件在缩短73%的重建与测量时间的情况下,实现重建成功率从传统工作站的48%到95%的提升。

他提到,业界正尝试通过GhatGPT的大语言模型进行文本大规模应用,将非结构化的手术过程记录,转化为结构化手术归纳,并通过文本大模型和图像模型的结合,赋能各种医疗场景,构建有医疗专业性的更精准的专业大模型。