淘宝上线AI创作小助手,布局AIGC

据 Tech 星球报道,淘宝APP已经上线AI创作小助手,目前该AI创作小助手,支持用户通过AI创作不同风格的自画像,可用作淘宝账号头像。

AI 创作小助手的主要服务还是AIGC绘画领域,能够调起用户的新鲜感,探索围绕用户的更多AIGC玩法,未来是否会上线图文生成、对话生成等玩法,值得关注。

从官方的介绍看,AI创作小助手的功能或不只是头像创作,未来应该还会推出更多的玩法。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

C-Eval中文大模型权威排名公布!APUS得分名列第四,难题排名全球第一!

C-Eval全球大模型综合性考试评测榜公布,全球排名前四的分别为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat, APUS的AiLMe-100B v1。然而值得关注的是,在难题排行榜中,APUS位列全球榜首!

C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同学科和四个难度级别。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

好莱坞终结者?Fable公司推出多模态影视生成器 Showrunner AI

就在今年第六季的《黑镜》里有一集叫《琼糟透了》,讲的是未来人工智能通过搜集用户的信息自动生成电视剧。而电视剧里的科幻内容正在变成现实。

昨天旧金山初创公司Fable发布了名为SHOW-1的Showrunner AI技术,可以生成以您为主角的电视节目新剧集。这个剧情是不是很熟悉?

从去年到现在,AIGC一直都在指数级的发展,大家一直都在猜测它将走向何方,现在看了多模态整合出的系统性的创造力工具可能是方向之一。而这种工具直接指向的就是视频影视类的工具。

不过值得深思的是最近好莱坞的编剧和演员正在因为AIGC的发展而罢工。

这个公司已经获得了两项艾美奖和一项皮博迪奖,并发布了一篇研究论文,概述了其AI Showrunner 的潜力,这个AI工具可以完成 编写、制作、导演、选角、编辑、配音和制作电视节目的剧集。

“AI Showrunner 所做的就是为你创建类似《南方公园》这样的剧集。所有这些都是由AI Showrunner 创建的,” Fable首席执行官Edward Saatchi在接受采访时表示。“不仅是对话。它还实现动画、配音和编辑。对于电视剧 AI Showrunner可以生成剧集,或者用户可以创建提示并根据两个句子来创建电视剧集。有人说AI不会讲故事,那么,它现在可以了。”

AI Showrunner 可以用来做什么?

官方推特:https://twitter.com/fablesimulation

官方论文:https://fablestudio.github.io/showrunner-agents/

这家公司的目标是通用人工智能,一个真正活着的AI,不仅仅是在我们说话时才会出现的聊天机器人,而是能在模拟器中过着真实日常生活、随时间成长的AI人(西部世界既视感)

他们构建了“节目负责人”智能体,并正在建造SHOW-1模型,以便为AI提供无限的故事。并且希望大家能观看自己在模拟世界中关注、构建或训练的AI的生活,可以把它看作是AI的真人秀。《老友记》这部剧让我们感觉好像看到了朋友一周的生活——它让我们与他们建立了联系。AI电视剧展示AI一周的生活也会让我们与那些AI建立联系。

这简直是AI版本的《楚门世界》,不知道里面的AI会怎么想。

这家公司正在与创作者合作,据说会在今年晚些时候宣布几个附带AI电视节目的原创IP模拟:

  • 一个太空探索模拟“奖金”
  • 一个讽刺硅谷的模拟“退出硅谷”
  • 一款有趣的侦探模拟游戏,名为《查理·木星》

他们认为单个聊天机器人终将失败,因为它们没有生活,也无法有同理心。没有人真的想和一个瓶中的大脑无休止聊天,这些AI应该拥有自己的生活, 因此我们需要AI的社会,应该更像《失控玩家》而不是《她》。

让每个人成为剧中主演

你可以通过上传自己的照片和声音来生成自己的角色,从而在剧中出演以你为主演的电视剧。这个真的很绝,我第一个想到的就是粉丝产业和二次元,每个成功的影视IP都有自己庞大的粉丝群体。在过去人们只能通过线下活动和周边产品来满足自己对这些作品的参与度。但是现在你可以直接进入剧里,跟你最喜欢的角色进行互动,并且无限生成剧情,这是一个永远不会完结的coserplay。

“我不仅想创作我喜欢节目的续集,还想出现在我喜欢的节目中。比如,我想在《星际迷航》中作为少尉角色出现,或者想在《南方公园》中出现。” Saatchi说。
Saatchi 认为娱乐公司可以采用这项技术赋权给粉丝,让他们基于自己喜爱的IP生成个性化内容。好莱坞曾看不起这样的尝试,甚至起诉粉丝。但他认为时代在变化,这可以成为新的收入来源。这种技术可以用于创造一个粉丝可以将自己置入喜爱节目、创作新剧集、并竞相创作史上最佳剧集的世界。Fable 正在向AI研究者开放该技术,以探索如何创建可以为其中的AI提供持续影视节目多模态。他们也承认在好莱坞编剧和演员举行罢工期间发布这项技术确实令人不安,并表示AI对好莱坞确实是一个真实存在的威胁,编剧需要对好莱坞使用AI获得明确保证。在《南方公园》剧集的免责声明中,Fable指出,名人配音是“生成得很差”,仅为“研究目的”。(非常强的求生欲啊😂)Saatchi指出,这项技术有多个方面。“ AI Showrunner 技术可以被工作室用来破坏艺术表达,也可以被编剧导演用来将原创脚本搬上银幕,无需巨额预算和团队。

生成式影视的未来

工作室和创作者将必须仔细考虑Saatchi所说的 “生成式影视” 的未来商业模式,在这种模式下,AI要为IP持有者、创作者/演员或粉丝创作电视节目。

“当涉及自己的IP时,创作者创作出一个IP,他们建立那个世界的模拟,并生成可以变现的节目,然后在YouTube上发布。” Saatchi说,“他们可以有一个频道,如果是一个非常好的节目,就可以把它卖掉赚钱。”

Saatchi认为IP所有者可以向人们出售类似Disney+的订阅。人们可以用迪斯尼角色创作自己的剧集。这可能比重复观看一部剧集二十次更令人满意得多。不过粉丝创作的内容可能不会拥有所有权,而只是通过支付费用来获得创作特权,但不能在付费墙外共享或从中获利。这在某种程度上对粉丝来说有点苛刻,因为有些粉丝已经能够通过创作自己的内容在流行中获利,比如《堡垒之夜》的粉丝。作为研究的一部分,AI“节目负责人”正在用于开发动画版本的人际剧情、太空战斗、医院危机和谋杀之谜。Saatchi认为随着AI技术的发展,未来可能出现由AI复制创作的世界。一旦AI接管创作,某部剧可能可以永远继续下去,无论是由工作室控制还是由观众定制剧情。研究人员展示了一个AI围绕《南方公园》角色创建的虚拟模拟项目,每周生成一集精彩集锦,展示了AI在电视剧创作方面的可能性。这个项目并不商业化,主要是为了探索技术的可能性。Saatchi表示,作为艺术家和讲故事者,发现AI的强大效果令人不安。他们希望以非商业的方式分享研究结果,以便编剧能够与工作室积极谈判,确保好莱坞在AI应用方面采取适当的规则。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

OpenAI推出ChatGPT安卓版本,畅享智能对话

随着科技的不断进步,人工智能成为了我们生活中不可或缺的一部分。ChatGPT作为一个领先的智能对话应用,一直致力于提供优质的交流体验和个性化的服务。

自去年11月发布以来,OpenAI公司的ChatGPT工具以惊人的速度吸引了大量用户,但最近的流量似乎有些不尽人意。为了改善这种情况,据OpenAI在7月22日在推特上宣布,本周将发布ChatGPT安卓版本,用户可以从即日起在谷歌商店预约下载。此外,根据媒体报道,微软也宣布了他们的AI工具Office 365 Copilot的定价。根据此定价方案,每位用户将需要支付30美元/月的服务费用,而这个价格将以大多数企业客户已经支付的价格为基础。

而早在今年5月份发布了ChatGPT的iOS应用程序版本,已经可以在iPhone和iPad等移动设备上使用。

OpenAI近日推出了安卓版ChatGPT,这无疑是一个重磅“大招”。如果安卓版ChatGPT能像iOS版本那样受到广泛欢迎,那么在接下来的几周内,我们将看到OpenAI的浏览量数据发生巨大变化。

安卓版ChatGPT的问世意味着更多的用户将能够在他们的安卓设备上体验到令人惊叹的人工智能聊天能力。对于OpenAI来说,推出安卓版ChatGPT是一个重要的战略决策。随着安卓操作系统在全球范围内的普及,这个决策将有助于OpenAI扩大其用户群,并进一步增强其在人工智能领域的影响力。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

Stability AI新模型FreeWilly击败Llama 2,性能媲美ChatGPT,登顶开源模型第一

7月21日,独角兽Stability AI联合CarperAI实验室发布基于Llama 2 70B微调的新模型FreeWilly 2,以及基于Llama 1 65B微调的新模型FreeWilly 1

在最新的 HuggingFace 的 Open LLM 排行榜上,FreeWilly 2拿下开源模型第一,平均得分比Llama 2高了4个百分点。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

模型地址:https://huggingface.co/stabilityai/FreeWilly2

模型地址:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly 模型采用了基于标准Alpaca格式,并经过监督微调(SFT)的全新合成数据集来进行训练。

根据官方的介绍,FreeWilly 2 在基准测试中表现优异,甚至有部分任务还超过了GPT-3.5。这样,FreeWilly 2 成了首个可以和 GPT-3.5 相抗衡的开源大模型,连前几天被称为「最强开源模型」的Llama 2也未达成。 

PART 01FreeWilly 数据来源

Stability AI在官方博客中表示,FreeWilly 模型的训练方法是受到微软论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》的直接启发。所以 FreeWilly 模型的数据生成过程与它相似,但两者的数据来源却存在差异。

论文链接:https://arxiv.org/pdf/2306.02707.pdf

FreeWilly 的数据集包含了 60 万个数据点(大约是原始 Orca 论文使用的数据集大小的 10%),它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original

通过这种方法,Stability AI用一个较简单的 LLM 模型生成了 500,000 个示例,又用一个较复杂的 LLM 模型生成了 100,000 个示例。为了确保比较的公平性,Stability AI对这些数据集进行了仔细筛选,删除了来自评估基准的示例。尽管训练的样本量只有原始 Orca 论文的十分之一,但所生成的 FreeWilly 模型在各种基准测试中都表现出了卓越的性能,这也验证了合成生成数据集方法的可行性。PART 02FreeWilly 性能评估

为了评估 FreeWilly 模型的性能,Stability AI的研究人员采用了 EleutherAI 的 lm-eval-harness 基准,并加入了AGIEval基准。
lm-eval-harness 基准

lm-eval-harness 基准:由 EleutherAI 非盈利人工智能研究实验室创建,是一个专门为 LLM 进行 few shot 任务测评的工具,包括了 200 多种指标的测评。HuggingFace Open LLM 排行榜就使用了该基准来进行指标( ARC (25-s), HellaSwag (10-s), MMLU (5-s) 及 TruthfulQA (MC) )计算。

AGIEval 基准

AGIEval 基准:由微软创建,专门用于评估基础模型在「以人为本」(human-centric)的标准化考试中,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试中的表现。

论文链接:https://arxiv.org/pdf/2304.06364.pdf
数据链接:https://github.com/microsoft/AGIEval

FreeWilly 1 和 FreeWilly 2 在 lm-eval-harness 基准上的评估结果如下:

FreeWilly 1 和 FreeWilly 2 在 AGIEval 基准上的评估结果如下(全部是 0-shot):

FreeWilly 1 和 FreeWilly 2 在 GPT4ALL 基准上的评估结果如下(全部是 0-shot):

从结果上看,FreeWilly 1 和 FreeWilly 2在多个方面都表现优秀,包括复杂的推理、理解语言的微妙之处,以及回答与专业领域相关的复杂问题(如法律和数学问题解决)。显然,开源模型正在进一步缩小与ChatGPT等最领先闭源模型的差距。

不过,虽然两个模型都是开放获取的,但官方表示,这两款模型都是研究实验,是以非商业许可的形式发布的,仅可用于研究目。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

ChatGPT:“顶流”技术图景下的文旅实操性

ChatGPT是OpenAI公司开发的自然语言处理模型,是AIGC(即狭义上的“生成式人工智能”)技术发展的重要表现,其通过海量语料库的训练,模拟人类语言习惯和偏好,并根据指令预测用户意图,进行内容生成。作为新一代AI明星产品,ChatGPT凭借突出的性能火爆“出圈”,正在引发相关的技术讨论、资本布局和落地探索。

2022年11月30日,美国OpenAI公司发布生成式AI工具ChatGPT,以两个月突破一亿用户的战绩,掀起新一轮AI科技热潮。ChatGPT及其背后的人工智能技术,在众多行业引发产业结构和劳动力技能的革新迭代。
上海市文化和旅游局对此高度重视,组织力量开展专项研究,从ChatGPT类技术模型的特征、功能及相关应用场景入手,聚焦文旅服务范式、文旅供给内容、文旅营销趋势、文旅产业格局、行业管理生态等层面,分析梳理ChatGPT顶流技术图景下文旅业或将迎来的改变和发展可能,并结合上海实际,对如何“拥抱顶流”进行思考,助推文旅领域抢占新机遇、布局新赛道、锻造硬核实力、实现高质量发展。
01
ChatGPT领衔的顶流技术风口解读
ChatGPT是OpenAI公司开发的自然语言处理模型,是AIGC(即狭义上的“生成式人工智能”)技术发展的重要表现,其通过海量语料库的训练,模拟人类语言习惯和偏好,并根据指令预测用户意图,进行内容生成。作为新一代AI明星产品,ChatGPT凭借突出的性能火爆“出圈”,正在引发相关的技术讨论、资本布局和落地探索。
一是技术层面,被认为是AI从“感知”到“认知”的技术奇点。相关专家观点认为,从底层逻辑而言,ChatGPT并非新技术,而是人工智能学习范式的升级,在“类人化”上迈出了重要一步,代表了人工智能从“规则式感知分析”迈向“拟人化认知互动”。ChatGPT具备突出的内容重组能力,区别于“搜索引擎通过关键词触发既有内容”和“决策式AI(如AlphaGo等)根据清晰规则进行智能决策”,ChatGPT更加擅长用归纳演绎的方式进行内容的创新生成,是数据信息的创新重组。ChatGPT具备惊艳的思维推理能力,ChatGPT虽然不具备自主心智和情感意识,但有着很强的语言理解能力,能够结合上下文语境进行逻辑推理,为用户带来更加流畅自然的人机交互体验。ChatGPT具备很强的拟人交流能力,ChatGPT在训练中引入了人类评价和反馈模型,很大程度上能够生成“贴近人类语言习惯和价值偏好”的内容,从而带来“类人化”的交流感受。
二是资本层面,作为“科技符号”正在引发现象级的布局浪潮。ChatGPT自发布以来,已经从“现象级的产品”进化为一种“科技符号”,掀起了ChatGPT类技术模型及相关AIGC赛道的竞技布局。例如,Google对标ChatGPT发布AI对话系统Bard;社交媒体公司Meta推出类ChatGPT语言模型LLaMA;百度发布国内首款类GPT大语言模型“文心一言”,并推出升级版“文心千帆”大模型平台;京东云旗下言犀人工智能应用平台宣布将推出产业版ChatGPT“ChatJD”;阿里达摩院正在研发“阿里版”ChatGPT;上海学术界和产业界已开发出Moss、“曹植”和“魔力写作”等多个大语言模型。截至目前,大部分互联网头部均已官宣加入这场“人工智能竞赛”。
三是应用层面,强大的自然语言交互功能引起广泛的落地探索。ChatGPT问世以来,在信息搜索、文本生成、智能聊天、翻译问答、自动文摘、智能编程等方面的交互表现突出,搜索引擎、企业办公、在线教育、文旅服务、游戏娱乐、新闻传媒、生活电商等领域探索场景落地步伐也在加快。例如,微软发布集成ChatGPT/GPT-4技术的新版必应(bing),打造AI搜索引擎体验,推出GPT-4技术驱动的Copilot,开启AI协同办公;Quizlet结合推出AI导师Q-Chat,提升在线学习体验;Expedia、KayaK、OpenTable等OTA平台成为ChatGPT插件功能的第一批启用者;网易将推出游戏版ChatGPT,利用AI赋能游戏NPC角色创作;澎湃新闻等媒体机构,宣布成为“文心一言”首批生态合作伙伴;生鲜电商Instacart在杂货配送、搜索问答中嵌入ChatGPT技术。
然而,人工智能是把双刃剑,随着各种功能应用展开,ChatGPT类技术模型本身存在的“信息失实、算法偏见、可解释性不足”等缺陷及其带来的“数据信息泄露、意识形态操控、诱发网络犯罪、内容生成侵权”等社会伦理和治理问题都在显现。目前已有多国政府和企业禁用和调查ChatGPT软件,如何“趋利避害”应当成为未来应用探索的重点。
02
ChatGPT类技术图景下的文旅可能
就当前节点而言,文旅及与文旅密切相关的游戏、电商等领域正成为ChatGPT类技术模型落地应用的首要场景。
(一)催生文旅服务发展新范式
一是信息获取服务将被颠覆。当下市场,游客主要通过OTA、小程序、社交APP等旅游应用获取信息,需要花费大量精力对碎片信息甄选筛别。而ChatGPT类技术模型凭借强大的信息检索能力和优质的内容生成模式,将打破这一固有模式。例如,随着Expedia、Kayak、OpenTable等OTA平台插件接入ChatGPT,游客可以通过ChatGPT,同时获取网站集成信息和智能筛选信息。
二是智能客服场景有望优化。作为人工智能应用的细分赛道,智能客服在文旅领域早有布局。但结合C端评价来看,用户体验参差不齐,看似“高效”但常常“答非所问”。ChatGPT类技术模型能够学习模拟人类语言,联系上下语境进行推理,大大提升客服的自动化、精准度和交互性,咨询投诉等文旅服务有望更加通畅。ChatGPT类技术模型在多语言支持方面,也将为国际旅游多语种服务提供新的思路。
三是智能旅行助手或将出现。ChatGPT类技术模型可以根据用户需求、历史行为等向量,为用户精准推荐个性化商品。具体到文旅领域,假定旅游内容平台和交易平台的信息壁垒完全被打破,基于ChatGPT类技术的精准“货找人”模式将会出现。文旅市场主体可以通过嵌入ChatGPT类技术模型,开发虚拟旅行助手,匹配用户偏好,为游客提供个性化行程创建、旅游线路规划、最优消费组合建议。
(二)赋能文旅供给内容新升级
一是文旅产品迭代将会加速。在可联网交互的模式下,ChatGPT类技术模型将通过文本、图片、视频等生成方式,对各类信息进行演绎创作。应用到文旅领域,就意味着可快速汇集分析“网红产品、市场趋势、消费爆点”等文旅讯息,使得旅游产品、旅游场景的研发变得更为简单便捷,带来文旅产品的加速迭代。比如,可以基于目的地的产品、市调及竞品情况,利用ChatGPT类技术模型,研发全新的旅游线路,也可以利用ChatGPT类技术模型的绘画视频生成功能,将非遗故事、潮流设计等内容融入旅游新文创研发。
二是文旅产品玩法有望出新。以ChatGPT为代表的AI技术突破将大幅改善文旅内容的体验方式,催生出更沉浸、更交互、更破壁的文旅玩法。以文博场馆为例,在智能导览系统中接入ChatGPT类技术模型,游客能根据各自兴趣点,以交互问答方式获取文物背后的故事和历史,从而大大拓展游览体验的外延。再如密室剧本杀场景中,利用ChatGPT类技术模型对虚拟NPC进行拟人化训练,则会赋予玩家更加有趣的互动体验和更加真实的沉浸体验。
(三)引领文旅营销发展新趋势
一是文旅品牌露出将面临新的算法规则。ChatGPT类技术模型从庞大数据库中筛选和组织最合适答案的智能搜索模式,将打破传统搜索引擎的信息汇集呈现方式。当ChatGPT类技术平台成为文旅信息总入口,比起广告植入和海量资讯投放,如何让ChatGPT检索到文旅品牌显得更为重要。生成式AI模型成为基础服务或流量入口的情境下,对标搜索引擎时代的SEO,可能会催生新的AEO(AI Engine Optimization)赛道,即基于AI学习算法规则设计标准的信息外露方式,使得文旅品牌信息更好地被ChatGPT发现并推荐给用户。
二是数字人文旅营销场景或会加速打开。在ChatGPT类技术模型的多模态功能加持下,虚拟数字人将具备更广泛的知识储备和更好的问题解决能力,互动性、趣味性和逻辑性都将有所增强,会给虚拟文旅代言、虚拟文旅直播、虚拟旅游推介等带来更多的想象空间,未来甚至有可能重塑KOL等网红生态。目前相关雏形应用已出现,例如,元境科技在虚拟数字人中嵌入ChatGPT类技术模型,并在TikTok落地跨境电商直播、虚拟主播互动等场景。
(四)带来文旅产业格局新变化
一是在线旅游市场集中度可能进一步增强。头部OTA企业在旅游场景、旅游交易等方面拥有丰富且优质的信息沉淀,短期内会成为ChatGPT类技术公司或平台积极招揽的对象,能够在流量市场上占据先发优势。同时,丰富的语料资源,还会使得头部OTA在“投喂、训练”ChatGPT类技术模型中具有一定话语权。一定时期内或者说短期内,市场流量向头部OTA平台集聚的态势将会凸显。
二是文旅的专业化和细分化将成为大趋势。未来如果ChatGPT类技术模型嵌入交互成为新的互联网流量入口,行程定制、旅游咨询、文创研发、旅游营销等领域的同质化可能加剧,这将倒逼文旅市场主体在专业化和细分化上下功夫。例如,旅游规划咨询公司、私人定制旅游公司可能会朝着提升专业策划能力、孵化自有IP品牌等专业化方向发展;在线旅游企业可能为了在流量大盘中增加露出机会,选择深耕自身具有语料优势的细分垂类领域。
三是数字文旅赛道或将迎来新的发展拐点。ChatGPT类技术的发展,代表着强人工智能方向的新突破,将会给在线旅游、数字文创、在线文博、文旅数字人等数字文旅细分赛道注入新动能,带来文旅产业结构的优化和重塑。例如,文旅数字人营销场景的加速打开,将推动更多数字人企业跨界接入文旅领域,延长文旅产业链条。再如,ChatGPT类技术模型在艺术创作和内容交互上的巨大想象空间,也会加快文旅数字藏品的研发和相关应用场景的拓展。
(五)引发文旅行业治理新变革
一是文旅数字化管理将迎来新的契机。从相关调研结果看,囿于数据融通壁垒和资金技术压力,文旅市场主体在推动文旅数字基建和文旅场所智慧化管理方面投入不高,较为依赖政府推动。ChatGPT类技术模型可能会倒逼市场主体加快推进“文旅新基建”,从而为数字管理升级提供新的可能。例如,ChatGPT类技术模型作为智能助手嵌入旅游场景,为实现游客的实时交互,将会催生线下传感器的布设和数据信息共享模式的构建。
二是文旅行业监管将面临新的形势。ChatGPT类技术模型存在着各方面的风险与隐忧,一旦落地应用,也将会给文旅监管带来新的风险挑战。比如,ChatGPT类技术模型场景下,文旅IP产品、文旅策划方案等相关内容的侵权风险增加,需要在知识产权层面进行界定和规范。再如,目前国外的ChatGPT类技术模型在语料训练过程中,带有明显立场偏向,而旅游作为文化传播的载体,如何规避意识形态风险也将成为监管的重点。
三是文旅人才建设将进入新的阶段。ChatGPT类技术模型的成熟发展,会推动生产力的发展进入到人机协同时代,将会对现有的人才结构和人才培养体系产生影响。未来一些简单、重复、机械的基础服务工作,都会被人工智能所取代,文旅人才的培养需要转入“激活创新创意”的专业化轨道。同时,ChatGPT类技术模型的成熟应用,还会在AI提示词设计、AI营销算法等领域催生新的职业需求,“AI+文旅”的复合型人才将成为未来文旅发展的重要支撑。
03
ChatGPT类技术模型的文旅应用思考
文旅产业是流量型经济,链接和拥抱以ChatGPT为代表的AI技术将是大势所趋。上海作为全球科技创新中心,在构建“AI+文旅”模式方面自带基因优势,并具标杆意义。基于此,调研组结合ChatGPT类技术图景下的文旅发展趋势,提出四方面思考建议。
一是加强相关应用支持政策的预研储备。密切跟踪ChatGPT类技术模型的发展现状和未来趋势,结合现有产业应用领域的做法与经验,研判未来文旅应用场景中可能存在的共性问题和普遍诉求,做好相关支持性政策的研究储备,搭建上海文旅AI产业应用政策工具箱。重点围绕文旅“新基建”布设、文旅ChatGPT类模型研发支持、文旅数据语料共享机制构建等内容,从项目申报、资金扶持、基建补贴、机制保障等方面,落实好相关政策的前瞻布局。
二是开发基于ChatGPT类技术的文旅场景。结合上海文旅资源优势和产业发展现状,支持市场主体探索开发具操作性、可信性和优质人机交互体验的人工智能文旅场景。例如,引导数字酒店、数字景区(点)等主体接入ChatGPT类技术模型,优化人工智能客服场景;推动ChatGPT类技术嵌入建筑可阅读、海派城市考古和文旅场馆的语音导览系统,探索开发交互式语音导览体验;充分发挥上海数字内容产业优势,鼓励开发ChatGPT类技术加持的文旅数字人营销场景等。
三是探索政企深度协同的文旅监管模式。ChatGPT类技术模型嵌入文旅基础服务的情境下,文旅市场主体作为数据语料的拥有者,在行业监管中的角色和功能将会进一步增强。未来,上海可立足现有“一网统管”优势,深度联动市场主体,聚焦以ChatGPT为代表的AI文旅应用,构建“行业标准指导+企业规范管理”的政企协同监管模式。聚力政府监管服务,围绕文旅知识产权评估与鉴定、ChatGPT类文旅生成内容抽检等方面,制定相关的行业管理标准;聚焦企业治理,督促引导文旅市场主体制定ChatGPT类技术模型应用规范,确保文旅内容可靠、文化导向正确、交易信息安全。
四是孵化“链接未来”的新文旅人才队伍。结合ChatGPT类技术模型应用场景下,文旅从业结构的专业化、细分化、创新化发展趋势,依托上海丰富的互联网人才资源,充分发挥上海职业人才培养机构聚集和高校跨学科资源丰富等方面的优势,加快推进“链接未来”的新文旅人才培养和孵化。以产学研结合的思路,加快建设新文旅人才孵化基地,积极搭建“AI+文旅”职业教育服务平台,实施“AI+文旅”复合型人才培养工程,努力推动基于旅游新职业的教育体系改革,为人工智能时代的文旅人才转型做好铺垫。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

苹果推出“Apple GPT”,加入AI聊天机器人竞赛!

根据彭博社的报道,苹果正在积极测试一项名为”苹果GTP”的技术。这个平台的目标是开发生成式AI工具,以追赶OpenAI,而OpenAI是一家以AI智能为核心的研究实验室。据知情人士透露,苹果已经搭建了开发大语言模型的框架,并且已经开发了自家的聊天机器人。然而,目前尚不清楚苹果如何将这项技术转化为实际的产品。

苹果GTP的用户界面与OpenAI的AI GTP相似。背后的大语言模型框架名为Ajax,它基于谷歌的机器学习框架Google Jax,并在Google Cloud云端运行。这意味着苹果正在利用谷歌的技术和云计算能力来支持他们的AIGTP开发。

 

约翰 詹南德里亚(John Giannandrea)是苹果的AI智能负责人,克雷格 费德里吉(Craig Federighi)是软件工程负责人,他们是这个项目的负责人。这表明苹果对AI智能技术的发展非常重视,并且有意投入资源来推动这个领域的创新。

 

苹果公司一直以来都是技术创新的领头羊,在AI智能技术的发展上也不例外。作为AI智能负责人,约翰·詹南德里亚一直在致力于将AI智能技术应用到各个领域,包括人工智能、自然语言处理、机器学习等。他的加入,对于苹果公司AI智能技术的发展具有重要的意义。

 

而软件工程负责人克雷格·费德里吉,则是负责苹果公司软件开发工作的重要人物。他领导的团队一直在不断推动软件技术的创新与发展,包括iOS、macOS、watchOS、tvOS等多个产品的开发和升级。他的加入,也将为苹果公司的AI智能技术发展提供强有力的支持。

 

可以预见的是,苹果公司在AI智能技术的发展上将会迎来新的机遇和挑战。作为全球最具创新力和影响力的科技企业之一,苹果公司将会继续投入资源,推动AI智能技术的创新和发展,为人们创造更加智能化、便利化的生活体验。

 

虽然苹果GTP的具体细节尚未公开,但这一消息对苹果股价产生了积极的影响。股价在今天早盘略微下跌,但随后迅速拉升。午盘时,苹果股价达到历史最高点198.23美元,涨幅超过2.3%。这表明投资者对苹果在AI智能领域的发展前景持乐观态度。

 

要注意的是,这一消息目前尚未有官方确认。然而,苹果一直以来都在致力于AI智能技术的研发和应用,所以若这个消息属实的话,将是苹果在AI智能领域迈出的重要一步。我们期待苹果未来能够进一步推出基于这项技术的实际产品,为用户带来更多智能化的体验。

刘永好:企业必须积极跟进AI技术,不然随时可能被淘汰

新希望集团董事长刘永好在接受《中国企业家》杂志采访时表示,当OpenAI公司发布的相关消息刚传到国内,就已经召集公司技术部门,强调重点研究,“赶紧用上”。深感新鲜的同时也发现,经过大数据训练后,现在的人工智能所能解决问题的高度和广度,已远超从前,更重要的是,它正在迅速改变世界。

“对于食品企业,鸡肉、猪肉的分割、包装、筛选、搬运都是一个劳动密集型企业,我们新希望十几万员工,其中很多人都在做这些最基础的工作,简单又初级,尽管有一定的自动化,但本质还是重复劳动。”刘永好认为, “如果AI技术落地,一个非常大的变化是,多数工作都可以用智慧大脑指挥下的智慧机器人来实施。那人类做什么?我们必须考虑这样的事。这就是硬核科技所带来的时代进步,未来企业必须对这个领域有所认识、积极跟进和推动,否则被淘汰了都不知道。那个时候整个社会都将会变,人类有可能去做更有情怀的事,做更多享受的事,做更多能够驾驭理想的事,做更多飞跃的事。就像马斯克在考虑如何到火星上定居,有人在考量用什么方式能活到240岁。”

谷歌开发代号为“Genesis”的人工智能工具,可撰写新闻文章和制作头条新闻

谷歌正在开发一种代号为“Genesis”的人工智能工具,该工具将能够根据当前事件的信息来创作新闻内容和制作头条新闻。谷歌将该项目描述为一种“负责任”的记者助手,但这也引发了一些媒体的担忧和质疑。

 

谷歌与主要新闻机构接洽

据《纽约时报》援引匿名消息人士的报道,谷歌已经向《纽约时报》、《华盛顿邮报》和新闻集团等主要新闻机构的高管展示了Genesis的演示。谷歌向他们宣传其人工智能工具的优势,例如可以帮助记者提供标题或不同的写作风格的选项,以及可以提高记者的工作效率和生产力。

 

谷歌强调其机器人不会取代目前雇用的编辑和数字记者

谷歌发言人詹妮·克里德在接受《纽约时报》采访时表示,该公司正处于“探索可能提供人工智能工具来帮助记者工作的想法的早期阶段”。她说,这些工具不能取代记者在报道、创作和事实核查文章中的重要作用。她还说,谷歌的目标是让记者有选择使用这些新兴技术的权利,就像谷歌在Gmail和Google Docs中为用户提供辅助工具一样。

 

一些参加演示的高管表示,该产品的计划“令人不安”

然而,并非所有参加演示的媒体高管都对Genesis感到兴奋或信任。《纽约时报》援引两位高管的话说,他们认为Genesis似乎忽视了撰写“准确而巧妙的新闻报道”所需的人力,并担心该工具可能会导致记者技能下降或误传信息。另一位高管则表示,他对Genesis感到“令人不安”,并认为谷歌应该更加透明地公开其技术细节和目标。

部分媒体高管对Genesis的开放态度

与此同时,也有一些媒体高管对Genesis持更加开放或乐观的态度。他们认为Genesis可能是记者潜在的“私人助理”,可以通过处理基本任务来帮助减轻他们的工作量。他们还指出,谷歌并不是唯一一个在开发人工智能新闻工具的公司,其他一些媒体公司也已经在使用类似的技术来生成内容或分析数据。

谷歌首席执行官桑达尔·皮查伊也曾在今年早些时候表达过他对Genesis的愿景。他在接受《连线》杂志采访时说,他认为人工智能可以帮助记者“更好地理解世界”,并提供“更多的洞察力和更多的创造力”。他还说,他希望Genesis能够成为一种“协作”的工具,而不是一种“竞争”的工具。

 

谷歌表示,其人工智能工具并不是要取代记者的工作

尽管谷歌对Genesis的开发和推广充满信心,但该公司也意识到了这种技术可能引发的争议和担忧。谷歌发言人克里德在接受《纽约时报》采访时强调,该公司并不是要用Genesis来取代记者的工作,而是要与他们合作,为他们提供更多的选择和机会。她说,谷歌一直在与新闻出版商合作,特别是小型出版商,以探索如何利用人工智能技术来帮助记者。

谷歌对Genesis的开发和推广还处于早期阶段,其对新闻行业的影响还有待观察。然而,在这种技术被广泛采用之前,有必要了解其潜在的风险和收益,并保持警惕和批判性的态度。

通用人工智能如何赋能千行百业?业界热议大模型发展路径

随着以ChatGPT为代表的通用人工智能大模型的出现,大模型逐渐成为驱动社会生产力、生产效率发生巨大变化的新引擎。在日前举行的2023(第二十二届)中国互联网大会“大模型的发展路径”论坛上,与会行业专家围绕“大模型时代,通用大模型、行业大模型及相互协同的发展路径”等人工智能大模型领域热点问题展开了讨论。

需加快建立人工智能开源开放生态

针对通用人工智能的定义及发展现状,北京智源人工智能研究院院长黄铁军指出,“通用人工智能”往往对应GAI(General Artificial Intelligence)和AGI(Artificial General Intelligence)两个概念,GAI是指(具有)通用性的人工智能,AGI严格意义上叫做人工通用智能。两者的含义具有根本性差别,通用人工智能强调的是通用性,而AGI强调的是全面超越人类的一种人工智能。“今天我们说的大模型,实际上是指从通用人工智能向真正超(越)人的人工智能的过渡阶段。”

“一个大语言模型是把人类的所有语言,主要是书面语言,训练成一个千亿、万亿的神经网络,从而具备了融会贯通的能力。”黄铁军表示,不同于传统IT系统的确定性,如今真正的智能已经出现,“从某种意义上讲,这种模型背后有其自己对世界模型空间的认知”。

2022年11月,ChatGPT一经推出便掀起大模型发展的热潮,迄今国内已有八十余个大模型公开发布。

针对当前通用大模型研发应用现状,黄铁军强调,要建立开源开放的生态。“从技术体系演进来看,英特尔联盟在技术上主导了PC时代,移动互联网时代iOS和Android两个生态主导了迄今为止手机的生态。进入智能时代,这样的生态也一定会出现,且正在出现。”

黄铁军指出,目前国内存在的一个问题是从“大炼模型”变成“大炼大模型”,造成严重资源浪费。“一个大模型的聪明程度、智力程度,甚至能不能代替科研人员发现新的物理定律,是我们追求的。”他认为,对中国而言,很多企业机构都能训大模型,关键在于大家要通过开源方式联合迭代创新,(推动行业发展)往前走。

大模型落地行业需解决安全、可信等问题

早在今年2月13日,北京市经济和信息化局正式发布《2022年北京人工智能产业发展白皮书》,提出全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。

4月28日召开的中共中央政治局会议提出,“要重视通用人工智能发展,营造创新生态,重视防范风险”,为通用人工智能行业发展指明了方向。

如何让通用人工智能赋能各行各业的发展?现阶段还面临哪些挑战?未来有哪些发展路径?

华为云大数据与AI总经理李伟指出,不同于传统AI时代AI技术分支众多,业内做了很多小模型,Transformer架构的提出,为业界带来这样的机会,即通过预训练、超级大规模数据让大模型具有极高的泛化能力、海量数据和强大的拟合能力,从而突破精度的限制,一个大模型可以覆盖多个场景。

“早期的视觉、语音、语义、生成能力等海量离散小模型逐渐汇聚成了大模型。当前To C基础能力应用拓展到To B通用场景能力”,李伟同时表示,通用大模型落地行业存在三个挑战,一是大模型通用性强,但专业能力是比较弱;二是大模型知识虽然多,但技能不足;三是数据的安全合规问题,数据是企业核心资产之一,大模型可以有效地存储和挖掘知识,但训练和使用大模型需要保障企业数据安全合规。

中国移动集团级首席科学家冯俊兰也指出,大模型相关理论核心技术在不断突破,智能水平大幅提升,同时可控性、安全性、可信性是亟需攻关的。“攻关思路是依托现在泛在的算的资源、网的资源,在开放环境中对AI能力进行灵活地配置、调度部署,以满足日益复杂的需求。”

“每一个行业总体来看都是一个非常复杂的系统,怎么能够在这样的复杂系统去真正集成好(数据、知识和各种系统),现在的大模型还有很大挑战。”冯俊兰认为,大小模型协同、人机协同将是未来行业发展的路径。

针对大模型如何进入千行百业,中国信通院云计算与大数据研究所副所长魏凯表示,未来大模型发展一个路径是从基础模型到行业模型的路径,第二个是模型即服务的发展。“未来可能是大模型驱动小模型,模型即服务可能是相互嵌套的”“一个模型调用另用一个模型,把这些模型缝合起来、串联起来、并联起来完成一个复杂的场景具体任务”。

北京智源人工智能研究院副院长、总工程师林咏华表示,通用大模型是行业大模型重要的基础。首先,通用大模型是知识体系的基础,不能强求通用大模型里面包含所有行业的专业知识。其次,通用大模型或者基础模型是下游行业模型很重要的能力框架。同时,通用模型自身发展需要跟行业模型进行相辅相成的配对或者迭代。

马斯克携初创企业重回人工智能赛道,头部玩家大手笔引AI垄断担忧

[环球时报驻美国特约记者 张思思 环球时报特约记者 甄 翔]马斯克携初创企业xAI重新杀回人工智能(AI)赛道,为本已沸腾的人工智能产业竞争再添一把“旺火”。在OpenAI成功推出人工智能聊天应用ChatGPT,并获得巨额融资后,微软、谷歌、苹果等美国科技巨头都在大张旗鼓投入人工智能技术。少数头部玩家激烈“内卷”引发人工智能巨头垄断的质疑。马斯克表示,创立xAI就是为阻止人工智能领域出现“一家独大”的局面。

各大巨头加速卷入竞争

不仅是马斯克,美国科技巨头都在瞄准OpenAI,微软、谷歌、亚马逊等已大张旗鼓投入人工智能技术。据美国科技网站The Verge 19日报道,Meta公司将旗下的大语言模型LLaMA 2开源,商业和研究机构可免费使用,此举意在跟OpenAI旗下免费使用的人工智能应用展开正面竞争。与此同时,美国芯片巨头高通公司宣布将同Meta公司合作,从2024年起为笔记本、手机和头戴设备提供LLaMa支持,从而实现人工智能应用无需云端服务支持。

其他巨头也在高歌猛进。微软的一种生成式人工智能已经打破了ChatGPT的速度纪录。上个月,谷歌发布了一套人工智能工具,包括电子邮件、电子表格和各种文本等。此前被认为稍显落后的苹果19日也被彭博社爆出在开发“阿贾克斯”人工智能技术,并创建聊天机器人“苹果GPT”。该消息发布后苹果股价一度蹿升2.3%达创纪录的198.23美元。

“当前美国的几家科技巨头正在围绕人工智能展开激烈竞争。”清华大学教授、新闻学院元宇宙文化实验室主任沈阳对《环球时报》记者分析称,人工智能大模型竞争分为几个层面竞争,第一个层面是芯片层面,例如高通和Meta的合作;第二个层面是操作系统层面,这里主要涉及微软、谷歌和苹果,其中微软既入股OpenAI,又与Meta合作,谷歌主要依靠自身的安卓系统,苹果目前稍显落后,但也会依靠自己的系统;第三个层面是应用软件的竞争,包括社交媒体应用,以及office软件应用;此外还有在内容层面上的竞争。

“被两三家实体垄断的风险”

有分析注意到,人工智能产业的头部竞争,已经成为硅谷巨头的内部游戏。马斯克新成立的xAI将从谷歌、微软、OpenAI和特斯拉招募有行业经验的人士,这不禁令人产生了未来头部AI人才均“出自同门”的担忧。

“科技巨头的垄断是一件坏事,人工智能巨头的垄断则会更糟。”《纽约时报》本月以此为题发表的分析文章认为,OpenAI、微软、谷歌等少数头部企业在“塑造人工智能主导的未来”方面占据很大领先优势,这不是好消息。

报道称,目前谷歌和微软领先其他竞争对手。鉴于人工智能可能会对就业、隐私和网络安全造成巨大伤害,在没有外部强制保护的情况下,这些公司取得的人工智能进展令人担忧。从20世纪90年代开始,互联网提供了更低成本的表达意见的方式。但随着时间的推移,沟通渠道集中到了包括脸书在内的少数人手中。

xAI旗下员工凯尔·科希克在社交媒体上参加对话活动时,直言人工智能已经出现垄断现象。凯尔·科希克此前曾就职于OpenAI,他认为人工智能面临的最大风险是整个产业“被两三家实体所垄断”,解决这个问题的办法就是引入竞争。

“人工智能领域竞争的好处主要有以下几点:一是多家机构寻求不同的科研发展路径,会推动科技的多样化;二是多家机构在竞争中能相互促进,推动各机构不断强化科技实力,同时也能相互监督,面临瓶颈时能被及时发现;三是通过竞争能加速找到高效的人工智能商业化途径。”凯尔·科希克这样分析。

人工智能模型培训需要海量资本投入,这导致有实力加入人工智能赛道的机构有限。国际高科技产业研究机构集邦科技在报告中分析称,OpenAI训练人工智能产品时,需要数万颗英伟达A100芯片的算力,而这款高端芯片的售价在每片1万美元左右,且供不应求。

国盛证券在一份人工智能产业分析报告中估算,ChatGPT训练一次的成本约为140万美元,对于一些更大更高级的人工智能模型,训练成本介于200万至1200万美元之间。今年年初,平均每天约有1300万独立访客使用ChatGPT的数据,对应的芯片需求为3万多颗A100芯片。ChatGPT综合初始投入约为8亿美元。如果计算用电成本,投入金额还会进一步扩大。此外,云服务也是人工智能重要“烧钱”领域。

在软硬件之外,企业日常运营、人才招聘,OpenAI也都要承担不小的支出。公司一名普通软件工程师年薪资水平在20万至37万美元,主管级别在30万至50万美元。

在美国在线问答平台Quora上,不少业内人士在分析人工智能垄断危害。他们透露,今年2月OpenAI旗下的ChatGPT刚刚开始大火不久,一度出现短暂服务掉线,导致全球用户无法使用。有分析认为,如果未来人工智能服务高度集中在一两家企业,一旦垄断企业服务停机或掉线,将给全球带来灾难性冲击。

马斯克的“野心”也受到质疑

沈阳对《环球时报》分析称,马斯克的重新入局对人工智能产业是一个利好,但是真正的目的恐怕并没有“反对巨头垄断”那样高尚,马斯克成立xAI有很强烈的经济动机,否则也不可能维持尖端团队。据美媒透露,马斯克对xAI招贤纳士提出十分诱人的经济回报,如果马斯克对xAI的200亿美元估值最终得以实现,那么现在入伙的研发人员收益可达数亿美元。

有分析认为,马斯克创办或接手一家企业,往往源于他对该领域企业运作情况的不满。作为OpenAI的早期投资人,马斯克首次涉足人工智能领域的原因是认为谷歌联合创始人拉里·佩奇“没有足够认真地对待人工智能安全”。然而,当OpenAI取得一系列突破,在2022年推出ChatGPT之前,马斯克选择离开OpenAI,理由是OpenAI已变得“为利润而贪婪”。他还认为,作为上市公司,谷歌和微软都受到外界指令对公司决策的影响。

马斯克宣称新成立的xAI是一家非公开交易的公司。有网友在社交媒体上提出,马斯克已经拥有太空探索技术公司、特斯拉、推特、脑机接口等一系列科技企业,随着xAI的宣布,他还有多大的商业野心?

据美国媒体报道,马斯克的商业版图正再一次扩大,从汽车到太空,从卫星到推特,现在又扩展到人工智能。xAI将使用推特的数据来训练人工智能系统和产品,而且该新人工智能将与特斯拉在“芯片前沿”和“人工智能软件前沿”方面进行合作。

武汉人工智能企业数年均增幅超30%

湖北日报讯 (记者张倩倩、通讯员张寻)7月19日,武汉市高新技术产业协会发布《2023年武汉人工智能企业库》,相关数据显示,截至2022年底,武汉市新增168家人工智能企业,总数达到650家,增幅达35%。

据统计,入库企业中,规上企业达224家,占比34.5%,国家级专精特新“小巨人”企业61家,占全市总量19.7%,另有49家营收过亿元企业、13家上市企业、141家省级专精特新企业、4家独角兽企业,企业平均有效发明专利达14件,主要指标同比有大幅提升。

产业链分布方面,66%的入库企业为人工智能应用层企业,较2021年上升5个百分点;区域分布方面,74%的企业集中在东湖高新区和武汉经开区,其中东湖高新区企业数占比59%,武汉经开区占比15%。

近年来,武汉市人工智能企业数量年均增幅保持在30%以上,产业发展驶入快车道。武汉市高新技术产业协会产业研究院相关负责人分析指出,武汉人工智能计算中心、武汉超算中心“双中心”提供了低成本优化算法的有效路径;武汉人工智能研究院、北京大学武汉人工智能研究院、武汉市数字经济发展研究院三大新型研发机构共同发力,紫东太初多模态大模型、江城太素多模态训练数据集等广泛赋能,较大缩短了企业人工智能开发周期;《武汉市新型智慧城市“十四五”规划》等政策支撑,经开区人工智能科技园、融创智谷等人工智能园区的集聚效应也起到显著推进作用。

人工智能10大趋势

【趋势一】统一未来:多模态模型加速文本、图像和视频融合

多模态模型:多模态模型能够处理视觉信息、文本信息、听觉信息等多元化数据,可以对不同表现形式的信息进行融合理解,进一步提升大模型的迁移学习能力,是人工智能全面理解真实世界的重要一步。发展情况:文本、语音、图片等单模态人工智能模型已经相对成熟,大模型正在朝着多模态信息融合的方向快速发展。从CLIP的诞生再到GPT-4的图像处理能力,图文多模态技术已经取得了显著的进步。大模型不止满足文字和图像,开始向着音频、视频等领域拓展。

未来展望:未来模型将面对更加复杂多样化的交互场景,更加注重各种形式的信息融合,多模态技术将在智能家居、智慧城市、医疗诊断、自动驾驶等方面打开全新的应用空间。

多模态模型迭代历程

【趋势二 】逾越虚拟边界:具身智能成为AI发展新形态

具身智能:具身智能是可以和物理世界进行感知交互,并具有自主决策和行动能力的人工智能系统。具身智能中的智能体能够以主人公的视角感受物理世界,通过与环境产生交互并结合自我学习,从而产生对于客观世界的理解和改造能力。发展情况:斯坦福大学教授李飞飞将具身智能列为计算机视觉未来的关键发展方向,并将其称之为人工智能研究的“北极星”。现阶段来看,谷歌推出RoboCat大模型,英伟达推出Nvidia VIMA,具身智能已经成为AI龙头企业竞相争夺的高地。

未来展望:通用人工智能与机器人产业正处在快速发展、互相融合促进的战略机遇期,作为两大领域交叉的核心应用,具身智能有望在未来取得快速发展。具身智能将促使智能体具备自主规划、决策、行动、执行等能力,实现人工智能的能力进阶。

【趋势三】大模型智慧火花:走向通用人工智能的途径愈发明晰,脑机接口创造新的交互方式

通用人工智能(AGI是指具有像人类一样的思考能力,可以适应广泛的领域并解决多种问题的机器智能,AGI是人工智能研究的重要目标之一。狭义人工智能是指当下已取得显著进展但局限特定领域的人工智能,如语音识别、机器视觉等。我们正处于狭义人工智能相对成熟、通用人工智能曙光乍现的阶段,目前以GPT-4为代表的自然语言大模型被认为是通往通用人工智能的重要潜在路径,OpenAI CEO萨姆·奥特曼(Sam Altman) 表示,AGI时代可能很快就会到来,未来十年内行业可能会拥有超强的AI系统。

人类与人工智能之间的沟通方式也在不断升级,脑机接口有望成为下一代人机交互方式。当前,脑机接口技术正在突破人类的生理界限,不仅为残障人士提供了前所未有的可能性,而且有望成为下一代的人机交互方式。

【趋势四】数据的力量:海量数据带来模型能力涌现,高质量数据提升模型性能

深度学习的进步建立在以更大的模型处理海量数据基础之上。GPT-1模型从1.17亿参数上升至GPT-3的1750亿参数,模型效果取得了显著突破,同时还有能力的涌现。但是模型参数量的增大带来算力需求的激增,模型架构和参数量提升带来的收益正处于递减状态。

阿伯丁大学、麻省理工大学等研究机构的一项研究显示,高质量的语言数据将在2026年耗尽,低质量的语言数据和图像数据将分别在2030 -2050年、2030 -2060年间枯竭。以数据为中心的人工智能更加专注于数据的价值,进一步推动AI模型的性能突破。

斯坦福大学吴恩达教授提出二八定律:80%的数据+20%的模型=更好的AI。以数据为中心的策略可以解决数据样本不足、数据偏差等问题,高质量数据集成为推动模型性能进一步提升的关键要素,高质量的数据处理、数据标注服务以及完善的数据收集和评估体系的价值将进一步凸显。

【趋势五】数据中心的AI变革:智算中心成为关键基础设施

云计算是当前重要的AI算力提供方案,AI服务器市场获得迅猛发展。根据TrendForce数据,2022年全球AI服务器的出货量占整体服务器比重约1%,随着大模型训练侧和推理侧的需求爆发,AI算力资源需求预计将呈指数增长。根据IDC数据,预计未来5年中国智能算力规模的年复合增长率将达52.3%,全球价值万亿美金的数据中心存量市场将从通用计算逐步过渡向AI计算。

云计算正从CPU为中心的同构计算架构向以CPU+GPU/NPU为中心的异构计算架构深度演进。预计,大模型带来的GPU存量空间将从2023年的277亿美金上升至2025年的1121亿美金,以GPU为代表的AI计算资源中短期将处于供不应求的状态。

随着专有领域的计算需求提升,AI芯片追求更高的性能和更低的功耗,芯片的多样性和生态丰富性将不断提升。部分头部互联网厂商将着力推进AI芯片的自主研发,如谷歌着力打造专注深度学习的TPU,同时不断丰富其AI生态布局。

【趋势六】大模型C端角色:个人智能助理与新一代的流量入口

大语言模型将成为个人智能助理。大模型目前具备接入互联网、进行内存管理等能力,通过目标任务自动拆分、计划制定、计划实施等方式,能够自主完成用户的需求,成为每个人的智能助理,如制定旅行计划并进一步预定宾馆和餐饮。

大模型正在成为新一代的流量入口。GPT-4正在逐步开放插件功能,通过底层模型连接第三方应用,从而构建丰富的生态系统。GPT-4自插件功能开放以来,目前已经接入超过500个插件(其中包括教育、金融等场景)。随着大模型能力的不断增强以及插件生态的不断丰富,大模型有望成为新一代的人机交互方式以及流量入口,2023年5月OpenAI官网访问量为18.6亿次,是全球第19名次的互联网访问IP。

趋势七】大模型B端应用:专业数据与成本驱动行业模型百花齐放,打开广阔应用空间

数据壁垒带来企业端大模型百花齐放。通用大模型可以帮助用户解决一般性问题,而当企业需要处理其特定行业的数据和任务时,往往需要针对其行业数据库来对基本模型进行微调,垂直行业的特性和需求不尽相同,因此大模型的应用也呈现出多样化的趋势。B端应用出于对模型的经济性考量,未来将呈现阶梯式、差异性需求。

大模型在垂直领域的商业化落地对模型的运行成本更为敏感,模型的推理成本与模型的参数量多少密切相关,需要不同参数规模的大模型组成多层次的产品组合,从而在不同场景下实现最佳的经济性,进一步提升大模型的丰富度。

【趋势八】大模型轻量化:降低应用成本、带动端侧算力发展

随着大模型小型化、场景化需求增加,同时出于对AI应用的经济性、可靠性和安全性考量,部分场景的推理将逐步从云侧扩展向端侧,带动端侧算力需求的进一步提升。

目前多个大模型都已推出“小型化”“场景化”版本。5月23日谷歌发布的PaLM-2大模型,其中最轻量版本“壁虎”可在移动端运行,运行速度快且支持离线操作,其他多个大模型也都有其对应的小参数版本。

大模型端侧应用布局不断加速。端侧算力正在快速发展过程中,高通通过量化、编译和硬件加速进行优化,使Stable Diffusion能在搭载第二代骁龙8移动平台的手机上运行。高通在微软Build2023开发者大会上展示了最新的端侧AI能力以及在下一代Windows 11上开发生成式AI的工具,并表示未来几个月大语言模型有望在端侧运行。

【趋势九】大模型的深远影响:重构劳动力市场、改写科研范式

大语言模型对劳动力市场结构的影响深远而复杂。据OpenAI联合宾夕法尼亚大学的研究报告预测,约80%的美国劳动力可能有至少10%的工作受到大语言模型的影响。

大语言模型的应用带来劳动力市场结构的调整和变化。短期而言,大语言模型可能替代部分低技能或重复性工作;中期来看,大语言模型也将创造新的人工智能相关就业机会;长期来看,大语言模型的应用将会深度改变各行业的工作模式和商业模式,让企业的组织架构更加扁平化和小型化。过程中需要个人和企业去积极适应,发展人类独有的创新、协作和社交等能力,与人工智能共同进化。

AI与前沿科学的结合展现出了巨大潜力,可显著降低前沿科技研究中的智力成本并提升研究效率。生命科学、气象预测、数学、分子动力学等前沿科学均得到了人工智能的广泛助力,AI for Science将带来科研范式的变革和新的产业形态。
【趋势十】AI治理与技术的平衡:AI可解释性亟待增强,监管紧迫性日益凸显

在人工智能的快速发展中,加强AI监管与推动AI技术的进步同等重要。AI能力带来应用的便利性,同时也可能引发数据隐私、算法偏见、AI伦理等一系列问题。

从技术角度来看,可以通过可解释AI等技术手段增强AI的可信度。可解释AI使人工智能的决策过程透明化,增加输出内容的可理解性和可信任度,对于构建用户对AI系统的信任、提升系统的有效性、应对潜在的伦理问题都至关重要。

从规范角度来看,各国政府也都已经开始采取行动,制定和执行各种AI政策和法规。4月份,我国网信办出台《生成式人工智能服务管理办法(征求意见稿)》,明确了生成式人工智能的定义,从明确条件要求、划定责任主体、形成问题处理机制、明晰法律责任几个方面为行业划定底线。

等您来“战”!这个人工智能领域顶级大赛火热报名中!

大赛介绍

粤港澳大湾区(黄埔)国际算法算例大赛是受广州市黄埔区政府委托,由琶洲实验室(黄埔)于 2022 年创办的算法算例领域国际性赛事,旨在通过发挥实验室在数字经济领域的引领和带动作用,推动大湾区大数据与人工智能算法生态体系建设。

为进一步推动高质量发展集聚新动能,大赛积极响应国家、粤港澳大湾区、广州市黄埔区数字化创新发展战略,站位高远,走在数字经济与人工智能发展的世界前沿,同时“立足湾区、瞄准全国”,围绕大数据、人工智能、物联网、云计算等新一代信息技术,瞄准解决国家重大需求和领域尖端技术,聚焦智慧城市、智慧健康、智能制造、智慧金融等行业领域,面向全国遴选优质算法,面向全球聚集大数据与人工智能高精尖技术,面向国际招揽算法高端人才。

参赛收获

  • 院士专家直面交流

        大赛由院士领衔,有大咖坐镇,给选手与院士专家面对面沟通交流、探讨前沿课题的宝贵机会;

  • 知名企业工作邀约

        大赛赛题由企业根据行业实际需求形成,将给予能提供算法解决企业实际问题的优秀选手直接与行业大咖面试的机会,如果选手的算法最终被选中,将直接获得主办方推荐入职人工智能龙头企业的机会;

  • 政策基金支持创业

        相关政策大力扶持,大赛优胜选手有机会获得优厚的种子基金,鼓励选手创新创业!2022 首届大赛回顾

       首届大赛以“湾区逐‘例’、共创算‘法’”为主题,琶洲实验室(黄埔)统筹各方资源,精心策划了算法算例与数字经济圆桌会、赛题遴选调研与研讨会、初赛、决赛、决赛答辩等系列活动,逐步构建起立足黄埔、面向全国、辐射全球的高水平人工智能算法大赛格局。

首届大赛参赛规模达到了国内外人工智能领域比赛的顶尖水平,吸引了来自加拿大渥太华大学、新加坡国立大学、香港中文大学、北京大学、清华大学、中山大学等国内外顶尖高校439所,以及来自华为、京东、百度、美团等454家企业队伍报名。报名选手达6634人、团队达1678个。

首届大赛充分展现前瞻性强的特点,走在人工智能发展领域的前沿。大赛擂台制赛道“预训练语言模型应用调优算法”,在ChatGPT等“人工智能技术驱动的自然语言处理工具”的技术发展方向上做到提前布局。

首届大赛品牌影响力持续提升,发挥出纽带桥梁作用,吸引了中科曙光、南方电网等企业主动合作,形成了良性的大赛产业生态循环。此外,还吸引了来自粤港澳大湾区众多人工智能领域的选手参赛,激发了粤港澳大湾区的数字技术创新潜力。目前,首届大赛遴选出来的十个冠军算法成果已发布在《国家科学评论》杂志。

创新擂台制赛题

赛题一:序列任务的持续学习

赛题任务:设计新颖且高效的持续学习算法,使得神经网络在新任务上学习新知识的同时,尽可能地保留在历史任务上的知识。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af505d4a0ed647faca627e&award=1,000,000

赛题二:基于语言增强的图像新类别发现

赛题任务:设计基于语言增强的图像新类别发现算法,以多标签图像分类为例,提升利用语言知识的图像新类别发现性能。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50524a0ed647faca6272&award=1,000,000

赛题三:高效可靠的文生图方法

赛题任务:设计特定语义下的图像内容个性化生成和精细的生成控制,推动扩散模型在模型个性化和可控生成技术的发展。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50464a0ed647faca6266&award=1,000,000

赛题四:大语言模型综合能力强化

赛题任务设计提升大模型在无害性、可信性以及推理能力三个方面综合能力的算法。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af503a4a0ed647faca625a&award=1,000,000

赛题五:跨场景单目深度估计

赛题任务:设计能够从一个源场景中有效预测另一个目标场景的深度信息的跨场景单目深度估计算法。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af502c4a0ed647faca624e&award=1,000,000

创新竞赛制赛题

赛题一:神经隐式表示的物体三维重建 

赛题任务:基于神经隐式表示的技术,利用面向特定物体类型照片和相机位姿信息设计物体三维重建的算法。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50214a0ed647faca6244&award=1,000,000

赛题二:看视频说话

赛题任务:设计能够针对视频的对话模型算法,根据给定的视频片段进行对话。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50154a0ed647faca623a&award=1,000,000

赛题三:路侧毫米波雷达标定和目标跟踪

赛题任务:基于标定文件和雷达点云数据集,实现对路侧毫米波雷达的动态标定和交通车辆精确检测与跟踪算法。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af500a4a0ed647faca6230&award=1,000,000

赛题四:急诊多器官多病种筛查

赛题任务:设计基于急诊CT影像数据,实现多器官快速分割的算法,辅助急诊多病种高效筛查。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af50004a0ed647faca6226&award=1,000,000

赛题五:快速运动场景下的视频插帧

赛题任务:设计视频插帧算法,实现对快速运动场景下低帧率视频的插帧,输出高帧率,且运动平滑、自然的视频。

报名通道:https://iacc.pazhoulab-huangpu.com/contestdetail?id=64af6ccc4a0ed647faca76ee&award=1,000,000
2023 大赛时间线

7月15日—9月20日

比赛开始报名及初赛(初赛阶段均可报名)

9月21日—10月6日

初赛评测

10月7日后

决赛及决赛评测

11月初—中旬

决赛答辩及结果公示

12月

颁奖典礼及奖金发放2023 大赛报名及参赛须知

(1) 登录大赛官方主页:

https://iacc.pazhoulab-huangpu.com

在大赛选题中点击对应赛题“立即报名”按钮,提交报名信息,即可参与比赛。

(2) 确认报名信息、组队信息准确有效,如查出小号、冒名等情况将被取消参赛资格、成绩及奖金。

(3) 参赛对象:大赛面向全社会开放,个人、高等院校、科研单位、创客团队、企业等均可报名参赛。各赛道中每位选手仅能加入一支参赛队伍,每支队伍组队上限5人。
(4)第二届粤港澳大湾区(黄埔)算法算例大赛共10道赛题,同一选手(同一姓名、手机号、身份证号)可报名多个赛道。

注:针对竞赛制赛题,对应赛题支持单位(涉及题目编写、数据接触)的人员禁止参赛、禁止委托他人参赛。主办方的所有员工(含实习生)可以参赛,但只能参加初赛及复赛排名,不能晋级答辩及后续环节。

2023 大赛奖励

大赛设立 1000 万 总奖池

设置10个赛道,每个赛道 100 奖金

旨在吸引人工智能领域全球杰出人才和顶尖团队

培育和建设一批具有国际竞争力的

创新型人工智能产业集群2023 大赛支持单位

指导单位

鹏城实验室

广州市科学技术局

广州市工业和信息化局

支持单位

广州市黄埔区人民政府

广州开发区管理委员会

广州高新区管理委员会

主办单位

琶洲实验室(黄埔)

协办单位

中国工业与应用数学学会

(大数据与人工智能专业委员会)

中国计算机学会

中国指挥与控制学会

中国人工智能学会

工业和信息化部电子第五研究所

西安电子科技大学广州研究院

国家卫健委能力建设和继续教育中心2023 大赛组织架构大赛指导委员会

袁亚湘(中国科学院院士、国际工业与应用数学联合会主席、中科院数学院研究员)

戴琼海(中国工程院院士、中国人工智能学会理事长、清华大学教授)

梅   宏(中国科学院院士、中国计算机学会理事长、北京大学教授)

王怀民(中国科学院院士、国防科技大学前副校长)

戴   浩(中国工程院院士、军事科学院系统工程研究院研究员)

徐宗本(中国科学院院士、琶洲实验室(黄埔)主任)大赛专家委员会

徐宗本(中国科学院院士、琶洲实验室(黄埔)主任)

袁亚湘(中国科学院院士、国际工业与应用数学联合会主席、中科院数学院研究员)

戴琼海(中国工程院院士、中国人工智能学会理事长、清华大学教授)

梅   宏(中国科学院院士、中国计算机学会理事长、北京大学教授)

王怀民(中国科学院院士、国防科技大学前副校长)

戴   浩(中国工程院院士、军事科学院系统工程研究院研究员)

周志华(欧洲科学院院士、南京大学计算机系主任、人工智能学院院长)

石光明(鹏城实验室副主任)

申恒涛(欧洲科学院院士、电子科技大学计算机科学与工程学院院长)

焦李成(欧洲科学院院士、西安电子科技大学计算机学部主任)

吴   枫(中国科学技术大学副校长)

姚   新(南方科技大学计算机系主任)

刘铁岩(微软亚洲研究院副院长)

林宙辰(北京大学智能学院教授)

郝志峰(汕头大学党委副书记、校长)

李树涛(湖南大学副校长)

杨   彤(欧洲科学院院士,香港科学院院士、香港理工大学讲席教授)

张   潼(香港科技大学讲座教授)大赛评测委员会

胡事民(中国计算机学会副理事长、清华大学计算机科学与技术系教授)

王巨宏(腾讯公司副总裁兼腾讯技术委员会主席)

陶大程(澳大利亚科学院院士、京东探索研究院首任院长)

田   奇(华为云人工智能首席科学家)

陈宝权(北京大学智能学院副院长)

戴礼荣(中国科学技术大学电子工程与信息科学系教授)

刘   挺(哈尔滨工业大学副校长)

程学旗(中国科学院计算所副所长)

陈   雷(香港科技大学计算机科学与工程系讲座教授)

李飞飞(阿里巴巴达摩院数据库与存储实验室主任)

卢   凯(国防科技大学计算机学院院长)

金   海(中国计算机学会副理事长、华中科技大学计算机学院教授)

王井东(百度视觉首席科学家)

陈海波(上海交通大学并行与分布式处理研究所所长)

马建峰(西安电子科技大学网络空间安全学部主任)

田永鸿(北京大学计算机学院博雅特聘教授)

程明明(南开大学计算机系主任)

孟德宇(西安交通大学数学与统计学院教授)

郑伟诗(中山大学计算机学院副院长)

左旺孟(哈尔滨工业大学计算机学院教授)

彭   玺(四川大学计算机学院教授)

宋井宽(电子科技大学计算机科学与工程学院教授)算法大赛中心

张  海  (大赛委员会秘书长)

(琶洲实验室(黄埔)主任助理、西北大学数学学院教授)

徐  行  (大赛委员会副秘书长)

(电子科技大学计算机科学与工程学院研究员)

为保饭碗,好莱坞对人工智能“致命清算”?

来源:新京报

撰稿 / 张田勘(专栏作家) 编辑 / 何睿 校对 / 赵琳

好莱坞大片《碟中谍7:致命清算(上)》正在全球热映,好莱坞却陷入了历史性的大罢工,编剧和演员们联合起来,似乎要对人工智能(AI)来一场“致命清算”。
这次好莱坞大罢工,开始于当地时间7月13日。当天,代表16万演艺人员的美国演员工会及广播电视艺人联合工会(SAG-AFTRA)宣布,他们与制片公司的谈判破裂,确定从即日起罢工。导演克里斯托弗·诺兰,演员希里安·墨菲、马特·达蒙等人纷纷表示支持。而此前,美国编剧工会(WGA)已在5月2日开始罢工。
好莱坞为何要发起大罢工?除了演员、编剧与资方的薪资矛盾外,AI强势崛起,可能砸掉演员和编剧饭碗的威胁成为主要原因。因此,这不仅是好莱坞63年来首次全行业罢工,也被认为是人类抵抗AI威胁的首次集体行动。
早在2001年,好莱坞著名导演斯皮尔伯格就通过他的科幻巨制《人工智能》,对未来的AI世界做出了种种设想。但是,他大概也没有料到,22年后,好莱坞却在凶猛的AI浪潮中首当其冲。

好莱坞星光大道资料图。图/新华社

━━━━━

第一张多米诺骨牌已倒下?
眼下,北半球正被热浪裹挟,但好莱坞的历史性大罢工,又让人感觉到AI浪潮的凛冬将至。AI的崛起和发展将直接影响到人类社会,AI将在很多领域取代人工,也是必然的。但没有想到的是,AI所造成的威胁如此之紧迫,以至于全球影视工业帝国也坐不住了——好莱坞率先大罢工。
这个画风似乎与工业革命时期的卢德运动相似。由于机器取代手工,1811年英格兰的手摇纺织工开始罢工并捣毁织袜机,并于1811年与1812年在英格兰迅速蔓延。许多工厂及其中的机器被焚毁。
当然,此次好莱坞大罢工并没有直接捣毁人工智能软件和设备,但其前所未有的规模也足以震撼全球。毕竟,历来星光熠熠、风头无两的好莱坞尚且如此,谁知这一多米诺骨牌接下来会传递到哪个行业呢!
3月26日,美国高盛公司发表报告称,在美国和欧洲,AI将取代目前的1/4工作岗位,生成式AI将取代3亿个工作岗位。而最近,OpenAI与宾夕法尼亚大学联合所做的报告结果,似乎与此英雄所见略同——美国有 80% 的劳动力至少有 10% 的任务会受到 GPT的影响,大约 19% 的员工至少会发现 50% 的任务受其影响。
高盛具体列举了23个行业会受到AI影响,首当其冲的是办公室和行政工作,受影响程度达46%。而艺术、设计、娱乐、运动和媒体领域受AI的影响程度,位列倒数第8,程度为26%。
高盛和OpenAI 与宾夕法尼亚大学的预测结果,也意味着,与农业和工业革命时期大多是蓝领工作受影响不同,如今的AI时代,更多是白领和知识阶层被直接威胁。即便在医疗行业,一项新的同行评审研究显示,人工智能现在比 72% 的全科医生的诊断结果还准确。
AI的迅猛发展,让一些乐观预测认为,AI能让人类生活更美好,但也有一些人悲观地认为,AI会威胁甚至毁灭人类。这两种看法都有一定道理,但也都有其片面性。
更可能的情况是,AI会影响并取代很多人的工作,但也有新的工作岗位因此产生。而在此过程中,人类需要管理好AI,并与之相互适应。这也考验着人类是否有足够智慧与长远眼光。


▲好莱坞街景资料图。图/新华社

━━━━━

为何是好莱坞?
对于此次好莱坞大罢工,或许有人疑惑,为何受AI影响并非太大的影视行业会率先揭竿而起,如此激烈抵抗AI威胁呢?
原因或许在于,影视业对AI的影响已有切肤之痛,甚至可能会被AI一锅端掉。此次好莱坞大罢工,就明确表达了两方面的担忧,一是作家和编剧,二是演员及相关人员。
作家和编剧们担心制片和平台公司为节省开支,会用AI海量炮制剧本内容。事实上,通过深度学习和生成式转换,AI可以既快又好地生成无数剧本,这对于人工编剧要花几年甚至10年磨一剑的剧本撰写而言,AI优势十分明显。
因此,作家和编剧,尤其是初始剧本的写作者首先会失去高报酬,甚至丢掉工作。他们由此认定,需要海量语料训练的AI,简直就是一个侵犯知识产权的犯罪,是一部彻头彻尾的“剽窃机器”。
让演员担心的,则是大量的合成数字人会取代其表演。如今年,好莱坞老牌男星哈里森·福特主演的《夺宝奇兵5》,片中就利用AI让观众看到了青年时期福特的英姿。甚至已有AI技术公司利用数据采集技术批量抓取演员信息生成影像,让演员从此 “长生不老”。
这就会带来多个问题。首先是,演艺公司是否有权搜集演员个人信息供其反复使用?即便是授权使用,该如何付酬也是一个具体问题。此外,数字人取代真实演员,不仅让演员薪酬减少或失去工作,更会阻碍新人入行和表演艺术进步。一旦从新陈代谢机制上过度依赖AI,演艺行业则前途未卜。
毫无疑问,这些现实问题都涉及AI管理和应用,也就是人们如何与AI共存。在此方面,各国都已经开始了相应的行动步骤。
早在2022年10月,美国就发布了《人工智能权利法案蓝图》,2023年3月,美国人工智能委员会发布报告,提出要构建“基于风险的、分布式的、协调的”人工智能监管治理框架。
2023年6月,欧洲议会投票通过了《人工智能法案》,该法案将正式进入欧盟委员会、欧洲议会和成员国三方谈判协商程序,以确定最终立法文本。我国七部门也于2023年5月23日审议通过了《生成式人工智能服务管理暂行办法》,并于2023年7月13日公布。
关于AI的所有法律框架,都旨在促进AI健康发展和规范应用,协调社会公共利益,保护公民、法人和其他组织的合法权益,并维护国家安全。但这些法律法规只是纲领性法规或指南,具体到各行各业,还要有详尽条款和执行办法。
没有规矩,不成方圆。有了法规,才会让人与AI和谐共存,才会让AI助力人类生活更美好,而非毁掉人类。
以此而言,好莱坞此次历史性大罢工,不仅是呼吁、推动影视演艺行业的AI管理,为保住编剧、演员饭碗的抗争,也是对各行各业未雨绸缪应对AI强势崛起的提醒。

加州理工学院教授:AI永远是人类的附属品

由ChatGPT和GPT-4引发的“人工智能狂潮”远比人们预想的持续更久,伴随而来的争议与忧虑也在不断发酵。回归科学,反思以GPT-4为代表的AI能力的边界:它能做什么?不能做什么?最重要的是,人类现在必须采取什么行动来实现“有益的AI”?《中国新闻周刊》近日就以上问题专访美国加州理工学院电气工程和计算机科学教授亚瑟·阿布-穆斯塔法(Yaser S. Abu-Mostafa)。他是人工智能领域的知名专家,同时也是IEEE神经网络委员会的创始人之一,曾在多家科技公司担任机器学习顾问。

现将访谈实录摘要如下:

AI的应用远比设计更复杂和危险

记者:此前,埃隆·马斯克等人签署了联名公开信,业内形成了对人工智能发展的两种截然不同的看法,你更认同哪方?

阿布-穆斯塔法:联名公开信意图是好的,但无法起到任何实质效果,因为不会真的有公司遵守并暂停六个月的AI研发。我认为这是对人工智能“过于快速发展”的下意识反应,是没有经过深思熟虑的行为。我个人不赞同暂停更强大AI模型的研发。现在要做的不是暂停,而是如何更好阻止其“不良使用”。所以我没有签署公开信。

如何推动更强有力的人工智能监督?政府需要通过立法对如何“合理地使用”AI进行约束或限制,欧盟《人工智能法案》是一个开始。立法必须经过谨慎考量,而不是短期内出于对人工智能的恐惧或为了应对想象中的风险而匆忙制定。目前为止,我还没有看到任何提议或法案经过了深思熟虑,并可以得到有效执行。

2023年7月6日,上海,2023世界人工智能大会上,特斯拉“擎天柱”Tesla Bot人形机器人。陈玉宇摄

记者:如何使AI真正符合人类的价值观和道德准则?

阿布-穆斯塔法:这完全取决于AI系统的开发者和使用者。人工智能没有内在的道德或恶意,它只是服从命令,做人类训练它去做的事情。如果人类给它的是充满偏见的数据,就会诞生一个充满偏见的AI。因此OpenAI需要不断调整,选择一些好的数据或让ChatGPT不回答恶意问题。但复杂之处在于,即使开发者把整个AI系统设计得很“符合人类价值观”,仍会有用户从不同角度使用它,这是开发者控制不了的。因此,AI应用远比设计更复杂和危险。

人类社会中,好坏标准是不明确的。训练一个AI下棋,如AlphaGo,规则是明确的,AI经过训练后很清楚如何界定“好的行为”——只要能赢就是一步好棋。但更多时候,要训练AI去完成一些缺乏客观好坏规则的任务,让系统自身去理解什么是“好的行为”非常困难。

韩国当地时间2016年3月9日,韩国职业9段李世石与谷歌人工智能系统“阿尔法围棋”(AlphaGo)进行了一场“人机大战”。李世石在五番棋首战中执黑186手中盘告负。图为媒体观看区。吴旭摄

记者:联名公开信指出,最近几个月,人工智能实验室正陷入一场失控的竞赛(out-of-control race),这是否真的在发生?

阿布-穆斯塔法:这是一种非常情绪化的表述。不过可以预料到,在短期未来AI产业格局中,世界范围内很可能只有两到三个非常强大的类似ChatGPT的人工智能工具占领整个全球市场,因为开发这样的大模型成本巨大,需要数千个GPU(图形处理器)核心运行2个月,以及海量的数据和算力。这也是为什么目前所有最新的大模型进展都来自科技公司,而不是大学。

五年后是否可能诞生一种能节省大量计算资源的新模型,还未可知。如果以后真的出现一种完全不同的模型,可以让成本从10亿美元降至1000万美元,这就改变了游戏规则,届时将会有大量玩家出现。

记者:大模型时代的到来,也和基于“预训练+微调”这种自然语言处理(NLP)的主流范式有关。2018年后,这种模式几乎重塑了人工智能的商业形态,你如何看待这种趋势?

阿布-穆斯塔法:“预训练+微调”是一种分而治之的巧妙方式,一次训练AI专注于一个问题并完善它。这使人们能在目前成就基础上再接再厉,而非从头开始。

OpenAI将其对公众开放的这个主意很聪明,现在他们获得了大量的数据和反馈,可用来训练新一代系统,而且这些资源是独家的,因为公众不会对下一个类似产品产生同样多的兴趣。

2023世界人工智能大会在上海举办,展会上微创机器人展示5G远程手术技术。

AI只是在复制人类的“外观”

记者:如何理性客观认知当下的人工智能水平和ChatGPT的能力边界?

阿布-穆斯塔法:我有个朋友问ChatGPT:“关于阿布-穆斯塔法,你知道什么?”ChatGPT列出了关于我的一份详细履历和人物小传,首段看起来非常专业,但接下来就有不少错误,比如搞错了我的大学。这充分说明了ChatGPT的本质:某种意义上,它只是把所有信息以一种非常特殊的彼此相关的方式放在一起。

人工智能使用了一种类似人类大脑的结构,这种结构以一种高效方式存储信息,看到新情况后推理判断什么是“最接近它的东西”。这就是深度神经网络所做的,已持续几十年。

目前,人工智能整体发展水平令人振奋。但即使在业内,真正了解所有技术细节的人很少,只有OpenAI、Google这些参与了大模型训练的人才能说清楚,但他们对外分享信息有限。我推测,下一步最重要的突破可能集中在AI系统如何用更少资源达到相同的性能水平。

记者:沿这条路继续走,AI是否能进化到理解“概念”和“常识”?有专家认为GPT-4已初具“自我反思”能力,你怎么看?

阿布-穆斯塔法:如果说人工智能已发展出自我反思能力,那一定是数量巨大的任务训练带来的,是通过合并足够数量的“分散而零碎的智能任务”实现的。比如说做1000个ChatGPT,其中一个对语言感兴趣,一个处理数学问题,一个负责视觉识别……直到其“能力”覆盖几乎人类所有领域,再合并为一,它一定能表现出一种“通用的智能”,这就是“多模态机器学习”的本质。

但这只是表象,只是看起来具备自我反思能力和通用智能。某种意义上,这个巨大系统只是试图复制人类的“外观”。

2022世界人工智能大会在上海拉开帷幕。

记者:怎么理解微软研究人员称,GPT-4已经显示出接近人类智能或通用人工智能的“火花”?

阿布-穆斯塔法:问题的关键是,“通用人工智能”(Artificial General Intelligence,AGI)到底是什么?对于通用人工智能,人类想追求的是:AI突然之间学会了以上所有,能举一反三,而不是一次次学会某个特定任务。但这是一个非常模糊的描述。

现在迫切需要就“通用人工智能”概念达成共识,用精确的计算机语言界定它,制定明确的检验规则。遵照这些规则,人类才能知道AGI是否已经实现、潜在的危险是什么。

人类为什么这么关心“通用人工智能”,因为它触及了人性中最根本的东西,侵犯了人类的自我(Ego),即人类是不是最独一无二的存在。对如何实现AGI,目前所有想法都只是推测,人们只能针对已看到的技术范式进行突破;但真实情况是,我们根本难以想象会走上一条怎样的路径。

当人们谈论“通用人工智能”时,承载了太多情感,有时甚至是不切实际的期望和恐惧,但这种恐惧把智能和“自我”混为一谈。人们必须冷静下来,理性地把AGI视作一个科学目标。

记者:人工智能是否能产生“自我意识”?

阿布-穆斯塔法:我认为AI领域的任何技术进步都不可能产生一个“有意识的实体”。意识和情绪的“显现”很容易做到,AI未来能“看起来像拥有了情感或意识”,就像电影里有一个演员表达出了某种强烈的情绪,但这只是表演,是纯粹的行为表象。

对人类意识的定义在科学上都是不确定的,客观上也不可测量。我知道我有意识,你有意识,你知道爱是什么,情感是什么,悲伤是什么,因为你能感觉到,你能与它们联系起来。但这些都是人类经验。为什么会这样?我们不知道。

我认为AI始终是一个无生命的机器,背后有严密的齿轮在驱动它,这些齿轮就是参数。复杂的输出可能会给我们留下“那里有一个与众不同的人”的印象,但这种输出不是来自意识,而是算法。为什么我们认为有

人在那里?因为当人们看到这个输出后,把它在脑海中与过去的记忆、情感,与人类自身联系在一起。

2023年6月26日,江苏苏州国际博览中心,观众在“2023全球人工智能产品应用博览会”上参观。王建康摄

常规工作或在更短时间内被AI替代

记者:未来哪些行业会从AI发展中受益,哪些可能被颠覆?

阿布-穆斯塔法:所有行业都会从人工智能的发展中受益,甚至以无法预料到的方式。

五年前有人问我:人工智能下一个20年如何发展?我说,AI将在20年内取代人类几乎所有常规智能工作(routine intelligence tasks),也就是“完成复杂任务但不需要创新的智能”,自动驾驶是一个典型例子。这是一个必须要积极解决的社会问题,否则很多人将面临失业。

ChatGPT诞生后,我修正了我的预期,我现在认为,可能不需要20年,这些常规工作在更短时间内就可能被AI替代,不管我们如何界定“通用人工智能”,常规智能是通向它的第一步。

记者:在常规智能工作之外,AI未来是否也会取代一些更具有创造力的工作?

阿布-穆斯塔法:以AlphaGo为例,你会发现AI在某种意义上也在进行“创造性的防御”:为赢得比赛,它发现了人类没想到的防御策略。我不知道这是不是创新或只是自动化的产物,因为这背后是AI对海量策略的尝试。“AI的创造力”目前也没有很可靠的定义。

2022年4月9日,在宁夏银川鼓楼步行街,一名小朋友与机器人“铁蛋”互动。袁宏彦摄

记者:人类应如何与AI共存?

阿布-穆斯塔法:我们没有与AI共存的压力,AI永远是人类的附属品。受访者简介:

亚瑟•阿布-穆斯塔法(Yaser S. Abu-Mostafa),埃及裔美国计算机科学家,加利福尼亚理工学院电气工程和计算机科学教授。研究涵盖人工智能、机器学习、模式识别和数据科学等多个领域,在人工智能教育和科普方面做出重要贡献。

开源大模型的“安卓时刻”要来了!Meta将发布商用版LLaMA

AI大模型竞赛白热化,Meta前来搅局,将开源大模型商业化。

周二,据英国《金融时报》,Meta准备发布其大语言模型LLaMA的商用版本,将允许初创公司和企业在该技术的基础上构建定制AI软件。

此举将意味着使Meta与微软支持的OpenAI 、谷歌等展开正面较量,后两家公司在开发生成式人工智能的竞赛中遥遥领先。

Meta副总裁兼首席AI科学家Yann LeCun上周六在普罗旺斯艾克斯举行的一次会议上表示:

人工智能的竞争格局将在未来几个月,也许在未来几周内彻底改变,届时将出现与非开源平台一样好的开源平台。

开源LLaMA模型即将商用化

此前文章指出,今年2月,Meta发布了其开源大语言模型LLaMA,该模型能帮助研究人员低成本开发专有AI软件,从而在AI领域掀起轩然大波。三位知情人士表示,新版本将更广泛地提供给企业,并可由企业定制。

与OpenAI等竞争对手形成鲜明对比的是,LLaMA为开源模型。从本质上说,Meta将其AI技术作为开源软件(可自由复制、修改和重复使用的计算机代码),这为外部人员快速构建自己的聊天机器人提供了所需的一切。

而将LLaMA商用化不仅有利于自身竞争,AI开发者希望找到替代竞争对手谷歌和OpenAI销售的专有软件的产品,同时也将间接有利于Meta的AI开发。

开源模型的好处包括用户的接受率更高,然后输入更多数据供人工智能处理。LLM拥有的数据越多,其功能就越强大。此外,开源模型使研究人员和开发人员能够发现和解决漏洞,同时提高技术和安全性,Meta等科技公司多年来一直因各种隐私和错误信息丑闻而面临审查。

虽然Meta的技术是开源的,且目前免费,但两位知情人士表示,该公司一直在探索商用化。一位知情人士表示,目前没有收费计划,Meta也不会在即将发布的版本中这样做。

Meta负责AI研究的副总裁Joelle Pineau拒绝就商业化发表评论,但他表示:

这些东西确实是开源的,但你不会完全放弃这项工作的知识产权。

大模型竞争格局或迎巨变

虽然免费提供软件似乎与赚钱背道而驰,但专家认为,企业也可以利用这一策略来打开市场。一位熟悉Meta想法的人士表示:

Meta已经意识到,他们在当前的人工智能炒作周期中落后了,但这给了他们一种打开生态系统的方式,他们似乎在做正确的事情。

本周早些时候,Meta全球事务主管Nick Clegg曾撰文赞扬了开源的好处称:

开源是消除AI相关恐惧的最佳解药。当然,开源也有助于Meta追赶竞争对手,因为它允许各种规模的公司改进这项技术,并在其上构建应用程序。

不过,Meta也将面临风险,在将下一个版本的LLaMA商业化的过程中,如果被发现使用受版权保护的材料训练该软件,该公司可能会面临法律诉讼。

来源:公众号MaxFutureAI 

《生成式人工智能服务管理暂行办法》全文

央广网北京7月13日消息 近日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布了《生成式人工智能服务管理暂行办法》。该文件全文如下:

生成式人工智能服务管理暂行办法

第一章 总则

第一条 为了促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,根据《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《中华人民共和国科学技术进步法》等法律、行政法规,制定本办法。

第二条 利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务(以下称生成式人工智能服务),适用本办法。

国家对利用生成式人工智能服务从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定。

行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定。

第三条 国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。

第四条 提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,遵守以下规定:

(一)坚持社会主义核心价值观,不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、损害国家形象,煽动分裂国家、破坏国家统一和社会稳定,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容;

(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;

(三)尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;

(四)尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益;

(五)基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性。

第二章 技术发展与治理

第五条 鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系。

支持行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等在生成式人工智能技术创新、数据资源建设、转化应用、风险防范等方面开展协作。

第六条 鼓励生成式人工智能算法、框架、芯片及配套软件平台等基础技术的自主创新,平等互利开展国际交流与合作,参与生成式人工智能相关国际规则制定。

推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。

第七条 生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:

(一)使用具有合法来源的数据和基础模型;

(二)涉及知识产权的,不得侵害他人依法享有的知识产权;

(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;

(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;

(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。

第八条 在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。

第三章 服务规范

第九条 提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。涉及个人信息的,依法承担个人信息处理者责任,履行个人信息保护义务。

提供者应当与注册其服务的生成式人工智能服务使用者(以下称使用者)签订服务协议,明确双方权利义务。

第十条 提供者应当明确并公开其服务的适用人群、场合、用途,指导使用者科学理性认识和依法使用生成式人工智能技术,采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务。

第十一条 提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。

提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。

第十二条 提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。

第十三条 提供者应当在其服务过程中,提供安全、稳定、持续的服务,保障用户正常使用。

第十四条 提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。

提供者发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告。

第十五条 提供者应当建立健全投诉、举报机制,设置便捷的投诉、举报入口,公布处理流程和反馈时限,及时受理、处理公众投诉举报并反馈处理结果。

第四章 监督检查和法律责任

第十六条 网信、发展改革、教育、科技、工业和信息化、公安、广播电视、新闻出版等部门,依据各自职责依法加强对生成式人工智能服务的管理。

国家有关主管部门针对生成式人工智能技术特点及其在有关行业和领域的服务应用,完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引。

第十七条 提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

第十八条 使用者发现生成式人工智能服务不符合法律、行政法规和本办法规定的,有权向有关主管部门投诉、举报。

第十九条 有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。

参与生成式人工智能服务安全评估和监督检查的相关机构和人员对在履行职责中知悉的国家秘密、商业秘密、个人隐私和个人信息应当依法予以保密,不得泄露或者非法向他人提供。

第二十条 对来源于中华人民共和国境外向境内提供生成式人工智能服务不符合法律、行政法规和本办法规定的,国家网信部门应当通知有关机构采取技术措施和其他必要措施予以处置。

第二十一条 提供者违反本办法规定的,由有关主管部门依照《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《中华人民共和国科学技术进步法》等法律、行政法规的规定予以处罚;法律、行政法规没有规定的,由有关主管部门依据职责予以警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停提供相关服务。

构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。

第五章 附则

第二十二条 本办法下列用语的含义是:

(一)生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。

(二)生成式人工智能服务提供者,是指利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人。

(三)生成式人工智能服务使用者,是指使用生成式人工智能服务生成内容的组织、个人。

第二十三条 法律、行政法规规定提供生成式人工智能服务应当取得相关行政许可的,提供者应当依法取得许可。

外商投资生成式人工智能服务,应当符合外商投资相关法律、行政法规的规定。

第二十四条 本办法自2023年8月15日起施行。

彻底开源,免费商用,上海AI实验室把大模型门槛打下来

机器之心原创

作者:杜伟、泽南

终于,业内迎来了首个全链条大模型开源体系。

大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。

就在近日,AI 社区迎来首个统一的全链条贯穿的大模型开源体系。

虽然社区有LLaMA等影响力较大的开源模型,但由于许可证限制无法商用。InternLM-7B 除了向学术研究完全开放之外,也支持免费商用授权,是国内首个可免费商用的具备完整工具链的多语言大模型,通过开源开放惠及更多开发者和企业,赋能产业发展。

今年世界人工智能大会 WAIC 上,上个月初「高考成绩」超越 ChatGPT 的「书生」大模型来了次重大升级。

在 7 月 6 日的活动中,上海 AI 实验室与商汤联合香港中文大学、复旦大学、上海交通大学及清华大学共同发布了全新升级的「书生通用大模型体系」,包括书生・多模态、书生・浦语和书生・天际三大基础模型。其中面向 NLP 领域的书生・浦语语言大模型迎来了 104B 的高性能版和 7B 的轻量级版

相较初始模型,104B 的书生・浦语全面升级,高质量语料从 1.6 万亿 token 增至了 1.8 万亿,语境窗口长度从 2K 增至了 8K,支持语言达 20 多种,35 个评测集上超越 ChatGPT。这使得书生・浦语成为国内首个支持 8K 语境长度的千亿参数多语种大模型。

而在全面升级的同时,更值得关注的是书生・浦语在开源上的一系列动作。

此次书生・浦语将 7B 的轻量级版 InternLM-7B 正式开源,并推出首个面向大模型研发与应用的全链条开源体系,贯穿数据、预训练、微调、部署和评测五大环节。其中 InternLM-7B 是此次开源体系的核心和基座模型,五大环节紧紧围绕大模型开发展开。

上海 AI 实验室开放其整套基础模型和开发体系。大模型的研究,第一次有了一套开源的、靠谱的全链条工具。

模型 + 全套工具,开源真正实现「彻底」

此前,AWS 等国内外公司纷纷推出了基础大模型技术平台。基于大厂的能力,人们可以构建起生成式 AI 应用。相比之下,基于上海 AI 实验室的基座模型和全链条开源体系,企业、研究机构/团队既可以构建先进的应用,也可以深入开发打造各自垂直领域的大模型。

在上海 AI 实验室看来,基础大模型是进一步创新的良好开端。「书生」提供的并非单个的大模型,而是一整套基座模型体系,在全链条开源体系加持下,为学界和业界提供了坚实的底座和成长的土壤,从底层支撑起 AI 社区的成长,并且与更多的探索者共同建设「枝繁叶茂」的生态。

因此,就此次书生・浦语的开源而言,它是一套系统性工程,旨在推动行业进步,让一线开发者更快获取先进理念和工具。用「全方位开源开放」来形容可以说名副其实,模型、数据、工具和评测应有尽有。相比业界类似大模型平台,书生・浦语首个实现了从数据到预训练、微调,再到部署和评测全链条开源。

轻量化模型,性能业界最强

书生・浦语的 7B 轻量级版 InternLM-7B 不仅正式开源,还免费提供商用。作为书生・浦语开源体系中的基座模型,它为上海 AI 实验室未来开源更大参数的模型做了一次探索性尝试。

我们了解到,InternLM-7B 为实用场景量身定制,使用上万亿高质量语料来训练,建立起了超强知识体系。另外提供多功能工具集,使用户可以灵活自主地搭建流程。目前 GitHub star 量已经达到了 1.5K。

开源地址:
https://github.com/InternLM

InternLM-7B 的性能表现如何呢?上海 AI 实验室给出的答案是:在同等参数量级的情况下全面领先国内外现有开源模型

我们用数据来说话。对 InternLM-7B 的全面评测从学科综合能力、语言能力、知识储备能力、理解能力和推理能力五大维度展开,结果在包含 40 个评测集的评测中展现出卓越和均衡的性能,并实现全面超越。

下图展示了在几个重点评测集上,InternLM-7B 与国内外代表性 7B 开源模型(如 LLaMA-7B)的比较。可以看到,InternLM-7B 全面胜出,在 CEval、MMLU 这两个评价语言模型的广泛基准上分别取得了 53.25 和 50.8 的高分,大幅领先目前业内最优的开源模型。

InternLM-7B 在开放评测平台 OpenCompass 的比较结果。

书生是如何做到的?在接受机器之心专访时,上海 AI 实验室林达华教授向我们介绍了致胜之道

与以往在单项或数项基准上达到高水平的模型不同,InternLM-7B 是一个基座模型,它不是针对某个特定任务或领域,而是面向广泛的领域提供比较强大和均衡的基础能力。因而强调各方面能力的均衡是它的一大特点。

为了实现均衡且强大的能力,InternLM-7B 在训练和评估过程中使用了创新的动态调整模式:在每训练一个短的阶段之后,便对整个模型全面评估,并根据评估结果及时调整下一阶段训练数据分布。通过这套敏捷的闭环方式,模型在成长过程中始终保持能力均衡,不会因数据配比不合理而导致偏科。

同时,InternLM-7B 在微调体系上也有明显升级,使用了更有效的微调手段,保证模型的行为更加可靠。

除了以上模型技术层面的升级,InternLM-7B 还具备可编程的通用工具调用能力。以 ChatGPT 为例,大模型可在解方程、信息查询等简单任务上调用工具来实现更准确有效的结果,但在复杂任务上需要调用更多机制才能解决问题。

InternLM-7B 具备了这种通用工具调用能力,使模型在需要工具的时候自动编写一段 Python 程序,以综合调用多种能力,将得到的结果糅合到回答过程,大幅拓展模型能力。

正是在训练 – 评估 – 训练数据分布调整闭环、微调以及工具调用等多个方面的技术创新,才让 InternLM-7B 领跑所有同量级开源模型变成了可能。

大模型开源,就需要全链条

在书生・浦语全链条开源体系中,不仅囊括了丰富多元的训练数据、性能先进的训练与推理框架、灵活易用的微调与部署工具链,还有从非商业机构的更纯粹学术和中立视角出发构建的 OpenCompass 开放评测体系。

与同类型开源体系相比,书生・浦语的最大特点体现在链条的「长」。竞品工具链可能会覆盖从微调到部署等少量环节,但书生・浦语将数据、预训练框架、整个评测体系开源了出来。而且链条中一个环节到另一个环节,所有格式全部对齐,无缝衔接。

上海 AI 实验室围绕书生・浦语大模型打造了五位一体的技术内核。除了大模型本身,值得关注的还有预训练环节开源的面向轻量级语言大模型训练的训练框架 InternLM-Train 以及评测环节的开放评测平台 OpenCompass

我们知道,在现有 AI 大模型开发范式中,预训练 + 微调是主流。可见预训练对于大模型的重要性,很大程度上决定了模型任务效果。而其中底层的预训练框架要在能耗、效率、成本等方面尽可能做到节能、高效、低成本,因此框架的创新势在必行。

书生・浦语开源了训练框架 InternLM-Train。一方面深度整合了 Transformer 模型算子,使得训练效率得到提升。一方面提出了独特的 Hybrid Zero 技术,实现了计算和通信的高效重叠,训练过程中的跨节点通信流量大大降低。

得益于极致的性能优化,这套开源的体系实现了千卡并行计算的高效率。InternLM-Train 支持从 8 卡到 1024 卡的计算环境中高效训练 InternLM-7B 或者量级相仿的模型,训练性能达到了行业领先水平。千卡规模下的加速效率更是高达 90 %,训练吞吐超过 180Tflop,平均单卡每秒处理 token 也超过 3600。

如果说预训练决定了大模型的「成色」,评测则是校验大模型成色的关键一环。当前由于语言大模型的能力边界极广,很难形成全面、整体的评价,因而需要在开放环境中逐渐迭代和沉淀。

书生・浦语开源体系上线了 OpenCompass 开放评测体系,更纯粹学术和中立视角之外,它的另一大特点是基准「全」。除了自己的一套评测基准,OpenCompass 还整合了社区主流的几十套基准,未来还将接纳更多,从而让开源模型更充分地彼此较量。

具体地,OpenCompass 具有六大核心亮点。从模型评测框架来看,它开源可复现;从模型种类来看,它支持 Hugging Face 模型、API 模型和自定义开源模型等各类模型的一站式测评,比如 LLaMA、Vicuna、MPT、ChatGPT 等。InternLM-7B 正是在该平台上完成评测。

从能力维度来看,它提供了学科综合、语言能力、知识能力、理解能力、推理能力和安全性六大维度。同时提供这些能力维度下的 40+ 数据集、30 万道题目,评估更全面。

林达华教授认为,能力维度的广度和复杂度是模型评测面对的最大挑战。一方面要充分考虑如何从不同的维度进行评价,一方面当要评测的指标变多的时候,还要兼顾如何以负担得起的方式去评测。

此外,OpenCompass 非常高效,一行命令实现任务分割和分布式评测,数小时内完成千亿模型全量评测;评测范式多样化,支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板轻松激发各种模型最大性能;拓展性极强,轻松增加新模型或数据集、甚至可以接入新的集群管理系统。

目前,OpenCompass 上线了 NLP 模型的评测,也即将支持多模态模型的评测。

随着 OpenCompass 平台的影响力增加,上海 AI 实验室希望对于大模型基准的评测也会对整个领域起到带动作用。与此同时,在构建 AI 标准化的大模型专题组中,上海 AI 实验室也与很多厂商形成了良好的合作关系。

在大模型快速演进的关键时期,标准制定与实施是推动产业进步的现实需求,也将为产业的可持续发展指明方向。

林达华教授表示:「创新是人工智能技术进步的源动力,而基座模型和相关的工具体系则是大模型创新的技术基石。通过此次书生・浦语的高质量全方位开源开放,我们希望可以助力大模型的创新和应用,让更多的领域和行业可以受惠于大模型变革的浪潮。」

做真正有影响力的工作

值得一提的是,上海AI 实验室成立的时间并不长——成立于 2020 年 7 月。作为一个新型研发机构,其主要开展重要基础理论和关键核心技术。得益于其原创性、前瞻性的科研布局,以及强大的科研团队,实验室近期在多个关键领域实现重大突破。

「我们坚持上下游协同,做出的大模型第一时间在团队中进行分享,在应用中得到反馈,进而持续迭代,」林达华介绍称。

上海 AI 实验室的技术领先,还在于做好三个方面的事:不设定发表论文或盈利的 KPI,做真正前沿有影响力的工作;开放创新空间,鼓励团队间积极交流,勇于尝试不同的方向与想法;最后,实验室为研究团队提供了海量数据和算力作为支持。

此次书生・浦语的开源体系降低了大模型技术探索和落地的门槛,对于学界和业界而言意义重大,帮助更多研究结构和企业省去了基础模型构建的步骤,他们可以在已有的强大模型与工具体系的基础上继续演进,实现创新。

未来,上海 AI 实验室还将基于「书生・浦语」,在基础模型和应用拓展方面进行探索,努力构建适用于关键领域落地的基础模型。

书生开源体系可以大幅降低大模型技术探索和落地的门槛,如果你感兴趣,欢迎来试试。

马斯克成立人工智能公司——xAI

7月13日,马斯克在社交平台宣布,正式成立人工智能公司xAI。其目标是了解宇宙的真实本质。虽然xAI是一个独立的公司,但会与马斯克旗下的特斯拉、Space x等其他公司展开密切的合作关系。

xAI定于周五在线上举办活动,马斯克领导的团队将在线回答提问。其核心团队成员曾经分别在DeepMind、OpenAI、谷歌研究、微软研究、特斯拉等前沿公司或多伦多大学等学术机构任职过。

有媒体分析称,鉴于xAI的团队成员曾参与过AlphaCode、GPT-3.5和GPT-4等项目,马斯克新成立的Xai很可能会进军生成式AI,与ChatGPT、Bard等展开激烈竞争。

比较有意思的是,早在今年3月,包括马斯克在内的1000多名行业高管和专家签署公开信,呼吁在6个月内暂停高级AI的开发。马斯克等人在信中写道,高级AI可能会对社会和人类构成深远的风险。

在今年4月的一栏专访节目中,马斯克说道,“我将启动一个,称之为TruthGPT的东西,或者是一个最大限度地寻求真理的人工智能,它试图理解宇宙的本质。”

马斯克补充称,“我认为这可能是通往安全的最佳途径,从某种意义上说,一个关心理解宇宙的人工智能不太可能灭绝人类,因为我们是宇宙中有趣的一部分。”

当月,就有媒体报道过马斯克成立AI公司的计划。另有消息称,马斯克购买了大约1万个处理大型AI模型数据的GPU。

知情人士透露,他为了这1万个GPU极有可能花费了几千万美元,还多次抱怨推特财务状况不稳定。

值得一提的是,马斯克早在2015年曾担任OpenAI最初的董事会成员。2018年,马斯克辞去了董事会席位,理由是与他担任特斯拉首席执行官的角色“未来可能存在利益冲突”。

但Sam Altman称,马斯克认为 OpenAI 已经落后于谷歌等其他公司,马斯克提议自己接管OpenAI,但董事会拒绝了。

在xAI成立之后,马斯克管理的公司数量达到了6家,其他5家分别是特斯拉、SpaceX,社交媒体平台Twitter、脑机接口公司Neuralink和地下隧道公司The Boring Company。

来源:公众号AIGC开放平台

遏制对除草剂的依赖,Carbon Robotics用人工智能驱动的激光与杂草作战

以下文章来源于城食有农 ,作者城食有農

由 Carbon Robotics 开发的 LaserWeeder 是一款自主机器人,使用人工智能和二氧化碳激光技术来识别和消除田间杂草。据称其精度达到毫米级,不会损坏作物或扰乱土壤。LaserWeeder 的人工智能深度学习了 800 万个作物和杂草对象;在除草任务中,其每小时覆盖 2-4 英亩面积,相当于 75 名人工。

LaserWeeder 还能够间伐作物,以最大限度地提高作物健康和单位面积产量。

根据 Carbon Robotics 首席执行官 Paul Mikesell 的说法,该公司进入除草领域的决定是在与农民交谈后做出的。农田除草最大的挑战不是杂草本身,而是找到足够的劳动力来管理它们。

在美国的大部分农业劳工来自客工和持签证的临时工。然而,农业行业很难找到足够的劳动力来履行这些职责。对于像除草这样的事情,可能是聪明人能做的价值最低的工作,将人力部署到这个领域没有多大意义。

但是,许多种植者别无选择。再加上杂草中出现的除草剂抗性,特别是对草甘膦的抗性,这让农民们对杂草问题感到有点绝望。

LaserWeeder 机器上的计算机视觉能够识别杂草,区分出农作物。这减少了传统农业对除草剂的需求,并能帮助使用再生农法的农民减少或消除过度翻耕。

根据 Carbon Robotics 自己的数据,到目前为止,LaserWeeder 已经“成功消除”了 40 种不同作物的 5 亿多株杂草。

Carbon Robotics 主要专注于特种作物的除草任务,但该公司也已经在大宗农作物方面做了一些工作。Carbon Robotics 的技术对特种作物客户尤为重要,因为现有的除草剂选择并不足够多。

由于特种经济作物会被直接食用,人们关心植物的质量、营养成分和质地。种植者若想提高单位产量,最好方法是非常精确或有针对性的控制杂草,并在不影响植物的情况下除草。因此对于特种经济作物,化学除草剂并非是最好的选择。

这与大宗作物形成鲜明对比,因为大部分小麦和大豆都经过加工并转化为其他东西,所以人们很少关注每株植物的个体质量。

在经济低迷期仍融资 3000 万美元,Carbon Robotics 必有成功之处。可能这要归功于 Carbon Robotics 从一开始就在农田里打造其产品,而非闭门造车。

根据首席执行官 Paul Mikesell 的说法,Carbon Robotics 从第一天开始就在田间工作,了解真实农田环境中水分、热量和湿度,地面条件以及不同地区土壤类型的变化,了解有哪些不同的杂草以及杀死一株杂草需要多少能量。

另外,他们还与农民合作,不断进行早期测试,从而让 LaserWeeder 适应当地不同的耕作方式。

Carbon Robotics 的第一台机器人于 11 个月前发货。2023 年起,该公司将在美国 17 个州和加拿大的三个省提供 LaserWeeder 机器人以及可拖曳的 LaserWeeder 除草系统。 

新资金将帮助该公司扩大制造规模并进入新的地区市场。明年,Carbon Robotics 将进入欧洲,计划扩大工程团队并开发新产品和增强机器功能。

世界人工智能大会落幕,3天推动32个重大产业项目签约

在吸引创纪录的海内外嘉宾与参会者,全面展示人工智能最新发展成果与趋势,推动总投资近300亿元的32个重大产业项目签约之后,以“智联世界  生成未来”为主题的2023世界人工智能大会昨天在上海世博中心落下帷幕。

作为全球人工智能领域最有影响力的盛会之一,世界人工智能大会此前已在上海连续成功举办5届。今年的大会继续发挥“科技风向标、应用展示台、产业加速器、治理议事厅”的重要作用,汇聚世界各国顶尖学者、行业领袖,政府官员,以及相关企业负责人、投资人、创业者等,为他们搭建起世界级的合作交流平台,共话发展,共赢机遇。

本次世界人工智能大会精彩纷呈、硕果累累。短短3天时间内,共举办各类论坛133场,到会嘉宾大咖达1400余位。嘉宾们畅所欲言,围绕火热的大模型和生成式人工智能浪潮,深入探讨新AI赋能千行百业的前景与路径;围绕各类智能应用与产品对算力提出的巨大需求,强调打造上下游联通、软硬件并重、云边端融合的基础设施和智算生态;聚焦科学智能、具身智能、类脑智能、元宇宙、智能机器人等热点领域,强调全面夯实产业基础,激活未来发展动能;聚焦新技术快速迭代对经济、社会、文化等形成的潜在冲击,呼吁在坚持包容审慎、鼓励创新的同时,完善人工智能特别是大模型的相关治理体系。

大会期间举办的人工智能技术和应用展,吸引了创纪录的参观者。今年展览总展出面积超过5万平方米,为历届之最;截至闭幕日下午3点,线下总参观人数突破17.7万,全网流量突破10.7亿,全网曝光量64.1亿,均创历史新高。

闭幕式上,上海市经济信息化委相关负责人就即将出台的“大模型创新发展政策”进行吹风。据介绍,该政策围绕创新能力、创新要素、创新应用、创新环境4个方向,将重点打造3项计划和5个平台,以破解制约该领域发展的瓶颈。记者了解到,所谓3项计划,即大模型创新扶持计划、智能算力加速计划、示范应用推进计划,而重点打造的5个基础支撑平台则包括大模型测试验证与协同创新中心、大模型语料数据联盟、智能算力调度平台、软硬件适配测评中心、大模型开源社区和协作平台。

昨天的闭幕式邀请到一批全球知名商业领军者和创新先锋为行业发展寄语。美国国家工程院院士、AMD董事会主席兼首席执行官苏姿丰,顶级风投机构格雷洛克合伙人、OpenAI创始投资人雷德·霍夫曼,巴斯夫集团执行董事会主席薄睦乐,先正达集团首席执行官傅文德,Stability AI公司创始人兼首席执行官伊玛德·莫斯塔克,分别阐述了各自对于新AI与新商业的见解,表达了对智能未来的热忱憧憬。上海市法学会、上海市人工智能行业协会、商汤科技、复旦大学、达观数据等的代表共同发起《“模”都倡议》,提出更好释放以大模型为代表的人工智能新动能。

昨天还有一批全新的人工智能项目在现场签约,涵盖算力、数据、大模型、硬件、软件等不同领域,有助于上海不断强化创新策源能力,不断凝聚产业发展新动能,不断刷新智能应用新标杆,不断优化开放合作新生态。据统计,本次世界人工智能大会期间,共推动32个重大产业项目签约,总投资288亿元;有超过200家上下游企业完成对接,达成意向采购金额110亿元。

副市长刘多出席。
新AI为数字人注入“灵魂”,但也伴生风险

图片张江科学会堂分会场,观众正在体验一款智能健康检测系统。  本报记者  袁婧  摄

三维技术公司Canbeing创始人金文云为客户定制了许多高拟真的数字人。这些在虚拟网络空间里拥有高颜值、高情商以及动人嗓音的智能体,已开始成为网店的金牌导购、新闻平台的金牌主持,或是课后辅导的金牌教师。但随着事业越来越成功,金文云对于数字人的未来产生了一分困惑。

作为科幻迷,金文云牢记美国科幻作家艾萨克·阿西莫夫为确保人工智能(AI)不伤害人类而提出的“机器人三大定律”。在昨天举行的2023世界人工智能大会“AIGC数字人论坛”上,金文云说,我们要确保数字人不跨越“三大定律”。

和其他新技术一样,数字人考验我们能否“用发展的办法解决发展中的问题”的原则。昨天的论坛实际上给了大家一个难得的机会,去梳理AIGC(生成式人工智能)和数字人这两个当下的热门概念,特别思考二者结合会发生怎样的“化学反应”。

不只是以假乱真

首先要厘清数字人的概念。

AIGC数字人研究院高级研究员唐昱佳说,世界上首个数字人是卡通片《超时空要塞》中的女主角。根据片方安排,她“走出”动画片,在现实世界出版了一张音乐专辑,由此让人看到虚拟IP旺盛的生命力。

受技术所限,第一代数字人主要靠手绘。到本世纪初,随着动作捕捉技术的进步,影视作品中出现了3D数字角色,数字人进入第二阶段。到最近10年,因为深度学习算法突破,AI生成的第三代虚拟角色问世,ta们外形更接近真人(可能还有些CG味),可以按脚本讲话做事。

《每日经济新闻》就是这类技术的使用方。他们在新闻直播节目中引入两个数字主持。有些传奇色彩的是,因为太过逼真,而且从未官宣“身份”,以至于开播两个多月后,观众才意识到两个主播原来是虚拟的。再后来,不知疲倦的数字人逐渐成为电商宠儿。有媒体这样报道新一代数字“劳模”——《凌晨的公司空无一人,带货的全是数字人》。

如果数字人的进化到此为止,也不至于让金文云有什么纠结。但ChatGPT的火爆,让形势开始不同。“AIGC赋予了数字人灵魂。”唐昱佳说。

被AI深度驱动

受技术所限,前几代数字人就算不能用“徒有颜值”描述,至少也缺少完整“人格”。根据唐昱佳的研究,数字人有两种驱动类型:一是真人驱动,也就是让摄像头捕捉真人的动作,然后借助软件,将其套用在数字人的形象上,大致相当于给真人蒙一个“数字面具”;其二则是AI驱动,也就是说,数字人并不完全是真人的影子,他可以脱离真人独立运动、说话。

在ChatGPT等大模型诞生前,哪怕是AI驱动,数字人的表现还是不够到位。

优链时代是一家很有特色的3D数字人制作企业,CEO蒋亚洪透露,他们自研了一套算法以及一种特别的相机,只要用它给真人拍照,就可以迅速建模生成接近真人形象的数字分身。目前,他们已把业务落地,比如将游客的数字分身嵌入西湖美景,生成“元宇宙游杭州”视频;或是让数字人做出真人根本做不到的事——后空翻、大灌篮……上传社交媒体得到点赞。

这样的数字人虽属AI驱动型,但只能按照一套预录制的动作库来做动作,看起来有些生硬,而且也没有聪明到可以与人自如交谈。不过,短板可能很快被弥补。金文云表示,AIGC一定会造就出动作生成模型,从而让数字人可以摆脱预录制的动作库,自己生成丰富的肢体语言。更重要的是,大模型还能让数字人在讲话时彻底摆脱脚本。

上月底正式公测的现象级手游《逆水寒》,就首次导入了一种类GPT模型。游戏中,NPC(非玩家游戏角色)能自主和玩家对话、做动作,让许多人大为惊叹。实际上,这种技术完全可以移植到数字人身上,从而使得数字人不仅相貌逼真,连行为也更趋近真实。

火爆中保持冷静

真人般的外貌、真人般的肢体语言,但AIGC加持下的数字人,还有更远大的目标。

创壹科技是国内最具影响力的数字人公司之一,曾创造出顶流网红数字人“柳夜熙”。CEO梁子康昨天说,数字人是通往元宇宙时代的钥匙,而要打通虚实之间的界限,就得让数字人拥有接近真人的情感,“没有情感的数字人,只能做电商主播,根本没什么人会去看。”

目前,创壹科技已在情感仿真方面做了许多工作。梁子康透露,未来3年,他们的目标是打造出一个元宇宙数字人IP矩阵。

更多可马上落地的商业模式已经出现。商汤科技副总裁李星冶表示,他们不久前发布了一款App,普通人用手机自拍5分钟视频,就可以生成数字人,能讲150多种方言和外语。除了满足普通用户外,商汤科技还在推行一个“百变大咖”计划,将为100位意见领袖制作数字分身。

有了AIGC的赋能,数字人有望在以下场景落地——成为娱乐偶像、电商主播,或者在新闻、医疗、教育、法律等专业领域扮演专业角色。总体上,这个市场有望在10年内达到数百亿元规模。甚至,想得更远的唐昱佳认为,随着大模型和AIGC工具的繁荣,未来所有人都会拥有自己的数字分身,“人人都可以实现数字永生”。

中国将出台生成式人工智能监管规定

中国将出台生成式人工智能监管规定

中国将出台关于生成式人工智能(generative AI)的监管规定。目前,正寻求在鼓励本土企业开发这种革命性技术与想要控制其内容之间取得平衡。


两名与中国监管机构关系密切的人士表示,国家互联网信息办公室想要建立一套制度,要求企业须先获得许可证才能推出生成式人工智能。

这一要求比今年4月发布的监管草案更加严格。草案为企业提供了更大的操作空间,因为允许企业在产品推出后10个工作日内向有关部门进行备案。

新的许可证制度表明,中国正在协调其开发世界一流技术的雄心与其长期存在的审查制度。据知情人士透露,包括许可证制度在内的监管规定最早将于本月敲定。

“如果中国打算完全管控并审查人工智能生成的信息,他们将要求所有企业事先取得有关部门的批准。”一位了解网信办想法的人士表示。“但相关监管一定不能妨碍国内企业参与这场科技竞赛。”该人士补充道。

AIGC风暴来袭:4万亿服装产业掀起巨浪

AIGC大热后,设计师林俪和版师张宇都觉得自己混得比对方惨,经营模特摄影工作室的“浪猪灰头”也觉得正在失去生意。

4万亿服装行业,正在被新一波AI技术改变,且冲击和机遇并存——麦肯锡分析,未来3到5年,生成式AI可能会帮助服装、时尚及奢侈品行业的营业利润创造1500亿美元的增量,乐观估计可高达2750亿美元。
记者注意到,AIGC对服装行业的影响主要集中于商品企划、产品设计、零售终端三个环节,AIGC提升设计师效率、数字人+3D服装给消费者带来新体验,这些新内容都将给服装行业带来新机会。
只不过,要想解决行业内从设计到生产到营销多环节的难题,并非易事。服装行业也曾经过几轮AI洗礼,从RNN(递归神经网络,1990年提出)到GAN(生成对抗网络,2014年提出)到如今的Diffusion(扩散模型),每一波AI都试图打通整个产业链。那么,这一轮生成式AI会对服装行业产生哪些影响?AIGC将影响哪些岗位就业?AI能力外溢到供应链,能够产生多大影响?

01设计师、版师、模特,谁被冲击?

 1 AIGC干不掉设计师
设计师和版师是服装设计中的主要岗位,一个负责将天马行空的灵感变成一张张图纸,一个负责将图纸变成样衣。
Midjourney和Stable Diffusion一度给设计师林俪带来很大的职业生涯危机,输入提示词,5秒内生成六张设计图,还可以不停更新。林俪从事快时尚设计快5年,见过不少设计高手,还是被Stable Diffusion的生成效果惊艳了一把,“关键是速度快且量大,感觉分分钟要失业。”
“上新”是快时尚的命脉,品牌企业对创造力

和效率有极致追求。坚持用了半年Midjourney和Stable Diffusion,林俪放心下来,“大模型确实在生成速度上远超设计师,但AIGC只是一个素材生成方式,输入什么提示词,需要哪些元素,到底要用哪张,这些都需要我们来做选择。我现在的灵感图都由AIGC完成,效率大概提升了3倍。”
而且,AIGC目前只是在单款服装的设计上提供了灵感。除了单款设计,设计师还需要做一些系列企划——比如当季主推的款有哪些系列,哪些款式搭配起来好看,常规款和主推款怎么搭配。甚至这些款式在门店的陈列,都得在设计师企划时去规划——主推款式放在什么位置,效果如何,在门店如何陈列。显然这些工作内容都超出AIGC的范围。
“单从款式设计上来说,其实绝大多数服装企业都有自己的版型基础,也就是大体‘规矩’,在这个‘规矩’内,设计师会去判断用什么样的颜色、辅料、装饰性元素。AIGC就是在这个环节给出灵感和帮助。”林俪补充。
AIGC到底能帮服装设计师做什么?知衣科技创始人兼CEO郑泽宇认为主要有三方面:
第一,提供灵感;第二,快速生成出大量符合提示词的图片;第三,降低设计的成本,提高设计的精度和投产效率比。
“但目前AIGC能够达到的效果只有第二点,第一和第三步还在测试中,1-2年内实现还有困难。”郑泽宇补充。
郑泽宇也认为,AIGC还远远谈不上取代设计师,“AIGC只是一个素材生成方式,判断这些图是否是设计师或品牌方想要的,到底用哪张,这才是最重要的问题。”


 2 20年后再无版师?
AIGC取代不了设计师,但可以取代版师。这是凌迪科技Style3D首席科学家王华民对本轮AI的预判。
版师指从事服装制版工作的人,制版在整个服装生产流程中承上启下——对上,要和设计师沟通样衣的工艺细节;对下,要向样衣工或生产工厂交代缝制样衣的注意事项,把控样衣(非大货)质量。
一件衣服的设计图出来后,还得经历“打版-修改-再打版-再修改”的过程。“有时候一个装饰是要2.5厘米还是3.5厘米,得样衣出来之后再看效果,因为这就是一个感觉的东西,就是大一点小一点,左一点右一点,得来回调整。”林俪回了一个不忍直视的表情。
这个过程往往耗时耗力,“设计师很多是不懂打版的,或者懂得不多,他需要和版师反复沟通,时间成本和沟通成本就会很高。”王华民认为。


和林俪在同一公司的版师张宇也认同AIGC对版师们的威胁,版师要将设计师的2D稿子变成生产需要的CAD图,同时生产出样衣,供设计师进行修改。“2D转3D,这个活儿很专业也很套路化。现在一些复杂的版,我们已经不用自己立裁,而是把3D效果给到设计师去看,让他们直接在3D上做调整。”张宇说。
在凌迪的Style3D AI产业大模型中,只要将相应的服装拖入设计框,点击AI生成版片,几秒内可以将版片和3D效果独立出来。

图片来源:凌迪科技Style3D官网
“20年后,当我们的模型足够大,设计师会变得更全能,因为他的工具更多了。”王华民补充,“到时候,最完美的情况是设计师自己设计,自己打版,甚至人人都可以成为设计师。
 3 电商不需要模特了?
除了设计师和版师,模特界也开始“地震”。
在电商平台的款式的详情页背后,是十几个人的分工协作,需要从请模特、摄影师、造型师、助理等+准备服装+影棚租赁or出外景+选片+修片+配图说明,成本百元到千元不等。
微博账号“浪猪灰头”曾发出一张模特摄影工作室的价格表:一天8小时拍摄,需要支出3.6万元。其中摄影费(包含400张修图)1万,男模和女模费用超2万,化妆费2000元,搭配费4000元。

图片:来自网络
“请多个模特的话,得同时照顾几个模特的档期,大量的服装也需要提前熨烫和整理。而且照片数据大,数量也多,下载、制作、挑选的过程至少5天。我们一个服装专场至少10天就要上线,经常得招20个兼职人员才够用。”“浪猪灰头”补充。
而在凌迪科技推出的AI产业模型中,这些人员和费用都可以省略,只需输入关键词,就可以生成“数字模特”。
输入“欧洲女子的脸型,中分长发,典雅气质,妆容干净”,就能生成对应脸型。

图片来源:凌迪科技Style3D官网
上传一个模特姿势图,就能生成对应姿势的模特图。

图片来源:凌迪科技Style3D官网
输入背景关键词“超现实主义背景,极简主义的建筑风格,画面充满活力,具有梦幻般的建筑空间”,就能得到多张对应风格的背景图。

图片来源:凌迪科技Style3D官网
数字人+3D服装的AI组合拳,正在把一个款式的传播成本,拉低到无法想象。未来也许品牌方提供一件衣服的照片就可以组织一场走秀和直播。
“AI+3D技术将改变传统的人货场模式。”王华民认为,“通过文生图,我们可以生成模特、生成背景、生成姿势,具体能省多少还没有衡量。我们主要是工具给到他,至于他们怎么使用,应用在哪些场景,能节约多少钱,就看他们如何使用这个工具。”

02AI技术路径之于服装,有何不一样设计、打版、营销,在这三个环节,已经有“服装设计+AIGC”产品相继面世。

  • 万事利丝绸与无界AI合作,探索AIGC +丝巾设计;
  • 知衣科技与西湖心辰合作,推出服装产业模型“FASHION DIFFUSION”,要做服装行业的Midjourney,在找款、改款与设计等场景中提升设计效率;
  • 供应链服务企业魔鱼发布“魔鱼GPT”,提高服装设计师提高工作效率;
  • 凌迪科技Style3D发布的Style3D AI产业模型,提供AI预测趋势、AI生成图案/版片/材质/图像等功能,试图构建起数字时尚产业的“基础设施”。

服装设计在过去也一直被AI赋能,这一轮AI与此前有什么不同?王华民认为,虽然都是AI,但是10年前的AI、5年前的AI和这2年的AI各不相同,“一个人说自己是AI从业者,你得看看他干的是哪一个AI。”
AI行业经历了RNN、GAN、Diffusion等多轮迭代,此前的服装AI都基于GAN,即用生成模型和判别模型相互竞争,生成模型用于创造一个看起来像真图片的图片,判别模型用于判断一张图片是不是真实的图片,两个模型一起对抗训练,最终两个模型的能力越来越强,最终达到稳态。
和GAN相比,Diffusion模型只需要训练生成模型,训练目标函数简单,可以实现更优的图像样本质量和更好的训练稳定性。
王华民指出,“GAN的可控性较差,很多东西停留在学术上或者论文上,Diffusion比GAN更容易训练,同时将可控性整体上了一个台阶,训练效果也有了很大提升。”
基于Diffusion模型的AIGC有两个明显优势:
 1 降低设计工具的使用门槛,提高行业渗透率
以往的服装设计工作,需要掌握绘画、PS技能,而在本轮AI产业模型中,通过自然语言描述,就能直接生成设计图。
比如打开知衣科技的FASHION DIFFUSION使用界面,风格、款式、特征一目了然,只需选择款式、颜色、材质等选项,10多秒,AI就能生成T台走秀风格、淘宝抖音商品风格,以及INS小红书社媒风格等各种风格的款式图片。

图片来源:知衣科技官网
这样的便利性和“低门槛”背后,是知衣科技超10亿的服饰图片与500+服装设计标签的行业沉淀,以及西湖心辰在深度学习方面的积累。
 2 一个模型满足多个任务
传统AI的工作方式是一个任务训练一个算法模型,且各个模型之间彼此独立。比如要做图片搜索,训练一个模型;要做图片生成,再训练一个模型。
而大模型可以一个模型解决多个任务,比如Style3D AI 产业模型提供AI生成图片、AI生成版片、AI生成材质、AI生成图片等多种功能。
服装行业的设计图需要在2D、3D之间反复切换:

  • 2D:是设计师最初在纸面上设计的内容,如草图或款式图。
  • 2.5D:是版师基于款式图进行制版,是连接二维和三维的桥梁,可以称作2.5D。
  • 3D:3D数字服装与数字人(Avatar)结合起来,有了可交互的方式。
  • 2D:在服装展示环节,图形学技术通过渲染,把三维物体变成2D视觉效果,例如输出电商上新的图片或视频。

王华民认为,“一个模型可以完成这些模态之间的设计和转化——我想要干什么,我直接告诉他就行了,只需要在出口端设立不同的出口形式,这是理想状态。但也需要2-3年才能完成。”
目前AI生成的设计图,在精度、分辨率、细节、算力成本、制作成本、投产效率比都在测试中,距离商用还有距离。
郑泽宇认为,尽管有海量数据支持,但设计师到底想要什么,提示词怎么来,如何清晰描述出你想要的东西?还是一个问题,还需要通过关注趋势预测或者捕捉灵感去实现。
同时,大模型的可控性始终是隐患。王华民认为,怎么保证它出的图是你想要的,而且可以修改、怎么样去提升可控性稳定性,是AIGC商用的重要一环。“只不过我个人觉得,AI里面的很多问题可能都是因为数据不够导致。”

03AI能否深入服装供应链?“没有一个万亿级的行业能够像服装行业这样来适应AIGC。”Style3D创始人刘郴认为。
尽管这一波人工智能被冠以“第四次工业革命”,但郑泽宇觉得,相比起工业革命,目前AIGC对服装行业的改变还差点意思。
“工业革命发生在生产制造维度上,AIGC更多在设计和时尚维度上,它确实会加速品牌迭代,但想要推动整个产业转型升级,我觉得它还不够。服装的周期长环节多,推动产业转型升级,还得是整个产业的数字化,而不是单一环节的调整。”郑泽宇指出。
“尽管我们希望以后人人都是设计师,消费者在C端通过AIGC设计一件自己喜欢的衣服,然后通过C2M直接生产,但中间还有很多环节没有打通。”王华民认为。
中国服装供应链已经从传统模式走向快反模式。亿邦智库认为,在小单、快反、个性定制等消费新需求驱动下,数字技术重构服装产业生态,倒逼工厂及上下游走向敏捷响应。
不断推广的3D技术、AR制版、虚拟试衣也在不断缩短设计师的时间,提高产业链反应速度。

图源:亿邦智库 
供应链的数字化似乎超出了AIGC的范畴,但郑泽宇认为,从设计师切入是牵引供应链升级的很好抓手,“设计定了,供应链、工艺、面料这些东西才能定。掌控了设计,就有对后端供应链的引导力。”

如何从设计出发,牵引供应链变革?郑泽宇认为,数据打通和流转仍然是核心问题——服装行业的数据极度分散,掌握在不同参与者手上,几乎不共享也不传递,这是服装行业数字化的瓶颈。对整个产业变革来说,数据打通是更急迫和更瓶颈的那个环节。


阻力是多方面的。“首先,大家不想要被打通的动力要远远大于打通的动力。”有从业者指出,“毕竟,一个工厂也不愿意告诉你产能是多少,如果告诉你,你就不会派超过我产能的订单;面料厂也不愿意把最新款出上传平台,防止抄袭。所以其中有很多的阻力。”
其次,有些环节的工艺始终难以数字化。比如面料环节很多企业没有ERP,更不用提数字化。有服装品牌负责人告诉亿邦动力,“目前设计和生产的快反可以实现,但在面料环节,还是得提前备货,还是传统方式,因为面料涉及物理和化学等过程,还没有太强的快反能力,这个问题短期内也无法解决。”
究其根源,服装行业庞大而分散——这个行业是就业大户,能提供约3亿的就业岗位,但企业分散度极高,品牌存活周期平均不超过一年。“大家都生存在一个高度不确定的环境下,都有很强的危机感。”郑泽宇认为。


在这一背景下,如何实现服装从设计、生产、销售的局部协作与闭环?郑泽宇指出,SheIn做了一个好示范——从订单的维度去打通整个产业链。SheIn可以给工厂提供稳定的订单,工厂可以安心出货;SheIn会把面料提前给到工厂,品牌也可以放心合作。
设计与生产打通的好处也立竿见影,从设计草稿到打版到下大货,如果品牌内部流程快,2~3天可以实现下大货。


目前,知衣科技也在进行这样的数字化协作——从设计师构思开始,设计师选款时看了哪些图,选到哪个款,用了哪个供应商,用了哪些面料,谁来打版,线稿展样板图是什么样子,在哪个展厅,存放了多久,哪些品牌借出,最后谁下了单,下了多少订单,被分发到哪一个工厂,什么时候面料到仓,什么时候开始生产,什么时候出厂,工厂如何交付,这些所有流程都能用数据串联起来。一个设计师的款式,从设计到交付,全流程一两个月内完成。
在这个局部的产业链协同中,前端是数字化设计,中间是数字化款式匹配,后端是数字化供应链平台,“只有在这种协同下,才可以将AIGC的效率优势发挥出来。我们距离人人都可以当设计师的时间,才会越来越近。”郑泽宇认为。
对于AI技术的迅猛发展,您的职业有危机感吗?您认为它真的可以取代设计师,版师,模特……吗?欢迎留言分享。

人工智能落地应用AIGC交流会

AI技术的浪潮已经席卷全球,越来越多的企业都在探索其领域与AI技术的深度融合,AIGC将企业数字化的步伐推进了一大步,被不少企业家认为是未来提升企业核心竞争力的必经之路。

人工智能落地应用AIGC交流会正是基于此而诞生,主要探索AI在各行各业的落地化应用,并提供各种大模型训练技术支持,帮助企业快速落地AI的应用。

目前已有的AIGC落地方案:

1、AI大模型+企业知识库训练,本地部署,安全性高,全面提高企业对外服务和对内学习的效率

2、AI真人视频,10分钟的视频就可以还原一个真实的你!主要用于短视频、直播方案

3、AI真人音频,10分钟的声音就可以还原你的声音!主要用于音频直播、妈妈讲故事!

4、AI课件,一个PPT加一段10分钟的声音,就可以自动生成你的AI课件!

5、机器视觉:主要服务于工厂制造业,用于半成品和成品的外观缺陷检测、产品定位等;

6、更多AIGC方案,等你来发掘!

AI为企业发展带来了全新的挑战,也为企业转型升级带来了史无前例的机遇!错过AI,错过未来!

本次活动将邀请到各行业老板、智能AI技术专家等行业大咖进行交流探讨,从电商、软件、教育等不同领域的视角和维度,分享关于AI的前沿新技术、商业洞察、研究成功和事件经验,一起探索AI技术对企业带来的机遇与挑战。

活动主题:人工智能落地应用AIGC交流会

活动时间:2023-07-22 14:00-16:30

活动地点:深圳福田区八卦四路华晟达大厦B座413

活动流程:

14:00-14:30 参会人员签到入场,主办方介绍;

14:30-16:00 参会人员自我介绍

16:00-16:30 自由交流、资源深度对接、进群线上交流

报名后请加微信:c1011709 ,审核后进群!

吹上天的AIGC,就业情况到底如何

【导读】猎聘大数据研究院重磅发布《AIGC就业趋势大数据报告2023》,招聘平均年薪已达40万,博士需求量同比增长超100%。

不用赘述,大家都知道,最近半年ChatGPT是有多么火爆。随着ChatGPT的全球爆火,AIGC也已成功从科技领域破圈,成为跨越所有圈层的全民话题。AIGC对图文、视频创作的颠覆,对相关行业已经产生了深远影响,各种预测层出不穷。而在众说纷纭的讨论中,计算机/AI等相关专业也成了高考志愿的热点。

就在最近,猎聘大数据研究院重磅发布了最新的《AIGC就业趋势大数据报告2023》。

报告针对AIGC领域的就业机会、薪资状况、人才储备和投递情况进行全面分析,并结合相关专家访谈,揭示进入AIGC领域必备的技能和素质。

一、AIGC人才需求分析

1. 2023一季度AIGC人才需求是三年前同期的5.6倍,而AI不到2倍

猎聘大数据研究院将2020一季度AIGC和AI的新发职位数作为基数,将从该季度至2023一季度期间各季度两个领域的新发职位数与各自的基数相除,从而观察它们的人才需求增长趋势。

对比发现,2020一季度至2021年一季度,AIGC和AI的职位增长不相上下。

此后,AIGC总体处于持续增长态势,2023一季度其新发职位数是2020一季度的5.63倍。

相比之下,AI新发职位数增速相对放缓,是2020一季度的1.95倍。

2. 近一年AIGC新发职位同比增长超43%,招聘平均年薪超40万

近一年(2022年6月-2023年5月)AIGC的新发职位增长较为显著,较上年(2021年6月-2022年5月)增长43.66%。

而近一年AIGC新发职位招聘平均年薪为40.12万,比同期AI的招聘平均年薪(为32.03万)高8.09万。

3. AIGC就业机会方向分析

1)近5成AIGC职位分布在互联网行业,招聘平均年薪为43万

近一年AIGC职位分布最多的三大行业是IT/互联网/游戏、汽车、电子/通信/半导体,占比为49.13%、17.59%、6.63%;其对应的招聘平均年薪为43.23万、34.65万、42.83万。

2)科研技术/商务服务行业AIGC职位同比增长最快,增速超200%

从近一年AIGC新发职位同比增长最快的三大行业来看,科研技术/商务服务行业的AIGC职位增长居首,为211.86%。

科研技术/商务服务的根基在于研发、服务的质量,而AIGC为其提供了更为有效、便捷的路径。

能源/化工/环保、IT/互联网/游戏行业AIGC的职位同比增长位居第二、第三,为120.99%、61.88%。

这三个行业AIGC职位招聘平均年薪较高,分别为50.35万、33.76万、43.23万。

3)AIGC领域算法工程师需求最大,招聘平均年薪达45万

从近一年AIGC新发职位三级热招职能分布TOP10来看,位居前三的是算法工程师、自然语言处理(NLP)、产品经理,占比为14.67%、7.37%、5.40%。

在这TOP10职能中,招聘平均年薪最高的是图像算法,为55.62万;深度学习、自然语言处理(NLP)、机器视觉、机器学习的招聘平均年薪均超50万;算法工程师位居第六,为45.05万。

这十大职能招聘薪资普遍较高,尤其技术类职能更具优势,这与AIGC正值风口、进入门槛高而人才稀缺密切相关。

4) 京沪AIGC职位最多,北京AIGC职位招聘平均年薪超47万居首

在近一年AIGC新发职位城市分布TOP10中,北京、上海职位最多,占比位居第一、第二,为22.21%、20.37%。

深圳、杭州位居第三、第四,占比为11.75%、10.15%。广州、苏州以3.90%、3.84%的占比位居第五、第六。

在这TOP10城市的招聘平均年薪方面,北京、深圳、南京、上海位居前四,分别为47.19万、46.35万、43.06万、42.74万。

杭州、广州以39.44万、37.50万的招聘平均年薪位居第五、第六。

出门问问创始人兼CEO、前Google总部科学家李志飞表示,AIGC工具属性重构了知识创作类内容的工作流,并为AI行业带来了全新的可能性和商业模式,而对于内容制作的降本提效则为规模化生产构建市场增量。

二、AIGC招人门槛分析

1. 要求3-5年经验的职位占比超36%,5-10年经验的人才需求同比超70%

从近一年AIGC新发职位对工作经验的要求分布来看,3-5年工作经验的职位最多,占比36.23%;其次是5-10年工作经验,占比23.29%。

AIGC对5-10年的人才需求增长最快,近一年同比增长70.75%;3-5年经验的AIGC人才需求增速位居第二,同比增长57.61%。

可见,AIGC招聘方更青睐有一定工作经验的从业者。

2. AIGC对高学历人才更为渴求,博士人才需求同比增长超100%

近一年,AIGC和AI新发职位对本科人才需求占比为70.80%、70.43%。

在对高学历需求方面,AIGC明显高于AI,前者对硕博的需求占比合计21.56%;后者为14.24%。

AIGC对博士人才更为渴求,其需求在各学历中增长最快,近一年同比增长108.11%。

3. AIGC企业感兴趣的人才分析

1)AIGC企业最有好感的职能:算法工程师

在近一年AIGC相关企业主动沟通的人才三级职能分布TOP10中,算法工程师以10.83%的占比领先。

产品经理位居第二,占比3.37%;自然语言处理(NLP)、智能网联工程师排名第三、第四,占比为2.38%、2.16%。

可见,算法工程师最受AIGC企业青睐。

2)AIGC企业对科技大厂人才最有兴趣,触达的人数中以华为背景的居首

从近一年AIGC企业主动沟通的人才来源公司分布TOP5来看,华为位居第一。

位居第二至第五是百度、腾讯、字节跳动、美团。

4. 进入AIGC需要的硬技术和软能力

据李志飞介绍,进入AIGC需要具备的硬性技能包括:

– 熟悉机器学习和深度学习的基本原理和算法;

– 了解自然语言处理的基本概念和技术,包括文本分析、文本生成等;

– 具备良好的数据处理和数据分析能力,包括数据清洗、特征工程等;

– 具备良好的编程能力,熟练使用Python、Java、C++等编程语言,以及良好的软件工程能力,包括版本控制、代码规范、测试和调试等;

– 能够不断探索新的技术和应用的创新思维;

– 以及解决问题、沟通和团队协作的能力。

三、AIGC人才储备分析

1. 近一年AIGC领域25岁以下人才同比增长最多,超60%

近一年AIGC整体人才同比增长为19.53%。

分年龄段来看,30岁以下人才占比从此前的31.64%增加到35.61%,数量较上年增长了31.70%。

其中,25岁以下的人才数量上同比增长61.90%,在各年龄段中增长最多;25-30岁的人才数量上较上年增长了27.62%。可见,AIGC的人才中年轻人有明显增多趋势。

尽管如此,30-35岁的人才仍然占比最多,为35.77%。

2. AIGC人才学历背景优于AI,硕博占比近45%

在近一年AIGC人才学历分布中,本科占比最多,为48.49%。硕士、博士占比分别为42.20%,2.79%,合计44.99%。

而AI人才中本科占比为54.09%,硕博占比合计23.90%(硕士22.32%,博士1.58%),远远低于AIGC。

3. 京沪AIGC人才最多,合计近50%

在近一年AIGC人才城市分布TOP10中,北京、上海位居前二,占比为26.01%、23.34%,合计为49.35%。

深圳位居第三,占比为11.90%。杭州、广州以5.78%、5.27%的占比位居第四、第五。

杭州是互联网重镇,又是好几个互联网大厂的总部,同时还有不少AI相关企业,因而AIGC人才储备相对较多。

4. AIGC人才高学历、资深从业者薪资更高

1)AIGC人才平均年薪超40万,博士平均年薪超75万

近一年AIGC人才平均年薪为40.12万元,比AI(27.93万)高12.19万元。

AIGC人才的薪资与其学历的高低成正比,大专、本科、硕士、博士学历平均年薪逐级升高,分别为25.11万、35.82万、44.33万、75.86万。

2)AIGC人才满15年经验后薪资迎来大爆发,平均年薪超67万

AIGC人才薪资与从业经验呈水涨船高的态势。5年以下的AIGC人才平均年薪不足26万。

5-8年突破30万大关,达到32.77万;10-15年经验的AIGC人才平均年薪逼近50万,为49.03万。

15年以上的AIGC人才平均年薪高达67.41万。从这点而言,经验就是财富。

5. AIGC人才来源分析

1)来自互联网行业的人才占比居首,互联网大厂人才比重较高

从近一年AIGC人才上份工作所在的二级行业分布TOP10来看,来自互联网行业的人才最多,占比12.67%;计算机软件和整车制造位居第二、第三,占比为9.78%、9.47%。

AIGC人才上份工作所在的公司TOP5依次是字节跳动、华为、阿里巴巴、百度、腾讯,与AIGC企业主动沟通的人才公司分布TOP5有四家重合,这进一步印证了具备高科技大厂的从业经历更易进入AIGC领域。

2)上份工作从事产品经理和算法工程师的人最多

从近一年AIGC人才上份工作的三级职能分布TOP10来看,产品经理和算法工程师位居前二,占比为6.91%、5.35%。其他职能的占比均小于5%。

对此李志飞表示,由于AIGC对人才的需求越来越多元化。除了需要传统的计算机科学和数据科学方面的人才,AIGC还需要具备AI模型优化、自然语言处理、机器人操作系统等方面知识和经验的专业人才。

四、投递AIGC的人才求职行为分析

1. 近一年投递AIGC的人才同比增长超270%,是投递AI人数增速的13倍

由于AIGC在全球范围内升温,投递该领域的人才呈激增态势,投递人数增速远超AI。

猎聘大数据显示,近一年投递AIGC的人才同比增长274.73%,其增速是同期投递AI人数增速(21.09%)的13倍。

2. 投递AIGC领域自然语言处理和产品经理的人最多,占比合计近20%

从近一年AIGC收到投递人数最多的三级职能分布TOP10来看,位居前三的职能为自然语言处理(NLP)、产品经理、算法工程师,占比为9.35%、9.30%、8.15%。

值得注意的是,内容运营和新媒体运营也跻身TOP10之列。

从显性影响上来看,AIGC对于内容和新媒体的帮助较大,因而相关岗位对求职者而言较有吸引力。

比如说新智元的编辑岗,就正在招人的。

3. 求职AIGC的人才所投递的公司:互联网与人工智能公司占据大半江山

在近一年投递发布AIGC职位的公司的人数分布TOP10中,互联网大厂占据四席,其中百度、阿里、字节跳动、腾讯分别位居第二、第五、第六、第八。

其中,计算机硬件公司鸿合科技位居第一;AI公司商汤科技、聆心智能及AI机构粤港澳大湾区数字经济研究院(福田)位居第三、第七、第十;互联网公司昆仑万维位居第四。

制造业公司三一集团位居第九。由此可见,求职者投递AIGC职位的人数集中于互联网和人工智能类公司。

在AIGC强大的技术威力面前,不少职场人对如何保住「饭碗」而深深担忧。

李志飞指出,AIGC最容易替代的职业有两类,一类是在电脑上即可完成工作闭环,并且工作内容存在大量重复环节的职业,如基础美工/设计;另一类是易于标准化的职业,如采用固定话术的客服、营销文案等。

而最不易被取代的是那些需要面对面互动和依靠身体技能的职业,如泥水匠、电工、机械师等手艺人,以及美发师、厨师、医生和护士等服务人员。

李志飞建议职场人应有意识地培养AIGC难以取代的技能,比如创新思维、解决复杂问题的能力以及人际交往等技巧。

ChatGPT火了,但学校里教的和它关系不大

无独有偶,前段时间登上知乎热搜一个问题,也体现出AIGC领域对学历要求的进一步提升——大模型都火成啥样了,学AI的还能找不着工作?

对此,一位知友一语中的地点出了原因:我学的是手动织布,结果现在珍妮纺织机火了……

ChatGPT的核心技术「Transformer」2017年论文问世,而今年毕业的人工智能专业的本科生,则是2019年入的学。

国内高校的人工智能专业的课程和计算机专业的课程设置又十分类似。

大一,几乎所有的人工智能专业学生都会学习基础的编程语言,到了大二开始接触网页设计、前端、数据结构等课程。

直到大三才开始接触神经网络、深度学习、智能语音、图像识别这类有人工智能专业「烙印」的课程。

很大概率和「Transformer」相关的内容可能根本就没有机会学到。

所以影响AI专业本科生就业的最大问题在于,学校学的内容和行业要求的实际能力脱节太严重。

而且,这种脱节还体现在人工智能企业同样招不到好用的员工上。

教育的滞后性被放大,导致了严重的产学脱钩。

现在的很多岗位,要的是熟练掌握编程、数据结构与算法、高数线代概率论、编译原理、机器学习、深度学习……的人才,综合素质要求极高。

另一方面,人工智能行业今年的爆发式发展,是由一批高端技术人才带来的。

而行业本身现在的发展阶段,急缺高端技术人才。

本科生的知识储备和实践经验,都很难达到行业对于人才的要求。

行业技术发展本就是一日千里,本科生大部分时间学习的内容,可能还没学懂呢,就已经没用了。

而且人工智能和互联网不一样,赢家通吃的模式对技术和人才都要求更高,反而不太需要很多基础岗位的劳动力。

这就导致了学历不占优势的本科毕业生处于「高不成低不就」的尴尬位置。

来源:公众号《啥都会一点的研究生

阿里云推出文本生成图片大模型——通义万相

在2023世界人工智能大会上,大模型成为绝对焦点,有30多个大模型团队集体亮相,不少通用和行业垂直模型都是首次登场。7月7日,在上海召开的2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测。(官方网址:https://wanxiang.aliyun.com/)

据介绍,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。

记者了解到,通义万相首批上线三大能力:

其一,基础文生图功能,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;

其二,相似图片生成功能,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;

其三,在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。

先看功能一,记者特意写了很长的文字描述,有61个字,系统显示可读字数达到500字。底下可以选择画风以及画面比例。

可以看到,生成结果包含四张图,对选择困难症患者还是……很友好的?

除了画面主人公姿态的变换,在宠物的数量、宠物与人大小对比等方面,通义万相给出了不同答案。你也可以选择“复用创意”,微调文本或选择生成其他画风。

记者给出的第二题,是看看杭州西湖——

“雨后夏天的杭州西湖,湖面微风飘过、水波荡漾,游船游人如织,画面采用新海诚风格或者油画风。”

看起来,核心要素都体现了,就是画面风格还是自己选更靠谱。

下一题,“各色奥特曼环成一圈,举手欢呼的场景”。

这道题,以前记者也测试过百度的文心一言,结果很离谱。通义万相的理解相对接近,虽然和记者脑补图不是一回事,但初次测试表现来看还算是很出彩。

通过语义文字的不断细化、调整,还可以让画风更接近心目中的理想型。

素描风(通义万相)

3D卡通风(通义万相)

最后一题,“城市核心商业区的摩天大楼,仰视视角,二次元风。”

无论是哪个大模型,都需要在不断地学习和训练中“变强”。据悉,基于阿里研发的组合式生成模型Composer,通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。

作为业内最早布局大模型的科技公司之一,在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相。此后,通义千问、通义听悟等模型和产品相继推出,家族新成员通义万相的亮相,意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。

阿里云方面的数据显示,目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。

在大会演讲中,阿里云CTO周靖人表示:“阿里云将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。”

“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。

本文来源浙江日报,如有侵权请联系删除

华为盘古大模型3.0正式发布,重塑千行百业!

近日,华为召开了2023开发者大会,在本次大会上华为云 CEO 张平安宣布,盘古大模型 3.0 正式发布。华为盘古大模型 3.0 是一个完全面向行业的大模型系列,包括 5+N+X 三层架构。

具体来说:

第一层 L0 层是盘古的 5 个基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,它们提供满足行业场景的多种技能。

盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 亿参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。

第二层 L1 层是 N 个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的 L0 和 L1 上,为客户训练自己的专有大模型。

第三层 L2 层是为客户提供更多细化场景的模型,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。

盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。

在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

据介绍,盘古可以一己之力做到网络搜索、请教专家、参考案例、查阅书籍等,让每个开发者都拥有一个自己的编程助手,甚至还可以实现一句对话代码生成、一个按键用例测试、一次点击自动注释、一条指令智能部署,极大地简化了开发的流程。

在气象领域,盘古气象大模型号称是首个精度超过传统数值预报方法的 AI 预测模型,同时预测速度也有大幅提升。原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台服务器上单卡配置,10 秒内就可以获得更精确的预测结果。

目前,盘古气象大模型在国际上带来了不小的震撼。欧洲中期预报中心将华为云盘古气象大模型与欧洲中期天气预报中心的实时运行了对比,得出了盘古预报实力更胜一筹的结论。就在昨天,国际顶级学术期刊《自然》正刊发表了华为云盘古大模型研发团队独立研究成果。这是中国科技公司首篇作为唯一完成单位发表的《自然》正刊论文,《自然》审稿人对该成果给予高度评价:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”

总的来说,盘古大模型 3.0 围绕“行业重塑,技术扎根,开放同飞”三大方向,持续打造自己的核心竞争力。此外,华为还首次提出打造“世界AI另一极”,在漂亮国围堵中国AI芯片背景下,华为喊出“打造世界AI另一极”,有望成为世界AI的另一极

AI科技资讯周刊:AI助手竞争激烈!Google计划超越GPT-4

Google对于ChatGPT的成功感到不满,因此计划推出自己的聊天机器人Bard,并整合AI资源,合并Google Brain和DeepMind两个研究团队,创建Google DeepMind。DeepMind的原CEO Demis Hassabis表示,Google有80%或90%的AI创新来自这两个团队。

ChatGPT 的大火,可把 Google 急坏了。

要知道 ChatGPT 中的「T」表示的是 Transformer 模型,出自于 Google 研究团队,而现在这一技术在竞争对手 OpenAI 的手上发光发热,这令 Google 颇感尴尬。

为应对这一挑战,Google 迅速推出了自己的聊天机器人 Bard,并且开始整合 AI 资源,合并了两大研究团队 Google Brain 和 DeepMind,创建了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 领导。

Hassabis 表示 Google 有 80% 或 90% 的 AI 创新都出自于这两个团队。

在 上个月的 Google I/O 大会上,Google CEO Sundar Pichai 官宣了一个重磅消息:Google DeepMind 正在研究一个全新的大语言模型,代号为 Gemini(双子座),这也是这两只团队合并后首次合作的项目。

近日,Demis Hassabis 在接受 Wired 的采访了透露了更多与 Gemini 有关的消息,这可能是 Google 向 OpenAI 反击的关键战役。

正在追赶的 Google

此前大家猜测,Gemini 和 GPT 模型类似,都是有着出色文本处理能力的大语言模型,两者的差异可能会体现在训练参数的规模上,模型规模越大,处理能力可能就会越强。

然而 Hassabis 表示,Gemini 有很多不太一样地方,例如 Google DeepMind 团队正在将 AlphaGo 中使用的技术结合语言模型,以赋予更强的规划或解决问题能力等等。这可能会成为 Gemini 的「杀手锏」技能。

抽象来看,你可以将 Gemini 看作是将 AlphaGo 型系统的一些优点与大模型的语言能力相结合。我们还有一些新的创新,这将非常有趣。

2016 年,横空出世的 AlphaGo 击败了围棋冠军李世石,让全世界第一次真切地感受到 AI 技术的震撼。

AlphaGo 的技术基于一种名为「强化学习」的训练方法,通过反复试验和反馈来学习如何解决问题,它还使用了一种称为树搜索的方法,探索并记住可能的走法。

Google DeepMind 团队希望将这些技术应用到语言模型中,使它们能够在互联网和计算机上执行更多任务。

DeepMind 在机器学习和强化学习有着丰富的经验,开展过多项重要的研究,包括:

AlphaGo:第一个击败人类世界冠军的围棋程序。AlphaGo 的成功标志着 AI 在处理复杂策略游戏方面的重大突破。

AlphaZero:AlphaZero 是一个通用的强化学习算法,可以在没有任何先验知识的情况下,仅通过自我对弈学习如何玩棋类游戏。AlphaZero 已经证明了其在国际象棋、将棋和围棋等游戏中的超强实力。

AlphaFold:AlphaFold 是一个可以预测蛋白质结构的深度学习系统。这个系统的准确性在生物学领域引起了广泛关注,因为它可以帮助科学家更好地理解疾病,并加速药物的发现和开发。

WaveNet:WaveNet 是一个深度生成模型,用于生成自然 sounding 的语音。它已经被广泛应用于语音合成和音乐生成等领域。

MuZero:MuZero 是一个无模型强化学习算法,它可以在没有环境模型的情况下,通过预测其动作的结果来学习策略和价值函数。MuZero 已经在多个任务和游戏中表现出了超强的性能。

DeepMind 在强化学习方面的深厚经验可能会为 Gemini 带来超越 ChatGPT 的新能力。

Hassabis 表示,Gemini 模型仍在开发中,这个过程将需要几个月的时间,可能花费数千万或者上亿美元。作为对比 OpenAI CEO Sam Altman 在四月份表示,创建 GPT-4 的成本超过了 1 亿美元。

Gemini 不仅仅是对 ChatGPT 做出的防御之举,还将是 Google 未来部署搜索等产品的技术基础。

Hassabis 表示,AI 的非凡潜在益处,例如健康或气候等领域的科学发,人类必须不停地发展这项技术。如果运用恰当的话,AI 将是对人类最有益的技术。

我们必须大胆且勇敢地去追求那些东西。

Google 不为人知的「护城河」

在 AI 研究方面,Google 还有一张盖住的王牌——全球最大的视频网站 YouTube。

视频是个非常多元的内容载体,我们可以把它分解成图像、音频和文字记录。Google 拥有 YouTube,也就意味着拥有最丰富的图像、音频训练内容。

根据 The information 报道,有内部人士透露 OpenAI 早已经悄悄地使用 YouTube 上的内容来训练其人工智能模型。

Google 自然不会忽视这座「金山」,The Information 继续爆料称 Google 的研究团队也在利用 YouTube 训练 Gemini 模型,并且 Google 能够比竞争对手们获得更完整的内容数据。

对于大语言模型来说,高质量的训练数据比黄金还要宝贵。

由于 YouTube 很多都是真实的对话,Google 可以利用 YouTube 视频的音频文本或描述作为训练 Gemini 的另一个文本来源,从而提高它的语言理解能力,并产生更加真实的对话反馈。

利用 YouTube 的视频内容,Google 还可以开发出类似于 Runway 用文本生成视频的多模态功能,用户只需要输入他们的描述就能生成出一条精美的视频。

除了制作视频,多模态模型还可以有更多的可能性,例如可以根据 YouTube 视频直接总结出球赛的亮点,或者根据视频帮助机械师诊断汽车修理问题。

OpenAI 在发布 GPT-4 模型时,曾展示过从草图生成网站代码的功能,这也是多模态模型的一个重要应用领域。

前 YouTube 高管 Shishir Mehrotra 表示,对 Google 来说,YouTube 视频简直就是一座数据金矿。

这不仅仅是因为视频的存在,而是因为视频存在于一个生态系统中。

YouTube 上的视频向 AI 展现了了人类是如何进行对话,这和书面化的文本有很大的不同,可以帮助模型更好的理解人类对话的逻辑,并生成更恰当的反馈。

不仅如此,Google 还收集大量的用户互动数据,清楚用户对视频的那些部分最感兴趣、哪些部分容易跳出、哪些内容会吸引用户评论等等。

据统计,YouTube 每分钟就有 500 小时的视频上传到网站上,Google 可以说是坐在了一座会源源不断生产金子的金山上,这或许会成为 Google 真正的护城河。

多模态才是未来

随着多模态模型越来越受到重视,未来会有更多的开发人员选择用视频训练语言模型。AI 教父、Meta AI 首席研究员 Yann LeCun 在近日一条推文中称:「通过视觉学习世界如何运转的系统,将对现实有更深刻的理解」,并称赞了 Meta 在这一领域的研究成果。

著名风投机构 A16Z 在最近采访了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和创始人,探讨出生成式 AI 当前最需要突破的四个方向,分别是操控、记忆、四肢(访问浏览器等)和多模态。

这四项关键关键创新将主导 AI 在未来 6 个月到 12 个月的发展,这也会影响公司和开发者改变构建产品的方式。

Cohere 的 CEO Aidan Gomez(著名论文《Attention is all you need》的主要作者之一)表示,AI 系统的能力终究是有限的,因为并非所有的内容都是文本形式,因此多模态能力对于大语言模型来说是个重要的发展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等模型已经在处理和生成图像、音频等内容。

我们现在的模型确实是字面意义上的「盲人」,这需要改变。

Aidan Gomez 在采访中总结道。

多模态模型能够极大地拓宽 AI 的应用场景,例如可以用在自动驾驶汽车或其他需要与物理世界实时交互的场景上。此前,Google 在 I/O 大会发布的 Med-PalM-2 模型便展示过可以分析 X 光照片的能力。

这也让人更加期待,更强大的 Gemini 能在多模态领域给我们多大的惊喜。现在看来,暂时取得领先的 OpenAI,远没有到停下来休息的时刻。

微软希望将 Windows 完全迁移到云端,十分看好 Windows 365

IT 之家 6 月 27 日消息,一份新的微软内部演示文档揭示了该公司对于 Windows 的长期目标。

从商业方面的变化大家也能看到,微软正在将越来越多的内容迁移到云端,拓展 Microfoft 365 等服务。

在 2022 年 6 月的一次内部 ” 业务状况 ” 演示中,微软讨论了如何将完整的 Windows 操作系统迁移到云端,并以此串流到任何设备上。

实际上,这份 PPT 是正在联邦贸易委员会目前与诉微软举行的听证会的一部分,因为它包括微软的整体游戏战略以及该战略与公司其他业务的关系。

简单来说,” 将 Windows 11 越来越多地迁移到云端 ” 被微软认为是 ” 现代生活 ” 消费领域中的长期机遇,包括利用 ” 云和客户端的力量,实现改进的人工智能服务,并实现人们数字体验的全面漫游 “。

在另一张 PPT 中,微软提到了为 2022 财年 ” 现代工作 ” 优先事项 ” 加强 Windows 商业价值并应对 Chromebook 威胁 ” 的需要,而 ” 商业方面的长期机会包括通过 Windows 365 增加云 PC 的使用 “。

得益于 Windows 365,微软可以将完整版本的 Windows 串流到任意设备上,但目前仅限于商业客户使用,不过微软已经将其深度集成到 Windows 11 中。

Windows 365 未来的更新将包括 Windows 365 Boot,这可以使 Windows 11 设备在启动时能够直接登录到云 PC 而不是本地 Windows。

今年 5 月,微软已经开始邀请用户测试其 Windows 365 Boot 云服务,所有升级到 Win11 22H2 的设备都可尝试访问这项服务。如图所示,你可以开机直接登录到 Windows 365 Cloud PC。

此外,Windows 365 Switch 也已内置于 Windows 11 中,以将云 PC 集成到 Task View ( 虚拟桌面 ) 功能中。

微软还提出了将消费者端的 Windows 完全迁移到云端的想法,同时也需要投资于定制芯片合作伙伴关系。

据称,微软已经在为其基于 Arm 的 Surface Pro X 设备做一些这方面的工作。

根据外媒 2020 年底的报道,微软正在考虑为服务器设计自己的 Arm 处理器,甚至可能会引入到 Surface 系列设备中。此外,最近还有消息称微软正在开发自己的 AI 芯片。

微软表示 Windows 365 Boot 云服务的初衷是,用户开机之后直接进入云 PC 登录界面,不需要启动其它应用的情况下,立即访问云账号服务。

微软表示不需要其它的步骤就可以访问 Windows 365 Cloud PC,用户登录其账号之后,立即可以使用虚拟桌面。对于需要在多个位置访问某台 PC 的用户来说,这项服务是非常有用的。

微软并未对所有用户开放 Windows 365 Boot,硬性要求如下:

Win11 终端设备(Win11 专业版或者企业版)

需要加入 Dev 频道 Windows Insider 成员

Microsoft Intune Administrator 权限

Windows 365 Cloud PC 许可证

重磅!龙岗区这个产业利好+1

7月6日下午,龙岗区在大运AI小镇举办“开放城市赛道 领跑智能时代”——龙岗区算法训练基地启用仪式暨龙岗区智慧城市产业联盟第一次代表大会

据了解

为深入贯彻落实

《深圳经济特区人工智能产业促进条例》

《深圳市加快推动人工智能

高质量发展高水平应用行动方案》

龙岗区积极探索实践

推出了

“一平台、一基地、一清单、一联盟”

四项具体举措

助力人工智能产业高质量发展

具体如下

↓↓↓

在全市率先搭建全国产架构的AI赋能平台,基于全区超10万路公共视频资源开展全天候智能分析,推动智慧城管、智慧交通、智慧市监等6大领域31个场景的智能化治理应用;

在全市率先搭建算法训练基地,全面开放政府数据、算力和应用场景,鼓励人工智能企业和机构创新创业,已有3家企业参与试用且研发完成20项算法成果,算法平均准确度超90%,比以往算法训练周期压缩约80%;

发布人工智能应用场景需求清单,首批梳理发布了50项人工智能应用场景清单,涵盖政府管理、政务服务、公共服务、城市治理等10大领域,动员科技企业“揭榜挂帅”定向研发,促进人工智能技术落地;

引导区智慧城市产业联盟发挥“桥梁纽带”作用,推动45家会员企业组团协作,促进产业链上下游资源共享,助力相关产业聚集发展。

接下来

龙岗区将以算法训练基地的启用

和智慧城市产业联盟代表大会的召开为契机

进一步推进政府数据、算力

和应用场景的全面开放

为科研机构、高校、科技企业搭建平台

助力创新创业和技术研发

促进人工智能技术应用和产业发展

活动中,区智慧城市产业联盟秘书处还发布了“企业服务贴心秘书、行业交流权威平台”两个方面10项服务新举措,并邀请了区工信部门和人工智能专家现场讲解产业政策和人工智能技术发展应用趋势,获得联盟会员企业一致好评。

2023世界人工智能大会:国产AI大模型加速落地,算力芯片企业争相“秀肌肉”

7月6日,以“智联世界、生成未来”为主题的2023世界人工智能大会(WAIC)在上海世博中心拉开帷幕。展会首日,一位参展人员笑称“不跟大模型沾点边都不好意思来参会”。

今年以来,AI大模型在全球掀起一轮开发热潮,眼下正处于快速应用落地的关键期。《证券日报》记者从现场参展公司获悉,在AI大模型向实际场景落地过程中,算力芯片企业重要性加速凸显。
在此次展会上,登临科技、燧原科技、瀚博半导体、沐曦等多家参展商或推出新品,或带来了产品最新落地成果。
算力芯片企业争相“秀肌肉”
无论从参展企业数量,还是展览面积来看,2023世界人工智能大会均创历届之最。5万平方米的世博主展览馆吸引了超过400家参展企业,首发首展新品达到30余款。值得一提的是,大模型以及为之提供算力支撑的芯片、智能计算企业是一众参展商中的“亮点”。
在展会现场,瀚博半导体、燧原科技、登临科技等国内芯片均利用自家产品演示运行大语言模型、AI绘画、文生PPT等。
高端GPU芯片公司瀚博半导体已连续三年参与世界人工智能大会。此次,瀚博半导体“一口气”发布了包括SG100全功能GPU芯片、LLM大模型AI加速卡以及高性能生成式AI加速卡等6款新品,为AI大模型、图形渲染和高质量内容生产提供完整解决方案。
据公司工作人员向《证券日报》记者介绍,AI大模型和元宇宙需要GPU强大的AI并行算力和图形渲染力支撑,为云端大芯片企业打开了广阔的市场前景。未来,具有并行计算能力的GPU芯片作为大模型计算的“大脑”将为大模型生成学习提供源源不断的算力支撑。
同样作为芯片设计企业,燧原科技在此次展会上发布了文生图MaaS平台服务产品——燧原曜图,能够为用户提供大模型的微调和MaaS服务并提升大模型应用的上线速度和效率。登临科技和天数智芯则“抢先一步”,直接带来了应用落地的实际案例。
记者在登临科技展台注意到,公司此次一并推出了大模型、智算中心、创新应用以及创新硬件四个展区。在大模型展示区域,登临科技特别展示了最新一代创新通用GPU产品-Goldwasser II系列以及基于开源大语言模型可交互界面。
在此次展会上,作为国内首家量产通用GPU企业,天数智芯对外宣布公司天垓100芯片在日前完成百亿级参数大模型训练后,将继续完成更大参数规模的大模型训练。
除通用算力芯片外,基于高性能芯片的AI模型应用也是行业未来“重头戏”。一直以来,汇纳科技通过AI传感器、人工采集、互联网以及AI模型生产四大渠道,为实体商业领域的购物中心、零售品牌等用户以及各级政务提供标准化或定制化的数据支持服务。下一步,公司将基于现有数据底座推动更多企业、政务部门数字化转型。
“人均算力”市场前景广阔
展会上的火热程度仅仅是国内大模型快速发展的一隅。近年来,北京、上海、深圳等多地纷纷出台相关支持举措,开展大模型创新算法及关键技术研究,加强人工智能算力基础设施布局,加速人工智能基础数据供给,从而构筑人工智能创新高地。
按中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%。从短期来看,AI大模型无疑将成为人工智能核心产业发展“新引擎”。
在此次世界人工智能大会上,不少算力芯片参展商较为看好AI大模型发展过程中的国产化机遇。
“大模型应用发展直接将英伟达带入万亿美元市值俱乐部。对于我们国内厂商来说的话,其实也存在一个比较好的发展前景。”上述参展人员向《证券日报》记者表示,未来在算力中心或者其他的细分领域,人工智能的应用必然是一个趋势,至少往后5-7年,相关企业还是会保持比较高速的增长。
不过,区别于海外大模型发展路线,登临科技市场部相关负责人在接受《证券日报》记者采访时表示,“我们认为未来中国大模型的发展跟海外是不一样的。海外是主要是面向C端,比如亚马逊、谷歌、OpenAI这些,那么中国会有很多公司主要做B端,像在医疗、国央企的应用。因此,整体解决方案的性能、功能和性价比格外重要。”
面对AI大模型对于底层算力需求与日俱增,天数智芯董事长兼CEO盖鲁江向《证券日报》记者表示,大家现在能看到很多从事大模型开发的企业,少的需要百亿参数,多的需要几千亿参数,所以未来对算力的需求一定是越来越多。用同行的话来说,未来应该是按人均算力,即每天需要消耗多少算力,就像现在计算每天人均消耗多少电量一样。
多家券商在近期研报中表示,大模型催生算力需求,AI产业需求持续爆发。国内大模型自研AI大模型进入“百花齐放”阶段,大模型的涌现开启了算力“军备赛”。同时,大模型参数呈现指数规模,进一步引爆海量算力需求。随着国内外科技企业持续对AI大模型领域的投入,AI产业相关的芯片产业链将有望迎来快速发展。

上下游的“冰与火”:AI拐点在哪?

近期,年内持续火爆的AI行情短期熄火,截至7月5日,软件开发板块10个交易日遭资金净流出超过240亿元,文化传媒、游戏、计算机设备等行业板块净流出资金也均超过百亿元。

除了二级市场,AI上下游产业链也出现了微妙的偏差,上游硬件持续火爆,光模块、HBM等依旧有大批企业“抢滩”,而游戏等AIGC应用端却有走冷趋势。目前一个整体判断的是,人工智能行业正在渡过一个关键的发展瓶颈——即技术实力何时能够全面转化为商业红利?

01上游火热:企业抢滩算力、存力、运力

AI的快速发展一直受限于算力(信息计算能力),但是拥有先进芯片并不意味着拥有更高的算力,单个AI服务器的算力有限,亟需通过高性能网络连接多个AI服务器和存储系统,构建大规模计算集群。

存力(数据存储能力)、运力(网络运载能力)两大概念也应运而生。

中国工程院院士倪光南提出了广义算力和存算比两个概念:广义算力=存力+算力+运力,存算比=存力/算力。经测算,我国的存算比为0.42TB/GFLOPS,表明存力相对不足,存在重算力、轻存力的倾向。

为了在AI浪潮中占据一席之地,算力里的CPO、存力里的HBM成了企业“抢滩”重点。

首先是算力方向。

AI算力的需求对光模块的需求带来较大增长,据悉,AI服务器所用的A100、H100等GPU,需用200G以上的高速率光模块8—10个/片。AI算力建设与云计算需求共振,800G光模块开启规模量产新周期,800G 大客户需求指引有望持续超预期,光模块龙头厂商持续产能扩张以应对高涨需求。

自3月以来,北美厂商已经多次追加800G光模块订单,追加频率及数量超市场预期。根据国金证券研报,目前英伟达等海外几大巨头给到800G光模块供应商的预期2024年已上升至1000万只,光模块厂商正在大力扩产,以应对爆发时需求增长。中际旭创近日也在互动平台回复称,公司用于AI场景的800G光模块正在持续出货和取得收入。

其次是存力方向。

高带宽存储器(HBM)正成为AI时代的“新宠”。HBM是一种基于3D堆叠工艺的DRAM内存芯片,具有更高带宽、更低功耗、更小尺寸等优点。它突破了内存内容与宽带瓶颈,能为GPU提供更快的并行数据处理速度,被视为GPU存储单元的理想解决方案。

近来,继英伟达之后,全球多个科技巨头都在竞购SK海力士的第五代高带宽存储器HBM3E。据证券日报消息,半导体行业内部人士称,各大科技巨头已经在向SK海力士请求获取HBM3E样本,包括AMD、微软和亚马逊等。申请样本是下单前的必要程序,目的是厘清存储器与客户的GPU、IC或云端系统是否兼容。此举意味着,HBM3E良率已经很稳定、能够大量生产,已来到交货前的最后阶段。

对于AI上游硬件的后续发展,天风证券认为,AI硬件投入将继续保持强劲的发展势头。服务器部署反映算力需求,大部分公司有服务器扩张计划。不同公司在计算资源的使用量、成本和供应商选择上存在差异,反映出它们在AI技术发展上的投入和战略规划。

02下游冰冷:AIGC遭应用端抵制?

与上游正相反,AI下游应用端似乎有“结冰”趋势。

首先是此轮AI行情的导火索——ChatGPT,其访问量正在下滑。

据证券日报消息,网络分析公司Similarweb统计数据显示,2023年前5个月,ChatGPT全球访问量环比增幅分别为131.6%、62.5%、55.8%、12.6%、2.8%,增长幅度明显下降;6月份ChatGPT的访问量环比下滑9.7%,为其推出以来首次。市场认为,(通用AI大模型)产业泡沫化风险在一定程度上已经出现。

其次是被视为AI将最先落地的应用端——游戏领域,出现了抵制AI的事件。

据南方都市报消息,游戏平台Steam的母公司valve在审核游戏时,拒绝了一部使用AI生成内容的游戏。valve表示,由于AI生成内容的版权归属不清楚,他们无法发布这些游戏,除非开发者能证明他们拥有用于训练AI的数据的权利。

目前,AI技术在游戏开发中已经广泛应用,比如用来生成地形、角色、音效等。一些大型游戏公司,如育碧、EA等,也都在积极探索AI技术在游戏中的可能性。然而,AI技术也带来了一些版权和伦理上的挑战和争议——AI生成,是否是创新的,是否是真实的?

事实上,上述两件事,恰恰证明了AI在应用端的同质化问题,短时间内可以引发使用者的兴趣,但缺乏能留存用户的实用性和创新性,这也是近期AI大模型热议的要重视“垂直化”和“行业验证”。

从当前产业发展情况来看,AI应用层依旧处于初级阶段。简单来说,就是广度够了,类似当年的互联网,AI可以在各行各业都沾点边,但缺少深度,主要局限于文字、图片或视频的生成,信息的真实性也难以保证。这主要受制于四方面:

一是技术问题,AI技术需要涉及到机器学习、深度学习、自然语言处理等多个领域,技术成熟度尚未达到预期,很多应用场景仍然需要更多的研究和开发。

二是数据问题,AI落地是一个知易行难的过程,AI模型想实现应用,需要大量、统一、标准、高质量的数据来进行训练,数据的广度、深度、安全性等问题都需要重视。

三是硬件问题,更智能的AI需要更高的计算能力,正如前文所属,当前AI上游硬件端还处于发展阶段,算力、存力、运力都亟待提升,否则难以支撑商业落地。

四是交流问题,在大部分的场景下,都是工程师、科学家讲一套语言,而业务负责人讲另外一套语言,AI产业链上下游战线过长,供应端与应用端尚未形成良性交流,这种状态进一步导致了AI的落地难。

03AI商业化拐点何时到来?

往后看,AI上下游的“错配”还会持续多久?商业化拐点何时能够出现?

其一,要看从技术能力到场景应用的转化,何时实现通用化、适配化、量产化、规模化。如果服务的每一个客户,都需要为其单独定制解决方案,就意味着商业模式没跑通,不能实现边际成本的持续走低。

其二,单位成本和效率能否持续优化?AI对于各个行业最直接的意义,当然是“降本增效”,市场认为,AI对游戏、传媒等领域的效率提升有望达10倍。但如今AI硬件和软件成本依旧高昂,在上游产业化有实质进展前,“降本增效”仍然只是空谈。

其三,相关法律法规的落地。归根结底,人工智能技术其实取决于两大变量,一是算法,二是数据。而市场对数据安全的担忧,正是制约AI进化的原因之一。随着AI相关法规进一步完善,商业化落地才有了基础。

当然,AI的红利是清晰可见的,它可以与各行各业相结合,但到底是“AI产业化”还是“产业AI化”还待定论。总体而言,AI发展的方向是有的——自动驾驶技术就是AI在汽车领域的一种极致演绎,但走向成熟的道路必然艰难。在未来商业化的求解上,各大企业也势必要经历一番波折。归根结底,AI已是时代风向,与时代为友,就需要给予更大的耐心,才有机会享受时代的红利。

04二级市场的AI热度到头了?

从二级市场来看,今年以来,AI概念股走出一波大行情,几只大牛股被炒出“天价”。股价炒得过高的一个基础也在于,新模式、新技术的估值方式还没有共识。新的题材,尤其是尚未能落到商业化、收入层面的技术突破,它的估值不适用传统的市盈率、市净率等方式,如何给这些概念股估值,市场还在摸索中,形成共识需要时间。

事实上,每种新技术都有一个成熟度曲线,其发展可以分为5个阶段,即技术萌芽期、期望膨胀期、泡沫破裂低谷期、稳定成长期和成熟期。

在不同发展阶段,市场具有不同的期望,例如“技术萌芽期”的期望值随时间逐步提升,在“期望膨胀期”达到阶段性顶峰,在“泡沫破裂低谷期”期望值持续下行,直至产业化来临,迎来“稳定成长期”,最终在渗透率大幅提升之后,进入“成熟期”。

目前而言,AI技术还在期望膨胀期,二级市场行情则处于概念炒作阶段(后续还有技术炒作阶段、业绩炒作阶段)。接下来市场将上演大浪淘沙——二级市场的信息披露更加完善,上市公司是真的具备AI硬实力,还是单纯蹭概念,不久就会真相大白,投资者要做的是密切关注。

重磅,GPT-4 API 全面开放使用!

遥想今年 3 月刚推出 GPT-4 的 OpenAI 仅邀请了部分提交申请的开发者参与测试。眼瞅 OpenAI 联合创始人 Greg Brockman 在当时现场演示“史上最为强大”的 GPT-4 模型,轻松通过一张手绘草图生成一个网站、60 秒就能搞定一个小游戏开发等这些功能,一众开发者却不能使用。

而就在今天,GPT-4 的适用性进一步被拓展。OpenAI 正式发布 GPT-4 API,现对所有付费 API 的开发者全面开放!

OpenAI 路线图:本月底前向新开发者拓展推出 GPT-4

在上线的这四个月里,相信很多人通过技术解析论文(https://cdn.openai.com/papers/gpt-4.pdf),对于 GPT-4 也不太陌生。

据 OpenAI 透露,自今年 3 月份发布 GPT-4 以来,数以百万计的开发者要求访问 GPT-4 API,且利用 GPT-4 的创新产品的范围每天都在增长。

与其前身 GPT-3.5 相比,GPT-4 的不同之处在于它增强了生成文本(包括代码)的能力,同时还接受图像和文本输入。

该模型在各种专业和学术基准上表现出“人类水平”。此前,OpenAI 研究人员也做过测试,称,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。

与 OpenAI 以前的 GPT 模型一样,GPT-4 是使用公开的数据进行训练的,包括来自公共网页的数据,以及 OpenAI 授权的数据。从技术维度上来看,GPT-4 是一个基于 Transformer 的模型,经过预训练,可以预测文档中的下一个 token。这个项目的一个核心部分是开发了基础设施和优化方法。这使 OpenAI 能够根据不超过 GPT-4 的 1/1000 的计算量训练的模型,准确地预测 GPT-4 的某些方面的性能。

不过,目前有些遗憾的是,图像理解能力还没有提供给所有 OpenAI 用户。还是像今年 3 月份 OpenAI 宣布的那样,它只是与其合作伙伴 Be My Eyes 进行测试。截至目前,OpenAI 还没有表明何时会向更广泛的用户群开放图像理解能力。

现如今,所有具有成功付费记录的 API 开发者都可以访问具有 8K 上下文的 GPT-4 API,当然,这一次还不能访问 32 K 上下文的。

同时,OpenAI 也有计划在本月底向新的开发者开放访问权限,然后根据计算的可用性,开始提高速率限制。

值得注意的是,虽然 GPT-4 代表了生成式 AI 模型发展的一个重要里程碑,但是这并不意味着它是 100% 完美的。就 GPT-4 而言,它还有可能产生“幻觉”,并理直气壮地犯一些推理性错误。

在未来,OpenAI 表示也正在努力为 GPT-4 和 GPT-3.5 Turbo 安全地启用微调功能,预计这一功能将在今年晚些时候推出。

 Chat Completions API 

在公告中,OpenAI 还宣布将普遍向开发者提供 GPT-3.5 Turbo、DALL-E 和 Whisper APIs。

同时也向开发者分享了目前广泛使用的 Chat Completions API 现状。OpenAI 表示,现在 Chat Completions API 占了其 API GPT 使用量的 97%。

OpenAI 指出,最初的 Completions  API 是在 2020 年 6 月推出的,为语言模型进行互动提供了一个自由格式的文本提示。

Chat Completions API 的结构化界面(如系统消息、功能调用)和多轮对话能力能够使开发者能够建立对话体验和广泛的完成任务,同时降低提示注入攻击的风险,因为用户提供的内容可以从结构上与指令分开。

OpenAI 表示,当前也正在弥补 Chat Completions API 的几个不足之处,例如completion token 的日志概率和增加可引导性,以减少回应的 “聊天性”。

旧模型的废弃

另外,OpenAI 也发布了旧模型的弃用计划。即从 2024 年 1 月 4 日开始,某些旧的 OpenAI 模型,特别是 GPT-3 及其衍生模型都将不再可用,并将被新的 “GPT-3 基础”模型所取代,新的模型计算效率会更高。

根据公告显示,具体淘汰的模型包含 Completions API 中的一些旧模型,包含我们熟悉的 davinci:

  • 使用基于 GPT-3 模型(ada、babbage、curie、davinci)的稳定模型名称的应用程序将在 2024 年 1 月 4 日自动升级到上述的新模型。在未来几周内,通过在 API 调用中指定以下模型名称,也可以访问新模型进行早期测试:ada-002、babbage-002、curie-002、davinci-002。
  • 使用其他旧的完成模型(如 text-davinci-003)的开发者将需要在 2024 年1月4日之前手动升级他们的集成,在他们的 API 请求的 “模型 “参数中指定 gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct 是一个 InstructGPT 风格的模型,训练方式与 text-davinci-003 类似。这个新的模型是 Completions API 中的一个替代品,并将在未来几周内提供给早期测试。

与此同时,OpenAI 表示,希望在 2024 年 1 月 4 日之后继续使用他们的微调模型的开发者,需要在新的基于 GPT-3 模型(ada-002、babbag-002、curie-002、davinci-002)或更新后的模型(gpt-3.5-turbo、gpt-4)之上进行微调替换。

随着 OpenAI 在今年晚些时候开启微调功能,他们将优先为以前微调过旧型号的用户提供 GPT-3.5 Turbo 和 GPT-4 微调服务。具体原因是,OpenAI 深谙从自己的数据上进行微调的模型上迁移是具有挑战性的,对此他们会为「以前微调过的模型的用户提供支持,使这种过渡尽可能顺利」。

除了淘汰一些 Completions API  旧模型之外,OpenAI 表示,旧的嵌入模型(如 text-search-davinci-doc-001)的用户也需要在 2024 年 1 月 4 日前迁移到 text-embedding-ada-002。

最后,使用 Edits API 及其相关模型(如t ext-davinci-edit-001 或 code-davinci-edit-001)的用户同样需要在 2024 年 1 月 4 日前迁移到 GPT-3.5 Turbo。Edits API 测试版是一个早期的探索性 API,旨在使开发人员能够根据指令返回编辑过的提示版本。

OpenAI 在公告中写道,“我们认识到这对使用这些旧型号的开发者来说是一个重大变化。终止这些模型不是我们轻易做出的决定。我们将承担用户用这些新模式重新嵌入内容的财务成本。”

OpenAI 表示将在未来几周,与受影响的用户联系,一旦新的模型准备好进行早期测试,他们也将提供更多信息。

预告:下周,所有 ChatGPT Plus 用户可用上代码解释器

最为值得期待的是,OpenAI 官方还在 Twitter 上预告:代码解释器将在下周向所有 ChatGPT Plus 用户开放。

它允许 ChatGPT 运行代码,并且可以选择访问用户上传的文件。开发者可以直接要求 ChatGPT 分析数据、创建图表、编辑文件、执行数学运算等。

不知大家期待否?

调用 GPT-4 API 可以做的 10 件事

最后,随着此次 GPT-4 API 的放开,开发者再也不用费尽心思地购买 Plus 服务了,调用迄今业界最为强大的 GPT-4 API,无疑也让相关的应用更加智能。

那么,我们到底能用 GPT-4 API 来做什么,对此外媒总结了常见的 10 种用法:

  • 基于 GPT-4 API 的叙事能力,可以快速生成复杂情节、人物发展等小说内容,彻底改变文学创作领域。
  • GPT-4 API 为模拟极其真实的对话铺平了道路,反映了人类交互的真实性和精确性。
  • GPT-4 API 展现了即时语言翻译的能力,有效地弥合了各种语言和文化之间的沟通差距。
  • GPT-4 API 在数据分析方面有很强的能力,可以为数据分析市场参与者提供了宝贵的洞察力。
  • GPT-4 API 能够打造与现实世界动态相呼应的高度逼真的虚拟环境,增强了游戏和虚拟现实等领域的沉浸感。
  • GPT-4 API 生成复杂计算机代码的能力,使其成为软件开发人员不可或缺的盟友。
  • GPT-4 API 可以解释和分析医疗数据,帮助准确诊断和预测各种健康状况。
  • 利用其先进的语言生成能力,GPT-4 API 可确保快速、准确地生成法律文件。
  • GPT-4 API 展示了解释消费者数据和生成定制营销内容的能力,有效地与目标受众产生共鸣。
  • GPT-4 API 有可能通过分析大量的科学数据来推动科学创新,在化学、物理学和生物学等不同领域发现新的见解。

2023年7月总结-国内外大模型集合

国内大模型列表

序号公司大模型省市官网说明
1百度文心一言北京试用需账号
2科大讯飞星火安徽合肥试用需账号
3达观数据曹植上海试用需账号
4阿里云通义千问浙江杭州试用需账号
5复旦大学MOSS上海试用需账号
6清华大学ChatGLM北京开源6B,智谱AI
7华为盘古广东深圳华为+鹏城
8智源人工智能研究院悟道·天鹰北京悟道3.0,视界视觉,AQUILA天鹰座,Aquila-7B,AquilaChat-7B,AquilaCode-7B-NV,AquilaCode-7B-TS
9哈尔滨工业大学本草黑龙江哈尔滨医学;基于LLaMA;另有基于 ChatGLM 的Med-ChatGLM
10贝壳BELLE北京基于BLOOMZ或LLaMA的多个模型
11百川智能baichuan北京开源可商用
12OpenBMBCPM北京面壁智能,智源
13上海人工智能实验室书生·浦语, OpenMEDLab浦医上海技术报告,上海AI实验室+商汤+港中文+复旦+上海交大
14云知声山海北京
15东北大学TechGPT辽宁沈阳基于BELLE->LLaMA,图谱构建和阅读理解问答
16港中文深圳华佗,凤凰广东深圳香港中文大学(深圳)和深圳市大数据研究院,医学,Demo,华佗和凤凰都基于BLOOMZ
17中科院紫东太初北京紫东太初2.0号称100B参数,全模态
18虎博科技TigerBot上海基于BLOOM
19IDEA研究院封神榜MindBot广东深圳
20微盟WAI上海
21360智脑,一见北京
22度小满轩辕北京基于BLOOM
23华南理工大学未来技术学院ProactiveHealthGPT,扁鹊,灵心SoulChat广东广州
24西北工业大学+华为秦岭·翱翔陕西西安流体力学大模型,湍流+流场
25奇点智源Singularity OpenAPI北京瑶光和天枢
26超对称技术公司乾元北京
27稀宇科技MiniMax上海GLOW虚拟社交,
28西湖心辰西湖浙江杭州
29晓多科技+国家超算成都中心晓模型XPT四川成都
30中国科学院计算技术研究所百聆北京基于 LLaMA,权重Diff下载7B和13B,demo
31北京语言大学桃李北京基于LLaMA,北语+清华+东北、北京交大
32商汤科技日日新上海
33国家超级计算天津中心天河天元天津
34星环科技无涯、求索上海无涯——金融;求索——大数据分析
35慧言科技+天津大学海河·谛听天津
36恒生电子LightGPT浙江杭州
37电信智科星河北京通用视觉,中国电信
38左手医生左医GPT北京医疗,试用需Key
39智慧眼砭石湖南长沙医疗领域
40好未来MathGPT北京学而思
41数慧时空长城北京自然资源,遥感
42理想科技大道Dao北京运维大模型
43硅基智能炎帝江苏南京
44中工互联智工北京与复旦NLP实验室联合,工业领域
45创业黑马天启北京创业黑马与360合作,科创服务行业
46追一科技博文Bowen广东深圳
47网易有道子曰北京
48网易伏羲玉言广东广州
49昆仑万维天工北京与奇点智源联合研发
50知乎知海图北京知乎和面壁科技合作
51医疗算网Uni-talk上海上海联通+华山医院+上海超算中心+华为
52蚂蚁集团贞仪浙江杭州据传语言和多模态两个
53中科创达魔方Rubik北京
54腾讯混元广东深圳
55拓尔思拓天TRSGPT北京
56乐言科技乐言上海
57清博智能先问北京基于结构化数据
58智子引擎元乘象江苏南京
59拓世科技拓世江西南昌
60循环智能盘古北京循环智能,清华大学,华为
61印象笔记大象GPT北京
62第四范式式说北京
63字节跳动Grace北京内部代号
64出门问问序列猴子北京
65数说故事SocialGPT广东广州
66云从科技从容广东广州
67电科太极小可北京党政企行业应用
68中国农业银行小数ChatABC北京
69麒麟合盛天燕AiLMe北京
70台智云福尔摩斯FFM台湾华硕子公司
71医联科技medGPT四川成都
72理想汽车MindGPT北京
73深思考人工智能Dongni北京
74长虹长虹超脑四川绵阳
75孩子王KidsGPT江苏南京
76中科闻歌雅意北京
77澜舟科技孟子北京
78京东ChatJD北京
79智臻智能小i上海小i机器人
80新华三H3C百业灵犀浙江杭州
81鹏城实验室鹏城·脑海广东深圳Peng Cheng Mind
82宇视科技梧桐浙江杭州AIoT行业
83中国联通鸿湖北京
84美亚柏科天擎福建厦门公共安全
85赛灵力科技达尔文广东广州赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心

国外大模型

公司大模型说明
OpenAIChatGPT
微软Bing Chat
GooglePaLM2
AnthropicClaude
MetaLLaMA
Stability AIStableLM
AmazonTitan
BloombergBloombergGPT
MosaicMLMPT
IntelAurora genAI
UC Berkeley, Microsoft ResearchGorilla

ChatGPT紧急下线联网搜索功能,用户:钱都付了就给我看这个?

一夜之间,ChatGPT 又回到了 2021 年。

OpenAI宣布暂停ChatGPT的Bing搜索功能。

根据通知,自2023年7月3日起,出于谨慎考虑,他们禁用了这一测试版功能。

OpenAI表示他们正在修复问题以保护内容所有者的权益,并努力尽快恢复测试版。

ChatGPT浏览Bing是ChatGPT Plus订阅者使用的一个功能,ChatGPT Plus是ChatGPT的高级版本,每月收费20美元,订阅者可以优先体验新功能和改进,并在对话中获得更快的响应时间。

然而,OpenAI意识到该功能有时会以他们不希望的方式显示内容,因此暂停了该功能。

今年3月,ChatGPT首次宣布拥有联网功能。

但最新更新中宣布停止了该功能,用户对此表达了不满。

一些付费用户表示,他们为了使用Bing搜索功能才付费订阅ChatGPT Plus,并质疑OpenAI的决定。

他们担心未来ChatGPT可能不再支持网站内容的翻译功能。同时,一些用户认为ChatGPT4.0的性能下降,甚至比3.5版本差。

有外媒就此事联系了 OpenAI,询问关于此项决定的几个问题。对方回复了邮件,但仅仅是列出一条与更新后的帮助页面内容相似的推文。

OpenAI 称:

我们了解到,ChatGPT 的“Browse”beta 版有时会以意外方式显示内容。例如,若用户坚持请求目标 URL 指向的全文,其可能在无意中满足这一请求。我们将暂时禁用 Browse 功能并修复相关问题,希望维护内容所有者的应有权益。

九大“镇馆之宝”亮相世界人工智能大会

2023世界人工智能大会7月6日在上海开幕,大会为期三天。

2023年世界人工智能大会有三大亮点。一是互动体验再度升级,智能化应用场景进一步拓展。二是参展企业数量和展览面积均创历届之最,5万平方米世博主展览涵盖智能终端、应用赋能、前沿技术、核心技术四大板块。三是为重视场景应用落地、产业需求对接和产业人才发展,大会邀请了国内外顶尖学府、科研机构、投资机构及各界相关代表深度交流,展现创新应用落地的突破性成果。

 ○ 九大镇馆之宝 ○

蚁鉴AI安全检测平台2.0

蚁鉴AI安全检测平台2.0,安全性方面,自研的诱导生成技术应用于AIGC安全性检测,助力AIGC的产出符合安全规范与社会伦理。可靠性方面,平台构建一套实战性攻击标准,对AI系统提供全面多维度的鲁棒性测评服务,有助于AI系统的改进和优化。透明性方面,融合逻辑推理、因果推断等技术,提供涵盖完整性、准确性等7个维度及20项评估指标,对AI系统的解释性进行全面和客观的量化分析。

Amazon Bedrock

 Amazon Bedrock是亚马逊云科技推出一项完全托管的生成式AI服务,通过 API 提供来自领先的 AI 初创公司和亚马逊自研的基础模型,帮助客户便捷安全的构建和扩展生成式AI应用。

客户可以从各种基础模型中进行选择,找到最适合自身业务场景的模型,同时借助 Amazon Bedrock 的无服务器体验,快速上手直接使用,或者在确保数据安全和隐私的前提下,使用自有数据进行微调,并通过熟悉的亚马逊云服务和产品工具轻松集成并部署到应用程序中,而无需管理任何基础设施。

文心一格

文心一格是百度推出的AI艺术和创意辅助平台,是百度依托于飞桨、文心大模型持续的技术创新,在“AI作图”方面发布的产品和技术工具。文心一格背后的文生图技术基于文心大模型打造,是全自研的原生中文文生图系统,并可提供多样的AI生图服务,包括图像编辑、骨骼和线稿识别、小样本训练等。

Graphcore C600 IPU处理器PCIe卡

Graphcore C600 IPU处理器PCIe卡主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。它在提供低延时、高吞吐量的同时不损失精度,帮助AI开发人员解决“精度与速度难两全”的痛点,为AI应用提供解锁IPU强大算力的新路径,以满足客户和机器智能从业者对于易用、高效以及更优TCO推理产品的强烈需求。C600在提供强大的算力、易用性和灵活性的同时,还实现了低时延和低功耗,在运行典型工作负载时的散热设计功耗仅为185瓦,可为运维人员大大减少数据中心运营开支。

昇腾AI“大模型超级工厂”

昇腾AI“大模型超级工厂”从大模型的数据&模型准备、算力准备&模型训练、模型部署上线&集成等阶段全流程使能大模型的开发与应用创新。

目前基于昇腾AI原生孵化了业界首个两千亿参数的中文NLP大模型鹏城.盘古、业界首个多模态大模型紫东.太初以及华为云盘古系列在内的20多个国产大模型。同时,昇腾AI也已适配支持了ChatGLM、LLaMA、GPT-3、BLOOM等数十个业界主流开源开放的大模型。

AI药物研发自动化解决方案

晶泰科技AI药物研发自动化解决方案实现了AI药物研发实验过程的高度自动化和智能化:不仅突破了药物研发DMTA循环中化学合成这一关键限速瓶颈,提升了药物研发实验效率和成功率,更进一步解决了AI药物研发实验中标准化过程数据缺失的问题,可全程记录标准化、可追溯的过程数据和正负结果数据,供AI模型学习迭代,更好的设计反应步骤,形成AI、自动化实验、数据的互相正反馈,实现automation for AI,AI for science的正向循环。

云燧智算集群

云燧智算集群是面向大型智算中心的高性能人工智能加速集群,旨在满足AIGC时代对超大规模算力的需求。目前基于该集群产品,已在国家级重点实验室之江落地千卡规模训练集群,提供超过 100P 的先进AI算力,以高效支撑包括融媒体、文本生成PPT的应用、跨模态图像生成等多个 AIGC应用,以及计算基因、计算制药、计算材料等多种的 AI4S 科学计算应用的开发和前沿探索。

智能换电无人驾驶商用车Q-Truck

 全球首款智能换电无人驾驶商用车 Q-Truck,配套智能能源服务PowerOnair,5分钟即可完成无人化电池补能,适用于海陆空铁、工厂等多个物流场景。Q-Truck,还曾作为唯一无人驾驶卡车参演《流浪地球2》电影。

腾讯多媒体实验室XMusic

腾讯多媒体实验室基于AIGC技术最新推出的XMusic生成式通用作曲框架,支持视频、图片、文字、标签、哼唱等多模态内容作为输入提示词,生成情绪、曲风、节奏可控的高质量音乐。

 ○ 科学前沿 ○

上海人工智能实验室单位联合发起大模型语料数据联盟

上海人工智能实验室、中国科学技术信息研究所、上海数据集团、上海市数商协会、国家气象中心以及中央广播电视总台、上海报业集团等单位联合发起的大模型语料数据联盟正式成立。

华为轮值董事长胡厚崑:盘古大模型3.0即将发布

2023世界人工智能大会开幕,华为轮值董事长胡厚崑发表演讲。胡厚崑表示,去年年底ChatGPT的出现,把人工智能推向了新的风口。人工智能将帮助我们改写身边的一切。他介绍了华为在人工智能方面的布局,推动人工智能走深向实:深耕算力;从通用大模型到行业大模型,服务好千行百业。他最后预告,在7月7日的华为云开发者大会上,盘古大模型3.0即将发布。

特斯拉“擎天柱”人形机器人亮相

据介绍,特斯拉人形机器人身高172cm,体重56.6kg,就是一个正常成年人的身形。机器人全身拥有28个自由度,就如同人体的关节。手部有11个自由度,可以更加灵活的抓握,且力大无比,可以单手举起一台钢琴。 

目前,这款人形机器人可以完成行走、上下楼梯、下蹲、拿取物品等动作,也已经具备保护自身和周边人安全的能力。未来还可以做饭、修剪草坪、帮助照看老人,或是在工厂里替代人类从事枯燥和有危险的工作。因为他搭载了与特斯拉汽车一样的具有全自动驾驶能力的电脑和视觉神经网络系统,在Dojo超级计算机的加持下,同样可以利用动作捕捉来“学习”人类。

WPS AI正式定名,官网同步上线

 金山办公携旗下基于大语言模型的智能办公助手WPS AI亮相2023世界人工智能大会,WPS AI官网(ai.wps.cn)同步上线,并开启招募智能办公体验官的通道,WPS Office个人用户和WPS 365企业用户均可申请。WPS AI 作为国内协同办公赛道首个类ChatGPT式应用,接入了金山办公多个办公产品组件,原有的轻文档、轻表格、表单接入WPS AI后实现产品升级,更名为WPS智能文档、WPS智能表格、WPS智能表单,进一步赋能智慧办公新场景。

  金山办公CEO章庆元在大会现场表示,金山办公将WPS AI定位为大语言模型的应用方,未来锚定AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三个战略方向发展。

商汤科技多款AI大模型亮相世界人工智能大会

商汤科技携多款人工智能大模型产品亮相。作为对标ChatGPT的语言大模型,“商量SenseChat”是商汤科技“日日新SenseNova”大模型体系下的千亿级参数语言大模型,拥有领先的语义理解、多轮对话、知识掌握、逻辑推理的综合能力。在展会现场,记者注意到,商汤科技还带来了基于“商汤日日新SenseNova”大模型体系推出的“商汤如影SenseAvatar”AI数字人视频生成平台。该平台基于AI数字人视频生成算法、语言大模型、AI文生图、AIGC等多种能力,能够轻松实现高质量、高效率的数字人视频内容创作。

傅利叶智能发布GR-1通用人形机器人

开幕式上,傅利叶智能在重大创新成果首秀环节发布了最新研发的一款通用人形机器人GR-1。据介绍,这款机器人有高度仿生的躯干构型、拟人的运动控制,具备快速行走、敏捷避障、稳健上下坡、抗冲击干扰等运动功能,结合认知智能,能够与人协同完成动作,在工业、康复、居家、科研等多应用场景潜能巨大。

○ 大咖观点 ○

马斯克:未来,地球上机器人的数量将超过人类

  在2023世界人工智能大会开幕式上,特斯拉创始人兼首席执行官埃隆马斯克表示,随着算力爆炸式增长,“机器计算”与“生物计算”的比例这一关键指标正在不断提高,这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。未来,地球上机器人的数量将超过人类。

马斯克预测,随着人工智能技术的快速发展,大约在今年年末,就会实现全面自动驾驶。“我之前也做过许多类似的预测,我承认之前的预测也不完全准确,但是这一次的预测,我觉得是比较接近的。”马斯克表示。

丁磊:用最快速度探索AI大模型的创新应用,是网易首要任务

在2023世界人工智能大会上,网易多款人工智能大模型落地产品首次亮相。网易CEO丁磊表示,用最快的速度探索AI大模型的创新、应用,是网易的首要任务。据了解,网易AI大模型正在加速覆盖百余个产业应用场景,其中,网易伏羲有灵众包平台今年将为10万人提供AI新职业,包含挖掘机远程驾驶员、AI绘画师、AI表情绑定师等人机协作的就业岗位。网易称,今年平台将帮10万人提供人机协作的就业机会。

腾讯汤道生:行业大模型是企业拥抱AI的更优路径

 在2023世界人工智能大会产业论坛上,腾讯高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生表示,人工智能发展的根本目标是落地于产业,服务于人,行业大模型是企业拥抱AI的更优路径,将开启产业升级“黄金时代”。汤道生还透露,不久前公布的腾讯云MaaS将迎来新的升级,科技成果将在腾讯论坛公布。

微软大中华区董事长侯阳:未来每一个应用程序将由人工智能驱动

在大会开幕式上,微软全球资深副总裁、微软大中华区董事长兼首席执行官侯阳表示,微软坚信,今后任何一家公司都需要具备驾驭数字技术的能力,“我们也看到随着生成式人工智能不断展现出的巨大潜力,今后每一家公司的每一个应用程序都将由人工智能来驱动。”

“AI教父”杨立昆:不喜欢AGI这个词,大语言模型不是通往人类智慧的道路

在开幕式中,杨立昆就以视频连线方式,与地平线创始人余凯就AI大模型相关话题进行对谈。杨立昆表示“我并不喜欢AGI这个词。”他进一步解释,每一个人工智能都是专项的,人类智能同样也是专项的,但LLM(大语言模型)只基于文本训练,而没有利用视频训练,这导致模型是不理解物理世界的。如果不理解物理世界,就没办法规划、推理,以及实现目标。

     “如果LLM(大语言模型)漏掉的是一些非常基本组件的话——那就意味着这个系统是不足的。LLM可能很有用,你可能希望让它做点什么,可以加载很多应用,但LLM不会是那条通往人类智能的道路。”他表示。

     针对AI大模型所引起的“AI威胁论”愈演愈烈,杨立昆提出了“目标驱动人工智能”的理念,即设定必须满足的目标,并逐步提高系统的智能水平,而不是喂给模型一两万个Token,让模型自己进行推理。最后,杨立昆也提到,严格监管人工智能发展并不能保证AI安全。相反,开源才是唯一让AI保持良善且实用的办法。“想象一下,在十年或者十五年之后,我们每个人都通过AI助手和数字世界来进行互动,所有的信息都会在其中流转,如果AI技术被少数控制公司来控制的话,这并不是好事。”

姚期智:ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力

圆桌会议中,姚期智谈及,ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力,能够在各种不同的环境中自主学习各种新技能。但现在问题是方法太慢了,新技术常常需要几个月时间才能做好。姚期智认为,强化学习、具身智能是一个很好的技术发展趋势,能够给智能机器人带来很好的发展。

香港科技大学首席副校长郭毅可:人工智能对教育的影响是根本性的

香港科技大学首席副校长、英国皇家工程院院士郭毅可在2023年世界人工智能大会科学前沿全体会议上表示,人工智能对教育的影响是根本性的。现在人工智能还处于初期,但这是革命性的开始,所有的一切都会发生改变。在教育层面,人工智能会给教学工具、考试方法乃至教学内容都带来巨大的影响。

中国电信研究院副院长:发展元宇宙,要提前布局GPU芯片、6G等算力产业

  2023世界人工智能大会6G智能网络与计算论坛上,中国电信研究院副院长李安民表示,元宇宙的发展将推动世界进入智能算力时代,元宇宙时代对智能算力、带宽的强劲需求,将为5G的规模发展以及国家“东数西算”战略实施以及人工智能和芯片的发展带来巨大机遇,“长期来看,千倍以上的算力需求、百以上的带宽需求是元宇宙得以健康发展的基础,因此需要提前规划布局万兆宽带、6G、智能算力网络的建设以及GPU芯片等智能算力产业。”李安民说。

马斯克:中国 AI 会很强,年底或实现自动驾驶

北京时间 2023 年 7 月 6 日上午,WAIC 2023 世界人工智能大会正式开幕,特斯拉创始人伊隆·马斯克再次亮相,不过这次是以远程视频的方式。

遥想 2019 年,同一场地,马斯克曾经和阿里巴巴创始人马云展开过一次巅峰对话。4 年之后,很多事情都变了,其中最重要的一个就是,因为大语言模型带起的新一波 AI 浪潮,让通用智能似乎距离人类更近了一步。

在当天的发言中,作为「AI 毁灭派」的代表之一,马斯克强调了通用人工智能 AGI、或者深度智能可能带来积极的未来,但也有概率出现负面的未来,人们应该确保不会发生后者。

在此次 WAIC 2023 大会的展区,特斯拉的机器人 Optimus 吸引了众多目光。马斯克认为,人形机器人还处于早期开发阶段,但是在未来,机器人的数量,或将超过人类数量。

同时,作为有限人工智能的一种,特斯拉一直在研发的全自动驾驶 FSD 或将在年底实现。

对于东道主,马斯克认为「中国下定决心去做一件事,他们一定能够做得非常出色,人工智能也不例外」。他相信「中国在人工智能方面将拥有强大的能力」。

以下为伊隆·马斯克在 WAIC 2023 大会上的演讲文字整理实录:

上海的朋友们,大家好!

人工智能将在人类文明进化中发挥非常深远的作用。当前。计算机的数量和算力正在爆炸式增长,地球上的数字计算机与「生物计算机」的比例一直在增大。这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。

这将是一场深刻的变革,我认为,人类正处于最深远的变革时期之一。

未来,地球上会有大量的机器人。一个值得思考的问题是,随着时间推移,机器人与人类的比例会是多少?在将来某个时刻,二者的比例可能超过 1:1,这意味着机器人将比人类多,甚至是多很多。这一趋势已经十分明显。

好的一面是,人类将生活在一个富足的时代,人们想要的任何商品和服务都可以轻易地拥有。在拥有大量机器人的未来,全球的生产效率将会提高到令人难以置信的水平。当然,我们需要非常谨慎地对待,确保机器人对人类是有益的。

特斯拉 Optimus 机器人在 WAIC 2023 上展出|极客公园

我相信,特斯拉将在这一进程中扮演重要的角色。特斯拉人形机器人正在开发中,其目标是帮助人们完成琐碎的工作,完成人类不愿做的无聊、重复或危险的任务。因此,它不需要很高的智能水平就可以胜任这些工作。

人工智能的一个重要应用是汽车的自动驾驶。在自动驾驶方面,特斯拉非常乐意将技术授权给其他汽车制造商。自动驾驶技术会把人们从枯燥的驾驶中解放出来,给人们更多的自由和时间。

同时,自动驾驶将大大提升车辆的利用率。一辆普通乘用车每周使用时长大概是 10 到 12 个小时,大部分时间它会停在停车场,而一辆拥有完全自动驾驶能力的车,每周的使用时间可以达到 50 到 60 个小时。自动驾驶车辆的利用率会是非自动驾驶车辆的 5 倍。特斯拉希望将这一类技术分享给更多企业使用。

目前,特斯拉的技术已经非常接近完全自动驾驶的目标。在美国道路上进行测试的特斯拉车辆,已经很少需要人工干预了。因此,当我们驾驶一辆具备最新版本完全自动驾驶能力测试版的特斯拉,从一个目的地到另一个目的地,我们几乎不需要人为操控。特斯拉可能在今年晚些时候就具备 L4 或 L5 级的完全自动驾驶能力。

相比自动驾驶、特斯拉人形机器人等人工智能,通用人工智能(AGI, Artificial General Intelligence)有很大不同。

通用人工智能是一种计算机智能,它能比所有人类都聪明。这并非特斯拉目前专攻的领域,有其他公司正在研究。但我认为,这也是我们应该关注的领域。尤其是面对深度人工智能的上万台,甚至数十万、数百万台最先进的计算机,我们需要有监管措施来确保这些计算机都可以协同并有序工作,以成就一个单一的综合「超级智能」(ASI, Artificial Super Intelligence) 。

未来,「超级智能」将比人类更有能力,也同时存在着风险。我们应该尽一切可能,确保担忧的事情不会发生,迎接积极未来的到来。

在中国,有很多非常聪明、有才华的人,我一直很钦佩他们的才华与干劲。我认为,中国在任何它想做的事情上都会完成得十分出色,这在许多领域都有体现,不论是经济还是人工智能领域。我相信,未来中国将拥有非常强大的人工智能能力。

最后,感谢大会邀请我来做分享,非常期待能跟大家见面!

0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!

【导读】谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。

这种自我修复背后的机制,究竟是怎样运作的?

对代码为什么是错误的,模型在多大程度上能提供准确反馈?

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

论文地址:https://arxiv.org/pdf/2306.09896.pdf

英伟达科学家Jim Fan强烈推荐了这项研究。

在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。

很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。

– GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。

– 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。

– 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。

– 基于专业人员的反馈,GPT-4本身能够编写更好的代码。

揭秘用于代码生成GPT修复

我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。

然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。

好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。

研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。

如图显示的是,基于自我修复方法的经典工作流程。

首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。

如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。

最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。

表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。

并且模仿人类软件工程师编写代码的试错方式。

然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。

而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。

目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

研究人员提出了一个新的评估策略,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。

从实验中,研究者发现:

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。

自我修复四阶段

自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。

阶段一:代码生成

阶段二:代码执行

阶段三:反馈生成

阶段四:代码修复

研究人员又进一步针对3个问题进行了测试:

1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?

2. 更强的反馈模型会提高模型的修复性能吗?

3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?

首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。

这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。

研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。

研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。

下图为提示词的实例之一。

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。

从实验可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4中,有几个值的自修复通过率明显优于基线。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。

这个实验的结果如上图(亮蓝色)所示。

在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。

人工反馈显著提高了GPT-4修复的成功率

在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。

研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。

每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。

每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。

然后,参与者被要求用他们自己的话解释这个程序做错了什么。

研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。

不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

法律大模型ChatLaw登场!北大学生团队,两天百万关注

有人做了统计,截止到今天,国内已经公布的大语言模型LLM已经达到93个,距离“百模大战”仅差一步之遥。

有意思的是,这些大模型的主体所在地有45%在北京,而其中最知名且开源的大模型莫过于清华的ChatGLM-6B/130B。作为中国两大顶级学府之一,清华的ChatGLM早就名声在外,成为了中文大模型的微调底模标配。

直到几天前,一街之隔的北大学子们终于拿出了他们自己的语言模型:ChatLaw

严格来说,ChatLaw不能算是大语言模型。一方面,它是在其他大模型基础之上做的专项训练;另一方面,显然你也不能指望法律模型给你写小红书写脚本,把它看成是垂直模型更恰当一些。

按理说,大模型发布了这么多,咱们早就看麻木了。但ChatLaw发布当晚就在知乎冲到了热榜第一的位置,很短的时间内话题浏览量就超过150万。

就连我随手回复个求内测名额,也能堆起50层回复。

在Github项目库里,点赞的星星数量仿佛旱地拔葱,直接腾空而起,目前已经有1.7K,妥妥的热门项目。

那么,这个模型究竟做对了什么,让见过市面的人们也争先恐后的排队体验?

除了最基础的法律条文问答,这三件事最让人眼前一亮:

其一,不仅是法律条文的问答,还能上传文档。比如在劳动纠纷中支持上传劳动合同,将重要信息结构化展示。

其二,支持上传对话录音。这很接近法律实践中的举证环节,ChatLaw抽取对话录音的信息,结构化展示,刚登场就是多模态级别。

其三,法律文书撰写。基于用户举证,结合判例和法条,为用户撰写法律文书,比如劳动仲裁申请书。

如果要用一句话评价这个项目团队,我只能说他们太会举例子了,简介视频都能拿捏社会热点,产品宣发在宣发上就已经遥遥领先其他大模型。

展开来说,可以分为模型技术层面和社会需求层面。

从模型技术上讲,ChatLaw并没有多先进,而是典型的应试教育+大力出奇迹的结合体。

项目团队已经训练出三个版本,底层大模型来自LLaMA,其中:

学术demo版ChatLaw-13B,基于姜子牙Ziya-LLaMA-13B-v1训练而来,中文表现很好,但是应对逻辑复杂的法律问答时效果不佳,需要用更大参数的模型来解决。

学术demo版ChatLaw-33B,基于Anima-33B训练而来,逻辑推理能力大幅提升,但是因为Anima的中文语料过少,导致问答时常会出现英文数据。

ChatLaw-Text2Vec,使用93万条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配,例如:

在训练数据上,项目团队的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。比如像下面这样的对话方式:

在类似这样的大量先验数据投喂下,ChatLaw在司法考试的大模型对比中成绩超过了GPT-4,虽然超过的不多,但证明了这种训练方式的有效性。更具体一点,在训练中加入大量司法考试的选择题作为训练数据,只要让模型牢牢“记住”答案,分数自然就上去了。

为此,团队模型训练上也总结出了三条经验:

一是引入法律相关的问答和法规条文的数据,能在一定程度上提升模型在选择题上的表现;

二是加入特定类型任务的数据进行训练,模型在该类任务上的表现会明显提升,比如问答题数据;

三是大力可以出奇迹,法律选择题需要进行复杂的逻辑推理,参数量更大的模型通常表现更优。

从社会需求上讲,ChatLaw团队做了一件大好事,既是为社会创造了普惠工具,又给大厂们好好上了一课。

自从ChatGPT问世,我们一直在思考一个问题,它对社会带来的具体贡献是什么?

是降本增效,是时代变革,是几天一个王炸的颠覆?

够了,不要再被这些只会贩卖焦虑吸引流量的媒体和视频洗脑。

就这么说吧,GPT引发的新一轮AI浪潮是一种显著的创新,但不足以跨越从好玩到好用的鸿沟。它能提升一部分工作流程的效率,但还不足以取代人类。

为什么ChatLaw要大费周章的投喂90多万条真实的司法数据,就是因为通用大语言模型看起来很厉害,实际上到了垂直领域并不能直接用。

比如在司法实践中就发生过这样的乌龙:

美国有一名旅客起诉航空公司,他的代理律师提交了诉状,并引用了六个判例论证起诉要求的合理性。每个判例有原告有被告有法官甚至还有判决书全文,看起来有模有样。

但无论是航空公司还是主审法官,都无法在数据库中查到这六个判例的任何一例。最后代理律师坦言,这些判例都来自ChatGPT之手。

美国人用美国人开发GPT都能胡编法律案例,想象一下用它来咨询中国法律会发生什么。

正应了那句话,你以为它懂得很多,直到有一天它说到了你擅长的领域。

或者换句话说,没有经过足够数量的数据微调或者再训练的大语言模型,充其量就是个社牛:你跟它说什么它都能接上话茬,但是不是胡说八道,请你自行判断。

我们对于生成式人工智能的心态,应当是战术上不要轻视,战略上不要迷信。

很快,我们就会有超过100个大模型,请不要再无谓的重复训练那些超越这个或者那个的模型了。

真的有那么多资金烧算力,不如想ChatLaw一样,做个本地化的,且社会大众都能用得上的AI工具。

就像Demo中预设的这些问题,普通人并不知道如何拿起法律武器保护自己权益,也不知道怎么找或者找什么样的律师帮自己维权。

也难怪ChatLaw刚宣布内测,就吸引如此之多的人去排队等待体验。

什么是刚需,这就是刚需!普法之路任重道远

再看看下面几个例子,请点开来仔细看。以后微博热搜再发小作文,多少先过一遍ChatLaw再评论不迟。

这群来自北大信息工程学院的学生们,清晰的勾勒出下一步的开发计划:

一方面法律场景的真实问答通常涉及很复杂的逻辑推理,为了提升逻辑推理能力,必须训练30B以上的中文模型底座;

另一方面法律是一个严肃的场景,在优化模型回复内容的法条、司法解释的准确性上还可以进一步优化,预计还需要两个月的时间,大幅减轻大模型幻觉的现象。

当大厂们还在挖空心思筑高墙炒概念,拿开源冒充原创,重复训练低质量闭源模型时,一群学生肩负起了为社会创造开源普惠工具的责任。

祝ChatLaw好运!

论文地址:

https://arxiv.org/pdf/2306.16092.pdf

Github:

https://github.com/PKU-YuanGroup/ChatLaw

官网:

https://www.chatlaw.cloud

开源Demo:

https://chatlaw.cloud/lawchat/#/

AI争霸,谷歌囤“数据”

数据作为AI技术发展的三大要素之一,一直是这场AI”诸神大战”中,科技巨头们“斗争”的焦点。

7月1日,谷歌更新了隐私权政策,明确表示公司保留了获取用户在网上发布的内容来训练其人工智能工具的权利。

谷歌隐私政策的更新内容如下:

谷歌将利用信息来改进我们的服务并开发新产品、功能和技术,使我们的用户和公众受益。例如,我们将使用公开信息来帮助训练谷歌的AI模型并构建Google Translate、Bard 和 Cloud AI等产品和功能。

而通过对比可知,在前一个谷歌隐私权政策的版本中,谷歌只提到了将这些数据将用于“语言模型”,而不是“人工智能模型”。

媒体分析指出,这一隐私政策条款与以往有很大的不同,通常来说,这些政策将说明企业如何使用用户在公司自己的服务器上发布的信息。但在这一项条款中,谷歌似乎保留了收集和利用在公共平台上发布的所有数据的权利,就好像整个互联网是该公司自己的AI游乐场。

此前尽管任何人都可以看到在线公开发布的内容,但这些信息的使用方式正在发生变化。公众对数据的关注点从谁可以访问数据转向如何利用数据

谷歌的Bard和ChatGPT可能早已利用了你已经遗忘的博客帖子或几年前的餐厅评论来训练自己。对于大众对于隐私权的担忧,谷歌并未立即发表评论。

谷歌向“卖水人”表达诚意

除了谷歌的用户外,数据提供商们成了想要囤“数据”的谷歌不得不“讨好的对象”。

数据提供商们被看作为AI时代中的“卖水人”。

马斯克不想被AI白嫖数据,限制访问,导致推特大宕机。同样是不想被白嫖数据的美国贴吧Reddit,付费API已经来了。直接导致了几个非常流行的第三方Reddit app下线。由此可见AI时代“卖水人”对自家“水”的保护。

而谷歌已率先向“卖水人”们拿出了自己的诚意。大型新闻出版商们的数据自然是首当其冲的焦点。

最近几个月,围绕AI的版权问题进行讨论从未停止,加剧了大型科技公司与出版界之间本已紧张的关系。而谷歌率先表态,愿意付费购买新闻内容。

媒体援引一位报业集团高管消息称,谷歌已制定了协议,愿意在未来付费购买新闻内容

AI争霸,谷歌囤“数据”“谷歌已经制定了许可协议,他们愿意接受需要付款购买内容的原则,但我们还没有讨论金额。谷歌方称,未来几个月里会进行金额方面的谈判,这是第一步。”

针对这一报道,谷歌澄清称关于许可协议的报道“不准确”,并补充说“现在还处于早期阶段,我们正在继续与生态系统合作,包括新闻发布商,获取他们的意见。”

据谷歌表示,他们正在与美国、英国和欧洲的新闻机构进行“持续对话”,同时他们的AI工具Bard也正在接受“公开可获得的信息”的培训,这可能包括需要付费的网站。

高清还原你大脑中的画面

将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。

清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。

论文地址:https://arxiv.org/pdf/2306.16934.pdf

项目地址:https://github.com/bbaaii/DreamDiffusion

AI 盈利,需要做两个备案

一个是公安部的照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》,https://www.beian.gov.cn/portal/topicDetail?id=79&token=1ff8d856-36ff-47e0-9dc3-ee175f7b226b

一个是《互联网信息服务算法推荐管理规定》,去互联网信息服务算法备案系统备案,https://beian.cac.gov.cn/#/index

ChatGPT的创建者OpenAI因收集大量私人数据被诉

一群匿名人士在一场寻求集体诉讼地位的诉讼中声称,ChatGPT的创建者OpenAI正在窃取“大量”个人信息,以训练其人工智能模型,肆无忌惮地追求利润。

根据这起长达157页的庞大诉讼,OpenAI从互联网上秘密抓取3000亿字,窃听“书籍、文章、网站和帖子,包括未经同意获得的个人信息”,违反了隐私法。它毫不避讳地使用笼统的语言,指责该公司有“文明崩溃”的风险。

克拉克森律师事务所(Clarkson Law Firm)周三在旧金山联邦法院(federal court)提起的诉讼中表示,原告是根据职业或兴趣来描述的,但由于担心遭到强烈反对,只能用缩写来识别。他们列举了30亿美元的潜在损失,基于他们估计的数百万受伤害者的类别。

“一种不同的方法:盗窃”

他们声称:“尽管已经制定了购买和使用个人信息的协议,但被告采取了不同的方法:盗窃。”该公司广受欢迎的聊天机器人程序ChatGPT和其他产品是在未经原告许可的情况下,根据从包括儿童在内的数亿互联网用户那里获取的私人信息进行培训的。

据报道,计划向OpenAI投资130亿美元的微软公司也被列为被告。

OpenAI的发言人没有立即回复寻求对诉讼发表评论的电话或电子邮件。微软发言人没有立即回复电子邮件。

ChatGPT和其他生成人工智能应用程序激起了人们对该技术前景的强烈兴趣,但也引发了隐私和错误信息的轩然大波。国会正在讨论人工智能的潜力和危险,因为这些产品对创意产业的未来以及区分事实和虚构的能力提出了质疑。OpenAI首席执行官Sam Altman本人上个月在国会山作证时呼吁对人工智能进行监管。但这起诉讼的焦点是OpenAI一开始是如何获得其产品的勇气的。

秘密刮擦

处于新兴行业前沿的OpenAI在诉讼中被指控进行了大规模的秘密网络抓取操作,违反了服务协议条款以及州和联邦隐私和财产法。其中一项被引用的法律是《计算机欺诈和滥用法案》,这是一项联邦反黑客法规,以前曾被用来解决争议。该诉讼还包括侵犯隐私、盗窃、不当得利和违反《电子通信隐私法》的指控。

原告声称,OpenAI大规模滥用个人数据以赢得“人工智能军备竞赛”,非法访问个人与其产品的互动以及集成了ChatGPT的应用程序中的私人信息。诉讼称,这种集成使该公司能够从Snapchat收集图像和位置数据、Spotify上的音乐偏好、Stripe上的财务信息以及Slack和Microsoft Teams上的私人对话。

原告声称,为了追求利润,OpenAI放弃了“以最有可能造福全人类的方式”推进人工智能的最初原则。该诉讼预计,ChatGPT 2023年的预期收入为2亿美元。

在寻求代表大量据称受到伤害的个人,并要求在审判中确定金钱损失的同时,原告还要求法院暂时冻结OpenAI产品的商业访问和进一步开发。

美国 AI 创业公司的新难题:有钱,但是缺数据

随着时间的推移,美国人工智能产业的附加值重心,已经悄悄发生了转移。根据《华尔街日报》的最新报道:正在筹集数十亿美元的生成式 AI 创业公司,如果没办法获得正确的数据,那么它们可能已经走向失败
风投机构 Primary Venture Partners 的联合创始人兼普通合伙人布拉德.斯夫鲁加指出:

“我们已经看到很多公司可能正在寻求出色的 AI 应用,但他们无法访问能够让他们构建强大应用程序的数据,更加不用说可以帮助他们的专有数据了。”

换句话说:当市场上,构建实际的模型已经变得类似于可以购买的商品时,真正的价值变成了数据。拥有正确的数据,现在可能比任何时候都更加重要。
(一)这里的逻辑是:目前,许多 AI 创业公司都希望能在如金融或医疗保健等细分领域建立起小众的 AI 模型,但因为他们缺乏品牌认知度和社会认同,这些创业公司要获得垂直行业的培训数据集并不容易。

在这方面,大公司可能更具优势因为在如何处理数据方面,大公司已经赢得了大客户们的信任。例如根据《华尔街日报》的报道:安永全球有大量的交易数据,每天都有生成式 AI 创业公司找上门来。但安永全球担心:如果把自己的专有数据用于训练外部模型将会发生什么?“谁拥有这些数据?当我们训练模型时,我们对这个模型的访问权限是什么?其他人还能如何使用这个模型?数据是由我们带来的知识产权的一部分。” 安永全球指出。

要解决类似的 IP 问题,一种对策是:创业公司可以通过仅仅是根据每个客户的数据,来为每个客户训练不同的模型。例如 TermSheet 就是用这种策略来构建 Ethan 产品策略的。后者是一种生成式 AI 模型,可以为房地产开发商、经纪人和投资者回答行业的问题。但是 TermSheet 的 CEO 罗杰.史密斯也表示,即便客户同意这一点,他们也需要教育客户和一些说服力。  

此外,对网络安全的担忧,也是大客户公司不愿意选择创业公司的原因。如金融服务公司 Truist 的首席数据官特蕾西.丹尼尔斯就表示,在数据安全方面,他们信任更加大的供应商,因此只选择与大技术供应商而非创业公司一起探索生成式 AI 应用。

第三,甚至在某些情况下,垂直行业的大客户会要求生成式 AI 创业公司支付巨大的资金额或者是公司股权。如生成式 AI 公司 Veesual 可以生成人们试穿衣服的图像,他们最初利用互联网上的公共图像进行训练,但在努力让大零售商同意交出他们数据以增强模型时,就因为上述原因失败了。

第四种情况,则是在技术上很难实现。如 PatentPal 是一家帮助律师事务所起草专利申请的生成式 AI 初创公司,他们接受过公开专利申请方面的培训。他们有机会继续根据加密或匿名的实际客户反馈,来训练其模型,从而使他们的工具更加准确。但这种过程十分复杂,因为反馈必须与高度敏感和机密的数据(包括商业机密)分开。 

然而与此同时,生成式 AI 创业公司的竞争已经趋向白热化。

如果从资金注入规模看,根据《华尔街日报》引用 PitchBook 的数据:从去年 2022 年到今年的前五个月,生成式 AI 创业公司的风险投资资金规模已经从 48 亿美金增长到了 127 亿美元。因此,为了确保能够在某些利基市场中获得更多数据,生成式 AI 创业公司的压力已经越来越大。

Struck Capital 的创始人兼执行合伙人亚当.斯特拉克指出:一些初创公司正竞相相互竞争,以确保在某些利基市场内获得更多数据。“如果你相信有一个专有数据集,你就想在他们之前得到它,然后,协商排他性。从这个意义上说,这几乎变成了一场军备竞赛。”他说。


(二)

有意思的是,上述现状也不禁让我想到:似乎,市场上真的缺乏一个数据的公开交易市场。

实际上在 2018 年或者更早的 2017 年,我在美国流媒体公司 Netflix 的一位朋友就和我聊起过他的这个创业想法:做一个数据的公开交易市场。不过,始终没有合适的产品形态,包括如何让公司自愿交出自己的数据。

从这个角度讲,前两天的一个新闻——OpenAI 正在考虑推出一个交易市场——就非常值得关注。

需要注意的是:在 ChatGPT 的插件计划几乎失败之后,根据美媒的报道:

OpenAI 正在考虑推出一个交易市场,以让客户可以将他们根据自己需求定制的人工智能模型出售给其他公司。换句话说:这个交易市场将为企业提供一种访问前沿大语言模型的方法,并托管客户们构建的 OpenAI 模型的微调版本。

一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命

作者 | 宛辰、Li Yuan
编辑 | 靖宇

当地时间 6 月 28 日,美国知名数据平台 Databricks 举办了自己的年度大会——数据与人工智能峰会。会上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。

无论是从峰会的名称,还是新产品的命名,都能看出这家知名数据平台,正在趁着大语言模型的东风,加速向 AI 转变的脚步。

Databricks 公司 CEO Ali Ghodsi 所说的数据和 AI 普惠化|Databricks

「Databricks 要实现的是『数据普惠』和 AI 普惠,前者让数据通向每一个雇员,后者让 AI 进入每一个产品。」Databricks 公司 CEO Ali Ghodsi 在台上说出了团队的使命。

就在大会开始之前,Databricks 刚刚宣布以 13 亿美元收购 AI 领域的新生力量 MosaicML,创下了当前 AI 领域收购纪录,可见公司在 AI 转型上的力度和决心。

正在前方参会的 PingCAP 创始人兼 CEO 刘奇告诉极客公园,Databricks 平台刚刚上线 AI 的企业级应用,就已经有超过 1500 家公司在上面进行模型训练,「数字超出预期」。同时,他认为 Databricks 由于之前在数据+ AI 方面的积累,让公司能在 AI 大火之际,迅速在之前平台基础上加入新产品,就能快速给出和大模型相关的服务。

「最关键的就是速度。」刘奇说道,在大模型时代,如何用更快的速度让大模型和现有产品整合,解决用户的痛点,可能是当下所有数据公司最大的挑战,同时也是最大的机会。

Talking points

  1. 通过交互界面的升级,不是数据分析师的普通人,也可以直接使用自然语言查询和分析数据。
  2. 企业将大模型部署到云端数据库将越来越容易,直接使用成品大模型工具分析数据,也将变得更加简单。
  3. 随着AI的进展,数据的价值还将越来越高,数据潜力将被进一步释放。

01

数据库迎来自然语言交互

在会上,Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承载着 Databricks 近期最大的发力方向之一——数据分析普惠化,即不掌握 Python 和 SQL 的普通人也能轻轻松松接入公司数据,用自然语言就能进行数据分析。

为达到这个目的,LakehouseIQ 被设计为一个功能合集,既可以被普通终端用户使用,也可以被开发者使用,针对不同的用户设计了不同的功能。

LakehouseIQ 产品图|Databricks

对于开发者方面,发布了 LakehouseIQ in Notebooks,这项功能中,LakehouseIQ 可以利用大语言模型帮助开发人员完成、生成和解释代码,以及进行代码修复、调试和报告生成。

而对于普通的非程序员群体,Databricks 则提供了可以直接用自然语言交互的界面,背后由大语言模型驱动,可以直接用自然语言来搜索和查询数据。同时,该功能与 Unity Catalog 集成,让公司可以对数据的搜索和查询进行访问权限控制,只返回提问者被授权查看的数据。

自大模型推出以来,用自然语言对数据进行查询和分析,其实一直是一个数据分析方向的热点,许多公司在此方向都有所布局。包括 Databricks 的老对手 Snowflake,刚刚宣布的 Document AI 功能也是主打这个方向。

LakehouseIQ 自然语言查询界面|Databricks

不过 Databricks 宣称,LakehouseIQ 做到了更好的功能。它提到,通用大语言模型在理解特定客户数据、内部术语和使用模式方面拥有局限性。而 Databricks 的技术,能够利用客户自己的模式(schema)、文档、查询、受欢迎程度、线程、笔记本和商业智能仪表盘来获取智能,回答更多查询。

Databricks 的功能与 Snowflake 的功能还有一个差别,Snowflake 平台的 Document AI 功能,仅限于对文档中的非结构化数据进行查询,而 LakehouseIQ 适用于结构化的 Lakehouse 数据和代码。

02

从机器学习到 AI

Databricks 与 Snowflake 在发布会上的相似之处还不局限于此。

此次发布会中,Databricks 发布了 Databricks Marketplace 和 Lakehouse AI,这与 Snowflake 这两天大会的重点也完全吻合,二者都主打将大语言模型部署到数据库环境中。

在 Databricks 的设想中,Databricks 未来既可以协助客户部署大模型,也提供成品的大模型工具。

Databricks 过去就有 Databricks Machine Learning 的品牌,在此次发布会上,Databricks 对其进行品牌全面的重新定位,升级为 Lakehouse AI,主打协助客户部署大模型。

Databricks 上线了 Databricks Marketplace。

在 Databricks Marketplace 中,用户可以接入经过筛选的开源大语言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,还可以发现和获取数据集、数据资产。Lakehouse AI 还包括一些大语言模型操作能力(LLMOps)。

Lakehouse AI  架构图|Databricks

Snowflake 也在对此进行积极部署,其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供。

在协助客户部署大模型方向,Snowflake 与 Databricks 显现出了分歧。Snowflake 选择积极地与合作伙伴进行合作,而 Databricks 则试图将该功能作为其核心平台的本地特性添加进去。

而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未来还将可以提供 Lakehouse Apps。Lakehouse Apps 将直接在客户的 Databricks 实例上运行,它们可以与客户的数据集成,使用和扩展 Databricks 服务,并使用户能够通过单点登录体验进行互动。数据永远不需要离开客户的实例,没有数据移动和安全/访问问题。

这点则与 Snowflake 公司的产品从命名到功能上都直接撞车。Snowflake 公司与之相似的 Snowflake Marketplace 和 Snowflake Native App 已经上线,是其发布会的重点之一。彭博社就在 Snowflake 的大会上宣布了一个由彭博社提供的 Data License Plus (DL+) APP,允许客户在云端用几分钟时间就能配置一个随时可用的环境,内部设有完全建模的彭博订阅数据和来自多供应商的 ESG 内容。

03

数据平台迎来新变革

开幕式主旨演讲上,Databricks 公布了一个数字:过去 30 天,已经在 Databricks 平台上训练 Transformer 模型的客户超过 1500 家。

在谈及这个令人印象深刻的数字时,PingCAP 刘奇认为,这说明企业应用 AI 的速度比预期的要快得多,「应用模型不一定要去训练模型,所以如果训练的都有 1500 家,那应用的肯定要比这个(数字)大的多得多。」

另一方面,这也表明 Databricks 在 AI 这个领域的布局相对完整。「它现在不仅仅是一个 Data Warehouse(数据仓库),一个  Datalake(数据湖)。现在它还提供:AI 的 training(训练)、AI 的 serving(服务),模型的管理等一整套。」

Ali Ghodsi 以计算和互联网的革命,类比大模型之于机器学习的变革|Databricks

也就是说,底层模型可以通过 Databricks 的平台去训练,「最底层的模型改改参数就能训练」。在这个模型之上所需要的 AI 服务,Databricks 也布局了相应的基础设施——今天发布了 vector search(向量搜索)和 feature store(特征库)。

Databricks 全面向大模型升级。

过去,Databricks 在 AI 方面有很多积累,比如在建索引、查数据、预测工作负载等方面,用小模型来提高效率、降低时延。但是,以如此快的速度补上大模型的能力,还是让不少人意外。

在今天峰会全面展示的 AI 布局之前,Databricks 收购了 Okera(AI 数据治理),推出了自家的开源大模型 Dolly 2.0,又以 13 亿美元并购了 MosaicML,一连串的动作一气呵成。

对此,硅谷徐老师 Howie 认为,Databricks 和 Snowflake 这两个大会都可以比较明确地看出:两家公司的创始人认为,基于数据库、数据湖他们所做的行动、接下来会面临根本性的改变。按照一年前他们在做的思路,在未来几年行不通。

相应地,快速补齐大模型的能力,也意味着可以获得由于大模型带来的增量市场。

刘奇认为,没有大模型之前,很多的需求可能都不存在,但有了大模型之后,有了很多新增需求。「因为只有模型没有数据,干不了什么事情,特别是没有办法做出差异化。如果大家都是一个大模型,那你跟别人可能也没有差别。」

但比起大模型,峰会现场的观众似乎更关注小模型,因为小模型的几个优势:速度、成本、安全性。刘奇表示,基于自己独有的数据,做出差异化的模型,模型要足够小才能满足这三条:足够便宜、足够快、足够安全。

值得注意的是,Databricks 和 Snowflake 在日前都公布了它的营收数据,平台年营收增长在 60% 以上。相比整个市场软件支出放缓的大背景,这样的增长速度反映了数据越来越被关注。这次 Databricks 峰会的主题也是数据加 AI,但有了大模型,数据的价值还将越来越高。

大模型的到来,让数据自动生成成为可能,可以预见,数据量将指数级增长。怎么轻松地访问数据、怎么支持不同的数据格式、挖掘数据背后的价值,会成为越来越频繁的需求。

另一方面,今天很多企业还在还在探索观望将大模型接入企业软件,但考虑到安全、隐私、成本,敢直接用的,还很少。一旦通过将大模型直接部署到企业数据上,无需移动数据,部署大模型的门槛将被进一步降低,数据被消费的数量和速度都将被进一步释放。

火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆

火山引擎刚刚交出大模型趋势答卷:

火山方舟,一个大模型服务平台

它将国内多个明星大模型放在平台上,如MiniMax、智谱AI、复旦MOSS、百川智能、IDEA、澜舟科技、出门问问等。

不仅为大模型玩家提供训练、推理、评测、精调等功能与服务,后续还提供运营、应用插件等工具,进一步支撑大模型生态。

总之,就是要为大模型,打造一个超强底座

而透过火山方舟,火山引擎如何看待大模型趋势?想做哪些事?如今也有了更明确的答案。

火山方舟是什么?

简单理解,各种大模型平台都好比自营商铺,向行业用户售卖大模型服务。

不过火山方舟想做的不是自家专卖店,而是一个集合了多家大模型旗舰店的商城

在这个商城里,行业用户可以快速触及到业界优质的大模型,基于火山引擎的能力对模型精调推理,降低大模型使用门槛

大模型玩家能基于火山引擎搭建稳健的大模型基础设施,提升自家模型业务能力,触及到更加直接和广泛的行业需求,加速迭代升级。

火山方舟作为连接二者的平台,则负责提供丰富完善的开发工具、充沛算力、安全互信的平台以及企业服务等,让双方的合作更加丝滑。

重点功能包括6个方面,贯穿了大模型采购使用的全流程:

第一是模型广场

这可以理解为模型提供方和使用方初步了解的一个平台,大模型厂商能在此进行模型创建、上传、部署等操作,下游用户能看到模型效果并快捷体验。

第二是模型推理

当用户选定好模型后,火山引擎可提供安全互信的推理方案,既保障模型提供方的知识产权安全,同时也维护使用者的数据信息安全。用户能直接使用已部署的在线服务,或者将精调模型部署为在线任务。

第三是模型精调

对于大部分行业用户来说,通用大模型只是基础能力,想要使用更优质的大模型服务可能都需要基于自家数据进行持续训练或精调。

火山方舟能提供极简精调流程,只需两步即可一键精调:选择基础模型→上传标注数据集。对于有复杂需求的场景,还能进一步设置高级参数、验证集、测试集等更丰富的功能。

第四是模型评测

生成式大模型目前还很难形成一个业界公认的benchmark,应用场景、数据等因素都会影响它的表现。但对于行业用户来说,明晰不同大模型的优劣势是购买服务前至关重要的一步。

所以火山方舟同步推出了评测工具,支持用户基于自身数据、系统化地感知模型表现情况,并且给出详细的测评报告,为后续做决策提供数据基础。

要知道,B端的使用场景也是“千人千面”的,企业要用自己的评测数据试一试,才能给出符合自身要求的准确评估。此外,基础模型的升级,新技术新模型的涌现,还将持续很长一段时间。企业需要不断测试对比、紧跟发展。

第五是运营干预

通过提供运营干预工具,用户可以快速设置相关规则,这样在模型已经投入使用后,无需精调模型即可干预模型输出结果。

第六是应用插件

目前大模型接入插件功能是大势所趋,能进一步发挥模型能力。未来在火山方舟上,能看到实时信息获取(通常说的“联网”)*、私域文档问答召回、Prompt补全与构建等。

透过以上重点功能,不难看出火山引擎对于当下云计算趋势的理解——尽可能加速大模型应用落地

而且在具体实现路径上,火山引擎还给出了一种别样的打法,并且形成了鲜明的自身特点。

火山引擎智能算法负责人吴迪给出了三个关键词来总结:

开放、加速、信任。

所以火山方舟有何不同?

开放、加速、信任,三个关键词一一对应,其实代表火山方舟的自身定位、算力和安全。

首先来看自身定位上,火山方舟是个开放、中立的平台,企业客户可以根据实际效果自由选择模型

对于云厂商而言,想要做好MaaS服务,核心之一肯定是模型层要够丰富、够强大。因为这意味着能在更丰富的应用场景中落地。

此前不少人将这一问题的解决,局限在了云厂商自家大模型能力提升上。

随着亚马逊云推出大模型平台Bedrock,一次接入Stability AI、Anthropic等多家大模型能力,给行业内开启了一种新范式。

这样一来,平台能直接引入业内最优秀的大模型,丰富自身能力和应用场景。

火山方舟的路径亦是如此,纳入更多大模型也让它具备更高的灵活性。

吴迪介绍,这样一来用户能够根据不同任务需求“货比三家”,接触到更多行业先进大模型。

通过提供统一的workflow,火山方舟能够实现模型之间的灵活插拔。在多模型切换下,工作流基本不改变,让各个模型完成自己擅长的任务,加速大模型的开发构建应用。

其次,火山引擎重点关注了大模型玩家们焦虑的算力问题。主打一个够用、实惠且稳定。

火山引擎的海量资源池,能够满足当下大模型训练推理的需求。

而通过加速训练和推理,能让算力的性价比更高。

NVIDIA开发与技术部亚太区总经理李曦鹏表示,如果想要硬件充分发挥性能,需要软硬件协同设计

硬件方面,NVIDIA针对生成式AI的不同硬件配置与火山引擎底层平台深度结合。

在软件层面也提出了多种优化方法,双方一起做了很多开源发布,以图像预处理算子库CV-CUDA为例。它们能高效地运行在GPU上,算子速度达到OpenCV(运行在CPU)的百倍左右。如果用CV-CUDA作为后端替换OpenCV和TorchVision,整个推理的吞吐量能提升至原来的二十多倍,算子输入结果上CV-CUDA与OpenCV完全对齐。

此外,火山引擎还推出了Lego算子优化

这一框架可以根据模型子图的结构,采用火山引擎自研高性能算子,实现更高的加速比。

在推理场景下,使用Lego算子优化,可以将基于Stable Diffusion模型的端到端推理速度提升至66.14 it/s,是PyTorch推理速度的3.47倍,运行时GPU显存占用量降低60%。在训练场景下,在128张A100上跑15天,模型即可训练完成,比当时最好的开源版本快40%。

而在稳定性方面,火山引擎也和英伟达做了更底层的合作。

李曦鹏介绍,目前大模型训练往往需要几千、上万张卡同时启动,如果其中某台机器出现故障,则会导致整个训练过程被影响。因此训练过程中的稳定性非常关键,它将直接影响开发效率。

在这方面,火山引擎和英伟达基于内部大量测试,最终实现了特定模型的规模、网络结构等,确定合适的checkpointing频率,在保障训练连续性的同时又让机器能够稳定运行。

具体能力也已有实际案例验证

大模型玩家MiniMax基于火山引擎,研发了超大规模的大模型训练平台,高效支撑着三个模态大模型每天数千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。除了训练以外,MiniMax也同步自研了超大规模的推理平台,目前拥有近万卡级别的GPU算力池,稳定支撑着每天上亿次的大模型推理调用。MiniMax和火山引擎一起为大模型训练搭建了高性能计算集群,一起致力于提升大模型训练的稳定性,保证了超千卡训练的任务稳定运行数周以上。

稳健的大模型基础设施让MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环,实现从月至周级别的大模型迭代速度,和指数级的用户交互增长。MiniMax面向企业级的大模型解决方案目前已接入数百家企业客户,打通办公协作、智能硬件、教育、医疗、客服等十余个行业场景。

然后是能力输出上,火山引擎提出训推一体以及统一workflow

统一workflow的能力不仅在于模型的灵活插拔,它还集成了火山引擎对大模型能力的理解。

比如如何做自动评估?pipeline怎么定?该做多少精调?这些问题都是需要经过大量开发工作后,才能输出的经验。通过这些细节上的保驾护航,企业用户落地大模型的效率和成功率都会有明显提升。

另一边,火山方舟也重点提出了训推一体的理念。

吴迪表示,基于对行业的观察,他相信未来大模型领域的头部及腰部厂商都会使用“1+n模式”,也就是自研或深度合作一个主力大模型、同时调用多个外部模型,对训练和推理都有需求。

加之火山引擎始终认为深度学习、机器学习是一件统一、紧凑且纯粹的事情,所以他们判断训推一体模式会是发展趋势,并已在火山方舟上推出。

而且训推一体化后,同样能为企业节省算力。

最后再来看安全方面,这也是火山方舟着重强调的部分

吴迪表示,在大模型时代,信任问题至关重要。

大模型提供方不希望自己辛苦训练出的模型被人拷贝走,这属于重要知识产权;下游客户不希望自己的数据在推理和精调过程中不被泄露,敏感数据只有自己可见。

在这二者之间,便会形成一个信任的gap。尤其是当下大模型服务中的合作方众多,构筑信任墙就显得至关重要。而火山引擎作为云平台,会通过互信计算框架,基于不同客户的安全和隐私保护诉求,提供了包括安全沙箱、可信硬件以及联邦学习方案,来保证大家在互信的基础上推理、精调等。

以上三个方面,将火山引擎在云市场中的差异勾勒清晰。

从中也可看出,火山引擎的技术积累、行业经验和趋势理解,都为它入局大模型平台提供了坚实的保障。

那么,为什么火山引擎的答卷是火山方舟?

为什么是火山方舟?

直接原因来自于市场需求

大模型趋势轰轰烈烈演进几个月,几乎触及到了各行各业,相应的需求也随之暴涨。

但对于行业用户来说,怎么触及市面上最先进的模型?怎么选择最适合自己的模型?怎么确定最后的大模型服务方案?这些问题对企业自身的技术理解程度、开发水平都提出了要求。

作为供给侧,大模型玩家也急于在热潮下快速推进自家业务发展。这不仅是一场技术竞赛,同时也是一场商业竞速赛,谁能更快触及更多用户,就会在市场中更快站住脚跟。在这种情况下,平台的触达能力一定大于厂商自身。

以及底层硬件厂商,同样也迫切需要大模型底座

NVIDIA开发与技术部亚太区总经理李曦鹏表示,英伟达开发每一款新产品,都是以workload来驱动,所有开发都是要解决真实存在的问题。

比如随着深度学习的兴起,用Tensor Core加速矩阵乘法计算,就是在原有框架下针对workload的重点模块做效率提升。

再比如英伟达去年发布的Hopper架构,设计远早于发布时间。当时GPT-3才刚刚问世,大模型趋势远没有到来,英伟达是做了大量前瞻性的研究。而怎么做出这种前瞻性的探索,就是要从实际应用的基础结构中去发现问题。

回到当下来看,对于未来AI的趋势是否朝着GPT趋势发展,李曦鹏表示现在也无法确定,但是行业中的实际需求能够推动英伟达做出更有针对性的硬件和软件特性升级。

怎么更快、更准确把握住这些需求?还是要依托平台连接大模型玩家

所以,像火山方舟这样承载着大模型供给方、使用方以及底层硬件厂商的平台,是行业迫切需求的。

而更深层的原因,还来自火山引擎自身

吴迪很确定地说,火山方舟的使命,是加速大模型、大算力应用落地。

为什么要加速?两条增长曲线可以给出答案。

在以时间为横轴、GPU需求量为纵轴的坐标系里,首先出现当下的第一条增长曲线:模型训练曲线

现在新兴的大模型正如雨后春笋般冒出,训练需求量飙升。但随着通用大模型市场趋于饱和,这条增长曲线也会逐渐放缓。

与此同时,还有一条增长曲线出现:推理需求曲线(模型应用曲线)

而且它将在短期内呈指数增长趋势,在2025年左右和训练需求曲线相交,并在之后反超。

也就是说,市场上的推理需求量,最终一定会大于训练需求量。因为推理需求多大,代表了应用场景有多丰富。

如果应用场景的丰富度不够高,导致推理需求曲线没有快速升起,训练需求曲线同样也会受到影响滑落

一旦出现这一局面,将意味着目前诸多投身大模型浪潮的创业者和企业,将会面临非常艰难的局面。

吴迪表示,火山引擎深信大模型趋势不是一次简单的浪潮,它将是新技术时代的一扇窗。如果想要加速这个时代更快到来,那么就要尽可能缩短推理需求超过训练需求的时间轴。

也就是加速大模型的应用落地。

火山方舟同时连接下游应用层和上游模型层、硬件层,加速企业用户使用大模型,在营收上更快去回报大模型领域创业者,以此形成一个加速正向循环。

而这也是为什么火山引擎要将自家大模型平台取名为“方舟”。

吴迪说,在想名字的时候,他们希望能有一个词来形容开放包容、生机勃勃、充满希望的意境。

最终在几十个词中确定了方舟。因为它能代表两方面寓意。

第一,承载着很多人的事业和梦想,共同驶向一个成功的远方,而且是一个具象的词;

第二,火山引擎相信整个大模型、大算力领域,需要众多合作伙伴在模型训练、内容安全、硬件优化等方面共同努力;

如今,方舟带着火山引擎的技术积累、行业理解以及美好愿景,正式启航。

未来大模型浪潮将会如何翻涌,还是未知数。

但载着众多国产大模型玩家、携手英伟达的火山方舟,一定会带着火山引擎驶向新的节点。

来源: 量子位

周鸿祎:企业不要觉得有了GPT就能瞎裁员了

6月29日消息,360创始人周鸿祎在一场演讲中谈到,“我一直在很努力的说服很多企业家,不要觉得有了 GPT 就能瞎裁员了。”

周鸿祎称,自己的观点和微软类似,信息化、数字化增大了我们大家的工作量。自从有了电脑化、即时通信工具后,大家每天有无数的消息要回,工作量加大了,有大量的文案工作。大模型企业落地要普惠,让每个人都用起来,成为员工的知识助手、办公助手,领导的决策助手。

“大模型不是万能的,只能打辅助,做一部分工作。所以大模型不会淘汰人,当然程序员也不会被淘汰,要有信心。我最近不也是又报名上了清华,电子信息专业,重新去学习做一个工程师。”周鸿祎在微博上也发文强调:“人工智能的发展还是要以人为本。”

“比GPT-4强”!谷歌DeepMind自曝正开发新型AI模型

不久前强强合并而成的人工智能巨头Google DeepMind终于向ChatGPT发出实质性挑战。在上个月的谷歌(Google) I/O开发者大会上,谷歌公司首次透露了其正在开发的大型语言模型Gemini。

据《连线》6月26日报道,DeepMind联合创始人兼Google DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)最近在采访中进一步透露了Gemini的细节:该系统将AlphaGo背后的技术与大语言模型相结合,目标是让系统具有新的能力,如规划或解决问题,比OpenAI的GPT-4能力更强。

2016年,DeepMind开发的AlphaGo曾击败围棋高手创造历史。“你可以认为Gemini结合了AlphaGo系统的一些优势和大模型的惊人语言能力。”哈萨比斯说,“我们也有一些新的创新,这些创新将非常有趣。

可能会尝试新想法AlphaGo是基于DeepMind开创的一种叫做强化学习的技术,在这种技术中,软件通过反复尝试并接受关于其表现的反馈,学会选择采取何种行动以处理棘手的问题,比如围棋或视频游戏。它还使用了一种叫做树状搜索(tree search)的方法来探索和记忆棋盘上的可能动作。语言模型的下一个大飞跃,可能涉及让这种技术在互联网和计算机上执行更多任务。哈萨比斯说,Gemini仍在开发中,这个过程将需要数月时间,可能花费数千或数亿美元。

OpenAI首席执行官山姆·奥特曼(Sam Altman)曾在4月透露,创建GPT-4的成本超过1亿美元。训练像GPT-4这样的大型语言模型,需要将来自书籍、网页和其他来源的大量文本输入被称为Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)的机器学习软件。

它利用训练数据中的规律,熟练地预测一段文本后面的字母和单词,这种简单的机制在回答问题和生成文本或代码方面被证明是非常强大的。要开发ChatGPT和类似能力的语言模型,需要一个重要的额外步骤:使用基于人类反馈的强化学习来完善其性能。

DeepMind在强化学习方面的深厚经验可以让其研究人员赋予Gemini新的能力。哈萨比斯和他的团队也可能尝试用人工智能其他领域的想法来加强大型语言模型技术。DeepMind的研究人员涵盖了从机器人到神经科学等各个领域,本周,该公司展示了一种算法,能够学习用各种不同的机器人手臂执行操纵任务。

谷歌DeepMind的研究人员最近将人工智能与一款名为RoboCat的机器人结合起来,预计将在自我训练机器人方面实现一大跃进。人们普遍认为,像人类和动物那样从世界的物理经验中学习,对于使人工智能更有能力非常重要。一些人工智能专家认为,语言模型通过文本间接地学习世界,是一个主要的限制。谷歌高层十分重视GeminiGemini是DeepMind迄今为止在该领域最有野心的项目。

国外科技网站The Information在3月报道称,受谷歌聊天机器人项目巴德(Bard)失败的刺激,为了跟上ChatGPT的步伐,谷歌高层直接参与Gemini的研发,包括该公司最高级的人工智能研究主管杰夫·迪恩(Jeff Dean)。

Gemini的开发完成,可能会让谷歌在与ChatGPT等生成式人工智能技术的竞争中占据优势。尽管谷歌开创了许多技术,并催生了最近的人工智能创新,但它选择了谨慎地开发和部署产品。

而到了4月,为了应对越来越激烈的竞争,谷歌将其“谷歌大脑”实验室与哈萨比斯领导的DeepMind合并为Google DeepMind。哈萨比斯说,新团队将结合两个强大的人工智能团队。“如果你看看我们在人工智能领域的地位,我会说80%或90%的创新来自这两者之一。”哈萨比斯说。“过去十年里,这两个组织都取得了一些杰出的成就。”哈萨比斯自己曾引发过一场人工智能狂热。

2014年,DeepMind被谷歌收购。在接下来的几年里,DeepMind展示了AI如何做到曾经看起来只有人类才能做到的事情。当AlphaGo在2016年击败围棋冠军李世石时,许多人工智能专家都惊呆了,因为他们曾认为,机器要想熟练掌握如此复杂的游戏,还需要几十年。

值得注意的是,Gemini并不是DeepMind进入语言模型领域的第一次尝试。去年,该公司推出了聊天机器人Sparrow,声称它比其他语言模型更不可能给出“不安全”或“不恰当”的答案。

哈萨比斯今年1月在接受《时代》采访时说,DeepMind将考虑在今年某个时候发布Sparrow的私人测试版,目前还不清楚这些计划是否仍在进行中。

来源:澎湃科技