阿里云推出文本生成图片大模型——通义万相

在2023世界人工智能大会上,大模型成为绝对焦点,有30多个大模型团队集体亮相,不少通用和行业垂直模型都是首次登场。7月7日,在上海召开的2023世界人工智能大会上,阿里云宣布AI绘画创作大模型通义万相开启定向邀测。(官方网址:https://wanxiang.aliyun.com/)

据介绍,该模型可辅助人类进行图片创作,未来可应用于艺术设计、电商、游戏和文创等应用场景。阿里云智能集团CTO周靖人表示,这是阿里云大模型全面掌握多模态能力的关键一步,该能力将逐步向行业客户开放。

记者了解到,通义万相首批上线三大能力:

其一,基础文生图功能,可根据文字内容生成水彩、扁平插画、二次元、油画、中国画、3D卡通和素描等风格图像;

其二,相似图片生成功能,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作;

其三,在业内率先支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。

先看功能一,记者特意写了很长的文字描述,有61个字,系统显示可读字数达到500字。底下可以选择画风以及画面比例。

可以看到,生成结果包含四张图,对选择困难症患者还是……很友好的?

除了画面主人公姿态的变换,在宠物的数量、宠物与人大小对比等方面,通义万相给出了不同答案。你也可以选择“复用创意”,微调文本或选择生成其他画风。

记者给出的第二题,是看看杭州西湖——

“雨后夏天的杭州西湖,湖面微风飘过、水波荡漾,游船游人如织,画面采用新海诚风格或者油画风。”

看起来,核心要素都体现了,就是画面风格还是自己选更靠谱。

下一题,“各色奥特曼环成一圈,举手欢呼的场景”。

这道题,以前记者也测试过百度的文心一言,结果很离谱。通义万相的理解相对接近,虽然和记者脑补图不是一回事,但初次测试表现来看还算是很出彩。

通过语义文字的不断细化、调整,还可以让画风更接近心目中的理想型。

素描风(通义万相)

3D卡通风(通义万相)

最后一题,“城市核心商业区的摩天大楼,仰视视角,二次元风。”

无论是哪个大模型,都需要在不断地学习和训练中“变强”。据悉,基于阿里研发的组合式生成模型Composer,通义万相可通过对配色、布局、风格等图像设计元素进行拆解和组合,提供高度可控性和极大自由度的图像生成效果,仅需一个模型即可支持多类图像生成类任务能力,该研究成果已在国际AI顶会ICML 2023上发表。

作为业内最早布局大模型的科技公司之一,在去年的世界人工智能大会上,阿里云“通义”大模型系列首次亮相。此后,通义千问、通义听悟等模型和产品相继推出,家族新成员通义万相的亮相,意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。

阿里云方面的数据显示,目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。

在大会演讲中,阿里云CTO周靖人表示:“阿里云将把促进中国大模型生态的繁荣作为首要目标,向大模型创业公司提供全方位的服务,包括最强大的智能算力和开发工具,并在资金和商业化探索方面提供充分支持。”

“多模态是大模型演进的必然路径,我们希望用不同模态的能力服务千行百业,帮助企业全面拥抱智能化时代。”周靖人表示。

本文来源浙江日报,如有侵权请联系删除

华为盘古大模型3.0正式发布,重塑千行百业!

近日,华为召开了2023开发者大会,在本次大会上华为云 CEO 张平安宣布,盘古大模型 3.0 正式发布。华为盘古大模型 3.0 是一个完全面向行业的大模型系列,包括 5+N+X 三层架构。

具体来说:

第一层 L0 层是盘古的 5 个基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,它们提供满足行业场景的多种技能。

盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 亿参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。

第二层 L1 层是 N 个行业大模型,既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等;也可以基于行业客户的自有数据,在盘古的 L0 和 L1 上,为客户训练自己的专有大模型。

第三层 L2 层是为客户提供更多细化场景的模型,它更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务。

盘古大模型采用完全的分层解耦设计,可以快速适配、快速满足行业的多变需求。客户既可以为自己的大模型加载独立的数据集,也可以单独升级基础模型,也可以单独升级能力集。

在 L0 和 L1 大模型的基础上,华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

据介绍,盘古可以一己之力做到网络搜索、请教专家、参考案例、查阅书籍等,让每个开发者都拥有一个自己的编程助手,甚至还可以实现一句对话代码生成、一个按键用例测试、一次点击自动注释、一条指令智能部署,极大地简化了开发的流程。

在气象领域,盘古气象大模型号称是首个精度超过传统数值预报方法的 AI 预测模型,同时预测速度也有大幅提升。原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台服务器上单卡配置,10 秒内就可以获得更精确的预测结果。

目前,盘古气象大模型在国际上带来了不小的震撼。欧洲中期预报中心将华为云盘古气象大模型与欧洲中期天气预报中心的实时运行了对比,得出了盘古预报实力更胜一筹的结论。就在昨天,国际顶级学术期刊《自然》正刊发表了华为云盘古大模型研发团队独立研究成果。这是中国科技公司首篇作为唯一完成单位发表的《自然》正刊论文,《自然》审稿人对该成果给予高度评价:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”

总的来说,盘古大模型 3.0 围绕“行业重塑,技术扎根,开放同飞”三大方向,持续打造自己的核心竞争力。此外,华为还首次提出打造“世界AI另一极”,在漂亮国围堵中国AI芯片背景下,华为喊出“打造世界AI另一极”,有望成为世界AI的另一极

AI科技资讯周刊:AI助手竞争激烈!Google计划超越GPT-4

Google对于ChatGPT的成功感到不满,因此计划推出自己的聊天机器人Bard,并整合AI资源,合并Google Brain和DeepMind两个研究团队,创建Google DeepMind。DeepMind的原CEO Demis Hassabis表示,Google有80%或90%的AI创新来自这两个团队。

ChatGPT 的大火,可把 Google 急坏了。

要知道 ChatGPT 中的「T」表示的是 Transformer 模型,出自于 Google 研究团队,而现在这一技术在竞争对手 OpenAI 的手上发光发热,这令 Google 颇感尴尬。

为应对这一挑战,Google 迅速推出了自己的聊天机器人 Bard,并且开始整合 AI 资源,合并了两大研究团队 Google Brain 和 DeepMind,创建了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 领导。

Hassabis 表示 Google 有 80% 或 90% 的 AI 创新都出自于这两个团队。

在 上个月的 Google I/O 大会上,Google CEO Sundar Pichai 官宣了一个重磅消息:Google DeepMind 正在研究一个全新的大语言模型,代号为 Gemini(双子座),这也是这两只团队合并后首次合作的项目。

近日,Demis Hassabis 在接受 Wired 的采访了透露了更多与 Gemini 有关的消息,这可能是 Google 向 OpenAI 反击的关键战役。

正在追赶的 Google

此前大家猜测,Gemini 和 GPT 模型类似,都是有着出色文本处理能力的大语言模型,两者的差异可能会体现在训练参数的规模上,模型规模越大,处理能力可能就会越强。

然而 Hassabis 表示,Gemini 有很多不太一样地方,例如 Google DeepMind 团队正在将 AlphaGo 中使用的技术结合语言模型,以赋予更强的规划或解决问题能力等等。这可能会成为 Gemini 的「杀手锏」技能。

抽象来看,你可以将 Gemini 看作是将 AlphaGo 型系统的一些优点与大模型的语言能力相结合。我们还有一些新的创新,这将非常有趣。

2016 年,横空出世的 AlphaGo 击败了围棋冠军李世石,让全世界第一次真切地感受到 AI 技术的震撼。

AlphaGo 的技术基于一种名为「强化学习」的训练方法,通过反复试验和反馈来学习如何解决问题,它还使用了一种称为树搜索的方法,探索并记住可能的走法。

Google DeepMind 团队希望将这些技术应用到语言模型中,使它们能够在互联网和计算机上执行更多任务。

DeepMind 在机器学习和强化学习有着丰富的经验,开展过多项重要的研究,包括:

AlphaGo:第一个击败人类世界冠军的围棋程序。AlphaGo 的成功标志着 AI 在处理复杂策略游戏方面的重大突破。

AlphaZero:AlphaZero 是一个通用的强化学习算法,可以在没有任何先验知识的情况下,仅通过自我对弈学习如何玩棋类游戏。AlphaZero 已经证明了其在国际象棋、将棋和围棋等游戏中的超强实力。

AlphaFold:AlphaFold 是一个可以预测蛋白质结构的深度学习系统。这个系统的准确性在生物学领域引起了广泛关注,因为它可以帮助科学家更好地理解疾病,并加速药物的发现和开发。

WaveNet:WaveNet 是一个深度生成模型,用于生成自然 sounding 的语音。它已经被广泛应用于语音合成和音乐生成等领域。

MuZero:MuZero 是一个无模型强化学习算法,它可以在没有环境模型的情况下,通过预测其动作的结果来学习策略和价值函数。MuZero 已经在多个任务和游戏中表现出了超强的性能。

DeepMind 在强化学习方面的深厚经验可能会为 Gemini 带来超越 ChatGPT 的新能力。

Hassabis 表示,Gemini 模型仍在开发中,这个过程将需要几个月的时间,可能花费数千万或者上亿美元。作为对比 OpenAI CEO Sam Altman 在四月份表示,创建 GPT-4 的成本超过了 1 亿美元。

Gemini 不仅仅是对 ChatGPT 做出的防御之举,还将是 Google 未来部署搜索等产品的技术基础。

Hassabis 表示,AI 的非凡潜在益处,例如健康或气候等领域的科学发,人类必须不停地发展这项技术。如果运用恰当的话,AI 将是对人类最有益的技术。

我们必须大胆且勇敢地去追求那些东西。

Google 不为人知的「护城河」

在 AI 研究方面,Google 还有一张盖住的王牌——全球最大的视频网站 YouTube。

视频是个非常多元的内容载体,我们可以把它分解成图像、音频和文字记录。Google 拥有 YouTube,也就意味着拥有最丰富的图像、音频训练内容。

根据 The information 报道,有内部人士透露 OpenAI 早已经悄悄地使用 YouTube 上的内容来训练其人工智能模型。

Google 自然不会忽视这座「金山」,The Information 继续爆料称 Google 的研究团队也在利用 YouTube 训练 Gemini 模型,并且 Google 能够比竞争对手们获得更完整的内容数据。

对于大语言模型来说,高质量的训练数据比黄金还要宝贵。

由于 YouTube 很多都是真实的对话,Google 可以利用 YouTube 视频的音频文本或描述作为训练 Gemini 的另一个文本来源,从而提高它的语言理解能力,并产生更加真实的对话反馈。

利用 YouTube 的视频内容,Google 还可以开发出类似于 Runway 用文本生成视频的多模态功能,用户只需要输入他们的描述就能生成出一条精美的视频。

除了制作视频,多模态模型还可以有更多的可能性,例如可以根据 YouTube 视频直接总结出球赛的亮点,或者根据视频帮助机械师诊断汽车修理问题。

OpenAI 在发布 GPT-4 模型时,曾展示过从草图生成网站代码的功能,这也是多模态模型的一个重要应用领域。

前 YouTube 高管 Shishir Mehrotra 表示,对 Google 来说,YouTube 视频简直就是一座数据金矿。

这不仅仅是因为视频的存在,而是因为视频存在于一个生态系统中。

YouTube 上的视频向 AI 展现了了人类是如何进行对话,这和书面化的文本有很大的不同,可以帮助模型更好的理解人类对话的逻辑,并生成更恰当的反馈。

不仅如此,Google 还收集大量的用户互动数据,清楚用户对视频的那些部分最感兴趣、哪些部分容易跳出、哪些内容会吸引用户评论等等。

据统计,YouTube 每分钟就有 500 小时的视频上传到网站上,Google 可以说是坐在了一座会源源不断生产金子的金山上,这或许会成为 Google 真正的护城河。

多模态才是未来

随着多模态模型越来越受到重视,未来会有更多的开发人员选择用视频训练语言模型。AI 教父、Meta AI 首席研究员 Yann LeCun 在近日一条推文中称:「通过视觉学习世界如何运转的系统,将对现实有更深刻的理解」,并称赞了 Meta 在这一领域的研究成果。

著名风投机构 A16Z 在最近采访了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和创始人,探讨出生成式 AI 当前最需要突破的四个方向,分别是操控、记忆、四肢(访问浏览器等)和多模态。

这四项关键关键创新将主导 AI 在未来 6 个月到 12 个月的发展,这也会影响公司和开发者改变构建产品的方式。

Cohere 的 CEO Aidan Gomez(著名论文《Attention is all you need》的主要作者之一)表示,AI 系统的能力终究是有限的,因为并非所有的内容都是文本形式,因此多模态能力对于大语言模型来说是个重要的发展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等模型已经在处理和生成图像、音频等内容。

我们现在的模型确实是字面意义上的「盲人」,这需要改变。

Aidan Gomez 在采访中总结道。

多模态模型能够极大地拓宽 AI 的应用场景,例如可以用在自动驾驶汽车或其他需要与物理世界实时交互的场景上。此前,Google 在 I/O 大会发布的 Med-PalM-2 模型便展示过可以分析 X 光照片的能力。

这也让人更加期待,更强大的 Gemini 能在多模态领域给我们多大的惊喜。现在看来,暂时取得领先的 OpenAI,远没有到停下来休息的时刻。

微软希望将 Windows 完全迁移到云端,十分看好 Windows 365

IT 之家 6 月 27 日消息,一份新的微软内部演示文档揭示了该公司对于 Windows 的长期目标。

从商业方面的变化大家也能看到,微软正在将越来越多的内容迁移到云端,拓展 Microfoft 365 等服务。

在 2022 年 6 月的一次内部 ” 业务状况 ” 演示中,微软讨论了如何将完整的 Windows 操作系统迁移到云端,并以此串流到任何设备上。

实际上,这份 PPT 是正在联邦贸易委员会目前与诉微软举行的听证会的一部分,因为它包括微软的整体游戏战略以及该战略与公司其他业务的关系。

简单来说,” 将 Windows 11 越来越多地迁移到云端 ” 被微软认为是 ” 现代生活 ” 消费领域中的长期机遇,包括利用 ” 云和客户端的力量,实现改进的人工智能服务,并实现人们数字体验的全面漫游 “。

在另一张 PPT 中,微软提到了为 2022 财年 ” 现代工作 ” 优先事项 ” 加强 Windows 商业价值并应对 Chromebook 威胁 ” 的需要,而 ” 商业方面的长期机会包括通过 Windows 365 增加云 PC 的使用 “。

得益于 Windows 365,微软可以将完整版本的 Windows 串流到任意设备上,但目前仅限于商业客户使用,不过微软已经将其深度集成到 Windows 11 中。

Windows 365 未来的更新将包括 Windows 365 Boot,这可以使 Windows 11 设备在启动时能够直接登录到云 PC 而不是本地 Windows。

今年 5 月,微软已经开始邀请用户测试其 Windows 365 Boot 云服务,所有升级到 Win11 22H2 的设备都可尝试访问这项服务。如图所示,你可以开机直接登录到 Windows 365 Cloud PC。

此外,Windows 365 Switch 也已内置于 Windows 11 中,以将云 PC 集成到 Task View ( 虚拟桌面 ) 功能中。

微软还提出了将消费者端的 Windows 完全迁移到云端的想法,同时也需要投资于定制芯片合作伙伴关系。

据称,微软已经在为其基于 Arm 的 Surface Pro X 设备做一些这方面的工作。

根据外媒 2020 年底的报道,微软正在考虑为服务器设计自己的 Arm 处理器,甚至可能会引入到 Surface 系列设备中。此外,最近还有消息称微软正在开发自己的 AI 芯片。

微软表示 Windows 365 Boot 云服务的初衷是,用户开机之后直接进入云 PC 登录界面,不需要启动其它应用的情况下,立即访问云账号服务。

微软表示不需要其它的步骤就可以访问 Windows 365 Cloud PC,用户登录其账号之后,立即可以使用虚拟桌面。对于需要在多个位置访问某台 PC 的用户来说,这项服务是非常有用的。

微软并未对所有用户开放 Windows 365 Boot,硬性要求如下:

Win11 终端设备(Win11 专业版或者企业版)

需要加入 Dev 频道 Windows Insider 成员

Microsoft Intune Administrator 权限

Windows 365 Cloud PC 许可证

重磅!龙岗区这个产业利好+1

7月6日下午,龙岗区在大运AI小镇举办“开放城市赛道 领跑智能时代”——龙岗区算法训练基地启用仪式暨龙岗区智慧城市产业联盟第一次代表大会

据了解

为深入贯彻落实

《深圳经济特区人工智能产业促进条例》

《深圳市加快推动人工智能

高质量发展高水平应用行动方案》

龙岗区积极探索实践

推出了

“一平台、一基地、一清单、一联盟”

四项具体举措

助力人工智能产业高质量发展

具体如下

↓↓↓

在全市率先搭建全国产架构的AI赋能平台,基于全区超10万路公共视频资源开展全天候智能分析,推动智慧城管、智慧交通、智慧市监等6大领域31个场景的智能化治理应用;

在全市率先搭建算法训练基地,全面开放政府数据、算力和应用场景,鼓励人工智能企业和机构创新创业,已有3家企业参与试用且研发完成20项算法成果,算法平均准确度超90%,比以往算法训练周期压缩约80%;

发布人工智能应用场景需求清单,首批梳理发布了50项人工智能应用场景清单,涵盖政府管理、政务服务、公共服务、城市治理等10大领域,动员科技企业“揭榜挂帅”定向研发,促进人工智能技术落地;

引导区智慧城市产业联盟发挥“桥梁纽带”作用,推动45家会员企业组团协作,促进产业链上下游资源共享,助力相关产业聚集发展。

接下来

龙岗区将以算法训练基地的启用

和智慧城市产业联盟代表大会的召开为契机

进一步推进政府数据、算力

和应用场景的全面开放

为科研机构、高校、科技企业搭建平台

助力创新创业和技术研发

促进人工智能技术应用和产业发展

活动中,区智慧城市产业联盟秘书处还发布了“企业服务贴心秘书、行业交流权威平台”两个方面10项服务新举措,并邀请了区工信部门和人工智能专家现场讲解产业政策和人工智能技术发展应用趋势,获得联盟会员企业一致好评。

2023世界人工智能大会:国产AI大模型加速落地,算力芯片企业争相“秀肌肉”

7月6日,以“智联世界、生成未来”为主题的2023世界人工智能大会(WAIC)在上海世博中心拉开帷幕。展会首日,一位参展人员笑称“不跟大模型沾点边都不好意思来参会”。

今年以来,AI大模型在全球掀起一轮开发热潮,眼下正处于快速应用落地的关键期。《证券日报》记者从现场参展公司获悉,在AI大模型向实际场景落地过程中,算力芯片企业重要性加速凸显。
在此次展会上,登临科技、燧原科技、瀚博半导体、沐曦等多家参展商或推出新品,或带来了产品最新落地成果。
算力芯片企业争相“秀肌肉”
无论从参展企业数量,还是展览面积来看,2023世界人工智能大会均创历届之最。5万平方米的世博主展览馆吸引了超过400家参展企业,首发首展新品达到30余款。值得一提的是,大模型以及为之提供算力支撑的芯片、智能计算企业是一众参展商中的“亮点”。
在展会现场,瀚博半导体、燧原科技、登临科技等国内芯片均利用自家产品演示运行大语言模型、AI绘画、文生PPT等。
高端GPU芯片公司瀚博半导体已连续三年参与世界人工智能大会。此次,瀚博半导体“一口气”发布了包括SG100全功能GPU芯片、LLM大模型AI加速卡以及高性能生成式AI加速卡等6款新品,为AI大模型、图形渲染和高质量内容生产提供完整解决方案。
据公司工作人员向《证券日报》记者介绍,AI大模型和元宇宙需要GPU强大的AI并行算力和图形渲染力支撑,为云端大芯片企业打开了广阔的市场前景。未来,具有并行计算能力的GPU芯片作为大模型计算的“大脑”将为大模型生成学习提供源源不断的算力支撑。
同样作为芯片设计企业,燧原科技在此次展会上发布了文生图MaaS平台服务产品——燧原曜图,能够为用户提供大模型的微调和MaaS服务并提升大模型应用的上线速度和效率。登临科技和天数智芯则“抢先一步”,直接带来了应用落地的实际案例。
记者在登临科技展台注意到,公司此次一并推出了大模型、智算中心、创新应用以及创新硬件四个展区。在大模型展示区域,登临科技特别展示了最新一代创新通用GPU产品-Goldwasser II系列以及基于开源大语言模型可交互界面。
在此次展会上,作为国内首家量产通用GPU企业,天数智芯对外宣布公司天垓100芯片在日前完成百亿级参数大模型训练后,将继续完成更大参数规模的大模型训练。
除通用算力芯片外,基于高性能芯片的AI模型应用也是行业未来“重头戏”。一直以来,汇纳科技通过AI传感器、人工采集、互联网以及AI模型生产四大渠道,为实体商业领域的购物中心、零售品牌等用户以及各级政务提供标准化或定制化的数据支持服务。下一步,公司将基于现有数据底座推动更多企业、政务部门数字化转型。
“人均算力”市场前景广阔
展会上的火热程度仅仅是国内大模型快速发展的一隅。近年来,北京、上海、深圳等多地纷纷出台相关支持举措,开展大模型创新算法及关键技术研究,加强人工智能算力基础设施布局,加速人工智能基础数据供给,从而构筑人工智能创新高地。
按中国信通院测算,2022年我国人工智能核心产业规模达5080亿元,同比增长18%。从短期来看,AI大模型无疑将成为人工智能核心产业发展“新引擎”。
在此次世界人工智能大会上,不少算力芯片参展商较为看好AI大模型发展过程中的国产化机遇。
“大模型应用发展直接将英伟达带入万亿美元市值俱乐部。对于我们国内厂商来说的话,其实也存在一个比较好的发展前景。”上述参展人员向《证券日报》记者表示,未来在算力中心或者其他的细分领域,人工智能的应用必然是一个趋势,至少往后5-7年,相关企业还是会保持比较高速的增长。
不过,区别于海外大模型发展路线,登临科技市场部相关负责人在接受《证券日报》记者采访时表示,“我们认为未来中国大模型的发展跟海外是不一样的。海外是主要是面向C端,比如亚马逊、谷歌、OpenAI这些,那么中国会有很多公司主要做B端,像在医疗、国央企的应用。因此,整体解决方案的性能、功能和性价比格外重要。”
面对AI大模型对于底层算力需求与日俱增,天数智芯董事长兼CEO盖鲁江向《证券日报》记者表示,大家现在能看到很多从事大模型开发的企业,少的需要百亿参数,多的需要几千亿参数,所以未来对算力的需求一定是越来越多。用同行的话来说,未来应该是按人均算力,即每天需要消耗多少算力,就像现在计算每天人均消耗多少电量一样。
多家券商在近期研报中表示,大模型催生算力需求,AI产业需求持续爆发。国内大模型自研AI大模型进入“百花齐放”阶段,大模型的涌现开启了算力“军备赛”。同时,大模型参数呈现指数规模,进一步引爆海量算力需求。随着国内外科技企业持续对AI大模型领域的投入,AI产业相关的芯片产业链将有望迎来快速发展。

上下游的“冰与火”:AI拐点在哪?

近期,年内持续火爆的AI行情短期熄火,截至7月5日,软件开发板块10个交易日遭资金净流出超过240亿元,文化传媒、游戏、计算机设备等行业板块净流出资金也均超过百亿元。

除了二级市场,AI上下游产业链也出现了微妙的偏差,上游硬件持续火爆,光模块、HBM等依旧有大批企业“抢滩”,而游戏等AIGC应用端却有走冷趋势。目前一个整体判断的是,人工智能行业正在渡过一个关键的发展瓶颈——即技术实力何时能够全面转化为商业红利?

01上游火热:企业抢滩算力、存力、运力

AI的快速发展一直受限于算力(信息计算能力),但是拥有先进芯片并不意味着拥有更高的算力,单个AI服务器的算力有限,亟需通过高性能网络连接多个AI服务器和存储系统,构建大规模计算集群。

存力(数据存储能力)、运力(网络运载能力)两大概念也应运而生。

中国工程院院士倪光南提出了广义算力和存算比两个概念:广义算力=存力+算力+运力,存算比=存力/算力。经测算,我国的存算比为0.42TB/GFLOPS,表明存力相对不足,存在重算力、轻存力的倾向。

为了在AI浪潮中占据一席之地,算力里的CPO、存力里的HBM成了企业“抢滩”重点。

首先是算力方向。

AI算力的需求对光模块的需求带来较大增长,据悉,AI服务器所用的A100、H100等GPU,需用200G以上的高速率光模块8—10个/片。AI算力建设与云计算需求共振,800G光模块开启规模量产新周期,800G 大客户需求指引有望持续超预期,光模块龙头厂商持续产能扩张以应对高涨需求。

自3月以来,北美厂商已经多次追加800G光模块订单,追加频率及数量超市场预期。根据国金证券研报,目前英伟达等海外几大巨头给到800G光模块供应商的预期2024年已上升至1000万只,光模块厂商正在大力扩产,以应对爆发时需求增长。中际旭创近日也在互动平台回复称,公司用于AI场景的800G光模块正在持续出货和取得收入。

其次是存力方向。

高带宽存储器(HBM)正成为AI时代的“新宠”。HBM是一种基于3D堆叠工艺的DRAM内存芯片,具有更高带宽、更低功耗、更小尺寸等优点。它突破了内存内容与宽带瓶颈,能为GPU提供更快的并行数据处理速度,被视为GPU存储单元的理想解决方案。

近来,继英伟达之后,全球多个科技巨头都在竞购SK海力士的第五代高带宽存储器HBM3E。据证券日报消息,半导体行业内部人士称,各大科技巨头已经在向SK海力士请求获取HBM3E样本,包括AMD、微软和亚马逊等。申请样本是下单前的必要程序,目的是厘清存储器与客户的GPU、IC或云端系统是否兼容。此举意味着,HBM3E良率已经很稳定、能够大量生产,已来到交货前的最后阶段。

对于AI上游硬件的后续发展,天风证券认为,AI硬件投入将继续保持强劲的发展势头。服务器部署反映算力需求,大部分公司有服务器扩张计划。不同公司在计算资源的使用量、成本和供应商选择上存在差异,反映出它们在AI技术发展上的投入和战略规划。

02下游冰冷:AIGC遭应用端抵制?

与上游正相反,AI下游应用端似乎有“结冰”趋势。

首先是此轮AI行情的导火索——ChatGPT,其访问量正在下滑。

据证券日报消息,网络分析公司Similarweb统计数据显示,2023年前5个月,ChatGPT全球访问量环比增幅分别为131.6%、62.5%、55.8%、12.6%、2.8%,增长幅度明显下降;6月份ChatGPT的访问量环比下滑9.7%,为其推出以来首次。市场认为,(通用AI大模型)产业泡沫化风险在一定程度上已经出现。

其次是被视为AI将最先落地的应用端——游戏领域,出现了抵制AI的事件。

据南方都市报消息,游戏平台Steam的母公司valve在审核游戏时,拒绝了一部使用AI生成内容的游戏。valve表示,由于AI生成内容的版权归属不清楚,他们无法发布这些游戏,除非开发者能证明他们拥有用于训练AI的数据的权利。

目前,AI技术在游戏开发中已经广泛应用,比如用来生成地形、角色、音效等。一些大型游戏公司,如育碧、EA等,也都在积极探索AI技术在游戏中的可能性。然而,AI技术也带来了一些版权和伦理上的挑战和争议——AI生成,是否是创新的,是否是真实的?

事实上,上述两件事,恰恰证明了AI在应用端的同质化问题,短时间内可以引发使用者的兴趣,但缺乏能留存用户的实用性和创新性,这也是近期AI大模型热议的要重视“垂直化”和“行业验证”。

从当前产业发展情况来看,AI应用层依旧处于初级阶段。简单来说,就是广度够了,类似当年的互联网,AI可以在各行各业都沾点边,但缺少深度,主要局限于文字、图片或视频的生成,信息的真实性也难以保证。这主要受制于四方面:

一是技术问题,AI技术需要涉及到机器学习、深度学习、自然语言处理等多个领域,技术成熟度尚未达到预期,很多应用场景仍然需要更多的研究和开发。

二是数据问题,AI落地是一个知易行难的过程,AI模型想实现应用,需要大量、统一、标准、高质量的数据来进行训练,数据的广度、深度、安全性等问题都需要重视。

三是硬件问题,更智能的AI需要更高的计算能力,正如前文所属,当前AI上游硬件端还处于发展阶段,算力、存力、运力都亟待提升,否则难以支撑商业落地。

四是交流问题,在大部分的场景下,都是工程师、科学家讲一套语言,而业务负责人讲另外一套语言,AI产业链上下游战线过长,供应端与应用端尚未形成良性交流,这种状态进一步导致了AI的落地难。

03AI商业化拐点何时到来?

往后看,AI上下游的“错配”还会持续多久?商业化拐点何时能够出现?

其一,要看从技术能力到场景应用的转化,何时实现通用化、适配化、量产化、规模化。如果服务的每一个客户,都需要为其单独定制解决方案,就意味着商业模式没跑通,不能实现边际成本的持续走低。

其二,单位成本和效率能否持续优化?AI对于各个行业最直接的意义,当然是“降本增效”,市场认为,AI对游戏、传媒等领域的效率提升有望达10倍。但如今AI硬件和软件成本依旧高昂,在上游产业化有实质进展前,“降本增效”仍然只是空谈。

其三,相关法律法规的落地。归根结底,人工智能技术其实取决于两大变量,一是算法,二是数据。而市场对数据安全的担忧,正是制约AI进化的原因之一。随着AI相关法规进一步完善,商业化落地才有了基础。

当然,AI的红利是清晰可见的,它可以与各行各业相结合,但到底是“AI产业化”还是“产业AI化”还待定论。总体而言,AI发展的方向是有的——自动驾驶技术就是AI在汽车领域的一种极致演绎,但走向成熟的道路必然艰难。在未来商业化的求解上,各大企业也势必要经历一番波折。归根结底,AI已是时代风向,与时代为友,就需要给予更大的耐心,才有机会享受时代的红利。

04二级市场的AI热度到头了?

从二级市场来看,今年以来,AI概念股走出一波大行情,几只大牛股被炒出“天价”。股价炒得过高的一个基础也在于,新模式、新技术的估值方式还没有共识。新的题材,尤其是尚未能落到商业化、收入层面的技术突破,它的估值不适用传统的市盈率、市净率等方式,如何给这些概念股估值,市场还在摸索中,形成共识需要时间。

事实上,每种新技术都有一个成熟度曲线,其发展可以分为5个阶段,即技术萌芽期、期望膨胀期、泡沫破裂低谷期、稳定成长期和成熟期。

在不同发展阶段,市场具有不同的期望,例如“技术萌芽期”的期望值随时间逐步提升,在“期望膨胀期”达到阶段性顶峰,在“泡沫破裂低谷期”期望值持续下行,直至产业化来临,迎来“稳定成长期”,最终在渗透率大幅提升之后,进入“成熟期”。

目前而言,AI技术还在期望膨胀期,二级市场行情则处于概念炒作阶段(后续还有技术炒作阶段、业绩炒作阶段)。接下来市场将上演大浪淘沙——二级市场的信息披露更加完善,上市公司是真的具备AI硬实力,还是单纯蹭概念,不久就会真相大白,投资者要做的是密切关注。

重磅,GPT-4 API 全面开放使用!

遥想今年 3 月刚推出 GPT-4 的 OpenAI 仅邀请了部分提交申请的开发者参与测试。眼瞅 OpenAI 联合创始人 Greg Brockman 在当时现场演示“史上最为强大”的 GPT-4 模型,轻松通过一张手绘草图生成一个网站、60 秒就能搞定一个小游戏开发等这些功能,一众开发者却不能使用。

而就在今天,GPT-4 的适用性进一步被拓展。OpenAI 正式发布 GPT-4 API,现对所有付费 API 的开发者全面开放!

OpenAI 路线图:本月底前向新开发者拓展推出 GPT-4

在上线的这四个月里,相信很多人通过技术解析论文(https://cdn.openai.com/papers/gpt-4.pdf),对于 GPT-4 也不太陌生。

据 OpenAI 透露,自今年 3 月份发布 GPT-4 以来,数以百万计的开发者要求访问 GPT-4 API,且利用 GPT-4 的创新产品的范围每天都在增长。

与其前身 GPT-3.5 相比,GPT-4 的不同之处在于它增强了生成文本(包括代码)的能力,同时还接受图像和文本输入。

该模型在各种专业和学术基准上表现出“人类水平”。此前,OpenAI 研究人员也做过测试,称,如果 GPT-4 是一个仅凭应试能力来判断的人,它可以进入法学院,而且很可能也能进入许多大学。

与 OpenAI 以前的 GPT 模型一样,GPT-4 是使用公开的数据进行训练的,包括来自公共网页的数据,以及 OpenAI 授权的数据。从技术维度上来看,GPT-4 是一个基于 Transformer 的模型,经过预训练,可以预测文档中的下一个 token。这个项目的一个核心部分是开发了基础设施和优化方法。这使 OpenAI 能够根据不超过 GPT-4 的 1/1000 的计算量训练的模型,准确地预测 GPT-4 的某些方面的性能。

不过,目前有些遗憾的是,图像理解能力还没有提供给所有 OpenAI 用户。还是像今年 3 月份 OpenAI 宣布的那样,它只是与其合作伙伴 Be My Eyes 进行测试。截至目前,OpenAI 还没有表明何时会向更广泛的用户群开放图像理解能力。

现如今,所有具有成功付费记录的 API 开发者都可以访问具有 8K 上下文的 GPT-4 API,当然,这一次还不能访问 32 K 上下文的。

同时,OpenAI 也有计划在本月底向新的开发者开放访问权限,然后根据计算的可用性,开始提高速率限制。

值得注意的是,虽然 GPT-4 代表了生成式 AI 模型发展的一个重要里程碑,但是这并不意味着它是 100% 完美的。就 GPT-4 而言,它还有可能产生“幻觉”,并理直气壮地犯一些推理性错误。

在未来,OpenAI 表示也正在努力为 GPT-4 和 GPT-3.5 Turbo 安全地启用微调功能,预计这一功能将在今年晚些时候推出。

 Chat Completions API 

在公告中,OpenAI 还宣布将普遍向开发者提供 GPT-3.5 Turbo、DALL-E 和 Whisper APIs。

同时也向开发者分享了目前广泛使用的 Chat Completions API 现状。OpenAI 表示,现在 Chat Completions API 占了其 API GPT 使用量的 97%。

OpenAI 指出,最初的 Completions  API 是在 2020 年 6 月推出的,为语言模型进行互动提供了一个自由格式的文本提示。

Chat Completions API 的结构化界面(如系统消息、功能调用)和多轮对话能力能够使开发者能够建立对话体验和广泛的完成任务,同时降低提示注入攻击的风险,因为用户提供的内容可以从结构上与指令分开。

OpenAI 表示,当前也正在弥补 Chat Completions API 的几个不足之处,例如completion token 的日志概率和增加可引导性,以减少回应的 “聊天性”。

旧模型的废弃

另外,OpenAI 也发布了旧模型的弃用计划。即从 2024 年 1 月 4 日开始,某些旧的 OpenAI 模型,特别是 GPT-3 及其衍生模型都将不再可用,并将被新的 “GPT-3 基础”模型所取代,新的模型计算效率会更高。

根据公告显示,具体淘汰的模型包含 Completions API 中的一些旧模型,包含我们熟悉的 davinci:

  • 使用基于 GPT-3 模型(ada、babbage、curie、davinci)的稳定模型名称的应用程序将在 2024 年 1 月 4 日自动升级到上述的新模型。在未来几周内,通过在 API 调用中指定以下模型名称,也可以访问新模型进行早期测试:ada-002、babbage-002、curie-002、davinci-002。
  • 使用其他旧的完成模型(如 text-davinci-003)的开发者将需要在 2024 年1月4日之前手动升级他们的集成,在他们的 API 请求的 “模型 “参数中指定 gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct 是一个 InstructGPT 风格的模型,训练方式与 text-davinci-003 类似。这个新的模型是 Completions API 中的一个替代品,并将在未来几周内提供给早期测试。

与此同时,OpenAI 表示,希望在 2024 年 1 月 4 日之后继续使用他们的微调模型的开发者,需要在新的基于 GPT-3 模型(ada-002、babbag-002、curie-002、davinci-002)或更新后的模型(gpt-3.5-turbo、gpt-4)之上进行微调替换。

随着 OpenAI 在今年晚些时候开启微调功能,他们将优先为以前微调过旧型号的用户提供 GPT-3.5 Turbo 和 GPT-4 微调服务。具体原因是,OpenAI 深谙从自己的数据上进行微调的模型上迁移是具有挑战性的,对此他们会为「以前微调过的模型的用户提供支持,使这种过渡尽可能顺利」。

除了淘汰一些 Completions API  旧模型之外,OpenAI 表示,旧的嵌入模型(如 text-search-davinci-doc-001)的用户也需要在 2024 年 1 月 4 日前迁移到 text-embedding-ada-002。

最后,使用 Edits API 及其相关模型(如t ext-davinci-edit-001 或 code-davinci-edit-001)的用户同样需要在 2024 年 1 月 4 日前迁移到 GPT-3.5 Turbo。Edits API 测试版是一个早期的探索性 API,旨在使开发人员能够根据指令返回编辑过的提示版本。

OpenAI 在公告中写道,“我们认识到这对使用这些旧型号的开发者来说是一个重大变化。终止这些模型不是我们轻易做出的决定。我们将承担用户用这些新模式重新嵌入内容的财务成本。”

OpenAI 表示将在未来几周,与受影响的用户联系,一旦新的模型准备好进行早期测试,他们也将提供更多信息。

预告:下周,所有 ChatGPT Plus 用户可用上代码解释器

最为值得期待的是,OpenAI 官方还在 Twitter 上预告:代码解释器将在下周向所有 ChatGPT Plus 用户开放。

它允许 ChatGPT 运行代码,并且可以选择访问用户上传的文件。开发者可以直接要求 ChatGPT 分析数据、创建图表、编辑文件、执行数学运算等。

不知大家期待否?

调用 GPT-4 API 可以做的 10 件事

最后,随着此次 GPT-4 API 的放开,开发者再也不用费尽心思地购买 Plus 服务了,调用迄今业界最为强大的 GPT-4 API,无疑也让相关的应用更加智能。

那么,我们到底能用 GPT-4 API 来做什么,对此外媒总结了常见的 10 种用法:

  • 基于 GPT-4 API 的叙事能力,可以快速生成复杂情节、人物发展等小说内容,彻底改变文学创作领域。
  • GPT-4 API 为模拟极其真实的对话铺平了道路,反映了人类交互的真实性和精确性。
  • GPT-4 API 展现了即时语言翻译的能力,有效地弥合了各种语言和文化之间的沟通差距。
  • GPT-4 API 在数据分析方面有很强的能力,可以为数据分析市场参与者提供了宝贵的洞察力。
  • GPT-4 API 能够打造与现实世界动态相呼应的高度逼真的虚拟环境,增强了游戏和虚拟现实等领域的沉浸感。
  • GPT-4 API 生成复杂计算机代码的能力,使其成为软件开发人员不可或缺的盟友。
  • GPT-4 API 可以解释和分析医疗数据,帮助准确诊断和预测各种健康状况。
  • 利用其先进的语言生成能力,GPT-4 API 可确保快速、准确地生成法律文件。
  • GPT-4 API 展示了解释消费者数据和生成定制营销内容的能力,有效地与目标受众产生共鸣。
  • GPT-4 API 有可能通过分析大量的科学数据来推动科学创新,在化学、物理学和生物学等不同领域发现新的见解。

2023年7月总结-国内外大模型集合

国内大模型列表

序号公司大模型省市官网说明
1百度文心一言北京试用需账号
2科大讯飞星火安徽合肥试用需账号
3达观数据曹植上海试用需账号
4阿里云通义千问浙江杭州试用需账号
5复旦大学MOSS上海试用需账号
6清华大学ChatGLM北京开源6B,智谱AI
7华为盘古广东深圳华为+鹏城
8智源人工智能研究院悟道·天鹰北京悟道3.0,视界视觉,AQUILA天鹰座,Aquila-7B,AquilaChat-7B,AquilaCode-7B-NV,AquilaCode-7B-TS
9哈尔滨工业大学本草黑龙江哈尔滨医学;基于LLaMA;另有基于 ChatGLM 的Med-ChatGLM
10贝壳BELLE北京基于BLOOMZ或LLaMA的多个模型
11百川智能baichuan北京开源可商用
12OpenBMBCPM北京面壁智能,智源
13上海人工智能实验室书生·浦语, OpenMEDLab浦医上海技术报告,上海AI实验室+商汤+港中文+复旦+上海交大
14云知声山海北京
15东北大学TechGPT辽宁沈阳基于BELLE->LLaMA,图谱构建和阅读理解问答
16港中文深圳华佗,凤凰广东深圳香港中文大学(深圳)和深圳市大数据研究院,医学,Demo,华佗和凤凰都基于BLOOMZ
17中科院紫东太初北京紫东太初2.0号称100B参数,全模态
18虎博科技TigerBot上海基于BLOOM
19IDEA研究院封神榜MindBot广东深圳
20微盟WAI上海
21360智脑,一见北京
22度小满轩辕北京基于BLOOM
23华南理工大学未来技术学院ProactiveHealthGPT,扁鹊,灵心SoulChat广东广州
24西北工业大学+华为秦岭·翱翔陕西西安流体力学大模型,湍流+流场
25奇点智源Singularity OpenAPI北京瑶光和天枢
26超对称技术公司乾元北京
27稀宇科技MiniMax上海GLOW虚拟社交,
28西湖心辰西湖浙江杭州
29晓多科技+国家超算成都中心晓模型XPT四川成都
30中国科学院计算技术研究所百聆北京基于 LLaMA,权重Diff下载7B和13B,demo
31北京语言大学桃李北京基于LLaMA,北语+清华+东北、北京交大
32商汤科技日日新上海
33国家超级计算天津中心天河天元天津
34星环科技无涯、求索上海无涯——金融;求索——大数据分析
35慧言科技+天津大学海河·谛听天津
36恒生电子LightGPT浙江杭州
37电信智科星河北京通用视觉,中国电信
38左手医生左医GPT北京医疗,试用需Key
39智慧眼砭石湖南长沙医疗领域
40好未来MathGPT北京学而思
41数慧时空长城北京自然资源,遥感
42理想科技大道Dao北京运维大模型
43硅基智能炎帝江苏南京
44中工互联智工北京与复旦NLP实验室联合,工业领域
45创业黑马天启北京创业黑马与360合作,科创服务行业
46追一科技博文Bowen广东深圳
47网易有道子曰北京
48网易伏羲玉言广东广州
49昆仑万维天工北京与奇点智源联合研发
50知乎知海图北京知乎和面壁科技合作
51医疗算网Uni-talk上海上海联通+华山医院+上海超算中心+华为
52蚂蚁集团贞仪浙江杭州据传语言和多模态两个
53中科创达魔方Rubik北京
54腾讯混元广东深圳
55拓尔思拓天TRSGPT北京
56乐言科技乐言上海
57清博智能先问北京基于结构化数据
58智子引擎元乘象江苏南京
59拓世科技拓世江西南昌
60循环智能盘古北京循环智能,清华大学,华为
61印象笔记大象GPT北京
62第四范式式说北京
63字节跳动Grace北京内部代号
64出门问问序列猴子北京
65数说故事SocialGPT广东广州
66云从科技从容广东广州
67电科太极小可北京党政企行业应用
68中国农业银行小数ChatABC北京
69麒麟合盛天燕AiLMe北京
70台智云福尔摩斯FFM台湾华硕子公司
71医联科技medGPT四川成都
72理想汽车MindGPT北京
73深思考人工智能Dongni北京
74长虹长虹超脑四川绵阳
75孩子王KidsGPT江苏南京
76中科闻歌雅意北京
77澜舟科技孟子北京
78京东ChatJD北京
79智臻智能小i上海小i机器人
80新华三H3C百业灵犀浙江杭州
81鹏城实验室鹏城·脑海广东深圳Peng Cheng Mind
82宇视科技梧桐浙江杭州AIoT行业
83中国联通鸿湖北京
84美亚柏科天擎福建厦门公共安全
85赛灵力科技达尔文广东广州赛灵力,清华珠三角研究院,赛业生物,大湾区科技创新服务中心

国外大模型

公司大模型说明
OpenAIChatGPT
微软Bing Chat
GooglePaLM2
AnthropicClaude
MetaLLaMA
Stability AIStableLM
AmazonTitan
BloombergBloombergGPT
MosaicMLMPT
IntelAurora genAI
UC Berkeley, Microsoft ResearchGorilla

ChatGPT紧急下线联网搜索功能,用户:钱都付了就给我看这个?

一夜之间,ChatGPT 又回到了 2021 年。

OpenAI宣布暂停ChatGPT的Bing搜索功能。

根据通知,自2023年7月3日起,出于谨慎考虑,他们禁用了这一测试版功能。

OpenAI表示他们正在修复问题以保护内容所有者的权益,并努力尽快恢复测试版。

ChatGPT浏览Bing是ChatGPT Plus订阅者使用的一个功能,ChatGPT Plus是ChatGPT的高级版本,每月收费20美元,订阅者可以优先体验新功能和改进,并在对话中获得更快的响应时间。

然而,OpenAI意识到该功能有时会以他们不希望的方式显示内容,因此暂停了该功能。

今年3月,ChatGPT首次宣布拥有联网功能。

但最新更新中宣布停止了该功能,用户对此表达了不满。

一些付费用户表示,他们为了使用Bing搜索功能才付费订阅ChatGPT Plus,并质疑OpenAI的决定。

他们担心未来ChatGPT可能不再支持网站内容的翻译功能。同时,一些用户认为ChatGPT4.0的性能下降,甚至比3.5版本差。

有外媒就此事联系了 OpenAI,询问关于此项决定的几个问题。对方回复了邮件,但仅仅是列出一条与更新后的帮助页面内容相似的推文。

OpenAI 称:

我们了解到,ChatGPT 的“Browse”beta 版有时会以意外方式显示内容。例如,若用户坚持请求目标 URL 指向的全文,其可能在无意中满足这一请求。我们将暂时禁用 Browse 功能并修复相关问题,希望维护内容所有者的应有权益。

九大“镇馆之宝”亮相世界人工智能大会

2023世界人工智能大会7月6日在上海开幕,大会为期三天。

2023年世界人工智能大会有三大亮点。一是互动体验再度升级,智能化应用场景进一步拓展。二是参展企业数量和展览面积均创历届之最,5万平方米世博主展览涵盖智能终端、应用赋能、前沿技术、核心技术四大板块。三是为重视场景应用落地、产业需求对接和产业人才发展,大会邀请了国内外顶尖学府、科研机构、投资机构及各界相关代表深度交流,展现创新应用落地的突破性成果。

 ○ 九大镇馆之宝 ○

蚁鉴AI安全检测平台2.0

蚁鉴AI安全检测平台2.0,安全性方面,自研的诱导生成技术应用于AIGC安全性检测,助力AIGC的产出符合安全规范与社会伦理。可靠性方面,平台构建一套实战性攻击标准,对AI系统提供全面多维度的鲁棒性测评服务,有助于AI系统的改进和优化。透明性方面,融合逻辑推理、因果推断等技术,提供涵盖完整性、准确性等7个维度及20项评估指标,对AI系统的解释性进行全面和客观的量化分析。

Amazon Bedrock

 Amazon Bedrock是亚马逊云科技推出一项完全托管的生成式AI服务,通过 API 提供来自领先的 AI 初创公司和亚马逊自研的基础模型,帮助客户便捷安全的构建和扩展生成式AI应用。

客户可以从各种基础模型中进行选择,找到最适合自身业务场景的模型,同时借助 Amazon Bedrock 的无服务器体验,快速上手直接使用,或者在确保数据安全和隐私的前提下,使用自有数据进行微调,并通过熟悉的亚马逊云服务和产品工具轻松集成并部署到应用程序中,而无需管理任何基础设施。

文心一格

文心一格是百度推出的AI艺术和创意辅助平台,是百度依托于飞桨、文心大模型持续的技术创新,在“AI作图”方面发布的产品和技术工具。文心一格背后的文生图技术基于文心大模型打造,是全自研的原生中文文生图系统,并可提供多样的AI生图服务,包括图像编辑、骨骼和线稿识别、小样本训练等。

Graphcore C600 IPU处理器PCIe卡

Graphcore C600 IPU处理器PCIe卡主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。它在提供低延时、高吞吐量的同时不损失精度,帮助AI开发人员解决“精度与速度难两全”的痛点,为AI应用提供解锁IPU强大算力的新路径,以满足客户和机器智能从业者对于易用、高效以及更优TCO推理产品的强烈需求。C600在提供强大的算力、易用性和灵活性的同时,还实现了低时延和低功耗,在运行典型工作负载时的散热设计功耗仅为185瓦,可为运维人员大大减少数据中心运营开支。

昇腾AI“大模型超级工厂”

昇腾AI“大模型超级工厂”从大模型的数据&模型准备、算力准备&模型训练、模型部署上线&集成等阶段全流程使能大模型的开发与应用创新。

目前基于昇腾AI原生孵化了业界首个两千亿参数的中文NLP大模型鹏城.盘古、业界首个多模态大模型紫东.太初以及华为云盘古系列在内的20多个国产大模型。同时,昇腾AI也已适配支持了ChatGLM、LLaMA、GPT-3、BLOOM等数十个业界主流开源开放的大模型。

AI药物研发自动化解决方案

晶泰科技AI药物研发自动化解决方案实现了AI药物研发实验过程的高度自动化和智能化:不仅突破了药物研发DMTA循环中化学合成这一关键限速瓶颈,提升了药物研发实验效率和成功率,更进一步解决了AI药物研发实验中标准化过程数据缺失的问题,可全程记录标准化、可追溯的过程数据和正负结果数据,供AI模型学习迭代,更好的设计反应步骤,形成AI、自动化实验、数据的互相正反馈,实现automation for AI,AI for science的正向循环。

云燧智算集群

云燧智算集群是面向大型智算中心的高性能人工智能加速集群,旨在满足AIGC时代对超大规模算力的需求。目前基于该集群产品,已在国家级重点实验室之江落地千卡规模训练集群,提供超过 100P 的先进AI算力,以高效支撑包括融媒体、文本生成PPT的应用、跨模态图像生成等多个 AIGC应用,以及计算基因、计算制药、计算材料等多种的 AI4S 科学计算应用的开发和前沿探索。

智能换电无人驾驶商用车Q-Truck

 全球首款智能换电无人驾驶商用车 Q-Truck,配套智能能源服务PowerOnair,5分钟即可完成无人化电池补能,适用于海陆空铁、工厂等多个物流场景。Q-Truck,还曾作为唯一无人驾驶卡车参演《流浪地球2》电影。

腾讯多媒体实验室XMusic

腾讯多媒体实验室基于AIGC技术最新推出的XMusic生成式通用作曲框架,支持视频、图片、文字、标签、哼唱等多模态内容作为输入提示词,生成情绪、曲风、节奏可控的高质量音乐。

 ○ 科学前沿 ○

上海人工智能实验室单位联合发起大模型语料数据联盟

上海人工智能实验室、中国科学技术信息研究所、上海数据集团、上海市数商协会、国家气象中心以及中央广播电视总台、上海报业集团等单位联合发起的大模型语料数据联盟正式成立。

华为轮值董事长胡厚崑:盘古大模型3.0即将发布

2023世界人工智能大会开幕,华为轮值董事长胡厚崑发表演讲。胡厚崑表示,去年年底ChatGPT的出现,把人工智能推向了新的风口。人工智能将帮助我们改写身边的一切。他介绍了华为在人工智能方面的布局,推动人工智能走深向实:深耕算力;从通用大模型到行业大模型,服务好千行百业。他最后预告,在7月7日的华为云开发者大会上,盘古大模型3.0即将发布。

特斯拉“擎天柱”人形机器人亮相

据介绍,特斯拉人形机器人身高172cm,体重56.6kg,就是一个正常成年人的身形。机器人全身拥有28个自由度,就如同人体的关节。手部有11个自由度,可以更加灵活的抓握,且力大无比,可以单手举起一台钢琴。 

目前,这款人形机器人可以完成行走、上下楼梯、下蹲、拿取物品等动作,也已经具备保护自身和周边人安全的能力。未来还可以做饭、修剪草坪、帮助照看老人,或是在工厂里替代人类从事枯燥和有危险的工作。因为他搭载了与特斯拉汽车一样的具有全自动驾驶能力的电脑和视觉神经网络系统,在Dojo超级计算机的加持下,同样可以利用动作捕捉来“学习”人类。

WPS AI正式定名,官网同步上线

 金山办公携旗下基于大语言模型的智能办公助手WPS AI亮相2023世界人工智能大会,WPS AI官网(ai.wps.cn)同步上线,并开启招募智能办公体验官的通道,WPS Office个人用户和WPS 365企业用户均可申请。WPS AI 作为国内协同办公赛道首个类ChatGPT式应用,接入了金山办公多个办公产品组件,原有的轻文档、轻表格、表单接入WPS AI后实现产品升级,更名为WPS智能文档、WPS智能表格、WPS智能表单,进一步赋能智慧办公新场景。

  金山办公CEO章庆元在大会现场表示,金山办公将WPS AI定位为大语言模型的应用方,未来锚定AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三个战略方向发展。

商汤科技多款AI大模型亮相世界人工智能大会

商汤科技携多款人工智能大模型产品亮相。作为对标ChatGPT的语言大模型,“商量SenseChat”是商汤科技“日日新SenseNova”大模型体系下的千亿级参数语言大模型,拥有领先的语义理解、多轮对话、知识掌握、逻辑推理的综合能力。在展会现场,记者注意到,商汤科技还带来了基于“商汤日日新SenseNova”大模型体系推出的“商汤如影SenseAvatar”AI数字人视频生成平台。该平台基于AI数字人视频生成算法、语言大模型、AI文生图、AIGC等多种能力,能够轻松实现高质量、高效率的数字人视频内容创作。

傅利叶智能发布GR-1通用人形机器人

开幕式上,傅利叶智能在重大创新成果首秀环节发布了最新研发的一款通用人形机器人GR-1。据介绍,这款机器人有高度仿生的躯干构型、拟人的运动控制,具备快速行走、敏捷避障、稳健上下坡、抗冲击干扰等运动功能,结合认知智能,能够与人协同完成动作,在工业、康复、居家、科研等多应用场景潜能巨大。

○ 大咖观点 ○

马斯克:未来,地球上机器人的数量将超过人类

  在2023世界人工智能大会开幕式上,特斯拉创始人兼首席执行官埃隆马斯克表示,随着算力爆炸式增长,“机器计算”与“生物计算”的比例这一关键指标正在不断提高,这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。未来,地球上机器人的数量将超过人类。

马斯克预测,随着人工智能技术的快速发展,大约在今年年末,就会实现全面自动驾驶。“我之前也做过许多类似的预测,我承认之前的预测也不完全准确,但是这一次的预测,我觉得是比较接近的。”马斯克表示。

丁磊:用最快速度探索AI大模型的创新应用,是网易首要任务

在2023世界人工智能大会上,网易多款人工智能大模型落地产品首次亮相。网易CEO丁磊表示,用最快的速度探索AI大模型的创新、应用,是网易的首要任务。据了解,网易AI大模型正在加速覆盖百余个产业应用场景,其中,网易伏羲有灵众包平台今年将为10万人提供AI新职业,包含挖掘机远程驾驶员、AI绘画师、AI表情绑定师等人机协作的就业岗位。网易称,今年平台将帮10万人提供人机协作的就业机会。

腾讯汤道生:行业大模型是企业拥抱AI的更优路径

 在2023世界人工智能大会产业论坛上,腾讯高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生表示,人工智能发展的根本目标是落地于产业,服务于人,行业大模型是企业拥抱AI的更优路径,将开启产业升级“黄金时代”。汤道生还透露,不久前公布的腾讯云MaaS将迎来新的升级,科技成果将在腾讯论坛公布。

微软大中华区董事长侯阳:未来每一个应用程序将由人工智能驱动

在大会开幕式上,微软全球资深副总裁、微软大中华区董事长兼首席执行官侯阳表示,微软坚信,今后任何一家公司都需要具备驾驭数字技术的能力,“我们也看到随着生成式人工智能不断展现出的巨大潜力,今后每一家公司的每一个应用程序都将由人工智能来驱动。”

“AI教父”杨立昆:不喜欢AGI这个词,大语言模型不是通往人类智慧的道路

在开幕式中,杨立昆就以视频连线方式,与地平线创始人余凯就AI大模型相关话题进行对谈。杨立昆表示“我并不喜欢AGI这个词。”他进一步解释,每一个人工智能都是专项的,人类智能同样也是专项的,但LLM(大语言模型)只基于文本训练,而没有利用视频训练,这导致模型是不理解物理世界的。如果不理解物理世界,就没办法规划、推理,以及实现目标。

     “如果LLM(大语言模型)漏掉的是一些非常基本组件的话——那就意味着这个系统是不足的。LLM可能很有用,你可能希望让它做点什么,可以加载很多应用,但LLM不会是那条通往人类智能的道路。”他表示。

     针对AI大模型所引起的“AI威胁论”愈演愈烈,杨立昆提出了“目标驱动人工智能”的理念,即设定必须满足的目标,并逐步提高系统的智能水平,而不是喂给模型一两万个Token,让模型自己进行推理。最后,杨立昆也提到,严格监管人工智能发展并不能保证AI安全。相反,开源才是唯一让AI保持良善且实用的办法。“想象一下,在十年或者十五年之后,我们每个人都通过AI助手和数字世界来进行互动,所有的信息都会在其中流转,如果AI技术被少数控制公司来控制的话,这并不是好事。”

姚期智:ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力

圆桌会议中,姚期智谈及,ChatGPT下一个重要目标,是让智能机器人有视觉、听觉等多种感知能力,能够在各种不同的环境中自主学习各种新技能。但现在问题是方法太慢了,新技术常常需要几个月时间才能做好。姚期智认为,强化学习、具身智能是一个很好的技术发展趋势,能够给智能机器人带来很好的发展。

香港科技大学首席副校长郭毅可:人工智能对教育的影响是根本性的

香港科技大学首席副校长、英国皇家工程院院士郭毅可在2023年世界人工智能大会科学前沿全体会议上表示,人工智能对教育的影响是根本性的。现在人工智能还处于初期,但这是革命性的开始,所有的一切都会发生改变。在教育层面,人工智能会给教学工具、考试方法乃至教学内容都带来巨大的影响。

中国电信研究院副院长:发展元宇宙,要提前布局GPU芯片、6G等算力产业

  2023世界人工智能大会6G智能网络与计算论坛上,中国电信研究院副院长李安民表示,元宇宙的发展将推动世界进入智能算力时代,元宇宙时代对智能算力、带宽的强劲需求,将为5G的规模发展以及国家“东数西算”战略实施以及人工智能和芯片的发展带来巨大机遇,“长期来看,千倍以上的算力需求、百以上的带宽需求是元宇宙得以健康发展的基础,因此需要提前规划布局万兆宽带、6G、智能算力网络的建设以及GPU芯片等智能算力产业。”李安民说。

马斯克:中国 AI 会很强,年底或实现自动驾驶

北京时间 2023 年 7 月 6 日上午,WAIC 2023 世界人工智能大会正式开幕,特斯拉创始人伊隆·马斯克再次亮相,不过这次是以远程视频的方式。

遥想 2019 年,同一场地,马斯克曾经和阿里巴巴创始人马云展开过一次巅峰对话。4 年之后,很多事情都变了,其中最重要的一个就是,因为大语言模型带起的新一波 AI 浪潮,让通用智能似乎距离人类更近了一步。

在当天的发言中,作为「AI 毁灭派」的代表之一,马斯克强调了通用人工智能 AGI、或者深度智能可能带来积极的未来,但也有概率出现负面的未来,人们应该确保不会发生后者。

在此次 WAIC 2023 大会的展区,特斯拉的机器人 Optimus 吸引了众多目光。马斯克认为,人形机器人还处于早期开发阶段,但是在未来,机器人的数量,或将超过人类数量。

同时,作为有限人工智能的一种,特斯拉一直在研发的全自动驾驶 FSD 或将在年底实现。

对于东道主,马斯克认为「中国下定决心去做一件事,他们一定能够做得非常出色,人工智能也不例外」。他相信「中国在人工智能方面将拥有强大的能力」。

以下为伊隆·马斯克在 WAIC 2023 大会上的演讲文字整理实录:

上海的朋友们,大家好!

人工智能将在人类文明进化中发挥非常深远的作用。当前。计算机的数量和算力正在爆炸式增长,地球上的数字计算机与「生物计算机」的比例一直在增大。这意味着随着时间推移,相对于机器,人类智力在地球上的总思维能力中所占的比例将越来越小。

这将是一场深刻的变革,我认为,人类正处于最深远的变革时期之一。

未来,地球上会有大量的机器人。一个值得思考的问题是,随着时间推移,机器人与人类的比例会是多少?在将来某个时刻,二者的比例可能超过 1:1,这意味着机器人将比人类多,甚至是多很多。这一趋势已经十分明显。

好的一面是,人类将生活在一个富足的时代,人们想要的任何商品和服务都可以轻易地拥有。在拥有大量机器人的未来,全球的生产效率将会提高到令人难以置信的水平。当然,我们需要非常谨慎地对待,确保机器人对人类是有益的。

特斯拉 Optimus 机器人在 WAIC 2023 上展出|极客公园

我相信,特斯拉将在这一进程中扮演重要的角色。特斯拉人形机器人正在开发中,其目标是帮助人们完成琐碎的工作,完成人类不愿做的无聊、重复或危险的任务。因此,它不需要很高的智能水平就可以胜任这些工作。

人工智能的一个重要应用是汽车的自动驾驶。在自动驾驶方面,特斯拉非常乐意将技术授权给其他汽车制造商。自动驾驶技术会把人们从枯燥的驾驶中解放出来,给人们更多的自由和时间。

同时,自动驾驶将大大提升车辆的利用率。一辆普通乘用车每周使用时长大概是 10 到 12 个小时,大部分时间它会停在停车场,而一辆拥有完全自动驾驶能力的车,每周的使用时间可以达到 50 到 60 个小时。自动驾驶车辆的利用率会是非自动驾驶车辆的 5 倍。特斯拉希望将这一类技术分享给更多企业使用。

目前,特斯拉的技术已经非常接近完全自动驾驶的目标。在美国道路上进行测试的特斯拉车辆,已经很少需要人工干预了。因此,当我们驾驶一辆具备最新版本完全自动驾驶能力测试版的特斯拉,从一个目的地到另一个目的地,我们几乎不需要人为操控。特斯拉可能在今年晚些时候就具备 L4 或 L5 级的完全自动驾驶能力。

相比自动驾驶、特斯拉人形机器人等人工智能,通用人工智能(AGI, Artificial General Intelligence)有很大不同。

通用人工智能是一种计算机智能,它能比所有人类都聪明。这并非特斯拉目前专攻的领域,有其他公司正在研究。但我认为,这也是我们应该关注的领域。尤其是面对深度人工智能的上万台,甚至数十万、数百万台最先进的计算机,我们需要有监管措施来确保这些计算机都可以协同并有序工作,以成就一个单一的综合「超级智能」(ASI, Artificial Super Intelligence) 。

未来,「超级智能」将比人类更有能力,也同时存在着风险。我们应该尽一切可能,确保担忧的事情不会发生,迎接积极未来的到来。

在中国,有很多非常聪明、有才华的人,我一直很钦佩他们的才华与干劲。我认为,中国在任何它想做的事情上都会完成得十分出色,这在许多领域都有体现,不论是经济还是人工智能领域。我相信,未来中国将拥有非常强大的人工智能能力。

最后,感谢大会邀请我来做分享,非常期待能跟大家见面!

0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!

【导读】谁能想到,训练GPT-5竟不用手写代码。MIT微软最新研究发现,GPT-4在代码修复中的有效性。以后,OpenAI工程师能做的只有——Critique is all you need。

我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。

这种自我修复背后的机制,究竟是怎样运作的?

对代码为什么是错误的,模型在多大程度上能提供准确反馈?

近日,MIT和微软的学者发现,在GPT-4和GPT-3.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

论文地址:https://arxiv.org/pdf/2306.09896.pdf

英伟达科学家Jim Fan强烈推荐了这项研究。

在他看来,即使是最专业的人类程序员也无法一次性正确编写程序。他们需要查看执行结果,推理出问题所在,给出修复措施,反复尝试。这是一个智能体循环:根据环境反馈迭代改进代码。

很有可能,OpenAI正在通过雇佣大量软件工程师来训练下一代GPT。而他们不需要输出代码——Critique is all you need。

– GPT-4能够进行自我修复的核心原因是其强大的反馈能力。它能够有效地自我反思代码的问题所在,其他模型无法与之竞争。

– 反馈模型和代码生成模型不必相同。事实上,反馈模型是瓶颈。

– 基于GPT-4的反馈,GPT-3.5能够编写更好的代码。

– 基于专业人员的反馈,GPT-4本身能够编写更好的代码。

揭秘用于代码生成GPT修复

我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。

然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。

好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正代码中的错误。

研究者很希望知道,这些模型在多大程度上能提供正确的反馈,并且说明自己生成的代码为什么是错误的。

如图显示的是,基于自我修复方法的经典工作流程。

首先,给定一个规范,从代码生成模型中采样一个程序,然后在规范中提供的一组单元测试上执行该程序。

如果程序在任何单元测试中失败,那么错误的消息和程序会被提供给一个反馈生成模型,该模型再输出代码失败原因的简短解释。

最后,反馈被传递给一个修复模型,该模型生成程序的一个固定版本。

表面上看,这个工作流似乎非常完美。它让系统在解码过程中克服由于不良样本引起的错误,在修复阶段容易地合并来自符号系统(编译器、静态分析工具和执行引擎等)的反馈。

并且模仿人类软件工程师编写代码的试错方式。

然而,工作流有一个问题:自修复需要对模型进行更多的调用,从而增加了计算成本。

而且,研究者们发现了一个很有意思的现象:大模型自修复的有效性不仅取决于模型生成代码的能力,还取决于它对于代码如何在任务中犯错的识别能力。

目前还没有任何工作对此进行详细调查,因此,作者们研究了GPT-3.5和GPT-4在解决竞赛级代码生成任务时的自修复有效性。

研究人员提出了一个新的评估策略,在这个策略中,根据从模型中采样的token总数来衡量任务的通过率。

因为使用的是pass@t,而不是传统的pass@k(根据实验数量衡量通过率),这样就能与纯粹基于采样的方法进行公平的比较。

从实验中,研究者发现:

1. GPT-4才能实现自我修复带来的性能提升;对于GPT-3.5,在所有预算下,修复后的通过率要低于或等于基准的无修复方法。

2. 即使对于GPT-4模型,性能提升也最多只能算是适度的(在预算为7000个token的情况下,通过率从66%提高到71%,约等于45个独立同分布的GPT-4样本的成本),并且取决于初始程序的多样性足够丰富。

3. 使用GPT-4生成的反馈替换GPT-3.5对错误的解释,可以获得更好的自修复性能,甚至超过基准的无修复GPT-3.5方法(在7000个token下,从50%提高到54%)。

4. 使用人类程序员提供的解释替换GPT-4自己的解释,可以显著改善修复效果,修复并通过测试的程序数量增加了57%。

自我修复四阶段

自修复方法涉及4个阶段:代码生成、代码执行、反馈生成和代码修复。对此,研究人员正式定义了这四个阶段。

阶段一:代码生成

阶段二:代码执行

阶段三:反馈生成

阶段四:代码修复

研究人员又进一步针对3个问题进行了测试:

1. 对于更加有挑战的编程任务中,这些模型的自我修复是否比不进行修复的i.i.d.有更好的采样?

2. 更强的反馈模型会提高模型的修复性能吗?

3. 如果让人类参与功能最强模型的自我修复循环,提供人工反馈,是否可以解锁更好的修复性能?

首先研究团队引入了一个很有挑战的编程任务:Automated Programming Progress Standard (APPS)数据集中的编程任务。

这个数据集中的任务包括从入门级到大学竞赛级的编程任务,可以用来评估人类程序员解决问题和代码能力。

研究人员选取了300个任务,包括60个入门级别的任务和60个竞赛级别的任务。

研究人员选取了GPT-3.5和GPT-4作为模型,使用模板字符串连接和单次提示词来进行自我修复。

下图为提示词的实例之一。

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右边的图中,我们沿轴显示了具有两个超参数的热图,其中每个单元格中的值表示平均通过率,当给定相同的token预算(即t的相同值pass@t)时,自我修复由基线的平均通过率归一化。

从实验可以看到,对于GPT-3.5模型,pass@t在所有设置下都低于或等于相应的基线(黑),清楚地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4中,有几个值的自修复通过率明显优于基线。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验,评估使用单独的、更强的模型来生成反馈的效果,目的是为了测试一个假设:由于模型无法内省和调试自己的代码,阻碍了自我修复(比如说对于GPT-3.5)。

这个实验的结果如上图(亮蓝色)所示。

在绝对性能方面,GPT-3.5,GPT-4确实突破了性能障碍,并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈阶段本身是至关重要的,改进它可以缓解GPT-3.5自修复的瓶颈。

人工反馈显著提高了GPT-4修复的成功率

在最后一项实验中,想要研究在用更强的模型(GPT-4)进行修复时,加入专家人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何,以及这如何影响自修复的下游性能。

研究人员研究人员招募了16名参与者,包括15名研究生和1名专业机器学习工程师。

每个参与者都有五种不同的基础程序,基于他们的Python经验编写代码。

每个程序都取自不同的任务,参与者永远不会看到属于同一个任务的两个不同的程序。

然后,参与者被要求用他们自己的话解释这个程序做错了什么。

研究人员发现,当我们用人类参与者的调试替换GPT-4自己的调试时,总体成功率提高了1.57×以上。

不出意外的是,随着问题变得更难,相对差异也会增加,这表明当任务(和代码)变得更复杂时,GPT-4产生准确和有用反馈的能力远远落后于人类参与者。

法律大模型ChatLaw登场!北大学生团队,两天百万关注

有人做了统计,截止到今天,国内已经公布的大语言模型LLM已经达到93个,距离“百模大战”仅差一步之遥。

有意思的是,这些大模型的主体所在地有45%在北京,而其中最知名且开源的大模型莫过于清华的ChatGLM-6B/130B。作为中国两大顶级学府之一,清华的ChatGLM早就名声在外,成为了中文大模型的微调底模标配。

直到几天前,一街之隔的北大学子们终于拿出了他们自己的语言模型:ChatLaw

严格来说,ChatLaw不能算是大语言模型。一方面,它是在其他大模型基础之上做的专项训练;另一方面,显然你也不能指望法律模型给你写小红书写脚本,把它看成是垂直模型更恰当一些。

按理说,大模型发布了这么多,咱们早就看麻木了。但ChatLaw发布当晚就在知乎冲到了热榜第一的位置,很短的时间内话题浏览量就超过150万。

就连我随手回复个求内测名额,也能堆起50层回复。

在Github项目库里,点赞的星星数量仿佛旱地拔葱,直接腾空而起,目前已经有1.7K,妥妥的热门项目。

那么,这个模型究竟做对了什么,让见过市面的人们也争先恐后的排队体验?

除了最基础的法律条文问答,这三件事最让人眼前一亮:

其一,不仅是法律条文的问答,还能上传文档。比如在劳动纠纷中支持上传劳动合同,将重要信息结构化展示。

其二,支持上传对话录音。这很接近法律实践中的举证环节,ChatLaw抽取对话录音的信息,结构化展示,刚登场就是多模态级别。

其三,法律文书撰写。基于用户举证,结合判例和法条,为用户撰写法律文书,比如劳动仲裁申请书。

如果要用一句话评价这个项目团队,我只能说他们太会举例子了,简介视频都能拿捏社会热点,产品宣发在宣发上就已经遥遥领先其他大模型。

展开来说,可以分为模型技术层面和社会需求层面。

从模型技术上讲,ChatLaw并没有多先进,而是典型的应试教育+大力出奇迹的结合体。

项目团队已经训练出三个版本,底层大模型来自LLaMA,其中:

学术demo版ChatLaw-13B,基于姜子牙Ziya-LLaMA-13B-v1训练而来,中文表现很好,但是应对逻辑复杂的法律问答时效果不佳,需要用更大参数的模型来解决。

学术demo版ChatLaw-33B,基于Anima-33B训练而来,逻辑推理能力大幅提升,但是因为Anima的中文语料过少,导致问答时常会出现英文数据。

ChatLaw-Text2Vec,使用93万条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配,例如:

在训练数据上,项目团队的数据主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。比如像下面这样的对话方式:

在类似这样的大量先验数据投喂下,ChatLaw在司法考试的大模型对比中成绩超过了GPT-4,虽然超过的不多,但证明了这种训练方式的有效性。更具体一点,在训练中加入大量司法考试的选择题作为训练数据,只要让模型牢牢“记住”答案,分数自然就上去了。

为此,团队模型训练上也总结出了三条经验:

一是引入法律相关的问答和法规条文的数据,能在一定程度上提升模型在选择题上的表现;

二是加入特定类型任务的数据进行训练,模型在该类任务上的表现会明显提升,比如问答题数据;

三是大力可以出奇迹,法律选择题需要进行复杂的逻辑推理,参数量更大的模型通常表现更优。

从社会需求上讲,ChatLaw团队做了一件大好事,既是为社会创造了普惠工具,又给大厂们好好上了一课。

自从ChatGPT问世,我们一直在思考一个问题,它对社会带来的具体贡献是什么?

是降本增效,是时代变革,是几天一个王炸的颠覆?

够了,不要再被这些只会贩卖焦虑吸引流量的媒体和视频洗脑。

就这么说吧,GPT引发的新一轮AI浪潮是一种显著的创新,但不足以跨越从好玩到好用的鸿沟。它能提升一部分工作流程的效率,但还不足以取代人类。

为什么ChatLaw要大费周章的投喂90多万条真实的司法数据,就是因为通用大语言模型看起来很厉害,实际上到了垂直领域并不能直接用。

比如在司法实践中就发生过这样的乌龙:

美国有一名旅客起诉航空公司,他的代理律师提交了诉状,并引用了六个判例论证起诉要求的合理性。每个判例有原告有被告有法官甚至还有判决书全文,看起来有模有样。

但无论是航空公司还是主审法官,都无法在数据库中查到这六个判例的任何一例。最后代理律师坦言,这些判例都来自ChatGPT之手。

美国人用美国人开发GPT都能胡编法律案例,想象一下用它来咨询中国法律会发生什么。

正应了那句话,你以为它懂得很多,直到有一天它说到了你擅长的领域。

或者换句话说,没有经过足够数量的数据微调或者再训练的大语言模型,充其量就是个社牛:你跟它说什么它都能接上话茬,但是不是胡说八道,请你自行判断。

我们对于生成式人工智能的心态,应当是战术上不要轻视,战略上不要迷信。

很快,我们就会有超过100个大模型,请不要再无谓的重复训练那些超越这个或者那个的模型了。

真的有那么多资金烧算力,不如想ChatLaw一样,做个本地化的,且社会大众都能用得上的AI工具。

就像Demo中预设的这些问题,普通人并不知道如何拿起法律武器保护自己权益,也不知道怎么找或者找什么样的律师帮自己维权。

也难怪ChatLaw刚宣布内测,就吸引如此之多的人去排队等待体验。

什么是刚需,这就是刚需!普法之路任重道远

再看看下面几个例子,请点开来仔细看。以后微博热搜再发小作文,多少先过一遍ChatLaw再评论不迟。

这群来自北大信息工程学院的学生们,清晰的勾勒出下一步的开发计划:

一方面法律场景的真实问答通常涉及很复杂的逻辑推理,为了提升逻辑推理能力,必须训练30B以上的中文模型底座;

另一方面法律是一个严肃的场景,在优化模型回复内容的法条、司法解释的准确性上还可以进一步优化,预计还需要两个月的时间,大幅减轻大模型幻觉的现象。

当大厂们还在挖空心思筑高墙炒概念,拿开源冒充原创,重复训练低质量闭源模型时,一群学生肩负起了为社会创造开源普惠工具的责任。

祝ChatLaw好运!

论文地址:

https://arxiv.org/pdf/2306.16092.pdf

Github:

https://github.com/PKU-YuanGroup/ChatLaw

官网:

https://www.chatlaw.cloud

开源Demo:

https://chatlaw.cloud/lawchat/#/

AI争霸,谷歌囤“数据”

数据作为AI技术发展的三大要素之一,一直是这场AI”诸神大战”中,科技巨头们“斗争”的焦点。

7月1日,谷歌更新了隐私权政策,明确表示公司保留了获取用户在网上发布的内容来训练其人工智能工具的权利。

谷歌隐私政策的更新内容如下:

谷歌将利用信息来改进我们的服务并开发新产品、功能和技术,使我们的用户和公众受益。例如,我们将使用公开信息来帮助训练谷歌的AI模型并构建Google Translate、Bard 和 Cloud AI等产品和功能。

而通过对比可知,在前一个谷歌隐私权政策的版本中,谷歌只提到了将这些数据将用于“语言模型”,而不是“人工智能模型”。

媒体分析指出,这一隐私政策条款与以往有很大的不同,通常来说,这些政策将说明企业如何使用用户在公司自己的服务器上发布的信息。但在这一项条款中,谷歌似乎保留了收集和利用在公共平台上发布的所有数据的权利,就好像整个互联网是该公司自己的AI游乐场。

此前尽管任何人都可以看到在线公开发布的内容,但这些信息的使用方式正在发生变化。公众对数据的关注点从谁可以访问数据转向如何利用数据

谷歌的Bard和ChatGPT可能早已利用了你已经遗忘的博客帖子或几年前的餐厅评论来训练自己。对于大众对于隐私权的担忧,谷歌并未立即发表评论。

谷歌向“卖水人”表达诚意

除了谷歌的用户外,数据提供商们成了想要囤“数据”的谷歌不得不“讨好的对象”。

数据提供商们被看作为AI时代中的“卖水人”。

马斯克不想被AI白嫖数据,限制访问,导致推特大宕机。同样是不想被白嫖数据的美国贴吧Reddit,付费API已经来了。直接导致了几个非常流行的第三方Reddit app下线。由此可见AI时代“卖水人”对自家“水”的保护。

而谷歌已率先向“卖水人”们拿出了自己的诚意。大型新闻出版商们的数据自然是首当其冲的焦点。

最近几个月,围绕AI的版权问题进行讨论从未停止,加剧了大型科技公司与出版界之间本已紧张的关系。而谷歌率先表态,愿意付费购买新闻内容。

媒体援引一位报业集团高管消息称,谷歌已制定了协议,愿意在未来付费购买新闻内容

AI争霸,谷歌囤“数据”“谷歌已经制定了许可协议,他们愿意接受需要付款购买内容的原则,但我们还没有讨论金额。谷歌方称,未来几个月里会进行金额方面的谈判,这是第一步。”

针对这一报道,谷歌澄清称关于许可协议的报道“不准确”,并补充说“现在还处于早期阶段,我们正在继续与生态系统合作,包括新闻发布商,获取他们的意见。”

据谷歌表示,他们正在与美国、英国和欧洲的新闻机构进行“持续对话”,同时他们的AI工具Bard也正在接受“公开可获得的信息”的培训,这可能包括需要付费的网站。

高清还原你大脑中的画面

将头脑中的想法转化为文本这一步可以省去,直接通过脑活动(如 EEG(脑电图)记录)来控制图像的生成创作。

清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文,利用预训练的文本到图像模型(比如 Stable Diffusion)强大的生成能力,直接从脑电图信号生成了高质量的图像。

论文地址:https://arxiv.org/pdf/2306.16934.pdf

项目地址:https://github.com/bbaaii/DreamDiffusion

AI 盈利,需要做两个备案

一个是公安部的照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》,https://www.beian.gov.cn/portal/topicDetail?id=79&token=1ff8d856-36ff-47e0-9dc3-ee175f7b226b

一个是《互联网信息服务算法推荐管理规定》,去互联网信息服务算法备案系统备案,https://beian.cac.gov.cn/#/index

ChatGPT的创建者OpenAI因收集大量私人数据被诉

一群匿名人士在一场寻求集体诉讼地位的诉讼中声称,ChatGPT的创建者OpenAI正在窃取“大量”个人信息,以训练其人工智能模型,肆无忌惮地追求利润。

根据这起长达157页的庞大诉讼,OpenAI从互联网上秘密抓取3000亿字,窃听“书籍、文章、网站和帖子,包括未经同意获得的个人信息”,违反了隐私法。它毫不避讳地使用笼统的语言,指责该公司有“文明崩溃”的风险。

克拉克森律师事务所(Clarkson Law Firm)周三在旧金山联邦法院(federal court)提起的诉讼中表示,原告是根据职业或兴趣来描述的,但由于担心遭到强烈反对,只能用缩写来识别。他们列举了30亿美元的潜在损失,基于他们估计的数百万受伤害者的类别。

“一种不同的方法:盗窃”

他们声称:“尽管已经制定了购买和使用个人信息的协议,但被告采取了不同的方法:盗窃。”该公司广受欢迎的聊天机器人程序ChatGPT和其他产品是在未经原告许可的情况下,根据从包括儿童在内的数亿互联网用户那里获取的私人信息进行培训的。

据报道,计划向OpenAI投资130亿美元的微软公司也被列为被告。

OpenAI的发言人没有立即回复寻求对诉讼发表评论的电话或电子邮件。微软发言人没有立即回复电子邮件。

ChatGPT和其他生成人工智能应用程序激起了人们对该技术前景的强烈兴趣,但也引发了隐私和错误信息的轩然大波。国会正在讨论人工智能的潜力和危险,因为这些产品对创意产业的未来以及区分事实和虚构的能力提出了质疑。OpenAI首席执行官Sam Altman本人上个月在国会山作证时呼吁对人工智能进行监管。但这起诉讼的焦点是OpenAI一开始是如何获得其产品的勇气的。

秘密刮擦

处于新兴行业前沿的OpenAI在诉讼中被指控进行了大规模的秘密网络抓取操作,违反了服务协议条款以及州和联邦隐私和财产法。其中一项被引用的法律是《计算机欺诈和滥用法案》,这是一项联邦反黑客法规,以前曾被用来解决争议。该诉讼还包括侵犯隐私、盗窃、不当得利和违反《电子通信隐私法》的指控。

原告声称,OpenAI大规模滥用个人数据以赢得“人工智能军备竞赛”,非法访问个人与其产品的互动以及集成了ChatGPT的应用程序中的私人信息。诉讼称,这种集成使该公司能够从Snapchat收集图像和位置数据、Spotify上的音乐偏好、Stripe上的财务信息以及Slack和Microsoft Teams上的私人对话。

原告声称,为了追求利润,OpenAI放弃了“以最有可能造福全人类的方式”推进人工智能的最初原则。该诉讼预计,ChatGPT 2023年的预期收入为2亿美元。

在寻求代表大量据称受到伤害的个人,并要求在审判中确定金钱损失的同时,原告还要求法院暂时冻结OpenAI产品的商业访问和进一步开发。

美国 AI 创业公司的新难题:有钱,但是缺数据

随着时间的推移,美国人工智能产业的附加值重心,已经悄悄发生了转移。根据《华尔街日报》的最新报道:正在筹集数十亿美元的生成式 AI 创业公司,如果没办法获得正确的数据,那么它们可能已经走向失败
风投机构 Primary Venture Partners 的联合创始人兼普通合伙人布拉德.斯夫鲁加指出:

“我们已经看到很多公司可能正在寻求出色的 AI 应用,但他们无法访问能够让他们构建强大应用程序的数据,更加不用说可以帮助他们的专有数据了。”

换句话说:当市场上,构建实际的模型已经变得类似于可以购买的商品时,真正的价值变成了数据。拥有正确的数据,现在可能比任何时候都更加重要。
(一)这里的逻辑是:目前,许多 AI 创业公司都希望能在如金融或医疗保健等细分领域建立起小众的 AI 模型,但因为他们缺乏品牌认知度和社会认同,这些创业公司要获得垂直行业的培训数据集并不容易。

在这方面,大公司可能更具优势因为在如何处理数据方面,大公司已经赢得了大客户们的信任。例如根据《华尔街日报》的报道:安永全球有大量的交易数据,每天都有生成式 AI 创业公司找上门来。但安永全球担心:如果把自己的专有数据用于训练外部模型将会发生什么?“谁拥有这些数据?当我们训练模型时,我们对这个模型的访问权限是什么?其他人还能如何使用这个模型?数据是由我们带来的知识产权的一部分。” 安永全球指出。

要解决类似的 IP 问题,一种对策是:创业公司可以通过仅仅是根据每个客户的数据,来为每个客户训练不同的模型。例如 TermSheet 就是用这种策略来构建 Ethan 产品策略的。后者是一种生成式 AI 模型,可以为房地产开发商、经纪人和投资者回答行业的问题。但是 TermSheet 的 CEO 罗杰.史密斯也表示,即便客户同意这一点,他们也需要教育客户和一些说服力。  

此外,对网络安全的担忧,也是大客户公司不愿意选择创业公司的原因。如金融服务公司 Truist 的首席数据官特蕾西.丹尼尔斯就表示,在数据安全方面,他们信任更加大的供应商,因此只选择与大技术供应商而非创业公司一起探索生成式 AI 应用。

第三,甚至在某些情况下,垂直行业的大客户会要求生成式 AI 创业公司支付巨大的资金额或者是公司股权。如生成式 AI 公司 Veesual 可以生成人们试穿衣服的图像,他们最初利用互联网上的公共图像进行训练,但在努力让大零售商同意交出他们数据以增强模型时,就因为上述原因失败了。

第四种情况,则是在技术上很难实现。如 PatentPal 是一家帮助律师事务所起草专利申请的生成式 AI 初创公司,他们接受过公开专利申请方面的培训。他们有机会继续根据加密或匿名的实际客户反馈,来训练其模型,从而使他们的工具更加准确。但这种过程十分复杂,因为反馈必须与高度敏感和机密的数据(包括商业机密)分开。 

然而与此同时,生成式 AI 创业公司的竞争已经趋向白热化。

如果从资金注入规模看,根据《华尔街日报》引用 PitchBook 的数据:从去年 2022 年到今年的前五个月,生成式 AI 创业公司的风险投资资金规模已经从 48 亿美金增长到了 127 亿美元。因此,为了确保能够在某些利基市场中获得更多数据,生成式 AI 创业公司的压力已经越来越大。

Struck Capital 的创始人兼执行合伙人亚当.斯特拉克指出:一些初创公司正竞相相互竞争,以确保在某些利基市场内获得更多数据。“如果你相信有一个专有数据集,你就想在他们之前得到它,然后,协商排他性。从这个意义上说,这几乎变成了一场军备竞赛。”他说。


(二)

有意思的是,上述现状也不禁让我想到:似乎,市场上真的缺乏一个数据的公开交易市场。

实际上在 2018 年或者更早的 2017 年,我在美国流媒体公司 Netflix 的一位朋友就和我聊起过他的这个创业想法:做一个数据的公开交易市场。不过,始终没有合适的产品形态,包括如何让公司自愿交出自己的数据。

从这个角度讲,前两天的一个新闻——OpenAI 正在考虑推出一个交易市场——就非常值得关注。

需要注意的是:在 ChatGPT 的插件计划几乎失败之后,根据美媒的报道:

OpenAI 正在考虑推出一个交易市场,以让客户可以将他们根据自己需求定制的人工智能模型出售给其他公司。换句话说:这个交易市场将为企业提供一种访问前沿大语言模型的方法,并托管客户们构建的 OpenAI 模型的微调版本。

一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命

作者 | 宛辰、Li Yuan
编辑 | 靖宇

当地时间 6 月 28 日,美国知名数据平台 Databricks 举办了自己的年度大会——数据与人工智能峰会。会上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。

无论是从峰会的名称,还是新产品的命名,都能看出这家知名数据平台,正在趁着大语言模型的东风,加速向 AI 转变的脚步。

Databricks 公司 CEO Ali Ghodsi 所说的数据和 AI 普惠化|Databricks

「Databricks 要实现的是『数据普惠』和 AI 普惠,前者让数据通向每一个雇员,后者让 AI 进入每一个产品。」Databricks 公司 CEO Ali Ghodsi 在台上说出了团队的使命。

就在大会开始之前,Databricks 刚刚宣布以 13 亿美元收购 AI 领域的新生力量 MosaicML,创下了当前 AI 领域收购纪录,可见公司在 AI 转型上的力度和决心。

正在前方参会的 PingCAP 创始人兼 CEO 刘奇告诉极客公园,Databricks 平台刚刚上线 AI 的企业级应用,就已经有超过 1500 家公司在上面进行模型训练,「数字超出预期」。同时,他认为 Databricks 由于之前在数据+ AI 方面的积累,让公司能在 AI 大火之际,迅速在之前平台基础上加入新产品,就能快速给出和大模型相关的服务。

「最关键的就是速度。」刘奇说道,在大模型时代,如何用更快的速度让大模型和现有产品整合,解决用户的痛点,可能是当下所有数据公司最大的挑战,同时也是最大的机会。

Talking points

  1. 通过交互界面的升级,不是数据分析师的普通人,也可以直接使用自然语言查询和分析数据。
  2. 企业将大模型部署到云端数据库将越来越容易,直接使用成品大模型工具分析数据,也将变得更加简单。
  3. 随着AI的进展,数据的价值还将越来越高,数据潜力将被进一步释放。

01

数据库迎来自然语言交互

在会上,Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承载着 Databricks 近期最大的发力方向之一——数据分析普惠化,即不掌握 Python 和 SQL 的普通人也能轻轻松松接入公司数据,用自然语言就能进行数据分析。

为达到这个目的,LakehouseIQ 被设计为一个功能合集,既可以被普通终端用户使用,也可以被开发者使用,针对不同的用户设计了不同的功能。

LakehouseIQ 产品图|Databricks

对于开发者方面,发布了 LakehouseIQ in Notebooks,这项功能中,LakehouseIQ 可以利用大语言模型帮助开发人员完成、生成和解释代码,以及进行代码修复、调试和报告生成。

而对于普通的非程序员群体,Databricks 则提供了可以直接用自然语言交互的界面,背后由大语言模型驱动,可以直接用自然语言来搜索和查询数据。同时,该功能与 Unity Catalog 集成,让公司可以对数据的搜索和查询进行访问权限控制,只返回提问者被授权查看的数据。

自大模型推出以来,用自然语言对数据进行查询和分析,其实一直是一个数据分析方向的热点,许多公司在此方向都有所布局。包括 Databricks 的老对手 Snowflake,刚刚宣布的 Document AI 功能也是主打这个方向。

LakehouseIQ 自然语言查询界面|Databricks

不过 Databricks 宣称,LakehouseIQ 做到了更好的功能。它提到,通用大语言模型在理解特定客户数据、内部术语和使用模式方面拥有局限性。而 Databricks 的技术,能够利用客户自己的模式(schema)、文档、查询、受欢迎程度、线程、笔记本和商业智能仪表盘来获取智能,回答更多查询。

Databricks 的功能与 Snowflake 的功能还有一个差别,Snowflake 平台的 Document AI 功能,仅限于对文档中的非结构化数据进行查询,而 LakehouseIQ 适用于结构化的 Lakehouse 数据和代码。

02

从机器学习到 AI

Databricks 与 Snowflake 在发布会上的相似之处还不局限于此。

此次发布会中,Databricks 发布了 Databricks Marketplace 和 Lakehouse AI,这与 Snowflake 这两天大会的重点也完全吻合,二者都主打将大语言模型部署到数据库环境中。

在 Databricks 的设想中,Databricks 未来既可以协助客户部署大模型,也提供成品的大模型工具。

Databricks 过去就有 Databricks Machine Learning 的品牌,在此次发布会上,Databricks 对其进行品牌全面的重新定位,升级为 Lakehouse AI,主打协助客户部署大模型。

Databricks 上线了 Databricks Marketplace。

在 Databricks Marketplace 中,用户可以接入经过筛选的开源大语言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,还可以发现和获取数据集、数据资产。Lakehouse AI 还包括一些大语言模型操作能力(LLMOps)。

Lakehouse AI  架构图|Databricks

Snowflake 也在对此进行积极部署,其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供。

在协助客户部署大模型方向,Snowflake 与 Databricks 显现出了分歧。Snowflake 选择积极地与合作伙伴进行合作,而 Databricks 则试图将该功能作为其核心平台的本地特性添加进去。

而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未来还将可以提供 Lakehouse Apps。Lakehouse Apps 将直接在客户的 Databricks 实例上运行,它们可以与客户的数据集成,使用和扩展 Databricks 服务,并使用户能够通过单点登录体验进行互动。数据永远不需要离开客户的实例,没有数据移动和安全/访问问题。

这点则与 Snowflake 公司的产品从命名到功能上都直接撞车。Snowflake 公司与之相似的 Snowflake Marketplace 和 Snowflake Native App 已经上线,是其发布会的重点之一。彭博社就在 Snowflake 的大会上宣布了一个由彭博社提供的 Data License Plus (DL+) APP,允许客户在云端用几分钟时间就能配置一个随时可用的环境,内部设有完全建模的彭博订阅数据和来自多供应商的 ESG 内容。

03

数据平台迎来新变革

开幕式主旨演讲上,Databricks 公布了一个数字:过去 30 天,已经在 Databricks 平台上训练 Transformer 模型的客户超过 1500 家。

在谈及这个令人印象深刻的数字时,PingCAP 刘奇认为,这说明企业应用 AI 的速度比预期的要快得多,「应用模型不一定要去训练模型,所以如果训练的都有 1500 家,那应用的肯定要比这个(数字)大的多得多。」

另一方面,这也表明 Databricks 在 AI 这个领域的布局相对完整。「它现在不仅仅是一个 Data Warehouse(数据仓库),一个  Datalake(数据湖)。现在它还提供:AI 的 training(训练)、AI 的 serving(服务),模型的管理等一整套。」

Ali Ghodsi 以计算和互联网的革命,类比大模型之于机器学习的变革|Databricks

也就是说,底层模型可以通过 Databricks 的平台去训练,「最底层的模型改改参数就能训练」。在这个模型之上所需要的 AI 服务,Databricks 也布局了相应的基础设施——今天发布了 vector search(向量搜索)和 feature store(特征库)。

Databricks 全面向大模型升级。

过去,Databricks 在 AI 方面有很多积累,比如在建索引、查数据、预测工作负载等方面,用小模型来提高效率、降低时延。但是,以如此快的速度补上大模型的能力,还是让不少人意外。

在今天峰会全面展示的 AI 布局之前,Databricks 收购了 Okera(AI 数据治理),推出了自家的开源大模型 Dolly 2.0,又以 13 亿美元并购了 MosaicML,一连串的动作一气呵成。

对此,硅谷徐老师 Howie 认为,Databricks 和 Snowflake 这两个大会都可以比较明确地看出:两家公司的创始人认为,基于数据库、数据湖他们所做的行动、接下来会面临根本性的改变。按照一年前他们在做的思路,在未来几年行不通。

相应地,快速补齐大模型的能力,也意味着可以获得由于大模型带来的增量市场。

刘奇认为,没有大模型之前,很多的需求可能都不存在,但有了大模型之后,有了很多新增需求。「因为只有模型没有数据,干不了什么事情,特别是没有办法做出差异化。如果大家都是一个大模型,那你跟别人可能也没有差别。」

但比起大模型,峰会现场的观众似乎更关注小模型,因为小模型的几个优势:速度、成本、安全性。刘奇表示,基于自己独有的数据,做出差异化的模型,模型要足够小才能满足这三条:足够便宜、足够快、足够安全。

值得注意的是,Databricks 和 Snowflake 在日前都公布了它的营收数据,平台年营收增长在 60% 以上。相比整个市场软件支出放缓的大背景,这样的增长速度反映了数据越来越被关注。这次 Databricks 峰会的主题也是数据加 AI,但有了大模型,数据的价值还将越来越高。

大模型的到来,让数据自动生成成为可能,可以预见,数据量将指数级增长。怎么轻松地访问数据、怎么支持不同的数据格式、挖掘数据背后的价值,会成为越来越频繁的需求。

另一方面,今天很多企业还在还在探索观望将大模型接入企业软件,但考虑到安全、隐私、成本,敢直接用的,还很少。一旦通过将大模型直接部署到企业数据上,无需移动数据,部署大模型的门槛将被进一步降低,数据被消费的数量和速度都将被进一步释放。

火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆

火山引擎刚刚交出大模型趋势答卷:

火山方舟,一个大模型服务平台

它将国内多个明星大模型放在平台上,如MiniMax、智谱AI、复旦MOSS、百川智能、IDEA、澜舟科技、出门问问等。

不仅为大模型玩家提供训练、推理、评测、精调等功能与服务,后续还提供运营、应用插件等工具,进一步支撑大模型生态。

总之,就是要为大模型,打造一个超强底座

而透过火山方舟,火山引擎如何看待大模型趋势?想做哪些事?如今也有了更明确的答案。

火山方舟是什么?

简单理解,各种大模型平台都好比自营商铺,向行业用户售卖大模型服务。

不过火山方舟想做的不是自家专卖店,而是一个集合了多家大模型旗舰店的商城

在这个商城里,行业用户可以快速触及到业界优质的大模型,基于火山引擎的能力对模型精调推理,降低大模型使用门槛

大模型玩家能基于火山引擎搭建稳健的大模型基础设施,提升自家模型业务能力,触及到更加直接和广泛的行业需求,加速迭代升级。

火山方舟作为连接二者的平台,则负责提供丰富完善的开发工具、充沛算力、安全互信的平台以及企业服务等,让双方的合作更加丝滑。

重点功能包括6个方面,贯穿了大模型采购使用的全流程:

第一是模型广场

这可以理解为模型提供方和使用方初步了解的一个平台,大模型厂商能在此进行模型创建、上传、部署等操作,下游用户能看到模型效果并快捷体验。

第二是模型推理

当用户选定好模型后,火山引擎可提供安全互信的推理方案,既保障模型提供方的知识产权安全,同时也维护使用者的数据信息安全。用户能直接使用已部署的在线服务,或者将精调模型部署为在线任务。

第三是模型精调

对于大部分行业用户来说,通用大模型只是基础能力,想要使用更优质的大模型服务可能都需要基于自家数据进行持续训练或精调。

火山方舟能提供极简精调流程,只需两步即可一键精调:选择基础模型→上传标注数据集。对于有复杂需求的场景,还能进一步设置高级参数、验证集、测试集等更丰富的功能。

第四是模型评测

生成式大模型目前还很难形成一个业界公认的benchmark,应用场景、数据等因素都会影响它的表现。但对于行业用户来说,明晰不同大模型的优劣势是购买服务前至关重要的一步。

所以火山方舟同步推出了评测工具,支持用户基于自身数据、系统化地感知模型表现情况,并且给出详细的测评报告,为后续做决策提供数据基础。

要知道,B端的使用场景也是“千人千面”的,企业要用自己的评测数据试一试,才能给出符合自身要求的准确评估。此外,基础模型的升级,新技术新模型的涌现,还将持续很长一段时间。企业需要不断测试对比、紧跟发展。

第五是运营干预

通过提供运营干预工具,用户可以快速设置相关规则,这样在模型已经投入使用后,无需精调模型即可干预模型输出结果。

第六是应用插件

目前大模型接入插件功能是大势所趋,能进一步发挥模型能力。未来在火山方舟上,能看到实时信息获取(通常说的“联网”)*、私域文档问答召回、Prompt补全与构建等。

透过以上重点功能,不难看出火山引擎对于当下云计算趋势的理解——尽可能加速大模型应用落地

而且在具体实现路径上,火山引擎还给出了一种别样的打法,并且形成了鲜明的自身特点。

火山引擎智能算法负责人吴迪给出了三个关键词来总结:

开放、加速、信任。

所以火山方舟有何不同?

开放、加速、信任,三个关键词一一对应,其实代表火山方舟的自身定位、算力和安全。

首先来看自身定位上,火山方舟是个开放、中立的平台,企业客户可以根据实际效果自由选择模型

对于云厂商而言,想要做好MaaS服务,核心之一肯定是模型层要够丰富、够强大。因为这意味着能在更丰富的应用场景中落地。

此前不少人将这一问题的解决,局限在了云厂商自家大模型能力提升上。

随着亚马逊云推出大模型平台Bedrock,一次接入Stability AI、Anthropic等多家大模型能力,给行业内开启了一种新范式。

这样一来,平台能直接引入业内最优秀的大模型,丰富自身能力和应用场景。

火山方舟的路径亦是如此,纳入更多大模型也让它具备更高的灵活性。

吴迪介绍,这样一来用户能够根据不同任务需求“货比三家”,接触到更多行业先进大模型。

通过提供统一的workflow,火山方舟能够实现模型之间的灵活插拔。在多模型切换下,工作流基本不改变,让各个模型完成自己擅长的任务,加速大模型的开发构建应用。

其次,火山引擎重点关注了大模型玩家们焦虑的算力问题。主打一个够用、实惠且稳定。

火山引擎的海量资源池,能够满足当下大模型训练推理的需求。

而通过加速训练和推理,能让算力的性价比更高。

NVIDIA开发与技术部亚太区总经理李曦鹏表示,如果想要硬件充分发挥性能,需要软硬件协同设计

硬件方面,NVIDIA针对生成式AI的不同硬件配置与火山引擎底层平台深度结合。

在软件层面也提出了多种优化方法,双方一起做了很多开源发布,以图像预处理算子库CV-CUDA为例。它们能高效地运行在GPU上,算子速度达到OpenCV(运行在CPU)的百倍左右。如果用CV-CUDA作为后端替换OpenCV和TorchVision,整个推理的吞吐量能提升至原来的二十多倍,算子输入结果上CV-CUDA与OpenCV完全对齐。

此外,火山引擎还推出了Lego算子优化

这一框架可以根据模型子图的结构,采用火山引擎自研高性能算子,实现更高的加速比。

在推理场景下,使用Lego算子优化,可以将基于Stable Diffusion模型的端到端推理速度提升至66.14 it/s,是PyTorch推理速度的3.47倍,运行时GPU显存占用量降低60%。在训练场景下,在128张A100上跑15天,模型即可训练完成,比当时最好的开源版本快40%。

而在稳定性方面,火山引擎也和英伟达做了更底层的合作。

李曦鹏介绍,目前大模型训练往往需要几千、上万张卡同时启动,如果其中某台机器出现故障,则会导致整个训练过程被影响。因此训练过程中的稳定性非常关键,它将直接影响开发效率。

在这方面,火山引擎和英伟达基于内部大量测试,最终实现了特定模型的规模、网络结构等,确定合适的checkpointing频率,在保障训练连续性的同时又让机器能够稳定运行。

具体能力也已有实际案例验证

大模型玩家MiniMax基于火山引擎,研发了超大规模的大模型训练平台,高效支撑着三个模态大模型每天数千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。除了训练以外,MiniMax也同步自研了超大规模的推理平台,目前拥有近万卡级别的GPU算力池,稳定支撑着每天上亿次的大模型推理调用。MiniMax和火山引擎一起为大模型训练搭建了高性能计算集群,一起致力于提升大模型训练的稳定性,保证了超千卡训练的任务稳定运行数周以上。

稳健的大模型基础设施让MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环,实现从月至周级别的大模型迭代速度,和指数级的用户交互增长。MiniMax面向企业级的大模型解决方案目前已接入数百家企业客户,打通办公协作、智能硬件、教育、医疗、客服等十余个行业场景。

然后是能力输出上,火山引擎提出训推一体以及统一workflow

统一workflow的能力不仅在于模型的灵活插拔,它还集成了火山引擎对大模型能力的理解。

比如如何做自动评估?pipeline怎么定?该做多少精调?这些问题都是需要经过大量开发工作后,才能输出的经验。通过这些细节上的保驾护航,企业用户落地大模型的效率和成功率都会有明显提升。

另一边,火山方舟也重点提出了训推一体的理念。

吴迪表示,基于对行业的观察,他相信未来大模型领域的头部及腰部厂商都会使用“1+n模式”,也就是自研或深度合作一个主力大模型、同时调用多个外部模型,对训练和推理都有需求。

加之火山引擎始终认为深度学习、机器学习是一件统一、紧凑且纯粹的事情,所以他们判断训推一体模式会是发展趋势,并已在火山方舟上推出。

而且训推一体化后,同样能为企业节省算力。

最后再来看安全方面,这也是火山方舟着重强调的部分

吴迪表示,在大模型时代,信任问题至关重要。

大模型提供方不希望自己辛苦训练出的模型被人拷贝走,这属于重要知识产权;下游客户不希望自己的数据在推理和精调过程中不被泄露,敏感数据只有自己可见。

在这二者之间,便会形成一个信任的gap。尤其是当下大模型服务中的合作方众多,构筑信任墙就显得至关重要。而火山引擎作为云平台,会通过互信计算框架,基于不同客户的安全和隐私保护诉求,提供了包括安全沙箱、可信硬件以及联邦学习方案,来保证大家在互信的基础上推理、精调等。

以上三个方面,将火山引擎在云市场中的差异勾勒清晰。

从中也可看出,火山引擎的技术积累、行业经验和趋势理解,都为它入局大模型平台提供了坚实的保障。

那么,为什么火山引擎的答卷是火山方舟?

为什么是火山方舟?

直接原因来自于市场需求

大模型趋势轰轰烈烈演进几个月,几乎触及到了各行各业,相应的需求也随之暴涨。

但对于行业用户来说,怎么触及市面上最先进的模型?怎么选择最适合自己的模型?怎么确定最后的大模型服务方案?这些问题对企业自身的技术理解程度、开发水平都提出了要求。

作为供给侧,大模型玩家也急于在热潮下快速推进自家业务发展。这不仅是一场技术竞赛,同时也是一场商业竞速赛,谁能更快触及更多用户,就会在市场中更快站住脚跟。在这种情况下,平台的触达能力一定大于厂商自身。

以及底层硬件厂商,同样也迫切需要大模型底座

NVIDIA开发与技术部亚太区总经理李曦鹏表示,英伟达开发每一款新产品,都是以workload来驱动,所有开发都是要解决真实存在的问题。

比如随着深度学习的兴起,用Tensor Core加速矩阵乘法计算,就是在原有框架下针对workload的重点模块做效率提升。

再比如英伟达去年发布的Hopper架构,设计远早于发布时间。当时GPT-3才刚刚问世,大模型趋势远没有到来,英伟达是做了大量前瞻性的研究。而怎么做出这种前瞻性的探索,就是要从实际应用的基础结构中去发现问题。

回到当下来看,对于未来AI的趋势是否朝着GPT趋势发展,李曦鹏表示现在也无法确定,但是行业中的实际需求能够推动英伟达做出更有针对性的硬件和软件特性升级。

怎么更快、更准确把握住这些需求?还是要依托平台连接大模型玩家

所以,像火山方舟这样承载着大模型供给方、使用方以及底层硬件厂商的平台,是行业迫切需求的。

而更深层的原因,还来自火山引擎自身

吴迪很确定地说,火山方舟的使命,是加速大模型、大算力应用落地。

为什么要加速?两条增长曲线可以给出答案。

在以时间为横轴、GPU需求量为纵轴的坐标系里,首先出现当下的第一条增长曲线:模型训练曲线

现在新兴的大模型正如雨后春笋般冒出,训练需求量飙升。但随着通用大模型市场趋于饱和,这条增长曲线也会逐渐放缓。

与此同时,还有一条增长曲线出现:推理需求曲线(模型应用曲线)

而且它将在短期内呈指数增长趋势,在2025年左右和训练需求曲线相交,并在之后反超。

也就是说,市场上的推理需求量,最终一定会大于训练需求量。因为推理需求多大,代表了应用场景有多丰富。

如果应用场景的丰富度不够高,导致推理需求曲线没有快速升起,训练需求曲线同样也会受到影响滑落

一旦出现这一局面,将意味着目前诸多投身大模型浪潮的创业者和企业,将会面临非常艰难的局面。

吴迪表示,火山引擎深信大模型趋势不是一次简单的浪潮,它将是新技术时代的一扇窗。如果想要加速这个时代更快到来,那么就要尽可能缩短推理需求超过训练需求的时间轴。

也就是加速大模型的应用落地。

火山方舟同时连接下游应用层和上游模型层、硬件层,加速企业用户使用大模型,在营收上更快去回报大模型领域创业者,以此形成一个加速正向循环。

而这也是为什么火山引擎要将自家大模型平台取名为“方舟”。

吴迪说,在想名字的时候,他们希望能有一个词来形容开放包容、生机勃勃、充满希望的意境。

最终在几十个词中确定了方舟。因为它能代表两方面寓意。

第一,承载着很多人的事业和梦想,共同驶向一个成功的远方,而且是一个具象的词;

第二,火山引擎相信整个大模型、大算力领域,需要众多合作伙伴在模型训练、内容安全、硬件优化等方面共同努力;

如今,方舟带着火山引擎的技术积累、行业理解以及美好愿景,正式启航。

未来大模型浪潮将会如何翻涌,还是未知数。

但载着众多国产大模型玩家、携手英伟达的火山方舟,一定会带着火山引擎驶向新的节点。

来源: 量子位

周鸿祎:企业不要觉得有了GPT就能瞎裁员了

6月29日消息,360创始人周鸿祎在一场演讲中谈到,“我一直在很努力的说服很多企业家,不要觉得有了 GPT 就能瞎裁员了。”

周鸿祎称,自己的观点和微软类似,信息化、数字化增大了我们大家的工作量。自从有了电脑化、即时通信工具后,大家每天有无数的消息要回,工作量加大了,有大量的文案工作。大模型企业落地要普惠,让每个人都用起来,成为员工的知识助手、办公助手,领导的决策助手。

“大模型不是万能的,只能打辅助,做一部分工作。所以大模型不会淘汰人,当然程序员也不会被淘汰,要有信心。我最近不也是又报名上了清华,电子信息专业,重新去学习做一个工程师。”周鸿祎在微博上也发文强调:“人工智能的发展还是要以人为本。”

“比GPT-4强”!谷歌DeepMind自曝正开发新型AI模型

不久前强强合并而成的人工智能巨头Google DeepMind终于向ChatGPT发出实质性挑战。在上个月的谷歌(Google) I/O开发者大会上,谷歌公司首次透露了其正在开发的大型语言模型Gemini。

据《连线》6月26日报道,DeepMind联合创始人兼Google DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)最近在采访中进一步透露了Gemini的细节:该系统将AlphaGo背后的技术与大语言模型相结合,目标是让系统具有新的能力,如规划或解决问题,比OpenAI的GPT-4能力更强。

2016年,DeepMind开发的AlphaGo曾击败围棋高手创造历史。“你可以认为Gemini结合了AlphaGo系统的一些优势和大模型的惊人语言能力。”哈萨比斯说,“我们也有一些新的创新,这些创新将非常有趣。

可能会尝试新想法AlphaGo是基于DeepMind开创的一种叫做强化学习的技术,在这种技术中,软件通过反复尝试并接受关于其表现的反馈,学会选择采取何种行动以处理棘手的问题,比如围棋或视频游戏。它还使用了一种叫做树状搜索(tree search)的方法来探索和记忆棋盘上的可能动作。语言模型的下一个大飞跃,可能涉及让这种技术在互联网和计算机上执行更多任务。哈萨比斯说,Gemini仍在开发中,这个过程将需要数月时间,可能花费数千或数亿美元。

OpenAI首席执行官山姆·奥特曼(Sam Altman)曾在4月透露,创建GPT-4的成本超过1亿美元。训练像GPT-4这样的大型语言模型,需要将来自书籍、网页和其他来源的大量文本输入被称为Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)的机器学习软件。

它利用训练数据中的规律,熟练地预测一段文本后面的字母和单词,这种简单的机制在回答问题和生成文本或代码方面被证明是非常强大的。要开发ChatGPT和类似能力的语言模型,需要一个重要的额外步骤:使用基于人类反馈的强化学习来完善其性能。

DeepMind在强化学习方面的深厚经验可以让其研究人员赋予Gemini新的能力。哈萨比斯和他的团队也可能尝试用人工智能其他领域的想法来加强大型语言模型技术。DeepMind的研究人员涵盖了从机器人到神经科学等各个领域,本周,该公司展示了一种算法,能够学习用各种不同的机器人手臂执行操纵任务。

谷歌DeepMind的研究人员最近将人工智能与一款名为RoboCat的机器人结合起来,预计将在自我训练机器人方面实现一大跃进。人们普遍认为,像人类和动物那样从世界的物理经验中学习,对于使人工智能更有能力非常重要。一些人工智能专家认为,语言模型通过文本间接地学习世界,是一个主要的限制。谷歌高层十分重视GeminiGemini是DeepMind迄今为止在该领域最有野心的项目。

国外科技网站The Information在3月报道称,受谷歌聊天机器人项目巴德(Bard)失败的刺激,为了跟上ChatGPT的步伐,谷歌高层直接参与Gemini的研发,包括该公司最高级的人工智能研究主管杰夫·迪恩(Jeff Dean)。

Gemini的开发完成,可能会让谷歌在与ChatGPT等生成式人工智能技术的竞争中占据优势。尽管谷歌开创了许多技术,并催生了最近的人工智能创新,但它选择了谨慎地开发和部署产品。

而到了4月,为了应对越来越激烈的竞争,谷歌将其“谷歌大脑”实验室与哈萨比斯领导的DeepMind合并为Google DeepMind。哈萨比斯说,新团队将结合两个强大的人工智能团队。“如果你看看我们在人工智能领域的地位,我会说80%或90%的创新来自这两者之一。”哈萨比斯说。“过去十年里,这两个组织都取得了一些杰出的成就。”哈萨比斯自己曾引发过一场人工智能狂热。

2014年,DeepMind被谷歌收购。在接下来的几年里,DeepMind展示了AI如何做到曾经看起来只有人类才能做到的事情。当AlphaGo在2016年击败围棋冠军李世石时,许多人工智能专家都惊呆了,因为他们曾认为,机器要想熟练掌握如此复杂的游戏,还需要几十年。

值得注意的是,Gemini并不是DeepMind进入语言模型领域的第一次尝试。去年,该公司推出了聊天机器人Sparrow,声称它比其他语言模型更不可能给出“不安全”或“不恰当”的答案。

哈萨比斯今年1月在接受《时代》采访时说,DeepMind将考虑在今年某个时候发布Sparrow的私人测试版,目前还不清楚这些计划是否仍在进行中。

来源:澎湃科技

弥补全球认知鸿沟 微软开始提供生成式AI职业培训项目

当地时间周三,全球AI大厂微软宣布,正式启动一个培训全球人民如何使用生成式AI的项目。

据微软负责慈善事业的副总裁Kate Behncken透露,这个项目将包括面向机构、非营利组织的全球挑战补助,以及免费且附带认证证书的在线课程,和面向教师的培训工具包和挑战项目。

接下来根据官方公告,简单解释一下这几个项目分别是干什么的。

首先,微软慈善基金会与data.org、微软“AI向善”实验室和GitHub合作推出一个生成式AI挑战补助项目。这是一项开放式资助项目,旨在探索、开发和推动非营利组织、社会企业、研究机构如何培训和授权员工使用生成式人工智能。

微软并没有透露补助的金额为多少,仅表示除了钱以外,这些机构还将获得Azure云计算资源,以及微软、GitHub的专家在数据训练等技术方面的指导。申请这个项目的时间截至今年8月15日,随后微软将在今年秋天公布名单。

而对于广大“打工人”而言,微软也提供了在线学习课程,完成学习和考试后能够获得在线“职业认证证书”。微软强调,这是在线学习市场上第一个生成式AI职业证书。

不过从课程表的构成来看,微软的这个课程更偏向于入门,包括“什么是AI”、“什么是生成式AI”、“如何将Bing融合进工作流”、“AI与道德”等项目。

微软表示,目前首发上线的只有英语课程,在接下来几个月里将提供西班牙语、葡萄牙语、法语、德语、简体中文和日语课程。

同时,微软也向全球的教育者提供了教学工具包,提供一系列的流媒体和课程资源,来帮助他们进行AI课程的备课。稍有不足的是,虽然AIGC的特点是流利且富有逻辑的机器人对话,但微软提供的课程中仍以传统的视频要素来呈现。

最后,微软也在Microsoft Learn平台上发起了一项AI技能挑战认证,活动将在7月中旬开始,涉及机器学习、构建MLOps解决方案、认知服务等,活动周期为一个月。

来源:财联社(编辑 史正丞)