分秒AI研究院

30 6 月 2023

一家 380 亿美元的数据巨头，要掀起企业「AI 化」革命

作者 | 宛辰、Li Yuan
编辑 | 靖宇

当地时间 6 月 28 日，美国知名数据平台 Databricks 举办了自己的年度大会——数据与人工智能峰会。会上，Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。

无论是从峰会的名称，还是新产品的命名，都能看出这家知名数据平台，正在趁着大语言模型的东风，加速向 AI 转变的脚步。

Databricks 公司 CEO Ali Ghodsi 所说的数据和 AI 普惠化｜Databricks

「Databricks 要实现的是『数据普惠』和 AI 普惠，前者让数据通向每一个雇员，后者让 AI 进入每一个产品。」Databricks 公司 CEO Ali Ghodsi 在台上说出了团队的使命。

就在大会开始之前，Databricks 刚刚宣布以 13 亿美元收购 AI 领域的新生力量 MosaicML，创下了当前 AI 领域收购纪录，可见公司在 AI 转型上的力度和决心。

正在前方参会的 PingCAP 创始人兼 CEO 刘奇告诉极客公园，Databricks 平台刚刚上线 AI 的企业级应用，就已经有超过 1500 家公司在上面进行模型训练，「数字超出预期」。同时，他认为 Databricks 由于之前在数据+ AI 方面的积累，让公司能在 AI 大火之际，迅速在之前平台基础上加入新产品，就能快速给出和大模型相关的服务。

「最关键的就是速度。」刘奇说道，在大模型时代，如何用更快的速度让大模型和现有产品整合，解决用户的痛点，可能是当下所有数据公司最大的挑战，同时也是最大的机会。

Talking points

通过交互界面的升级，不是数据分析师的普通人，也可以直接使用自然语言查询和分析数据。
企业将大模型部署到云端数据库将越来越容易，直接使用成品大模型工具分析数据，也将变得更加简单。
随着AI的进展，数据的价值还将越来越高，数据潜力将被进一步释放。

数据库迎来自然语言交互

在会上，Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承载着 Databricks 近期最大的发力方向之一——数据分析普惠化，即不掌握 Python 和 SQL 的普通人也能轻轻松松接入公司数据，用自然语言就能进行数据分析。

为达到这个目的，LakehouseIQ 被设计为一个功能合集，既可以被普通终端用户使用，也可以被开发者使用，针对不同的用户设计了不同的功能。

LakehouseIQ 产品图｜Databricks

对于开发者方面，发布了 LakehouseIQ in Notebooks，这项功能中，LakehouseIQ 可以利用大语言模型帮助开发人员完成、生成和解释代码，以及进行代码修复、调试和报告生成。

而对于普通的非程序员群体，Databricks 则提供了可以直接用自然语言交互的界面，背后由大语言模型驱动，可以直接用自然语言来搜索和查询数据。同时，该功能与 Unity Catalog 集成，让公司可以对数据的搜索和查询进行访问权限控制，只返回提问者被授权查看的数据。

自大模型推出以来，用自然语言对数据进行查询和分析，其实一直是一个数据分析方向的热点，许多公司在此方向都有所布局。包括 Databricks 的老对手 Snowflake，刚刚宣布的 Document AI 功能也是主打这个方向。

LakehouseIQ 自然语言查询界面｜Databricks

不过 Databricks 宣称，LakehouseIQ 做到了更好的功能。它提到，通用大语言模型在理解特定客户数据、内部术语和使用模式方面拥有局限性。而 Databricks 的技术，能够利用客户自己的模式（schema）、文档、查询、受欢迎程度、线程、笔记本和商业智能仪表盘来获取智能，回答更多查询。

Databricks 的功能与 Snowflake 的功能还有一个差别，Snowflake 平台的 Document AI 功能，仅限于对文档中的非结构化数据进行查询，而 LakehouseIQ 适用于结构化的 Lakehouse 数据和代码。

从机器学习到 AI

Databricks 与 Snowflake 在发布会上的相似之处还不局限于此。

此次发布会中，Databricks 发布了 Databricks Marketplace 和 Lakehouse AI，这与 Snowflake 这两天大会的重点也完全吻合，二者都主打将大语言模型部署到数据库环境中。

在 Databricks 的设想中，Databricks 未来既可以协助客户部署大模型，也提供成品的大模型工具。

Databricks 过去就有 Databricks Machine Learning 的品牌，在此次发布会上，Databricks 对其进行品牌全面的重新定位，升级为 Lakehouse AI，主打协助客户部署大模型。

Databricks 上线了 Databricks Marketplace。

在 Databricks Marketplace 中，用户可以接入经过筛选的开源大语言模型集合，包括 MPT-7B、Falcon-7B 和 Stable Diffusion，还可以发现和获取数据集、数据资产。Lakehouse AI 还包括一些大语言模型操作能力（LLMOps）。

Lakehouse AI 架构图｜Databricks

Snowflake 也在对此进行积极部署，其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供。

在协助客户部署大模型方向，Snowflake 与 Databricks 显现出了分歧。Snowflake 选择积极地与合作伙伴进行合作，而 Databricks 则试图将该功能作为其核心平台的本地特性添加进去。

而在提供成品工具方面，Databricks 宣布 Databricks Marketplace 未来还将可以提供 Lakehouse Apps。Lakehouse Apps 将直接在客户的 Databricks 实例上运行，它们可以与客户的数据集成，使用和扩展 Databricks 服务，并使用户能够通过单点登录体验进行互动。数据永远不需要离开客户的实例，没有数据移动和安全/访问问题。

这点则与 Snowflake 公司的产品从命名到功能上都直接撞车。Snowflake 公司与之相似的 Snowflake Marketplace 和 Snowflake Native App 已经上线，是其发布会的重点之一。彭博社就在 Snowflake 的大会上宣布了一个由彭博社提供的 Data License Plus (DL+) APP，允许客户在云端用几分钟时间就能配置一个随时可用的环境，内部设有完全建模的彭博订阅数据和来自多供应商的 ESG 内容。

数据平台迎来新变革

开幕式主旨演讲上，Databricks 公布了一个数字：过去 30 天，已经在 Databricks 平台上训练 Transformer 模型的客户超过 1500 家。

在谈及这个令人印象深刻的数字时，PingCAP 刘奇认为，这说明企业应用 AI 的速度比预期的要快得多，「应用模型不一定要去训练模型，所以如果训练的都有 1500 家，那应用的肯定要比这个（数字）大的多得多。」

另一方面，这也表明 Databricks 在 AI 这个领域的布局相对完整。「它现在不仅仅是一个 Data Warehouse（数据仓库），一个 Datalake（数据湖）。现在它还提供：AI 的 training（训练）、AI 的 serving（服务），模型的管理等一整套。」

Ali Ghodsi 以计算和互联网的革命，类比大模型之于机器学习的变革｜Databricks

也就是说，底层模型可以通过 Databricks 的平台去训练，「最底层的模型改改参数就能训练」。在这个模型之上所需要的 AI 服务，Databricks 也布局了相应的基础设施——今天发布了 vector search（向量搜索）和 feature store（特征库）。

Databricks 全面向大模型升级。

过去，Databricks 在 AI 方面有很多积累，比如在建索引、查数据、预测工作负载等方面，用小模型来提高效率、降低时延。但是，以如此快的速度补上大模型的能力，还是让不少人意外。

在今天峰会全面展示的 AI 布局之前，Databricks 收购了 Okera（AI 数据治理），推出了自家的开源大模型 Dolly 2.0，又以 13 亿美元并购了 MosaicML，一连串的动作一气呵成。

对此，硅谷徐老师 Howie 认为，Databricks 和 Snowflake 这两个大会都可以比较明确地看出：两家公司的创始人认为，基于数据库、数据湖他们所做的行动、接下来会面临根本性的改变。按照一年前他们在做的思路，在未来几年行不通。

相应地，快速补齐大模型的能力，也意味着可以获得由于大模型带来的增量市场。

刘奇认为，没有大模型之前，很多的需求可能都不存在，但有了大模型之后，有了很多新增需求。「因为只有模型没有数据，干不了什么事情，特别是没有办法做出差异化。如果大家都是一个大模型，那你跟别人可能也没有差别。」

但比起大模型，峰会现场的观众似乎更关注小模型，因为小模型的几个优势：速度、成本、安全性。刘奇表示，基于自己独有的数据，做出差异化的模型，模型要足够小才能满足这三条：足够便宜、足够快、足够安全。

值得注意的是，Databricks 和 Snowflake 在日前都公布了它的营收数据，平台年营收增长在 60% 以上。相比整个市场软件支出放缓的大背景，这样的增长速度反映了数据越来越被关注。这次 Databricks 峰会的主题也是数据加 AI，但有了大模型，数据的价值还将越来越高。

大模型的到来，让数据自动生成成为可能，可以预见，数据量将指数级增长。怎么轻松地访问数据、怎么支持不同的数据格式、挖掘数据背后的价值，会成为越来越频繁的需求。

另一方面，今天很多企业还在还在探索观望将大模型接入企业软件，但考虑到安全、隐私、成本，敢直接用的，还很少。一旦通过将大模型直接部署到企业数据上，无需移动数据，部署大模型的门槛将被进一步降低，数据被消费的数量和速度都将被进一步释放。

29 6 月 2023

火山引擎给大模型造大底座！MiniMax、智谱AI等已登陆

火山引擎刚刚交出大模型趋势答卷：

火山方舟，一个大模型服务平台。

它将国内多个明星大模型放在平台上，如MiniMax、智谱AI、复旦MOSS、百川智能、IDEA、澜舟科技、出门问问等。

不仅为大模型玩家提供训练、推理、评测、精调等功能与服务，后续还提供运营、应用插件等工具，进一步支撑大模型生态。

总之，就是要为大模型，打造一个超强底座。

而透过火山方舟，火山引擎如何看待大模型趋势？想做哪些事？如今也有了更明确的答案。

火山方舟是什么？

简单理解，各种大模型平台都好比自营商铺，向行业用户售卖大模型服务。

不过火山方舟想做的不是自家专卖店，而是一个集合了多家大模型旗舰店的商城。

在这个商城里，行业用户可以快速触及到业界优质的大模型，基于火山引擎的能力对模型精调推理，降低大模型使用门槛。

大模型玩家能基于火山引擎搭建稳健的大模型基础设施，提升自家模型业务能力，触及到更加直接和广泛的行业需求，加速迭代升级。

火山方舟作为连接二者的平台，则负责提供丰富完善的开发工具、充沛算力、安全互信的平台以及企业服务等，让双方的合作更加丝滑。

重点功能包括6个方面，贯穿了大模型采购使用的全流程：

第一是模型广场。

这可以理解为模型提供方和使用方初步了解的一个平台，大模型厂商能在此进行模型创建、上传、部署等操作，下游用户能看到模型效果并快捷体验。

第二是模型推理。

当用户选定好模型后，火山引擎可提供安全互信的推理方案，既保障模型提供方的知识产权安全，同时也维护使用者的数据信息安全。用户能直接使用已部署的在线服务，或者将精调模型部署为在线任务。

第三是模型精调。

对于大部分行业用户来说，通用大模型只是基础能力，想要使用更优质的大模型服务可能都需要基于自家数据进行持续训练或精调。

火山方舟能提供极简精调流程，只需两步即可一键精调：选择基础模型→上传标注数据集。对于有复杂需求的场景，还能进一步设置高级参数、验证集、测试集等更丰富的功能。

第四是模型评测。

生成式大模型目前还很难形成一个业界公认的benchmark，应用场景、数据等因素都会影响它的表现。但对于行业用户来说，明晰不同大模型的优劣势是购买服务前至关重要的一步。

所以火山方舟同步推出了评测工具，支持用户基于自身数据、系统化地感知模型表现情况，并且给出详细的测评报告，为后续做决策提供数据基础。

要知道，B端的使用场景也是“千人千面”的，企业要用自己的评测数据试一试，才能给出符合自身要求的准确评估。此外，基础模型的升级，新技术新模型的涌现，还将持续很长一段时间。企业需要不断测试对比、紧跟发展。

第五是运营干预。

通过提供运营干预工具，用户可以快速设置相关规则，这样在模型已经投入使用后，无需精调模型即可干预模型输出结果。

第六是应用插件。

目前大模型接入插件功能是大势所趋，能进一步发挥模型能力。未来在火山方舟上，能看到实时信息获取（通常说的“联网”）*、私域文档问答召回、Prompt补全与构建等。

透过以上重点功能，不难看出火山引擎对于当下云计算趋势的理解——尽可能加速大模型应用落地。

而且在具体实现路径上，火山引擎还给出了一种别样的打法，并且形成了鲜明的自身特点。

火山引擎智能算法负责人吴迪给出了三个关键词来总结：

开放、加速、信任。

所以火山方舟有何不同？

开放、加速、信任，三个关键词一一对应，其实代表火山方舟的自身定位、算力和安全。

首先来看自身定位上，火山方舟是个开放、中立的平台，企业客户可以根据实际效果自由选择模型。

对于云厂商而言，想要做好MaaS服务，核心之一肯定是模型层要够丰富、够强大。因为这意味着能在更丰富的应用场景中落地。

此前不少人将这一问题的解决，局限在了云厂商自家大模型能力提升上。

随着亚马逊云推出大模型平台Bedrock，一次接入Stability AI、Anthropic等多家大模型能力，给行业内开启了一种新范式。

这样一来，平台能直接引入业内最优秀的大模型，丰富自身能力和应用场景。

火山方舟的路径亦是如此，纳入更多大模型也让它具备更高的灵活性。

吴迪介绍，这样一来用户能够根据不同任务需求“货比三家”，接触到更多行业先进大模型。

通过提供统一的workflow，火山方舟能够实现模型之间的灵活插拔。在多模型切换下，工作流基本不改变，让各个模型完成自己擅长的任务，加速大模型的开发构建应用。

其次，火山引擎重点关注了大模型玩家们焦虑的算力问题。主打一个够用、实惠且稳定。

火山引擎的海量资源池，能够满足当下大模型训练推理的需求。

而通过加速训练和推理，能让算力的性价比更高。

NVIDIA开发与技术部亚太区总经理李曦鹏表示，如果想要硬件充分发挥性能，需要软硬件协同设计。

硬件方面，NVIDIA针对生成式AI的不同硬件配置与火山引擎底层平台深度结合。

在软件层面也提出了多种优化方法，双方一起做了很多开源发布，以图像预处理算子库CV-CUDA为例。它们能高效地运行在GPU上，算子速度达到OpenCV（运行在CPU）的百倍左右。如果用CV-CUDA作为后端替换OpenCV和TorchVision，整个推理的吞吐量能提升至原来的二十多倍，算子输入结果上CV-CUDA与OpenCV完全对齐。

此外，火山引擎还推出了Lego算子优化。

这一框架可以根据模型子图的结构，采用火山引擎自研高性能算子，实现更高的加速比。

在推理场景下，使用Lego算子优化，可以将基于Stable Diffusion模型的端到端推理速度提升至66.14 it/s，是PyTorch推理速度的3.47倍，运行时GPU显存占用量降低60%。在训练场景下，在128张A100上跑15天，模型即可训练完成，比当时最好的开源版本快40%。

而在稳定性方面，火山引擎也和英伟达做了更底层的合作。

李曦鹏介绍，目前大模型训练往往需要几千、上万张卡同时启动，如果其中某台机器出现故障，则会导致整个训练过程被影响。因此训练过程中的稳定性非常关键，它将直接影响开发效率。

在这方面，火山引擎和英伟达基于内部大量测试，最终实现了特定模型的规模、网络结构等，确定合适的checkpointing频率，在保障训练连续性的同时又让机器能够稳定运行。

具体能力也已有实际案例验证。

大模型玩家MiniMax基于火山引擎，研发了超大规模的大模型训练平台，高效支撑着三个模态大模型每天数千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。除了训练以外，MiniMax也同步自研了超大规模的推理平台,目前拥有近万卡级别的GPU算力池，稳定支撑着每天上亿次的大模型推理调用。MiniMax和火山引擎一起为大模型训练搭建了高性能计算集群，一起致力于提升大模型训练的稳定性，保证了超千卡训练的任务稳定运行数周以上。

稳健的大模型基础设施让MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环，实现从月至周级别的大模型迭代速度，和指数级的用户交互增长。MiniMax面向企业级的大模型解决方案目前已接入数百家企业客户，打通办公协作、智能硬件、教育、医疗、客服等十余个行业场景。

然后是能力输出上，火山引擎提出训推一体以及统一workflow。

统一workflow的能力不仅在于模型的灵活插拔，它还集成了火山引擎对大模型能力的理解。

比如如何做自动评估？pipeline怎么定？该做多少精调？这些问题都是需要经过大量开发工作后，才能输出的经验。通过这些细节上的保驾护航，企业用户落地大模型的效率和成功率都会有明显提升。

另一边，火山方舟也重点提出了训推一体的理念。

吴迪表示，基于对行业的观察，他相信未来大模型领域的头部及腰部厂商都会使用“1+n模式”，也就是自研或深度合作一个主力大模型、同时调用多个外部模型，对训练和推理都有需求。

加之火山引擎始终认为深度学习、机器学习是一件统一、紧凑且纯粹的事情，所以他们判断训推一体模式会是发展趋势，并已在火山方舟上推出。

而且训推一体化后，同样能为企业节省算力。

最后再来看安全方面，这也是火山方舟着重强调的部分。

吴迪表示，在大模型时代，信任问题至关重要。

大模型提供方不希望自己辛苦训练出的模型被人拷贝走，这属于重要知识产权；下游客户不希望自己的数据在推理和精调过程中不被泄露，敏感数据只有自己可见。

在这二者之间，便会形成一个信任的gap。尤其是当下大模型服务中的合作方众多，构筑信任墙就显得至关重要。而火山引擎作为云平台，会通过互信计算框架，基于不同客户的安全和隐私保护诉求，提供了包括安全沙箱、可信硬件以及联邦学习方案，来保证大家在互信的基础上推理、精调等。

以上三个方面，将火山引擎在云市场中的差异勾勒清晰。

从中也可看出，火山引擎的技术积累、行业经验和趋势理解，都为它入局大模型平台提供了坚实的保障。

那么，为什么火山引擎的答卷是火山方舟？

为什么是火山方舟？

直接原因来自于市场需求。

大模型趋势轰轰烈烈演进几个月，几乎触及到了各行各业，相应的需求也随之暴涨。

但对于行业用户来说，怎么触及市面上最先进的模型？怎么选择最适合自己的模型？怎么确定最后的大模型服务方案？这些问题对企业自身的技术理解程度、开发水平都提出了要求。

作为供给侧，大模型玩家也急于在热潮下快速推进自家业务发展。这不仅是一场技术竞赛，同时也是一场商业竞速赛，谁能更快触及更多用户，就会在市场中更快站住脚跟。在这种情况下，平台的触达能力一定大于厂商自身。

以及底层硬件厂商，同样也迫切需要大模型底座。

NVIDIA开发与技术部亚太区总经理李曦鹏表示，英伟达开发每一款新产品，都是以workload来驱动，所有开发都是要解决真实存在的问题。

比如随着深度学习的兴起，用Tensor Core加速矩阵乘法计算，就是在原有框架下针对workload的重点模块做效率提升。

再比如英伟达去年发布的Hopper架构，设计远早于发布时间。当时GPT-3才刚刚问世，大模型趋势远没有到来，英伟达是做了大量前瞻性的研究。而怎么做出这种前瞻性的探索，就是要从实际应用的基础结构中去发现问题。

回到当下来看，对于未来AI的趋势是否朝着GPT趋势发展，李曦鹏表示现在也无法确定，但是行业中的实际需求能够推动英伟达做出更有针对性的硬件和软件特性升级。

怎么更快、更准确把握住这些需求？还是要依托平台连接大模型玩家。

所以，像火山方舟这样承载着大模型供给方、使用方以及底层硬件厂商的平台，是行业迫切需求的。

而更深层的原因，还来自火山引擎自身。

吴迪很确定地说，火山方舟的使命，是加速大模型、大算力应用落地。

为什么要加速？两条增长曲线可以给出答案。

在以时间为横轴、GPU需求量为纵轴的坐标系里，首先出现当下的第一条增长曲线：模型训练曲线。

现在新兴的大模型正如雨后春笋般冒出，训练需求量飙升。但随着通用大模型市场趋于饱和，这条增长曲线也会逐渐放缓。

与此同时，还有一条增长曲线出现：推理需求曲线（模型应用曲线）。

而且它将在短期内呈指数增长趋势，在2025年左右和训练需求曲线相交，并在之后反超。

也就是说，市场上的推理需求量，最终一定会大于训练需求量。因为推理需求多大，代表了应用场景有多丰富。

如果应用场景的丰富度不够高，导致推理需求曲线没有快速升起，训练需求曲线同样也会受到影响滑落。

一旦出现这一局面，将意味着目前诸多投身大模型浪潮的创业者和企业，将会面临非常艰难的局面。

吴迪表示，火山引擎深信大模型趋势不是一次简单的浪潮，它将是新技术时代的一扇窗。如果想要加速这个时代更快到来，那么就要尽可能缩短推理需求超过训练需求的时间轴。

也就是加速大模型的应用落地。

火山方舟同时连接下游应用层和上游模型层、硬件层，加速企业用户使用大模型，在营收上更快去回报大模型领域创业者，以此形成一个加速正向循环。

而这也是为什么火山引擎要将自家大模型平台取名为“方舟”。

吴迪说，在想名字的时候，他们希望能有一个词来形容开放包容、生机勃勃、充满希望的意境。

最终在几十个词中确定了方舟。因为它能代表两方面寓意。

第一，承载着很多人的事业和梦想，共同驶向一个成功的远方，而且是一个具象的词；

第二，火山引擎相信整个大模型、大算力领域，需要众多合作伙伴在模型训练、内容安全、硬件优化等方面共同努力；

如今，方舟带着火山引擎的技术积累、行业理解以及美好愿景，正式启航。

未来大模型浪潮将会如何翻涌，还是未知数。

但载着众多国产大模型玩家、携手英伟达的火山方舟，一定会带着火山引擎驶向新的节点。

来源：量子位

29 6 月 2023

周鸿祎：企业不要觉得有了GPT就能瞎裁员了

6月29日消息，360创始人周鸿祎在一场演讲中谈到，“我一直在很努力的说服很多企业家，不要觉得有了 GPT 就能瞎裁员了。”

周鸿祎称，自己的观点和微软类似，信息化、数字化增大了我们大家的工作量。自从有了电脑化、即时通信工具后，大家每天有无数的消息要回，工作量加大了，有大量的文案工作。大模型企业落地要普惠，让每个人都用起来，成为员工的知识助手、办公助手，领导的决策助手。

“大模型不是万能的，只能打辅助，做一部分工作。所以大模型不会淘汰人，当然程序员也不会被淘汰，要有信心。我最近不也是又报名上了清华，电子信息专业，重新去学习做一个工程师。”周鸿祎在微博上也发文强调：“人工智能的发展还是要以人为本。”

29 6 月 2023

“比GPT-4强”！谷歌DeepMind自曝正开发新型AI模型

不久前强强合并而成的人工智能巨头Google DeepMind终于向ChatGPT发出实质性挑战。在上个月的谷歌（Google） I/O开发者大会上，谷歌公司首次透露了其正在开发的大型语言模型Gemini。

据《连线》6月26日报道，DeepMind联合创始人兼Google DeepMind首席执行官德米斯·哈萨比斯（Demis Hassabis）最近在采访中进一步透露了Gemini的细节：该系统将AlphaGo背后的技术与大语言模型相结合，目标是让系统具有新的能力，如规划或解决问题，比OpenAI的GPT-4能力更强。

2016年，DeepMind开发的AlphaGo曾击败围棋高手创造历史。“你可以认为Gemini结合了AlphaGo系统的一些优势和大模型的惊人语言能力。”哈萨比斯说，“我们也有一些新的创新，这些创新将非常有趣。

”可能会尝试新想法AlphaGo是基于DeepMind开创的一种叫做强化学习的技术，在这种技术中，软件通过反复尝试并接受关于其表现的反馈，学会选择采取何种行动以处理棘手的问题，比如围棋或视频游戏。它还使用了一种叫做树状搜索（tree search）的方法来探索和记忆棋盘上的可能动作。语言模型的下一个大飞跃，可能涉及让这种技术在互联网和计算机上执行更多任务。哈萨比斯说，Gemini仍在开发中，这个过程将需要数月时间，可能花费数千或数亿美元。

OpenAI首席执行官山姆·奥特曼（Sam Altman）曾在4月透露，创建GPT-4的成本超过1亿美元。训练像GPT-4这样的大型语言模型，需要将来自书籍、网页和其他来源的大量文本输入被称为Transformer（谷歌开发的一种深度学习模型，OpenAI在此基础上开发了GPT）的机器学习软件。

它利用训练数据中的规律，熟练地预测一段文本后面的字母和单词，这种简单的机制在回答问题和生成文本或代码方面被证明是非常强大的。要开发ChatGPT和类似能力的语言模型，需要一个重要的额外步骤：使用基于人类反馈的强化学习来完善其性能。

DeepMind在强化学习方面的深厚经验可以让其研究人员赋予Gemini新的能力。哈萨比斯和他的团队也可能尝试用人工智能其他领域的想法来加强大型语言模型技术。DeepMind的研究人员涵盖了从机器人到神经科学等各个领域，本周，该公司展示了一种算法，能够学习用各种不同的机器人手臂执行操纵任务。

谷歌DeepMind的研究人员最近将人工智能与一款名为RoboCat的机器人结合起来，预计将在自我训练机器人方面实现一大跃进。人们普遍认为，像人类和动物那样从世界的物理经验中学习，对于使人工智能更有能力非常重要。一些人工智能专家认为，语言模型通过文本间接地学习世界，是一个主要的限制。谷歌高层十分重视GeminiGemini是DeepMind迄今为止在该领域最有野心的项目。

国外科技网站The Information在3月报道称，受谷歌聊天机器人项目巴德（Bard）失败的刺激，为了跟上ChatGPT的步伐，谷歌高层直接参与Gemini的研发，包括该公司最高级的人工智能研究主管杰夫·迪恩（Jeff Dean）。

Gemini的开发完成，可能会让谷歌在与ChatGPT等生成式人工智能技术的竞争中占据优势。尽管谷歌开创了许多技术，并催生了最近的人工智能创新，但它选择了谨慎地开发和部署产品。

而到了4月，为了应对越来越激烈的竞争，谷歌将其“谷歌大脑”实验室与哈萨比斯领导的DeepMind合并为Google DeepMind。哈萨比斯说，新团队将结合两个强大的人工智能团队。“如果你看看我们在人工智能领域的地位，我会说80%或90%的创新来自这两者之一。”哈萨比斯说。“过去十年里，这两个组织都取得了一些杰出的成就。”哈萨比斯自己曾引发过一场人工智能狂热。

2014年，DeepMind被谷歌收购。在接下来的几年里，DeepMind展示了AI如何做到曾经看起来只有人类才能做到的事情。当AlphaGo在2016年击败围棋冠军李世石时，许多人工智能专家都惊呆了，因为他们曾认为，机器要想熟练掌握如此复杂的游戏，还需要几十年。

值得注意的是，Gemini并不是DeepMind进入语言模型领域的第一次尝试。去年，该公司推出了聊天机器人Sparrow，声称它比其他语言模型更不可能给出“不安全”或“不恰当”的答案。

哈萨比斯今年1月在接受《时代》采访时说，DeepMind将考虑在今年某个时候发布Sparrow的私人测试版，目前还不清楚这些计划是否仍在进行中。

来源：澎湃科技