剑桥资讯|让AI更像人:怎样的“确定”才算“确定”?将人为错误纳入机器学习

人为错误和不确定性是许多人工智能系统未能掌握的概念,尤其是那些基于人类反馈的机器学习模型系统,它们的编程中大多预设人类行为总是正确且确定的,但现实世界的决策往往包含偶然错误和不确定性。

Human error and uncertainty are concepts that many artificial intelligence systems fail to grasp, particularly in systems where a human provides feedback to a machine learning model. Many of these systems are programmed to assume that humans are always certain and correct, but real-world decision-making includes occasional mistakes and uncertainty.

来自剑桥大学、艾伦·图灵研究所(Alan Turing Institute)、普林斯顿大学和谷歌“深度思维”(Google DeepMind)的研究人员一直试图弥合人类行为和机器学习之间的差距,以便在人类和机器协同工作的人工智能应用中更充分地考虑不确定性。这有助于降低风险,提高相关应用程序的可信度和可靠性,尤其是在医疗诊断等需要高安全性的场景中。

Researchers from the University of Cambridge, along with The Alan Turing Institute, Princeton, and Google DeepMind, have been attempting to bridge the gap between human behaviour and machine learning, so that uncertainty can be more fully accounted for in AI applications where humans and machines are working together. This could help reduce risk and improve trust and reliability of these applications, especially where safety is critical, such as medical diagnosis.

该团队采用了一个著名的图像分类数据集,以便人们在标记特定图像时提供反馈并指出自身不确定性水平。研究人员发现,使用不确定标签进行训练可以提高这些系统处理不确定反馈的性能,尽管人类参与也可能降低这些混合系统的整体性能。

The team adapted a well-known image classification dataset so that humans could provide feedback and indicate their level of uncertainty when labelling a particular image. The researchers found that training with uncertain labels can improve these systems’ performance in handling uncertain feedback, although humans also cause the overall performance of these hybrid systems to drop. 

该研究结果将发布于2023年人工智能、伦理和社会会议(AIES 2023),该会议由国际先进人工智能协会(AAAI)和美国计算机协会(ACM)联合举办,今年在蒙特利尔召开。
Their results will be reported at the AAAI/ACM Conference on Artificial Intelligence, Ethics and Society (AIES 2023) in Montréal.

“人机协同”机器学习系统是一种能够提供人类反馈的人工智能系统,被认为有希望在自动化模型无法独立决策的情况下降低风险。但如果人类也充满不确定性呢?

 ‘Human-in-the-loop’ machine learning systems – a type of AI system that enables human feedback – are often framed as a promising way to reduce risks in settings where automated models cannot be relied upon to make decisions alone. But what if the humans are unsure?

该研究的第一作者、来自剑桥大学工程系的凯瑟琳·柯林斯(Katherine Collins)表示:“不确定性是人类推理世界的核心,但许多人工智能模型未能考虑到这一点。许多开发人员都在致力于解决模型的不确定性,但是很少有人解决人类角度的不确定性。”

“Uncertainty is central in how humans reason about the world but many AI models fail to take this into account,” said first author Katherine Collins from Cambridge’s Department of Engineering. “A lot of developers are working to address model uncertainty, but less work has been done on addressing uncertainty from the person’s point of view.”

我们习惯在权衡各种可能性之后做出决定,却鲜少对此认真思考。大多数时候即使我们做出错误的决定也无伤大雅,比如说将陌生人误认成朋友并向其挥手。然而在某些应用中,不确定性带来了真正的安全风险。

We are constantly making decisions based on the balance of probabilities, often without really thinking about it. Most of the time – for example, if we wave at someone who looks just like a friend but turns out to be a total stranger – there’s no harm if we get things wrong. However, in certain applications, uncertainty comes with real safety risks.

柯林斯说:“许多人类-人工智能系统预设人类始终坚持自己的决定,但事实并非如此,是人都会犯错。”“我们想弄清楚当人们表达不确定性时会发生什么,这在诸如医疗人工智能系统临床应用等注重安全的场景中尤为重要。”

“Many human-AI systems assume that humans are always certain of their decisions, which isn’t how humans work – we all make mistakes,” said Collins. “We wanted to look at what happens when people express uncertainty, which is especially important in safety-critical settings, like a clinician working with a medical AI system.”

“我们需要升级工具来重新校准这些模型,让使用者能够即时表达其不确定性。”该研究的共同作者马修·巴克(Matthew Barker)说道,他刚在剑桥大学冈维尔与凯斯学院取得工程硕士学位。“在对不确定性表达充分自信的情况下,机器可以被训练,但人类通常无法提供这种自信,机器学习模型也难以应对这种不确定性。”

“We need better tools to recalibrate these models, so that the people working with them are empowered to say when they’re uncertain,” said co-author Matthew Barker, who recently completed his MEng degree at Gonville & Caius College, Cambridge. “Although machines can be trained with complete confidence, humans often can’t provide this, and machine learning models struggle with that uncertainty.”

这项研究还引入了三个机器学习基准数据集,分别用于数字分类、胸部X射线分类和鸟类图像分类。

For their study, the researchers used some of the benchmark machine learning datasets: one was for digit classification, another for classifying chest X-rays, and one for classifying images of birds.
研究人员对前两个数据集进行了不确定性模拟,但对于鸟类数据集,他们让人类参与者表明对所看图像的确定程度:例如,鸟是红色还是橙色。这些由人类参与者提供的注释“软标签”让研究人员能够修改并确定最终结果。然而他们发现,当机器被人类取代时,性能会迅速下降。

For their study, the researchers used some of the benchmark machine learning datasets: one was for digit classification, another for classifying chest X-rays, and one for classifying images of birds. For the first two datasets, the researchers simulated uncertainty, but for the bird dataset, they had human participants indicate how certain they were of the images they were looking at: whether a bird was red or orange, for example. These annotated ‘soft labels’ provided by the human participants allowed the researchers to determine how the final output was changed. However, they found that performance degraded rapidly when machines were replaced with humans.

“我们从数十年的行为研究中得出,人类几乎不会100%确定,但将这一点纳入机器学习是一个挑战,”巴克说。“我们试图在这两个领域之间架起一座桥梁,这样机器学习就可以开始处理人类的不确定性,因为人类是系统的一部分。”

“We know from decades of behavioural research that humans are almost never 100% certain, but it’s a challenge to incorporate this into machine learning,” said Barker. “We’re trying to bridge the two fields so that machine learning can start to deal with human uncertainty where humans are part of the system.”

研究人员表示,他们的研究结果已经确定了几项将人类纳入机器学习模型过程中的开放性挑战。他们正在发布数据集以进一步研究,并将不确定性纳入机器学习系统。

The researchers say their results have identified several open challenges when incorporating humans into machine learning models. They are releasing their datasets so that further research can be carried out and uncertainty might be built into machine learning systems.  

“正如我们的一些同事所说的,不确定性是透明性的一种形式,这非常重要,”柯林斯说。“我们需要弄清楚什么时候可以信任一个模型,什么时候可以信任一个人,以及其中的原因。在某些应用中,我们关注的是概率而不是可能性。例如,特别是随着聊天机器人的兴起,我们需要更好地融入可能性语言的模型,这可能会带来更自然、更安全的体验。”

“As some of our colleagues so brilliantly put it, uncertainty is a form of transparency, and that’s hugely important,” said Collins. “We need to figure out when we can trust a model and when to trust a human and why. In certain applications, we’re looking at probability over possibilities. Especially with the rise of chatbots, for example, we need models that better incorporate the language of possibility, which may lead to a more natural, safe experience.”

“在某些方面,这项工作中显现的问题比它解决的要多,”巴克说。“但即使人类可能在不确定性方面被错误校准,我们也可以通过考虑人类行为来提高这些人机协同系统的可信度和可靠性。”

“In some ways, this work raised more questions than it answered,” said Barker. “But even though humans may be miscalibrated in their uncertainty, we can improve the trustworthiness and reliability of these human-in-the-loop systems by accounting for human behaviour.”

这项研究得到了剑桥信托基金、马歇尔委员会、利华休姆信托基金、剑桥盖茨信托基金和英国工程和自然科学研究委员会(EPSRC)的部分支持,EPSRC隶属于英国国家科研与创新署(UKRI)。

The research was supported in part by the Cambridge Trust, the Marshall Commission, the Leverhulme Trust, the Gates Cambridge Trust and the Engineering and Physical Sciences Research Council (EPSRC), part of UK Research and Innovation (UKRI).

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

OpenAI、Meta 等七巨头联手,打造 AI 时代的防伪「身份证」

由 AI 生成的内容也要有「身份证」了。

近日,包括 OpenAI、Meta 在内的七家科技巨头承诺将采用一些安全措施来增强 AI 技术的安全性。

值得注意的是,在承诺中,这七家科技巨头都不约而同谈到了 AI 的监管问题并承诺将共同开发和应用一种水印系统,可用于人工智能生成的所有形式的内容,包括文本、图像、音频和视频。

通过留意嵌入内容中的水印标识,用户能够自行甄别由 AI 生成的深度伪造的图像或音频,从而在用户端上降低暴力、诈骗等负面信息内容的传播风险。

事实上,自去年 ChatGPT 爆火以来,入局的科技巨头势必要在这场竞争中拔得头筹,AI 技术的发展一日千里。

而随之,不成熟的 AI 技术也衍生出一些值得关注的问题,其中首当其冲的正是如何甄别信息内容的真实性。

2019 年,一名诈骗犯利用 AI 语音模仿软件冒充成公司的大老板,成功让一家英国能源公司的 CEO 以为自己正在跟德国母公司的老板通话。

    在电话中,诈骗犯凭借 AI 技术模拟后的语音,让该 CEO 立即转账 22 万欧元(注:约合 176 万人民币)到匈牙利的一家供应商的银行账户,以避免缴纳「滞纳金」,并要求将转账信息以邮件形式发送。该 CEO 在模拟语音的迷惑下,毫不犹疑地照做了,然后,这 22 万欧元就这样「打水漂」了。

为这家能源公司承保的保险公司表示:「骗子使用的某种 AI 软件,不仅能够模仿他人的声音、语调,甚至还能模仿带德国口音的英语。」被骗的 CEO 在一份电子邮件中愤怒地写道:「(假的)「约翰内斯」甚至在我与真正的约翰内斯通话时,要求跟我通话」

这过于离谱的事件,也普遍引发了用户对 AI 无序发展的担忧。突破常规的人工智能技术被用于诈骗时,更像是「猜猜我是谁?」的进化版。

但在降维打击面前,普通人的警惕心显得毫无用武之地。

而这还只是发生在 2019 年的事件,须臾三年,AI 技术的迅猛发展足以让人瞠目结舌,而信息内容真实性问题也再次回到公众视野。

倘若以「AI 诈骗」为关键词,在搜索引擎上筛选最新资讯,我们会发现当前关于 AI 诈骗的事件可谓是比比皆是。这种普遍性的现象恰恰反映了实施有效措施的迫在眉睫。

今年 6 月份的时候,欧洲议会以 499 票赞成、28 票反对和 93 票弃权,高票通过了欧盟的《人工智能法案》,明确了 AI 监管中不可逾越的红线,基于 AI 的四个等级(从风险最小到不可接受)进行区分管理,其中就明确 ChaTGPT 等工具,必须披露哪些内容是 AI 生成的,以便帮助区分所谓的深度造假图像和真实图像,并确保防止生成非法内容。欧洲议会议员图朵拉赫表示:「如果人工智能的开发者不这样做,他们可能会被迫立即删除应用程序或被罚款,罚款最高可达其收入的 7%。」可能高达数亿欧元的罚款对于科技巨头而言,也算得上「伤筋动骨」了。

因此七家科技巨头选择在技术层面给信息内容嵌入水印,一方面有利于用户甄别信息内容的真实性,方便用户溯源信息内容的源头,另一方面也是对《人工智能法案》的一种无声回应,毕竟强如苹果也不敢轻易放弃欧盟市场。当然,尽管这也是治标不治本的事情,但口头在前,行动在后,总归还是一件不错的事情。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

语言科技资讯丨Meta推出“AI翻译官”,能翻译和转录近百种语言!

秉持其一贯的开源策略,Meta在开源协议CC BY-NC 4.0下公开发布了SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta还发布了SeamlessAlign的数据集,其博客提到这也是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达270000小时。

录音、选择、翻译一气呵成  

不惧背景噪声干扰、还能区分多人角色

Meta的博客中提到一般而言,现有的语音到语音翻译过程,会被划分为多个阶段,然后不同阶段会有对应的单独系统,很少能有统一的系统去完成多个任务。

SeamlessM4T的出现就解决了语音到语音翻译任务对单独系统的依赖的难题。

打开SeamlessM4T的Demo体验网站,用户点击下方的“START RECORDING”按钮就可以开始录音,录制完成进入第二步,“SELECT TRANSLATION LANGUAGE”选择需要翻译的语言种类,最后点击下方的“TRANSLATE”就会出现翻译的文本、语音两种结果。

在Meta的测试中,SeamlessM4T在保持高资源语言性能的同时,提高了中低资源语言的翻译性能,并且在近100种语言中实现了自动语音识别、语音转文本、语音转语音、文本转语音和文本转语音等多任务支持。

为了在不依赖基于文本的指标情况下更准确地评估SeamlessM4T,研究人员将无文本指标扩展到可以进行跨语音和文本单元评估的BLASER 2.0。进行鲁棒性测试时,与当前其它模型相比,SeamlessM4T在语音转文本任务中背景有噪声和出现多个说话人时的表现更好,平均分分别提高了37%和48%。

从基本的数据来看,SeamlessM4T的模型需要大量高质量端到端数据,仅仅靠人工转录和翻译的语音无法满足近100种语言语音翻译的需求。因此,Meta为200种语言构建了大规模多语言和模态文本嵌入空间SONAR,能快速搜索具有相似性的多种语言。

同时,通过挖掘公开可用的网络数据存储库中的数百亿个句子和400万小时的语音数据,Meta还构建了语料库SeamlessAlign,能自动将超过443000小时的语音与文本进行对齐,并创建了约29000小时的语音到语音对齐。

同时,SeamlessM4T的构建还借鉴了Meta此前的技术积累,包括去年发布的文本到文本机器翻译模型NLLB、发规模多语言翻译数据集SpeechMatrix,以及今年的跨1100种语言的语音识别技术Massively Multilingual Speech等,基于大量先前的研究成果,才使得SeamlessM4T能仅用单一模型就实现多语言和多任务的翻译功能。

适配多任务模型架构、语音文本编码器

为了构建统一模型,Meta的研究人员在工具包、模型架构、编码器等上都进行了适配。

Meta重新设计了序列建模工具包fairseq,并使用多任务UnitY模型架构,这一新架构能实现自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译。

处理语音的过程中,自监督语音编码器w2v-BERT 2.0相比于w2v-BERT版本,训练稳定性和生成质量有了提升,编码器可以将获取到的音频信号分解为更小的部分构建内部表示。

文本编码器采用的是文本到文本翻译模型NLLB,它经过训练可以理解近100种语言的文本并生成对翻译有用的信息。

然后到了生成文本的步骤,通过多任务训练,Meta利用NLLB模型,通过标记级知识蒸馏来指导语音到文本翻译模型,就可以将这一编码器应用于自动语音识别、多语言翻译任务。例如,某人用法语说“bonjour(你好)”,可以将其翻译为斯瓦西里语的文本“habari”。

翻译内容的语音输出,Meta基于UnitY模型中的文本到单元(T2U)组件,这一组件可以根据文本输出生成离散语音单元,并在UnityY微调之前根据自动语音识别数据进行预训练。然后使用多语言HiFi-GAN单元声码器将这些离散单元转换为音频波形。

语:语言翻译仍需清除有害内容输出

就Meta的测试结果来看,SeamlessM4T相比于其他系统的翻译、转录效果更好,并且覆盖的语言范围也更为广泛。

值得一提的是,与所有生成式AI存在的风险类似,翻译过程的准确性也十分重要,这一AI模型可能会错误转录用户说的话,或转录有害信息等。

因此,Meta还将高度多语言的有害性内容分类器扩展到语音,以帮助识别语音输入和输出中的有害内容。

SeamlessM4T Demo体验网址:

https://seamless.metademolab.com/

模型代码下载地址:

https://github.com/facebookresearch/seamless_communication

中国AI生态将呈现三大特征

在智能革命浪潮的推动下,人工智能(AI)技术不断发展,催化着中国加速形成完整的AI生态。近日,在2023中国算力大会开幕式主论坛上,联想集团执行副总裁兼中国区总裁刘军表示,这一生态将呈现终端超级智能、混合架构计算、行业全场景应用三大特征。

“未来终端将嵌入超级算力,具备AI能力的终端与用户的交互方式将持续演化。超级智能终端多设备之间可实现无缝衔接与协同,端侧AI模型与用户数据充分结合的各种应用,将成为用户贴身的超级智能助理。”刘军解释道,“此外,AI的训练负载将由云端进一步向边缘和端下沉,并在云、边、端侧合理分配,从而形成云/边/端混合架构;从部署模式看,可根据公域、私域等不同场景混合部署AI;同时,智算中心正加速部署,将形成智算/超算/通用算力混合发展格局。AI将在行业全场景应用,使企业效率得到指数级提升。”例如,在联宝(合肥)电子科技有限公司每天生产的超过10万台电脑中,80%是数量小于5台的客制化订单,排产复杂度约为10的160次方。使用人工智能排产后,每天排产时间从以前的6小时减少到只需要90秒。

构建完整的AI生态,需要有完善的AI硬件基础设施。国际数据公司的数据显示,联想集团是2022年市场占有率增长最快的AI硬件基础设施(服务器和存储)提供商,同比增长139%,全球排名第三。为促进AI硬件基础设施建设,在2023中国算力大会上,联想正式对外发布“全栈智能布局”,这一布局包括:AI内嵌的智能终端、AI导向的基础设施和AI原生的服务及方案。

“联想AI导向的算力基础设施已全面覆盖云端、边缘算力场景。未来,联想全部算力基础设施产品都将支持AI,50%的基础设施研发资金都将投入到AI领域,AI技术将覆盖全域AI应用。”刘军表示,站在时代的新起点,联想集团将继续全面拥抱人工智能,加快推动普慧算力的落地,推动中国AI生态向纵深发展,助力中国企业跑出智能化转型加速度。

文章来源:科技日报

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

新一代AI绘画工具ideogram注册使用介绍,可碾压Midjourney

继Midjourney前几天的七夕刚推出区域改图之后

AI绘图领域又出一王炸

可以生成表意文字的AI绘图工具

可以准确清晰的生成提示词中的文字信息

这些都是这个工具做出来的效果

AI绘图不会写字也成为了历史

过去几个月,AI绘画技术取得了惊人的进步。今年初,AI绘画的人物还非常畸形,五官位置不正确。但是到了8月,大多数AI绘画已经能绘制出比较精致的人物,有时甚至比新人画师画的还要好。

现在连平面设计的工作也要替代了

这种进步速度比火箭还快,直接冲击了设计行业

全球每月产出成千上万的作品,为AI提供了海量学习材料

AI通过不断学习这些作品,只用了短短几个月就取得了惊人的进步

Midjourney、OpenAI的Dall-E 2和Stability AI的Stable Diffusion等

我们已经有了足够的选择,但还不够,这个工具

它可能最终解决了迄今为止困扰大多数其他流行AI图像生成器的问题:图像中的可靠文本生成,例如标志上的字母和公司徽标。

这极大地提升了AI图片生成工具的实用性

这个新的生成式AI创业公司是一个由前Google Brain研究人员创立的生成式AI创业公司,最近完成了由a16z和Index Ventures领投的1650万美元种子轮融资。

可谓也是有背景,有来头的

这就是Ideogram

Ideogram当前已经开放公测注册,示例效果令人印象深刻

甚至不需要魔法上网

直接登录网站https://ideogram.ai/

即可来到ideogram的主页

毕竟是谷歌背景的产品

目前只能以谷歌账号的形式登录

使用方式也非常的简单

With text “xxxx”+提示词,即可生成精确带有“xxxx”文字的图片

比如做一个A movie poster of Donald Trump, vector art, photo, dressed as the Terminator, with text “Shige, reliable!”

就轻轻松松请川普做代了个言

如果实在不知道怎么怎么创作,就看看主页别人的,把他的提示词复制过来,更改“引号”里面的内容为自己的就好

每张别人生成的图片下面的文字就是这个图片的提示词

罢工未停,好莱坞96%娱乐公司先砸钱用AI替代人力了

自今年5月开始,代表好莱坞编剧的美国编剧工会(WGA)已经罢工近100多天。

本次大罢工,原因除了演员、编剧与资方的薪资矛盾外,AI取代演员和编剧的威胁也是主因之一。然而,罢工问题还未解决,好莱坞96%娱乐公司倒先加大对生成性AI的支出,想用AI替代人力。

对此不少网友都认为,娱乐艺术是需要创造力的,AI本质上不具备创造力,只是基于互联网内容合成,而这样就会有侵权的风险。

企业高管拥抱AI

就在好莱坞编剧罢工间隙,美国大数据应用搜索提供商Lucidworks做了一份关于”企业应用生成式AI”的报告,调查了来自12个行业的6000名受访者,其中大部分都是拥有决策权的高管,且参与了企业在AI投资决策的过程。

调查结果显示,96%的娱乐公司高层都在考虑提高使用生成式AI的支出,在所有十二个行业里排名第一。而且有意思的是,一向被视为走在前沿的科技公司,在加大AI支出的这块,竟然和娱乐公司一样了。

另外,早在今年3月,Lucidworks也发布过一份关于OpenAI这类大模型对劳动力市场影响的研究报告,报告中α代表GPT,β和ζ代表不同由GPT大模型驱动的工具。

研究人员通过使用GPT和其他AI工具进行测评,结果显示使用GPT可以直接缩短写作近70%的时间,如果用AI工具,则100%的写作都能用AI来完成。

虽然报告指出,这并不一定意味着AI将取代人工,不可否认的是,AI对写作这一工作,已然产生巨大影响。

这次好莱坞大罢工,最令人关注的是人们对AI可能取代演艺人员和编剧工作的担忧。

事实上,现在已经有很多AI工具可用,仅文本生成方面就有包括Jasper、Notion.AI等数十个,除此之外还有很多通过文本提示就能生成视频的工具,比如Runway。

今年,已经80多岁的好莱坞老牌男星哈里森·福特在《夺宝奇兵》系列影片中,借助人工智能技术让观众看到了青年时的福特再现英姿。此外,一家名为Metaphysic的人工智能技术公司采用数据采集技术批量捕捉演员信息,让演员在荧幕上实现“长生不老”。

对此,投资人、行业分析师Jeremiah Owyang就表示:

AI会先取代剧本创作人员,然后再取代演员,因为AI合成演员不会罢工、不请病假、也不会变老。

亏损严重,想用AI扭转局势

好莱坞急着拿AI做筹码,背后原因是整个影视行业的商业模式面临挑战。

过去几年,以Netflix为代表的流媒体崛起后,很多项目都是“一锤子买卖”,也就是一次性酬劳,不再提供后续分红。相比于传统电视剧、电影播出模式中,普通从业者按劳拿薪的情况,收益少了不止一点点。

而现在,“订阅”这一被资本市场备受认可的商业模式,如今也陷入了困境。

2021年前后在Netflix最火的时候,其股价曾超过700美元。但随着海外通胀持续上涨,按月付费这一看似“稳定的收入源”也很快成为用户最先砍掉的非必需开支之一。据不完全统计,相比之前Netflix、Disney+、Hulu等数十家流媒体纷纷上调了月费。

另外,Netflix还开始严厉打击账户共享,要求同一账户名下的设备每31天至少需要登录一次该账户所属的Wi-Fi。其他地址的用户要想共用该账户,需要每月额外付7.99美元。

与此同时,线下的院线大片表现也不理想。

包括华纳兄弟、派拉蒙、迪士尼旗下卢卡斯影业、漫威等多家公司在内,近两年推出的多数电影基本都是“赔本赚吆喝”的状况。比如派拉蒙前段时间热映的《碟中谍7》,上映第一周全球票房2.35亿美元,但由于疫情导致延期,影片成本高达2.9亿美元,回本任务艰巨。

因此,各大媒体集团从去年开始就陆续表态要降本增效,去年华纳兄弟探索(Warner Bros. Discovery)仅在第二季度就亏损超过34亿美元,今年一季度又继续亏损超过10亿美元。

在这样的大环境下,好莱坞资本方急于寻找新的增长点,这时候AI恰好出现在他们视野。

只要有电有网,AI就可以利用现有素材实现“无限量”的内容创作,不仅可以提高生产效率,还能显著降低成本,相比起使用真实演员,更为经济实惠。只要观众能够接受,潜在的亏损问题也就迎刃而解。

制片方承诺:不会用AI取代

目前好莱坞罢工还未有停止迹象,制片公司这边开始先着急了。

根据路透社消息,最近代表好莱坞制片公司的美国电影电视制片人联盟(Alliance of Motion Picture & Television Producers)向编剧提出了一项新的提议,提议包括:“保证编剧将由真人负责,不会被AI取代”。

并且,联盟所代表的公司已提出共享流媒体收视率数据,以便编剧能够衡量节目的受欢迎程度,结算劳务。

你怎么看这次好莱坞罢工,AI真的可以替代编剧、演员吗?

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

骨灰级语言COBOL二度出圈,秒变Java!

在编程语言中,COBOL 绝对算得上是“上古神兽”,可以追溯到1959年左右,目前全球仍有众多大型企业或政府机构用的是COBOL 编写的旧软件。但因为太过古旧,很多新手开发者甚至闻所未闻。

为了解决COBOL应用程序现代化的问题,IBM最近推出了IBM Z 服务,意在利用 AI 技术将COBOL 代码转译成 Java 语言。

骨灰级语言迎来新生机

COBOL这门语言虽然古老,但生命力惊人。根据2022年的一项调查,生产系统中使用的COBOL代码超过了8000亿行。但问题在于,COBOL 的存在已逾一个甲子,很多编写应用程序的开发人员早已退休甚至离世了。

正因为“懂COBOL”的程序员极为稀缺,所以他们的薪水是相当可观的,甚至连美国政府都曾经公开招募COBOL程序员,以便维护那些还在运转中的众多关键任务应用程序。

无论从可操作性还是效率来说,COBOL在当下都过时了,但正是由于COBOL专家的数量极少,这也导致“迁移”往往成为一个复杂昂贵的命题。2012年,澳大利亚联邦银行下决心更换了其核心COBOL平台,这场改造耗时5年,耗资超过7亿美元。

在这一背景下,IBM发布了IBM Z的Code Assistant,它使用代码生成AI模型将COBOL代码转换为Java。

IBM介绍,用于 Z 大型机的 watsonx Code Assistant 旨在帮助开发人员评估和确定最需要现代化的代码,使他们能够更快地更新大型应用程序,专注于关键任务。

Omdia 首席分析师 Roy Illsley对此评论道,将代码迁移到 Java 意味着可以找到更多的程序员来做支持,如果 COBOL 应用程序在Z大型机上的 Linux 系统中运行,那么它们将来可能更容易地从大型机上迁移下来(尽管这并不总是像看起来那么容易)。

据悉,IBM Z的Code Assistant将于今年第四季度上市,在此之前,IBM 会在今年9月初于拉斯维加斯举行的TechXchange会议上演示该功能。

转换成Java,代码高度自然

那么IBM Z服务到底是如何发挥作用的呢?

IBM研究院首席科学家Ruchir Puri在接受外媒采访时表示:“IBM建立了一个新的、最先进的生成人工智能代码模型,将遗留的COBOL程序转换为企业Java,生成的代码具有高度的自然性。”

为帮助企业重构其大型机应用程序,IBM Z的Code Assistant可以在本地配置中运行,也可以作为托管服务在云中运行,由代码生成模型CodeNet提供支持。

Puri提到,CodeNet 模型使用1.5万亿个参数进行训练,拥有 200 亿个参数,设计了一个大的上下文窗口(32,000个令牌),以“捕获更广泛的上下文”,实现“更有效的COBOL到Java转换”。

放眼当前市场,将COBOL应用程序转换为Java语法的自动化工具并不少见。Puri也承认这一点。他进一步指出,Code Assistant采取措施避免牺牲COBOL的功能,同时降低成本并生成易于维护的代码,这就区别于市场上的一些同类竞品。

因为有些类似的产品主要是针对COBOL 代码进行静态和动态分析而不是运用AI,究其根本,它们只是将代码拆分为仍然基于 COBOL 的微服务。

watsonx Code Assistant for Z 生成的 Java 代码将是面向对象的,但仍会与 IBM 声称的 COBOL 应用程序的其余部分以及 CICS、IMS、DB2 和其他 z/OS 运行时等关键服务进行互操作。

“IBM为IBM Z构建了代码助手,以便能够混合和匹配COBOL和Java服务,”Puri说。“如果系统的‘理解’和‘重构’功能建议应用程序的给定子服务需要保留在COBOL中,那么它将保持这种方式,而其他子服务将转换为Java。”

但这并不是等于说IBM Z的服务是完美无瑕的。斯坦福大学最近的一项研究发现,使用类似于它的代码生成人工智能系统的软件工程师更有可能在他们开发的应用程序中造成漏洞。实际上,Puri警告不要在由人类专家审阅代码之前部署由Code Assistant生成的代码。

转换成Java的影响:风险与垃圾代码

“像任何人工智能系统一样,企业的COBOL应用程序可能有独特的使用模式,而IBM Z的Code Assistant可能还没有掌握这些模式。”“必须用最先进的漏洞扫描仪扫描代码,以确保代码的安全性。”Puri如是说道。

事实上,也有开发人员对AI生成的代码的不可控性提出了质疑。在Reddit论坛的相关讨论中,有网友指出:“在某些时候,我们无法知道人工智能的下一个动作,到底是处于天才还是愚蠢的决策。”

“有些东西我们可以理解和单元测试,但在更大的规模上,系统非常复杂,有很多细微差别和级别,以至于没有一个人知道每个设计决策的‘原因’。”

还有人直接提出,“Java真的是这里最好的选择吗?”对此,有人表示理解,认为选择Java是个务实的决定。“Java是选项,因为IBM大型机有一个JVM。因此,从通过 CICS 运行 COBOL 过渡到运行 Java 是相当无缝的。特别是使用 IBM 的 Rational Developer 工具集。”

但也有人提出异议。“最大的问题是Java和COBOL的结构完全不同,因此机械翻译往往会产生完全的垃圾。认为它是一个好的候选者的唯一原因是因为你也没有实际编程的经验。所以……很大程度上是一个管理决策。”

不过,开发者们多数还是认为,Java拥有强大的企业影响力,并且已经在遗留环境中采用多年,所以考虑用它进行迁移并不令人惊讶。

IBM对这类争论应该也有所预料,因此该公司也表示watsonx Code Assistant产品组合将在未来扩展到其他编程语言。

COBOL二度出圈,不远了

撇开风险不谈,在IBM看来,像Code Assistant这样的工具对其未来的发展至关重要。今天,大约84%的IBM大型机客户运行COBOL——主要是政府部门和金融业的客户。虽然IBM的大型机部门仍然是其整体业务的很大一部分,但该公司将大型机视为通往广阔的、有利可图的混合计算环境的桥梁。

尤其再这样一个代码生成AI工具的时代,许多类Copilot的工具已经问世。早前,GitHub Copilot和亚马逊CodeWhisperer等工具的出现打响了竞逐的号角。蓝色巨人当然不能示弱。今年5月,IBM在其Watsonx人工智能服务中推出了fm.model.code,该服务为沃森代码助手提供支持,允许开发人员在程序(包括红帽的Ansible Lightspeed)中使用简单的英语提示生成代码。

如今IBM Z服务的推出,显而易见是在AI编码助手领域针对Z大型机的针对性优化。可以想象通过这样的方式,COBOL的应用前景会更加的扩大,Java技术栈的开发者也许再也不用看见这个晦涩的老语种避而远之了。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

MathGPT:国内首个千亿级数学大模型上线,颠覆解题与教学体验!

数学界的未来将在这一时刻开启新的篇章。国内首个专为数学领域量身定制的千亿级大模型MathGPT正式亮相,通过在多个基准测试中轻松压倒GPT-4,刷新SOTA(State of the Art)记录。

这一数学AI大模型或许将对数学领域带来革命性的变革。今天,备受瞩目的国内首个数学领域千亿级大模型MathGPT迈向内测阶段!从现在开始,用户可以通过MathGPT的官方网站申请注册账号,免费试用并亲身体验其强大功能。

背后的推动力是「好未来」团队,这是一支在数学领域深耕已达20年之久的团队,他们自主研发了这个面向全球数学爱好者和科研机构的大模型,其核心特点是解题和讲题算法。MathGPT是国内首个专为数学打造的大模型,用户只需输入文字或上传数学题图片,即可获得与之对话式的解答反馈。此外,用户还可以选择「随机来一题」,由系统生成随机数学题并提供解答。MathGPT目前在PC端和移动端提供中文和英文版本的体验。

MathGPT在数学解题方面展现出领先的能力。事实上,早在今年5月,「好未来」就已经公开表示他们正在自主研发一款数学大模型,取名为MathGPT。据CTO田密介绍,MathGPT汇集了「好未来」多年的教育教研数据,专注于数学领域。该模型具备千亿级的训练、推理和部署框架,赋予了其强大的能力。通过精选优质的教育数据,MathGPT实现了题目计算、讲解、问答等多任务的持续训练和有监督微调,从而展现出卓越的性能。另外,通过人类反馈对齐,模型的综合素质得到了进一步提升。评估结果显示,MathGPT在解题准确率、稳定性以及用户体验方面都具备显著优势。

MathGPT的官方网站显示,它的数学计算能力已覆盖小学、初中和高中的数学题,涵盖了计算题、应用题、代数题等多个题型。用户不仅可以获取答案,还可以在需要的情况下对题目进行追问。MathGPT在解题的过程中呈现出专业、清晰的步骤,以清楚的方式进行讲解。

在数学任务评测方面,MathGPT在多个公开评测集合中表现优异,不仅在各项测试中取得了最高分数,还在初高中全科测试集合上展现出良好的成绩。根据MathGPT的技术报告,它在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等六个评测集合中取得了顶尖成绩。

MathGPT在解题稳定性和讲解友好度方面,借助海量名师解题数据进行模型训练,确保了其解题步骤专业且清晰。例如,对于一道数列题,MathGPT会提供「分析」、「详解」和「点睛」三个部分的答案。这种详细的讲解方式使得用户能够更好地理解解题思路和方法。

好未来AI的内测顺利展开,MathGPT的解题能力将继续提升。除此之外,基于MathGPT的产品级应用也正在紧锣密鼓地研发中,预计将在近期发布。随着大模型技术的崛起,AI在教育领域的发展前景令人兴奋,MathGPT的推出为数学教育带来了更多的可能性。好未来将继续探索如何通过AI技术实现大规模因材施教,助力全球学习者和数学爱好者更好地理解数学、提升学习体验。通过不断分享经验,好未来还将与整个教育科技行业共同前进,共同推动AI技术在教育领域的积极变革。

百度李彦宏宣布年底推出文心大模型4.0,AI领域再掀创新浪潮

人工智能是当今世界最具变革性的技术之一,也是百度未来发展的核心驱动力。百度作为全球最大的中文搜索引擎,一直致力于用科技让复杂的世界更简单。


近年来,百度加速了AI业务的布局和发展,以文心大模型为核心,围绕搜索、智能云、智能驾驶、智能小程序等多个方向,打造了一系列具有竞争力和影响力的AI产品和服务。

当前,百度已经成为中国乃至全球AI领域的领军企业,市场对百度的估值也越来越高。

文心大模型今年以来的成就和突破
文心大模型是百度基于飞桨平台打造的产业级知识增强大模型,通过持续学习技术,不断吸收海量文本数据中的词汇、结构、语义等方面的新知识,实现模型效果不断进化。

今年以来,文心大模型在多个领域和场景中取得了令人瞩目的成就和突破,展现了强大的创新能力和应用价值。


首先,在技术层面,文心大模型不断刷新世界纪录,领跑AI技术发展。今年5月,百度发布了文心大模型3.5,参数规模达到2600亿,是全球首个知识增强千亿级大模型。

根据IDC发布的《AI大模型技术能力评估报告,2023》显示,文心大模型3.5拿下12项指标的7个满分,综合评分、算法模型、行业覆盖均为第一。

此外,文心大模型还包括了多个领先的子模型,如全球首个超百亿参数规模的中英文对话预训练模型PLATO-XL、全球最大规模中文跨模态生成模型ERNIE-ViLG等,在各类真实场景的生成准确性、流畅性、相关性上全面领先业界其他大模型。


其次,在应用层面,文心大模型不断推动产业智能化升级,赋能各行各业。今年7月,百度联合行业头部企业新发5个行业大模型,包括深圳燃气-百度·文心、吉利-百度·文心、泰康-百度·文心、TCL-百度·文心、辞海-百度·文心等,成为峰会一大亮点。这些行业大模型在通用大模型的基础上学习行业特色数据与知识,建设行业AI基础设施。

例如,深圳燃气-百度·文心可以实现智能客服、智能巡检、智能安检等功能,提升服务效率和安全水平;辞海-百度·文心可以实现词条自动生成、词条智能纠错、词条语义扩展等功能,提升词典质量和用户体验。


最后,在生态层面,文心大模型不断开放技术资源和平台支持,促进AI生态繁荣。

今年5月,百度宣布启动“文心杯”创业大赛,并设立10亿投资基金。该创业大赛旨在鼓励更多的创业者利用文心大模型进行AI创新应用,并为其提供资金支持、技术支持、市场支持等全方位帮助。在1个月内吸引了近1000项目参与。

“文心杯”最高奖项为价值 1000 万元早期投资。此外,百度还为开发者提供了千帆大模型平台、EasyDL-大模型、BML-大模型等工具与平台,支撑高效便捷的应用开发。

百度的AI业务布局

当前已经处于怎样的地位?


百度作为全球最大的中文搜索引擎,一直致力于用科技让复杂的世界更简单。

近年来,百度加速了AI业务的布局和发展,以文心大模型为核心,围绕搜索、智能云、智能驾驶、智能小程序等多个方向,打造了一系列具有竞争力和影响力的AI产品和服务。当前,百度已经成为中国乃至全球AI领域的领军企业,市场对百度的估值也越来越高。


首先,在搜索方面,百度利用文心大模型和飞桨平台,不断提升搜索质量和用户体验。今年6月,百度App月活跃用户达6.77亿,同比上涨8%,百度用户基本盘稳健。

此外,百度搜索正在内测“极致满足”“AI伙伴”“AI BOT”等功能,通过大模型生成更具创造性的回答,满足用户多样化的信息需求。据第三方机构QuestMobile数据显示,截至2023年6月30日,百度App在中国移动互联网市场中占据第一位的份额为17.9%,高于第二名的13.1%。


其次,在智能云方面,百度智能云是经过AI调优的云基础设施,为大模型训练提供强大的算力,并迅速扩展合作客户群。今年7月,百度智能云获得国际数据公司(IDC)发布的《2023年中国公共云(IaaS+PaaS)市场半年跟踪报告》中显示,在中国公共云(IaaS+PaaS)市场中排名第三,在中国AI公有云市场中排名第一。

在第二季度,百度智能云签约客户数量持续增加,包括兴业银行、南网总调、汉得信息、金蝶、软通动力等外部企业。值得注意的是,百度智能云在本季度实现了盈利(non-GAAP),收入同比增长 8% 至 42 亿元。


再次,在智能驾驶方面,百度自动驾驶出行服务平台萝卜快跑快速拓展运营规模。

第二季度,萝卜快跑提供71.4万次乘车服务,同比增长149%。截至2023年6月30日,萝卜快跑累计向公众提供的乘车服务数量达到330万次。今年6月,萝卜快跑获得深圳市坪山区颁发的首批全无人商业化试点通知书。


目前,萝卜快跑已获批在武汉、重庆、北京和深圳四个城市向公众提供全无人自动驾驶出行服务。

今年7月,萝卜快跑获得上海市浦东新区颁发的首批全无人商业化试点通知书,成为全国首个获得两个城市全无人商业化试点通知书的自动驾驶企业。

今年8月,百度与长安汽车达成战略合作,共同推进智能汽车的研发和生产。百度将为长安汽车提供Apollo自动驾驶系统、智能座舱系统、智能云服务等技术支持,长安汽车将为百度提供高品质的汽车制造能力和渠道资源。


最后,在智能小程序方面,百度智能小程序是基于文心大模型和飞桨平台的一种新型应用形态,可以实现语音交互、图像识别、自然语言理解等功能,为用户提供更加便捷和智能的服务。

今年7月,百度智能小程序月活跃用户达到6.4亿,同比增长28%。百度智能小程序已经覆盖了超过200个行业和领域,包括教育、医疗、金融、旅游、电商等。百度智能小程序还与多个平台进行了合作,如微信、支付宝、快手、抖音等,实现了跨平台的互通和共享。


总结来看,百度的AI业务布局已经处于全球领先的地位,文心大模型和飞桨平台为百度的各个业务方向提供了强大的技术支撑和平台赋能。市场对百度的估值也越来越高,根据第三方机构数据显示,截至2023年8月23日收盘,百度在纳斯达克市场的总市值为1.2万亿美元,在中国互联网企业中排名第二,在全球互联网企业中排名第四。

人工智能对百度的未来有什么影响?


人工智能是当今世界最具变革性的技术之一,也是百度未来发展的核心驱动力。在人工智能时代,百度将以文心大模型为代表的AI技术作为自身的核心竞争力,不断创新和优化产品和服务,提升用户体验和满意度,拓展新的市场和机会,实现可持续发展和社会价值。


首先,在产品和服务方面,人工智能将使百度的产品和服务更加智能化、个性化、多样化。通过人工智能技术,百度可以更好地理解用户的需求和偏好,提供更加精准和高效的信息检索和推荐。

通过人工智能技术,百度可以更好地满足用户的多媒体和多模态的交互方式,提供更加丰富和有趣的内容生成和呈现。通过人工智能技术,百度可以更好地支持用户在各个场景和领域中的应用需求,提供更加便捷和安全的服务解决方案。


其次,在市场和机会方面,人工智能将使百度的市场和机会更加广阔、深入、前沿。通过人工智能技术,百度可以更好地拓展海内外市场,增加用户规模和覆盖范围。通过人工智能技术,百度可以更好地深耕垂直行业,增强行业合作和影响力。通过人工智能技术,百度可以更好地探索新兴领域,增加创新能力和领先优势。


最后,在发展和价值方面,人工智能将使百度的发展和价值更加可持续、高效、负责。通过人工智能技术,百度可以更好地优化资源配置,降低成本和风险。通过人工智能技术,百度可以更好地提升运营效率,增加收入和利润。通过人工智能技术,百度可以更好地履行社会责任,增加公益和环保。人工智能对百度的未来有着巨大的影响和意义,百度将继续以人工智能为核心,不断创新和进步,为用户提供更好的产品和服务,为社会创造更多的价值。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

AI 的「iPhone时刻 」,英伟达赢麻了,最贵的芯片性价比最高

在 3 月份的 GTC 大会上,英伟达 CEO 黄仁勋表示,「AI 的 iPhone 时刻已经到来。」

时隔 5 个月后,黄仁勋这句话或许可以改写为「英伟达 AI 的 iPhone 时刻已经到来。」今天,英伟达公布了 2024 财年第二财季财报。

第二季度营收为 135.1 亿美元,同比增长 101%,环比增长 88%。此外净利润 61.88 亿美元, 同比暴增 843%值得注意的是,这也是英伟达首次在季度营收上超过英特尔,迎来了一个历史性时刻。

创纪录的英伟达,狂飙的新计算时代财报公布后,英伟达股价盘后交易飙升 9.6%,股价再创新高,突破 500 美元,成为美股市场里「最靓的仔」。英伟达对下一个财季也作出了颇具野心的展望,收入预计达到 160 亿美元,上下浮动 2%。而这个数字几乎是一年前水平的 3 倍,比分析师平均预期的 123 亿美元还要高出 37 亿美元。

在财报中,黄仁勋表示:「一个新的计算时代已经开始,全球各地的公司正在从通用计算向加速计算和生成式 AI 转型。」

芯片依旧是英伟达的收入支柱,其向数据中心供应芯片的部门是公司最大的收入来源,该部门第二财季营收达到 103.2 亿美元,增长 171%,远高于市场预期的 79.8 亿美元。

其中 H100 是市场上最抢手的芯片,一度被炒到超过 4 万美元(约 29 万元人民币)。此前消息人士向投资银行公司的 Raymond James 透露,H100 GPU 的成本为 3320 美元(约合 24181 元人民币),而英伟达选择以 25000 至 30000 美元(当前约 18.2 万至 21.9 万元人民币)的价格出售这些 GPU。

虽然这一说法可能没有考虑到运输物流等其他成本,不过仅从生产成本 / 售价的比例来看,英伟达 H100 GPU 简直就是一个「超级摇钱树」。

据 Tomshardware 报道,英伟达今年内计划出售超过 55 万块 H100 GPU。倘若属实,这意味着英伟达光从 H100 GPU 中获得的收益就已经是个天文数字。不过由于 H100 芯片需要先进的生产工艺和同样复杂的封装技术,供应量将直接和代工厂台积电的封装能力相关,也是 H100 缺货的重要原因,行业高管预计 H100 的短缺将持续到 2024 年。

黄仁勋表示,英伟达正在寻求与其生产合作伙伴合作,将更多芯片推向市场,包括通过与其他公司合作来补充台积电的封装能力,并表示「今年剩余时间和明年的供应量将大幅增加。」生成式 AI 的爆火,无数科技巨头争先抢后地躬身入局生成式 AI 赛道,试图打开这道充满机遇的科技大门。

英伟达这个守在金矿大门外卖「铲子」的人率先成为了赢家。微软和 Google 这些巨头虽然已经在 AI 投入了上百亿美元,但目前基本还没转化为利润。

至于风头正劲的 OpenAI,Analytics India Magazine 报道称其每日维护 ChatGPT 这一项服务就需花费 70 万,尽管一直试图通过 GPT-3.5 和 GPT-4 实现盈利,但目前的收益仍未能实现收支平衡。

然而,如果 OpenAI 无法扭转局面,面对每日高额的成本及其无法快速实现盈利的情况,Analytics India Magazine 认为 OpenAI 甚至可能在不久将来就要宣布破产。

而在 AI 芯片这个赛道英伟达更是遥遥领先,目前还没有哪家科技公司能望其项背。研究公司 Omdia 的数据显示,虽然 Google 、亚马逊、Meta、IBM 等公司也在生产 AI 芯片,但英伟达已占据了超过 70% AI 芯片销售额,并且在训练生成式 AI 模型方面有着更显著的优势。

Futurum Group 分析师 Daniel Newman 表示,很多客户宁愿等待 18 个月向英伟达采购芯片,也不从初创公司或其他竞争对手那里购买现成的芯片。即便是十多年前就开始布局 AI 芯片的 Google,有些工作也不得不依赖英伟达的 GPU 来完成。尽管芯片的价格高昂且缺货,但反而英伟达芯片可能是目前世界上成本最低的解决方案。

黄仁勋表示高性能芯片其实为客户节约了更多资金。如果能够将价值 50 亿美元的数据中心的训练时间减少一半,所节省的费用将超过所有芯片的成本。


算力、模型、数据一直是 AI 发展的三大要素,AI 芯片所代表的算力既是人工智能的底层基石,也是打开这道科技大门的钥匙。这把通往未来的钥匙正掌握在英伟达的手中,并形成了自己的护城河。

英伟达的芯片护城河58 年前,英特尔创始人之一戈登• 摩尔提出了著名的摩尔定律。集成电路上可容纳的晶体管数目,约每隔两年便会增加一倍。


随后新的推断又涌现了出来,两年的时间间隔被缩短到了 18 个月。在摩尔定律的作用下,CPU 和 GPU 的处理性能都获得了指数级的增长,2000 年以后,CPU 从单核走向多核,核心数量得到大幅提升。

AI 深度学习的训练和推理大量依赖矩阵计算和浮点计算,对算力提出了极高的要求,而 GPU 能够大规模并行计算,在矩阵和向量计算上远超 CPU,成为高性能计算的「宠儿」。

此外,高速的内存宽带、可扩展性强的算力池、专门优化的深度学习框架、云端部署支撑等优点,也坚定确立了 GPU 在 AI 时代的算力核心地位。

成立于 1993 年 4 月的英伟达最初便是靠 GPU 起家,通过不断的创新和发展,逐渐成为了高性能计算领域的领导者。根据 Jon Peddie Research 发布的 GPU 市场数据统计报告,英伟达以 84% 的市场份额排名第一,排名第二的 AMD 为 12%,第三位的英特尔为 4%。

A100 和 H100 都是英伟达专门为 AI 计算设计的顶级数据中心 GPU,在训练和推理大型神经网络方面,性能都远超其他竞争对手,二者也都采用专门的 Tensor Core 和数据流架构,堪称英伟达手里的两张王牌芯片。

今年以来,英伟达主打的就是「你买的越多,省的也越多」,非常熟练且「贴心」地推出各种迭代更新的 GPU。3 月,英伟达一口气发布了 H100 NVL GPU、L4 Tensor Core GPU、L40 GPU 以和 NVIDIA Grace Hopper 四款 AI 推理芯片。

两个月后,5 月的台北电脑展上,黄仁勋发布了用 256个 NVIDIA GH200 Grace Hopper 超级芯片组成的超级计算机 DGX GH200。

就在两周前,黄仁勋又发布了搭载 HBM3e 内存新版 GH200 Grace Hopper,这也是世界上首个搭载 HBM3e 内存的 GPU 芯片。

HBM3e 内存是一种新型的高带宽内存技术,在运算速度上 HBM3e 能比 HBM3 运算速度快 50%,提供最高 5TB/秒的传输速率。训练和推理是 AI 大模型的非常重要的两个步骤,而这恰恰是 GH200 所擅长的部分。

在黄仁勋看来,未来 GH200 的典型应用场景就是大语言模型,并且「加速运算」、「AI 运算」将逐渐取代传统 x86 GPU的「通用计算」。

过往无数的案例证明,优异生态系统一旦构筑成护城河,外来者在竞争中便占了下风。英伟达过硬的生态系统自然少不了竞争对手的盖章认证,神经网络科学家 Naveen Rao 曾在英特尔担任过副总裁与人工智能平台事业部总经理。

他发现英伟达的最大优势不仅仅在于芯片本身,而是英伟达拥有一个具有大量优秀人工智能程序员的大型社区和集散地。每个人都优先以英伟达为基础,当你推出了一款新硬件,就会全力追赶它。


在第二财季财报中,黄仁勋也谈到:

「通过我们的 Mellanox 网络和交换机技术连接并运行我们的 CUDA AI 软件堆栈的英伟达 GPU 构成了生成式 AI 的计算基础设施。」

CUDA 是英伟达基于其生产的 GPUs 的一个并行计算平台和编程模型,目的是便于更多的技术人员参与开发。开发人员可以通过 C/C++、Fortan 等高级语言来调用 CUDA 的 API,来进行并行编程,并进行高性能计算,这种生态系统的建立使得许多开发者依赖于 CUDA。

此前,黄仁勋向外界透露,CUDA 在全球已经拥有超过 400 万开发者和超过 3000 个应用程序,CUDA 下载量累计达到 4000 万次,全球 有40000 家大型企业正在使用英伟达的产品进行加速计算,已有 15000 家初创公司建立在英伟达的平台上。

庞大的数字折射出英伟达显著的先发优势,倘若其他对手想要推出新的硬件,则还需要考虑追赶这个已经形成的人工智能创新生态系统。

交易的两端,一端连着卖方,一端连着买方。4 月份,「双标」的马斯克一边联名签署禁止训练 AI,一边偷偷扫货 1 万张 GPU 来开发大模型,甚至还不忘在 X 上公开吐槽:「似乎每个人、每条狗都在购买GPU」。

上个月,甲骨文董事长在公开场合表示,甲骨文公司将斥资数十亿美元购买英伟达的 GPU,以扩大针对新一波人工智能公司的云计算服务。

得算力者得天下,在你追我赶的生成式 AI 赛道上,国内也同样蔓延着求「芯」若渴的焦虑。在财报电话会议上,英伟达 CFO Colette Kress 称:「我们预计,连续增长将主要由数据中心驱动,其中对中国客户的销售约占英伟达最新季度数据中心收入的 20%至 25%。」

此前,据英国《金融时报》报道,中国互联网巨头正争相抢英伟达高性能 AI 芯片,今明两年的订单价值高达 50 亿美元。其中百度、腾讯、阿里巴巴以及字节跳动今年向英伟达下达的支付订单金额合计 10 亿美元,总共采购 10 万张 A800,相当于每张 A800 芯片的价格达到 1 万美元,明年再交付余下的 40 亿美元。

A800 本质上是 A100 的「阉割版」。由于去年 8 月份受到政策影响,英伟达只能面向中国大陆市场推出不受限制的替代版本。

不少行业人士认为,GPU 已经成为市场上公认的稀缺货,一芯难求的局面在未来的一两年内依旧难以缓解。因此,在 GPU 供不应求的持续追捧下,英伟达的 GPU 甚至成为一些 AI 初创公司的硬通货。

作为一家云计算初创公司,CoreWeave 想要获得创业贷款并不是一件容易的事情。得益于英伟达的投资人身份,CoreWeave 甚至可以将 H100 GPU 作为抵押物,轻易获得了 23 亿美元的贷款。

在贷款方看来,这自然不会是一笔亏本的买卖。一方面,这笔贷款能够让 CoreWeave 的计算规模和实力得到快速扩张,增强偿还贷款的能力,另一方面,英伟达明年将推出更多迭代的 GPU,凭借与英伟达密切的合作关系以及这笔高额度贷款,CoreWeave 还可以在抢购明年上市的 GH200 GPU 上夺得先机。

正如前面所提到,既然头部大厂在市场上都抢不到 GPU,那实力并不雄厚的 AI 初创公司的处境显然更加堪忧。

一些聪明的 AI 初创公司只能选择另辟蹊径,抱团取暖,投入英伟达的怀抱。

今年 6 月份,人工智能初创公司 Inflection AI 官宣,完成 13 亿美元的新一轮融资,值得注意的是,崭新的投资名单里首次出现英伟达的身影。

拿到融资后,Inflection 转头将从英伟达购买了 22000 个 H100 GPU,以打造一台先进的超级计算机,其中包括近 700 个Intel Xeon CPU的四节点机架服务器Inflection AI 表示,将和合作伙伴 CoreWeave 以及英伟达一起,构建世界上最大的 AI 集群。

看似欢喜的强强联合更像是一种无奈的抉择,Inflection AI CEO Mustafa Suleyman 接受《纽约时报》的采访时表示:

「公司没有义务使用英伟达的产品,但竞争对手没有提供可行的替代方案。」

今年是英伟达的「而立之年」,在五月的最后一天,英伟达成为全球第一家市值突破 1 万亿美元的芯片公司,这也是历史上第九家跻身万亿市值俱乐部的科技公司。

今年 6 月,身穿毕业服的黄仁勋受邀参加了台湾大学的毕业演讲,用过往的人生经验寄语毕业生。

无论是什么,像我们一样全力以赴地追求它,跑吧!不要慢慢走。不论是为了食物而奔跑,或不被他人当做食物而奔跑。你往往无法知道自己正处在哪一种情况,无论如何,都要保持奔跑。


历史的机遇稍纵即逝,GPU 的赛道可能又是一个赢者通吃的赛道。

一直狂奔的黄仁勋抓住 AI 的机遇,让诞生于路边连锁餐厅的英伟达成功跻身于万亿美元俱乐部,成为这波 AI 浪潮的最大赢家,或许还将继续领跑下个时代。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

这个功能我们等太久了!Midjourney图像局部重绘功能!

借助修复功能,我们能够轻松处理编辑图像中的各个区域,对于经常使用MJ的小伙伴来说,一定有这个苦恼,按照提示词生成了一张图片,结果选中了一张满意的图片,结果有部分区域又不是不满意,用ps又麻烦,或者重新添加提示词,又不一定能生成刚刚满意的图片
比如下图,整体满意,却有三只手…

又比如下图想要变成黑色的猫,但是修改提示词重新生成,可不一定能再生成这个帅哥了

那么如何进行操作呢,如图所示,官方版本的操作首先在MJ界面生成图片后,选择一张图片进行U1,放大然后就会出现 Vary(Region) 选项

点击后进入如下界面

在用工具选择眼睛部分后,填写新的提示词,比如给他添加一副眼镜

重新二次生成的图片就是这样的

是不是瞬间觉得新功能更强大了!

Tips:

1  

在局部重绘的时候选区尽量大一些,如果选区过小,太细节,可能会出现融合不自然的情况!就像官方提示的:重绘区域最好是占总画幅的20%-50%

2  

如果提示词的更改能够与原始图像很好地融合,修复效果会更可靠,如果修复改变了图像的基本元素,或者很古怪,实现的难度就越大,比如“森林中加入一只海豚”类似的提示词

来看看网友们的修复效果吧

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

YouTube将与环球音乐集团合作探索生成式AI时代的音乐未来

近日,YouTube首次发布了AI音乐原则,环球音乐集团和YouTube计划在产品开发、在人工智能程序中使用音乐的指导原则以及向人工智能生成内容中采用的艺术家作品支付报酬的新方法等方面开展合作。参与YouTube计划的艺术家将可以提前接触到正在开发的人工智能产品,并向该视频服务提供反馈意见。

环球音乐集团董事长兼首席执行官卢西恩-格兰奇爵士(Sir Lucian Grainge)在一篇罕见的YouTube客座博客中表示:“对人类创意的持续信念是环球音乐集团与YouTube合作的基石。我们共同的愿景是采取措施建立一个安全、负责任和可盈利的音乐及视频生态系统,艺术家和词曲作者有维护他们的创意完整性的能力,他们的选择权以及得到公平补偿的能力。”

“今天,我们的合作伙伴关系正基于这个基础,共同致力于负责任地领导,如YouTube的AI原则所述,人工智能是为了赋予人类创意,而不是相反。AI永远不会替代人类创意,因为它缺乏驱使最有才华的艺术家创作的关键火花,那就是‘意图(intention)’。从莫扎特到甲壳虫乐队到泰勒·斯威夫特,天才从来都不是随机的。”

双方还宣布推出YouTube的AI音乐孵化器,它将汇集一些当今最具创新性的艺术家、词曲作者和制作人,帮助打造YouTube在音乐中的生成性AI应用。孵化器将开始与环球音乐集团旗下的创意人士合作,包括Anitta、Björn Ulvaeus、d4vd、Don Was、Juanes、Louis Bell、Max Richter、Rodney Jerkins、Rosanne Cash、Ryan Tedder、Yo Gotti和Frank Sinatra遗产等。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

事关人形机器人、生成式人工智能标准研制!四部门联合发文

8月22日,工信部等四部门印发《新产业标准化领航工程实施方案(2023─2035年)》(下称《方案》),持续完善新兴产业标准体系建设,不断提升新产业标准的技术水平和国际化程度。

《方案》以定量与定性结合的方式,分别提出2025年、2030年和2035年的“三步走”目标,工程化推进实施。到2025年,支撑新兴产业发展的标准体系逐步完善、引领未来产业创新发展的标准加快形成。共性关键技术和应用类科技计划项目形成标准成果的比例达到60%以上,标准与产业科技创新的联动更加高效;开展标准宣贯和实施推广的企业10000家以上,以标准服务企业转型升级的成效更加凸显等。到2030年,满足新产业高质量发展需求的标准体系持续完善、标准化工作体系更加健全。

到2035年,企业主体、政府引导、开放融合的新产业标准化工作体系全面形成。《方案》主要聚焦新兴产业与未来产业标准化工作,形成“8+9”的新产业标准化重点领域。

其中,新兴产业聚焦新一代信息技术、新能源、新材料、高端装备、新能源汽车、绿色环保、民用航空、船舶与海洋工程装备等8大领域;未来产业聚焦元宇宙、脑机接口、量子信息、人形机器人、生成式人工智能、生物制造、未来显示、未来网络、新型储能等9大领域。

全面推进新兴产业标准体系建设新一代信息技术领域,《方案》提出,面向重点场景和行业应用,优化完善5G标准。研制集成电路、基础器件、能源电子、超高清视频、虚拟现实等电子信息标准。研制基础软件、工业软件、应用软件等软件标准。研制大数据、物联网、算力、云计算、人工智能、区块链、工业互联网、卫星互联网等新兴数字领域标准。新能源领域,研制光伏发电、光热发电、风力发电等新能源发电标准,优化完善新能源并网标准,研制光储发电系统、光热发电系统、风电装备等关键设备标准。

新材料领域,研制先进石化化工材料、先进钢铁材料、先进有色金属及稀土材料、先进无机非金属材料、高性能纤维及制品和高性能纤维复合材料标准。高端装备领域,《方案》明确,研制工业机器人基础共性、关键技术和行业应用标准。研制高端数控机床关键共性技术、整机、数字化控制与核心部件标准。

研制工程机械基础通用、关键材料、核心部件、电动化以及高端化智能化绿色化标准等。新能源汽车领域,聚焦新能源汽车领域,研制动力性测试、安全性规范、经济性评价等整车标准,驱动电机系统、动力蓄电池系统、燃料电池系统等关键部件系统标准,汽车芯片、传感器等核心元器件标准,自动驾驶系统、功能安全、信息安全等智能网联技术标准,以及传导充电、无线充电、加氢等充换电基础设施相关标准。

前瞻布局未来产业标准研究《方案》要求,开展元宇宙标准化路线图研究。加快研制元宇宙术语、分类、标识等基础通用标准,元宇宙身份体系、数字内容生成、跨域互操作、技术集成等关键技术标准,虚拟数字人、数字资产流转、数字内容确权、数据资产保护等服务标准,开展工业元宇宙、城市元宇宙、商业元宇宙、文娱元宇宙等应用标准研究,以及隐私保护、内容监管、数据安全等标准预研。开展脑机接口标准化路线图研究。

加快研制脑机接口术语、参考架构等基础共性标准。开展脑信息读取与写入等输入输出接口标准,数据格式、传输、存储、表示及预处理标准,脑信息编解码算法标准研究。开展制造、医疗健康、教育、娱乐等行业应用以及安全伦理标准预研。同时,聚焦量子计算领域,研制量子计算处理器、量子编译器、量子计算机操作系统、量子云平台、量子人工智能、量子优化、量子仿真等标准。聚焦量子通信领域,研制量子通信器件、系统、网络、协议、运维、服务、测试等标准。

在人形机器人领域,《方案》提出,开展人形机器人专用结构零部件、驱动部件、机电系统零部件、控制器、高性能计算芯片及模组、能源供给组件等基础标准预研。研制人形机器人感知系统、定位导航、人机交互、自主决策、集群控制等智能感知决策和控制标准。开展人形机器人运动、操作、交互、智能能力分级分类与性能评估等系统评测标准预研。开展机电系统、人机交互、数据隐私等安全标准预研。面向工业、家庭服务、公共服务、特种作业等场景,开展人形机器人应用标准预研。

此外,围绕基于生成式人工智能(AIGC)的应用及服务,面向应用平台、数据接入、服务质量及应用可信等重点方向,研制AIGC模型能力、服务平台技术要求、应用生态框架、服务能力成熟度评估、生成内容评价等应用标准。在工业、医疗、金融、交通等重点行业开展AIGC产品及服务的风险管理、伦理符合等标准预研。

引导社会资本向新产业标准领域汇聚在拓展高水平国际标准化发展新空间方面,《方案》提出,扩大标准制度型开放,积极营造内外资企业公开、公平、公正参与标准化工作的环境,保障外商投资企业依法参与标准制定。聚焦贸易便利化,结合重大国际合作项目积极推动质量标准、检验检测、认证认可等有效衔接。加快国际标准转化,在国家标准计划和行业标准计划中优先支持国际标准转化项目,持续提升国际标准转化率,推动我国标准与国际标准体系兼容。鼓励国内企事业单位积极参与国际标准组织和各类国际性专业标准组织活动,健全以企业为主体、产学研联动的国际标准化工作机制,携手全球产业链上下游企业共同制定国际标准。

此外,《方案》还明确,要加大对新产业标准化工作的经费支持,强化政策保障。发挥好国家先进制造业集群等优势作用,支持地方加大新产业重点领域标准化工作力度,鼓励重点企业加大标准化相关经费投入,积极引导社会资本向新产业标准领域汇聚,形成多元化的经费保障机制。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

判断人工智能是否有意识:科学家提出14条​标准

判断人工智能是否有意识:科学家提出14条标准
当下或以后的人工智能是否拥有意识,是一个公众和科学界都日益关注的话题。近日,一个由19位计算机科学家、神经科学家和哲学家组成的研究团队在一篇预印本论文(未经同行评审)中,基于一些人类意识理论,提出了14项标准以判断人工智能是否有意识


在该论文中,研究者通过目前最可靠的一些神经科学理论评估现有的人工智能系统——包括循环处理理论(recurrent processing theory),全局工作空间理论(global workplace theory),高阶理论(higher-order theories),预测处理(predictive processing)和注意图式理论(attention schema theory)——得出了意识的“指标属性”,并用计算机术语加以阐释,总结出了14条标准以评估人工智能系统是否有意识。

随后,研究者用这些标准测试了一些现有的主流人工智能,如ChatGPT、PaLM-E、AdA和Dall-E2等,发现没有任何一个人工智能可以同时满足数个标准,因此它们都不是拥有意识人工智能的有力候选者。这项工作为评估越来越像人类的人工智能提供了一个框架。但这项研究也表明,尽管目前的人工智能可能都没还有意识,要构建满足这些标准的人工智能,并不存在明显的技术障碍。(Science News)

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

七夕中国情人节,成为AI的大型秀场

自从今年AI大火之后,什么虚拟女友、AI授课师、AI摄影师都大行其道,而在中国首款AI游戏中,3000万玩家都被分配了一个AI过七夕,真是天下之大无奇不有。


《逆水寒》手游首个七夕节,也被称为“虐狗节”——看看这次七夕节的奖励可是真丰盛,又是白绒绒的宠物猫,又是可以刻字的雨伞,如果说:这300万对情侣可以笑着领奖励,那么剩下的3000万+单身汪怎么办?
为了让没有情缘的玩家也能在虐狗节过得舒心,官方想出了一个高招。


那就是,给没有情缘的玩家每人分配一个AI男友/女友,和真人情缘一样做任务,完事了可以领取同等奖励。
这样可谓皆大欢喜。


《逆水寒》手游可是号称国内首款AI游戏,AI智能度非常高,之前玩家已经领教过这些AI的厉害了,比如你给他说去私奔,结果男NPC都能和你牵手,还有一位叫作“小寒”的NPC,不仅和其他NPC吵架,还能和玩家杠上一整天,她说起哲学、文学乃至史学,你都说不过她。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

《纽约时报》屏蔽 OpenAI 的网络爬虫 |懂点AI

01国际劳工组织发布报告,生成式 AI 重点影响女性为主的文书岗位

国际劳工组织(ILO)近日发布报告,表示生成式 AI 固然不会接管、替代所有人的工作,但对于以女性为主的文书岗位会产生较大影响。研究报告称尤其在发达国家,在文书相关岗位中女性员工的占比更高。在高收入国家,8.5% 的女性就业岗位可以实现高度自动化,而男性就业岗位占比为 3.9%。研究报告认为大多数工作岗位和行业开始朝着自动化方向发展,生成式 AI 是现有岗位的补充,而非替代。报告认为受生成式 AI 影响最大的岗位是文书工作,大约四分之一的工作可以通过自动化方式完成,交由生成式 AI 来生成文本、图像、声音、动画、3D 模型和其他数据。报告认为经理和销售人员等大多数其它职业受到生成式 AI 的影响并不会太大。

02《纽约时报》屏蔽 OpenAI 的网络爬虫,禁止将其内容用于 AI 训练

《纽约时报》已经屏蔽了 OpenAI 的网络爬虫,这意味着 OpenAI 不能使用该出版物的内容来训练其人工智能模型。查看《纽约时报》的 robots.txt 页面,就可以看到《纽约时报》封禁了 GPTBot,这是 OpenAI 本月早些时候推出的爬虫程序,据悉《纽约时报》早在 8 月 17 日就屏蔽了这个爬虫。值得一提的是,《纽约时报》本月初更新了其服务条款,该条款禁止使用其内容来训练人工智能模型,《纽约时报》还在考虑对 OpenAI 提起知识产权侵权的法律诉讼。

03 YouTube 与环球音乐合作推出“音乐 AI 孵化器”

YouTube 官宣将会联手环球音乐集团等合作伙伴,推出 音乐 AI 孵化器。仅 2023 年,YouTube 上与 AI 工具相关的视频观看次数就超过 17 亿次。首席执行官 Neal Mohan(尼尔・莫汉)表示:“当我们与整个行业中一些最具创新精神的艺术家、词曲作者和制作人合作时,该孵化器将有助于为 YouTube 的方法提供指导,这些艺术家、歌曲作者和制作人具有不同的文化、流派和经验。”作为该计划的一部分,他提名的艺术家和制作人包括 Anitta(全球巨星)、ABBA 乐队的 Björn Ulvaeus、d4vd(新晋创作歌手)、Don Was(音乐家、作曲家和制作人)、Juanes(热门制作人)、Louis Bell、Max Richter、Rodney Jerkins、Rosanne Cash(创作型歌手)、Ryan Tedder(三届格莱美奖获奖歌曲作者兼制作人)、Yo Gotti 等。

04 美国法官最新裁定:纯AI生成的艺术作品不受版权保护

美国华盛顿一家法院近日裁定,根据美国政府的法律,在没有任何人类输入内容的情况下,人工智能(AI)创作的艺术作品不受版权保护。国地区法官Beryl Howell上周五(8月18日)表示,只有人工智能与人类作者合作的作品才能获得版权,并确认美国版权局驳回了计算机科学家Stephen Thaler代表其DABUS系统提出的申请。Thaler认为自己的人工智能系统DABUS拥有创造的艺术作品的版权,但美国版权局拒绝了他的申请,理由是”人类思维与创造性表达之间的联系”是版权保护的关键要素。

05 韩国SK电讯宣布战略投资AICC开发商Persona AI

韩国最大电信运营商SK电讯8月21日宣布战略投资韩国智能联络中心(AICC)开发商Persona AI的股份,并成为后者的第三大股东。SK电讯计划加强其AICC部门,使其成为包括咨询、基础设施建设和维护在内的人工智能联络中心处理服务的综合供应商。Persona AI拥有自研的自然语言处理引擎,并推出了韩国首个订阅型AICC服务。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

三万亿Token!AIlen AI发布史上最大文本数据集Dolma,已开源

随着科技的飞速发展,大型语言模型已经成为了人工智能领域的热门话题。近日,AI研究机构Allen Institute for AI发布了一个名为Dolma的开源语料库,这个语料库包含了3万亿的token,成为了迄今为止最大的开源数据集。


1、Dolma的诞生背景

从今年3月开始,Allen Institute for AI开始创建一个名为OLMo的开源语言模型,旨在推动大规模NLP系统的研究。他们的主要目标是以透明和开源的方式构建OLMo,通过发布工程中的各种成果和文档来记录整个项目的进展。而Dolma就是这个项目中发布的第一个数据成果。这个数据集包含了来自网络内容、学术出版物、代码、书籍和维基百科材料的3万亿token。这个数据集已经在HuggingFace Hub上公开,任何人都可以下载。

地址:https://huggingface.co/datasets/allenai/dolma2、Dolma的目标

  • 开源:AI2希望创建一个数据集,使其他研究者有机会独立地创建更好的版本,研究数据与其上训练的模型之间的关系,并报告他们在检查数据时观察到的任何问题。
  • 代表性:Dolma的语料库应该与其他语言模型使用的数据集相当。
  • 大小:AI2希望收集一个大型数据集,以研究模型和数据集大小之间的关系。
  • 可复制性:在准备数据集时开发的所有工具都应该公开提供,供其他人复制他们的工作。
  • 风险缓解:Dolma应该在满足可复制性和代表性的要求的同时,尽量减少对个人的风险。

3、Dolma数据集的设计原则

在创建Dolma时,需要遵循四个原则:

  • 遵循现有的实践:通过匹配用于创建其他语言建模数据集的方法,A使广大研究社区能够使用数据集和生成的模型工件来间接研究(并审查)今天正在开发的语言模型,即使那些在封闭的门后开发的模型。
  • 信任评估套件:AI2为OLMo开发的评估套件可以提供模型在多种任务上的能力指标;当做出直接影响这些任务之一的数据相关决策时,我们选择改进指标的干预。例如,AI2在Dolma中包括Wikipedia文本,因为它提高了K-12科学知识任务的性能,例如ARC。
  • 支持AI2的核心研究方向:不是所有的数据集策划决策都是关于基准性能的。事实上,许多理想的干预措施彼此相互矛盾。例如,AI2希望OLMo既能处理代码任务,也能处理文本任务,但添加包含代码的文档会降低许多文本基准的性能,反之亦然。
  • 采取基于伤害的风险缓解方法:为了研究的利益,某些界限不应该被越过,即使它们在大规模语言建模项目中是常见的实践。AI2在项目的早期与法律和伦理专家进行了接触,并根据他们的反馈对数据设计决策进行了评估。

4、Dolma的创建过程

Dolma的创建涉及从多个来源获取的原始数据转化为清洁的纯文本文档。这些数据处理步骤通常分为两类:特定于来源和与来源无关。如下图所示,预训练语料库的创建需要这两种操作的组合;多个转换按顺序在一个管道中执行。

5. Dolma与封闭数据集的比较

以下表格提供了不公开其预训练数据的语言模型的高级摘要。为了使表格不至于过大,AI2将其限制为65B+参数规模的全密集、自回归模型。✔ 表示引用的作品明确描述了论文中报告的处理步骤,?表示缺少报告,~表示仅存在部分信息。

6. Dolma与其他数据集的比较

Dolma与其他开源数据集的主要区别在于,它的大小远远超过其他开源数据集,并且它是在AI2的ImpACT许可下发布的,这是为了平衡易于访问与分发大型数据集的潜在风险。

7. Dolma的发布

Dolma在AI2的ImpACT许可下作为中等风险工件发布。根据此许可,研究者必须:

  • 提供他们的联系信息,并声明他们访问Dolma的预期用途;
  • 披露基于Dolma创建的任何衍生物;
  • 根据ImpACT许可的相同限制分发衍生物;
  • 同意不利用Dolma进行一系列禁止的用途,如军事监视或生成假信息。

8.未来展望

Dolma的发布不仅仅是一个技术上的里程碑,更是对开放研究和透明度的一次重要承诺。随着技术的不断进步,我们期待看到更多的创新和突破,为人工智能和机器学习的未来铺设坚实的基石。Dolma的出现,为我们揭示了一个充满无限可能的未来。

参考链接:https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集

开源数据集因侵权问题,惨遭下架。

如LLaMA、GPT-J等,都用它训练过。

如今,托管了它3年的网站,一夜之间删除了所有相关内容。

这就是Books3,一个由将近20万本图书组成的数据集,大小将近37GB。

丹麦一家反盗版组织表示,在该数据集中发现了150本其成员的书籍,构成侵权,所以要求平台下架。

现在该平台上的Books3网页链接已经“404”。

数据集的最初开发者无奈表示,Books3的下架是开源圈的一场悲剧。

Books3是什么?

Books3在2020年发布,由AI开发者Shawn Presser上传,被收录在Eleuther AI的开源数据集Pile中。

它总计包含197000本书,包含来自盗版网站Bibliotik的所有书籍,意在对标OpenAI的数据集,但主打开源

这也是Books3名字的来源之处——

GPT-3发布后,官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库,不过具体内容一直没有被透露。

开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.

要知道,图书数据一直是大模型预训练中核心的语料素材,它能为模型输出高质量长文本提供参考。

很多AI巨头使用的图书数据集都是不开源,甚至是非常神秘的。比如Books1/2,关于其来源、规模的了解,更多都是各界猜测。

由此,开源数据集对于AI圈内相当重要。

为了更方便获取,Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架,说的也是这一平台。

丹麦反盗版组织权利联盟向The Eye提出了下架请求,并且通过了。

不过好消息是,Books3并没有完全消失,还是有其他办法获取的。

Wayback Machine上还有备份,或者可以从Torrent客户端下载。

作者老哥在推特上给出了多个方法。

“没有Books3就没法做自己的ChatGPT”

实际上,对于这次下架风波,数据集作者老哥有很多话想说。

他谈到,想要做出像ChatGPT一样的模型,唯一的方法就是创建像Books3这样的数据集。

每一个盈利性质的公司都在秘密做数据集,如果没有Books3,就意味着只有OpenAI等科技巨头才能访问这些图书数据,由此你将无法做出自己的ChatGPT。

在作者看来,ChatGPT就像是90年代的个人网站一样,任何人都能做是很关键的。

不过由于Books3很大一部分数据来自于盗版网站,所以作者也表示,希望之后能有人做出来比Books3更好的数据集,不仅提升数据质量,而且尊重书籍版权。

这种类似的情况在OpenAI也有发生。

一个多月以前,两位全职作者以未经允许擅自将作品用来训练ChatGPT,起诉了OpenAI。

而之所以会发生这种情况,很有可能是OpenAI的数据集Books2从影子图书馆(盗版网站)中获取了大量数据。

所以也有声音调侃说,AI不仅带来了新的技术突破,也给反盗版组织带来了新任务。

参考链接:
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

ChatGPT或将被关闭、销毁数据集

OpenAI 可能会因每条侵权内容而被处以高达 15 万美元的罚款。几周前《纽约时报》更新了服务条款,禁止 AI 公司抓取其文章和图片来训练 AI 模型。如今《纽约时报》似乎已准备起诉 OpenAI。

专家们推测,起诉结果可能会对 OpenAI造成毁灭性打击,包括摧毁 ChatGPT 的数据集,并对每条侵权内容处以高达 15 万美元的罚款。美国国家公共电台( NPR )近日采访了两位“直接知情”的人士,他们证实,《纽约时报》的代理律师正在考虑是否有必要对 OpenAI 提起诉讼,以“保护《纽约时报》声称拥有的知识产权”。

NPR 表示,如果《纽约时报》坚持到底、起诉 ChatGPT 的开发商 OpenAI,这起诉讼可能会成为自 ChatGPT 一炮打响以来,涉及版权保护的“最引人注目”的法律纠纷。就在一个月前,Sarah Silverman 加入了其他知名作家的行列,以类似的理由起诉 OpenAI,力求保护其著作的版权。


当然,ChatGPT 并不是唯一一个在版权索赔方面面临官司的生成式 AI 工具。今年 4月,专家们称,由于版权问题,图像生成器 Stable Diffusion 可能会在法律界引发“一场地震”。

但 OpenAI 似乎是早期诉讼的主要对象。

NPR 报道,如果《纽约时报》成功证明 OpenAI 非法复制了其内容,并且法院限制 OpenAI 的训练模型只包含明确授权的数据,这家公司可能面临联邦法官下令彻底重建 ChatGPT 的整个数据集这一不利局面。

OpenAI 可能因每一条侵权内容而面临巨额罚款,这对 OpenAI 的财务来说无异于一记沉重的打击。而在几个月前,《华盛顿邮报》报道,ChatGPT 已经开始面临用户流失的窘境,“动摇了对 AI 革命的信心”。除此之外,《纽约时报》打赢官司可能引发其他版权所有者提出一连串的类似索赔。与似乎最关心保留从 OpenAI 的训练模型中删除其书籍这一选项的作者不同,《纽约时报》对 ChatGPT 之类的 AI 工具存在其他层面的担忧。

NPR 报道称,“一大担忧”就是,ChatGPT 可能会利用《纽约时报》的内容,通过“创建根据《纽约时报》员工的原创报道和写作手法回答问题的文本”,成为《纽约时报》的“竞争对手”。自本月起,《纽约时报》的服务条款禁止任何人将其内容用于“开发任何软件程序,包括但不限于训练机器学习或 AI 系统”。

现在看来似乎很明显,这次服务条款的更新为《纽约时报》提供了另一道保护。NPR报道,这家新闻媒体似乎正在重新考虑与 OpenAI 签一份许可协议。该许可协议将确保 OpenAI 为用于训练其模型的《纽约时报》内容付费。

据 NPR 报道,OpenAI 和《纽约时报》之间的会晤已经变得“争议很大”,使得这种协议似乎越来越不可能达成,因为《纽约时报》似乎在权衡是否值得签署任何许可协议,因为因而开发的产品可能成为其最激烈的竞争对手。

为了捍卫其 AI 训练模型,OpenAI 可能不得不声称自己在“合理使用”该公司为训练 ChatGPT 等工具而收集的所有互联网内容。在潜在的《纽约时报》案中,这将意味着证明复制《纽约时报》的内容以生成 ChatGPT 回复不会与《纽约时报》构成竞争。

专家们告诉 NPR,这对 OpenAI 来说将是一个挑战,因为与谷歌图书( Google Books )不同,ChatGPT在一些互联网用户看来实际上可以取代《纽约时报》网站作为报道来源。谷歌图书在 2015 年赢得了联邦版权诉讼,因为其书籍摘录并没有成为“重要的市场替代品”,替代不了真正的书籍。

《纽约时报》的代理律师似乎认为这是一个切实而重大的风险。NPR 报道称,今年6月,《纽约时报》的管理层向员工们发布了一份备忘录,似乎对这个风险作出了预警。在备忘录中,《纽约时报》首席产品官 Alex Hardiman 和代理总编辑 Sam Dolnick 表示,《纽约时报》最大的“担忧”是“保护我们的权利”,不受生成式 AI 工具的侵犯。

备忘录问道:“我们如何才能确保使用生成式 AI 的公司尊重我们的知识产权、品牌、读者关系和投资?”这与许多报社提出的一个问题相呼应,许多报社开始权衡生成式AI的利弊。上个月,美联社成为了首批与 OpenAI 达成许可协议的新闻机构之一,但协议条款并未披露。

今天美联社报道,它已与其他新闻机构一起制定了在新闻编辑室使用 AI 的标准,并承认许多“新闻机构担心自己的材料被 AI 公司未经许可或付费就擅自使用。”今年 4 月,新闻媒体联盟( News Media Alliance )发布了一套 AI 原则,坚持要求生成式 AI 的“开发者和部署者必须与出版商就后者的内容使用权进行谈判”,以便将出版商的内容合法用于 AI 训练、发掘信息的 AI 工具以及合成信息的 AI 工具,从而竭力捍卫出版商的知识产权。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

马化腾撰文发声:此次人工智能革命的重要性,用几百年一遇来形容也不为过!

8月14日,《腾讯可持续社会价值报告2022》正式发布。腾讯公司董事会主席兼CEO马化腾在报告中发表了题为《通用人工智能到来的前夜,科技如何向善?》的致辞。马化腾再次就人工智能发声:以ChatGPT为代表的新一轮人工智能浪潮,正在席卷全球。中国的不少科技企业,包括腾讯,正大力投入,拥抱这个无以伦比的机会。我们相信,在扎实做好底层的算法、算力和数据后,以基础模型为代表的人工智能将会成为业务发展的倍增器,使我们更好地服务于用户、产业乃至整个社会。

此次人工智能革命的重要性,用几百年一遇来形容也不为过。

与此同时,深圳梦注意到,8月16日,腾讯发布2023年第二季度财报,公司该季度实现营收1492.08亿元,同比增长11%,净利润(Non-IFRS)375.48亿元,同比增长33%。这是腾讯营收连续第二个季度保持增长,也是净利润增速连续四个季度超过营收。

今年7月,《中共中央国务院关于促进民营经济发展壮大的意见》(以下简称《意见》)发布,坚定了包括平台经济在内的民营经济的发展信心。腾讯董事会主席、首席执行官马化腾表示,“《意见》对互联网行业提出全面战略要求,为平台经济指明发展方向,增添了我们持续开拓的决心和动力。”

财报显示,腾讯第二季度继续夯实“连接器”“工具箱”“小助手”的角色定位,行稳致远。

马化腾表示,公司保持稳健的收入增长,并向更高利润率的优质收入来源倾斜,结合严谨的成本纪律,促使利润增速超过了收入增速。他还指出,公司广告业务实现了显著的快速增长,得益于在广告平台上应用了机器学习能力以及视频号的商业化。未来,腾讯将继续推动创新,包括通过生成式人工智能,打磨自研的专有基础模型。

马化腾:此次人工智能革命的重要性,

用几百年一遇来形容也不为过

8月14日,《腾讯可持续社会价值报告2022》正式发布。腾讯公司董事会主席兼CEO马化腾在报告中发表了题为《通用人工智能到来的前夜,科技如何向善?》的致辞,分享了自己关于科技如何造福人类的思考,以及多个腾讯“科技向善”的案例,其中一个是来自深圳宝安区的“五分钟急救圈”。

“给我留下深刻印象的是在深圳宝安区的‘五分钟急救圈’,最近短短三个月,这个‘急救圈’已救助了四位突发疾病的患者。”马化腾在文中介绍,这是深圳红十字会和腾讯联合打造的“网约式”数字急救系统。这里,对AED等的数字化连接只是“网约式急救”的一部分,本质还是腾讯在政府指导下与医院、社区、学校、企业、志愿者等急救各方形成了共识,共创了能及时联动各方的系统化创新解决方案。

腾讯将两年多来探索可持续社会价值创新的实施方法归纳为“可持续社会价值创新模型”

2019年,腾讯把“用户为本,科技向善”升级为使命愿景。在持续践行中,腾讯又在2021年进行公司第四次战略升级,把“推动可持续社会价值创新(SSV)”作为核心战略,依托数字科技的核心能力助力可持续发展,创造社会价值。

马化腾在文中指出,两年多来,腾讯逐渐形成了以核心能力为依托、与社会各方共创的三大可持续社会价值创新方向,取得了一定成果。“我们对一个更加可持续与高质量发展的腾讯有了清晰的图景:它是真正科技向善的,是关心人的价值与社会的可持续发展的,是呼应时代与国家发展需要的。它从服务用户(C),发展到服务产业(B),再到服务社会(S),最终指向是为社会创造价值。‘CBS三位一体’是它的新形态,商业价值与社会价值在其中不是此消彼长,而是相互融合、共生发展,共同实现规模化增长。”

马化腾表示,可持续性科学,就是旨在把科学融入自然-社会的复杂系统中,为促进可持续发展发现新知、找到新解法。“如果我们以对人与社会的关心为底层逻辑,以人文价值为参照,就会倾听多方主体的诉求,最大化技术的向善力量,规避和最小化其风险。”

8月14日,《腾讯可持续社会价值报告2022》正式发布。这是腾讯交出的第二份年度社会价值答卷。

以下为马化腾致辞全文:

以ChatGPT为代表的新一轮人工智能浪潮,正在席卷全球。中国的不少科技企业,包括腾讯,正大力投入,拥抱这个无以伦比的机会。我们相信,在扎实做好底层的算法、算力和数据后,以基础模型为代表的人工智能将会成为业务发展的倍增器,使我们更好地服务于用户、产业乃至整个社会。

此次人工智能革命的重要性,用几百年一遇来形容也不为过。它不只将改变商业,也可能改变整个世界。微软科学家最近在论文《通用人工智能的火花》中指出,GPT4已具备人类大脑的逻辑活动迹象。

虽然科技界对此看法不一,但如果有人真的造出了一台像人脑一样工作、甚至更为聪明的机器,世界将会怎样,人类将往何处去?在通用人工智能到来的前夜,我们需进一步思考科技与社会之间的关系:科技如何造福于人类,而不是造成痛苦与潜在危机。

在这方面,联合国2019年发布的《未来即现在――科学促进可持续发展》报告认为,“科学技术是推动变革的强大力量,可让世界变好或变坏,取决于如何驾驭”。报告的建议,是把科学作为促进全球可持续发展的四大杠杆之一,尤其认为以人工智能为代表的数字科技有望带来新一代的可持续解决方案。01

作为一家科技公司,我们通过微信、云与大数据、人工智能等产品技术创新,看到了数字科技对社会方方面面的作用与责任。我们越来越深地意识到,科技是一种能力,向善是一种选择,能力越大,责任越大

于是,在2019年把“用户为本,科技向善”升级为使命愿景。在持续践行中,又在2021年进行公司第四次战略升级,把“推动可持续社会价值创新(SSV)”作为核心战略,依托数字科技的核心能力助力可持续发展,创造社会价值。

我们也在实践中认识到,如果科学技术要发挥杠杆作用,它就需以人为本、以关心人与社会的人文价值为参照,着眼于真正为人类增进福祉,并形成广泛的共识、协作与行动,才可能推动社会可持续发展。

两年多来,我们逐渐形成了以核心能力为依托、与社会各方共创的三大可持续社会价值创新方向,取得了一定成果。

方向一,通过模式创新支持科学技术发展,包括支持基础研究与低碳技术创新等;方向二,通过数字化助力社会价值领域,包括支持公益发展、乡村发展、社会应急、乡村支教、卫生医疗、文化传承等;其三,通过产品创新与公益援助,帮扶困境中的老人、孩子与妇女。

我们对一个更加可持续与高质量发展的腾讯有了清晰的图景:

它是真正科技向善的,是关心人的价值与社会的可持续发展的,是呼应时代与国家发展需要的。它从服务用户(C),发展到服务产业(B),再到服务社会(S),最终指向是为社会创造价值。“CBS三位一体”是它的新形态,商业价值与社会价值在其中不是此消彼长,而是相互融合、共生发展,共同实现规模化增长。

可持续社会价值创新,因此成了科技向善的切实抓手。

在助力环境的可持续发展方面,公司在去年初公布了碳中和路线图,形成了从自身碳中和到助力行业减碳的系统目标,并在“CBS三位一体”的框架下变成了具体的行动。

如腾讯云打造了以AI为驱动的“智慧能源生态平台”;碳中和实验室正在推进建设中国首个二氧化碳矿化封存示范项目,通过捕捉空气中的二氧化碳,转化成水溶液,注入玄武岩中,将在几年内自然矿化为石头(即CCUS技术)。

助力经济的高质量发展方面,腾讯的核心技术在数实融合方面,拓展出广泛的应用场景。如超低延时的音视频技术被用于“无人矿车”,助力解决工业领域的远程操作与危险作业。

可持续社会价值的创新,也激发更多技术拓展出广泛的社会化应用场景。天籁实验室与银发科技实验室,利用腾讯会议产品中的AI降噪技术,打造更适老又普惠的助听器,旨在为1.2亿老年人减缓听障的痛苦。

对老年人的关心,同样影响着Robotics X实验室的持续研究。它在近几年先后推出了国内一流的多模态四足机器人、轮腿式机器人和擅长花式调酒的机器人。这些,只是为实现更大目标的阶段性探索与技术积累。它真正的梦想,是在未来几年打造出为老年人提供养老护理、居家服务的养老机器人,以助解老龄化时代之下大量缺乏护工的困局,探索人机共存、共赢的新世界。

我们通过这类实践,看到了以人工智能创造新一代可持续解决方案的可行性。同时也发现,若要让这样的方案更好地服务社会,往往不是靠单一的AI+、数字科技+或者科学技术+,而是需更具全局视角、系统思维与共创方法的创新方案与务实行动。

02

以我们支持基础研究的“新基石研究员项目”为例,就是系统性创新方案的典型。基础研究的原始创新,事关科学与民族发展未来。目前国家资金对此投入巨大,但限于目标考核的原因,对于非任务导向的自由探索,资金支持相对较少。

而如果在科学系统中,把这一块短板补上,将会极大激发科学界的原始创新。所以,这个项目的系统目标是激发科学界自由探索的内生动力,那么科学家必然是主角、主导者,政府是指导者,企业是助力者、补位者。

故而,我们投入百亿,设立了公益属性的新基石研究员项目,长期稳定地支持一批杰出科学家自主选择研究方向、突破“从0到1”的原始创新。目前第一期58位新基石研究员的资助名单已发布,获得了各界的广泛肯定。这是支持基础研究的第一步。

我们也正在探索数字技术与基础研究的更多结合。如在生命科学领域,AI LAB实验室利用人工智能技术,支持精准医疗、空间组学、细胞图谱的研究,成果被发表在国际顶尖科学期刊。

在天文物理领域,优图实验室的AI技术,助力天眼FAST大大提升天文数据的处理效率,已帮助寻找到超过22个脉冲星。这给我们的启发是,也许在未来,我们可以更加系统、全面地利用AI技术,打造服务于数学、物理、化学、生物与医学等基础研究的“AI FOR SCIENCE”体系。

我们从中看到了系统化创新方案不是一成不变的,而是可以与系统共生共舞,持续进化的。

这在可持续社会价值创新的实践中,是一种共通的经验。

给我留下深刻印象的是在深圳宝安区的“五分钟急救圈”,最近短短三个月,这个“急救圈”已救助了四位突发疾病的患者。这是深圳红十字会和我们联合打造的“网约式”数字急救系统。这里,对AED等的数字化连接只是“网约式急救”的一部分,本质还是我们在政府指导下与医院、社区、学校、企业、志愿者等急救各方形成了共识,共创了能及时联动各方的系统化创新解决方案。

这样的事,同样发生在乡村发展领域,我们不只是提供“村级事务管理平台”这样的数字工具,还通过“耕耘者振兴计划”与“乡村CEO”去协助政府培养乡村振兴人才。

在健康普惠领域,我们不只是在低卫生资源的地区提供信息化与智能化的支持,而是通过数字化,从儿童听障、先天性心脏病、妇女两癌等疾病切入,打通系统的断点、堵点,搭建从基层医生培训到早筛、早诊、早治、救助的系统化创新方案,使“筛诊治一张网”能以更低的成本、更高的效率落地低资源地区。

在数字支教领域,我们不只提供数字化的远程双师课堂,而是深刻地理解了乡村教育的实际需要,广泛联动从志愿者到教育专家等有识之士一起奉献爱心,推动支教公益行业的数字化升级,进而形成系统化方案的共创。

腾讯公益更是系统化创新方案的集大成者。腾讯公益在十多年前从月捐、乐捐等产品切入,逐渐理解并深入公益界的社会系统,广泛连接用户、公益机构、企业、政府等各方,共创数字公益的系统解决方案,促进了中国公益慈善的可持续发展,推动了“人人公益”社会风尚,成为互联网公益的“中国样本”之一。03

这样的系统化方案创新,也可以在全球可持续发展领域被推崇的“可持续性科学”中找到依据。可持续性科学,就是旨在把科学融入自然-社会的复杂系统中,为促进可持续发展发现新知、找到新解法。

这里的每个可持续社会议题,都是一个有多方主体且相互作用的极其复杂的社会系统。如果科技的力量不是以系统的方式融入其中,就可能出现排异反应甚至破坏作用。而如果我们以对人与社会的关心为底层逻辑,以人文价值为参照,就会倾听多方主体的诉求,最大化技术的向善力量,规避和最小化其风险。

如此,各方的主体性得到尊重,各方的内生动力得以激发,系统化方案创新得以形成,科技的杠杆效应得以发挥。如果这样,科技能力对社会系统,不是破坏性创新,而是协同性的、变革性的共生发展,是科技创新与社会创新并举的可持续模式。

今天,人类正在迈向新的文明入口。以人工智能为代表的新一轮科技浪潮,可能会使人类的福祉上升到新的阶段,但也可能使人类在剧变中承受巨大的阵痛。

当我们以这种系统化创新的方式、以可持续性科学的新知去面向未来,也许是更好的结果。它将更好地解决环境与气候的问题,更高质量地促进经济发展,更大程度地提升社会幸福。

这样的远景不在别处,就在当下,就在我们对科技向善的践行中。

1492.08亿!马化腾最新表态

8月16日,腾讯发布2023年第二季度财报,公司该季度实现营收1492.08亿元,同比增长11%,净利润(Non-IFRS)375.48亿元,同比增长33%。这是腾讯营收连续第二个季度保持增长,也是净利润增速连续四个季度超过营收。

今年7月,《中共中央 国务院关于促进民营经济发展壮大的意见》(以下简称《意见》)发布,坚定了包括平台经济在内的民营经济的发展信心。腾讯董事会主席、首席执行官马化腾表示,“《意见》对互联网行业提出全面战略要求,为平台经济指明发展方向,增添了我们持续开拓的决心和动力。”

财报显示,腾讯第二季度继续夯实“连接器”“工具箱”“小助手”的角色定位,行稳致远。

马化腾表示,公司保持稳健的收入增长,并向更高利润率的优质收入来源倾斜,结合严谨的成本纪律,促使利润增速超过了收入增速。他还指出,公司广告业务实现了显著的快速增长,得益于在广告平台上应用了机器学习能力以及视频号的商业化。未来,腾讯将继续推动创新,包括通过生成式人工智能,打磨自研的专有基础模型。

净利润增速连续四个季度超过营收增速

财报显示,腾讯第二季度实现营收1492.08亿元,同比增长11%,净利润(Non-IFRS)375.48亿元,同比增长33%。截至该季度,腾讯营收已连续两个季度保持增长,净利润增速连续四个季度超过营收增速,继续稳步前行。

马化腾曾表示,腾讯将不断加大自主创新力度,深度参与“数实融合”。而从财报表现来看,作为“数实融合”的业务代表,腾讯“金融科技及企业服务”业务收入第二季度达到486亿元,同比增长15%,占总营收的比重达到约32%,成为本季度业绩收入贡献最大板块。

同时,该板块对腾讯营收的贡献持续走高,至今已连续九个季度营收占比超过30%。

其中,金融科技服务收入实现双位数同比增长,主要得益于线下线上商业支付活动的增加。而受益于云业务增长等因素,本季度企业服务营收回暖至同比双位数增长,毛利率明显改善。

金融科技方面,腾讯已完成对财付通的自查和相应整改工作,并提升了支付业务的合规经营能力,公司期待在支持性监管框架下推进业务发展与创新。

开拓国际市场方面,腾讯游戏板块表现突出。

第二季度,腾讯游戏业务收入为445亿元。凭借《VALORANT》《胜利女神:妮姬》《Triple Match 3D》等游戏的出色表现,腾讯游戏国际市场收入达127亿元,同比增长19%,相当于本土游戏市场收入的40%。财报显示,二季度手游和端游的月活跃账户数和日活跃账户数均实现同比增长,而且腾讯游戏近两年发布的三款新游戏在第二季度中国手游时长排名前列。

较二季度腾讯游戏445亿元总收入的大盘相比,本季度国际市场游戏收入占比为28.5%,较上季度占比有所提升,巩固了游戏板块“第二增长曲线”的角色。

微信视频号单季广告收入破30亿元

第二季度,腾讯广告业务在平台底层能力提升和微信商业生态助力下,收入同比增长34%至250.03亿元。

作为微信生态的核心组件,视频号的提振作用正在逐步显现。财报显示,得益于视频号、小程序和朋友圈用户使用时长的增长,视频号总用户使用时长同比几乎翻倍,视频号广告收入超过30亿元。

财报显示,为长远提高股东价值,截至2023年6月30日止六个月内,腾讯已回购约169亿港元(未计开支)股份,合计共约4834.65万股股份,购回的股份已被注销。

第二季度,腾讯研发开支达160亿元,自2018年至今累计投入超过2300亿元。截至6月,腾讯在全球主要国家和地区专利申请公开总数超过6.6万件,专利授权数超过3.3万件,主要集中在人工智能、云技术、大出行、即时通讯等前沿领域。

第二季度,腾讯云推出模型即服务(MaaS)解决方案,基于腾讯云自研的高性能计算集群、AI原生向量数据库、高性能网络等,帮助企业以更高效率和更低成本开发定制大模型。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

这些AI制药公司,裁员一个比一个狠

无论是生物医药还是AI制药,都来到了另一个周期。
2020年,Schrodinger在美股上市并上涨,引爆了AI制药赛道,循着退出端的“指挥棒”,VC们开始搜寻合适的标的。
随着Relay、Recrusion、Exscientia的成功上市,公司股价都曾经走出不错的表现。

但从去年下半年至今,出现了多起AI制药公司裁员的事情,去年8月9日,敲钟仅仅一年的AbSci公司,宣布裁员40人。而后今年BenevolentAI、BioXcel相继裁员,均为行业蒙上了一层阴影。
这些脆弱的上市AI制药公司,裁员一个比一个狠。

接二连三地裁员
Absci:年收入不到500万美元,裁员40人
最开始大刀阔斧进行裁员的是上市公司Absci。

Absci成立于2011年,此前营业务是将基于大肠杆菌的合成生物学平台生成高多样性菌株文库和复杂生物治疗蛋白,为制药公司快速生产以往难以生产的生物药或制剂。
而后公司开始转型AI药物研发,利用合成生物学和深度学习AI技术来识别、筛选和扩大新型候选药物的生产,主要用于开发抗体药物。
就在2022年8月9日,Absci宣布裁员裁员40人、简化运营和研究业务,以应对不断变化的经济状况。
站在合成生物学风口的AbSci,7年内共完成10轮融资,总额高达2.3亿美元,然而根据财务报告,其年营收在500万美元左右,难以支撑起最高20多亿美元的市值。
更难堪的是,Absci自上市以来的股价如同坐上滑滑梯,从最高点32.9美元一路跌到了1.6美元。
BenevolentAI:唯一临床管线失利,裁员50%

今年5月,英国AI制药独角兽BenevolentAI由于管线失败也开启了大裁员降本增效的步伐。
公司宣布裁撤多达180名员工,人数接近50%。此次裁员同样距离BenevolentAI上市仅仅过去一年。
此次直接导火索源于公司的核心管线——其用于治疗特应性皮炎的局部泛Trk抑制剂BEN-2293的IIa期临床试验,没有达到次要疗效终点,无法减少患者的瘙痒和炎症。
BEN-2293是公司目前推进得最快的管线,也是唯一一条临床管线,此前BenevolentAI也凭借该药物上市。这次临床失利对于BenevolentAI而言是一个巨大的打击。
现在,BenevolentAI并不打算继续推进BEN-2293,而是准备节衣缩食押注其他新的管线,例如BEN-8744和BEN-28010。
BEN-8744是一种用于治疗溃疡性结肠炎的潜在同类最佳PDE10抑制剂,预计2023年Q3进入临床I期。BEN-28010 是一种用于治疗多形性胶质母细胞瘤的潜在同类最佳 CNS 渗透剂 CHK1 抑制剂,预计将于今年第四季度进入IND-ready 。
BioXcel:裁员60%,市值仅剩1亿美元
8月14日,AI药物研发公司BioXcel Therapeutics 公司宣布,作为战略调整的一部分,公司将把员工人数从190人减少到80人,比例高达60%。
主要原因还是其上市药物IGALMI (右美托咪定款舌下膜剂)不如人意,上市后半年仅为38万美元。
该药物由 BioXcel 的AI平台开发,从获批 IND 到药物上市仅用了4年,主要用于用于急性治疗与成人精神分裂症或双相I或II型障碍相关的激越。
为了这款药物的销售,公司组建了超过70人的营销团队,但一个季度的销售额不超过50万美元,与公司宣称的 2.75 亿美元市场规模相去甚远。
智药局曾经就分析过,尽管精神类药物的销售额不如肿瘤药物销售快,但IGALMI 却面临着商业化的困境。该市场药物已经处于饱和,但IGALMI却不提供与现有激越药物相比的独特益处或差异化,还伴随着副作用和使用条件,难以用于急诊或者门诊情况。
除此之外,今年6月还陷入了临床信息造假的风波,此前BioXcel宣布其在研右美托咪定口服溶解膜制剂BXCL501治疗阿尔茨海默症相关激越的III期TRANQUILITY II研究达到了主要终点。但该该研究中的一名研究者正在接受调查,原因是他没有及时报告一例严重不良事件。
公司未来重点转向开发 BXCL501(右美托咪定) 以用于在家中治疗精神分裂症、双相情感障碍以及可能由阿尔茨海默病引起的轻度至中度痴呆症患者的躁动。
直指盈利困境
毫无疑问,造成三家上市公司裁员的本质都是现金流的支撑力不足。营收太低、临床管线失利、上市后销售困难,把biotech几乎主要的坑都踩中了。
自2021年下半年以来,一众AI制药知名公司市值呈自由落体之势,截至8月18日,最新市值较最高点平均跌幅普遍达到80%。
目前几乎所有的上市AI药物研发公司仍然处于亏损之中,绝大多数公司都定位于生物技术公司,仅合作能贡献少数营收外,临床阶段管线的投入却像个无底洞。

根据上图所示,大多数公司现金流也开始吃紧,仅够他们支撑到2025年左右。这也意味着公司的“抗风险能力”非常脆弱,一旦核心管线失利,或商业化药物不成功,断臂求生几乎是板上钉钉。

一家AI制药创始人此前也感叹融资环境,上市生物科技公司的市值下降了80%,走到后期轮次的公司估值较2021 年的辉煌时期下降了 30%-70%。
上市公司通过IPO或者定向增发手里还有不少余粮,是对于一级市场的初创而言,寒风吹打得更加明显。

2020年—2021年,AI药物研发公司开始集体上市,一时间点燃了资本的热情,资本找到了退出渠道。热钱涌入后,整个医药行业持续看涨,也引发人们的热捧。
根据智药局统计,2021年,全球AI制药总额约为266亿元(超42亿美元),这一数据在2022年增长到了62.02亿美元。
然而今年上半年,无论是融资数量还是融资金额,都呈现量价齐跌的态势,据智药局监测,2023年H1全球AI+药物研发融资总事件42起,其中一季度26起,二季度仅16起,二季度融资数量创下2020年以来的新低。

同时,融资金额也呈现不断下滑的态势,季度融资从最高的24亿美元,到如今的3.23亿美元。对于这些急需资金开展研发活动,或者培养新资产的AI药企而言,缺乏资金支持无疑是致命的。
生物医药市场的残酷性,并没有因为AI的加入而减少。无论是近期的大跌,还是近期传得人心惶惶的科创版第五套上市标准收紧,都指向了行业难解的问题——盈利困境。
行业的高门槛、高风险一直都存在,现金流如同紧绷的一根弦被创始人攥在手里,但曾经被降本增效的厚望的AI发挥的效用却有限。
开源很难,最终只能节流了。如果仍然缺乏资金支持,还会有更多的AI制药公司陷入生存危机。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

又有AI产品被质疑侵权,AI绘画与隐私保护如何平衡?

AI行业再起波澜。

近期,AI绘画产品TriK AI被绘画创作者质疑侵权。有插画师在社交平台发文表示,未经其本人允许,原创作品被拿来“喂”AI产品。

社交平台上再次引发有关AI侵权的讨论,并延伸到形成新一轮的“AI抵制”行动。

这不是行业第一款AI产品引发质疑。AI行业发展迅猛,相关争议也接连不断。争议的背后,反映的是行业新生事物面临的不确定性。

新技术的浪潮奔涌向前。而随着AI类产品应用逐渐融入大众生活,如何平衡好安全与创新的问题,将无法回避,这仍需要进一步的探索和实践。

AI产品再掀波澜

继妙鸭AI相机之后,国内又有AI产品站上风口浪尖。
8月1日,插画师“是雪鱼啊”在微博发文质疑小红书旗下AI绘画产品TriK 未经允许,利用其本人绘画作品做AI训练。用户用 Trik AI得出的图片,与其原作品非常相似。几天后,陆续有多位插画师在微博发文质疑。
今年,大模型成为各家互联网大厂不可错过的风口,作为内容社区的小红书也加入这场竞赛。
今年5月,据36氪报道,小红书从3月起筹备了独立的大模型团队,核心员工来自广告业务的NLP技术团队,内部还有多个独立部门同时推进AIGC(AI生产内容)方向的落地探索。在今年4月,小红书上线专注中国风方向的AI绘画应用“Trik”。
TrikAI官方账号在小红书上有超万粉丝。官方会在平台上发布用户通过Trik AI得出的作品。而眼下,账号底下更多是用户的质疑评论。
随着事件发酵,在社交平台上开始有插画师以及用户为绘画创作者发声。在小红书上,有用户将头像更换成统一“抵制AI”图案,以表达不满。
截至发稿,小红书暂未就以上争议发布官方回应。而有小红书上的创作者向Tech星球透露,小红书运营曾经在和创作者的沟通中表示,小红书从未将用户发在小红书上的作品交给任何团队训练AI。

“AI侵权”行业争议不断

这并非AI产品第一次因为侵权而引发讨论。有关AI侵权实际上已经是一个行业性话题。

数据、算法、算力是AI发展的驱动力,其中数据是AI发展的基石,包括图片、文字、视频等。数据是否足够庞大,影响着模型是否智能。各家大模型产品也是围绕数据、算法、算力进行较量,但如何获取广泛的数据是个挑战。

在小红书之前,网易旗下LOFTER的AI绘画功能“老福鸽画画机”也因版权问题惹创作者质疑。LOFTER官方解释称该功能实际是头像生成器,初衷是为方便没有绘画能力的用户制作喜欢的头像。但平台部分创作者认为该功能可能用到创作者的原创作品,有侵权之嫌。随后,LOFTER下架相关产品,并发布官方致歉信。

2022年11月,插画师洛柒也在微博质疑AI绘画应用Nijijourney涉嫌抄袭。她指出,Nijijourney生成的许多图片与部分画师的原创作品高度相似。而在此次“小红书AI产品事件”中,洛柒也积极为绘画创作者发声。

不止是绘画领域。在国外,2022年11月,OpenAI和GitHub一起推出的代码助手Copilot就曾被程序员们告上法庭。原告们认为,Copilot在未获得GitHub用户授权的情况下,使用了公共存储库进行训练。

在今年6月,OpenAI同样因为未经允许使用个人隐私数据收到了一份长达157页的诉讼书。

有关AI创作的侵权的讨论,从行业诞生之初就已经存在,并从未停止。

而有关未经允许,用受版权保护的原创内容训练AI是否违法的问题,浙江大学光华法学院教授张伟君告诉Tech星球,著作权人是否能够对人工智能学习和训练行为主张权利,在各个国家依然是有争议的问题,这个问题有待法律明确,目前不宜轻易得出该行为是否构成侵权应立即予以禁止的结论。“虽然目前我国强调加强著作权的保护,但不能因此排除对出于人工智能学习、训练目的的数据挖掘行为适用合理使用条款的可能性。”

法学博士、中国社科院法学所博士后、华东政法大学教授陈绍玲也表示,人工智能技术的发展依赖于机器学习,即利用大量数据对人工智能进行训练,利用作品训练人工智能时,会不可避免地产生未经许可利用他人作品是否侵权的问题。

“人工智能技术的发展有益于全人类的福祉,为了推动人工智能技术的发展,人工智能训练过程中对他人作品的利用不可避免”,陈绍玲告诉Tech星球,“为此,很多国家和地区在著作权法当中规定了一条例外制度,那就是为了训练人工智能的目的而利用他人作品的行为可以不认定为侵权,这在日本欧美的著作权法当中被称作文本和数据挖掘的限制例外制度。”

AI时代已来,监管提速

在微博发布质疑文章后,插画师“是雪鱼啊”在小红书发布停更声明,并已经联系律师处理相关事宜。但目前,对AI作品所涉的侵权证明和维权仍然是复杂且棘手的问题。
四川恒和信律师事务所律师、四川省版权协会版权维权中心专家王生忠去年曾接受《封面新闻》采访时表示,若要证明AI绘画构成实质性相似比较困难。“虽然不少画师也公开表示禁止AI学习自己的作品,但作为作品在公开后就有可能被计算机程序抓取,我国司法实务中判断作品是否侵权采取‘接触+实质性相似’原则,但由算法深度学习生成的作品是随机不确定的,证明构成实质性相似比较困难。”
也正是存在着未知和不确定性,让大众对AI时代的到来产生疑虑。除AI侵权之外,AI换脸、版权归属等显性争议同样引发大众的焦虑。


事实上,今年以来,各国对于人工智能的监管步伐也在不断加速。而就在8月15日,备受行业关注的《生成式人工智能服务管理暂行办法》正式施行,这是我国首个针对生成式人工智能产业的规范性政策。


生成式AI已经在市场掀起前所未有的狂欢。目前,国内各大企业纷纷入局AI大模型,百度、阿里、字节、商汤、360、云知声、科大讯飞等都已经在不同行业落地AI应用。根据IDC数据预测,2021年中国人工智能软件及应用市场规模为51亿美元,预计2026年将会达到211亿美元。行业发展速度超乎想象。


而这一次对于人工智能的监管节奏之快,也超出此前市场预期。从今年4月公开向公众征求意见、到正式发布,再到落地施行,整个周期不超过半年。


对外经贸大学副教授、数字经济与法律创新研究中心主任许可近期在接受《经济观察报》采访时便表示,从4月的征求意见稿到最终发布稿,能够看出监管的思路正在从开始的风险预防为主,到更多地谋求发展与安全的平衡。“形象一些说,监管机构希望先装好刹车再上路,使技术和产业的奔跑更稳健,避免技术失控。”


每一次技术变革,总会伴随着对新时代的期待和对未知不确定性的恐慌。技术浪潮不会停止,而在不断发展过程中,如何平衡安全与发展将是永远无法回避的命题。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

GPT or Llama2 ?这是近期大模型应用层开发者们开始考虑的问题

就在7月19日,开源社区的大明星——Llama,跃升为Llama2!这款升级版的大模型是在2万亿的token上进行训练,训练数据增加了40%,可以说规模惊人!而且,Llama2在推理、编码、精通性和知识测试等许多外部基准测试中,都表现得比其他开源语言模型更加优秀!

“以前的开源大模型都没有形成像 Llama 这样的社区,而 Llama 系列模型正是在这种非常活跃的社区文化下发展起来了,这也直接造成 Llama 系列模型在很多任务上都取得了快速进展,甚至达到了商用标准。”东北大学教授肖桐这样说。

GPT-3.5 水平通常被认为是大模型商用的标准线,在 Llama2 模型 70 亿、130 亿和 700 亿三种参数变体中,700 亿的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水平。这意味着,作为开源大模型的代表,Llama2 第一次进入了大范围的商业考量决策之中,开发者们拥有了一个免费、开源且足够商用的大模型底座。谷歌的一位工程师在今年5月份曾在内部撰文中直言:当免费的、不受限制的替代品与闭源模型质量相当时,人们不会为受限制的模型付费。

很快,免费的开源模型走进现实。根据Meta披露的信息,Llama2 在发布的一周内就接收到了超过 15 万次的下载请求,并且仍在持续增加,Meta 对此表示“难以置信”。

开源模型与闭源模型的大战就此正式打响。面对开源大模型更低的成本、更快的迭代速度、更高的定制化上限,闭源大模型的应对策略,成为一个问题。

Llama2 还是 GPT-4——成本

选择Llama2的原因有很多,其中最直接的原因就是成本。现在,GPT-4接口的调用费用相当高昂,每1000个提示请求token就要花费0.03美元,完成响应token还要再花费0.06美元。据斯坦福大学的研究员在一份论文中估算,如果中小企业利用GPT-4来协助市场工作,每个月的成本可能会超过2.1万美元!而一家利用GPT-4辅助广告文案生成的公司也表示,它们每个月为GPT-4接口支付的成本平均超过25万美元。这样一来,选择Llama2这种成本更低、性能又不错的开源大模型,显然是个明智的选择。

一家国内AIGC应用商表示,Llama2虽然技术水平上暂时不如GPT-4,但考虑到GPT-4的高昂成本,团队还是选择了使用Llama2作为底层模型。他们通过在产业中积累的行业数据以及专注于垂直场景的输出,能够弥补一部分技术代差。

Llama2出现后,更多的公司开始转向基于Llama2进行商业化开发,而不再购买OpenAI的API。因此,在免费的冲击下,原先使用OpenAI接口的应用层公司会重新思考应该选择哪个路线,有一部分的市场或许将会被Llama2重新洗牌。

然而,这个决策并不完全是成本之上的较量。对于“较好的数据和优化是否能够弥补如今Llama2与GPT-4差距”这个问题,消极的声音占据较多数。

Llama2 还是 GPT-4——性能

东北大学教授肖桐以机器翻译场景为例指出,虽然我们可以用类似于Llama2的开源模型进行指令微调,达到不错的翻译性能,但最终会发现性能仍然受限。因为开源大模型的某些能力是在预训练阶段获得的,所以即使指令和任务明确,并且有了很多数据,也仍然难以达到GPT-4的效果。


此外,与往常的披露不同,此次Llama2开源并没有对外披露数据层的具体信息,因此复现Llama2成为一件受限制的事情,企业没有训练Llama2底层模型的权限和能力,所以它的性能很难突破,逼近GPT-4这个目标不太可能的。
一些应用开发者认为,按照此时Llama2与GPT-4的水平差距,如果全力押注Llama2,付出的代价可能同样很大。他们可能要花费大量时间在优化Prompt上,而不是专注于产品创新。


因此,在技术的绝对领先下,GPT-4仍然会持续吸引那些对效果有较高要求、在成本方面有较大空间的客户。
当然,Llama2的更大贡献不仅仅是存量市场的转移,更重要的是对整个AIGC行业增量市场的拉动。一位AIGC业内人士向机器之心表示,Llama2的开源点燃了很多应用开发者的热情,在开源后的几周时间内,许多开发者对它寄予了厚望,将它比作移动互联网黄金时期的阶段,希望能找到应用的新切入点。


正如肖桐所言,Llama2能够支持企业和团队在大模型应用层面低成本、快速地启动,打造出产品和商业模式的原型。随着围绕Llama的应用尝试越来越多,未来可能会迎来一个模型平民化的阶段,使用大模型做应用的门槛将不断降低。


在过去的几周时间内,Llama2已被接入各种平台,包括Amazon Sagemaker、Databricks、Watsonx.ai、Microsoft Azure、阿里云和百度千帆等,围绕Llama2的生态已经在慢慢形成。

Llama2 对国内大模型创业公司的碾压

在Llama2推出之前,开源社区最强的大模型Llama在商用许可上有限制,而OpenAI的接口在国内面临着不确定的监管风险。因此,相比于两者,国产大模型在市场竞争中的优势通常是“可商用”、“数据安全”以及“更好的服务支持”。
Llama2的发布削弱了国产大模型创业公司在市场上的竞争力,对那些自研大模型积累不够的公司来说,Llama2产生的冲击更大。
然而,那些认为自己短期内凭借自研能力无法超过Llama2的公司,仍有机会成为端到端的应用公司。他们可以利用自己的既有模型结合开源模型,直接向市场提供应用,并实现数据上的闭环,以不断迭代。这样,他们便可以在大模型开源生态系统中找到自己的立足之地。
Llama2的发布不仅展现了开源社区的强大技术能力,更进一步推动了开源社区的发展。随着Llama2的释出,大模型开源社区的力量已经引起了市场的广泛关注,成为了不可忽视的力量。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

字节跳动AI产品Grace新版本更名为“豆包”并启动测试

 节跳动首个大模型独立App近日上线,是一个AI对话产品,叫“豆包”。并启动测试,网页版、移动端均已上线,支持手机号、抖音账号、Apple ID 登录。目前拥有文生文的功能。     豆包的官网为www.doubao.com,由北京春田知韵科技有限公司开发并运营,后者由字节旗下的北京抖音信息有限公司100%控股。
     目前可在其官网直接注册使用,或通过官网提供的二维码下载App,不需要邀请码。该产品前身正是字节内部代号为“Grace”的AI项目。提供“豆包”、“英语学习助手”、“全能写作助手”、“超爱聊天的小宁”等四个虚拟角色,为用户提供多语种、多功能的AIGC服务,包括但不限于问答、智能创作、聊天等。“豆包”项目组人士回应称,“豆包”是一款聊天机器人产品,还处于早期开发验证阶段,这次上架仍是小范围的邀请制测试。

 早在今年2月份,就有消息称字节跳动加入国内“AI大模型”逐鹿战中,应用场景包括抖音与TikTok的搜索功能、AI生成图片视频等。AI大模型是时下最为热门的AI细分领域,近日国内外大模型密集发布,国内厂商如商汤、阿里、知乎陆续发布其大模型产品,飞书发布AI助手“MyAI”;海外亚马逊推出AI平台Bedrock,InnovativeEyewear推出支持ChatGPT的智能眼镜。     

从大模型产业链来看,上游为芯片、数据库软硬件,中游为算法研发(训练框架、模型测评等)和模型管理维护(数据处理等),下游产业的重点领域为社交、媒体、营销、教育、娱乐,重点场景包括内容生产、创意设计、对话引擎和辅助开发。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

麦肯锡自家AI引发行业地震:Lilli将让上万咨询师失业…

8月16日,沉寂已久的咨询巨头麦肯锡

官宣了一条令人兴奋的消息

所有的麦府员工都将能用上

自家专属的AI工具—Lilli啦

Lilli横空出世

这无疑让不少咨询师失业

快跟Uni酱一起来看看

Lilli:我的到来足以让行业一震

8月16日,麦肯锡官网发布消息,郑重的向大家介绍了一下Lilli。

这是一款由麦肯锡首席技术官Jacky Wright领导的“ClienTech”团队为麦肯锡员工设计的新型聊天应用程序。

这里提到的ClienTech,其实是麦肯锡内部的一个神秘技术团队,由大约200名技术专家组成,是麦肯锡科技生态系统的三大支柱之一!

为什么叫Lilli?

Lilli取自Lillian Dombrowski,她是麦肯锡1945年聘用的第一位职业女性,后来成为该公司的财务总监和公司秘书。
认识Lillian的人都说她愿意做任何事,是当之无愧的“能力者”。她的研究促成了麦肯锡的运输和保险部门的创建;她帮助制定了利润分享和养老金计划,甚至还建立了麦肯锡的档案。

而Lilli和Lillian Dombrowski最像的地方就在于,TA们都有着超强的能力并且能够执行到位~

Lilli可以做什么

不过,QuantumBlack(量子黑)不是一个推翻重来的名字,它原先是麦肯锡2015年收购的数据分析公司,并在去年成为了麦肯锡官方的、统一的人工智能(AI)部门。

与Cohere合作,为客户提供人工智能解决方案
此外,一个月前,麦肯锡还官宣与人工智能初创公司Cohere达成合作伙伴关系,为其企业客户提供人工智能解决方案。据了解,它们已经共同为从金融服务到零售各个行业的公司提供服务,但没有透露这些公司名称。
对于Cohere,同学们可能比较陌生,它其实是一家正在快速崛起中的AI初创公司,由谷歌前顶级人工智能研究人员创立,有着非常深厚的学术气质~

据了解,Lilli可以提供信息、洞察、数据、计划,甚至可以根据咨询项目需求推荐最适合参与其中的内部专家,而所有这些操作的实现都基于超过10万份的文档和访谈记录!


自2023年6月以来,Lilli一直处于测试阶段,并将在今年秋季在麦肯锡全面推出。到时候所有麦府员工都能自如使用自家专属AI工具来工作啦~
关于Lilli具体是如何工作的,我们暂时还看不到太多信息。不过麦肯锡举了一个例子来帮大家理解~
比如,用户可以输入一个问题,Lilli可以在整个知识库里进行检索,确定5到7个最相关的内容,总结关键点,包括链接,甚至确定适当领域的专家。

收购数字化转型公司
其实,早在几年前,麦肯锡就已经开始布局数字化转型之路,先后收购了多家服务于数字化转型的公司,并成立了新部门QuantumBlack。
作为麦肯锡数据和高级分析的核心,QuantumBlack致力于为麦肯锡咨询团队赋予最前沿的数据分析能力,使之能够在极具挑战性的咨询项目中为客户释放出巨大增长潜力。

而且,Cohere目前已经完成了2.7亿美元的C轮融资,估值超过21亿美元,已经成为一家实力不可小觑的AI超级独角兽!
这么一看,麦肯锡与Cohere合作也可以算是强强联合。相信有了Cohere的技术支持,Lilli也会被开发得更加强大~
麦肯锡一系列的举措都在向我们证明:AI浪潮已经势不可挡。同时,随着麦肯锡正式入局,咨询公司的AI竞赛也变得更加精彩~

I时代已经到来, 咨询行业如何表态
论与时俱进,咨询公司一向走在前列!
自ChatGPT横空出世至今,生成式AI赛道爆火,越来越多咨询公司加入了拥抱AI的队列之中——

Bain 官宣与OpenAI合作Bain是咨询公司中最早拥抱OpenAI的那一批。抱着“打不过就加入”的心态,2月21日,贝恩宣布与OpenAI(开发ChatGPT的公司)正式展开合作,成立全球服务联盟。希望可以最大化AI价值,并为客户提供更具潜力的解决方案。

过去一年,贝恩全球1.8万余名专业人士已经开始在工作中运用到OpenAI技术,包括将OpenAI技术植入内部知识体系、研究和流程中,从而进一步提高效率。

BCG X官宣与Open AI进行合作MBB中目前走得最远的当属BCG!BCG不仅早早成了新部门BCG X与McKinsey QuantumBlack分庭抗礼,还于近日马不停蹄地官宣加入与OpenAI进行合作的队列,可谓是项目落地和战略规划双赢!
先说BCG X,早在半年前,BCG在刚官宣成立新部门BCG X的时候就计划要用2500人扩充新部门。但形势的发展远超预期,随着数字化浪潮的深入,相关业务量激增!

PwC 豪掷10亿美金开发AI就在前不久,普华永道美国发布声明称,该公司计划在未来三年投资10亿美元,用于发展生成式AI技术,并将与微软和OpenAI合作,使其在税收、审计和咨询服务的各个方面实现自动化。
据悉,普华永道已经开始在为保险、航空、医疗等行业的客户提供服务的过程中引入了Azure OpenAI。这些解决方案已成功地使客户节省时间和成本,同时帮助增加收入。


与此同时,普华永道将对其内部平台进行现代化改造,以嵌入这种新的、安全的生成性人工智能环境,在其利用人工智能为客户提供税收、审计和咨询服务的现有基础上再接再厉。

Accenture 狂砸30亿美金大扩招6月13日,埃森哲在官网发布消息称,将在未来三年内,针对数据和AI业务投资30亿美元,以帮助各行各业的客户快速、负责任地推进和使用人工智能。
据了解,这笔30亿美元的巨额投资将在三年内使用,涵盖资产部署、工具开发、收购与人才研究。埃森哲表示,这笔投资建立在其十多年来在AI领域的领先地位之上,公司的AI专业知识涵盖全球1450多项专利和正在申请的专利,以及数百个大规模客户解决方案。

KPMG 狂砸20亿美金进军AI和埃森哲相似,发布裁员消息后不久毕马威也马不停蹄在7月11日官宣了自己的另一个大计划——狂砸20亿美金进军AI!
据报道,毕马威与微软达成了里程碑式的协议。毕马威计划在未来五年内,通过与微软扩大合作关系,在全球各业务领域投资20亿美元,用于人工智能和云服务。而这也是“四大”在这些技术上加倍投资的最新举措!
此外,就在前不久,毕马威澳大利亚公司还推出了独家定制的ChatGPT——KymChat。这本质上也得益于毕马威与微软的合作,据悉,毕马威是全球少数几家获准开发该工具私有版本的公司之一。


事实证明,AI颠覆金融、咨询行业的速度比我们想象的快得多,想要先人一步体验最新AI科技的同学可以多多考虑上述这些咨询公司。
当然啦,目前来说AI还不至于取代人类,但它确实已经对工作和求职产生了很大的影响。

根据Challenger, Gray & Christmas发布的报告,科技行业迎来了自2001年以来该行业裁员最多的一次,这也是美国就业报告首次把AI加入裁员理由中。数据显示,5月份美国有近4000人因为AI失业

与此同时,随着人们对不断发展的技术及其对商业可能产生的影响越来越感兴趣,华尔街投行们正在利用AI展开一场”金融革命”

根据咨询公司Evident的最新数据,在最热门的几大银行中,大约40%的空缺职位与人工智能相关,例如数据工程师、分析师🧐

如今金融圈、咨询圈什么最火?AI当仁不让。咨询公司们都明白一个道理:AI或许无法取代咨询顾问,但不善于用AI的咨询顾问可能会被老板淘汰,不善于利用AI的咨询公司可能会被市场淘汰。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

AI巨头下场!低算力跑通高阶智驾,背后技术揭秘

2023年虽说还有5个月,但可以预料到的是“降价”、“洗牌”两个词将贯穿车市全年。今年可谓极为特殊,国内车市“卷声”不断,多位行业高管声称今年是汽车市场最卷的年份,没有之一。余承东更是放话,车市内卷其实刚开始,未来还会更卷。随着第三季度价格战打响,特斯拉再次掀桌子式降价进一步挤压了供应链成本,降本增效将被提升至新高度。

在降本增效的趋势下,智能驾驶解决方案的上车速度和应用水平成为众多车企竞争的关键。目前,量产自动驾驶赛道有多名玩家正在布局,像蔚小理这样的新造车企业和华为这样的Tier1已经凭借落地高速NOA和城市NOA进入了第一梯队。此外一些新进入的智驾“新势力”凭借先前的积累凭借原创算法能力、大模型能力、数据闭环工具链、算力基础设施已经具备了第一梯队的实力。已经深耕人工智能物联网行业十二年的旷视科技就是这批智驾新势力的代表之一。

这位AI视觉领域的超级明星,其实从2021年起就正式布局智驾领域,但基本上没有官宣任何关于智能汽车的讯息。直到今年6月份,旷视科技在全球最前沿智驾挑战赛的感知赛道,展示了冠军的统治力。旷视“神秘”的智能驾驶业务,才真正浮出水面。现阶段智驾方案领域已进入混战,旷视科技憋大招憋了两年之久,终于彰显了智驾业务潜力。那么旷视的竞争优势体现在哪里?车东西通过与旷视科技智驾业务总裁刘伟的交流中捋清了旷视自动驾驶业务的业务策略、关键进展和未来发展方向。


01.性价比难题下
视觉为主智驾方案曙光已现
根据高工智能汽车数据,2023年前五个月标配L2(含L2+)级别ADAS(高级驾驶辅助系统)的乘用车累计渗透率突破50%,量产自动驾驶方案占据市场主流。但目前的行业共识是,阻碍智能驾驶解决方案,特别是以L2、L2+为代表的量产智能驾驶解决方案的落地,关键原因就在于性能和成本难以统一

追求高性能意味着要搭载多个激光雷达、大算力芯片,而这样的方案却只有高端车型才能负担。根据Yole Intelligence发布的《2023年全球车载激光雷达市场与技术报告》,全球乘用车激光雷达市场(包括L2+和L3级别的ADAS应用),正在以285%的增长率快速起量,禾赛凭借23%的市场份额以及31%的前装定点数量强势领先。

而根据禾赛科技一季度财报,禾赛经营收入达到4.3亿元,共交付了3.48万台激光雷达产品,同比增长402.9%。而ADAS激光雷达占全部交付量81%,共交付2.82万台。由此可推算,单颗激光雷达均价在12344元。此外,禾赛科技CFO谢东萤也透露ADAS激光雷达的均价约为500美元(约合人民币3618元)。

禾赛科技售价接近4千元起/颗的激光雷达,目前已被超过11家一线车企采用,包括理想汽车纯电平台、集度新车型、赛力斯新车型等。很明显,搭载激光雷达的车型基本上都是高端定位。但目前国内市场大都是10~30万元车型,在价格战一波未平、一波又起的情况下,千元量产辅助驾驶方案已经成为大部分主机厂的成本红线,供应链方面的成本压力更大。

中国主流市场对以视觉为主的成本低且体验好智驾方案存在庞大需求。而这种视觉为主的辅助驾驶方案通过摄像头来实现,且根据半导体公司安森美的数据,L2级辅助驾驶每辆车摄像头总成本大约才40美元(约合人民币289元),而L3摄像头总成本则为185美元(约合人民币1338元)。相较搭载一颗激光雷达,整套摄像头可以极大拉低成本,至少在成本上削减近4000元/颗,相对低廉的成本适配国内大部分10~30万元车型。国内主流市场对视觉为主的自动驾驶方案存在庞大需求,新契机出现的同时,市场也对此方案的性能也提出了更高的要求。目前特斯拉、大疆车载等企业已经布局,但整个市场还有空白空间,视觉为主的自动驾驶解决方案的产业格局尚未定型,市场对于优秀的技术供应商的需求依然很大。

02.3套智驾方案准量产 成本降低超20%

从技术实现度划分,量产自动驾驶赛道分为三个梯队。

第一梯队指的是以华为、小鹏、理想、蔚来这种高速NOA和城市NOA已经落地的玩家,可以实现城市开放道路下的自动驾驶。

第二梯队指的是高速NOA量产上车,但城区NOA并未落地的玩家。

第三梯队则是只能实现L2,仅支持ACC、LKA等有限辅助驾驶功能,但高速NOA还在研发过程中,完全没有城区NOA的玩家。看起来,智能车行业已经形成了三大梯队的层次格局,但这一格局仍处于动态变化中。

比如第一梯队玩家最大特点就是可以实现端到端、软硬件一体打造,但也有一些新加入的玩家已经通过技术跃迁实现了这些能力,有望跻身第一梯队。例如,由3个清华姚班高材生——印奇、唐文斌、杨沐于2011年创立的旷视科技,深耕AIoT软硬一体化产品体系长达12年,无论是延伸布局二级市场还是研发大模型,旷视科技都不甘落于人后,不过在智能驾驶赛道保持着较为“低调”态度,很少官宣布局信息。

但近日,旷视透露入局自动驾驶已有两年之久,并且一出手就拿下了全球智能驾驶感知赛道的冠军,还亮出了全身的“腱子肉”。在端到端方面,据旷视科技智驾业务总裁刘伟透露,旷视现在已经实现了“感知、建图、跟踪、预测”四合一的模型,为端到端的自动驾驶模型上打下了基础。旷视的独特竞争力还体现在软硬一体能力上,在硬件方面,旷视过去在AI、视觉算法等领域落地了芯片、传感器、摄像头、面板机等多款产品,建立一套比较完整的产品体系。将先前打造硬件的能力迁移至自动驾驶硬件产品中,旷视目前也在加快布局智能驾驶芯片和传感器等硬件。

在算法方面,旷视科技自研了新一代AI生产力平台Brain++以及自研深度学习框架MegEngine(旷视天元),基于Brain++,旷视还打造了AIS算法生产平台。该平台是一站式MLOps算法生产平台,能提供从数据清洗、智能标注、数据管理、数据质检、算法自动生产、模型多维能力评测、pipeline 部署等全流程能力。基于以上能力,旷视为行业内输送了三种L2+解决方案,分别是标准版、专业版和旗舰版。

最基础的标准版就已经带高速NOP功能,可以覆盖高频智驾场景,主打性价比。专业版可进阶实现城市NOP和跨车道安全停车,据悉目前该方案正在量产交付。而最高配置的旗舰版具备增强的城市NOP功能,具备更强的安全冗余。而旷视主要集中于标准版和专业版方案发力,这两套方案都没有使用激光雷达,大大降低了方案成本,可以更好服务于10~30万元的量产市场。

刘伟十分坚定的表示,“我们期望并不是某款旗舰车型一年几千台的销量,而更希望中低价位车型一年几百万的销量,这才是我们的诉求。”旷视将全力助力方案降本,希望将这两套方案的价格大幅降低。

03.那么随着“价格战”竞争越发猛烈,旷视是如何降本增效的?

首先,旷视是一名坚定以视觉为主,“BEV+前融合”的方案的玩家。刘伟介绍了相关技术进展,“在3D实时建图上,我们不依赖于高精地图便可实现高速和城区NOP”,“首创鱼眼BEV模型,使得感知范围扩大了三倍”、“在3D实时建图上,不依赖于高精地图便可实现高速和城区NOP”“我们的去RTK定位算法,定位能力达到了RTK方案的水平”。“去激光雷达”、“去高精地图”、“去RTK”,整套方案的成本就保持在大部分主机厂的可控范围内。不过价格只是一方面,为了让方案有更好的体验,旷视科技通过优化算力,将“BEV+Transformer”成功运行在低算力芯片上,同时让该方案具有良好的性能表现。

举个例子,蔚来ET7、小鹏G9、理想L9、智己LS7等车型都采用英伟达自动驾驶芯片OrinX来跑高阶辅助驾驶,单颗Orin-X的算力可达到254TOPS,而这样一颗芯片价格高达400美金(约2700元),中低端车型难以负担。

而旷视科技看到了这一特点,在Orin芯片算力的1/5左右(大约50TOPS)的芯片上实现同样的高阶智驾功能,随着算力需求的降低,芯片的成本甚至是整套方案的成本就可以大大削减。

为了进一步降本,旷视正在朝着“统一算法框架”持续发力,通过统一的BEV算法框架,实现算法真正平台化,同时采用了配合高中低不同算力的“Pin-to-Pin”系列芯片,实现芯片硬件的平台化,帮助主机厂控制车型量产的质量、成本,加快量产速度。

目前,旷视的统一算法框架已经具备基础的模型能力,原生支持5V或11V等不同的方案。基于以上布局,刘伟表示,旷视科技的智驾方案在行业中至少降本20%

大模型趋势下
智驾新手AI厂商有望抢跑
先前自动驾驶行业卷向瓶颈,大模型出现后的狂飙让整个行业有了新方向。虽然很多自动驾驶企业抢先喊出了自动驾驶大模型的口号,但打造出与Chatgpt同等水平的自动驾驶大模型还有很远的距离,商业化还有很长的路要走。而旷视科技是国内最早一批探索大模型商业化落地的企业之一。

聚焦于通用多模态大模型、AI内容生成大模型、计算摄影大模型和自动驾驶大模型四个方向,旷视科技取得了多项突出的科研成果。今年7月,旷视的大模型实力更是得到了官方“盖章”,以“模型伙伴”身份入选北京市通用人工智能创新伙伴计划,为与Chatgpt同等水平的自动驾驶大模型的打造积蓄了深厚的力量。刘伟表示,大模型未来在车上的落地,座舱有可能成为一个非常大的落地场景

就目前而言,大模型最直接的价值是体现在研发工具上。“我们基于在大模型上的能力积累,做自动化的标注,从而节省大量成本。然后,还可以利用大模型去做场景的挖掘,尤其是一些长尾场景。大模型在提升效率方面的价值,目前看是非常显著的。”在刘伟看来,更重要的是,大模型将有助于提升感知能力的上限。

未来的大模型会是多模态的,能将感知能力提升到更高水平。目前,旷视已经实现了“感知、建图、跟踪、预测”四合一的模型。随着大模型的继续演进,未来有可能将“规控”也加入进来,最终形成一个“大一统”的大模型。这样的话,环环之间信息传递的衰减就会大幅度的减少,从而提升整个感知能力。

此外,大模型还有助于提升决策能力,使车能够真正去作一些决策。未来的智能汽车,会变得超级智能。从底盘、空气悬挂、刹车系统、车窗、灯光氛围,都会被数字化,几乎所有东西都会被控制。未来的智能座舱,会是一个涵盖感知传感器、软件SDK和智能决策引擎的“感-知-决”的产品体系。其中,决策能力会是核心。基于AI生产力平台Brain++的能力,旷视未来也会聚焦在打造智能座舱的决策引擎上。

同时,结合在芯片、软件算法方面的能力,形成覆盖“感-知-决”的智能座舱产品体系。除了大模型外,算法、算力等基础能力也决定了一个智驾团队最终能够走的多远。旷视集结了中国顶尖的AI科研团队,打造了原创算法这一技术底座。据刘伟讲述,旷视是行业内第一个将“BEV+Transformer”运行在一个低算力芯片平台上的厂商

且旷视在低算力的嵌入式芯片上跑通的2个BEV感知算法,帮助旷视在OpenLane拓扑关系赛道,在线高精地图构建赛道获得了冠军。同时,旷视也打造了一万多张卡的算力基础设施,实现算法的快速迭代。一系列布局证明,在“百模大战”的当下,即使是后发入局的智驾“新势力”选手,凭借先前在AI行业12年里积累的经验,抢跑自动驾驶十分有底气。随着技术积累能力和业务增长潜力持续提升,旷视有望在智能车行业抢占先机。


04.结语:AI+自动驾驶前路可期

AI正席卷汽车行业,“智能升级”的大幕徐徐拉开。

如今,全球的智驾解决方案玩家都在奋力狂奔。在这种条件下,谁能够把AI能力更加充分的发挥于降本增效,谁就能抢得智能汽车下半场的发展先机。

这两年以来,新一轮的电动化、智能化浪潮,叠加中国车企的崛起,中国厂商迎来了快速发展的机遇,部分AI企业已崭露头角,有望快速加入全球智驾方案的角逐中。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

Meta的新LLaMa AI模型是给世界的礼物!

近几个月最大的新闻是,Meta推出了其世界著名的LLM的第二个版本LLaMa,并在此过程中发布了其第一个聊天机器人LLaMa-2 – chat,这是Meta对ChatGPT发起的第一个真正的威胁。

但这并不是普通的“看看我们的新LLM有多酷”类型的发布,实际上Meta试图永久改变AI的叙事方式。

事实上,我想说这次发布确实可以永久地改变AI,并开启一个AI访问和知识最终实现民主化的时代。

LLaMa的胜利也是你的胜利,你将会明白为什么。

最新的开源技术

首先,在阅读了70多页的论文后,LLaMa 2的出色之处显而易见。

优化以实现卓越

Meta创建了四个模型,分别是7,13,34和700亿参数模型。

尽管后者相当大,但它们都比GPT-4小了几个数量级(据推测,GPT-4是一组多达82200亿个参数模型,交织在一起,总共约有一万亿参数),比GPT-3小了两倍多。

事实上,这个模型并没有从它的第一个版本发展起来,它已经是一个65B参数模型。

那么为什么它变得更好了呢?

很简单,Meta的方法很明确:因为他们将专注于提供开源模型,所以他们的优化目标不是大小,而是数据。

也就是说,他们用比原来大40%的数据集和更长的时间来训练LLaMa,同时还将其上下文窗口增加了一倍,达到4k个标记(大约3000个单词)

在质量方面,如下图所示,LLaMa 2-Chat 700亿参数模型基本上击败了它的所有竞争对手,尽管体积小得多,但比ChatGPT(3.5版)略好一些。

与其他开源模型相比,它无疑优于所有开源模型。

当然,它仍然不如GPT-4(图中没有显示),但我们谈论的是一个可以轻松放大12-15倍的模型,所以这并不奇怪。

但这项研究的主要亮点不是这个模型有多好,而是他们在解释模型训练过程中投入了多少细节。

而这一点正是LLM发展中的一个重要里程碑。

构建智能

Meta做的第一件“不同”的事情是分别优化了有用性和无害性,创建了目前可能最安全的高性能聊天机器人。

为此,让我们回顾一下Meta自己绘制的构建LLaMa-2-Chat所需的完整过程图。

训练GenAI聊天机器人包括四个步骤:

  1. 首先,我们通过优化基础模型来训练它,以自我监督的方式预测文本序列中的下一个标记。也就是说,你屏蔽序列中的下一个单词,并要求模型对其进行预测。
  2. 这个预训练模型使用一个经过精选的数据集{提示,期望答案}进行微调。该模型被OpenAI称为“行为克隆”,可以学习以期望的方式行为。这是LLaMa-2-Chat的第一个版本。
  3. 接下来,我们希望根据人类偏好优化模型,同时减少有害反应的发生。使用步骤1中模型的副本,我们“切断”它的单词预测头,而不是预测序列中的下一个单词,根据人类的偏好输出一个标量值,表示对特定提示的响应有多好。这被称为奖励模型(RM)。简单地说,这种奖励模型在规模上就像人类一样。这意味着该模型经过训练,可以准确预测受过高等教育的人对给定提示的反应所给出的分数。
  4. 最后,我们针对该奖励模型训练LLaMa-2-Chat,目标是最大化奖励。换句话说,聊天机器人学会了根据提示写出能够产生最高价值的回复。

步骤3和步骤4是我们所说的从人类反馈中强化学习(RLFH),也是最终得到LLaMa-2-Chat模型的过程中的关键步骤。

但如果你熟悉LLM训练流程,你会发现图像中的某些内容看起来非常奇怪。

有用性与安全性的权衡

在标准的训练流程中,比如OpenAI用来构建ChatGPT的流程,他们只使用了一个奖励模型。

但在Meta的案例中,LLaMa-2-Chat是基于两种奖励模型构建的:

  • 一个有用性奖励模式
  • 一个安全性奖励模型

这在AI领域尚属首次,这样做的原因无非是有用与安全的权衡。

根据来自Anthropic的Claude模型背后的首席研究员Yuntao Bai领导的研究,优化一个既有用又安全的模型是很复杂的,因为它们有时会存在权衡。

如果你正在构建世界上最有用的模型,那么这个模型将准备好回答任何问题,无论要求的道德细微差别如何。

想要制造炸弹吗?方法在这。

想知道最简单的杀人方法吗?当然,为什么不呢?

因此,仅仅追求有用性,从字面上看,就是在制造一个定时炸弹。

另一方面,如果你想建立世界上最安全的模型,它要回答太多的问题将会非常复杂,因为当今世界上几乎任何事情都可以用道德正义的眼光来审视。

例如,Pi可能是我尝试过的最无害的聊天机器人,但当你想让它真正帮助你做事时,使用它真的很痛苦。

那么Meta做了什么?

简单地说,他们创建了两种奖励模型,并简单地使用动态成本函数对这两种模型进行优化。

为此,Meta团队注释了数据集中最有害的响应,当模型使用该响应进行训练时,与奖励分数相关的成本函数项从有用项切换到安全项。

通俗地说,如果训练样本非常有害,模型的目标是以“安全”的方式回答,而在其他情况下,它被训练为“以最有用的方式”回答。

技术说明:当我说针对某些事物进行优化时,我指的总是优化成本函数。为了训练一个神经网络,你需要定义一个可微的数学表达式来衡量模型预测的成本或误差,通过计算模型参数的梯度,你可以获得最小化成本的最佳组合,从而最大化预测精度。

通过这样做,该模型获得了如何最好地回答每个提示,同时考虑到不应回答的有害提示。

对于开源社区来说,这是一个明显的双赢,也是一个里程碑式的时刻,该社区可以获得关于如何执行这个被称为RLHF的“受到良好保护”的秘密的极其重要的信息。

但是,如果革命性的安全训练还不够,他们还引入了另一个新概念。

GAtt让你的模型记住一切

注意力是LLM的关键因素。

这是他们理解单词之间关系的方式,这种机制越好,模型就越好。

遗憾的是,文本序列越长,模型就越难记住序列的起始部分。

因此,如果你在第一次提示中要求模型“扮演拿破仑”,到第20次提示时,模型很可能会忘记这一指令。

在Ghost Attention(GAtt)中,他们对模型进行了微调,使其能够特别注意指令,并在整个对话过程中记住它们,这种情况发生了变化:

GAtt模型清楚地记得最初的指令,并在用户不一定要求的情况下继续提供表情符号的答案。

这是非常令人兴奋的,因为遵循指令是一个有用聊天机器人的基石,并且在整个对话中有效执行这些指令是大多数聊天机器人目前无法做到的。

GAtt将会继续存在。

OpenAI最近宣布了ChatGPT的“自定义指令”,这可以被认为是一个类似但更持久的功能。然而,在OpenAI的情况下,这可能只是一个UI/UX技巧,他们只是在每个提示下简单的添加了指令。

然而,其中最重要的公告是在几天后发布的。

跨越未跨越的桥梁

在随后的新闻发布会上,Meta宣布他们正在开发的LLaMa-2-Chat不仅适用于商业用途,而且还可以通过微软的云服务Azure访问。

这是一个巨大的突破,因为企业客户现在不仅可以通过Azure云利用ChatGPT,还可以访问LLaMa。

但这里的关键是LLaMa 2实际上是可下载的,这意味着客户可以将其安装在自己的私人服务器上,从而永远消除将数据发送到OpenAI或Anthropic服务器所需的安全风险。

因此,LLaMa-2-Chat可能成为第一个真正广泛应用于企业用例的聊天机器人,这本质上意味着,也许最终Meta首席科学家Yann LeCun是对的:

“开源最终将赢得人工智能”。

——Yann LeCun

用自己的方式书写历史

Meta大胆地发布了LLaMa 2和LLaMa-2-chat,这标志着大型语言模型开发领域的一个明显转变。

这不仅仅是介绍另一款尖端产品,这是对微软等科技巨头的大胆声明,强调Meta致力于使这些模型训练的知识和工具民主化。

现在,人工智能行业有了第一个高性能聊天机器人,并附有一份长达70页的研究论文,其中提供了解其构建过程所需的所有细节。

因此,Meta不仅仅是平衡竞争环境,还有望重新定义它。

Meta通过使RLHF的复杂过程更容易理解并结合两种奖励模型组合等见解,不仅揭开了LLM训练的帷幕,而且还准备将开源提升到无与伦比的高度。

曾经是少数人的领域现在向全球社区开放,并可能推动开源模型迎头赶上世界上一些最强大的公司保护和保障的专有模型。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

麦肯锡发布:2023年最被关注的15项科技趋势

2023年上半年,生成式AI/ChatGPT的出现点燃了我们对新一代技术的热情。当然,人类在不少科技领域都好消息不断。生成式AI与其他的众多先进技术一起,有望推动可持续、包容性增长,解决全球各种复杂挑战。

7月20日,麦肯锡公司发布了《McKinsey Technology Trends Outlook 2023》2023科技趋势展望报告。

为了评估每个趋势的动力(momentum),报告考察了其关注度(interest)、创新性(innovation)和资本(investment)等定量指标,同时,鉴于这些趋势的长期性和相互依赖性,麦肯锡还深入研究了每个趋势背后的底层技术、不确定性、未来挑战等。

与往年不同的是,麦肯锡增加了一个重要的新分析维度——人才(talent)。

人才的重要性不用赘述——人才短缺是创新与增长的头号敌人。

数据显示,与2021年相比,2022年全球职位发布总体上减少了13%,但与文中提到的15个科技趋势相关的领域的职位发布在2022年增长了15%。麦肯锡对这些技术趋势中的350万个职位发布进行了调查,发现许多最需求的技能,每个职位的合格从业者数量还不到全球平均水平的一半↓

接下来,我们来看这15个趋势。这15个趋势可分成五个更广泛的类别:人工智能革命、构建数字未来、计算和连接的前沿、尖端工程技术和可持续发展。

PART.1
人工智能革命

  • 1、生成式AI(Generative AI)

生成型人工智能标志着人工智能的一个转折点。

OpenAI、谷歌、微软、Facebook、Salesforce、IBM等都在大力投资于大型语言模型技术LLM的研发,推动模型的不断创新和改进。与以往的人工智能不同,生成式AI可以根据从类似非结构化数据格式中学到的信息,生成新的非结构化内容,如文本、音频、视频、图像、代码、模拟甚至蛋白质序列或消费者旅程。而且,其核心技术——基础模型,可以适应各种任务。

在商业环境中,生成型人工智能不仅可以开启新的用例,还可以加快、扩展或改进现有的用例。生成型人工智能有可能通过促进新产品和收入流的开发,提升客户体验,从而重新定义企业和价值链。然而,其影响最有望体现在提高员工生产力和体验方面。

在这个初期阶段,我们看到许多行业的公司主要将生成型人工智能作为一种辅助技术,用于创建初稿、生成假设或协助专家更快、更好地完成任务。

当然也需要专家检查输出,特别是对于产生虚幻内容(应用程序产生的不准确内容)和知识产权(IP)问题。

在高风险的应用中,让生成型人工智能基于应用从辅助逐渐过渡到完全自动化可能还需要一段时间。

  • 2、应用型人工智能(Applied AI)

通过机器学习(ML)、计算机视觉和自然语言处理(NLP)等人工智能技术,各行各业的企业可以利用数据并得出洞见,实现自动化流程、增强能力,并做出更明智的决策。

麦肯锡的研究估计,应用型人工智能所蕴含的潜在经济价值介于17万亿美元至26万亿美元之间,并且追求这一价值的企业比例正在增加。

麦肯锡全球AI状况年度调查显示,组织中采用人工智能的比例从2017年的20%翻倍至2022年的50%。而且,2022年的调查还表明,采用人工智能可能带来显著的财务效益:25%的受访者将其公司5%或更多的净利润归功于人工智能。

然而,在企业实现这一技术的全部潜力之前,还需要解决组织、技术、伦理和监管等问题。

  • 3、工业化机器学习(Industrializing machine learning)

工业化机器学习,通常称为机器学习运营(ML运营),或者简称为MLOps,指的是在企业中扩展和维持机器学习应用所需的工程实践。这些实践得到了快速发展的技术工具生态系统的支持,这些工具在功能和互操作性方面都得到了显著改进。

MLOps工具可以帮助企业从试点项目转向可行的商业产品,加速分析解决方案的扩大,发现和解决生产中的问题,并提高团队的生产力。经验表明,成功实现机器学习的工业化可以将机器学习应用的生产时间框架(从概念验证到产品)缩短约八至十倍,并将开发资源减少高达40%。

工业化的机器学习最初由少数几家领先的公司引领,但随着越来越多的公司将人工智能用于更广泛的应用领域,采用这一方法的范围也在不断扩大。

2021年,对机器学习工业化领域的企业投资在达到47亿美元的高点,并在2022年累计达到34亿美元,持续保持强劲势头。IDC预测,到2024年,60%的企业将实施MLOps。

构建数字未来

  • 4、下一代软件开发(Next-generation software development)

下一代技术正在改变软件开发生命周期(SDLC)的每个阶段工程师的能力,从规划和测试到部署和维护,还能使非技术员工创建应用程序。

这些技术可以帮助简化复杂的任务,并将其他任务简化为单一命令。这些技术包括AI辅助编程工具、低代码和无代码平台、基础设施即代码、自动集成、部署和测试,以及新兴的生成型AI工具。

由于技术挑战、需要对开发人员和测试工程师进行大规模的再培训以及其他组织障碍,应用可能会比较缓慢。

到2026年,Gartner预测80%的低代码和无代码工具用户将来自传统IT组织之外。AI启用的工具还可以通过自动化例行任务和提供问题解决方案来提高传统开发者的生产力。

研究显示,开发者在代码生成方面节省了35%至45%的时间,在代码重构方面节省了20%至30%的时间。他们还报告在使用AI启用的工具时感到更快乐、更投入,并获得更多满足感,这表明采用这些工具有助于公司在竞争激烈的人才市场中留住人才。

  • 5、信任架构和数字身份(Trust architectures and digital identity)

数字信任技术使组织能够管理技术和数据风险,加速创新并保护资产。而在数据和技术治理中建立信任可以提高组织绩效并改善客户关系。

底层技术包括零信任架构(ZTA)、数字身份系统和隐私工程。其他技术通过将解释性、透明性、安全性和偏见最小化原则融入AI设计中来建立信任。

然而,数字信任技术的采用受到一系列因素的阻碍,包括整合挑战、组织壁垒、人才短缺,以及将其作为价值主张的重要组成部分的有限考虑。建立全面信任为先的风险思维和能力需要自上而下的领导和对多个领域的有意识的变革,从战略和技术到用户使用场景等。

例如法规正在推动产业朝隐私工程方向发展:有关数据本地化和共享的新法规,以及人工智能和云计算的增加使用,推动隐私工程变得更加重要。在欧洲,像2022年的NIS2指令,强制进行增加网络安全风险评估的法规,以及2023年的数据治理法案,旨在促进数据共享,使隐私工程变得至关重要。美国的州级数据隐私法以及联邦特定领域的数据法规要求采取一系列隐私合规措施,需要自动化控制。

  • 6、Web 3.0

Web 3.0 超越了对加密货币投资的典型理解,更重要的是它指的是未来互联网的一种模式,它将权力分散化并重新分配给用户,潜在地赋予他们更多对个人数据如何获得经济价值以及数字资产的更强所有权。

此外,它提供了一系列商业机会:由去中心化自治组织(DAOs)治理的新商业模式,并通过安全(智能合约)自动化消除中间人,涉及数字可编程资产的新服务,以及使用区块链技术进行新数据存储和治理。

Web 3.0 吸引了大量资本和人才,底层技术不断改进,并且应用不断增多;截至2023年,目前运行的去中心化应用程序有数千个,而2018年仅约有一千个。

但新的企业仍在测试和扩展可行的商业模式,同时不断发展的监管规定以及尚不成熟的新技术平台,使得其用户体验通常不如现有的Web 2.0实用工具。

计算和连接的前沿

  • 7、先进连接技术(Advanced connectivity)

先进的连接性改进将提高全球消费者的用户体验,并增加移动性、医疗保健和制造业等行业的生产力。

公司们正在迅速采用建立在现有部署和连接标准之上的先进连接性技术,但一些新技术,如低地球轨道(LEO)连接和5G网络,在推广过程中面临着些许障碍。

比如,电信公司在消费领域难以实现5G的盈利,工业应用增长远低于预期。虽然5G的API为电信公司提供了向消费者提供5G服务的盈利能力,但由于依赖先进连接性的消费者用例尚未实现规模化,其采用速度较慢。许多工业公司选择等待采用5G私有网络,原因包括复杂性、对蜂窝技术优势和管理的理解不足、部署成本和端到端用例的早期阶段。但是5G网络市场正在增长,各个行业,如制造业、物流、公用事业等,都在进行标杆部署。

  • 8、全息现实技术(Immersive-reality technologies)

全息现实技术利用空间计算来解释物理空间,模拟将数据、物体和人物添加到真实世界环境中,并通过增强现实(AR)、虚拟现实(VR)和混合现实(MR)实现在虚拟世界中的交互。

2021年,风险投资者为AR和VR初创企业提供了约40亿美元的资金,成为仅次于2018年的第二成功融资年。尽管在2022年,AR和VR的总体投资有所下降,但投资者对这一趋势的兴趣依然持续:去年至少有七轮投资额达1亿美元或更多的交易达成。

研究显示,未来的元宇宙到2030年在消费者和企业应用上有望创造4万亿至5万亿美元的价值。

前不久,苹果宣布将于2024年发布Vision Pro AR/VR头显,该头显将配备眼动跟踪、手势识别和无缝滚动等技术。苹果凭借庞大的人才和资本支持了Vision Pro,并拥有5000多项专利。该公司认为这款头显可能会带来显著优势,并希望在混合现实领域树立新标准。

  • 9、云以及边缘计算(Cloud and edge computing)

在未来,企业将利用多个位置点的计算和存储基础设施,从本地到更靠近本地(边缘),从小型区域数据中心到远程超大规模数据中心。边缘计算为组织提供了处理数据更接近其源头的灵活性,实现更快的数据处理速度(超低延迟)并与云相比实现数据主权和增强数据隐私,从而解锁各种新的用例。

减少到终端用户的距离将缩短数据传输延迟和成本,并提供更快速访问更相关的数据集,有助于企业遵守数据居住法规。公有云将继续在未来企业中扮演至关重要的角色,通过更好的规模经济来执行非实时计算用例。

云和边缘资源的持续集成将使用户将云的创新、速度和灵活性延伸到边缘和实时系统,从而加速创新,提高生产力,并创造商业价值。

不过,不断膨胀的成本以及与数据隐私和延迟有关的问题导致企业向公有云的迁移速度放缓。然而Uptime Institute Global Data Center最近的一项研究发现,约33%的受访者已经从公有云回迁到数据中心或合作设施。然而,在那些回迁的企业中,只有6%完全放弃了公有云。大多数采用混合方法,同时使用本地和公有云。

  • 10、量子技术(Quantum technologies)

量子技术利用量子力学的独特性质,比经典计算机更高效地执行特定类型的复杂计算,提供安全通信网络,并提供新一代传感器,其灵敏度比传统传感器有了显著的提升。

原则上,量子技术可以进行模拟和解决更复杂的问题,这将在航空航天、国防、汽车、化工、金融和制药等各个行业带来重大突破。

然而,技术挑战仍然存在,如实现完全纠错的量子计算机和可扩展的量子通信网络。

这个领域的人才缺口仍然显著,但可能在缩小。麦肯锡的研究显示,行业中近三分之二的空缺职位可以通过新的量子技术硕士学位来填补,而在2021年,只有约三分之一的职位可以填补。未来,这一差距可能会进一步缩小:提供量子技术硕士课程的大学数量在2022年几乎翻了一番。

PART.4
尖端工程技术

  • 11、未来出行(Future of mobility)

在汽车大规模生产开始一个多世纪后,出行正在经历第二个重要的转折点:向自动驾驶、连接性、车辆电气化和共享出行(ACES,Autonomous, Connected, Electric and Shared vehicles)技术的转变,甚至先进空中移动技术,如垂直起降电动飞行器(eVTOL)也在快速推进。

这一转变有望在改善人员和货物陆空运输的效率和可持续性的同时,颠覆市场。过去十年,ACES技术的采用不断增加,并且随着可持续性措施加强、消费者偏好演变和创新进步,这一步伐正在加快。例如,预计到2035年,自动驾驶技术将创造高达4000亿美元的收入。

然而,在近期仍然存在挑战,创新者必须应对技术、监管和供应链问题。

  • 12、未来生物工程(Future of bioengineering)

生物学的突破性发展,结合数字技术的创新,有望帮助组织应对医疗保健、食品农业、消费品、可持续发展以及能源和材料生产等领域的需求,创造新的产品和服务。

麦肯锡的研究表明,目前400种生物工程的应用案例在科学上都是可行的,预计从2030年到2040年,这些用例将产生2万亿到4万亿美元的经济影响。

例如,近期mRNA疫苗在COVID-19上的成功引发了RNA疗法研究活动的爆发,全球临床流水线上有50多种RNA疗法。

此外,FDA于2022年批准了五种新的病毒载体基因和相关疗法。随着病毒载体疗法逐渐向超稀有指标转变,mRNA技术成为常见技术,更多关注将集中于调控mRNA和基因疗法,开发个性化的“n = 1”药物,同时更高产量叠加销售成本降低,这些个性化药物将更好地个性化医疗的需求。

当然,尽管某些基因疗法和生物产品已经得到认可,但生物工程学要实现其完整的经济潜力,还需要解决伦理、监管和公众认知等问题。

  • 13、太空技术(Future of space technologies)

过去五到十年,太空产业最重要的发展是技术成本的降低,这使得新的能力和应用更加易于获取。组件成本的降低主要得益于卫星和运载火箭的体积、重量、功率和成本的减少。这些降低导致了系统架构的变化,例如从单个大型地球同步轨道(GEO)卫星转向较小的分布式低地球轨道(LEO)卫星,以及传统非太空企业对太空技术越来越感兴趣。

太空技术和遥感分析的使用现在已经非常广泛,分析显示,到2030年太空市场可能超过1万亿美元。未来太空经济可能涵盖目前规模尚不大的活动,例如轨道内制造、发电和太空采矿,以及可扩展的载人航天飞行。

预计2023年和2024年将有几个备受期待的新发射载具亮相,包括SpaceX的超重型Starship,设计用于携带更大的负载;United Launch Alliance的Vulcan Centaur,设计用于将卫星送入轨道;以及Blue Origin的New Glenn,将携带部分Amazon的Project Kuiper卫星。PART.5
可持续发展

  • 14、电气化和可再生能源(Electrification and renewables)

未来,能源结构将迅速向电力、合成燃料和氢转变,到2035年将占全球能源结构的32%,到2050年将占50%。

在COP26之前,共有64个国家承诺或立法在未来几十年内实现净零排放。电气化和可再生能源有助于实现净零承诺,包括太阳能、风能、水力能源和其他可再生能源;核能;氢能;可持续燃料以及电动汽车充电等。

受影响的行业有:农业;汽车和装配;航空、旅游和物流;化工;建筑和建筑材料;电力、天然气和公共事业;金属和采矿;石油和天然气;房地产。

  • 15、其他气候相关的技术(Climate technologies beyond)

其他气候技术包括碳捕获利用与封存(CCUS),碳减排,自然气候解决方案,循环技术,替代蛋白和农业,水资源和生物多样性解决方案与适应措施,以及追踪净零排放进展的技术。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

阿里达摩院发布癌症通用模型,可辅助诊断八种主流癌症

DoNews8月16日消息,8月16日,阿里达摩院发布多癌影像分析通用模型,可检测、分割和诊断八种主要的高发致死癌症,有助于实现多癌统一诊断,降低漏诊概率。

当前,医疗AI模型已经足够强大,可完成单个器官疾病识别,辅助医生进行诊断,但在实现多个器官的精准识别时遇到较大挑战,一是过高的假阳性问题,二是存在一定概率的漏诊,这对于癌症多发病人的诊疗尤为重要。

为避免错诊与漏诊,放射科医生通常对全身的多器官进行多疾病的检测和诊断。因此,医生在临床治疗上迫切需要一个更高效的多癌统一诊断模型。

针对上述痛点,达摩院医疗AI团队联合中山大学肿瘤防治中心、四川省肿瘤医院、浙大附属第一医院、盛京医院、广东省人民医院等单位,提出了一个统一的多癌影像分析通用模型(cancerUniT),以Mask Transformer语义分割为基础,解决多种肿瘤图像此前难以统一检测、分割和诊断的问题,适用于八种主流的高发高致死癌症(肺、结直肠、肝、胃、乳腺、食管、胰腺、肾)以及相关器官中的肿瘤子类型。

多癌问题的复杂性主要体现在器官、恶性肿瘤和其他肿瘤类型之间存在许多关联性。例如,肝癌和肝囊肿虽都位于肝脏内,但在纹理和良恶性方面存在差异;而肝癌和胰腺癌虽形态相似,但却是分属不同器官的恶性癌症。

为了有效建模多癌之间的差异和相似性,达摩院医疗AI团队借助Transformer提出了一种新颖的肿瘤表示学习方法,将肿瘤表示为Transformer中的语义Query,并为不同器官中肿瘤及其子类型建立语义层次结构,让模型学习过程更加有效,并提高肿瘤及其子类型预测的一致性,实现同时输出分割、检测和诊断的预测,从而解决临床上复杂的多癌多肿瘤的识别任务。

在一组631名患者的对比测试中,其肿瘤检测、分割和诊断任务的性能均优于8个特定器官的单模型组合,检测任务的平均敏感性达到93%,平均特异性达到82%。

阿里达摩院医疗AI团队负责人、IEEE Fellow吕乐认为,该工作以统一模型首次实现“一次调用即诊断八种最致命的癌症”,在简化AI模型复杂度的同时,保持较高的敏感度。这将为放射科医生提供全面的AI辅助诊断支持,尤其在癌症复发、远端转移等临床场景发挥重要效用。

据了解,该模型的论文成果已被计算机视觉顶会ICCV 2023收录,目前已在上海市第一人民医院等多家合作医院进行应用测试。

达摩院医疗AI团队长期致力于医学影像等方向研究,正在研发包括规模筛查、精准诊断、预后治疗、响应评估在内的全流程的癌症诊疗技术,覆盖多个重要病种。该团队曾在新冠疫情初期研发出CT影像新冠肺炎AI辅助诊断系统,被科技部评为全国科技抗疫先进集体。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

插件来了!文心一言现已上线百度搜索、文档摘要、文本转视频等原生插件

随着ChatGPT的快速进化吸引了全球网友的眼球,国内厂商也纷纷推出了相似的产品,其中百度推出的“文心一言”已经正式开始的相关的测试。

随后,百度聊天机器人“文心一言”正式推出了内测专用独立App。小编也是在第一时间进行了下载体验,可以看到文心一言App内测版界面非常简洁,用户可以通过键盘打字输入问题,也可以通过语音方式输入问题,并且文心一言也可以通过语音进行回答。

此外,点击左下角“有趣的咒语都在这里”按键,就会给出一些提问建议。点击左上角的按键,可以选择不同的智能助理,目前提供“老万”和“小话”两个助理。会提供历史对话,也可以开启新对话,不过小编需要提醒各位体验的小伙伴的是App端的历史对话记录跟网页端的不同步。

据介绍,文心一言”作为百度全新一代知识增强大语言模型,采用一对一的对话式聊天场景,能够与人对话互动,回答问题,协助创作,同时在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等多个应用场景中“高效便捷地帮助人们获取信息、知识和灵感”。

就在昨日举行的 WAVE SUMMIT 深度学习开发者大会,百度首席技术官王海峰在大会上表示,文心一言大模型现已上线 5 个原生插件:百度搜索、览卷文档、E 言易图、说图解画、一镜流影。同时,文心一言现已支持一次同时使用 3 个插件,官方称在扩展大模型能力边界的同时,更能适应场景需要。

具体能力如下,览卷文档:原 ChatFile,可基于文档完成摘要、问答、创作等任务。一镜流影:AI 文字转视频,从主题词、语句、段落篇章等文字描述内容,一键创作生成视频。E 言易图:基于 Apache Echarts 为您提供数据洞察和图表制作,目前支持柱状图、折线图、饼图、雷达图、散点图、漏斗图、思维导图(树图)。说图解画:基于图片进行文字创作、回答问题,可帮助用户写文案、想故事。可以看到,与ChatGPT的发展路线类似,纯大语言模型的应用场景稍少一点,结合插件可以有更多应用场景。

给不太了解的小伙伴介绍一下“文心一言”,文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术推出的生成式对话产品。百度在人工智能领域拥有产业级知识增强文心大模型ERNIE,具备跨模态、跨语言的深度语义理解与生成能力,目前文心一言在做上线前的冲刺准备工作。据百度介绍,文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。

百度方面表示,ChatGPT相关技术,百度都有。百度在人工智能四层架构中,有全栈布局。包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。文心一言,位于模型层。由于“文心一言”是国内第一个发布的类ChatGPT产品,自然引起了不少网友的关注,而插件的推出也会使得其训练量有不小的提升,感兴趣的小伙伴可以保持关注。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

OpenAI的第一笔收购,是一家游戏公司?丨游戏干线

近日,OpenAI在官网悄悄发了一个公告,宣布收购初创企业Global Illumination并将整个团队纳入麾下,新成员们已经开始参与包括ChatGPT在内的核心产品开发。

这笔交易也是OpenAI自2015年创立以来,第一次搞公开收购,具体的交易条款并没有公开。

实际上过去几年OpenAI也的确拿不出什么钱来搞收购,这家公司最有名的标签除了人工智能外,就是巨额亏损。据媒体报道,OpenAI在2022年的整体亏损翻倍至5.4亿美元。不过考虑到微软今年初又给OpenAI投了100亿美元,OpenAI的财务状况应当有了搞一点收购的余裕。

他是谁?

Global Illumination是一家成立于2021年的初创企业,由Thomas Dimson、Taylor Gordon 和Joey Flynn在纽约创办,这三个人都曾在扎克伯格麾下的Instagram效力过。该公司的主营业务是利用人工智能创建巧妙工具、数字基建和数字体验。

在这个创业团队中,名气最大的是首席执行官Thomas Dimson,辞职创业前是Instagram的开发主管,在他手上诞生的功能包括Instagram的信息流排名算法、“探索”标签页的体验、故事投票贴纸、Hyperlapse延时摄影软件等。

除了Dimson外,官网上也列出了多名工作人员的信息,可见这个团队的规模并不大。

来源:Global Illumination

对于Global Illumination而言,这家公司最近的项目,是一个叫Biomes的开源大型多人在线沙盒游戏,依托于网页浏览器运行。从网站上放出的先导片预告来看,风格类似于全球历史销量排名第一的游戏《我的世界》。目前并不清楚收购完成后,这个游戏到底还会不会继续做下去。

来源:Biomes

从Global Illumination产品的过往经历来看,这家公司似乎高度专注于视觉产品和服务。这也暗示着OpenAI可能会给ChatGPT开发额外的多媒体功能,或者推出一款与Runway竞争的视频生成服务。这支团队的成员也有效力Instagram、YouTube、Google、皮克斯动画、Riot Games的开发经验,对缺乏C端产品经验的OpenAI来说也是重要的补充。

为什么是他?

可以说,自OpenAI成立以来,就似乎一直在“避免”任何收购行为。

最近一两年,他们主要是设立创投基金,投资AI初创公司和组织。据The Information截至今年1月份的统计,已经投了至少16家。这次公开收购一家游戏公司,属实是历史首次。

外媒The Techcrunch分析,可能是OpenAI开始“寻求商业胜利”,毕竟他们造ChatGPT花了5.4亿美元(包括从谷歌挖人),去年收入却仅3000万美元。

而山姆·奥特曼又给今年定下了盈利2亿美元、明年10亿的“小目标”。

另一边,关注者们对这一新奇组合也是猜测诸多。

如Jim Fan和一些人认为这可能是为AGI做准备,因为可以通过这个游戏收集非常多的人机交互数据。

还有目光更近一点的表示,OpenAI可能就是想给ChatGPT增加“多媒体功能”。

另外,鉴于游戏是开源的,有人表示OpenAI或许看中的并非游戏本身,而是整个团队。

这是一个高水平的工程师设计团队,没准ChaGPT很快就会迎来大规模的升级。

还有人发现了“华点”:

OpenAI拥有“克隆版”我的世界,而微软拥有真·我的世界(旗下Mojang Studios开发的)+OpenAI一大部分股权。可恶,这把垄断又让微软搞上了。(手动狗头)

结语

有分析认为,Biomes这种高自由度、低运行成本的沙盒游戏,结合生成 AI 会有无限可能。所以,OpenAI 可能是看重团队的产品能力,也可能纯粹看上了这个高自由度的游戏。

尽管就本次收购众说纷纭,但可以肯定的是,随着 Global Illumination 的加入,OpenAI 商业化前途会更加光明。团队丰富的经验和创新方法有望加速 OpenAI 在人工智能领域开创一个全新产品和可能性的步伐。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

首个交付级专业AI漫画工具上线,漫画生产进入AIGC时代

近日,国内领先智能设计公司水母智能发布了旗下触手AI创作平台全新上线的交付级专业AI漫画工具。同时,触手AI与中文在线联合生产的第一批AI漫画作品已于上月开始在海外发行,年内将有多部由中文在线旗下IP、经触手AI改编绘画的AI漫画作品陆续面世。
在过去一年中,AIGC技术取得了令人瞩目的发展,新技术、新应用不断冲刷着我们的认知,并开始逐渐渗透各行各业。作为国内AI绘画平台第一梯队产品,触手AI在持续扩大丰富C端创作平台和社区业务的同时,深度扎根到B端漫画产业链中,探索出一条AIGC技术与产业共创的新路径,率先实现了AIGC产品在商业领域的变现。交付级的AI漫画工具、百万级的AIGC创作者社区和高效的AIGC创作工作流,构成了触手AI实现赋能漫画产业的三个关键要素。

首个交付级专业AI漫画工具,漫画生产进入AIGC时代
触手AI平台此次上线的漫画工具是AIGC行业首个交付级专业AI漫画工具,为B端企业及漫画师、AIGC发烧友、漫画发烧友创作漫画提供可控的AI工具支持,开启全新的漫画创作体验时代。
平台目前已有上万个官方及平台用户自训练的风格 LoRA模型,以及数百个亿级参数的基础AI模型。通过自研 LoRA风格模型训练技术,用户最快只需5分钟即可完成自定义角色训练,保证角色稳定性。
同时还支持调用多个controlnet(参考生成)、adetailer(局部修复)、inpainting(涂抹修图)等插件精细调整画面,从而让画面更贴近自己的构想。无论是创作属于自己的原创漫画,还是对经典故事进行全新诠释,都能在这个创作平台上得以实现。

从文本改写、分镜描述、描述词优化、批量分镜绘制到角色定制,用户在这款AI漫画工具内可以尽情发挥创意,将文字内容转化为精彩纷呈的漫画作品。首先,用户可以将小说内容自动拆分成分镜描述,并通过AI智能分析批量优化描述词,轻松提升漫画场景的描写质量,规划每一帧的细节;其次,可以实现快速“批量分镜绘制”20张图,用户可以选择适合情节的角色形象和场景,从而快速构建整个漫画世界。

“IP+AIGC”发力漫画市场,走出商业化落地新路径
今年以来,中文在线加速动漫产品化落地,大量优质小说IP改编为漫画并同步海外发行,“IP+AIGC”的新一代的内容生产方式成为了提升漫画生产效率,加速市场拓展的重要举措。
在水母智能投入AIGC技术研发应用新浪潮后,从触手AI绘画平台的上线到研发漫画批量生产交付能力,中文在线一直持续关注,并凭借在漫画制作领域积累的大量经验,对AI智能分析剧情、人设绘制及成稿质量等关键环节进行整体把控。
双方共同组建了由创作人员和发行人员构成的AI漫画共创小组,期间不断迭代创作方法和流程,探索如何通过AI精准控制人物稳定性,人物细节表现,漫画风格和手法,故事画面阅读的顺畅体验等。
经过3个多月研发,双方成功完成了第一部中文在线旗下热门IP小说改编的漫画交付。今年7月,双方联合生产的第一批AIGC漫画作品已经被翻译为英语、印尼语、泰语、西班牙语、法语等7种语言,通过以MangaToon为代表的海外漫画平台发行到北美、欧洲、东南亚等全球数十个国家和地区。
双方对“IP+AIGC”的内容生产方式充满信心,并已达成深度合作,签订了将100部小说改编制作成为商业漫画的协议。年内将陆续有大量漫画作品发行面世。

同时,触手AI也已为众多内容IP平台进行服务,目前进行中的项目还包括45万张IP原画项目、10部动态漫项目、热剧同播漫画等。

AIGC时代定义新的创作者,重构漫画创作工作流
早在去年8月,触手AI绘画的机器人就已经是QQ频道最早期最活跃的AI机器人,接入7万+个QQ社区频道,平台也因此积累了海量由用户贡献的二次元漫画垂类数据,开始着手自训练独特的二次元漫画风格模型。
同时,这个新一代的创作者平台迅速聚集了一批优秀的漫画垂类模型训练师和AI漫画创作者,并通过和国内外优秀模型社区深入合作,上线了大量AI漫画类优质模型,其中单个头部模型绘画创作调用量达百万次以上。

目前触手AI平台拥有数百万活跃的高质量创作者,累计2亿+的AIGC作品,用户单日发布AI作品超万张,单日做图数高峰期达单日700万次。热门主题活动玩法丰富、产品体验日迭代更新。
在和中文在线共同进行AI漫画生产的过程中,双方团队不断迭代方式方法和工作流程。以漫画中最重要的风格设定为例,在漫画主笔出主要人设图后,传统漫画工作流下,需要多个漫画助手分别完成分镜画面,包括勾线上色特效等环节。而触手AI漫画小组则从社区招募了优质创作者,搭建线上共创小组,开启新一代的AI创作模式。
初期成员们在本地AI软件上跑图,虽然提高了出图效率,但无法控制统一的模型风格,影响了出图质量,并且模型、图片的反复分享、修改、传输也降低了工作效率。经过和开发人员共同打磨,团队上线了触手AI专业模式功能,可以实现Lora模型在线训练、分享和实时协作,并且创作全程一个区域搞定,不用再割裂地横跳于文生图、图生图、参考生图,提高了出图可控性和整体工作效率,同时,社区共创模式也让创作成本大大降低。
通过发动创作者社群,自研AI绘画工具及反复打磨适用于漫画行业的创作SOP,触手AI仅用传统漫画1/3的成本,将漫画创作效率提升5倍,为漫画产业提供了全新内容生产力。

基于丰富的AI漫画交付经验,触手AI也即将发布专业的AI漫画课程,优秀学员可以进入触手的签约创作者生态,通过参与AI漫画创作获得稳定的收入变现。
触手AI平台活跃的创作者生态及优秀的模型训练能力也吸引了头部IP官方的瞩目,站内举办多次人气超高IP二创AI绘画活动、主题绘画大赛,包括敦煌、奇迹少女、《修罗武神》等头部IP官方创作大赛。平台与文化传信、凯叔讲故事、洛可可、HHO等企业也在持续探索AIGC在漫画、设计等产业的落地,共同发掘新的商业价值。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

亚马逊推出新的生成式AI功能 可为用户总结产品评论

根据财联社8月15日报道,美国电商巨头亚马逊公司推出了一项新的生成式AI功能,可以为用户生成评论摘要。

亚马逊目前已在其移动应用程序上向美国的“子集”用户广泛提供评论摘要功能。亚马逊社区购物主管Vaughn Schermerhorn表示,根据顾客的反馈,未来几个月可能将该功能扩大到更多的购物者和其他产品类别。

这项功能已经测试了至少几个月,亚马逊于6月首次证实正在测试一款AI摘要工具,但现在才开始正式推出。

亚马逊推出AI摘要工具的目的在于,让购物者能快速了解其他买家对一款产品的评价,无需耗时浏览一大堆评论。

具体而言,亚马逊的AI摘要工具将从众多用户评论中挑选出共同的主题,并在产品详细信息页面上用简短的一段话进行总结。

亚马逊官方提供的示例显示:“客户喜欢该数字设备的稳定性、易用性和性能。他们提到它的速度更快,图片/流媒体速度非常好,而且它是一个简单的链接设备。性能达到了预期水平,与LG 3D智能电视配合非常好。”

摘要后面则是可点击的标签,显示用户评论中的相关主题和常用词,点击其中一个,就会跳转到所选主题的完整评论。

长期以来,虚假评论是亚马逊上持续存在的问题。在周一的声明中,亚马逊强调将继续投入大量资源,主动阻止虚假评论。亚马逊的策略包括只在经过验证的购买行为上使用摘要工具,同时利用AI模型来检测评论,并在需要时让人工介入。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

中国首次应用AI识别输电线路缺陷,提升电网安全

据科技日报报道,最近,国网电力空间技术有限公司联合华北电力大学等单位研发出了输电线路红外缺陷智能识别系统,并成功将其应用于我国主要的超特高压线路运维领域,实现了产业化应用。这是我国首次将人工智能(AI)技术规模化应用于输电线路发热检测。

传统的输电线路发热检测方式通常依赖于人工判别画面中的发热故障点(检修人员的经验和注意力等因素容易干扰他们对设备检修工作的进行,导致可能会出现遗漏的情况。此外,由于红外视频数据庞大,进行复检工作的难度极大,效率也很低下,这可能会引发绝缘子掉串等危险事件),效率较低且存在一定的安全风险。而这款红外缺陷智能识别系统利用了人工智能技术,在保证安全的前提下,实现了对输电线路发热情况的精准监测和识别,该系统只需要上传巡检红外视频,便可快速抽帧并智能识别发热缺陷,从而帮助线路运维单位及时消除线路跳闸停电的隐患。

为了实现红外缺陷隐患的智能识别,技术攻关团队采用了”最小化标注 + 阶梯式学习 + 干扰点屏蔽”的技术路线。经过精心设计,模型的识别准确率已经达到了90%以上。

以240基杆塔的红外视频为例,以前需要人工复核5个小时的工作现在只需要2个小时的时间就可以完成分析,而且整个过程中无需人工干预。目前,该系统已经在国网电力空间技术有限公司得到了成功部署应用。

该系统的成功应用,为电力系统的运维工作带来了重要的突破和创新,为防止线路事故的发生提供了强力的支持。它不仅能够大幅提升线路巡检的效率和准确性,还能够有效预防线路发热缺陷引发的安全事故,保障电网的稳定运行。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

抢购数千块高性能英伟达芯片,沙特和阿联酋跻身“全球AI竞赛玩家”

抢购对构建人工智能(AI)系统至关重要的高性能英伟达芯片,两个海湾国家——沙特阿拉伯和阿联酋近日正式加入全球AI竞赛。

砸重金购芯片

为了跻身“AI玩家”,“财大气粗”的沙特和阿联酋,可是砸下了重金。英国《金融时报》报道称,沙特最近已通过阿卜杜拉国王科技大学购买了至少3000块英伟达H100芯片,每块价格约4万美元。据知情人士透露,阿卜杜拉国王科技大学将用这些芯片自主开发类似于OpenAI的GPT-4大语言模型。

沙特阿拉伯王储穆罕默德·本·萨勒曼(左)和英伟达首席执行官黄仁勋。图源:ft

眼下,阿卜杜拉国王科技大学还在开发一台名为“Shaheen III”的超级计算机,将配备700块英伟达超级芯片Grace hopper,这款芯片专为AI应用而设计。

沙特的邻国阿联酋也不甘示弱、紧追直上。据报道,阿联酋目前已经获得大量英伟达芯片,并已在首都阿布扎比的马斯达尔城国有技术创新研究所开发了名为“Falcon”的大数据模型。

其实,阿联酋早在几年前就有“入局”AI的计划。2017年,阿联酋成为全球首个设立人工智能部的国家。该国目前还推出了“生成人工智能指南”,这份文件是阿联酋“致力于加强AI领域的全球领先地位”以及“限制技术负面使用监管框架”的一部分。

除了“砸钱”买芯片,沙特和阿联酋还在全球多地吸纳AI领域的人才和技术。据报道,沙特的大语言模型由阿卜杜拉国王科技大学内部的可信智能与数据分析实验室负责开发。另有两家欧洲AI公司高管透露,海湾国家主权基金的代表曾与他们接触,希望用巨额投资换取人才和数据访问权限。

有称赞有担忧

在此之前,沙特和阿联酋曾公开表达过希望成为全球AI领域领导者、推动经济转型的目标。有分析认为,都拥有全球规模最大、最活跃的主权投资基金的沙特和阿联酋不仅有着雄厚的经济实力,且对新技术格外关注。

高性能的英伟达芯片对构建AI系统至关重要。图源:seekingalpha

对于这两个海湾国家加入全球AI竞赛,外界有着不同的看法。

今年6月, OpenAI联合创始人兼CEO山姆·奥特曼在访问阿布扎比时就曾称赞能认识到AI重要性的阿联酋拥有远见卓识。“在AI还没有这么引人关注的时候,阿布扎比就开始讨论这项技术了。”他说,“现在,大家都身处AI浪潮,我们对此深感兴奋。”

另有媒体认为沙特和阿联酋加入全球AI竞赛,令这种硅谷最热门商品的供应愈发紧张。也有人对这两国会否滥用AI技术提出质疑。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

点赞!中国人工智能专利大规模免费开放

AI正在掀起新一轮技术浪潮,但也有可能拉大技术鸿沟。由于AI研发门槛较高,技术和专利大多掌握在少数企业和高校手里,对于中小微企业而言,如何利用AI技术进行业务创新始终是一个难题。因此,开源开放非常关键,备受各界关注。

此次达摩院带头开放AI专利,有望缩小技术鸿沟,加速AI时代的到来。

这100件AI专利已在浙江知识产权交易中心上架,覆盖了图像技术、视频技术、3D视觉等诸多AI技术领域,不乏“交通信号灯感知”“疑似侵权图片检测”、“时序数据预测”、“点云数据处理”“智能字幕生成”等富有广阔应用场景的专利。

达摩院免费开放的100件AI专利(部分)

发明专利《交通信号灯感知方法、装置、设备及存储介质》,基于交叉注意力机制,对各种目标特征向量进行融合处理,从而得到目标所在的交通信号灯感知结果,可用于智能交通场景;发明专利《一种疑似侵权产品图片的检测方法及装置》,基于阿里电商平台的治理经验,采用了局部特征匹配算法,可有效识别疑似侵权图片。

值得一提,达摩院这次还专门开放了3件医疗AI的核心专利,用于癌症的精准治疗,解决其中关键性的医疗图像配准问题。这3项专利来源于达摩院在国际著名学术期刊和会议上发表的研究成果,应用于“图像引导的放射治疗”、“纵向病灶量化”、“基于图谱的分割以及多模态融合的计算机辅助诊断”, 已在浙大一院、吉林大学第一医院、上海胸科医院等落地,其开放将帮助更多医院打造癌症治疗的全流程智能解决方案。“我们将以最开放的态度和医生、医院合作,帮助患者取得抗击癌症的最大胜利。”达摩院医疗AI团队负责人、IEEE Fellow吕乐表示。

达摩院免费开放的医疗AI专利

当天,达摩院和与复旦大学附属华山医院还获颁了全国首批共有专利权权益分割证书,该专利是关于利用医疗AI诊断帕金森病的发明成果。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

纽约时报禁止其内容用于训练人工智能模型

人工智能是当今最热门的技术领域之一,但它也面临着很多争议和挑战。比如,如何保护数据的版权和隐私?纽约时报就是其中一个担忧者,它近日修改了服务条款,禁止任何人使用其内容来开发或训练人工智能系统。

纽约时报近日修改了其服务条款,禁止任何人使用其内容来开发或训练人工智能系统。这包括文本、照片、图像、音频/视频剪辑、外观、元数据或汇编等内容。此外,未经纽约时报书面许可,不得使用自动化工具(如网站爬虫)来使用、访问或收集这些内容。纽约时报表示,拒绝遵守这些新规定可能会导致未指定的罚款或处罚。

这一举措可能是对谷歌最近更新隐私政策的回应。谷歌在其政策中披露,它可能从网络上收集公共数据来训练其各种人工智能服务,如Bard或Cloud AI。许多大型语言模型(如OpenAI的ChatGPT)都是基于庞大的数据集训练的,其中可能包含未经原创者许可就从网络上抓取的受版权或其他保护的材料。

然而,纽约时报也在今年2月与谷歌签署了一项价值1亿美元的协议,允许谷歌在未来三年内在其部分平台上展示时报内容。纽约时报表示,两家公司将在内容分发、订阅、营销、广告和“实验”等方面合作。因此,纽约时报对服务条款的修改可能针对的是其他公司,如OpenAI或微软。据Semafor周日报道,纽约时报已退出了一个试图与科技公司就人工智能培训数据进行联合谈判的媒体联盟——这意味着如果它与公司达成协议,更可能是基于个案。

OpenAI最近宣布,网站运营商现在可以阻止其GPTBot网络爬虫抓取其网站。微软也在其自己的T&C中增加了一些新的限制,禁止人们使用其人工智能产品“创建、培训或改进(直接或间接)任何其他人工智能服务”,并禁止用户从其人工智能工具中抓取或以其他方式提取数据。

本月早些时候,包括美联社和欧洲出版商理事会在内的几家新闻机构签署了一封公开信,呼吁全球立法者引入规则,在使用数据进行培训之前要求透明度和权利持有者的同意。

以上就是我对于纽约时报禁止其内容用于训练人工智能模型这一事件的分析。你认为这一举措是否合理和有效呢?你是否会支持或反对这样的做法呢?期待听到你的声音。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

手机大厂卷疯了!苹果、华为、小米相继押注大模型,“生死之战”AI破局?

8月14日晚,在小米年度演讲上,小米集团创始人、董事长兼CEO雷军表示,大模型是重大技术革命,小米必须全面拥抱。据了解,目前小爱同学已升级大模型,8月14日开始邀请测试,小米手机端侧大模型已初步跑通。

除了小米之外,华为终端业务CEO余承东也表示:“AI大模型技术的发展将会带来下一代智能终端操作系统的智慧体验。”在华为HarmonyOS 4的升级中,智慧助手“小艺”已经接入了AI大模型技术。荣耀、苹果等手机厂商在AI大模型方向也有所动作。

手机厂商纷纷入局AI大模型,意味着全球AI大模型在应用端迅速发展。而AI应用场景拓展的背后,是新一轮“AI军备竞赛”的打响,不仅中国的科技巨头在抢夺AI芯片,沙特、阿联酋等“中东土豪”也加入了战场。

多家手机巨头入局,大模型竞争激烈

在8月14日晚举办的小米年度演讲中,雷军表示,小米AI大模型最新一个13亿参数大模型已经成功在手机本地跑通,部分场景可以媲美60亿参数模型在云端运行结果。小米旗下人工智能助手小爱同学已开始升级AI大模型能力,在发布会当天开启邀请测试。

“小米在AI领域坚持厚积薄发和尾随战略,在最新的发布会上称利用折叠屏手机成功跑了13亿参数的大模型,成为了全球首个。不过在内行眼中,这有‘噱头’属性,目前全球在跑的新一代云端大模型数量众多,哪怕弱一点的亦有60亿参数,像GPT 3.5已经上到1750亿参数,需要一万颗英伟达V100芯片构建的AGI网络集群才能实现,至于说GPT5.0的参数更是天量级别。”独立国际策略分析师陈佳说。

据雷军表示,2016年7月,是小米布局AI的起点。历经七年时间,目前小米AI相关团队人员规模已经超过了3000人。在今年4月,小米正式组建了AI实验室大模型团队。如今,月活用户超过1.1亿的小爱同学升级AI大模型能力,将拥有“更强的大脑”,在答疑解惑、交互对话等方面实现能力升级。

盯上AI大模型的手机厂商不止小米一家,在今年8月4日举办的2023年华为开发者大会上,余承东就宣布,HarmonyOS 4系统将得到盘古大模型的加持,使得智慧助手小艺具备AI大模型能力。不同于其他手机厂商,华为直接将大模型能力嵌入了手机系统层面,融合程度更加深入。用余承东的话说,具备AI大模型能力的小艺“智商更高了,更能干了”。

在近期苹果2023财年第三财季财报发布会上,苹果CEO库克也表示,苹果多年来一直在研究生成式人工智能和其他模型,未来几个月内,苹果公司用于生成式AI的研发支出将进一步增加。这也是苹果首次官方确认介入AI大模型。

6月29日,荣耀CEO赵明在上海世界移动通信大会上表示,未来将把AI大模型引入端侧赋能YOYO智慧助手,打造更加个人化、人性化,隐私保护更周全的端侧个人模型,带来多模态自然交互、精准意图识别、复杂任务的闭环服务等新体验。

5月22日,百度旗下小度发布首款手机小度青禾学习手机,该手机搭载了小度灵机大模型,提供AI拍照讲题、中英文AI作文辅导、AI口语练习等学习指导。

不过,手机厂商们对AI大模型的布局也并不都是“单打独斗”,也有厂商在寻求外部合作。据赵明透露,荣耀目前已经在跟互联网公司接触。他表示:“现在很多的公司和企业也在投入大模型各个领域,例如很多垂域的模型和通用的大模型,覆盖不同的领域。荣耀与这些公司的合作肯定是未来的必然选择,并且(接触)已经是在进行中的事情。”

北京社科院副研究员王鹏接受记者采访时表示,如果厂商自身研发实力不足或投入有限,可以和大平台及科研机构合作,一方提供技术,一方提供场景、资金和资源,各取所需。

不过整体来看,目前手机厂商对AI大模型的布局多局限于“语音助手”。IDC中国高级分析师郭天翔接受记者采访时表示,手机厂商布局AI大模型更多是出于对热点的追逐,真正在手机上的使用场景尚未明确。目前看也只是通过语音助手来实现落地。郭天翔认为,目前还未看到AI大模型会成为影响手机市场竞争的决定性因素,离落地普及仍有较远距离。消费电子“存量博弈”,是压力也是动力

为什么手机厂商纷纷入局AI大模型领域?因为目前手机赛道的竞争已经进入存量博弈阶段,手机厂商需要在新技术上建立竞争优势,也需要通过新的卖点角逐高端市场。

据中国信通院数据,今年上半年国内智能手机出货量1.24亿部,同比下降7%。据Canalys数据,2023年上半年全球手机出货量约5.25亿部,较去年同期下滑超7000万台。

王鹏表示:“目前手机市场销量下滑,长久以来大家的竞争高度同质化,震撼级产品不足,这种情况下大家就只能比拼一些细节,像芯片、电池、摄像头、屏幕大小、重量等等。人工智能大模型出现之后,对手机厂商来说是一个有可能引爆市场的新卖点,因此有资源、有能力的企业就开始进行布局。”

财经评论员张雪峰接受记者采访时表示,手机厂商角逐AI大模型赛道是正常的市场竞争行为。AI大模型可以提供更先进的语音、图像和智能交互功能,为用户带来更好的使用体验。手机厂商通过优化和引入AI大模型,可以提高产品的竞争力,满足用户的需求,并且赢得市场份额。

同时,手机厂商们不仅仅拥有手机业务,如小米还有智能家居产品,华为有智能汽车解决方案业务等。全联并购公会信用管理委员会专家安光勇表示:“AI大模型的技术能力不仅局限于手机,还可以扩展到自动驾驶、智能制造、机器人等多个领域,为企业创造更多的商机和增长点。同时,AI被认为是未来科技的重要风口,手机厂商希望能够在这个领域抢占先机,获取更多市场份额和利润。”

高端化“生死之战”,大模型能否破局?

目前来看,国内手机厂商在AI大模型领域的发展速度领先于海外巨头。在近期苹果2023财年第三财季财报发布会上,苹果CEO库克表示,苹果多年来一直在研究生成式人工智能和其他模型,未来几个月内,苹果公司用于生成式AI的研发支出将进一步增加。这是苹果首次官方确认介入AI大模型,和华为等国内厂商相比,苹果的“AI之路”走得较为缓慢。

因此,AI大模型也被视作国内手机厂商建立竞争优势、冲击高端市场的方向之一。据Counterpoint数据,今年二季度,苹果公司赚走了全球智能手机行业85% 的营业利润,创最高季度纪录。

在手机市场的“存量之战”中,高端化成了必须啃下的硬骨头。雷军也在小米年度演讲中表示:“高端是小米的必由之路,更是生死之战。”

张雪峰接受记者采访时表示:“中国手机厂商如华为、小米已经在AI大模型赛道上投入了大量资源,并取得了一定的成绩。如果中国手机厂商能够在该领域保持竞争优势,并通过不断创新和满足用户需求来占据高端市场,它们有机会在手机赛道的下半场竞争中取得领先地位。”

资深产业经济观察家梁振鹏认为,通过提供更强大的AI功能,手机厂商可以吸引更多用户购买高端手机,提高产品溢价能力,从而提升利润。

不过,尽管AI大模型有潜力在手机赛道的下半场竞争格局中发挥重要作用,但其发展也受内部环境和外部环境的制约。

安光勇认为,从内部环境来看,中国手机厂商在AI大模型领域可能受到政治、法律、道德等方面的制约,需要在技术发展和应用落地过程中平衡各种因素。从外部环境来看,硬件技术、核心芯片等关键领域对海外的依赖度可能影响中国手机厂商在AI大模型竞争中的地位,尤其是在芯片供应方面存在不稳定因素。

因此,国内手机厂商想在AI大模型上树立起竞争优势,也需要保证“弹药”的充足,在人工智能芯片等关键领域保证供应。

全球开启抢芯模式,打响“AI军备竞赛”

目前,全球正进入新一轮“AI军备竞赛”,对人工智能芯片的抢夺进入白热化。

据英国《金融时报》8月14日报道,沙特阿拉伯和阿拉伯联合酋长国正在购买数以千计的英伟达AI芯片,以谋求在人工智能领域的领先地位。

据了解,沙特阿拉伯已经通过阿卜杜拉国王科技大学购买了至少3000枚英伟达H100芯片。知情人士透露称,这所沙特阿拉伯大学还拥有至少200个英伟达A100芯片,他们正在开发采用了700个英伟达Grace Hopper超级芯片的名为“Shaheen III”的超级计算机,并将于今年投入运行。

而中国的互联网巨头们也在行动。据报道,百度、腾讯、阿里、字节跳动等互联网巨头正采购英伟达高性能AI芯片,今年总共采购约10万张A800芯片,订单金额达10亿美元(约合人民币73亿元),明年订单价值达40亿美元(约合人民币291亿元)。英伟达方面回应称,消费互联网公司和云服务提供商每年都会在数据中心组建方面投入数十亿美元,通常会提前几个月下订单。

除了企业之外,中国的各大城市也在行动,加紧人工智能发展。5月30日,北京发布《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023~2025年)》,将侧重打造人工智能技术底座,围绕人工智能关键技术、人工智能产业方阵等方面,聚焦优势潜力和短板薄弱环节进行系统布局,撬动引导创新资源优化配置。其中,特别提出要推动国产人工智能芯片实现突破,积极引导大模型研发企业应用国产人工智能芯片,加快提升人工智能算力供给的国产化率。

同一天,上海发改委印发的《上海市加大力度支持民间投资发展若干政策措施》中提到,要“充分发挥人工智能创新发展专项等引导作用,支持民营企业广泛参与数据、算力等人工智能基础设施建设”。

5月31日,深圳正式印发《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024年)》,称将“举全市之力打造国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,努力创建全球人工智能先锋城市”。为此,深圳将统筹设立规模1000亿元的人工智能基金群,规模之庞大全国罕见。

如果说各个国家、各大城市加码人工智能产业是全球“AI军备竞赛”的第一轮,那对AI芯片的抢购就是这轮军备竞赛的第二轮。轮轮转动之下,全球人工智能产业也迎来蓬勃发展。

从目前情况来看,中国公司在人工智能赛道的“起跑点”稍显落后。陈佳向记者表示,目前整个AGI(通用人工智能)软件市场基本上由微软、谷歌、Meta主导,硬件则基本被英伟达的全系列AI芯片主导,intel、AMD以及国内华为等大厂属于第二集团,短期内很难撼动英伟达利用大模型建立的AI硬件开发优势。相比之下,其他厂商包括国内手机大厂都属于第三第四梯队,短期内除了其自身核心客群之外,不会对AI算力市场构成显著影响。

不过“起跑点”的落后也意味着发展空间的广阔。国金证券认为,未来3-5年人工智能产业将保持较高增速,2022年中国人工智能产业规模达1958亿元,预计2027年可达6122亿元,年均复合增速约为25.6%。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

大爆发!AI又有新催化?

AI方面的炒作是从硬件开始的,然后提升到大模型最后到应用端。

之前也复盘过,涨得最凶的也最猛的就是硬件板块,光模块为代表的硬件,他身后还有光器件、AI服务器、交换机、PCB、PCLE线、存储芯片、机器人、智能驾驶等等

大模型就是以360、昆仑万维、科大讯飞为代表的,目前来看也就是科大讯飞有成为领军人物的潜力

再然后就是应用端,游戏、传媒、剪辑软件、金融、教育、法院、政务等等

以上逻辑都靠的是英伟达映射的逻辑,都是通过国外的商业逻辑映射国内,通过国外的信息催化国内,最近的平台期就是国外发展过快与国内业绩落地过慢的矛盾,使得高位的个股diedie不休。

而数据要素板块,算是在整个AI里面涨幅相对不那么高的,因为2月份他们已经涨过了一波,就是因为信创和数字经济国策发布。

因为AI汹涌而来,偏向AI逻辑被大家熟知,当时最被大家熟知的两个逻辑就是硬件通胀和数据价值重估,其实硬件板块炒来炒去,大家明白了,很难业绩落地,因为技术有代差。

数据要素反而是咱们的优势,咱们的体制想要推动这类政策执行,一定是快于国外的,在采集、存储、加工、流通、分析、应用方面能够快速推进,毕竟是数据要素已经类比到土地了,是国家拥有的生产要素。

最近数据要素的催化,最开始是人民网的数据确权文件的发布,这几天是信创招标开始,年初的信创逻辑就是招标预期,现在是招标落地了。

山丘目前查到7-8月份,信创招标的项目主要是为

招标主要集中在硬件和软件系统两个方向,硬件主要是华为系和软件更多是国产化逻辑,信创更多偏向是软件招标

未来的催化肯定是招标大单的消息,这类都是短中线催化,招标大单过后就是业绩落地,这点和风电差不多,招标预期过后,就是装机量,在信创板块就是业绩落地了,叫装机量好像也没什么问题,也是装在电脑里、手机里各种穿戴设备里。

华为产业链的公司如下图

信创相关产业链如下图,最好是有订单为先,国资云的深桑达A和太极股份算是比较稳健的

除去硬件外,国内比较能够掌握到的,能够自主做强的还是软件和数据相关的,只是目前能够看得到的落地就是招标和一些政策上落地,更多还是短中线逻辑,长线逻辑还得看国内的数字经济相关的联通能力,换句话说就是国内的整个大系统中,掌握环节越多其价值也就越多,出海方面是看单一软件和硬件的自身壁垒有多深。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

AI医生,靠谱吗?

不是帮忙写病历,不是辅助看报告,不是手术导航定位,更不是智能导诊,真正能看病的“AI医生”可能要来了。

中国的医疗科技公司正在自主研发基于Transformer架构的医疗大语言模型,并应用于真实医疗场景的AI医生产品“MedGPT”。而这款产品的首次“出圈”,是因为一场上百人规模的真实世界试验。
这场6月30日在成都进行的“大型公开测评”,参与者包括120多位真实患者和10名四川大学华西医院的主治医师,还有7位全国各地三甲医院专家作为陪审。毕竟大模型能不能用来看病这件事,最有发言权的,还是专家医生。
最终,“AI医生”与三甲主治医生在比分结果上的一致性达到了96%。
8月10日,其研发企业医联Medlinker对外公布了该产品的最近进展。据介绍,医联MedGPT又完成了1052例医生临床测试,不断通过数据刷新AI医生临床有效性记录,并持续验证医疗安全性。
围绕这款横空出世的“AI医生”产品和其实际效果,本文试图讨论几个核心问题:

1.MedGPT看病靠谱吗?评价是否靠谱的标准是什么?
2.MedGPT能在哪些环节帮助提升就医体验、诊疗效率和质量?
3.MedGPT走向成熟和普及之时,地域资源不平衡、看病难的医疗痼疾能否被推动解决?MedGPT看病,靠谱吗?

鉴于患者和医生之间存在巨大的信息鸿沟,判断MedGPT可靠性的标准和结果,都来自经验丰富的医生专家。
其实施过程是,邀请120位真实患者使用“AI医生”问诊,过程中实习医生辅助将信息同步传达给10位四川大学华西医院的真人医生(职级主治及以上),双方在互不影响的情况下分别给出独立判断。
评估结果时,将上述过程切分为问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释等6个环节,由来自北京阜外医院、中日友好医院、北大人民医院等三甲医院的7位主任专家,针对每个环节分别给AI和真人按照准确性、专业性等统一标准进行打分。
最终,真人医生的综合得分为7.5,而AI医生得分为7.2,二者一致性为96%。评测疾病涵盖消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等多个领域。

一位专家在打分时,甚至对AI给出了高于真人医生的分数,理由是在专业水平接近的情况下,MedGPT更加细致,不易误诊漏诊,甚至对患者表现出更大的人文关怀。
据医联对外公布的数据,MedGPT目前的参数规模为100B规模,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使用了800万条的高质量结构化临床诊疗数据,并投入超过1000名医生参与人工反馈监督微调训练。
在短短40天左右的时间里,MedGPT的患者测试案例实现从百到千的十倍量级增长,不难看出医联对这一产品的投入程度。据了解,在过去的几个月内,其医疗专家和技术专家团队“以小时为单位”进行着迭代和调优。在这个过程中,已有超过1000名三甲医院医生参与到产品的研发、测试、优化过程中。
值得一提的是,在全球范围内,这种“AI医生”与人类医生同时面对真实患者的“双盲实验”还是首次完成,这也为检验医疗GPT的有效性和准确性等开拓了标准范式。任何产品或业务,涉及到医疗领域都是一件严肃的事情,但在当前,各国相关监管部门还尚未提出对医疗大模型产品的注册审查标准,则更需要最早的产品研发者对自身提出要求,需要市场的行业自律。如今临床测试的数量已经达到了1052例,而在以往创新药物或医疗器械的临床试验项目中,千人量级均属于超大型规模水平。数字医疗的全新引擎
在此之前,医疗领域已经诞生了不少应用AI技术开发的产品,比如电子病历、智能导诊分诊系统、医学影像辅助诊断产品以及手术机器人(或称手术导航定位系统)等,这些产品都是“碎片化”地聚焦分布在诊疗流程的某一个具体环节,帮助优化就医体验、提升就医效率和质量。


但大语言模型的技术突破,让AI技术在医疗场景下的应用,有了更进一步参与或跟踪整个诊疗流程的可能。
理论上,除了需要动手术、拍片子和取药等必须在线下实体进行的环节,其他步骤如咨询、诊断、开具检查、报告解读、给出治疗方案和康复建议等,均可以在对话中完成,并且通过上传检查结果等交互行为,MedGPT可以“补上”线下未参与部分,进而做出可靠回答。
此时,于患者而言,MedGPT的实际角色变成了一个可以识别和诊断大部分常见疾病,并给出进一步线下检查或用药、诊疗建议的“AI家庭医生”。
特别是当用户养成随手问诊的行为依赖,持续反馈不同医院的线下就诊信息,而MedGPT又能储存并自动调取历史记录时,就俨然成为了一个身边最清楚你过去病史和身体状况变化的、普通人也能拥有的全天候随时守护的“家庭医生”;

对医生而言,MedGPT可以成为一个帮助高年资医生完成基础工作,进行信息核对、查漏补缺、跟踪随访及进行患者管理的“AI助理医师”,也可以是一个帮助低年资医生快速学习和成长、随时探讨病例并分析思路的“AI医生导师”,还可以是一个帮助一线医生及时获取前沿治疗指南和专家共识、更新自身专业储备的“学术推广AI医生”。
而对于整个医疗医药行业而言,大模型AI技术则可能成为一个为行业带来新一轮发展动力的全新“引擎”,将这一垂类模型应用于不同的场景、不同载体上,能够不断碰撞产生新的火花。


MedGPT的研发企业医联,其自身已在医疗领域深耕近十年。2014年公司成立,2017年获得互联网医院牌照,2018年开设首个互联网医院科室感染科,同期启动自主研发的丙肝患者管理体系。目前平台拥有数十万名注册医生,覆盖肿瘤、心脑血管、糖尿病、呼吸、慢性肾病、感染、精神心理、消化、神经、中医等多个病种学科领域。
MedGPT同样也是医联的全新引擎,作为第一个大模型应用在医疗场景应用的探索者,有望引领行业真正进入数字医疗2.0时代。
医联MedGPT项目负责人早就“喊话”,希望业内AI科技、医学、院校机构、医疗多模态应用等各种类型的合作伙伴,共同开发建设通用型人工智能技术的医疗应⽤场景为医疗行业的技术发展贡献力量。
当前其主要征集的合作伙伴包括三大类:一是数据合作,包括三甲医院、相关医疗数据企业等;二是科室建设合作,包括三甲医院、医学专家、数字医疗企业、数字疗法等;三是多模态模型合作,包括但不限于辅助诊断模型、治疗推荐模型、预后评估模型、药物发现模型和流行病学模型等。世界性难题,往往由颠覆性科技推动解决
尽管MedGPT的出现令众多医生惊艳,也让我们进一步打开了未来就医便捷化的可能性,但不难猜想,当前一定还存在些许优化空间。
比如,为了保证结果“不出错”,医疗GPT给出的建议是否存在过度诊疗的倾向?
又比如,医疗GPT对患者疾病做出诊断和治疗方案,都是基于目前现有的专家共识或者诊疗指南,但一些新开发的药物的临床应用,仍然需要一线专家去探索尝试,现阶段AI技术的应用大概率还不会突破人类医生自身的认识边界。
不过,这并不会影响这项技术所带来的兴奋和未来的想象空间。
医疗改革一向是个世界性难题,对于中国这个人口庞大、地域广袤的发展中国家而言则更甚。早自2009年起我国便开始探索和鼓励公立医院医生多点执业,2015年起我国正式提出并开始在多个城市试点分级诊疗制度,近年来各地医联体、医共体持续推行远程医疗等,均是为了改善医疗卫生资源在不同地区分配不平衡、百姓看病难的问题。

科技的发展或许难以对抗自然规律的生老病死,但我们可以展望的是,有了MedGPT,无论身处何时何地,我们将能够以自然对话的最低门槛形式,即时获取自己关心或者迫切需要的权威医疗健康信息。
所谓“低门槛对话”,一方面要求技术在于打破时间和空间的限制,另一方面还在于用户体验上,语言沟通的“无障碍”。
因此“AI医生”的自然语言交互能力也格外重要,除了准确、靠谱、专业,能听到患者非专业用语表达的“大白话”,是保证用户体验的基本。
例如在真实评测体验中,对于一句通俗的“肚子疼”,AI医生会进一步引导患者说出具体的疼痛部位、疼痛持续的频率、疼痛方式等,并通过询问饮食情况、有无外力撞击、有无相关病史等细节、不断缩小范围、排除错误判断,最终给出确切答案。
AI医生没有问诊的时间限制,也不懂何为压力和情绪,可以不厌其烦地7*24小时接诊。

目前,医联MedGPT已经可以覆盖我国最新疾病分类标准(ICD10)中60%的疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。据悉预计在2023年底,可以覆盖80%病种的就诊需求。
有一天,当MedGPT真正走向成熟和普及,不仅有助于打破医疗资源的地域不平衡,对于消除医学专业信息鸿沟、减少误诊漏诊,提升国民整体的健康素养和健康水平,都有巨大帮助。
与此同时,MedGPT会不断沉淀用户关于疾病和患者诊疗行为的真实世界数据,其中不仅包括原本静静躺在各个公立医院电脑信息系统内的诊疗数据,也包括医院所无法持续追踪的院外数据,随着相关法律法规的健全,这些海量数据也有望被释放出来,对于罕见疾病的新药研发、常见病的健康管理甚至是针对精准人群的健康保险产品开发等,都具有重要意义。
届时,我们能够真正期待全新的“健康新世界”。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

“速度是传统方法一万倍”,欧洲用华为AI模型预报天气

据香港《南华早报》网站8月13日报道,欧洲一个政府间机构正在与中国一家科技巨头密切合作,将人工智能(AI)技术用于天气预报。

报道称,近日,欧洲中期天气预报中心(ECMWF)启用了能够预测全球天气的中国人工智能模型。

这个被称为“盘古气象”的模型是华为技术有限公司开发的。

报道称,在此次合作中,中国这家技术公司得以将气象科学转化成实际应用;而欧洲天气机构已开始在日常预报中采用人工智能技术。

华为科学家田奇在接受本报独家专访时说,欧洲中期天气预报中心决定在天气预报中使用“盘古气象”模型,部分原因在于该模型的高效性能,以及预报中心认识到人工智能在这个领域中具有重大潜力。

报道称,“盘古气象”模型预报只需非常低的计算成本,同时在准确度方面仍具竞争力。

▲7月6日,2023世界人工智能大会在上海开幕。图为开幕当天,人们观看华为云盘古气象大模型。(王翔 摄)

田奇说,今年4月至7月进行的测试显示,“盘古”模型在若干准确度指标和极端天气预报方面展现出优势,这似乎就是欧洲中期天气预报中心决定采用这套模型的原因。

报道称,根据7月份发表在英国科学杂志《自然》周刊上的一篇论文,“盘古气象”模型在预报方面比传统数值预测方法更为精确。它能提前一小时至七天预测天气情况,预测速度是数值预测方法的一万倍。

田奇说,目前“盘古气象”模型可提供以秒为单位的全球天气预报,预报内容包括湿度、风速、气温、海平面气压等;该模型在预测台风路径、寒潮、热浪等方面也表现出色。

这个人工智能天气预报模型最近预测了台风“杜苏芮”的轨迹,并且准确预测了8月4日台风“卡努”的转向。

田奇说这个模型为世界各地气象部门提供了重要信息。

香港《南华早报》联系了欧洲中期天气预报中心,询问了人工智能模型使用情况。一名女发言人提到了最近发表在该机构官网的一篇博客文章。文章说:“现在是时候采用这项技术并确立物理建模与机器学习之间的最佳平衡,从而持续改进预报工作。”

报道称,欧洲中期天气预报中心预报部主任弗洛里安·帕彭伯格博士称人工智能模型是天气预报的“悄然革命”。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

小米 AI 大模型 MiLM-6B:64 亿参数,C-Eval 总榜排名第 10

小米 AI 大模型 MiLM-6B 首次曝光。

MiLM-6B 是由小米开发的一个大规模预训练语言模型,参数规模为 64 亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。

根据 C-Eval 给出的信息,MiLM-6B 模型在具体各科目成绩上,在 STEM(科学、技术、工程和数学教育)全部 20 个科目中,计量师、物理、化学、生物等多个项目获得了较高的准确率。

据悉,MiLM-6B 模型目前已经在大多数文科科目中表现出了相对良好的准确度,不过在 “法学、数学、编程、概率论、离散数学” 等涉及 “抽象思维” 的科目中,还有一定进步空间。

在 10 个 “社会科学” 测试科目中,除 “教育学和地理” 外,该模型在其他 8 个科目中都获得了较为理想的准确率。在人文科学的 11 个科目中,MiLM-6B 则在 “历史与法律” 基础上有着不错的准确率表现。

虽然小米 AI 大模型 MiLM-6B 当下才首次曝光,不过完成度已经较高,在未来该模型可能会被用于小米旗下 “小爱同学” 等虚拟助理服务中。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

升级要再次付费引不满,GoodNotes宣布为中国用户提供专属优惠

笔记软件 GoodNotes 6近日上架苹果 App Store 商店,和 5 代相同,依旧需要付费购买,官方提供按年付费和买断两种方式,前者为 68 元一年,后者为 186 元买断。

然而,5 代的付费用户无法直接获取 6 代的功能,仍然需要再次付费,引发了大量老用户的不满。

今日,GoodNotes 官方小红书账号发布声明:“在认真倾听了大家关于本次产品升级和定价的反馈意见后,决定为中国用户提供专属优惠。”

  • 年费会员和一次性解锁价格全面下调 40%
  • GoodNotes 5 付费会员可叠加使用升级折扣

GoodNotes 官方表示,GoodNotes 5 付费用户也可以选择继续使用 GoodNotes 5,不升级至新版本。近两天升级的用户如需退款,可联系客服。

不过,官方账号评论区的用户似乎对此并不买账,热评指责其放弃老用户、吃相难看、违约等。

之前竞品软件Notability改订阅制引起过一轮风波,GoodNotes还阴阳过友商,结果现在是:嘲笑Notability,理解Notability,成为Notability……

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

​Nature首发!一种AI时代科研新范式,开拓未知领域

AI与各个科学领域结合后,正在发生着一场充满潜力和挑战的科技革命。

通过探索理论、设计实验、分析数据,人工智能将为我们所熟知的科学发现提供超级动力。

8月2日,谷歌团队研究人员在Nature上发表了一项研究——人工智能时代的科学发现,总结了AI在科学发现中的应用和进展。

论文地址:https://www.nature.com/articles/s41586-023-06221-2

如何收集、转换和理解数据为形成科学见解和理论奠定了基础。

2010年代初兴起的深度学习,极大地扩展了这些科学发现过程的范围和雄心。

人工智能越来越多地应用于各个科学学科,以整合海量数据集、完善测量、指导实验、探索与数据相匹配的理论空间,以及提供与科学工作流程相结合的可操作的可靠模型,从而实现自主发现。

数据收集和分析是科学理解和发现的基础,也是科学的两大核心目标、定量方法和新兴技术。

20世纪50年代,数字化的引入为计算机在科学研究中的普遍应用铺平了道路。

自2010年代以来,数据科学的兴起使AI能够从大型数据集中识别出与科学相关的模式,从而提供有价值的指导。

尽管科学实践和过程在科学研究的各个阶段各不相同,但人工智能算法的发展跨越了传统上孤立的学科。

这种算法可以增强科学研究的设计和执行,正在成为研究人员不可或缺的工具。

科学发现是一个多方面的过程,涉及几个相互关联的阶段,包括假设形成、实验设计、数据采集和分析

近来,AI在科学方面最新的进展,就包括解开50年前的蛋白质折叠问题,以及人工智能驱动的数百万粒子的分子系统模拟,证明了人工智能解决具有挑战性的科学问题的潜力。

与任何新技术一样,AI4Science 的成功取决于,我们是否有能力将其融入日常实践并了解其潜力和局限性。

在科学发现过程中,广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素,以及对方法、理论、软件和硬件的实用性和潜在滥用的担忧。

论文中,研究人员将探讨人工智能科学的发展并解决关键问。

AI辅助科学研究数据采集与管理实验平台收集的数据集规模和复杂程度不断增加,导致科学研究越来越依赖实时处理和高性能计算,以选择性地存储和分析高速生成的数据。

数据选择

一个典型的粒子碰撞实验每秒产生超过100 TB的数据。这类科学实验正在挑战现有数据传输和存储技术的极限。

在这些物理实验中,99.99%以上的原始仪器数据都是背景事件,必须实时检测并丢弃,以管理数据速率。

为了识别罕见事件,便于未来的科学研究,深度学习方法用「搜索离群信号」的算法取代了预先编程的硬件事件触发器,以检测压缩过程中可能遗漏的意外或罕见现象。

背景过程可使用深度自动编码器生成模型。

自动编码器会为以前未见过的、不属于背景分布的信号(罕见事件)返回较高的损失值(异常得分)。与有监督异常检测不同,无监督异常检测不需要标注,已广泛应用于物理学、神经科学、地球科学、海洋学和天文学。

数据标注

训练有监督模型需要带有标注的数据集,这些标注可提供有监督信息,以指导模型训练,并根据输入估计目标变量的函数或条件分布。

在生物学领域,为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要,因为实验生成标签非常困难。

例如,尽管下一代测序技术不断发展,但只有不到1%的测序蛋白质标注了生物学功能。

另一种数据标注策略,是利用在人工标注数据上训练的智能体模型来标注未标注的样本,并利用这些预测的伪标签来监督下游预测模型。

相比之下,标签传播则是通过基于特征嵌入构建的相似性图将标签扩散到未标记的样本中。

除了自动标注外,主动学习还能确定需要人工标注的信息量最大的数据点或需要进行的信息量最大的实验。

通过这种方法,可以用较少的专家提供的标签来训练模型。数据标注的另一种策略是利用领域知识制定标注规则。

数据生成

随着训练数据集的质量、多样性和规模的提高,深度学习的性能也在不断改善。

创建更好模型的一个有效方法是,通过自动数据增强和深度生成模型,生成额外的合成数据点来增强训练数据集。

除了人工设计此类数据扩增外,强化学习方法还能发现一种自动数据扩增策略,这种策略既灵活又与下游模型无关。

深度生成模型,包括变异自动编码器、生成对抗网络、归一化流和扩散模型,可以学习底层数据分布,并从优化的分布中采样训练点。

生成式对抗网络已被证明可用于科学图像,因为它们可以合成许多领域的逼真图像。

概率编程是生成模型中的一种新兴技术,并将数据生成模型表达为计算机程序。

学习科学数据有意义的表示深度学习可以提取不同抽象程度的科学数据的有意义表征,并对其进行优化以指导研究,通常是通过端到端学习。

高质量的表征应尽可能多地保留数据信息,同时保持简单易懂。

有科学意义的表征应结构紧凑、有鉴别性、能区分潜在的变异因素,并能编码可在多项任务中通用的潜在机制。

在此,研究人员将介绍满足这些要求的3种新兴策略:几何先验、自监督学习、语言建模。

几何先验

由于几何和结构在科学领域发挥着核心作用,因此在学习表征中整合「几何先验」已被证明是有效的。

对称是几何学中一个被广泛研究的概念。它可以用不变性和等差性来描述来数学函数的行为,以表示神经特征编码器在一组变换下的行为。

在科学图像分析中,物体在图像中平移时不会发生变化,这意味着图像分割掩码是平移等变的,因为当输入像素平移时,它们会发生等效变化。

通过增加训练样本,将对称性纳入模型可使AI在有限的标注数据中受益,并可改善对与模型训练过程中遇到的输入明显不同的输入的外推预测。

几何深度学习

图神经网络,已成为对具有潜在几何和关系结构的数据集进行深度学习的主要方法。

从广义上讲,几何深度学习包括,发现关系模式 ,并通过神经信息传递算法,以图形和变换组的形式编码的局部信息。

自监督学习

当只有少数标记样本可用于模型训练,或当为特定任务标记数据成本过高时,监督学习可能是不够的。

在这种情况下,利用标记和未标记数据可以提高模型性能和学习能力。

自监督学习是一种技术,让模型能够在不依赖显式标签的情况下学习数据集的一般特征。

自监督学习是一个重要的预处理步骤,它可以在大型无标签数据集中学习可转移的特征,然后在小型有标签数据集中微调模型,以执行下游任务。

这种对科学领域有广泛的了解的预训练模型,是通用预测器,可适用于各种任务,从而提高标注效率,超越纯监督方法。

语言建模

掩码语言建模是一种流行的方法,用于自监督学习自然语言和生物序列。

随着自然语言和生物序列处理的不断发展,它们为彼此的发展提供了信息。

在训练过程中,目标是预测序列中的下一个token,而在基于掩码的训练 中,自监督任务是使用双向序列上下文恢复序列中的掩码token。

蛋白质语言模型可以,编码氨基酸序列以捕获结构和功能特性,并评估病毒变体的进化适应性。

Transformer架构

Transformers是一种神经结构模型,可以通过灵活模拟任意token对之间的相互作用,来处理token序列,超越了早期使用递归神经网络进行序列建模的努力。

虽然Transformers统一了图神经网络和语言模型,但Transformers的运行时间和内存占用可能与序列长度成二次方关系,从而导致远程建模,和线性化注意机制在效率方面面临挑战。

因此,无监督或自监督生成式预训练变换器被广泛使用,随后进行参数高效微调。

神经算子

标准神经网络模型可能无法满足科学应用的需要,因为它们假定数据离散度是固定的。

这种方法不适用于以不同分辨率,和网格收集的许多科学数据集。

此外,数据通常是从连续域中的潜在物理现象中采样的,

神经算子通过学习函数空间之间的映射来学习,不受离散化影响的表征。

神经算子保证离散化不变,这意味着它们可以处理任何离散化的输入,并在网格细化时收敛到一个极限。

神经算子一旦训练完成,就可以在任何分辨率下进行评估,无需重新训练。相比之下,当部署过程中的数据分辨率与模型训练时的数据分辨率发生变化时,标准神经网络的性能就会下降。

基于人工智能的科学假设生成可检验的假设是科学发现的核心。

科学假设的黑盒预测器

为科学探究确定有希望的假设,需要有效地检查许多候选方案,并选择那些可以最大限度地提高下游模拟和实验产量的假设。

在药物发现中,高通量筛选可以评估数千到数百万个分子,算法可以优先考虑实验研究哪些分子。模型可以被训练来预测实验的效用,例如相关的分子特性,或符合观察结果的符号公式。

然而,对于许多分子来说,这些预测因子的实验事实数据可能不可用。

因此,弱监督学习方法可以用来训练这些模型,其中嘈杂、有限或不精确的监督被用作训练信号。

这些方法可以经济有效地替代人类专家的标注、昂贵的硅学计算或更高保真的实验。

在高保真模拟上训练的AI方法已被用于高效筛选大型分子库。

为了进一步提高这些过程的效率,AI选择的候选方案可以被送到中等或低吞吐量实验中,以便使用实验反馈对候选物进行持续细化。

结果可以使用主动学习和贝叶斯优化反馈到AI模型中,使算法能够改进其预测,并专注于最有前途的候选方案。

当假设涉及分子等复杂对象时,人工智能方法就变得非常有价值。

例如,在蛋白质折叠方面,AlphaFold2可以根据氨基酸序列预测蛋白质的三维原子坐标,其精确度甚至可以达到原子级别,即使蛋白质的结构与训练数据集中的任何蛋白质都不同。

这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展,如RoseTTAFold106。

除了正向问题,人工智能方法也越来越多地用于逆向问题,旨在了解产生一组观测数据的因果因素。

逆向问题,如逆向折叠或固定骨架设计,可以使用在数百万个蛋白质结构上训练过的黑盒预测器,根据蛋白质骨架三维原子坐标预测氨基酸序列。

然而,此类黑盒人工智能预测器需要大量训练数据集,尽管减少了对现有科学知识的依赖,但可解释性有限。

导航组合假设空间

尽管对所有与数据相匹配的假设进行采样是一件令人生畏的事情,但一个可以管理的目标是寻找一个好的假设,这可以表述为一个优化问题。

与依赖人工设计规则的传统方法相比,人工智能策略可用于估算每次搜索的回报,并优先选择价值较高的搜索方向。

通常采用强化学习算法训练的智能体来学习策略。

该智能体学会在搜索空间中采取使奖励信号最大化的行动,奖励信号可定义为反映所生成假设的质量或其他相关标准。

为了解决优化问题,可以使用进化算法来解决符号回归任务。该算法生成随机符号定律作为初始解决方案集。

在每一代中,候选解决方案会有轻微变化。

算法会检查任何修改所产生的符号定律是否比之前的解决方案更适合观测结果,并将最好的解决方案保留到下一代。

不过,强化学习方法正逐渐取代这一标准策略。

强化学习利用神经网络,通过添加预定义词汇表中的数学符号,并利用所学策略决定下一步添加哪个符号,从而依次生成数学表达式。

数学公式表示为一棵解析树。学习策略将解析树作为输入,以决定扩展哪个叶节点和添加哪个符号。

使用神经网络解决数学问题的另一种方法是,将数学公式转化为二进制符号序列。

然后,神经网络策略可以按概率顺序每次增加一个二进制字符。

通过设计一个奖励来衡量反驳猜想的能力,这种方法可以在没有数学问题的先验知识的情况下,找到对数学猜想的反驳方法。

组合优化也适用于发现具有理想药物性质的分子等任务,其中分子设计中的每一步,都是一个离散的决策过程。

在这个过程中,部分生成的分子图被给出作为学习策略的输入,对在哪里添加新原子以及在分子中的选定位置添加哪个原子做出离散的选择。

通过迭代执行这个过程,该策略可以生成一系列可能的分子结构,根据它们对目标属性的适应性进行评估。

AI智能体学习的策略能预见一些行动,这些行动最初似乎不合常规,但事实证明是有效的。

例如,在数学中,监督模型可以识别数学对象之间的模式和关系,并帮助指导直觉并提出猜想。

这些分析指向了以前未知的模式,甚至是世界的新模型。

然而,强化学习方法可能无法在模型训练期间很好地泛化到看不见的数据,因为一旦智能体找到一系列运行良好的动作,它可能会陷入局部最优。

为了提高泛化,需要一些探索策略来收集更广泛的搜索轨迹,这些轨迹可以帮助智能体在新的和修改的设置中表现得更好。

优化可微分假设空间

科学假设通常采用离散对象的形式,例如物理学中的符号公式或制药和材料科学中的化合物。

尽管组合优化技术在其中一些问题上取得了成功,但可微空间也可以用于优化,因为它适合基于梯度的方法,可以有效地找到局部最优。

为了能够使用基于梯度的优化方法,有两种方法经常被使用。

第一种是使用VAE等模型,将离散的候选假设映射到潜在可变空间中的点。

第二种方法是将离散假设松弛为可在可微分空间中优化的可微分对象。

这种松弛可以采取不同的形式,例如用连续变量替换离散变量,或使用原始约束条件的软版本。

物理学中的符号回归应用使用语法VAE。这些模型使用上下文无关语法将离散符号表达式表示为解析树,并将解析树映射到可微分的潜在空间中。

然后采用贝叶斯优化法优化符号定律的潜在空间,同时确保表达式在语法上有效。

在许多科学学科中,假设空间可能远远大于实验所能考察的范围。

因此,我们迫切需要一种方法,在这些基本未开发的区域中高效搜索并识别高质量的候选解决方案。

AI驱动的实验与模拟通过实验评估科学假设对于科学发现至关重要。

然而,实验室实验的成本可能过于高昂且不切实际。

计算机模拟作为一种有前景的替代方案已经出现,对比实验它具有更高效灵活的优势。

虽然模拟依赖于手工制定的参数和开创式的方法来模拟真实场景,但与物理实验相比,还需要在准确性和速度之间进行权衡,需要理解其中的基本机制。

然而,随着深度学习的出现,通过识别和优化假设以进行高效测试,并赋予计算机模拟联结观察结果与假设的能力,这些挑战正在得到解决。

高效评估科学假设

AI系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需实验的数量并节省资源。

具体而言,AI系统可以协助实验测试的两个重要步骤:计划和引导。

在传统方法中,这些步骤往往需要反复试验,这可能是低效的、昂贵的,甚至有时可能危及生命。

AI计划提供了一种系统化的方法来设计实验,优化其效率,并探索未知领域。

同时,AI引导将实验过程导向到高产出的假设,使系统能够从先前的观察中学习并调整实验过程。

这些AI方法可以基于模拟和先验知识来进行模型建立,也可以基于纯机器学习算法进行模型构建。

AI系统可以通过优化资源使用和减少不必要的调查来协助实验计划。与假设搜索不同,实验计划涉及到科学实验设计中涉及的程序和步骤。

一个例子是化学合成计划。化学合成计划涉及到找到一系列步骤,通过这些步骤可以将目标化合物从现有化合物合成出来。

AI系统可以设计合成路径以得到所需的化合物,从而减少人工干预的需求。

主动学习也被用于材料发现和合成。主动学习涉及与实验反馈进行迭代交互,以改进假设。材料合成是一个复杂而资源密集型的过程,需要对高维参数空间进行高效的探索。

主动学习利用不确定性估计来探索参数空间,并尽可能少地减少不确定性。

在进行实验过程中,决策常常需要实时调整。然而,当只依靠人类经验和直觉时,这个过程可能难以进行或者容易出错。强化学习提供了一种替代方法,可以持续地对不断变化的环境做出反应,并最大化实验的安全和保证成功率。

例如,在磁控托卡马克等离子体的实验中,强化学习方法通过与托卡马克模拟器进行交互来优化控制过程的策略(如下图)。

在另一项研究中,一个强化学习代理根据实时反馈(如风速和太阳高度)来控制平流层气球,并寻找有利的风流用于导航。

在量子物理学中,实验设计需要根据未来复杂实验的最佳选择进行动态调整,而强化学习方法可以通过迭代地设计实验并从中获得反馈来克服这个问题。

例如,强化学习算法已经被用于优化量子系统的测量和控制,从而提高实验效率和准确性。

利用模拟从假设中推导观测量

计算机模拟是一种强大的工具,可以从假设中推导观测量,实现对那些不直接可测试的假设进行评估。

然而,现有的模拟技术在很大程度上依赖于人类对所研究系统底层机制的理解和知识,这可能使得模拟不够优化和高效。

AI系统可以通过更准确高效地学习来增强计算机模拟,更好地拟合复杂系统的关键参数,解决控制复杂系统的微分方程,并对复杂系统的状态进行建模。

科学家通常通过创建涉及参数化形式的模型来研究复杂系统,这需要专业领域的知识来识别参数的初始符号表达式。

比如,分子力场是可解释的,但在表示各种函数方面能力有限,并且需要强大的归纳偏见或科学知识来生成。

为了提高分子模拟的准确性,已经开发了一种基于AI的神经势能,它适合昂贵但准确的量子力学数据,取代传统的力场。

此外,不确定性量化已被用于在高维自由能面中定位能量障碍,从而提高分子动力学的效率169(下图)。

对于粗粒化分子动力学,AI模型可以通过确定系统需要从学习的隐藏复杂结构中粗粒化的程度,来减少大系统的计算成本。

在量子物理学中,由于其灵活性和准确拟合数据的能力,神经网络已经取代了手动估计的波函数或密度泛函的符号形式。

微分方程对于模拟空间和时间中复杂系统的动态是至关重要的。与数值代数求解器相比,基于AI的神经求解器更加无缝地融合数据和物理。

这些神经求解器通过将神经网络基于领域知识进行建模,将物理与深度学习的灵活性相结合(下图)。

AI方法已被应用于各个领域的微分方程求解,包括计算流体动力学,预测玻璃体系的结构,解决难解化学动力学问题,以及解决Eikonal方程以表征地震波的传播时间。

在动力学建模中,神经常微分方程可以对连续时间进行建模。神经网络可以通过物理信息损失对Navier-Stokes方程的解在时空域中进行参数化。

然而,标准的卷积神经网络对于解的细粒度特征建模能力有限。这个问题可以通过学习用神经网络对函数之间的映射进行建模的运算符来解决。

此外,求解器必须能够适应不同的域和边界条件,这可以通过将神经微分方程与图神经网络相结合来通过图划分实现。

统计建模是一种强大的工具,可以通过对复杂系统中状态的分布进行建模来提供对复杂系统的全面定量描述。

归一化流可以使用一系列可逆神经网络将任何复杂分布映射到先验分布(例如简单的高斯分布),并进行反向映射。

虽然计算成本较高(通常需要数百或数千个神经层),但归一化流提供了精确的密度函数,从而实现了采样和训练。

与传统模拟不同,归一化流可以通过直接从先验分布中进行采样并应用神经网络来生成平衡状态,这样计算成本就是固定的。

这增强了格点场和规范理论中的采样,改进了马尔可夫链蒙特卡洛方法,否则可能由于模态混合而无法收敛。

重大挑战为了利用科学数据,模型必须建立在人类专业知识之上,再利用上模拟来加强模型的表现。

这种整合为科学发现开辟了新的契机。

然而,为了进一步提升AI在科学领域的影响,需要在理论、方法、软件和硬件基础设施方面取得重大进展。

跨学科的合作对于实现通过AI推进科学的全面和实用方法至关重要。

实践考虑

由于测量技术的限制会产生不完整的数据集、有偏差或相互冲突的读数,并且由于隐私和安全问题的限制,导致了的数据可访问性不足,科学数据集通常不太适合用来做AI分析。

需要标准化和透明的格式来减轻数据处理的工作量。

模型卡片和数据表是一些努力的例子,用于记录科学数据集和模型的操作特性。

此外,联邦学习和加密算法可以用于防止将具有高商业价值的敏感数据公开发布到公共领域。

利用开放的科学文献,自然语言处理和知识图谱技术可以促进文献挖掘,有助于材料发现,化学合成和治疗科学的进步。

深度学习的使用对于人类参与的AI驱动设计、发现和评估提出了复杂的挑战。

为了自动化科学工作流程,优化大规模模拟代码和操作仪器,自主机器人控制可以利用预测并在高通量合成和测试线上进行实验,创建自主实验室。

在材料探索中早期应用生成模型表明,可以识别出数百万种,具有期望性能和功能的可能材料,并对其可合成性进行评估。

例如,King等人将逻辑AI和机器人技术结合起来,自主生成关于酵母的功能基因组学假设,并使用实验室自动化来实验性地测试这些假设。

在化学合成中,AI优化候选合成路径,然后机器人根据预测的合成路径引导化学反应。

实施AI系统涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据筛选和处理到算法实现和用户应用界面设计。

实现中的微小差异可能导致性能上的显著变化,并影响将AI模型整合到科学实践中的成功。

因此,需要考虑数据和模型的标准化。由于模型训练的随机性、模型参数的变化和不断变化的训练数据集,AI方法可能存在可重复性问题,这些问题既与数据相关又与任务相关。

标准化的基准测试和实验设计可以减轻这些问题。改善可重复性的另一个方向是通过发布开放模型、数据集和教育项目的开源倡议。

算法创新

为了对科学理解做出贡献或自主地获取科学理解,需要进行算法创新,建立一个在整个科学过程中使用最优算法的基础生态系统。

超出分布范围的泛化问题是AI研究的前沿。

在特定范围的数据上训练的神经网络可能会发现不适用于不同范围的数据的规律,因为后者的基础分布发生了偏移。

虽然许多科学定律并不是普遍适用的,但一般来说也会具有广泛的适用性。而与最先进的AI相比,人类大脑可以更好、更快地适应修改后的环境。

有一个很有意思的假设是这么说的,人类不仅根据自己观察到的内容建立的统计模型,而且还建立了一个因果模型。

这是一个由所有可能的干预(例如,不同的初始状态、不同的代理的行为或不同的情况)来进行索引的统计模型集合。

将因果性纳入AI仍然是一个尚待研究的领域,还有很多工作要做。

自监督学习等技术在科学问题上具有巨大潜力,因为它们可以利用大量未标记的数据,并将里面包含的知识转移给低数据领域。

然而,目前的迁移学习方案可能是特定情况下的临时解决方案,缺乏理论指导,并且容易受到基础分布的变化的影响。

虽然一些初步尝试已经解决了这一挑战,但还需要进一步探索,以系统地衡量跨领域的可迁移性,并防止负面迁移。

此外,为了解决科学家关心的困难,AI方法的开发和评估必须在现实世界的情况下进行,例如在药物设计中可能实现的合成路径,并在将其转移到实际应用之前包括经过良好校准的不确定性估计来评估模型的可靠性。

科学数据是多模态的,包括图像(例如宇宙学中的黑洞图像)、自然语言(例如科学文献)、时间序列(例如材料的热黄变)、序列(例如生物序列)、图(例如复杂系统)和结构(例如3D蛋白-配体构象)。

AI方法通常作为黑盒操作,意味着用户无法完全理解输出是如何生成的,以及在生成输出时哪些输入是关键的。

黑盒模型可能会降低用户对预测的信任,并且在必须在实现之前理解模型输出的领域中应用有限,例如在人类太空探索中,在预测指导政策的领域中,比如在气候科学中。

尽管有大量的解释技术,透明的深度学习模型仍然难以实现。

然而,人类大脑能够综合高层次的解释,即使不完美,也能说服其他人类。

这提供了希望,通过在类似高层次抽象的现象模拟下,未来的AI模型将提供至少与人类大脑提供的一样有价值的解释和理解。

这也表明,研究高级认知可能会激发未来的深度学习模型,将当前的深度学习能力与操纵可言述抽象、因果推理和超出分布泛化的能力结合起来。

AI对于科学研究事业的影响

展望未来,对AI专业知识的需求将受到两种力量的影响。

首先,一些领域马上就能能从AI应用中受益,比如自主实验室。

其次,智能工具能够提升最先进技术水平,并创造新机会,比如研究在实验中无法观测到的生物、化学或物理过程的长度和时间尺度相关的研究。

基于这两个力量,我们预计研究团队的组成将发生变化,包括AI专家、软件和硬件工程师,以及涉及各级政府、教育机构和公司的新形式合作。

最近最先进的深度学习模型不断增长10,234。这些模型由数百万甚至数十亿个参数组成,并且每年的规模增长了十倍。

训练这些模型涉及通过复杂参数化的数学运算传递数据,参数更新以将模型输出推向所需的值。

然而,计算和数据要求以计算这些更新是巨大的,导致了巨大的能源消耗和高昂的计算成本。

因此,大型科技公司已经大量投资于计算基础设施和云服务,推动了规模和效率的极限。

虽然盈利和非学术组织拥有大规模计算基础设施,但高等教育机构在跨学科整合方面可能更为优势。

此外,学术机构往往拥有独特的历史数据库和测量技术,这些可能在其他地方不存在,但对于AI4Science是必要的。

这些互补的资产促进了新型产学合作模式,这可以影响所选择的研究问题。

随着AI系统逼近并超越人类的性能,将其作为例行实验室工作的替代品变得可行。

这种方法使研究人员能够从实验数据中开发预测模型,并选择实验来改进这些模型,而无需手动执行繁重和重复的任务。

为了支持这种范式转变,教育计划正在涌现,培训科学家在设计、实施和应用实验室自动化和AI在科学研究中。这些计划帮助科学家了解何时使用AI是合适的,并防止对AI分析的错误解释。

结论AI系统可以为科学理解做出贡献,使我们能够研究那些以其他方式无法可视化或探测的过程和对象,并通过从数据中构建模型并结合模拟和可扩展计算,来系统地激发创意。

为了实现这一潜力,必须通过负责任和深思熟虑的技术部署来解决使用AI所带来的安全问题。

在科学研究中负责任地使用AI,科学研究需要确定AI系统的不确定性、误差和效用水平。

这种理解对于准确解释AI输出并确保我们不过分依赖可能存在缺陷的结果至关重要。

随着AI系统不断发展,优先考虑可靠的实施并采取适当的保障措施是最大限度降低风险和最大化收益的关键。

AI有潜力揭示以前无法触及的科学发现。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

《西部世界》真来了!斯坦福爆火「小镇」开源,25个AI智能体恋爱交友

【导读】斯坦福25个AI智能体「小镇」终于开源了,GitHub狂揽3.9k星,《西部世界》即将走进现实。

准备好,此前曾轰动整个AI社区的斯坦福智能体小镇,现在已经正式开源!

项目地址:https://github.com/joonspk-research/generative_agents在这个数字化的「西部世界」沙盒虚拟城镇中,有学校、医院、家庭。25个AI智能体不仅能在这里上班、闲聊、social、交友,甚至还能谈恋爱,而且每个Agent都有自己的个性和背景故事。不过,它们对于自己生活在模拟中,可是毫不知情。

英伟达高级科学家Jim Fan评论道——

斯坦福智能体小镇是2023年最激动人心的AI Agent实验之一。我们常常讨论单个大语言模型的新兴能力,但是现在有了多个AI智能体,情况会更复杂、更引人入胜。一群AI,可以演绎出整个文明的演化进程。

现在,首先受到影响的,或许就是游戏领域。总之,前方有无限的新可能!

网友:众游戏厂商们,你们懂我意思吧?

很多人相信,斯坦福的这篇论文,标志着AGI的开始。

可以想象,各种RPG和模拟类游戏都会用上这种技术。网友们也非常激动,脑洞大开。有想看神奇宝贝的,有想看谋杀探案故事的,还有想看恋爱综艺的……「我已经等不及看AI智能体之间的三角恋剧情了。」

「《动物之森》中重复、沉闷的对话,所有村民共有的一维人格系统,都太令人失望了。任天堂赶快学学吧!」

「可以让《模拟人生》移植一下这个吗?」

如果能在《神界》这样的经典RPG游戏中,看到AI在NPC上运行,整个游戏体验都会被颠覆!」

有人还畅想:这项技术在企业空间中也有很多应用场景,比如员工如何和不同的工作环境/流程变化互动。

当然,也有人表示,你们激动个啥?其实我们一直都生活在这样的模拟中,只不过我们的世界有更多的算力罢了。

是的,如果我们把这个虚拟世界放大到足够多倍,我们肯定能看到自己

Karpathy:AI智能体,就是下一个前沿

此前,前特斯拉总监、OpenAI大牛Karpathy就表示,如今AI智能体才是未来最前沿的方向。OpenAI的团队最近5年把时间花在了别的地方,但现在Karpathy相信,「Agent代表着AI的一种未来。」

「西部世界」中的25个AI智能体

在美剧《西部世界》中,被预设了故事情节的机器人被投放到主题公园,像人类一样行事,然后被重置记忆,在新一天再被投放进自己所在的核心故事情节。

而在今年4月,斯坦福和谷歌的研究者竟然构建出了一个虚拟小镇,让25个AI智能体在其中生存、从事复杂行为,简直堪称是《西部世界》走进现实。

论文地址:https://arxiv.org/pdf/2304.03442.pdf

架构

为了生成智能体,研究者提出了一种全新架构,它扩展了大语言模型,能够使用自然语言存储Agent的经历。随着时间的推移,这些记忆会被合成为更高级别的反射,智能体可以动态检索它们,来规划自己的行为。最终,用户可以使用自然语言和全镇的25个Agent都实现交互。

如上,生成式智能体的架构实现了一个「检索」功能。这一功能将智能体的当前情况作为输入,并返回记忆流的一个子集传递给语言模型。而检索功能有多种可能的实现方式,具体取决于智能体在决定如何行动时考虑的重要因素。生成式智能体架构面临一个核心挑战,就是如何管理大量必须保留的事件和记忆。为了解决这个问题,架构的核心是记忆流(memory stream),即一个记录智能体全部经验的数据库。智能体可以从记忆流中检索相关记忆,这有助于它规划行动,做出正确反应,并且每次行动都会反馈记录到记忆流中,以便递归地改进未来行动。另外,研究还引入了第二种类型的记忆——反思(reflection)。反思是智能体根据最近经历生成的高级抽象思考。

在这项研究中,反思是周期性触发的过程,只有当智能体判断最近一系列事件的重要性评分,累积超过设定阈值时,才会启动反思机制。生成式智能体为了创建合理的规划,它们会自上而下递归生成更多的细节。而这些规划最初只是粗略的描述了当日所要做的事情。

在执行规划的过程中,生成智能体会持续感知周围环境,并将感知到的观察结果存储到记忆流中。通过利用观察结果作为提示,让语言模型决定智能体下一步行动:继续执行当前规划,还是做出其他反应。在实验评估中,研究人员对这一框架进行了控制评估,以及端到端的评估。控制评估是为了了解智能体能否独立产生可信个体行为。而端到端评估,是为了了解智能体的涌现能力以及稳定性。比如,Isabella策划一个情人节party邀请大家来。12个智能体中,7个人还在考虑中(3个人有了别的计划,还有4个人没有想法)。这一环节与人类相处模式很相似。

像真人一样交互

在这个名为Smallville的沙盒世界小镇中,区域会被标记。根节点描述整个世界,子节点描述区域(房屋、咖啡馆、商店),叶节点描述对象(桌子、书架)。智能体会记住一个子图,这个子图反映了他们所看到的世界的各个部分。研究者编写了一段自然语言,来描述每个智能体的身份,包括它们的职业、与其他智能体的关系,作为种子记忆。比如,智能体John Lin的种子记忆就是这样的——

John Lin是一名药店店主,十分乐于助人,一直在寻找使客户更容易获得药物的方法。John Lin的妻子Mei Lin是大学教授,儿子Eddy Lin正在学习音乐理论,他们住在一起,John Lin非常爱他的家人。John Lin认识隔壁的老夫妇Sam Moore和Jennifer Moore几年了,John Lin觉得Sam Moore是一个善良的人。John Lin和他的邻居山本百合子很熟。John Lin知道他的邻居TamaraTaylor和Carmen Ortiz,但从未见过他们。John Lin和Tom Moreno是药店同事,也是朋友,喜欢一起讨论地方政治等等。

以下就是John Lin度过的一天早晨:6点醒来,开始刷牙、洗澡、吃早餐,在出门工作前,他会见一见自己的妻子Mei和儿子Eddy。

就这样,当模拟开始时,每个智能体都有属于自己的种子记忆。这些智能体相互之间会发生社会行为。当他们注意到彼此时,可能会进行对话。随着时间推移,这些智能体会形成新的关系,并且会记住自己与其他智能体的互动。一个有趣的故事是,在模拟开始时,一个智能体的初始化设定是自己需要组织一个情人节派对。随后发生的一系列事情,都可能存在失败点,智能体可能不会继续坚持这个意图,或者会忘记告诉他人,甚至可能忘了出现。幸运的是,在模拟中,情人节派对真实地发生了,许多智能体聚在了一起发生了有趣的互动。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

硅潮访谈录|百度CIO李莹:AI原生思维重构办公场景

6月底的一天,顶着北京的高温,我们在位于上地十街的百度大厦拜访了百度CIO李莹女士。

大语言模型的出现对全球所有科技大厂来说都是一道分水岭,前瞻布局的微软重新站在了硅谷之巅,十年磨剑的百度也成为万众瞩目的对象,甚至我们在海淀的咖啡馆里遇到挂着百度工牌的程序员,都要忍不住多瞄两眼。

百度的确有很强的先发优势。从算力层的AI芯片昆仑芯,到框架层的PaddlePaddle(飞桨),到模型层的文心大模型,再到应用层面的搜索、文库、协同办公软件等,百度在AI链条上的每一个环节都有布局,“全栈”的优势明显。

深耕AI十年,此刻又站在新一轮科技革命的前夜,百度如何快速拥抱变化?大模型又从哪些方面改变了百度做产品的理念?以及在大模型最先影响的办公场景中,催生了哪些新的变局?带着这些问题,我们拜访了百度CIO李莹女士。

李莹博士2004年正式加入百度,曾先后带领过百度自然语言处理、推荐与个性化、知识图谱、AI技术生态、百度地图等多个核心业务。她现任百度集团副总裁、百度集团首席信息官(CIO),全面负责企业智能信息系统建设。

在访谈中,李莹的观点非常鲜明:生成式AI革命带来的不仅仅是一种可以嵌入到产品里的技术元素,更是一种新的基于AI原生的思维方式。

李莹通俗地用“Native Language(原生语言)”做了类比:母语就是原生语言的代表,我们一切思维的起点都是通过母语逻辑进行思考,表达自然而然发生;同样,AI原生思维需要回到问题的的起点,用AI的视角来思考、用AI的框架来分析,用AI的方式来解决。

比如通常我们预定一次出差行程,需要跟5~10个不同的软件接口打交道,涉及到日程、交通、酒店、资料等。在过去几十年的办公信息化场景下,人们习惯了在不同的应用之间来回切换,传统的软件思维,是我如何来改善这些接口的调用方式和处理效率。

而在AI原生思维的框架下,需要回到“如何帮助用户安排出差的一切”这个原始出发点来思考问题,比如是否能够让用户只需要对接一个助理式的入口,这个“助理”可以自然地跟用户交互,处理一切流程,而用户不需要关心这背后有多少系统能力甚至接口数量。

起点一旦发生了变化,产品设计、交互方式、流程设计、系统构建,直至底层的研发范式都会被重塑。就好比一个人更换了一种原生语言,不光口头的表达要切换成另一种语言,大脑中的思维方式也要按照新语言的语法和范式来进行组织。

用思维来驱动表达,而并非仅仅在表达层面进行改善。如果仅仅用传统思维来考虑“AI赋能”、“效率提升”这些课题,容易抓不住核心矛盾。

但难点往往也在于思维模式的转变。大语言模型如同加速器,一下打破了大家原有的状态,但惯性使然,并非所有人的状态都能快速切换。李莹也看到了这点,她在带领团队不断锤炼“AI原生思维”的同时,也在快速推动产品重构,加快办公场景的生产力提升。

作为一名“技术浓度”极高的管理者,李莹在谈及生产力变革的话题时直言不讳:这个时代如果你不会使用AI工具,很大可能会被淘汰。尤其在她眼里,高知识密度的协同办公场景天然追求效率,与大语言模型的相遇,带来的一定是场一拍即合的效率革命。

由于“近水楼台”,百度内部能够率先用上大模型的能力。比如百度旗下的智能工作平台「如流」,在百度内部已经全面搭载了文心一言——在工作人员的演示中,如流将“超级助手”作为AI能力的入口,随时可以被唤起,能够智能地帮助用户完成大量工作。

现场演示时,在“超级助手”的聊天界面中简单输入“下周我要请假五天”这么一句话,超级助手能够调用来自不同模块甚至平台的能力,不但能够自动生成请假申请界面、显示各类假期的余额,还能直接跟其他的同事协调已经计划好的会议等,俨然一个真实的助理。

令人印象深刻的还有:在我们访谈期间,百度的智能会议系统一边在做会议纪要,一边用“会议洞察”能力划分不同议题,总结出议题、观点、核心发言等重要信息。当访谈结束的时候,一份成熟的会议纪要便发给了参会的所有人。

我们在观看演示时的一种强烈感受是: 如流的“超级助手”并不是简单地“接入”百度的大模型,在UI界面上添置一个对话框,而是回到产品设计的出发点,洞察办公场景下用户的根本需求,用AI的方式去“端到端”解决问题。

在李莹看来,用AI原生思维来重构办公场景的工作才刚刚开始。办公场景如今是大模型应用层竞争最激烈的“八角笼”,对手从四面八方涌来,里面既有老牌的传统办公软件,也有用户需求敏感的协同办公玩家,还有瞄准崭新场景的AI创业公司。

在大模型浪潮的推力之下,办公场景一定会出现新的打法、新的产品、新的生态甚至新的格局。机会已经出现在远方的地平线上,只有产品力、模型力、执行力都完备的公司,才能真正的屹立潮头,笑到最后。

以下,是硅基研习社与百度CIO李莹女士的对话正文。

AI原生思维重构办公场景

硅基研习社:在办公和企业内部信息化领域,您提到过“AI原生思维”的概念,具体怎么理解?

李莹:我们可以先用一个概念来理解原生,就是Native Language(原生语言)。原生语言代表你的母语,你所有思维的起点都是通过母语的逻辑来思考的,你不会在张口说话之前还要考虑中文怎么说,这是对原生的解释。

什么叫AI原生?首先要定义解决的问题是什么,然后用AI的方式彻底解决它。反过来说,可能有些产品在AI之上做的是接入、整合或者赋能,在局部接入了一个AI的能力,例如增加一个改写或者提示等,这只是在产品层面做了AI的赋能。

如果要用AI解决根本问题,需要了解的其实是,员工为什么要在这写文档?为什么需要有一些资料的提示?分析根本需求后,用AI端到端去解决,这个逻辑会改变用户和需求之间的关系,这是一个大的逻辑,这种才是颠覆,才是全面的重塑。对产品而言,意味着从交互到流程,再到整个系统,都要为之改变,乃至实现系统过程对应的研发范式也会改变。

到最后,大家可能不会再提“AI原生”这个词,现在提是因为还在想“是什么”。一旦它成为我们的一个原生思维逻辑,比如交互上大家默认想到的就是用自然语言交互的方式优先,对应的设计、产品、系统、研发都会改变。

硅基研习社:百度在做一些产品开发时,AI原生思维对你们意味着什么?

李莹:业界有一种说法,大模型时代来了,每个产品都值得重做一遍,但是谁能真正重做一遍?百度CEO李彦宏说过,百度要做第一家公司,不是整合,不是接入,是重做、重构。

同时他也强调,一定要去做AI原生的应用,有多少大模型不关键,最关键的是有多少个AI原生的应用。应用层的突破,才能真正在这个领域获得巨大价值。

硅基研习社:前面提到从生产到研发,用AI思维重新组织程序怎么编写,模块怎么构建,甚至整个项目怎么开发推进,我们知道OpenAI的程序员可能本身就用GPT写代码,百度现在是不是也在内部做生产力的变革?

李莹:百度去年9月份就已经基于大模型做了代码生成工具Comate,现在又基于“文心一言”升级了更多丰富和高级的能力。我一直也在跟团队强调,要充分利用AI工具,要通过人机协同,在我们的研发过程中,帮助工程师去大幅提升编码效率。我们也会观察推荐的代码有多少会被员工采纳。

近期,Comate又上线了单元测试生成、代码注释、测试用例生成等新能力,这些新能力意味着整个研发过程中,有更多的工作都可以用大模型去支持。在软件研发领域,Comate的产品能力达到了国内领先水平。

虽然这一步已经对现在的生产力起到了很大的提升,但这其实也还不够。我们再往后看,未来研发的工作都会基于MaaS(model as a service),研发过程也会变成以数据驱动的,并且是面向大模型友好的,整个研发过程和方式都会进行重塑。

比如,原来的研发过程主要管理代码,但现在需要管理模型,因为有不同版本的模型;也需要管理模型相关的数据,比如预训练数据、精调数据,数据管理会变成研发管理里面像代码一样重要的东西。随之而来也包括Prompt怎么管理?这些都是我们研发过程中需要考虑的。

硅基研习社:是不是对于每一个百度员工来说,有了一个新的工具,对于他们的技能考核,或者未来的能力模型都会发生很大的变化?

李莹:我认为是的。针对办公领域,在交互模式、需求满足方式、工作流程这些维度一定都会变化。

对企业而言会带来很重要的三个维度的改变:一是产品设计逻辑和产品架构会被重塑;二是业务模式和流程会被重塑;三是组织和人才结构一定会有变化,配套的组织能力、人才要求、评价机制等等也会发生变化。当然这是一个过程,但我认为一定会走到那一步。

一场一拍即合的效率革命

硅基研习社:大模型火爆以后,办公领域是被提及最多的重塑场景之一,您怎么看待大模型对办公领域的影响?

李莹:在协同办公领域,大模型能够在这个领域率先产生更彻底、更深入的变化。为什么这么说?人工智能带来了第四次科技革命,其中一个最重要的驱动因素就是AI大模型,这也是业界共识。科技革命意味着整个生产力会颠覆性的提升,这个提升是全方位的,社会、生产、生活都会受到影响。

那为什么会在协同办公领域首先产生价值?第一,生产力变革带来效率提升,而整个协同办公领域追求的目标,就是极致的效率,这一点跟生产力变革完全吻合。

第二,在知识经济时代,一切都已经是信息化的,知识工作者的工作效率需要被赋能,企业也都希望企业的知识不流失,员工可以更快的成长,而大模型刚好是对世界认知的压缩,我们看到最早被赋能的是图像和写作,也正是因为这些技能是知识型的,因此知识工作者会最先被大模型技术赋能。

所以总结起来有两点:一是效率目标和办公领域要实现的目标是完全一致的;二是现在知识工作者贯穿在所有行业中,大模型对知识类工作又是非常擅长的。在这种情况下,不管是企业还是员工,都能首先感知到对他们带来的影响。

所以我认为,大模型在办公领域一定会最先产生彻底深入的变化,行业会存在一次重新洗牌的机会。技术从量变到质变,对大家来说都是一次机遇,谁能够有更好的能力积累、更快的转变、跑出更好的产品,谁就能先抓住这次机遇。

硅基研习社:大型互联网巨头很多都会把内部的效率工具转为对外的产品,每家产品都代表着自己的组织文化或者一种管理方式,甚至一种价值观在里面。在AI时代,是不是百度也有可能用我们AI的能力把这个工具做得比他们更加超前或者更加好用?

李莹:百度最早做搜索,AI技术也都是从搜索和推荐的产品上最早发展起来的,我们对知识和信息的理解是很深刻的,也有很好的内容生态。我们在2020年把百度Hi转型成如流,百度Hi作为内部IM工具已经积累了十多年,转型如流的目标,就是要把百度AI和知识管理的能力在企业方面做好,把百度做成最佳实践,同时赋能给更多企业。

现在这个阶段,我们在新的AI大模型能力应用上,也特别希望更多的企业都能用上。我们不是简单地把AI能力叠加上来,做产品的赋能,而是要设计一套完整的框架,能够让企业插上AI大模型的翅膀。

硅基研习社:您刚才也讲了,协同办公行业可能未来会重新洗牌,那内部对协同办公商业机会的判断是什么级别?这个行业本身在中国,以前经常说前有微软,后有盗版,整个市场相对来说也不是那么大。但是一旦我们用了智能助手(大语言模型能力接入后的在线功能),如果能够用的话,一定是在线的,一定是进入到我们企业云端的,付费模式跟以前License完全不一样,这个市场机会是不是会很大?

李莹:我认为,在办公这个领域有了这些新能力会有新机会,在中国的市场上会有大的增量。新机会下,服务和收费的方式一定会转到哪一种?还需要进一步探索和验证。但最重要的是让企业看到价值,愿意买单。当有新的技术内核赋能之后,市场会进一步打开,大家对于它的期待和需求会增高,在这里面会做出更多创新的东西。

譬如,大家感受最强的在线会议,以百度为例,从百度从大厦到百度科技园,原来开会必须是班车,来回平均一个人开会节省15分钟,进一步的,在线会议能够基于大模型主动识别并记录会议主题、生成会议记录和待办,这种提效大家明显感受得到,也可以衡量出节约的时间和成本。只要认价值,就有人买单,原来办公市场不好做的是大家很难看清楚它的价值。

硅基研习社:协同办公,包括传统办公这个领域这么多年发展下来,国内有些人用互联网的方式来做,有些人用传统的方式来做,这次是不是大家都在一个起跑线上?

李莹:我认为不完全是。这确实是一次变革的机会,但大家对于技术拥抱的程度、对于技术理解的程度、对于技术积累的深度不同会形成新的差距。比如是否知道大模型的边界是什么,大模型最核心的要素是什么,怎么理解它对整个行业的价值。说到根本,还是我们对这个事情的认知有多深,积累有多深,以及有多快地拥抱这种变化,在这次变革中是很重要的。

硅基研习社:而且执行力也是很重要的一个因素,包括产品和落地的能力。

莹:是的。

硅基研习社:如流整个团队,您觉得应该怎么样描绘他们的使命愿景?

李莹:我们的愿景是打造基于AI和知识管理的创新流水线,驱动企业提效创新,增强企业核心竞争力。核心的目标,就是我们要为企业做到效率的极致。因此,我们围绕着现有的事情,洞察根本需求,用AI的方式端到端解决工作场景的问题。

其实我们的团队从成立那天起,我就和大家说我们是以使命驱动的,百度相信用技术让复杂的世界变得更简单。在新的时代机遇下,我们要用先进的思想和工具提效创新。整个团队都非常鼓励创新氛围,跟踪前沿,不断突破,并脚踏实地往前走。

打造无处不在的超级助手

硅基研习社:如流产品端会怎么变化?例如以后可能从GUI变成LUI,很多按钮可能就会消失了,目前已经有这些改变了吗?

李莹:我们在今年4月份就在百度内,面向全员发布了基于文心一言的很多如流的全新功能,比如文档内容生成,以及超级助手、IM消息智能总结、智能会议洞察、小K研发助手等等,大家都明显感受到了这些产品带来的提效变化。在大公司中,用AI原生去重构工作平台,我们应该是第一家推出给全员使用的。

我们的智能工作平台分成三个板块:一是通用办公,包括超级助手、IM、会议、知识库等;二是经营管理场景,包括HR、财务、市场等经营管理系统;三是研发。

硅基研习社:为什么是这三个模块?在办公场景中,百度致力于解决什么样的核心问题?

李莹:首要考虑是为了提升员工的效率,一定要找到员工最花时间的事情,从这些事情入手才最有价值。

当时我们讨论出来的第一个场景就是代码,因为百度非常重技术,研发工程师占比很高,大家主要时间都在写代码。第二个场景是各类Paper work,实际上大家除了写代码,就是写文档、写周报等等,而且Paper work是大家最早认知到是大模型最擅长处理的。第三个就是沟通场景,包括开会和即时沟通。

这三大场景是我们最先选中的场景。延伸出来第四个场景是我们的工作流、任务流,因为每天大家都要在各个系统间做各种操作,比如要到ERP里操作人员的入离升降调,去差旅系统上提单,所有的工作都是在各个不同的任务系统上操作的,每天也会花费大量的时间。所以我们是从这四个大的场景入手,去考虑怎么提升效率。

我们添加的能力都是基于以上切入点,比如Comate智能编码,可以进行代码续写,结合NL2code的能力,可以做代码的注释、单元测试、生成测试用例等等。Paper work工作则集成在如流知识库里,包括文档的洞察、写作,这是一大类。

沟通层面我们做了会议场景和IM场景,有会议的AI洞察、要点标记、AI会议纪要等,AI洞察会分章节,不同的段落会分出不同的议题,后入会的人也可以直接看到前面讨论的内容和要点。

还有IM智能转发、未读消息智能总结,例如入群以后有很多未读消息,这时就会自动生成简明扼要的摘要总结,我们就可以看一下这段未读到底在说什么,大家觉得非常有价值,它可以快速让你获取到信息。当初IM智能转发功能刚一上线,我们就收获了公司内的一大片好评。

这里面最核心的是,我们要打造一个人人都拥有的超级助手。让员工在编码、沟通、知识阅读与创作和各工作流等不同场景中,都可以随时随处唤起,时刻陪伴左右。超级助手以自然语言交互为主,『端到端』地极致满足用户需求,小到一个知识点,大到复杂的流程审批,都能直接满足。

比如,过去要在对话或会议模块发起会邀日历,而使用超级助手,直接用自然语言发出需求,就能直接完成会邀创建。再比如,过去找文档,如果用户忘记文档的标题名称,往往需要在会议记录,或者群聊消息中,进行多步翻找操作才能找到文档,现在只要向超级助手描述需求,就可以直接获得目标文档。

这必然会颠覆用户和系统之间交互方式,用户只需要给出自然语言,至于如何理解需求、如何整合系统、生成答复,这些都交给超级助手去完成,也可以说,很多冗长的过程都被AI大模型能力给『折叠』了。

硅基研习社:超级助手产品设计的思路和背后逻辑是什么?

莹:我们的目标是想打造一个人人拥有的超级助手,它具备三个特点:一是懂你;二是知识丰富,能读会写;三是实时陪伴,有手有脚,能够帮你去执行任务。

这个目标有几层逻辑,“懂你”代表了解企业和员工,比如能够了解某个员工,是哪个部门、负责什么业务,还可以知道你当下的状态,是在开会还是忙其它事情。在此基础之上,它具有丰富的专业知识,帮你读、写,并且能够帮助你去完成很多系统内的工作任务。

超级助手是无处不在的,首先有一个主端,让人有形象化的认知,可以直接被找到。同时这个无处不在还在于,在系统中的具体场景下,也可以随时找到它。

在这个过程中,我们重塑了两个流程:一是员工工作流程,现在传统办公要在很多系统、应用间来回切换,但拥有超级助手,就可以在一个入口,通过自然语言交互的方式,获取不同系统的功能。

比如,如果我下周三到周五要到上海出差,通过跟助手的交互,助手可以帮我把日程设好、完成差旅航班和酒店的推荐和预订,甚至可以生成出差需要的客户谈判资料,等等。这重塑了我们原来处理这些工作的流程,员工只需要在这个入口操作,不需要关心背后的系统是什么,这就是一种AI原生的思维,是一种对人更友好和自然的方式。

二是重塑了IT系统的实现流程。传统的IT系统每个系统都要做得非常重。但是当通过统一入口去交互,同时背后的每一个系统的能力被原子化、插件化,比如差旅系统的预订能力、日程设置能力都成为大模型系统插件,被超级助手调用,将系统改造成是对模型友好的,重塑系统实现流程。

硅基研习社:也就是说,不是先有系统,而是把系统都打散了,用模型调用系统,有各种能力,模型对接能力就行了?

李莹对。这样的话,对于员工来讲是非常友好的,一个入口就可以完成各种工作任务。对于系统来讲,要做的就是怎么让模型能够理解系统具备的各种能力,这是非常重要的。

硅基研习社:产品模块上线花了几个月时间?

李莹:刚才给你展示的这些功能,很多都是随着文心一言的发布,四月份以后陆陆续续上线的,并且都已经全员使用,前后差不多三四个月的时间,我们研发周期还是很快的。

但实际上还有一些基于大模型的产品从去年就开始上线使用了,比如刚才提到的Comate,今年主要是基于新一代的AI大模型去拓展更强的能力,我们的产品之所以迭代的快,也是得益于我们能力的积累。

硅基研习社:在您看来,之前协同办公软件中工作台里面各种小模块化的功能,是不是在百度的规划里面,未来这些会全部重新被打乱?围绕这个超级助手进行重构?

李莹:不可能所有的工作习惯一下子全部重来,这个肯定不现实。不过要往这个方面演进,系统要基于新的调用方式逐步改造。

硅基研习社:看到去年的公开报道,包括近几年您也一直在强调用AI进行“知识管理”这个理念,而且知识管理还要做拆解、分发、组装的动作,现在更多是对知识的理解和生成。当大语言模型来了,知识管理还重要吗?为什么?

李莹:我们认为技术可以给知识管理带来颠覆性的改变,知识在企业里最重要的就是要沉淀好、要在员工中流动和应用起来。但是实际上知识管理很难做,因为人走了,知识就流失了,而且它的价值很难被量化衡量。

关于创新流水线的概念,去年我们讲要用大模型+知识图谱的能力,使得知识被拆解、分发、组装。大模型可以学习异构知识,并通过搜索和推荐的能力去分发,同时在创新工作中生产的知识会进一步沉淀回系统。

在这么一个逻辑之下,知识可以不断地循环流动起来。我们的员工可以站在“巨人的肩膀上”做创造性的工作。但是,组装,也就是形成真正你需要的知识单元,是很难的。但是现在大模型技术的突破,就刚好解决了这个问题。

现在,我们换了“文心一言”最新的大模型引擎之后,把拆解、分发、组装升级成了理解、生成、执行。并且,现在的知识已经不仅仅是文本知识,还包括了工作中的流程和任务,加入了执行后,这套流水线不仅帮助员工更加快速地获取知识,同时能够帮助员工完成工作流程中的任务。AI×知识管理,演化出这样一个超级助手,会帮助员工非常快速地在创新流水线中循环和反馈,更加高效地帮助员工提升效率。

硅基研习社:您刚才提到的这些知识,是企业独有的知识,还是说都是文心一言的知识?

李莹:都有,有通用知识,也有企业知识。就像我刚才提到的,我们基于文心一言的底座大模型,将企业的知识和工作流全面整合,这样才能让企业知识的管理产生倍增的收益。

我们理想的目标希望可以更加个性化的,比如说个人风格,给戴老板推荐的智能总结或者创意文案就是带有戴老板写作风格的内容,那个才是真正的『人人』都拥有的超级助手。

硅基研习社:所以是不是未来企业的知识管理都会因为AI大模型发生很大的变化?你认为会带来什么新的改变?

李莹: 肯定会发生改变。

我们提出 “创新流水线=AI×知识管理”的根本原因就是基于大语言模型的技术发展。传统知识管理以IT+咨询为主,一直没有取得很好的应用进展,我们也跟这样的一些企业讨论过,大家理念差异还是很大,实践和价值衡量的难度也非常大。而大模型最重要的就是对世界知识的压缩,实现智能涌现,具有鲜明的“以知识为核心”的特征。

所以,在知识经济的时代背景下,几乎人人都是知识工作者,所以知识管理不仅会成为首先被变革的方向,更会在企业中变得更加重要,最先能够感受到这波浪潮的甚至颠覆工作方式的也一定是知识型企业和知识工作者。

随着大模型能力的不断升级,会进一步加快变革的进程,能够让知识在企业里能够有效沉淀、快速流动,最终提升企业员工的工作效率和创新效率。

硅基研习社:下一步我们这些产品有哪些重大的想要往前做的方向?未来是否企业办公软件和系统可能都要被重新做一遍?

李莹:要做深做透我前面讲的这些工作,甚至未来把更多的新能力做进去,把系统的壁垒打破,让超级助手具备除了读和写,还能有更发达的“手”和“脚”的能力,这已经是一项非常大且极具想象力的工程。

它意味着『端到端』的重构产品交互模式、用户与需求之间的满足方式,乃至工作流程的全方位变革。它也必将为企业的IT系统建设创造更多空间,当整个工具技术框架做好,各个系统都可以在里面去建设自己的能力,这就是AI原生应用将会对整个产业带来的深刻影响。

协同办公类软件和系统都值得被重做一遍。一方面,新的技术带来了新的市场需求和预期;另一方面,在技术发展、市场需求提升的情况下,企业需要建立新的竞争优势和壁垒,竞争格局也会重构。对于产业和用户来说,这些新机会新变化都应该被积极拥抱。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

生成式人工智能在农业中的应用

随着人工智能技术的不断发展,生成式AI已经成为各个行业随着人工智能技术的不断发展,生成式AI已经成为各个行业所追求的热点之一。在中国,随着企业对生成式AI的需求不断增长,市场空间也在进一步抬高。中国生成式AI行业的发展趋势也非常明显。首先,企业对生成式AI的需求将会继续增长。随着市场竞争的加剧,企业需要利用生成式AI技术来实现差异化竞争。其次,生成式AI技术的应用场景将会越来越广泛。未来,生成式AI技术将应用于更多的行业和领域,为各个行业的发展带来新的机遇。

由于生成式人工智能(AI)可能提供的有价值的观点和提高的生产力,农业行业具有巨大的变革潜力。生成式人工智能有潜力通过利用复杂的算法和检查海量信息来彻底改变农业的许多方面。

以下是一些生成式人工智能在农业中的应用领域:

农作物优化和预测:生成式模型可以分析大量的农业数据,包括土壤、气候、作物生长情况等,从而预测最佳的种植时间、施肥量和灌溉方案。这有助于最大程度地提高农作物产量,减少浪费,并节约资源。

病虫害识别和管理:生成式人工智能可以训练出对不同病虫害的识别模型,通过监测作物图像,及时发现并预测潜在的病害风险。这有助于农民及时采取措施,减少病虫害对产量的影响,同时也减少了农药的使用。

精准农业:生成式模型可以结合传感器数据、卫星图像等信息,实现精准的农业管理。这包括根据土壤质量和植物状态调整灌溉和施肥策略,以减少资源浪费并提高作物品质。

气候适应性:生成式人工智能可以帮助农民预测气候变化对农作物产量和品质的影响,从而调整作物种植选择,以适应不断变化的气候条件。

农产品质量检测:生成式模型可以分析图像、声音和其他传感器数据,用于检测农产品的质量和成熟度。这有助于确保农产品符合标准,提高市场竞争力。

农业机器人和自动化:生成式人工智能可以用于开发智能农业机器人,这些机器人可以自动执行种植、收获、除草等任务,从而减轻人工劳动压力,提高生产效率。

市场预测和供应链管理:生成式模型可以分析市场趋势和消费者需求,帮助农民和农业企业预测市场需求,优化产销匹配,减少食物浪费。

作物育种和基因进步:通过加速基因进步,生成式人工智能有可能彻底改变作物育种。

通用人工智能(AI)算法可以通过研究植物遗传学和特征的大型数据库来复制虚拟育种试验。人工智能算法预测各种育种策略的结果,帮助育种者快速找到获胜配对。

需要注意的是,生成式人工智能在农业领域的应用还需要克服一些挑战,如数据收集和隐私保护、算法的可解释性、技术的普及等。然而,随着技术的不断发展和成熟,生成式人工智能有望为农业带来更多创新和改进。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

AI专业术语及释义:让你快速掌握人工智能的基础知识!

自今年初AI开始风靡以来已经过去了大半年的时间。

对于大众而言,在网络各个领域都可能会看到与AI相关的术语,但我们可能无法具体而直观地理解其含义。

为了方便大家理解与学习,以下整理了一份包含专业术语及其释义的材料。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

应对AI诈骗要靠什么?

“想成功,先发疯,不顾一切向钱冲;拼一次,富三代,拼命才能不失败!”
这是正在热映的反诈骗电影《孤注一掷》中,诈骗团伙每天“诈”前动员的口号。
从电影回到现实。数据显示,2022年,全国公安机关破获电信网络诈骗犯罪案件46.4万起,缉捕电信网络诈骗犯罪集团头目和骨干351名,成效显著。
电信诈骗日益猖獗的背后,是诈骗手段逐渐向智能化、组织化、集团化发展的缩影。今年以来,多起利用AI(人工智能)技术实施的诈骗引发大众关注。据公安部日前召开的新闻发布会透露,依托“净网”专项行动,公安机关已破获“AI换脸”诈骗案件79起,抓获犯罪嫌疑人515名。
不难发现,越来越多的不法分子试图搭上AI发展的“技术快车”,威胁着人民的“钱袋子”。

AI诈骗是啥?简单来说,它是利用人工智能技术实施诈骗的新型诈骗手段。虽然听起来不可捉摸,但大体表现为以下几种形式。
形式一:声音克隆。不法分子通过拨打骚扰电话来提取对方的声音,接着对音频素材进行处理,然后用伪造的声音实施诈骗;还有一种方式,则是不法分子在盗取微信、QQ号之后,使用特殊的语音插件,转发之前的语音,从而获取信任。
形式二:AI换脸。和声音合成相比,这种形式更具有欺骗性。不法分子根据收集来的照片和视频生成与目标对象相似的面容,然后给受害人拨打视频电话,以假乱真。
其实,利用AI技术进行音视频合成对大众来说并不陌生。早在前几年,网络上就已经出现了换脸软件。许多不法分子利用AI换脸技术伪造明星的淫秽视频,在网络上传播并获利。由于换声、换脸的技术门槛逐渐变低,越来越多的不法分子对AI技术动起了歪心思。
形式三:定制专属脚本。有人说:“骗子最擅长的,往往不是设计精巧到无懈可击的陷阱,而是充分利用人性的弱点。”不法分子在实施诈骗之前,会通过AI技术搜集各类信息,并根据要实施的骗术对人群进行筛选、分类。
找到目标对象之后,诈骗团队会快速生成诈骗脚本,实施“一对一”精准诈骗。比如,在“杀猪盘”婚恋陷阱中,不法分子就充分利用受害人渴望爱情、缺乏安全感的心理,每天嘘寒问暖、输出浪漫情话,让受害者在甜言蜜语中逐渐卸下防备,从而骗取钱财。
总而言之,AI诈骗的花招越来越多,而反诈骗的难度也越来越大

AI诈骗为何变得这么厉害?
AI诈骗是在人工智能生成内容(AI-Generated Content)和深度伪造(Deepfake)技术发展的背景下产生的。毫无疑问,技术的发展为AI诈骗提供了更多的可能。
从普及范围看,AI技术正在走向大众化。如今,AI技术逐渐普及,正成为一场“全民狂欢”。在手机应用市场,以“AI”作为关键词进行搜索,ChatAi、FacePlay等多款运用AI技术的APP映入眼帘;在B站上,用户只要搜索关键词就能获得大量的开源代码和教学视频;在“AI换脸”小程序上,只需要选择心仪的视频模板,再上传一张自己的正脸照片,就可以实现一秒“换头”。
“杨幂版黄蓉”就是一个很好的例子。早在2019年,就有人利用AI技术把1994版《射雕英雄传》里朱茵饰演的黄蓉换成了杨幂的脸。有网友评价:“杨幂版的黄蓉灵动可爱、毫无违和感,一点也不输给原版角色。”
从技术水准看,AI技术不断更新迭代。随着声音、图像处理技术和人工智能算法的不断升级,利用AI技术合成的音视频质量也得到大幅度提升。如今,AI合成语音不仅可以模仿受害人的语调,甚至还能模仿其口音特征。愈发接近“真实”的AI换脸在诈骗中以假乱真,令人傻傻分不清楚,增加了反诈骗的难度。
从应用情况看,AI技术滥用充斥着网络。在电商直播间,众多“迪丽热巴”“刘亦菲”大喊着“321,上链接!”。AI换脸已经形成了灰色产业链,AI代包服务充斥着市场,“只要钱到位,你想换成谁就换成谁”。
当下,AI技术快速普及,不法分子也无孔不入,纷纷为电信诈骗披上AI“马甲”。这类型诈骗主要是利用受害者的社会关系展开,往往充分掌握了受害者个人的身份信息以及与被换脸对象的社会关系,综合作案。比如,不法分子利用熟人关系、领导下属关系等,拿捏了受害人“不好意思拒绝”的心理实施诈骗,令人防不胜防。
此外,因为缺乏判断力、与社会接触较少,老年人等特殊群体也往往成为不法分子的重点“关照对象”。在去年的热播剧《猎罪图鉴》中,就曾出现犯罪分子利用AI换脸技术,伪装成空巢老人的儿子实施诈骗,最终导致两位老人跳海自杀的剧情。

由于AI诈骗具有链条化、平台化、高成本等特征,目前尚未形成爆发态势。但AI诈骗案件已频频出现,风险正快速积聚,对公民的信息和财产安全造成严重威胁。
面对来势汹汹的AI诈骗,该怎么办?
完善制度,划出AI技术应用的“边界”。近两年,我国出台了《网络音视频信息服务管理规定》《互联网信息服务深度合成管理规定》,对AI诈骗起到了一定的约束作用;8月8日,国家互联网信息办公室公布《人脸识别技术应用安全管理规定(试行)(征求意见稿)》,旨在提升人脸识别技术的规范应用与合规水平。而国家网信办已审议通过的《生成式人工智能服务管理暂行办法》,也将于8月15日起开始施行。由此看来,我国在相关领域的规定正在逐步完善。只有让监管跟上技术发展的“脚步”,AI技术才能沿着法治的轨道行稳致远。
升级技术,用“善AI”对抗“恶AI”。公安机关和网信部门除了要做好信息安全知识的普及工作,加强隐私保护教育,指导公众下载“国家反诈中心”APP之外,还要加强AI诈骗的反制技术研究,与不法分子在AI技术应用的赛场上“赛跑”。比如,可将AI技术应用于诈骗预警、嫌疑人识别等环节中,“用魔法打败魔法”。
保护隐私,铲除AI诈骗滋生的“土壤”。隐私数据是AI诈骗的源头。个人要加强信息保护意识,不随意点击陌生链接、下载陌生软件;不在社交平台上过度分享图片、视频;在使用AI技术进行工作、娱乐时,要谨慎对待,做自己隐私保护的第一责任人。
做“细节控”,擦亮防诈识骗的慧眼。除了要保护好个人的隐私数据,大家在进行语音、视频通话时,更要擦亮慧眼。虽然AI诈骗生成的音视频已经相当逼真,但仍会存在一些细节上的瑕疵。
比如,有些合成的人像瞳孔呆滞、眉毛僵硬、身体比例不协调等,可通过这些细节来核验对方身份,用肉眼识破“科技脸”。同时,不能抱侥幸心理,“永远不要觉得自己不会被骗,只是适合你的剧本还没有出现。”
打击诈骗违法犯罪,任重而道远。和其他诈骗形式相比,AI诈骗预防和侦破的难度都更大,尤其需要在常态化和长效化上下功夫。归根结底,不管AI诈骗如何改头换面,仍改不了其“骗”的本质。未来,AI诈骗的手段或许会更加高明,但只要我们强化反诈骗意识,合力筑牢反诈骗防线,就能够让“天下无诈”成为现实。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群

对话前OpenAI科学家:爱、灭亡和人工智能

左为肯尼斯·斯坦利(Kenneth Stanley),右为乔尔·雷曼(Joel Lehman)

文|郑可书

编辑|刘以秦  

肯尼斯·斯坦利(Kenneth Stanley)不是咨询从业者,但近几个月,他的邮箱堆满咨询邮件。困惑的人们在邮件里问他:“这一切是什么意思?”

“这一切”,指的是ChatGPT的出现,及其引发的AI热潮。自去年11月发布以来,全世界的人都在使用它、谈论它,试图理解它代表的威胁和机会。

研发出ChatGPT的公司OpenAI同样成为热门话题。肯尼斯曾在那里工作。已经错过ChatGPT、担心再次错过新机会的投资人联系到他,想了解他在做什么,因为“任何与人工智能、与OpenAI有关系的人,都可能在做重要的事情”。

OpenAI另一位前员工乔尔·雷曼(Joel Lehman)则接到了世界各地猎头的询问,包括中国。他与肯尼斯于2020年入职OpenAI,并在ChatGPT发布前几个月离开。在OpenAI,他们共同领导的开放性(Open-Endedness)团队,致力于让算法在没有预定目标的情况下自我学习、创新。

此前,他们曾在大学、AI初创公司几何智能(Geometric Intelligence)、优步(Uber)AI实验室工作。2022年离开OpenAI后,肯尼斯创办了一家名为Maven的公司,建立开放式、偶然性社交网络,而乔尔在AI独角兽Stability旗下的Carper领导开放性研究团队。         

他们已在人工智能行业工作多年,但如今技术进展之快、论文数量之多,有时也让他们感到难以跟上。

此刻的中国人工智能行业面对相似的焦虑。业界、学界机构担心错失机会,纷纷发布大模型。5月28日,科技部直属的中国科学技术信息研究所发布《中国人工智能大模型地图研究报告》,称中国10亿级参数规模以上大模型至少有79个。这个数字还在持续增加,竞争越来越激烈,参与者在浪潮中挣扎。多位中国AI创业者告诉《财经十一人》,他们目前最关注的AI议题,是商业模式、变现能力。

肯尼斯和乔尔已经走过为钱挣扎的阶段,他们给出了完全不同的回答。肯尼斯最担心的是,AI会让人远离人性——机器越来越有趣,以至于人会花更多时间与机器交流,而非与人交往。长此以往,社会纽带将会断裂,政府将会瓦解。而他最初对人工智能产生兴趣的原因,恰恰是他想通过了解“智能”来了解人性。

乔尔则关心机器学习如何为个人、社会的开放式成长做出积极贡献。他说,现在的机器学习以一种非常狭隘的方式对待人类,将满足偏好视为促进人类繁荣的唯一途径,这催生了信息茧房,增加人与人的隔阂。人类是丰富而复杂的。“我们可能对某些事物上瘾,可能会做违背自身利益的事情;我们拥有意志力,但有时经过挣扎之后,我们才会做自己真正想做的事。”今年2月,他发表论文《机器之爱(Machine Love)》,探索机器从更丰富、复杂的维度去“爱”人的可能性。

他们使用AI工具辅助工作,但在一些事情上拒绝AI参与。肯尼斯和孩子一起玩时,即便不借助任何电子设备,也能很开心;乔尔很少在写作中使用ChatGPT,因为他“不想自动化真正关心的事情”。

创新是他们关心的另一件事。2015年,两人合著的《为什么伟大不能被计划》出版。他们在书中记录多年AI研究过程中的发现:设定目标,有时会成为阻碍;遵循好奇心的指引,反而能够解决问题、实现创新。该书中文版于今年出版,引发不少中国科技、教育从业者的讨论。

今年5月、6月,《财经十一人》分别与肯尼斯、乔尔进行了一次书面交流、一次视频交流。最关注的AI议题之外,他们还谈到OpenAI的工作体验,美国AI行业的创投环境,以及Transformer的缺陷、AGI(通用人工智能)的到来等技术问题。      以下是肯尼斯、乔尔和《财经十一人》的对话。对话经过整理、删减:

美国投资界的优势在于多样性

财经十一人:在OpenAI工作是什么体验?

肯尼斯:很兴奋,我们能够体验全新的技术。我在学术、商业实验室都工作过,OpenAI和其他研究机构的明显差异是:其他机构有不同的研究小组,小组成员们制定自己的议程,在各自的领域发表论文;OpenAI也有小组,但不同的小组目标一致:我们共有一个使命,并一起朝着这个使命前进。

乔尔:OpenAI是一个令人兴奋的、快速发展的、务实的、严谨的公司。员工可以提前试用模型,让人感觉生活在未来。另外,OpenAI有充足的算力资源,我供职过的其他研究机构都没有这个条件。我们拥有同一种愿景,而这个愿景与其他AI机构或者多数人当时的想法都不同——OpenAI相信规模化,相信使用更多的数据和算力,就能增强模型的能力。

财经十一人:ChatGPT发布后,你的工作、生活发生了什么变化?

肯尼斯:我的邮箱突然接到了大量的咨询请求,好像全世界都对这个领域感兴趣,甚至是恐惧——他们担心自己被落下,因此寻找权威人士,询问这一切是什么意思。还有很多投资人联系我,想找到下一个风口。ChatGPT的成功让他们认为,任何与人工智能、与OpenAI有关的人,都可能在做重要的事情。

关于GPT,在某种程度上,它令人害怕,因为它相当准确地捕捉到了人类认知的某些方面。这不仅是科学上的进步,还具有哲学上的重要意义,因为这些认知是将人类与宇宙中的其他一切区分开来的东西,而它们开始在机器中运转。

乔尔:很多猎头联系我,包括来自中国的。另外,OpenAI如此频繁地出现在新闻中,以至于我的父母第一次如此了解我所在的公司。这种感觉很神奇。         

财经十一人:为什么在2022年下半年、ChatGPT发布前几个月离开OpenAI?

乔尔:我没有预料到ChatGPT会产生如此巨大的影响。OpenAI是一个很棒的做研究的地方,但它的研究总是往一个特定的方向推动;而我和肯尼斯作为研究者,希望参与更基础、更开放的(不限定方向的)探索性研究。正好那时,我们都有其他合适的工作机会,所以我们离开了。

财经十一人:有观点认为,中国的投资机构过于重视被投公司的商业模式与盈利能力,不像OpenAI的投资方那样愿意冒险,所以扼制了创新,导致中国没有做出OpenAI和ChatGPT。你怎么看?

肯尼斯:将OpenAI的融资过程解读为“投资人不应该关心钱”,是错误的。OpenAI的创始团队是世界一流的人才,所以投资人才愿意把赌注放在这里。

财经十一人:美国AI行业的创投环境是什么样的?

肯尼斯:在美国,有足够多的投资人注重理念和愿景、愿意冒险,也有人只看利润。同一个人的想法也会改变,例如,我投资了一个目标不明确的公司,失败、赔钱了,那么下一次我就会更关心商业模式和利润。我认为,美国投资界的优势,就在于观点的多样性。这是一个健康的环境。

我对中国的投资界没有深入了解,但多样性对任何地方都是有益的。硅谷的风险投资产业已经非常成熟,而在中国风投这样相对不成熟的环境里——我没有贬低的意思,因为几乎没有什么地方会像硅谷那样成熟——我可以想象大家非常关注利润和商业化。这样也能投出好公司,但它们不会像OpenAI那样具有革命性。另外,决定投资方向的不仅仅是投资人,还有他们背后的各类机构、基金等。提供科学研究资金的国家机构应该不怕亏损,因为科学研究总是充满风险的;如果没有任何亏损,那意味着他们实际上没有在做研究。但我发现,这些机构反而更保守。这有点讽刺,他们会问:“研究目标是什么?”然后评估目标的可行性,再决定是否给钱。反倒是市场化的投资人会有不同的观点。他们把投资视为一个组合,不在意个别的失败,总体的上涨能够弥补下跌就行。他们有时更愿意说:“我不知道这有什么意义,但它听起来很酷,我要投。”         

Transformer有缺陷,AGI还很遥远

财经十一人:Transformer之后,会有新的架构出现吗?(注:Transformer是Google 在2017 年提出的一种自然语言处理模型,也是今天AI大模型的基础架构。)

肯尼斯:我不相信Transformer就是我们到达的最终架构,这种观点从研究角度看,似乎过于乐观了。但我不能排除这种可能性。也许可以不改变架构,只改变训练方法、提示词(prompt)的长度等其他方面。

提示词中的文本是有顺序的,神经网络确实看到了这个顺序,只是目前能输入的提示词太短了,所以Transformer无法按照时间顺序学习。也许将来会有一些突破,让提示词能够长到囊括整个人类历史,然后模型就可以在提示词中学习。这是一个非常奇怪的想法,但如果可以实现,也许架构将保持不变。

另一个因素是硬件,科学家们会想到非常有趣的新架构,但当前的硬件可能无法承载,这就限制了我们尝试某些方案的空间。

乔尔:Transformer确实非常惊人,可以完成许多任务,但从历史经验看,会出现超越它的方法。

目前Transformer的一个基本缺陷是没有“循环(recurrence)”能力。面对问题时,人类会回顾经验进行学习,过去的某个心理状态能够无限次地反复再现,因此你想反思某件事情多久,就可以反思多久。Transformer也拥有对过去的显式记忆,但这种记忆仅持续特定数量的token(注:AI处理文本的数据单位)。这种范式非常强大,足以使模型具备从输入的上下文信息中学习的能力。但它仍不能像人类那样,将记忆永久保存下来。

我想强调,我并不是说机器学习模型必须像人类大脑一样运作,但目前的研究主流路径是这样。         

财经十一人:有人认为,大模型并不具备像人类一样的思考能力,它只是看起来在思考。

乔尔:这个观点很有趣,但从技术角度看,我不认同。Transformer在没有帮助的情况下进行算术运算的能力非常不像人类,它会犯很基础的错误;但是当你与它交流那些它似乎没接触过的复杂话题(比如试图将22种奇特的哲学思想结合在一起),它可以给出相当令人印象深刻的回应。因此,我认为实际情况可能处于中间位置。

财经十一人:如何定义AGI(通用人工智能)?Sam Altman(OpenAI创始人)在中国的演讲中提到,十年内会有非常强大的人工智能系统出现,我们需要从现在开始做应对的准备,你怎么看?肯尼斯: 我不太关心 AGI 的精确定义。等我们看到它时,自然会知道。我感觉AGI这个词分散了我们的注意力。真正的问题不在于是否到达AGI,而在于,我们在十年内取得的成果,是否会对社会产生重大影响;如果是的话,那么无论它被称为AGI还是其他名字,我们都要做好准备。        乔尔:我认同。科学发展进程总是非线性的,我不知道AGI什么时候会到来,可能很快,也可能很慢。AI很快就会在一些任务上超越人类,某些方面的AGI可能很快就会到来。

这会带来两个问题。“智能”是定义人类的基础,当一个比人类还聪明的东西出现时,人类就处于危险之中。另一件有点恐怖的事情是,很多人从工作中获取意义,当AI将工作自动化,我们就需要将人生意义从工作转向寻找愉悦、做自己喜欢的事。这很好,但转变过程会非常艰难。目前的证据显示,在美国,人们即使有社会保障,也会因失业沮丧,甚至会滥用药物。面对这种可能的未来,我们还没有做好准备。

财经十一人:AGI什么时候会实现? 

肯尼斯:关于这个问题,有很多不同观点。但现实是,没人能知道。智能领域还存在一些尚无明确解法的缺口。

现在比较主流的通往AGI的方法是,基于Transformer,继续增加数据和算力。因为过去这种规模化方法很好地填补了先前模型的漏洞,例如从GPT-2到GPT-3、再到GPT-4的升级。基于此,一些人认为我们正处于AGI的临界点——只需要进一步规模化,就能解决问题。

但有些东西是无法通过规模化改善的,比如创新性。目前的模型无法像人类发明摇滚乐那样,发明一种新的范式。这是一个严重的不足,因为文明的本质就是创新。

存在这个缺陷的原因是,Transformer是通过数据学习,而“创新性”之类的东西并不在数据里。目前,被输入模型的数据不是按时间顺序从头到尾排列的,而是一整个单独的数据块。这导致模型缺少时间概念,而创新是与时间顺序密切相关的。

我们人类始终身处某个特定的时间点,这个点之前发生了什么、还没有发生什么都是默认的,所以我们能知道什么是新的、前沿的;但模型无法判断时间点,它将所有这些东西都视为一团巨大的混合体:它会看到关于汽车的数据,关于太空飞船的数据,关于大型语言模型的数据,但它们都是同时存在的,没有先后之分。因此,模型无法判断什么是前沿的。

另一个例子是幻觉问题(注:“幻觉”即AI生成的虚假或错误信息),即语言模型怎么知道自己知道什么、不知道什么?“知道自己记得什么”不是一个语言过程。如果我问你,你三周前吃了什么?你会说不记得了。但你怎么知道自己不记得?这个过程无法用言语表达,你不能说,我检查了这个,然后检查了那个,所以我知道我不记得了。这更像是一种隐含的、与生俱来的过程,并不涉及语言;如果没有语言,它就不存在于数据中,模型也就无法从数据中获得这个概念。

现在,由于RLHF(Reinforcement Learning from Human Feedback,从人类反馈中进行强化学习,即由人类来训练模型,模型做得好就奖励,做得不好就惩罚)的运用,这些不足也许可以修正。但我认为,只有在模型真正理解它应该知道什么、不应该知道什么的情况下,这种方法才能有效;而只有这些知识隐含在数据中时,它才能真正理解。但目前看来,数据中似乎不存在这类知识。例如,要让模型学会诚实,我们可以在它不诚实时惩罚它,然后它会变得诚实。但这并不意味着它理解了诚实的重要性。这些问题很难通过规模化来解决,有解决办法,但需要更多的复杂性,需要新的洞察和技术突破,不会轻易实现。所以AGI仍然很遥远。

爱,灭亡和人工智能

财经十一人:如今,很多业界人士在警告AI的威胁,强调对AI进行控制和监管。而你研究的AI开放性,是让AI在没有目标的情况下,产生更多新的、让人意想不到的结果,是关于放松控制的。如何看待其中的矛盾?

肯尼斯:好问题。AI作为一门科学,本身就是在寻求进一步的发现和创新。我们应该接受对开放性的研究,依靠它找到平衡——既允许持续发现,又受到足够的限制。

乔尔:对开放性的研究在一定程度上很重要,因为它使我们能够科学地解决贯穿整个技术史的问题:我们如何从开放性过程中获得最大收益,同时降低风险?同样的开放式科学过程为我们提供了治愈疾病的疫苗和环球飞行的飞机,也为我们提供了核武器。创造力和控制力之间的张力很深,需要大量思考和研究。

财经十一人:你现在已经是AI-native的生活状态了吗?   

肯尼斯:不是。我确实在工作中使用AI,但生活中很多事情,比如和我的孩子一起玩,即使没有任何电子设备,也会很棒。我适度使用AI,生活就是生活。

乔尔:我用 ChatGPT(带有 GPT-4)理解新的知识领域,用 Copilot写代码。

但是到目前为止,我还没有在写作中使用ChatGPT(比如我没有用它来回答你的这些问题)。部分原因是它还没有融入我的工作流程。比如,我会用特定的文本编辑器,把GPT集成进去很麻烦。而且,我喜欢写作的艺术性质。也许在未来,它会变得足够容易,能够融入工作流程;但我也有些抵触,因为有时候,你不想自动化你真正关心的事情。

财经十一人:当下,你最关心的一个关于AI的议题是什么?

肯尼斯:我担心我们与人性越来越疏远。我8岁时对AI产生兴趣。它最吸引我的一点是,它能让我更好地理解人,与人产生更紧密的联系。这可能很难理解,毕竟我们这些人看起来只是成天和机器打交道,对人类没有兴趣。但理解“智能”的过程,其实就是在理解人性的本质。心理学也在理解智能,可它只研究运作原理,不研究构建方法;而我一直觉得,如果我不能构建某样东西,我就无法真正理解它。

用机器取代人的情况令我困惑。这就是我所说的与人性的疏远——机器变得足够丰富和有趣,以至于你会抽出时间与机器交往,而不是与人交往。我们看到的图像、听到的音乐、读到的故事,曾经是人类丰富想象力的产物,如今却越来越多地被机器生产。

我受到震动的具体时刻,是第一次看到DELL-E(注:OpenAI的图像生成产品)时。突然间,我意识到艺术可以不是自我表达,它只是艺术。而我一直认为,艺术的可爱之处在于呈现人性。那时,我的孩子大约7岁。他喜欢画画,而这个机器生产的画作质量远超他。这让我对未来非常困惑——这个冰冷的东西没有真正的体验,却会使人们无法欣赏我孩子的自我表达。我不喜欢那样的世界。

像DELL-E这样的技术也可以帮助人类自我表达,但如果走向错误的方向,我们将沉溺于没有人性的东西,停止与人类互动,那时,社会纽带会破裂,政府也会瓦解。摆在我们面前的一个巨大挑战是:如何让人工智能支持有意义的人际联系,而非鼓励隔离与孤独。         

乔尔:目前我最关心语言模型部署到世界的速度。我担心制度(如法律、教育、经济、新闻媒体和政治制度)更新缓慢,适应速度跟不上语言模型的发展速度。

在美国,社交媒体、推荐引擎等系统占用人们大量时间精力。这些系统拥有将我们联系起来的能力,但它们往往只追求用户参与度、停留时长,而非帮助我们改善生活。

似乎我们的所有制度都在这种方式下变成赌博。比如,在美国,为了赢得选举,一些政治候选人不再进行诚实的辩论,而是针对受众心理特点创建广告,激起他们对其他政党的仇恨。机器学习以许多不同的方式参与其中,像是个性化推荐与信息茧房。这也是我将研究方向转到机器学习、哲学交叉领域的主要原因之一。我希望我们能以更有益的方式使用机器学习。

财经十一人:有办法避免这些情况进一步恶化吗?

肯尼斯:一种方法是,鼓励开发增强人类能力的AI工具——将人随口唱的曲子制作成完整作品,促进高质量的人际互动,诸如此类。但人类的本性难以控制。如果与AI交流很愉快,人们就会这样做。这有点像吃糖,甜味让人愉快,但你必须努力控制,不能过度。

我们也需要国际合作,来建立审查与法律框架,还要确定具体责任人。这也很难,涉及经济问题与国际竞争——如果能够实现AI的独立发展,一个国家可以彻底改革全球经济,获得巨大优势。因此,不合作是非常有诱惑力的。         

财经十一人:很多中国AI创业者为商业模式、融资苦恼,他们想聚集资源,做出中国的OpenAI。你不关心钱的问题吗?

肯尼斯:如果我在一个急需钱的创业时期,我也会重视融资;但我似乎已经过了这个阶段——我现在认为,只要我做正确的事情,就能拿到融资。所以我更关注前景,担心没有证据来支持我的想法,而不是钱。

我个人觉得,“成为下一个OpenAI” 不是一条明智的道路,因为通常,你无法再次成为同样的事物。这个事物之所以出色,就是因为它是第一个这么做的、独一无二的。现在,对话机器人领域的竞争非常激烈,而我并不认为自己出色到能赢,所以,我更倾向于思考,有什么与OpenAI完全不同的新东西?

乔尔:我喜欢钱。我很幸运,曾在薪酬丰厚的实验室里工作。但现在,更多的钱并不能让我感觉生活更有意义。  

财经十一人:美国公众在关心哪些关于AI的问题?

肯尼斯:有各种各样的担忧,有人关注长期风险,比如人类的灭绝威胁;有人关注短期,比如就业问题。还有人同时担心所有问题。有人对其他人感到愤怒,认为后者关心的不重要的问题吸引了大量关注,让人们无法聚焦到真正重要的事情上。目前缺乏共识。我认为人们正在整理思绪,确定哪些是当下最重要的、值得我们花费大量时间精力应对的问题。     

财经十一人:论文《机器之爱》的主要内容是什么?

乔尔:“人工智能”是将我们对“智能”的理解植入机器,试图理解智能的本质;“人工生命”是将“生命”进行抽象,并在计算机中模拟生物进化。我尝试将同样的思路应用到“爱”,将“爱”这个概念进行抽象,使得机器能够表现出“爱”。在实践中,这意味着将机器学习的方法与研究爱的领域(如哲学、灵性、心理疗法等)的方法结合。

机器学习的一个问题是,它以一种非常狭隘的方式对待人类,将满足偏好视为促进人类繁荣的唯一方式。从这个视角看,社交媒体重视用户参与时长,就变得可理解了:在机器学习的眼中,你是一个完全理性的个体,因此你在社交媒体上花更多的时间,就意味着它提供了有价值的东西。

但是,人类是丰富而复杂的。我们可能对某些事物上瘾,可能会做违背自身利益的事情;我们拥有意志力,有时经过挣扎之后,我们才会做自己真正想做的事。

在这篇论文中,我采用更丰富的人类行为模型(类似于马斯洛需求层次理论),试图利用语言模型,让机器尊重、促进人类的发展,而不仅仅是给予狭隘的满足。

财经十一人:这听起来与你如今最关心的AI议题紧密相关。你是在寻找解决问题的方法吗?

乔尔:我不敢自称有解决方案,但我希望找到一种积极的前进方式。我对人类、人类心理学,以及人类领域与机器领域如何能够有效结合非常感兴趣。技术是为了人类,为了我们的利益、我们的繁荣而存在的,但有时,我们很容易忘记这一点。

想要做大模型训练、AIGC落地应用、使用最新AI工具和学习AI课程的朋友,扫下方二维码加入我们人工智能交流群