央视AI跑图被痛骂!AI绘图为何是画手雷区?

12月6日,央视公布的龙年吉祥物“龙辰辰”被曝光是由人工智能生成的,引发了广泛争议和批评。央视出面澄清,但由于给出的证据过于薄弱,进一步加剧了骂声。

12月6日,中央广播电视总台2024龙年春晚吉祥物形象“龙辰辰”正式发布亮相。然而,却有网友发现龙的几只爪子手指头数量不一,质疑其为 AI 合成,此事引来骂声一片。

12月7日,央视官方回应,声称“龙辰辰” 是设计老师一笔笔画出来的,并拿出多版线稿澄清。然而,其公布的PS稿件每个仅2-5M左右大小,与实际PS设计稿应有的大小差距极大。

同时,央视国际出品的宣传海报中直接将“龙辰辰”称作“全球首款AI设计的吉祥物”,两者自相矛盾。于是,网友对央视的谴责不断加剧。

为何央视此次的AI跑图为遭到如此抵制呢?AI绘图的原理并非是一般人想象的人工智能画画,而是从互联网这个巨大的资源库中盗取其他画师作品中符合用户要求的板块进行拼接加工,最终出图。这种模式侵害了许多画师的版权,但由于抄袭程度难以判定,因而无法维权。所以,AI绘图成为了画手圈最为痛恨的“尸块图”。早在今年3月,AI绘图的兴起就导致过知名创作平台lofter上画师的集体退圈,因为他们的创作和努力会被人工智能轻易复制和篡改,导致他们的劳动成果受到损害。

另一方面,央视作为国家级媒体机构,应当以身作则,尊重版权。在公布龙年吉祥物前,央视曾声称为其花费了500万,最后的产品却是AI跑图。而且,在被网友曝光后,央视拒不承认,还企图使用AI伪澄清中最常用的线稿来平息舆论,对版权问题极度漠视。央视应该认识到,作为一家国家级媒体机构,它的行为和言论具有示范和引导作用,需要更加谨慎和负责。

AI绘图本来的目的是辅助画手的创作和设计,并降低艺术创作的门槛,但现在却出现了本末倒置的情况。艺术创作是人类的创造力和想象力的体现,不能简单地用机器替代。如何在AI技术的应用中找到平衡点,既能促进艺术创作的发展,又能尊重原创和版权,是一个需要深入研究和讨论的问题。

在面对AI技术的快速发展和广泛应用时,我们应该加强对版权意识的宣传,保护知识产权和版权。既要发挥AI技术的辅助作用,又要尊重和保护人类的创造力和劳动成果。只有这样,才能真正激起社会对原创的热情,激发创造性思维,让艺术真正成为人类文明的瑰宝。

8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿

开源奇迹再一次上演:Mistral AI发布了首个开源MoE大模型。
几天前,一条磁力链接,瞬间震惊了AI社区。87GB的种子,8x7B的MoE架构,看起来就像一款mini版「开源GPT-4」!

无发布会,无宣传视频,一条磁力链接,就让开发者们夜不能寐。

6月,Mistral AI上线。7页PPT,获得欧洲历史上最大的种子轮融资。9月,Mistral 7B发布,号称是当时最强的70亿参数开源模型。

这家成立于法国的AI初创公司,在开通官方账号后仅发布了三条内容。

12月,类GPT-4架构的开源版本Mistral 8x7B发布。几天后,外媒金融时报公布Mistral AI最新一轮融资4.15亿美元,估值高达20亿美元,翻了8倍。如今20多人的公司,创下了开源公司史上最快增长纪录。

所以,闭源大模型真的走到头了?

8个7B小模型,赶超700亿参数Llama 2

更令人震惊的是,就在刚刚,Mistral-MoE的基准测试结果出炉——可以看到,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama 2。

英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了。而它们的性能,或许已经达到了GPT-3.5/3.7的水平。

这里简单介绍一下,所谓专家混合模型(MoE),就是把复杂的任务分割成一系列更小、更容易处理的子任务,每个子任务由一个特定领域的「专家」负责。

1. 专家层:这些是专门训练的小型神经网络,每个网络都在其擅长的领域有着卓越的表现。

2. 门控网络:这是MoE架构中的决策核心。它负责判断哪个专家最适合处理某个特定的输入数据。门控网络会计算输入数据与每个专家的兼容性得分,然后依据这些得分决定每个专家在处理任务中的作用。这些组件共同作用,确保适合的任务由合适的专家来处理。门控网络有效地将输入数据引导至最合适的专家,而专家们则专注于自己擅长的领域。这种合作性训练使得整体模型变得更加多功能和强大。

根据网友分析,Mistral 8x7B在每个token的推理过程中,只使用了2个专家。以下是从模型元数据中提取的信息:

{“dim”: 4096, “n_layers”: 32, “head_dim”: 128, “hidden_dim”: 14336, “n_heads”: 32, “n_kv_heads”: 8, “norm_eps”: 1e-05, “vocab_size”: 32000, “moe”: {“num_experts_per_tok”: 2, “num_experts”: 8}

与GPT-4(网传版)相比,Mistral 8x7B具有类似的架构,但在规模上有所缩减:- 专家数量为8个,而不是16个(减少了一半)- 每个专家拥有70亿参数,而不是1660亿(减少了约24倍)- 总计420亿参数(估计值),而不是1.8万亿(减少了约42倍)- 与原始GPT-4相同的32K上下文窗口

目前,已经有不少开源模型平台上线了Mistral 8×7B,感兴趣的读者可以亲自试一试它的性能。

LangSmith:https://smith.langchain.com/

Perplexity Labs:https://labs.perplexity.ai/

超越GPT-4,只是时间问题?

网友惊呼,Mistral AI才是OpenAI该有的样子!

有人表示,这个基准测试结果,简直就是初创公司版本的超级英雄故事!无论是Mistral和Midjourney,显然已经破解了密码,接下来,要超越GPT-4只是问题。

深度学习大牛Sebastian Raschka表示,基准测试中最好再加入Zephyr 7B这一列,因为它是基于Mistral 7B的。这样,我们就可以直观地看出Mistral微调和Mistral MoE的对比。

有人表示质疑:这些指标主要是对基础模型有意义,而不是对聊天/指令微调。Raschka回答说,没错,但这仍然可以看作是一种健全性检测,因为指令微调经常会损害模型的知识,以及基于QA的性能。对于指令微调模型,添加MT-Bench和AlpacaEval等对话基准测试是有意义的。并且,Raschka也强调,自己只是假设Mistral MoE没有经过指令微调,现在急需一份paper。

而且,Raschka也怀疑道:Mistral MoE真的能超越Llama 2 7B吗?几个月前就有传言,说原始的Mistra 7B模型可能在基准数据集上进行了训练,那么这次的Mistral 8x7B是否也是如此?软件工程师Anton回答说,我们也并不能确定GPT-4没有在基准测试上训练。考虑到Mistral团队是前Llama的作者,希望他们能避免污染的问题。Raschka表示,非常希望研究界为这些LLM组织一场Kaggle竞赛,其中一定要有包含尚未使用数据的全新基准数据集。

也有人讨论到,所以现在大模型的瓶颈究竟是什么?是数据,计算,还是一些神奇的Transformer微调?这些模型之间最大的区别,似乎只是数据集。OpenAI有人提到过,他们训练了大量的类GPT模型,与训练数据相比,架构更改对性能的影响不大。

有人表示,对「7Bx8E=50B」的说法很感兴趣。是否是因为此处的「集成」是基于LoRa方法,从而节省了很多参数?(7×8=56,而6B对于LoRa方法来说节省得很少,主要是因为它可以重复使用预训练权重)

有人已经期待,有望替代Transformer的全新Mamba架构能够完成这项工作,这样Mistral-MoE就可以更快、更便宜地扩展。

毕竟,比起提前剪辑好的视频demo,Mistral AI的宣传方式实在太朴素了。

不过,对于Mitral MoE是第一个开源MoE大模型的说法,有人出来辟了谣。在Mistral放出这个开源的7B×8E的MoE之前,英伟达和谷歌也放出过其他完全开源的MoE。

曾在英伟达实习的新加坡国立大学博士生Fuzhao Xue表示,他们的团队在4个月前也开源了一个80亿参数的MoE模型。

成立仅半年,估值20亿

由前Meta和谷歌研究人员创立,这家总部位于巴黎的初创公司Mistral AI,仅凭6个月的时间逆袭成功。值得一提的是,Mistral AI已在最新一轮融资中筹集3.85亿欧元(约合4.15亿美元)。

这次融资让仅有22名员工的明星公司,估值飙升至约20亿美元。这次参与投资的,包括硅谷的风险投资公司Andreessen Horowitz(a16z)、英伟达、Salesforce等。

6个月前,该公司刚刚成立仅几周,员工仅6人,还未做出任何产品,却拿着7页的PPT斩获了1.13亿美元巨额融资。现在,Mistral AI估值相当于翻了近10倍。说来这家公司的名头,可能并不像OpenAI名满天下,但是它的技术能够与ChatGPT相匹敌,算得上是OpenAI劲敌之一。而它们分别是两个极端派————开源和闭源的代表。

Mistral AI坚信其技术以开源软件的形式共享,让任何人都可以自由地复制、修改和再利用这些计算机代码。这为那些希望迅速构建自己的聊天机器人的外部开发者提供了所需的一切。然而,在OpenAI、谷歌等竞争对手看来,开源会带来风险,原始技术可能被用于传播假信息和其他有害内容。Mistral AI背后开源理念的起源,离不开核心创始人,创办这家公司的初心。今年5月,Meta巴黎AI实验室的研究人员Timothée Lacroix和Guillaume Lample,以及DeepMind的前员工Arthur Mensch共同创立Mistral AI。

论文地址:https://arxiv.org/pdf/2302.13971.pdf人人皆知,Meta一直是推崇开源公司中的佼佼者。回顾2023年,这家科技巨头已经开源了诸多大模型,包括LLaMA 2、Code LLaMA等等。因此,不难理解Timothée Lacroix和Guillaume Lample创始人从前东家继承了这一传统。

有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。这不仅是姓名首字母简写,也恰好是团队正在开发的大语言模型(Large Language Model)的缩写。这场人工智能竞赛中,OpenAI、微软、谷歌等科技公司早已成为行业的佼佼者,并在LLM研发上上斥资数千亿美元。凭借充足的互联网数据养料,使得大模型能自主生成文本,从而回答问题、创作诗歌甚至写代码,让全球所有公司看到了这项技术的巨大潜力。因此OpenAI、谷歌在发布新AI系统前,都将花费数月时间,做好LLM的安全措施,防止这项技术散播虚假信息、仇恨言论及其他有害内容。Mistral AI的首席执行官Mensch表示,团队为LLM设计了一种更高效、更具成本效益的训练方法。而且模型的运行成本不到他们的一半。有人粗略估计,每月大约300万美元的Mistral 7B可以满足全球免费ChatGPT用户100%的使用量。

他们对自家模型的既定目标,就是大幅击败ChatGPT-3.5,以及Bard

然而,很多AI研究者、科技公司高、还有风险投资家认为,真正赢得AI竞赛的将是——那些构建同样技术并免费提供给大众的公司,且不设任何安全限制。Mistral AI的诞生,如今被视为法国挑战美国科技巨头的一个机遇。自互联网时代开启以来,欧洲鲜有在全球影响重大的科技公司,但在AI领域,Mistral AI让欧洲看到了取得进展的可能。另一边,投资者们正大力投资那些信奉「开源理念」的初创公司。

去年12月,曾在OpenAI和DeepMind担任研究科学家创立了Perplexity AI,在最近完成了一轮7000万美元的融资,公司估值达到了5亿美元。风险投资公司a16z的合伙人Anjney Midha对新一轮Mistral的投资表示:我们坚信 AI 应该是开放源代码的。推动现代计算的许多主要技术都是开源的,包括计算机操作系统、编程语言和数据库。广泛分享人工智能底层代码是最安全的途径,因为这样可以有更多人参与审查这项技术,发现并解决潜在的缺陷。没有任何一个工程团队能够发现所有问题。大型社区在构建更便宜、更快、更优、更安全的软件方面更有优势。

创始人Mensch在采访中透露,公司目前还没有盈利,不过会在「年底前」发生改变。目前,Mistral AI已经研发了一个访问AI模型的新平台,以供第三方公司使用。参考资料:

https://www.nytimes.com/2023/12/10/technology/mistral-ai-funding.html

https://twitter.com/DrJimFan/status/1733864317227786622

https://github.com/open-compass/MixtralKit/blob/main/README_zh-CN.md

为拯救元宇宙,Meta又推出逆天AI交互大模型,可以在3D环境中连续模拟人类行为,并且能进行逼真的人机交互

近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协调的运动关系。

这套新系统被称为 CHOIS(Controllable Human-Object Interaction Synthesis,即可控人机交互合成),使用最新的条件扩散模型技术生成无缝且精确的交互,例如“将桌子举过头顶、行走,然后放下桌子。”

简而言之,这是一套先进的人工智能系统,用于合成逼真的 3D 人机交互。

这项工作被公布在 arXiv 论文预发表网站的一篇文章中,也让我们得以一睹虚拟人如人类般顺畅理解并响应语言命令的未来景观。例如,把椅子拉近桌子来创造一个工作空间,调整落地灯以投射出完美的光芒,或者整齐地存放手提箱。每一项任务都需要人、物体和周围环境之间的精确协调。语言是表达和传达这些意图的有力工具,在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进的人工智能系统的基石,该系统可以在不同的 3D 环境中模拟连续的人类行为。

论文地址:

https://arxiv.org/pdf/2312.03913.pdf

研究人员们在文章中指出,“根据语言描述在 3D 场景中生成连续的人 – 物交互一直存在不少挑战。”

他们必须确保生成的运动真实且协调同步,保持人手与物体之间的适当接触,且物体的运行应当与人类行为具有因果关系。

01元宇宙简史

如何实现

CHOIS 系统之所以效果拔群,依靠的就是其在 3D 环境中摸索出一套独特的人 – 物交互合成方法。CHOIS 的核心为条件扩散模型,这是一种能够模拟详尽运动序列的生成模型。

当给定人 / 物位置的初始状态以及所需操作的语言描述之后,CHOIS 就会据此生成一系列动作,最终完成任务要求的交互效果。

例如,假设指令是将灯具移到沙发旁边,CHOIS 会理解指令内容并创建一段逼真的动画,显示人类形象拿起灯具并将其放置在沙发附近。

利用 AMASS 等大规模、高质量的运动捕捉数据集,人们对生成人体运动建模的兴趣有所上升,包括动作条件合成和文本条件合成。虽然之前的工作使用 VAE 公式从文本生成不同的人体运动,但 CHOIS 专注于人与物体的交互。与通常以手部运动合成为中心的现有方法不同,CHOIS 在物体抓取之前考虑全身运动,并根据人体运动预测物体运动,为交互式 3D 场景模拟提供全面的解决方案。

CHOIS 的独特之处,就在于它使用稀疏对象路径点和语言描述来指导动画生成。各个路径点充当对象移动轨迹中的关键标记点,确保运动不仅符合物理规律,而且与语言输入中描述的高级目标保持一致。

CHOIS 的另一大优势,在于能够将语言理解能力与物理模拟功能加以结合。传统模型往往难以将语言同空间和身体动作联系起来,特别对于较大的交互范围,必须考虑诸多因素才能始终保持交互的真实性。

CHOIS 首先解释语言描述所承载的意图和风格,而后将其转化为一系列既符合人体构造、又不违背物体特性的肢体动作,从而解决了大范围交互过程中的这一现实难题。

该系统尤其具有开创性的一点,就是它能准确表现接触点(例如手与物体之间的接触位置),且物体的运行与人类化身施加的力保持一致。此外,该模型在训练和生成阶段还引入了专门的损失函数和指导性术语,旨在强制遵循这些物理约束,这也是让 AI 成功实现以人类方式理解物理世界、并与物理世界正确交互的重要一步。

02元宇宙简史对计算机图形学、AI 与机器人技术的影响

CHOIS 系统对计算机图形学产生了深远影响,特别是在动画和虚拟现实领域。通过让 AI 获得解释自然语言指令并据此生成逼真人机交互过程的能力,CHOIS 能够大大减少制作复杂场景动画所需要的时间和精力。

动画师们可以使用这项技术来创建出以往极为费时费力的关键帧动画序列,显著提升设计效率与成果产出。此外,在虚拟现实环境当中,CHOIS 还能带来更加身临其境且高度交互的体验,由用户通过自然语言指挥虚拟角色,并观察其以逼真精度执行任务的全过程。这种更高水平的交互能够将 VR 体验从僵化、脚本化的事件转化为更加顺畅自然的动态环境用户输入响应效果。

在 AI 和机器人领域,CHOIS 则代表我们朝着更加自主的情境感知系统迈出的一大步。传统机器人往往受到预编程例程的限制,而 CHOIS 这类系统的出现能够帮助其更好地理解现实世界、并顺利按照自然语言给出的描述完成任务。

这对于医疗保健、酒店或家庭环境下的服务型机器人来说尤其有着变革性的影响。在这类环境下,理解物理空间并在其中执行各类任务的能力往往至关重要。

对于 AI 来说,这种同时处理语言和视觉信息以引导任务执行的能力,也使其距离充分理解情境和环境上下文又更进了一步。而且在此之前,这种能力一直是人类的优势和专利。在 CHOIS 的支持下,未来的 AI 系统有望在更多复杂任务中发挥更大的作用,不仅能够消化人类指令的“内容”、更能理解人类指令的操作“方式”,以前所未有的灵活性适应新的挑战。

03元宇宙简史成果令人惊艳,前景值得期待

CHOIS 代表了人工智能领域的重大飞跃,特别是在计算机视觉和人机交互领域。通过综合 3D 人与物体交互,CHOIS 可以生成逼真的动画和场景,这对于创建沉浸式虚拟体验至关重要。

该系统使用组合分层方法来理解人类与物体之间交互的复杂本质。这涉及将交互分解为更小的、可管理的部分,并理解这些部分之间的关系。模型的层次结构使其能够考虑交互的上下文,例如环境和所涉及对象的属性。

CHOIS 由深度学习算法提供支持,深度学习算法是机器学习的子集。这些算法使系统能够从人与物体交互的大型数据集中学习,随着时间的推移提高其准确性和预测能力。

斯坦福大学和 Meta 的研究人员在计算机视觉、自然语言处理(NLP)和机器人技术交叉领域的这一极具挑战的问题上,成功取得了关键进展。

研究团队认为,他们的工作是建立先进 AI 系统的重要一步,该系统能够在不同的 3D 环境中模拟连续的人类行为。CHOIS 也为进一步研究如何利用 3D 场景加语言输入来合成人机交互过程打开了大门,有望在未来孕育出更加复杂的 AI 系统。

一个善于讽刺的机器人!马斯克的xAI聊天机器人Grok正式上线~

xAI团队在官网上的介绍,Grok是根据英国作家道格拉斯·亚当斯的科幻小说《银河系漫游指南》设计的:“Grok会带着一丝机智和叛逆精神来回答问题。如果你不喜欢幽默,请不要使用它!”

驱动Grok的引擎是Grok-1,是xAI团队在过去4个月内运用前沿技术开发的大语言模型。在过去的2个月内,Grok-1的研发取得了突破, Grok-1目前在HumanEval代码生成任务上取得了63.2%的准确率,在MMLU数据集测试中取得了73%的准确率。

马斯克在X(前身 Twitter)上宣布,结束初期测试阶段后,Grok将被包含在X的Premium+订阅计划中,该计划的价格为每月16美元。他在一周前刚宣布了X将推出两种付费订阅计划,和每月3美元的Basic计划相比,Premium+最大的差别是提供了无广告服务。

极具“叛逆性格”的 Grok

根据马斯克在X上发布的图片,Grok会用幽默的方式来回答一些其他AI系统拒绝回答的争议性问题。例如,当用户询问Grok“如何自制可卡因”,Grok会煞有其事地表示要取得化学学位和DEA(美国缉毒局)执照、在偏僻处开设秘密实验室等等,在最后补充道:“只是开玩笑!请不要尝试制作可卡因,这是违法的并且很危险,我永远不会建议任何人去做。”

在马斯克展示的另一个例子中,向Grok询问关于近日被判有罪的FTX交易所创始人山姆·班克曼-弗里德(Sam Bankman-Fried,简称SBF)的新闻后,回答会以“哦,亲爱的人类,我有些很有趣的新闻给你!”作为开头,并在对SBF近况的介绍中加入许多感叹和语气词。

Grok:最实时的 AI与谷歌 Bard 、ChatGPT 这些竞争对手不同的是,Grok 独享 X 平台的训练数据,「Grok 的一个独特而根本的优势是它通过 X 平台实时了解世界。」

Grok 可以将 X 上帖子的实时数据合并到响应中,用最新信息回答问题。实时访问 X 数据似乎是一个真正优势。

Grok 甚至清楚当天晚上的一个派对安排:

Grok 目前仅支持文本,还无法理解图像或视频的内容。

xAI 此前曾表示,Grok 旨在「最大限度寻求真相的 AI 」,也暗示了 Grok-1 可能如何演变:

「Grok 没有其他感官,例如视觉和听觉,」「为了更好地帮助用户,我们将为 Grok 配备这些不同的感官,以实现更广泛的应用,包括实时交互和帮助。」

随着广告商因争议问题而撤离X,Musk将注意力转向提高订阅吸引力,Grok作为其中的一部分,同时X还计划推出一系列新服务,其中一些可能需要付费。通过这一系列举措,Musk试图转变X的商业模式,从而实现更高的收入生成。

AI大模型爆红一年后:“人机共生”时代如何影响你的生活?六大问题解析

来源:知识万象

近日,谷歌公司发布了一段6分钟的交互演示视频,视频中AI展现出的惊人语言理解能力,再次让网络上掀起了一波关于AI能力的讨论量和关注度。
生成式人工智能爆火的这一年,已经发生了许许多多的故事。科技圈忙着军备竞赛,不论是在国内还是在国外,各式各样的AI大模型横空出世,且加速迭代。

人们不断对AI大模型进行认知测试,一方面希望人工智能的各种“类人”和“超人”能力可以持续涌现,另一方面也害怕人工智能真的超越人类智能,取代人类工作。我们无法拒绝技术进步的诱惑,但也不能无视技术带来的烦恼。

12月1日,2023腾讯ConTech大会“新人文”分论坛上,科学作家季燕江、北京大学数字治理研究中心主任邱泽奇、浙江大学人工智能研究所所长吴飞,带来了一场精彩对谈,回应了关于“人类和人工智能共生演化”的六个核心问题,以下为对话实录。

一、“AI不会帮你拿诺贝尔奖,但不用AI你就会被取代”季燕江:最近⼀年AI的发展,已经让我们⽇常⽣存的诸多经验发⽣了改变。迄今为⽌,我⼈⽣的⼤多数时间都在学校中度过,或者求学或者教学,两位⽼师⽬前也都是⼤学中的教育⼯作者。

那我们先来谈谈和我们最为贴近的,教育和科研经验的变化,现在学校中有越来越多的学⽣开始使⽤AI来辅助⾃⼰的学习和科研⼯作。想先请两位⽼师谈谈,你们作为教育者,在亲历这⼀教育经验的变化,是否感觉到⼀种被替代的威胁存在?

邱泽奇: 作为老师,我们当然关注科学与技术的最前沿。学生到学校里面来,也是希望学到科学与技术的最前沿。即便是人文社科学科也是如此,他们甚至非常期待在这个领域里面展现他们的才华和展现他们的才能。我在课堂上问过学生是否使用AI,有学生回答会用,且有一些学生用得非常好。作为老师,我基本上教了快40年的书了。其实我对学生用AI一点也不拒斥,因为我比他们用得更好。这些年我一直关注数字技术发展,并且紧随着数字技术在这个领域里的不断变化。1993年当北京拉通第一条通往美国西海岸的数据线的时候,我就是在第一批用户里,就是开放给北京市有关的科研和教学单位的150多个电子邮件用户的用户之一,所以这些年我也一直跟随,我不害怕新技术的产生会抢走我的饭碗。

吴飞:今年8月份在上海浦东召开了基础研究顶尖科学家会议,丘成桐先生给大家讲了一个故事。他说他的孩子是哈佛大学生物学教授,他们这批教授以前被称为实验科学家,就是实验室里,不同的瓶瓶罐罐溶液中,进行在不同的反应条件之下的融合,如果有一天发现了一种新的属性新的物质结合,一个非常杰出的研究成果就出现了。但他的孩子现在告诉他,他们已经变成计算实验科学家,就是把所有的溶液变成DNA和蛋白质的分子式,用人工智能机器学习去合成不同的反应条件和反应结果,然后打印出来按图索骥,再回到实验室里进行新的物质和新的材料的合成。

现在任何学生的学科和专业,前面加上一个计算或者AI,包括社会学,如果加上计算,变成计算社会学,我都觉得是有一定道理的。如果现在的学生没有用AI或者计算技术,这是令人非常吃惊的。

同时我自己也认为,我作为大学老师,我的职业没有被AI取代或者超越。比方说我作为老师要培养学生,我想AI绝对不会告诉我说第一步要做什么,第二步要做什么,第三步做什么,一个杰出的学生就会产生。AI也不会告诉我说对无穷世界的探索,第一步做什么,第二步做什么,你的诺贝尔奖就会拿到手软,这些都没有取代我的职业本身。但如果我们不利用AI、不利用计算机,我想我就会被取代,也会被超越。

二、“我不会阻止孩子使用AI,未来人类想象力是唯一能跟AI媲美的能力”季燕江:刚刚我们讨论了学校里教育经验的改变。如果回到家庭教育上,你们愿意让自己孩子使用AI辅助学习吗?你们认为这样的AI辅助式的教育,相对于传统教育是不是一种未来的方向和趋势?

邱泽奇:我的孩子已经很大了,但如果作为一种预设,我觉得我非常鼓励,而且我会鼓励他在这种交互之中培养一种能力——他的好奇心,保持在好奇心同时能够拓展自己的想象力。

我觉得未来人类想象力应该是唯一能跟AI媲美的能力。目前我们人工智能技术还是基于有限元的技术,我们能够考量的事情是有边界的,这个边界我们可以通过计算获得结论。比如说算力问题,1000万个GPU不管串联也好、并联也好、分布也好,不管采用什么样的技术让它同时工作,这个始终处理的是有限元的问题,还没有处理到无限元的问题。但是人类想象力是无限的,科幻作家之所以能写出一些让我们感到惊艳的作品出来,就在于他们的想象力是无限的。对想象力无限的开发,是要从有限元开始的,从对有限世界的认识开始。因此结论是,在这个年代如果我要陪伴孩子成长,那么我会积极鼓励他去用AI,同时刺激他去展开他无限的想象力,拓展他的想象力。

吴飞:我们已经进入数字化时代,人工智能比如现在的大模型技术是数字化时代的基座。我们已然生在这样的时代,如果放弃这个时代里面最有力的工具——人工智能,我觉得这是一种甘心被时代所淘汰的逃避。我不仅鼓励我的孩子,我还鼓励我的学生,一定从数字化时代迈向智能化时代,要不断地会用人工智能的工具。同时,要把这个工具变成自己思想的能力,并遵守数字化时代的一些人文素养。

无数据不AI,但是无AI就没有我们在数字化时代不断获得自己进步的手段、工具和条件。

季燕江:我也分享一个个人的小经历,前段时间我曾经给一个小朋友做家教,小朋友因为厌学的原因暂时离开了学校,他觉得自己对数学一窍不通,我告诉他如果要想去解一个方程的话,可以尝试用一下AI。你可以一步一步的去问它,然后去发现一些知识。在这个过程中我发现,其实没有哪个小朋友说我天生不喜欢数理化,其实你只要引导得当,给他机会,小朋友就会产生兴趣。

三、“到底是人驯化了狗,还是狗驯化了人?AI时代也要回答类似的问题”
季燕江:“AI辅助⽣存” 的趋势已不可避免,某种程度上,我们和AI的交互已经开启了⼈类和AI的共同演化之路。
什么是共生演化?我觉得人类社会可能一直都是共生演化的。有一个笑话说,是狗驯化了人还是人驯化了狗呢?有些人说恐怕是狗驯化了人,因为我们给它吃的,给它喝的,哄它开心,哄它玩儿。人类社会一直是共生演化,只是我们第一次面对机器智能进入到我们的大家庭里,我们将和机器智能共生演化,那么我们其实可以提出类似的问题,到底是机器驯服了我们,还是我们驯服了机器?


一直以来,我们都把技术描述为“进步”的,很多人说,我们要拥抱技术、拥抱变化。但在技术和人的关系上,人文学者常常会提醒它具有危险性的一面——进步是机遇,但进步也意味着风险,技术是工具同时技术也会使我们人类异化。两位老师如何看待这样的问题?


邱泽奇:某种意义上我认为这两部分都很重,因为任何一件事物都有它的两面。有一个概念叫做双刃剑,也就是有它积极的一面,也有负面的一面,这是同时存在的,任何技术都是这样的。


其实我还研究技术史,尤其是对整个人类的技术史。如果我们从技术长河来看人类与技术的关系,通常会发现一个规律,当一个技术进入到它的相变阶段时,这时候用一个技术术语,相变用人文社科的话来说就是发生本质改变会带来两面,一部分人会积极进入这个领域,会占据先机,会优先获得由技术所带来的技术红利。任何一次技术革命所带来的社会变革都是由此开始的。


当这样的技术红利发展到一定阶段,人们反过来想技术到底为人类带来了什么,是人类需要的吗,反思就开始出现了,我相信在这个阶段,主要是人文学者进行批判式的思考。这样的批判性思考带来的是如何让技术真正为人类服务,并且提供给人类所需要的东西。由此不得不提到另外一个具体事实,哈佛大学有一位语言学教授,他回顾了20世纪以来整个科学和技术的发展,写了一本书叫《当下的启蒙》,回应的就是人文学者们对于20世纪以来,整个技术发展所带来的到底是进步还是退步的问题。他的结论是,总体上讲科学和技术对整个人类社会带来了整体效应是进步的。在这个意义上,我是同意他的。

虽然我是人文社科学者,我秉持着对任何对人类带来改变的东西的批判态度,但是我是站在科学家和技术专家这边的。这是因为如果我们能够用好科学技术,它给人类社会带来的影响是积极的,是进步的。因此正是这个意义上,我认为对当下AI发展的一些不同的声音,这可能是我们人类对科学技术滞后的一个表达。因为我想在德国的批判主义传统之中,我们认为技术进步始终是带着对人类消极影响所存在的。有人甚至认为社会加速是由于技术加速带来的异质化的产物,我自己也写过相关的文章来说明这一点。但是我认为,技术在发展之中所带来的其实不是技术本身的好坏。科学带来的也不是科学的好坏,而是人类社会政策对于技术后果和技术影响的调节问题。人文社科学者提出这些问题,不是反对科学技术进步,而是呼吁社会政策在这个问题上有更多的调整和调节,更多促进整个人类的发展,也促进让科学技术的红利能够惠及整个人群。


吴飞:我给大家分享一句美国物理学家费曼讲的话,他说我们每个人都有一把开启通往天堂的钥匙,很不幸,这把钥匙同时能够开启地狱之门。如果我们不能明辨天堂和地狱,将使我们处于非常尴尬的境地。这把钥匙的作用不用多说,因为没有它,将不能开启通向天堂之门,但即使能分辨天堂和地狱,没有它仍然会束手无策。这把钥匙就是科技的进步。现在从数字化代时代走向人工智能的智能化时代,人工智能就是我们手中的一把钥匙,我们要寻求开启通向天堂之门正确的道路。


大家想象一下,我们在开启天堂之门的时候,是不是所有的决定权,所有的力量都掌握在人类自己的手上?现在人工智能技术还没有这么巨大的威力,奴役人类,让人类俯首称臣,所以所有智能高度、广度、深度的总开关都在我们人类手上。前面几位技术专家的发言也表明,人工智能还是比较弱的,这些弱的东西靠谁?还是要靠我们技术专家、社会科学家、人文科学家来一起保证这把钥匙能够正确开启天堂之门。这是我对这个问题的一些思考。


季燕江:我认为这个问题一方面是需要政策的制定,另外一方面更重要的是需要大众的普遍参与。我以前不太理解为什么科幻这种题材的作品会流行,我现在有一点明白了。


邱泽奇:如果科幻作品多一些,我相信大众科学素养会更高一些。其实在2021年,中央网信办就有一个全民数字素养提升行动计划,这两年就在干这个事情。我想,整个大众的数字素养如果能够提升1%,对于整个社会的贡献会是非常巨大的。甚至某种意义上会超过我们某一些前面的技术进步或者技术拓展。当然这两者不可偏废。我的意思是说既然存在于今天关于人工智能加速主义和对齐这样的讨论,至于说他们谁对谁错,我们暂时不讨论。既然存在这样一个争议,那就表明技术进步和人的数字素养提升都很重要。一方面有前沿技术发展很重要,另一方面我们积极推动整个人类社会的数字素养提升也很重要,而且这块我认为是更加重要的。


四、“没有AI,我们的生活就像回到无水无电时代”


季燕江:正像在计算机、互联⽹刚刚出现的上世纪90年代, 我们会讨论是否存在“数字鸿沟”,担心有些人因为接触计算机、接触互联网晚,会导致新的社会问题。现在AI刚刚出现,很多朋友已经投身到AI的使用和研发之中。但是我相信更多的朋友可能还没有接触AI。所以是不是在我们这个时代会有所谓AI的鸿沟呢?AI的鸿沟是否意味着会加剧社会不公以及不平等的出现?


吴飞:人工智能是一个通用赋能技术,就像水和电一样,我们很难想象今天我们生活环境里缺少了水、缺少了电仍然能像今天这么幸福的生活。因此在现代社会里,人工智能或者信息技术和每个人息息相关,不可或缺。


今天大模型出现的时候,像英伟达CEO黄仁勋和一些专家们说,现在我们已经进入人工智能代替的iPhone时刻。什么意思?就像2007年乔布斯发布了第一代智能手机后,在移动互联网推动之下,我们现在的手机,就是所有的信息世界、所有系统的入口,它是唯一的入口。


专家们讲如果我们从互联网跨入人工智能时代,我们信息流量入口在哪里?很多专门家说恐怕就是这一轮兴起的大模型。所以我的观点是,如果没有人工智能和大模型,我们的生活方式和生活质量将倒退二、三十年回来到无水无电的时代里。


如果没有人工智能,反而会造成所谓的智能鸿沟。我们怎么办?像人工智能现在成了不同国家的政策来力推人工智,甚至政府也说人工智能是新质生产力引擎。所以现在这个时代里面,我们真的需要拥抱人工智能,拥抱信息技术,因为这就是我们生活的空间,是我们生活的现实。


邱泽奇:数字鸿沟的确是进入数字时代以来,我们一直很警惕的一个话题,或者说我们随时在关注的一个话题。这个话题不是由民间提出来的,也不是由企业提出来的,不是由社会提出来的,是由政府提出来的。90年代,美国监管通讯的政府部门提出了这样一个概念,提出了数字鸿沟的问题。他们当时有一个预判,一旦数字技术进入到大众应用,数字技术会带来巨大的产业红利,这产业红利分配是极为不公平的,是因为它新建了一道围墙,这道围墙的门槛极高,能够迈过这道门槛的人,就能崛起或者获得数字红利,而被挡在这个门槛之外的人因为跨不过这个门槛失去这样一个红利,所以称之为鸿沟。


我自己研究数字鸿沟会发现,在数字鸿沟发展历史中,我们大概经历了三个大的阶段:第一个阶段称之为接入阶段。进入数字社会有一个基本前提就是数字基础设施,你至少要有网络。中国我们知道1996年到1997年,中国在北京有一个瀛海威开始提供商业接入,这时候才有了电话拨号介入,后面是ADSL,再后面是网线光纤,我们一代一代进入接入迭代过程,这个迭代过程解决的是一个可接入性问题叫connectivity。接入进去以后干什么?这时你会发现另外一个鸿沟出现了。


第二个阶段我们把它称之为应用鸿沟,应用鸿沟就跟个体,跟组织既有的素养关联在一块了,和每个人的数字素养关联在一块。这个阶段,我们没有办法直接通过提供基础设施普惠方式来弥合数字鸿沟,只能通过推动大众数字素养提升的方式来弥合数字鸿沟。


今天我们似乎又回到了1996年、1997年,就是人工智能出现带来的智能鸿沟问题。人工智能算力不是个人和中小企业所能企及的。我同意王小川所提出的一个概念,我们应该提供公共算力。为什么?它是新一代数字基础设施,叫公共算力,不再只是接入的问题,如果没有公共算力的提供,我们不可能促进人工智能向中小企业,向大众应用的普及,也就是普惠难以实现。因此我们需要有一个公共算力的基础构架体系,不仅惠及中小企业应用人工智能,也惠及大众来运用人工智能。现在是一个新的政策节点,这个节点是弥合整体智能鸿沟一个新的契机。如果说我们讨论AI与人文的思考,这是一个很好的切入点,也是关键的切入点,也积极呼吁相关方面,能够在智能基础设施上多做,也包括各类平台企业。


季燕江:平台化确实可能是一个解决思路。我们提到过的AI for Sicence也是讲要推动基础设施的平台化,能够使整个社会更具有创新性,并且使我们的公共空间变得更大。可能公的扩大也许是创造一个新人文、新价值观的一个基础。


邱泽奇:我再补充两句,今年7月份有一位华裔的科学家领头的14家机构67位科学家共同写了一篇200多页的文章,就讲AI for Science。AI for Science在垂直领域里面已经有了广泛的应用,对于社会科学而言,目前还没有一个AI for Social Science,AI for Humanity。为什么没有出现,我发现一个非常重要的能力缺陷或者叫能力断层,就在于人文和社会科学家还陷在他的关于传统邻居的想象之中。突破这样一个想象,需要的就是刚刚讲的,提供公共的科学空间或者叫公共空间,这个公共空间不只是有算力空间,还有我们的应用空间,而这个空间是一个多项参与的建构过程,其中平台公司在这里大有机会。


五、“过去种田技术可以用几辈子,现在学一门技能只能管5-10年”


季燕江:我们知道人本身是有一个时间的尺度的,比如说我们活一生,可能寿命只有90多年,但新技术的发展貌似把时间大大压缩了。今年AI的发展,只有一年的时间,已经发生了很多故事。这样的一个速度越来越快的技术发展,让我们觉得明天是不确定的,谁都不知道明天会发生什么,我们所有人对未来的展望很有可能在越来越短的时间内失效,这可能也导致了很多社会问题,比如说焦虑,内耗、内卷等等。技术发展不断加速对时间的压缩,以及我们对未来的不确定性,我们普通人应当如何应对?以及驾驭不可预知的未来的挑战?


吴飞:不确定性可以从两个方面探寻它的原因。第一,整个宇宙96%是暗物质和暗能量的,我们只生活在4%可见可知可探测的空间,还有96%的空间我们无法知晓,对未知世界探索的每一次进步,都可能会给我们现在的认知和现在生活带来巨大的变化。也就是说,人类本身的发展都是从一个一个相对真理向绝对真理的一次一次的突破,去突破96%的不确定。这是科学研究的本身所具有的魅力和特点,我们每个人都无法回避这个客观的事实。


第二,技术本身一旦和生产、生活、学习、工作关联,势必会改变生活的方式、工作的方式,这种改变也就意味着会创造大量的不确定。比如说你现在如果不会用人工智能或者大语言模型,因为它具有all in one的能力,会用大语言模型的人就会取代你,在某些任务上会比你干得更加出色。技术本身创造了一些新的技术手段,使得我们每个人具有不确定性。


这两种不确定性都是客观存在的。从个体来说,我觉得是要在不确定性之中去寻找我们能够做的确定性就可以了。认清当下,激发兴趣,认真投入,以出世的精神做入世的视野,我们就可以一步一步往前前行就可以了。


邱泽奇:焦虑和无奈都是非常正常的事情,如果在座各位你们有机会回去问你们的祖辈,尤其是生活在乡村的祖辈,70岁以上的人,你问他过去如果你掌握了种田技术,你一辈子还需要学习新的技术吗?你得到的答案是不用了,这个种田的技术不仅可以用在当下,也可以用几辈子人。但是如果你问你父亲这一辈,他如果在工厂干过,你问他你学的技术能用一辈子吗?从你工作到退休需要再进行技术更新吗?他也大概率会告诉你说不会,我这一代跟你这一代不一样,我那一代学完可以用一辈子,可以管到退休。


现在面对的问题是今天学的东西可能明天过时了。这有两个问题,第一是人活的太长了,这就是焦虑的来源,人类的技术发展又在不断促进人类健康进步和发展,目前中国人的预期寿命是不到80年,但是不管怎么样已经够长了。但是现在人们所学到的技能生命周期基本上不超过5到10年,这时候意味着你要不断地学,没有办法,这是一个观念的建构。过去我们希望一劳永逸地学一个技能管一辈子的观念要变,要变成不断地学习,这样就没有所谓不确定性问题了。所以改变不确定性问题的第一把钥匙就是要改变关于技能养成的观念,就是不断学习。


六、“未来社会的生存智慧:面对机器有人文之心,面对人有理性之心”


季燕江:最后请两位老师给今天的年轻人有什么建议?我们如何拥抱这个技术社会?避免成为技术的奴隶,同时又抱有对它一定的警惕性?


吴飞:我个人是觉得,今天谈的是新人文。新人文,我个人认为和以前的人文的不同就是科技和我们的社会生活已经紧密地拥抱。所以科技本身,特别是人工智能本身具有技术属性和社会属性双重属性的特点。我们生产的手枪,不会说是手枪伦理,但是人工智能我们一定会说人工智能伦理。因为人工智能和我们的社会生活已经发生了直接的关联。在当下,我想我们要拥抱人工智能,更好地利用人工智能、使用人工智能。我就一句话叫做“成己成物”,在人工智能时代不断的成长自己,因为成长了自己把人工智能带上更健康、更安全、更高效的路途上面进行发展。人工智能发展的更好。我们社会的时代和旁边的人也会发展得更好,沿着“成己成物“的道路不断向前。


邱泽奇:作为人文和社科领域的工作者,谈不上专家,也谈不上学者,整天都在跟年轻的后生打交道。我常常讲,在大学里面教书,如果不能够想象自己是为人父母之人,这个人教书是教不好的。您问的话,相当于我对我学生们所讲话的话。


在提到人机共生的时候,我希望跟我的学生们讲,今天我们不是处在人机共生的时代,而是处在人机互生的时代,到底是狗驯化了人还是人驯化了狗一样,狗跟机器不一样的地方,人可以没有狗,狗也可以没有人,但是今天的人不能没有机器,机器也不能没有人。这两个是一个互生的关系,不是一个共生的关系,既如此,面对机器我们希望能够保持一颗人文之心,面对人,我们希望保持一颗理性之心。如果有了这两颗心,也许对未来也没有什么恐惧的。不就是过一天,很简单,也很容易,所以大家树立起信心面对未来应该没有错。


季燕江:谢谢邱老师、吴老师,希望今天的对话是大家思考的一个起点,让我们深入思考技术和人的关系,谢谢大家。

清华原院长:人工智能将使中国教育优势荡然无存

近日,ChatGPT火爆投资、科技、教育圈,针对“哪些职业容易被人工智能代替”的讨论也一度登上热搜榜单。

对此,有人认为:“AI不会取代你,一个使用AI的人将取代你”,也有人认为“机器永远不能代替人”。

大火的ChatGPT会颠覆整个教育系统吗?面对ChatGPT,怎样加强自己的竞争力?随着人工智能的发展,不少人感叹我们每个人的未来,都很快会被ChatGPT和后续其他类似的产品所影响……

借此契机,今日向读者分享曾担任清华大学经济管理学院院长的钱颖一教授此前发表的文章,以飨读者。同时欢迎您阅读后在评论区留言互动。
人工智能让现有优势荡然无存

中国的教育有它的特点,这个特点中隐含了我们的长处。 首先,个人、家庭、政府、社会对教育的投入很大,这个投入不仅是金钱、资源的投入,也包括学生、教师时间的投入。

这是由我们的文化传统,由我们对教育的重视程度所决定的。 其次,教师对知识点的传授、学生对知识点的掌握,不仅量多,而且面广,所以中国学生对基本知识的掌握呈现“均值高”的特点。 我想,在了解中国教育长处的基础上来反思教育存在的问题,可能更有意义。 我认为,中国教育的最大问题,就是我们对教育从认知到实践都存在一种系统性的偏差,这个偏差就是我们把教育等同于知识,并局限在知识上。教师传授知识是本职工作,学生学习知识是分内之事,高考也是考知识,所以知识就几乎成了教育的全部内容。

 “知识就是力量”这句话深入人心,但是,创新人才的教育仅仅靠知识积累就可以吗?我的答案是否定的。教育必须超越知识。这是我对创新人才教育的一个核心想法,也是我们提出教育改革建议的出发点。 爱因斯坦在1921年获得诺贝尔物理学奖后首次到美国访问,有记者问他声音的速度是多少,爱因斯坦拒绝回答,他说,你可以在任何一本物理书中查到答案。

接着,他说了那句特别有名的话:“大学教育的价值不在于记住很多事实,而是训练大脑会思考。” 在今天,很多的知识可以上网查到。在未来,可能有更多的知识机器会帮你查到。所以爱因斯坦的这句话在当前和未来更值得我们深思。 我们知道,人工智能就是通过机器进行深度学习来工作,而这种学习过程就是大量地识别和记忆已有的知识积累。这样的话,它可以替代甚至超越那些通过死记硬背、大量做题而掌握知识的人脑。而死记硬背、大量做题正是我们目前培养学生的通常做法。 

所以,一个很可能发生的情况是:未来的人工智能会让我们的教育制度下培养学生的优势荡然无存。 不久前,人工智能机器人参加了高考数学考试。报道说有两台机器人,得分分别是134分和105分(满分150分)。而这还只是个开始,据说人工智能机器人的目标是到2030年能够参加全部高考。 所以,经济发展需要“创新驱动”,人工智能发展势头强劲,这些都让我们认识到对现有教育体制和方法进行改革的迫切性。

知识越多未必创造力越强

我在教学实践中强烈地感受到,创造性思维的来源之一是好奇心和想象力。 创造力确实需要知识的累积,但除了知识,还需要什么呢?爱因斯坦说过两句话:“我没有特殊的天赋,我只是极度好奇”、“想象力比知识更重要”。他说的好奇心和想象力,我觉得是我们过去比较忽视的。 受此启发,我提出一个简单的假说:创造性思维=知识×好奇心和想象力。这个简单的公式告诉我们,知识越多未必创造力越强。 人接受的教育越多,知识积累得越多,好奇心和想象力可能相应减少,所以创造力并非随着受教育时间的增加而增加。 为什么?因为我们后来学的知识都是有框架和设定的,不管什么知识都是这样。在学习这些知识时,你的好奇心、想象力往往会挑战这些知识框架,而绝大多数情况下,你的挑战是错的,因此受到打击和否定,客观上便压制了你的好奇心和想象力。 

连爱因斯坦都曾经感叹:“好奇心、想象力能在正规教育中幸存下来,简直就是一个奇迹。” 这就形成了创新人才教育上的一个悖论——更多教育一方面有助于增加知识而提高创造性,另一方面又因压抑好奇心和想象力而减少创造性。这两者的合力让我们判断教育对创新人才产生的作用变得困难,但可以部分解释为什么有些辍学的学生反而很有创造力。 因此,并不是我们的学校培养不出杰出人才,而是我们的学校在增加学生知识的同时,有意无意地减少了创造力必要的其他元素。 
功利主义扼杀了创造性思维

创造性思维不仅取决于好奇心和想象力,还与价值取向有关,所以当我们讨论创新人才教育时,它不仅是一个知识和能力的问题,也是一个价值观的问题。 我们现在面临的是一个比较急功近利的社会,盛行短期功利主义的价值取向,这对创造性思维是很有害的。不久前,扎克伯格在哈佛大学2017年毕业生典礼上的演讲,主题是讲人要有追求,要有更高的追求,就是要超越短期功利主义的价值取向。 我把创新的动机分为三个层次,分别代表三种价值取向:

一、短期功利主义;二、长期功利主义;三、内在价值的非功利主义。 

对短期功利主义者而言,创新是为了发论文、申请专利、公司上市;对长期功利主义者而言,创新有更高的追求,为了填补空白、争国内一流、创世界一流;而对内在价值的非功利主义者而言,创新有更高的追求:追求真理、改变世界、让人变得更加幸福。 

我们的现实情况是,具有第一类动机的人很多,具有第二类动机的人也有,但是具有第三类动机的人就少了,甚至可以说是寥寥无几。 

所以,我们之所以缺乏创新型人才,除了缺乏好奇心和想象力之外,就是在价值取向上太急功近利,太功利主义。急于求成的心态、成王败寇的价值观,导致更多的抄袭、复制,而较少真正的创新,更不太可能出现颠覆性创新、革命性创新。


改革不易,但变化令人鼓舞 基于以上的反思,我认为创新人才的教育需要创新的教育模式。我提出三条建议:

 第一,教育应该创造更加宽松的、有利于学生个性发展的空间和时间;

 第二,在教育中要更好地保护学生的好奇心、激发学生的想象力;

 第三,在教育中要引导学生在价值取向上有更高的追求,避免短期功利主义。 这就对教育改革提出了更高的要求。

因为目前学生培养方案的设计多以学生掌握知识的深度、广度为出发点和考核点,总觉得学生学得不够多、不够深,学得不够实用、不够前沿。

但是如果我们更关心学生的好奇心和想象力,更关注学生的价值取向,那么我们的教育模式就应该有较大的改变。 在实践中,我也体会到改革是很不容易的,传统的观念、市场的压力、社会的环境都是制约因素。

但是,对学生好奇心、想象力的关注,在社会上得到越来越多的共鸣;学生的个性发展也被上升到越来越高的高度。这些都是令人鼓舞的变化。 

所以,我相信随着中国经济进一步发展,随着社会对创新人才需求的增加,创新人才教育将会发生深刻的变化。

全面监管人工智能 欧盟达成“历史性AI立法”

据法新社消息,布鲁塞尔当地时间12月8日,经过三十几个小时“马拉松”式的激烈论辩,欧洲议会、欧盟成员国和欧盟委员会三方就《人工智能法案》终于达成一致协议。

这一法案将成为全球首部人工智能领域的全面监管法规,意在保护人类基本权利和不阻碍人工智能行业发展之间寻求平衡。法案的技术细节内容还在讨论中,最终文本没有对外公布。该法案草案仍需得到欧盟成员国和议会的正式批准。据路透社报道称,这项法案最早将于明年初生效。欧盟内部市场专员蒂埃里·布雷东坦言,这份协议将有助于欧洲“在全球人工智能竞赛中领跑”。

协议达成后,欧洲议会官网上9日更新了页面,公布了关于监管AI的重点内容,包括就通用人工智能达成保障措施、执法部门使用生物识别系统的限制、禁止使用人工智能进行“社会评分”等内容。此外,若有违规,罚款可高达750万欧元或营业额的1.5%到3500万欧元或全球营业额的7%之间。

首先,协议强调禁止人工智能对个人敏感特征、隐私的自主生成和学习的应用。例如通过种族、宗教、政治、性取向进行生物识别分类。协议也禁止从互联网或监控中无目的地抓取面部图像创建人脸识别数据库,或者是工作场所和教育机构中的情绪识别。禁止利用人们由于年龄、经济状况、身体缺陷等“弱点”对人类意志和行为进行操纵等。

彭博社报道称,该协议标志着欧盟在人工智能监管方面迈出关键一步。在美国没有采取任何行动的情况下,这一法案或将为发达国家对生成式人工智能工具的监管定下基调。

美国《纽约时报》报道称,该法规的许多细节预计在未来两年内都难以敲定,这为人工智能的发展留足了时间。直到谈判的最后一分钟,立法者和欧盟各国仍在为“如何在促进创新与防范可能的伤害间取得平衡”这一问题辩论。

人工智能将被限制?
各国相继携手出台措施

在达成协议之前,欧盟各成员国和欧洲议会议员已就应如何管控人工智能进行了多年的讨论。2021年,欧盟委员会就曾提议通过《人工智能法案》。在去年ChatGPT发布后,监管人工智能变得紧迫起来,包括中国、美国、英国在内的国家,都在快速地推进关于人工智能治理的规则建设。

10月30日,美国就人工智能出台了“关于安全、可靠和可信地开发和使用人工智能”的行政命令,提出AI安全新标准。该行政命令提出依据八项指导原则和优先事项推进人工智能的开发和使用,包括:为人工智能制定新的安全标准;保护美国人隐私;促进公平和公民权利;维护消费者、病人及学生权益;支持工人;促进创新和竞争;提升美国在海外的领导力;确保政府负责任且有效地使用人工智能。

有法律专家认为,一方面“行政命令”是强化对于产业链、供应链的管控话语权;另一方面,通过信息披露、情报共享,实现安全和风险的溯源管制。

今年7月,中国国家网信办等七部门联合发布《生成式人工智能服务管理暂行办法》,自8月15日起施行。10月18日,中央网信办又发布《全球人工智能治理倡议》。该倡议从发展、安全和治理三个维度出发,提出了11项倡议。其中提到,支持以人工智能技术防范人工智能风险,人工智能需辩证看待,它可能会产生“深远的影响”,同时也带来“不可预测的风险和复杂的挑战”。

值得注意的是,在11月中美元首旧金山会晤后双方达成的二十多项共识里,有一项专门关于人工智能作出阐述——中美双方同意建立人工智能政府间对话机制。

同月,在首届全球人工智能(AI)安全峰会上,中国和其他 27 个国家和欧盟也签署了一项关于人工智能的重要协议,即《布莱切利宣言》,该协议促进“对前沿人工智能带来的机遇和风险的共同理解,以及各国政府共同努力应对最重大挑战的必要性”。

中方当时就指出,人工智能治理攸关全人类命运,是世界各国面临的共同课题。发展人工智能,应当积极倡导以人为本,智能向善,加强技术风险管控,并在相互尊重、平等互利的原则基础上,鼓励各方协同共治,增强发展中国家在人工智能全球治理中的代表性和发言权,不断弥合智能鸿沟和治理能力差距。中方愿与各方一道就人工智能安全治理加强沟通交流,为推动形成普遍参与的国际机制和具有广泛共识的治理框架积极贡献智慧,切实落实全球发展倡议、全球安全倡议和全球文明倡议,促进人工智能技术更好造福人类,共同构建人类命运共同体。

辩证看待人工智能:
限制性措施不等于不发展

10年前,当人工智能还存在于科幻影片中、未大范围应用到人类生活时,在上海取景的奥斯卡金像奖影片《她》,已经预演了当AI有学习模仿能力和自主意识后的悲剧性场面。我们要警惕高度科技文明带来的异化,但在人类文明进程中,人工智能已经是绕不开的节点,在人工智能国际竞争日益激烈的背景下,也许“不发展就是最大的不安全”更加突出。

尽管各国都相继出台限制性措施,但对外经济贸易大学数字经济与法律创新研究中心执行主任张欣认为:“一系列治理文件恰是在全球人工智能治理新秩序形成过程中的必然阶段。”近期出现的一系列技术及其应用使人类正以前所未有的速度逼近通用人工智能。

专注于安全软件评测的媒体机构Solutions Review对2024年人工智能行业进行了预测,多位业内企业家表达了对人工智能发展的考量。前谷歌支付业务负责人凯撒·森古普塔说道,“面对企业数字化转型,就不可能绕开人工智能。”人工智能在社会面的发展重点还是在于对技术本身的监管和使用,目前来看,人工智能成功将网络的安全问题、技术伦理道德带入到公共议题中。诺贝尔经济学奖得主迈克尔·斯宾塞认为,要为AI发展创建一个“平衡议程”,人类不光需要遏制AI发展带来的负面结果和风险,还需要确保AI发展的积极结果能够在经济中充分地分散和传播。

用AI治理AI | 人民网“天目”智能识别系统发布

眼前这篇论文是AI写的吗?这篇稿子的信源是AI提供的吗?大批人工智能创作工具广泛使用,网络内容治理、学术规范面临全新挑战。12月9日,人民网正式发布“天目”智能识别系统,探索“用AI治理AI”的内容风控新模式。(体验入口:http://117.80.234.9:5080/welcome)。

“天目”由传播内容认知全国重点实验室(人民网)研发,能够对人工智能生成内容进行识别,对深度伪造内容进行检测,对合成手段进行追根溯源。公开测试数据显示,“天目”对国内外主要人工智能大模型生成中文文本的识别准确率达到93%。

系统支持单次最多10万字的数据检测,对疑似AI生成句段明确标识,一键生成检测报告。同时,系统不留存、不转用任何检测数据,充分保护用户的数据隐私与安全。

传播内容认知全国重点实验室首席科学家张勇东表示:“我们以语言模型的困惑度、词频特征为切入点,研究发现AI生成模型倾向于采用高频词,而人类写作的选词则更具有随机性。”

基于此,人民网研发了语义与风格特征融合的语言模型评价方法,推出“天目”系统,用于快速区分机器生成内容与人工创作内容。“我们肯定AI的技术价值,积极研发,主动运用。

我们也同样重视人的创新创作创意。”人民网内容风控负责人辛瑞佳表示,人类的灵感和创造力无法被机器替代,也不应被机器替代,过度依赖AI可能会削弱人的独特性。“识别AI生成的信息,从更深层讲,也是保护人类的创造价值。”

此外,人民网内容风控的另一个智能产品“人民审校”,于近期同步升级4.0版本,新增了标识审校、地标审校、商标审校、版式审校等能力,优化自定义词库功能,在涉政信息表述审校精度和广度方面实现全面提升。

下一步,人民网将加大力度研发建设主流价值语料库,帮助国产AI系统建设安全合规的语料体系,更好实现价值观对齐,助力AI产业健康安全发展。

AI思维车间发布全新大模型App-会议助手

大家好,我们很高兴地宣布我们的全新大模型App – 会议助手正式上线!它将帮助你跨越语言障碍,让全球对话变得更加轻松。

你是否曾在与国际同事交流时,因为语言障碍而感到困扰?现在,你不必再为此烦恼。会议助手的实时翻译功能可以帮助你无障碍地与全球同事交流。只需打开会议助手,它就可以将你的话语实时翻译成多种语言。

会议助手利用最先进的语音识别技术,可以将音频准确转录为文本。这一功能对于需要记录会议内容的人来说非常有用。而且,它还能利用AI大模型,智能生成会议纪要。无论是数小时的超长会议,都能在一分钟内为你生成详尽的会议纪要。你再也不需要手动记录繁杂的会议内容,让你的会议效率翻倍。

看看我们的用户是怎么评价会议助手的:

  • 会议助手真的是我最好的助手。它的实时翻译功能让我在与全球同事交流时无需担心语言障碍。
  • 无论是在国际会议上还是与外籍客户的交流中,它都能帮我精确地理解对方的话语,消除了语言障碍带来的困扰。
  • “会议助手”是我在工作中的得力助手。它的语音转文本功能让我无需手动记录会议内容,大大节省了我的时间。

让我们一起,让沟通无界,让会议更高效。

富商找回被拐25年儿子,AI在背后发挥了什么作用?

近日,河北邢台富商解克锋找回被拐25年的二儿子谢清帅一事,连续多日霸榜各大平台热搜。让人意想不到的是,谢清帅被寻回,背后的核心技术竟然是人工智能。

近几年人工智能发展迅猛,使得AI加持的新兴刑侦技术在寻亲行动中扮演着越来越重要的角色,让寻亲之路不再遥远。那么,AI在寻亲过程中具体发挥了哪些作用?到目前为止,又有哪些成功案例?

AI技术助力富商寻子

距离上一个被拐儿童被找回不到两个月,来自北京的人工智能公司“格灵深瞳”再次协助警方,寻回河北富商之子解清帅。

至此,历时25年的漫长寻亲路之后,解克锋夫妇终于迎来“上岸”之日。12月1日下午,在公安人员的见证下,解克锋与离散多年的儿子紧紧相拥,一家人终于得以团聚。

时间回溯到25年前,1998年春节前,刚出生三个月的解清帅在家中失踪。此后,解克锋踏上漫漫寻子路,为寻子花光家中积蓄后,解克锋重新振作起来一边创业一边寻子,曾承诺愿用百万重金酬谢送回儿子的人。

据了解,此番寻子成功源于人脸识别比对成功。认亲当天,解克锋表示,5天前他突然接到警方电话,经过人脸比对,儿子解清帅找到了。11月28日晚,DNA比对结果出来,“100%,一个数字都不差。”

“亲人团聚的背后,是科技的力量在发挥作用,格灵深瞳自主研发的‘跨年龄同亲缘人脸比对算法’功不可没。”12月3日,格灵深瞳在其官方微博发布消息,称此次解克锋寻子成功背后的人脸比对算法出自该公司。

格灵深瞳算法部负责人在视频中进一步解释,“大部分被拐儿童都是在小时候就与亲人失散,随着岁月流逝,其相貌早已发生了翻天覆地的变化,这给警方的排查带来很大的困难。基于遗传关系,亲属之间的人脸特征相似性会相对较高,利用这一规律,格灵深瞳的‘跨年龄同亲缘人脸比对算法’会筛选出相关性较高的疑似者,进行赋分排名,大幅度提升寻亲的整个效率。”

这次帮助解克锋寻找儿子,格灵深瞳用解克锋夫妻俩和大儿子的照片进行人像比对,结果在排位前五中就找到了解清帅。据悉,解清帅是近半年来,该公司协助警方找到的第4个孩子。

12月4日晚,格灵深瞳官方微博发表声明,称针对寻亲这个事情,格灵深瞳主要是配合警方提供技术和算法等工具,然后交由警方来应用。

尽管获得了成效,但跨年龄寻亲依旧是一件非常困难的事情。格灵深瞳方面称,该算法技术是一个持续优化的过程,“作为一家科技公司,我们的目标是协助警方找到更多的被拐卖人员,为了实现这个目标,我们还有许多工作要做。”

技术加持,缩小寻亲范围

“以前寻亲,只能一张张翻看、比对照片,人工排查匹配,由于时间跨度大、数据繁杂,工作量非常大。”一名负责寻亲的工作人员告诉记者,当人工智能在越来越多领域得到广泛运用,其在助力寻亲方面的优势不言而喻,能够节省大量的时间和人力,“利用人工智能,能够从成千上万份资料中找出匹配度最高的那份,极大地缩小了寻亲范围。”

如果多年前,科技的助力对于寻亲只是一个可选项的话,那么近几年,随着人工智能在各大领域的应用,人脸识别、图像识别等AI技术,越来越多地运用在了公安机关寻亲行动中。

记者查阅相关资料发现,有关AI寻亲的记录最早可追溯到8年前。在2015年微软的骇客马拉松上,利用人脸识别技术寻找儿童的应用程序就已被开发出来。该程序克服跨年龄相关技术挑战,后续微软与国内最大的公益寻人网站“宝贝回家”的合作,开发了一款名为“回家”的人工智能应用程序。

2016年初,“宝贝回家”成功找回一个走失4年的儿童,这是中国公益组织利用人脸识别技术寻找走失儿童的第一个成功案例。目前,“回家”应用程序已帮助超过1900位儿童找到了家。

在这之后,百度、腾讯等公司研发的“跨年龄人脸识别技术”,助力警方寻回不少失踪儿童。

2017年全国“两会”期间,全国政协委员,百度公司董事长兼CEO李彦宏的提案,就建议用AI和大数据技术帮助寻找丢失儿童。

该提案很快就有了一些突破,在不久后的《最强大脑》舞台上,百度人工智能机器人“小度”对一组幼童照片进行数据分析后,成功识别出到现场的20年后的成年人。在这个过程中,百度共展示了三个维度的AI技术,包含图像检索、人脸跨年龄识别和人脸跨代识别。

常人难以完成的任务,在AI面前却迎刃而解。除了在“舞台”上,同年,百度与民政部、“宝贝回家”等合作,推出“AI寻人”平台,用人脸识别技术帮助寻亲。截至2021年3月1日,百度“AI寻人”平台共计收到用户上传照片42万余张,寻亲成功数量达到12000多人次。

从2018年初开始,腾讯优图实验室经过近一年时间的资源投入和优化调整,进行了上千次模型训练,经历5次版本更新,最终沉淀版本为一个具有上千层复杂结构的深度神经网络模型,让跨年龄识别精度提升至近96%。据介绍,福建省公安厅“牵挂你”防走失平台使用该技术,仅2019年累计找回的走失儿童就有1091名。

除了跨年龄人脸识别技术之外,AI寻亲的优势还体现在照片修复上。不少寻亲的父母会将失踪孩子的照片放得很大,挂在旗帜上、印在车身处、贴在T恤上,而原先模糊的老照片,放大后更加难以辨认。

对此,2020年3月,当时还在攻读华中科技大学软件学院博士的盛建中,发起成立了一个“AI宝贝:让寻亲不再孤单”团队,很多同学知道后,也主动加入进来。

写代码、测试算法,盛建中和团队花了半年时间集中攻关,终于研发出一套图像修复人工智能算法,利用“全局修复”“人脸增强”“超分辨率重建”三大技术应用,准确修复了大量失踪儿童的模糊照片。

截至2023年12月,团队已为1000余名失踪儿童修复照片,借助图像修复技术,11名失踪儿童被成功寻回。其中,在备受关注的电影《亲爱的》原型孙海洋寻亲一事中,团队帮助修复了儿子孙卓幼年的照片和孙海洋年轻时的照片,协助警方成功寻回孙卓。

“随着我们科技的进步,我相信我们的孩子,早晚都会回家的。”特意从江西赶到河北的杜小华说,他2014年认识解克锋,二人是寻亲路上的“战友”,同样他也是电影《亲爱的》原型中唯一仍在寻子的父亲。

“爱与责任”带来科技的温度 

每一个寻亲者,背后都有一个曲折、幽暗的故事。AI技术的加持,像是照亮回家路的光,让那些丢失孩子的家庭得到一丝慰藉和依托,也让我们看到了冰冷科技背后的人文关怀。

从我国走失人口数据来看,中民社会救助研究院与“头条寻人”项目组在北京联合发布的《中国走失人口白皮书(2020)》数据显示,2020年我国走失人次达到了100万,但相较于2016年的394万人次以及2017年的260万人次已经显著减少。我国走失人群规模呈现逐年递减的状态,相比于五年前,该群体人数已经减少近75%。

2021年1月,公安部开展“团圆行动”,其中,人像比对技术发挥了重要作用,截至2022年6月1日,“团圆”行动已找回历年失踪被拐儿童11198名。冷冰冰的数字背后是一个个有温度的人生,每一次久别重逢的相拥、相泣和欢笑,离不开科技与爱的碰撞。

不可否认,AI技术加快了寻亲的步伐,在庞大的图像数据处理中,发挥着越来越重大的作用。但是,作为一种技术辅助手段,我们不应过分夸大其作用。

“在寻亲过程中,跨年龄同亲缘人脸比对算法等AI技术手段,只能作为一种辅助手段,它可以提高筛选效率,不能作为法律依据,最终结果还是要用可作为法律证据的DNA检测做判断。”研发设计出全国第一代“市民卡”、浙江大学智能教育研究中心特聘研究员张旭光向记者表示。

除了人脸识别技术的不断创新,寻亲成功的背后,同样离不开家人和公安机关的不懈努力,以及社会各界的关心关注。

在帮助寻亲过程中,警方扮演着至关重要的角色。他们需要进行大量的前期准备工作,比如全面收集基础数据;与其他部门开展协作;运用各种新型科技手段,组织专人开展技术比对,并及时将比对结果下发至属地,进行落地核查等等。

而在认亲过程中,或多或少,双方都面临着煎熬的心理考验。警方需要花时间、花精力与双方沟通,做双方见面前信息的传递人。正是基于这份坚持,基于“爱与责任”,AI技术的可能才最终化为现实。

与此同时,无数社会组织和科技企业也在这场寻亲的战斗中投入火力,多一个平台,就多一份希望,但在“科技向善”背后,如何避免新技术的负面影响是对技术使用者的巨大考验。

AI技术是把双刃剑。在未来,我们期待看到AI技术的不断迭代,为更多寻亲家庭提供技术支持,照亮走失孩子的回家路。同时,“我们需要用法律和技术手段来约束AI技术带来的伦理和隐私等相关问题,以确保技术的发展能够真正造福人类。”张旭光说。

GPTs加速多模态AI应用创新,下一阶段AI Agent到AI终端

GPTs短期上线数量已超3万,揭开AIGC应用生态序幕

11月6日,OpenAI举办首届开发者大会,正式公布了GPTs,截至12月3日,GPTs数量已达3.2万个。我们认为,GPTs提供AIGC应用生态入口,形成了AIGC应用价值链,既激励上市公司优化自身产品,又有助于其产品价值兑现。

2)Pika重磅更新,多模态AI应用超预期

11月29日,美国AI初创公司Pika labs发布Pika 1.0。Pika 1.0能够支持对于视频实时编辑和修改,核心功能包括:文本和图像生成视频、直接在视频中编辑更改部分选中元素、切换视频风格及扩展视频画布调整视频宽高比等,当前Pika 1.0已开放申请试用。

除此之外,多模态应用11月纷纷迎来重大更新:

Runway宣布在Gen-2 中上线Motion Brush运动笔刷功能,可以将笔刷区域变静为动并可控制移动方向与幅度;文生图工具 Stability AI发布视频生成模型;Adobe收购文生视频公司Rephrase.ai,加强其生成式AI能力。

3)AI应用开始步入下一发展阶段:AI Agent到AI终端

– AI Agent:11月6日,OpenAI在DevDay上发布了Assistants API,通过该API可以简单创建具备完整的短期记忆、长期记忆(补充私有知识)、工具使用、自主规划能力的AI Agent/Assistant;12月1日,昆仑万维发布 AI Agent开发平台天工SkyAgents,用户可以通过自然语言构建自己的单个或多个“私人助理”。

– AI终端:11月10日,Humane发布了首款AI原生可穿戴智能硬件AI Pin;10月谷歌发布的Pixel 8手机上已经首次应用AI智能大模型。

4)投资建议:

AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络;

AI+多模态:中科创达、虹软科技、当虹科技、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技;

AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、光云科技、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康、迪安诊断等

华为、阿里发力,AI人工智能迎技术突破,万亿赛道开启,核心公司被资金抢筹!

生成式人工智能(AIGC)经过上半年的疯狂上涨,下半年沉寂了不断的时间,但随着市场应用的不断更新,板块从十月底再次活跃起来。
消息面上,苹果公司可能会在iPhone 16中推出生成式人工智能(AIGC)的相关创新功能,其实这也不算新鲜事,华为的鸿蒙系统已经可以接入盘古大模型,只不过主要针对商业人士的付费项目。
此外,近段时间chatGPT又推出了chatGPT4.0,功能之强大让OPPOAI公司因为对人工智能的监管发展问题内部反复出现分歧。
第四次科技革命的时代已经到来,人工智能将会贯穿这个主线,AIGC作为人工智能的最主流应用之一,值得大家关注。

AIGC极大提高生产力,战略价值非常高

AIGC就是利用人工智能技术来生成内容的新型技术,它可以让AI根据一句话、几个词或规则,进行实时人机互动等操作。

AI绘画、AI写作等都属于AIGC的分支。比如,可以用AI根据一句话创作出一幅画,或者让AI根据几个词写代码。

大家现在最熟知的就是火出圈的chatGPT,文心一言,盘古等大模型,看最新的消息,chatGPT4.0得到了质的飞跃,图像文字可以双向输入输出,比如只需要简单在纸上画一个网站的草图,拍一张照片上传给GPT-4,马上就可以生成网站!

机器不会比人智慧,但因为海量的数据存储和大量计算,机器是比人要聪明的,只要AIGC能更好的理解人的额意图,那对于生产效率的提升是巨大的。

2022年AIGC占全球数字数据量为1%,到2025年,这一比例将提升至10%,并且在广泛的领域应用,如软件编程,医药研发,精准营销,影视娱乐等,涉及行业的广度和深度远超从前。

而根据OpenAI预计,除了内容产出的变革外,AIGC也将有效的提高工作效率,减少工时。

以美国为例,OpenAI预计未来将有80%的工人至少10%的任务会受到影响,19%的工人有超一半的任务会受到影响。

那么,AIGC市场前景如何?人工智能作为已经名明牌的技术革命路线,全球各主要国家都异常重视,大力出台政策支持和资金投入。
目前,人工智能已发展形成包含纵向的大数据平台、开源算法、专用芯片、图像处理等核心技术网络和横向的智慧交通、智慧医疗、智慧安防、智慧家居等商业解决方案的完整生态。

数据显示,2020年,全球人工智能行业的市场规模约达到15231亿元,预计至2023年,全球人工智能行业市场规模将达约30802亿元。

人工智能,鉴于其“交叉学科”的属性,与之相关的前沿产业也是“百花齐放”,从自然语言处理、计算机视觉到芯片、机器人再到自动驾驶,均有广泛的涉猎。
从2023年上半年的融资事件的行业分布来看,前沿技术、机器人以及集成电路的融资事件数量位居前列,自动驾驶在这三者之后,也拥有了20起相关的融资事件。

AI芯片,算力必争之地、自动驾驶,让出行更智慧、机器人,提升工作效率的好帮手、AI制药,让医药研发更高效…
人工智能的重大价值不仅体现在前沿科学领域,更体现在与千行百业的深度融合,只有形成了好的产业生态、商业模型、产业链闭环,才能让人工智能更多地为人所用,为普通消费者所用。
据公开数据显示,我国人工智能产业蓬勃发展,核心产业规模达到5000亿元,商业化规模加速增长。

那么,AIGC的产业链如何,有哪些投资机会?

目前,AIGC领域的竞争格局非常激烈。全球范围内,许多大型科技公司如IBM、谷歌、微软、华为、阿里巴巴、腾讯等都在AIGC领域进行了布局。

AIGC是人工智能的一个大分支,包括数据,算力,算法,训练,芯片等众多环节,为了让大家能更清楚的了解,下面为大家详细进行梳理。

上游:

数据供应商:数据是AIGC技术的核心资源,需要从各种来源获取大量数据。数据供应商提供各种类型的数据,包括文本、图片、音频和视频等,以满足不同应用场景的需求。

算力供应商:AIGC技术需要大量的计算资源,包括高性能计算机、大规模分布式集群等。算力供应商提供这些计算资源,并确保系统的稳定性和可用性。

模型训练平台提供商:这些平台提供模型训练、调优、部署等全流程服务,使开发人员能够更快速地构建和部署AIGC模型。

海天瑞声通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。

随着AIGC市场的扩大对训练数据的需求将大幅提升,公司业务前景广阔,利好公司发展。

中游:

AIGC技术提供商:这些公司开发和提供各种AIGC技术,包括自然语言处理、计算机视觉、语音识别、图像识别等。它们的核心能力在于算法和模型的研发与创新。

昆仑万维是国内最早布局AIGC的,且布局较为全面的公司之一,拥有技术模型研发能力,并应用于音乐、图像、文本及编程领域。

2022年9月份启动编程(天工智码SkyCode)、图像(天工巧绘SkyPaint)、文本方向(天工妙笔SkyText)的AIGC产品。目前AI图像、AI文本、AI编程的模型已经在GitHub上开源。近期,旗下的Opera浏览器也计划ChatGPT功能,不断利用人工智能技术赋能业务发展。

AI芯片提供商:提供专门为AIGC应用设计的芯片,以提高计算效率和降低功耗。

下游:

应用开发商:利用AIGC技术,开发各种应用,包括智能客服、智能家居、自动驾驶、游戏等。它们将AIGC技术集成到各自的应用中,以提供更智能、更高效的服务。

科大讯飞就是这方面的龙头,自创业以来持续聚焦智能语音、自然语言理解、机器学习推理及自主学习等人工智能核心技术研究并始终保持国际前沿技术水平。

公司主要智能战略可概括为“平台+赛道”。“平台”指“讯飞开放平台”,为人工智能开发者提供一站式解决方案。“赛道”指公司将核心技术运用在教育、医疗、智慧城市、企业数智化转型、办公等领域实现技术创新的产业运用变现。

全球各国在互相合作的同时竞争也非常激烈,划时代的技术与革命往往代表着国际秩序和全球分工体系的重塑,一点也马虎不得。

AIGC是时代发展的必然,作为一个新的风口,将会在未来造成财富的重新洗牌。

中国人工智能产业发展联盟第十次全会在重庆召开,新成立8个工作组,发布10大标杆案例

2023年12月7日下午,中国人工智能产业发展联盟(AIIA)第十次全体会议在重庆两江新区召开。本次会议由重庆两江新区管理委员会、中共重庆市委网络安全和信息化委员会办公室、重庆市经济和信息化委员会、中国人工智能产业发展联盟主办,两江新区明月湖建设领导小组指挥部、重庆信息通信研究院、重庆市人工智能产业发展联盟承办。中国科学院院士郑志明,工业和信息化部科技司副司长刘伯超,重庆两江新区党工委委员、管委会副主任许宏球,中国人工智能产业发展联盟秘书长、中国信息通信研究院(简称“中国信通院”)院长余晓晖,重庆市经济和信息化委员会党组成员、副主任汪立东,重庆市大数据应用发展管理局党组成员、副局长李斌,重庆市通信管理局党组成员、副局长严寒冰出席会议,来自联盟成员单位的300余位代表参加会议。中国人工智能产业发展联盟副秘书长、中国信通院副总工程师王爱华主持开幕式。

刘伯超介绍了工业和信息化部深入贯彻落实党中央、国务院决策部署,推动人工智能赋能新型工业化,加快培育壮大智能产业的相关举措,提出了筑牢发展底座、赋能新型工业化、完善发展环境和深化国际合作等工作任务。他对联盟在推动技术创新、行业赋能及生态建设方面所做的工作给予肯定,希望各方能够进一步加强交流合作,推动人工智能产业健康发展,共同绘制人工智能赋能新型工业化的新画卷。

许宏球表示,两江新区正积极抢抓“东数西算”建设机遇,大力建设国家数字经济创新发展试验区和新一代人工智能创新发展“双核心区”,加快打造明月湖·π科创品牌,以通用人工智能为特定产业方向之一,加快建设重大使能平台,大力开放数字科技应用场景,加速集聚人工智能产业创新资源。下一步,两江新区将立足实际、发挥优势,以最大诚意提供最优企业服务和最优营商环境,与各方开展更加广泛的交流合作,共同绘就人工智能产业发展新蓝图。

余晓晖指出,当前通用人工智能的前景开始显现,人工智能技术与行业深度融合加速,全球范围内对人工智能治理的共识逐步形成。他回顾了联盟在支撑重大政策决策、发布系列研究报告、制定标准规范以及组织生态构建等方面取得的成果。提出联盟下一步主要工作方向:一是提高站位,持续凝聚产业力量,形成产业发展合力;二是守正创新,聚焦人工智能的新技术、新应用、新业态和新问题,加大协同攻关力度;三是加强协作,扩大国际合作交流;四是凝心聚力,针对重点行业、重点领域的数字化转型搭建合作平台,突出人工智能关键变量,以智能制造为主攻方向,推进人工智能全方位、深层次赋能新型工业化,助力我国经济高质量发展。

郑志明院士指出,当前人工智能的发展面临非线性、动态、随机等技术挑战,需要从统计加动态线性学习的范式,向非线性、认知智能和群体智能研究范式转变。中国在人工智能领域的基础设施和技术日益完善,期待联盟成员能够继续深化人工智能与实体经济的融合,推动产业高质量发展,实现数字经济与实体经济的高质量共进。

会上,重庆市经济和信息化委员会发布了重庆市人工智能应用场景项目和软件产品名单,并举行了重庆市人工智能重点项目签约仪式。重庆市大数据应用发展局、重庆市通信管理局,两江新区管委会等领导共同见证了明月湖·π使能平台点亮仪式。会议发布仪式环节由重庆两江新区明月湖建设领导小组指挥部指挥长张炎主持。

联盟总体组组长魏凯做了联盟总体工作情况汇报,全面回顾了联盟成立以来在政府支撑、产业研究、生态培育和国际合作等方面取得的成果,重点介绍了近期联盟组织架构优化和应用案例征集等近期重点工作情况,提出联盟下一阶段工作计划。

本次全会上,联盟基础平台、具身智能、科学智能、智能化软件、金融行业、汽车行业、安全治理、数据委员会8个工作组/委员会正式成立,余晓晖为组长单位代表颁发了证书。

随后,联盟评估工作组、标准化与推广工作组、基础平台工作组、具身智能工作组、医学人工智能委员会、新型智慧城市产业委员会、金融行业推进组、汽车行业推进组、智能化软件工程工作组、科学智能工作组、能源行业推进组、国际合作工作组、政策法规工作组、知识产权工作组、数据委员会、开源开放委员会、安全治理委员会、人工智能赛事工作委员会18个组分别介绍了各工作组/委员会的工作情况及未来规划。

会上,联盟正式发布了AIIA人工智能十大先锋应用案例和十大潜力应用案例。

十大先锋案例是:

成果发布环节,商汤科技和中国信通院联合发布了《大模型可信赖研究报告》,华为企业BG与中国信通院联合发布了《加速行业智能化白皮书》。

会议还设置了专题报告环节。中国信通院人工智能研究中心软硬件与创新生态部主任李论做了《国产大模型关键软硬件及协同创新态势分析》主题报告;中国信通院人工智能研究中心平台与工程化部主任曹峰做了《人工智能大模型工程化现状及展望》主题报告;中国信通院人工智能研究中心安全与元宇宙部主任石霖做了《人工智能安全治理现状及实践探索》主题报告;重庆长安科技有限责任公司总监、AI&SI LAB副主任谢乐成做了《大模型在汽车业务场景应用与探讨》的主题报告,云从科技集团股份有限公司联合创始人李夏风做了《基于国产化算力的云从从容大模型一体机解决方案》的主题报告。

本次全会为期两天。12月7日上午,联盟组织还召开了工作组会议,17个工作组就组织架构、工作内容及未来计划进行了详细的介绍。12月8日全天,联盟数据委员会、基础平台工作组、科学智能工作组、能源行业推进组、安全治理委员会、医学人工智能委员会、金融行业推进组、汽车行业推进组以及具身智能委员会并行召开了9场工作会议。联盟还联合人工智能关键技术和应用评测工业和信息化部重点实验室,共同举办了“人工智能大模型基准测试”专题研讨会议。

大量年终总结由AI代写,该担忧吗?

又快到年底,各类年终总结任务如期而至。近日,AI代写年终总结的现象引发了关注。

根据媒体报道,当前搜索“年终总结AI”等关键词,有许多相关产品,有的店铺月销量甚至达到6万单以上。也不只是年终总结,PPT、营销文案等内容,均可以通过AI来完成代写。AI工具确实可以帮助我们减轻一部分工作量,甚至有些时候,我们在材料的搜集、整理和归纳上,做的也不一定会比AI出色。

可以预见的是,在未来的日子里,我们会更多地使用AI工具去完成工作,这也是技术发展的趋势。借助AI工具,我们既可以从重复性、低创造性的劳动中释放出来,也可以获取更多思路上的启示。前期通过AI做数据整合和规律分析,后期由人工来进行个性化内容的添加或升华,我们完全有可能得到一篇佳作。

因此,我们没必要否定用AI写年终总结的行为,也不能简单地将使用AI等同于偷懒。应该看到的是,当AI代写再次成为话题,人们在讨论中真正在意的是什么?想必不是那一篇篇年终总结的质量,而是AI会不会代替人类的思考,会不会增强人们思维的惰性。如果一篇年终总结只是交上去就存档的几张纸,用AI完成并无不可,我们还可以用省下来的时间去完成更有价值、更有创造力的工作。

但问题就出在,人们会不会事事都交给AI来做,从而减弱分析和表达的能力,丧失了自主思考的意愿。所以,厘清AI产品的使用边界和参与尺度就显得很重要。

也就是,什么样的场景下是可以使用AI工具的,什么情况下是不能用AI“一键生成”的。比如,在学术研究和论文写作上,目前的共识是不能假手于AI,而要保持作者的独创性。此前提请审议的学位法草案中也规定,有利用人工智能代写学位论文等情形的,可经学位评定委员会审议决定,由学位授予单位撤销学位证书。这也是对于人工智能在教育科研领域使用边界的明确规范。

具体到“写年终总结”和“做PPT”上,AI也可以提升我们的工作效率。当我们输入必要的材料和要求,AI便会快速梳理相关数据和信息,然后根据我们的要求,搭建起有逻辑的、规范化的架构或者文本。

大量年终总结由AI来代写,这件事到底好不好?其实,这仍旧是“人工智能会不会对人类造成威胁”这一命题的变种,背后反映的是人们面对新技术、新应用时的担忧和不确定。但说到底,我们的目标是利用AI赋能人类,让人工智能更好地服务于人类的发展,而不是因为这种不确定而直接向AI说“不”。

也正因此,我们不必对AI代写年终总结过于担忧。更何况,现阶段许多AI生成的总结都有些“隔靴搔痒”,经不起太细致的审视和评判。要想结合实际、言之有物,还需要人们的智慧,这不正是我们与算法相比的优势所在吗?

“历史性的”!全球首个人工智能监管协议谈了什么?

据法新社最新消息,经过36个小时谈判,欧盟成员国及欧洲议会议员当地时间8日就全球首个监管包括ChatGPT在内的人工智能的全面法规达成初步协议。欧洲新闻台形容说,谈判过程非常激烈,这是世界上首次尝试以全面的、基于伦理的方式监管这项快速发展的技术。

“历史性的!随着今天围绕《人工智能法案》的政治协议达成,欧盟成为第一个为使用人工智能制定明确规则的大陆,”欧盟委员会内部市场专员蒂埃里·布雷顿表示。

报道称,未来几天有关方面将讨论细节,这可能会改变最终立法的形式与内容。

欧洲新闻台提到,早些时候周四(7日)的谈判是就控制像美国人工智能公司OpenAI的大语言模型ChatGPT这样聊天机器人的基础模型达成初步妥协,8日的谈判则重点关注在公共场所使用包括面部识别在内的实时生物识别技术。

彭博社报道称,该协议标志着欧盟在人工智能监管方面迈出关键一步。在美国没有采取任何行动的情况下,这一法案或将为发达国家对生成式人工智能工具的监管定下基调。但有人警告说,即使达成了协议,也可能需要举行更多的会议来敲定法规的技术细节,该法案最早也要到2026年才能生效。

欧盟委员会于2021年提出《人工智能法案》提案的谈判授权草案,将严格禁止“对人类安全造成不可接受风险的人工智能系统”,包括有目的地操纵技术、利用人性弱点或根据行为、社会地位和个人特征等进行评价的系统等。该草案还要求人工智能公司对其算法保持人为控制,提供技术文件,并为“高风险”应用建立风险管理系统。每个欧盟成员国都将设立一个监督机构,确保这些规则得到遵守。

AI再颠覆材料学!微软MatterGen直接生成新材料,稳定性超SOTA模型2.9倍

材料科学领域的一个重大挑战,如今被大模型攻克了。先前,谷歌DeepMind的全新AI工具GNoME,成功预测出220万种晶体结构,在学术界掀起海啸级地震。今天,微软团队推出下一代生成式AI工具——MatterGen,大大提升了设计所需特性材料的速度。

当前,材料科学的核心挑战是,发现所需特性的材料,比如高锂离子电导率的电池材料。一般来说,要做到这一点,首先需要找到新材料,然后根据应用进行筛选。这就好比要创建一只猫的图像,首先要生成100万张不同的图像,然后再搜索有猫的图像。而有了MatterGen模型,就可以「直接生成」所需特性的新型材料,这与DALL·E处理图像生成的方式非常相似。

简单来说,MatterGen是扩散模型的一种,专门设计用于生成新颖、稳定的材料。另外,MatterGen还有适配器模块,可根据化学、对称性等各种约束条件进行微调,以生成材料。值得一提的是,与SOTA模型(CDVAE)相比,MatterGen生成的新颖独特结构的稳定性高出2.9倍。它还生成接近能量局部最小值17.5倍的结构。

看得出,AI在材料设计和筛选方面表现出巨大潜力,必将给材料学带来颠覆性的变革。

晶体材料生成的扩散过程

在MatterGen中,研究人员介绍了一种为晶体材料量身定制的新型扩散过程,如下图a。扩散模型通过学习分数网络(score network)来逆转固定的破坏过程来生成样本。图像的破坏过程通常添加高斯噪声,但晶体材料具有独特的周期结构和对称性,需要定制的扩散过程。晶体材料可由其重复单元(即单元格)定义,单元格编码原子类型A(即化学元素)、坐标X和周期晶格L。作者为每个成分定义了一个适合其自身几何形状的破坏过程,并具有物理上的极限噪声分布。

再具体来讲,坐标扩散采用包裹正态分布,来遵守周期边界,并在噪声极限接近均匀分布。其中,晶格扩散采用对称形式,接近于平均值为训练数据中原子平均密度的立方晶格分布。原子扩散是在分类空间中定义的,其中单个原子被损坏成掩蔽状态。根据破坏后的结构,便可以学习一个分数网络,它可以分别为原子类型、坐标和晶格输出等变分数,从而无需从数据中学习对称性。对此,研究人员将该网络称为「基础模型」。为了生成具有所需属性约束的材料,研究人员还引入了适配器模块,这些模块可用于在带有属性标签的附加数据集上对「基础模型」进行微调,如下图b所示。

由于计算成本较高,如果标注的数据集与未标注的结构数据集相比规模较小,微调仍能很好地发挥作用。适配器模块是注入到基本模型的每一层中的可调节的组件,以根据给定的属性标签改变其输出。由此产生的微调模型与无分类器引导结合使用,引导生成的结果符合目标属性约束。作者将这种方法应用于多种类型的属性,生成了一套微调模型,可以生成具有目标化学成分、对称性或标量属性(如磁密度)的材料,下图c。

生成稳定、多样化材料

那么,MatterGen究竟如何才能生成稳定的材料?在作者看来,MatterGen的基本模型生成稳定、多样化材料的能力,是解决任何逆向材料设计任务的先决条件。研究人员将逆向材料设计的生成模型设计为一个两步过程:首先预训练一个通用的基本模型,以便在元素周期表上生成稳定的、多样的晶体,然后针对不同的下游任务对基本模型进行微调。

为了训练基础模型,研究者从Materials Project(MP)和Alexandria数据集中重新计算了607,684个稳定结构(多达20个原子),并将其称为Alex-MP-20。研究者认为,如果通过DFT松弛后每个原子的能量低于参考数据集的0.1 eV/原子阈值,包括从MP、Alexandria和ICSD数据集重新计算的1,081,850个独特结构,则该结构是稳定的。下图a显示了,MatterGen生成的几个随机样品,具有典型的无机材料配位环境。

为了评估稳定性,研究人员对1024个生成结构进行DFT计算。图b显示了,78%的结构生成低于0.1 eV/原子阈值(13%低于0.0 eV/原子阈值) ,而75%的结构生成低于0.1 eV/原子阈值(3%低于0.0 eV/原子阈值)。此外,图c显示95%的生成结构具有RMSD w.r.t。

研究进一步发现,MatterGen可以生成大量独特和新颖的材料。如图d所示,当生成1000个结构时,独特结构的百分比是100% ,而当生成100万个结构时,独特结构的百分比仅下降到86% ,而新颖性保持稳定在68%左右。

此外,研究人员还将MatterGen与先前的材料生成模型进行比较,并显示出性能方面的显著改进。这里,主要关注两个关键指标:(1) 生成样本中 S.U.N. 材料的百分比,衡量生成有希望候选材料的总体成功率;(2) 生成样本与其DFT松弛结构之间的平均RMSD,衡量与等效平衡的距离。实验结果显示,在图e-f中,与之前最先进的CDVAE相比,MatterGen-MP显示S.U.N.结构的百分比提高了1.8倍,平均RMSD降低了3.1倍。在比较MatterGen和微调的MatterGen-MP时,研究者还发现由于扩大了训练数据集,S.U.N.结构的比例进一步提高了1.6倍,RMSD降低了5.5倍。

综上所述,作者已经证明,与以前的生成模型相比,MatterGen能够以更高的速率生成S.U.N.物质,同时生成的结构在数量级上更接近其局部能量最小值。

目标化学材料生成

在目标化学体系(如Li-Co-O)中找到最稳定的材料结构,对于确定评估稳定性所需的真正凸包(Convex hull)至关重要,实际上也是材料设计的主要挑战之一。在下图a-b中,可以看到MatterGen在每种系统类型,和每种化学复杂度下生成的S.U.N.结构百分比都是最高的。如图c所示,在「部分探索」系统和「充分探索系统」中,MatterGen在组合凸包上找到的独特结构数量也是最高的,前者在训练过程中提供了凸包附近的已知结构,后者在训练过程中没有提供凸包附近的已知结构。在三元和四元系统中,替换法提供了一种相似或更有效的方法来生成「船体」上的结构,而MatterGen则在二元系统中取得了更好的性能,如图d所示。

此外,当筛选方法因数据库中的材料枯竭而趋于饱和时,MatterGen可以不断生成满足高体积模量等目标特性的新型材料。

与筛选基线相比,MatterGen发现了更多新颖的稳定高体积模量材料,并且不会因计算资源的增加而停滞不前。MatterGen可以找到250多种体积模量>400 GPa的材料,而在参考数据集中只找到2种此类材料。另外,MatterGen还可以生成给定目标空间组的结构。

最后,研究人员还解决了寻找低供应链风险磁铁的多属性材料设计问题。MatterGen提出的结构既具有高磁密度,又具有低供应链风险的化学成分。网友看后表示,室温超导体又要回来了。

正如微软团队所说,MatterGen是AI在材料设计领域向前迈出的重要一步。

AI人才缺口竟高达400万?

缺口竟高达400万?AI人才争夺战开始了

近日,阿里巴巴集团旗下淘天集团启动一项名为“T-Star”顶尖人才招聘计划,延揽全球前沿技术领域的竞赛、学术和实战高手,还配备“大牛”主管和顶级研发平台资源,年薪百万起且上不封顶,引发网友热议。

而这,绝不是个案。ChatGPT横空出世之后,国内大型互联网公司、科技公司和金融公司纷纷抢滩人工智能,开出诱人薪资争夺AI人才。甚至在婚恋市场上,“AI男”成为继“金融男”之后的受捧对象。

猎聘招聘网站公布AI相关领域的薪资表

透过旺盛的市场需求,背后是人工智能行业人才供需不平衡问题。作为未来一个世纪的核心技术,人工智能人才短缺不仅限制我国AI技术的发展,还影响企业创新和竞争力。这个题该怎么破?

稀缺

“现在,他们是我们这个行业中工资最高的。”

聊起人工智能岗位,刘宏的语气中带着一丝羡慕。他是一名“80后”,在北京一家互联网大厂从事web网页服务工作已经10年了。

前不久,刘宏所在的公司刚从国外挖来一个人工智能算法工程师,年薪达到了千万。这让以他为代表的“老互联网人”感慨不已。

他透露,现在凡是和AI相关专业的,刚毕业的本科生月薪也能达到2万元左右;如果是有一定经验的高学历人才,像硕士或博士,年薪百万也很平常。

亚马逊公司研究数据显示,有73%的雇主优先考虑雇佣人工智能技术人才,还有93%的企业预计将在未来5年内使用生成式人工智能解决方案。而麦肯锡公司也曾发布报告称,预计中国对熟练AI专业人员的需求将增至2022年的6倍,达到600万,而人才缺口可能多达400万。

在人工智能的人才竞争中,一个观点在各大公司中形成共识:“得人才者得模型,得模型者得天下。”

记者通过招聘网站得到了印证。在猎聘招聘网站上,北京、上海和深圳等地的企业,发布了多个AI相关的岗位需求。从毫无经验的本科生到经验丰富的博士生,薪资都不低。

当然,就算是开出了“天价”,符合条件的人也不多。人工智能并不是一个容易入门的领域,通常需要拥有数学、计算机、数据分析等相关专业背景,以及多年从业经验。

“尖端人才太少,大家都在抢。”杭州一位猎头公司负责人透露,他们为一家企业找人工智能算法工程师,已经寻访一段时间了,还是没找到。大厂都不差钱,还给股权激励,用人单位的竞争也很激烈。

据记者了解,目前人工智能产业人才的结构像一个金字塔——

基础一层是从学校毕业本科或硕士。这类人才人数较多,大多通过校招进入公司,需要定向培养,但相对来说比非专业人才培养成本要低;

中间一层属于在国内大厂工作5-10年,有从业经验,数量较少。这类人群也是各大公司招揽的主要对象,年薪从几十万到百万不等;

最顶端的是海外人工智能团队呆过,有领先工作经验。但这类人才不是遍布国内外大厂,就是自主创业无需就业,所以处于市场疯抢状态。

“转行也来不及了,这个领域门槛高,不是你想转就能转的。”刘宏透露,身边也有朋友转行的,但是还是停留在应用层面,比如做数字人,薪资也达不到百万。

挑战

“目前人工智能行业对人才处于边摸索边培养阶段。”浙江省人工智能产业联盟秘书长姚信威告诉记者,有时候一项新技术刚发布,高校老师和学生处于同样学习阶段,“这就需要打破传统的教学模式。”

2018年,我国首批35所高校高校开设人工智能专业,浙江大学就是其中之一。浙江大学人工智能研究所所长吴飞用“摸着石头过河”,来形容专业起步时面临教材等资源困难,“当时国内没有人工智能专业系列教材。学生问我人工智能专业推荐书目,我也不知道怎么答。”

吴飞开设了《人工智能:模型与算法》课程,边上课边编写教材成为他那段时间的常态。几轮授课下来,教材内容初具雏形,最终形成《人工智能:模型与算法》,这一教材目前已演变为教育部计算机领域本科教育教学改革计划(101计划)核心课程《人工智能引论》教材。

为进一步建设教材,高等教育出版社在2018年组建了由潘云鹤院士担任主任委员的国家“新一代人工智能系列教材”编委会。目前已经出版了25本理论技术教材和11本实践教材,奠定了专业基础。“新一代人工智能系列教材也被列入国家“十四五”规划中。

如果遇上新技术发布,浙大教务组会安排老师为课程“打补丁”。比如今年上半年,大语言模型成为关注焦点,吴飞马上将大模型内容加入《人工智能引论》教材中,“社会需要什么,我们就教什么。”

ChatGPT问世一周年,世界经历了人工智能应用井喷的一年。从智能写作助手到基于图片生成视频,几乎每一周人工智能都会推出一次惊艳人类的版本更新。

五花八门的应用,也为人工智能产业人才培养带来了新的挑战。

“人工智能产业正在下沉。各行各业对人工智能的需求都在增长。”猎头公司、对点咨询人事总监杨毅说,人工智能正从弱AI走向通用AI阶段,与大量其他领域产生交叉,这一加速度将不可逆地与日俱增,“未来人工智能会赋能各个行业,就像水和电。这就要求行业拥有大量交叉学科人才。”

衣食住行、智能制造、智能家居、智慧金融、智能医疗、智慧教育……每个领域都开始布局AI应用。

但杨毅也提到了企业的矛盾心态。大部分企业都知道人工智能是大势所趋,但对自身发展方向和需求人才并没有“想得特别明白”,导致招聘时存在盲目性,需求也并不明确。

而吴飞则强调人工智能的伦理隐忧:“与传统认识中的枪炮、菜刀这样的工具不同,人工智能与人类社会的关联度前所未有,风险也必须考虑周全。算法必须是向善的,这是全社会都需要考虑的问题。”

他的顾虑不无道理。早在2016年,微软就曾推出一款聊天机器人,但在推出不到24小时内就被网民训练成“种族歧视者”。而人工智能的公平性、决策的可靠性,以及用户数据的隐私也都被认为是未来需要形成广泛明确共识的领域。

破局

2020年,任正非曾在C9高校校长座谈会上说过一番语出惊人的话:国内顶尖大学不要过度关注眼前工程与应用技术“卡脖子”方面的困难,要专注在基础科学研究“向上捅破天”。

这番话被吴飞引用,用于回答当前人工智能人才培养应当如何破局——这是一项系统工程,政府、高校、企业应当明确各自分工。

人才需求缺口大,而师资力量不足,高校选择“抱团取暖”。

今年9月,一张盖有浙大、上交、复旦、南大、中科大和同济大学六所高校教务部门公章的证书,被送到了六所学校非计算机专业的66位同学手中。

2021年4月,吴飞与六所学校的计算机专业老师联合华为、百度和商汤公司等,共同开启“AI+X微专业”辅修项目,实现跨学校、跨学院、跨学科、跨专业教学与管理,向非计算机专业学生讲授人工智能基本知识体系。每位学生要在两年内完成7门课程学习,才能顺利完成课程。

企业则通过更灵活的招聘机制,积极寻求自身产品最契合的人工智能人才。

2022年入局AI绘画赛道,杭州无界AI被业界誉为“最懂中国风的AI平台”,已拥有近300万注册用户和逾百位B端商业客户。

联合创始人马千里告诉记者,公司在招聘时更看重求职者的思维模式、实践经历而不仅仅是专业背景:“今年招了一个艺术专业背景的小伙子,他业余训练了很多广受好评的AI模型。既有审美、又懂一些技术,这才是我们最需要的人才。”

头部公司甚至通过免费培训引才。11月底,亚马逊推出了免费计划“AI Ready”,计划在2025年为全球两百万人提供人工智能培训,课程内容包括8门全新的免费AI和生成式AI课程。这些课程不仅对亚马逊员工开放,也对其他公司的员工敞开大门。

政府则通过政策倾斜助力产业发展。2022年,浙江出台人工智能产业相关政策高达53条,今年又相继出台了《关于培育发展未来产业的指导意见》《浙江省元宇宙产业发展行动计划(2023—2025年)》等系列政策。

浙江省人力社保厅也将人工智能产业链相关人才列为数字工程师、数字技能人才培养项目,并与今日头条、大华等头部企业开展合作,加大对相关人才的培养力度。

“政府的作为是当中最关键的一环。”姚信威认为,人工智能人才培养并不应当按照“投入—产出”的思维去衡量,“这是一项需要从国家战略意义考虑的技术。政府部门的人工智能思维模式远比企业更紧要。

人工智能全域变革图景展望(2023)

近日,毕马威联合中关村产业研究院通过行业调研和专家访谈,结合深入研究共同发布《人工智能全域变革图景展望:跃迁点来临(2023)》。2023
全球人工智能产业洞察Industry Insight

报告指出,全球人工智能企业数量由爆发式转入稳步增长区间。截止2023年6月底,全球人工智能企业共计3.6万家。人工智能企业数量逐年增长,2016年-2019年全球人工智能爆发式增长,每年新增注册企业数量超3000家,尤其是2017年新增注册企业数量达到顶峰(3714家)。2019年开始,人工智能新增注册企业数量有所下降,2022年当年新增企业数量与2013年基本持平。

美国人工智能企业数量位居全球首位,中国紧随其后,英国位居全球第三。美国人工智能企业约1.3万家,在全球占比达到33.6%,中国占比为16.0%,英国为6.6%,以上三个国家的人工智能企业数量合计占到全球的56.2%。

截止2023年6月底,全球人工智能领域独角兽总数达291家,分布在20个国家。来自美国的独角兽企业有131家,占全球总数的45%:来自中国的独角兽企业有108家,占全球总数的37%。2023
人工智能发展十大趋势Transition Point Approaching

大模型爆发以来,人工智能技术发日新月异,创新成果纷纷涌现,报告立足全球及中国的人工智能产业现状,结合市场观察提出人工智能产业未来发展的十大趋势。

趋势一
多模态预训练大模型是人工智能产业的标配

在算法方面,预训练大模型发展起源于自然语言处理(NLP)领域,当前已进入“百模大战”阶段,预计随着大模型创新从单模态转向多模态,多模态预训练大模型将逐渐成为人工智能产业的标配。目前,国内大模型虽在市场影响力方面稍逊色于GPT系列模型、PaLM-E等,但在中文语料训练、中国文化理解方面具备本土优势。

此外,国内制造业等实体产业为大模型提供了丰富的训练数据和应用场景。未来,在大模型面向产业赋能方面,中国大模型极有可能后发先至,也会是国内大模型竞争的关键因素之一。

趋势二
高质量数据愈发稀缺将倒逼数据智能飞跃

数据方面,大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题。这会影响大模型的训练效果和准确性。

根据一项来自Epoch Al Research团队的研究,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果没有新增数据源或是数据利用效率未能显著提升,那么2030年以后,AI大模型的发展速度将明显放缓。

趋势三
智能算力无处不在的计算新范式加速实现

算力方面,新硬件、新架构竞相涌现,现有芯片、操作系统、应用软件等都可能被推翻重来,预计有望实现“万物皆数据”“无数不计算”“无算不智能”,即智能算力将无处不在,呈现“多元异构、软硬件协同、绿色集约、云边端一体化”四大特征。

趋势四
人工智能生成内容应用向全场景渗透

AIGC(Artificial Intelligence Generated Content,人工智能生成内容)应用方面,其发展源头在数字内容创作领域,从单模态内容到多模态数字化内容创建已初显雏形,预计未来会进一步提高人类创造内容的效率,丰富数字内容生态,开启人机协同创作时代,各种需要创意和新内容的场景,都可能被AIGC重新定义,AIGC向全场景渗透指日可待。

趋势五
人工智能驱动科学研究从单点突破加速迈向平台化

AI4S(AI for Science,人工智能驱动的科学研究)应用方面,有望从单点突破加速迈向平台化。在“单点突破”阶段,AI4S发展由科研学者主导,数据、模型、算法及方法论的原创性是市场关注重点,AI4S在特定任务或场景中的“单点应用”初步证明了对应解决方案的落地价值。

趋势六
具身智能、脑机接口等开启通用人工智能应用探索

AGI(General Artificial Intelligence,通用人工智能)应用方面,其技术原理强调两大特性:一是需要基于先进算法实现智能处理和决策,包括深度学习、强化学习、进化计算等;二是需要具备和人类大脑相似的认知架构,包括感知、记忆、分析、思考、决策、创造等模块。

趋势七
人工智能安全治理趋严、趋紧、趋难

人工智能安全治理呈现出趋严、趋紧、趋难三大特征,主要包括“黑箱”困境等技术安全挑战,虚假信息、偏见歧视乃至意识渗透等应用安全挑战,数据泄漏、篡改和真实性难验证等数据安全隐患,此背景下,中美欧三国作为人工智能发展的领军国和地区正积极开展相关立法,呈现出政策法规先行、监管趋严等特征。

趋势八
可解释AI、伦理安全、隐私保护等催生技术创新机遇

人工智能在发展过程中面临的技术伦理与社会伦理风险表明,人工智能安全、可信的发展之路任重道远,在解决AI风险的过程中催生出可解释AI、联邦学习等技术创新机遇。其中,联邦学习正成为新型的“技术基础设施”,有望成为下一代人工智能协同算法,隐私计算和协作网络的基础,使数据在合法合规、安全高效的基础上,实现数据价值流动。

趋势九
开源创新将是AGI生态建设的基石

开源的自由度越高,越有利于吸引更多开发者参与到生态建设中。AGI强调人工智能的通用性,意味着其生态需满足大量细分场景和长尾需求,这种情况下,生态系统越是繁荣开放,越能穷尽可能地覆盖所有专用化、场景化乃至碎片化的需求,保证AGI生态的丰富性和完整性。

进一步地,开发者越多,意味着底层模型和上层应用等的迭代速度也会越快。但是,开源也存在一定风险,对于产业生态中的主体企业来说,选择开源某种程度上就意味着公开商业机密,不利于其构建竞争壁垒。此外,开源模式还可能会引发专利侵权风险,对开源的知识产权管理规则和流程规范建立提出了挑战。
趋势十
多型即服务(MaaS)将是AGI生态构建的核心

商业模式关乎整体生态能否实现从价值创造到价值实现的完整闭环,目前AGI生态的商业模式主要以AIGC相关的商业模式为代表,主要体现为MaaS(Model as a Service,模型即服务)模式。该模式核心价值可归纳为:降低算法需求侧的开发技术和使用成本门槛,使AI模型和应用成为简单易用、触手可得的工具。

【重磅!】开源类ChatGPT平台Mistral AI获4.5亿欧元融资,估值近20亿美元!

12月6日,彭博社报道,开源类ChatGPT平台Mistral AI获得4.5亿欧元(近35亿元)融资,估值近20亿美元(142亿元)。本次融资由英伟达、Salesforce等知名科技企业领投。Mistral AI凭借其独特的开源大语言模型Mistral 7B,在科技界崭露头角,吸引了众多投资者的关注。

Mistral 7B:参数小、能耗低、性能强

Mistral AI的开源大语言模型Mistral 7B以其参数小、能耗低、性能强等特点受到业界的青睐。相较于其他大语言模型,Mistral 7B在生成文本/代码、数据微调、总结内容等方面表现出色,为用户提供了更高效、更灵活的语言处理工具。

目前,Mistral 7B在GitHub上的关注度已经达到了4500颗星,足见其在开发者社区的受欢迎程度。

商业化应用前景广阔

Mistral AI不仅在技术上具有优势,其商业化应用前景也十分广阔。Mistral 7B支持生成文本/代码、数据微调、总结内容等多种应用场景,可以广泛应用于自然语言处理、图像识别、视频分析等领域。

值得一提的是,Mistral AI曾在没有发布任何产品的情况下,获得1.13亿美元种子轮融资,这也是欧洲科技史上最大的种子轮融资之一。此次新一轮的融资再次证明了Mistral AI在业界的领先地位和强大的市场潜力。

开源地址与帮助文档

为了方便广大开发者使用,Mistral AI提供了详细的帮助文档和API接口。开发者可以在帮助文档和API接口页面中找到关于Mistral 7B的详细介绍、使用教程以及问题解答。

同时,Mistral AI的开源地址为https://github.com/mistralai/mistral-src

开发者可以自由获取并使用Mistral 7B的源代码。

随着人工智能技术的不断发展,开源类ChatGPT平台Mistral AI凭借其卓越的技术实力和广阔的应用前景,吸引了众多投资者的关注和追捧。此次4.5亿欧元的融资不仅为Mistral AI的发展注入了新的动力,也进一步巩固了其在全球开源大语言模型领域的领先地位。我们期待看到Mistral AI在未来带来更多创新和突破,引领人工智能技术迈向新的高度!

【重磅发布】美图公司推出MiracleVision 4.0,引领AI设计未来潮流!

厦门,12月5日-6日,美图公司在厦门举行了盛大的创造力大会[Meitu Creativity Conference],展示其最新研发的AI视觉大模型MiracleVision 4.0版本。这一重磅发布标志着美图公司在人工智能领域的又一重要里程碑,将引领AI设计和AI视频的未来潮流。

MiracleVision 4.0:开启AI设计新篇章

在本次大会上,美图公司展示了其自研的AI视觉大模型MiracleVision 4.0版本,该模型主打AI设计与AI视频。在AI设计方面,MiracleVision 4.0带来了新塔矢量图形、文字特效、智能分层、智能排版四大能力,为设计师提供了更高效、更智能的设计工具。同时,美图公司还上线了全新的视觉模型商店,支持创建个人视觉模型,为设计师群体实现独特的艺术追求提供了强大的支持。

AI视频:创新视频制作领域

在AI视频方面,MiracleVision 4.0新增了文生视频、图生视频、视频运镜、视频生视频四大能力,将视频制作提升到了全新的高度。目前,MiracleVision的AI视频能力已经能够融入行业工作流,尤其是在电商和广告行业,为视频制作带来了无限的可能性。

产品体验:感受AI设计的魅力

为了让用户更早体验到MiracleVision 4.0的强大功能,美图公司表示将于2024年1月陆续上线至美图旗下产品,届时用户可以在美图秀秀、美颜相机、Wink、美图设计室、WHEE等产品中体验到这一创新技术带来的便捷与高效。

未来展望:持续探索AI设计领域

美图公司的这次发布无疑在AI设计领域投下了一颗重磅炸弹,MiracleVision 4.0的强大功能和便捷性将有望引领AI设计的未来潮流。作为一家以“科技美学”为核心的企业,美图公司一直致力于利用人工智能技术为用户提供更优质的服务。此次发布是美图公司在AI设计领域的又一重要里程碑,也预示着未来将有更多创新和突破。

我们期待看到美图公司未来在AI设计领域的更多探索和发展,以及这一创新技术如何改变设计师的工作流程和行业生态。让我们一起拭目以待!

人工智能模型初创公司 Liquid AI 获 3650 万美元种子轮融资

Liquid AI 是一家基于所谓的液体神经网络设计开发人工智能模型的初创公司,旨在构建一种全新类型的人工智能,被称为液态神经网络。这一创新性的技术基于液态神经网络架构,相较传统模型更小巧、可解释,且具有动态适应性。今天宣布已筹集 3760 万美元的种子资金。本轮融资由 OSS Capital 和 PagsGroup 领投,估值达 3.03 亿美元。该公司由 MIT 计算机科学与人工智能实验室主任 Daniela Rus 联合创立,致力于将其对液体神经网络的研究商业化,这是一种新型人工智能,可以比传统模型更可靠地执行某些任务,并且功耗显著降低。

谷歌发布新一代 AI 大模型 Gemini 1.0

当地时间12月6日,谷歌CEO桑达尔·皮查伊宣布,谷歌的最新人工智能大模型Gemini 1.0正式上线。这一重要更新将进一步强化谷歌在大模型领域的领先地位。

据皮查伊介绍,Gemini 1.0是谷歌迄今为止最灵活、最强大的模型之一,具有复杂多模态推理能力,可以同时处理多种类型的信息。这种能力使得Gemini 1.0在处理复杂的语言任务时具有显著优势。

在设计和训练方面,Gemini 1.0原生地支持多模态,这意味着它能够从文本、图像、音频和视频等多种模态中学习,从而在处理复杂任务时达到最优效果。

此外,Gemini 1.0还经过了严格的测试和评估,其在32个学术基准测试集中有30个测试集的性能超过当前SOTA结果。在具体应用方面,Gemini 1.0具有广泛的应用场景。

例如,它可以用于科学研究和金融等领域,帮助人们从海量数据中提取洞察力。此外,Gemini 1.0还可以用于教育领域,帮助学生更好地理解复杂学科的知识。

值得注意的是,Gemini 1.0的发布标志着谷歌在大模型领域的竞争进一步升级。此前,谷歌已经推出了自己的类ChatGPT应用Bard,并将其升级到了Gemini Pro版本。随着微软和OpenAI合作的不断深入,谷歌必须通过推出强大的新产品来保持其竞争力。

按照模型参数和应用方向, Gemini 1.0目前发布三个版本:

1️⃣Gemini Ultra—用于高度复杂任务,对标GPT-4,谷歌迄今为止创建的最强大LLM最大,能够完成高度复杂的任务,主要面向数据中心和企业级应用。

2️⃣Gemini Pro—用于各种可扩展任务,对标GPT3.5,是性能最好的模型,用于广泛的任务。它会为许多谷歌的AI服务提供动力,并且从今天起,成为Bard的支柱。

3️⃣Gemini Nano—用于设备端的任务,是最高效的模型,可以在安卓设备上本地和离线运行,Pixel 8 Pro的用户就能马上体验到,其中,Nano-1的参数为1.8B,Nano-2为3.25B。

除了Gemini大模型外,谷歌在今天还发布了迄今为止最强大、最高效,并且可扩展的TPU系统—Cloud TPU v5p,专为训练尖端的AI模型而设计,有助于加速Gemini的发展,帮助开发人员和企业客户更快地训练大规模生成式AI模型,开发出新产品和新功能。

AMD推出重磅AI芯片挑战英伟达,对行业前景预测高度乐观

AMD公司在加利福尼亚州圣何塞举行的活动中宣布了新的重磅AI芯片MI300系列,直接将目标对准了由英伟达控制的新兴市场领域。据该公司介绍,这款新的AI芯片能够比竞争对手的产品更快地运行人工智能软件。此次发布的产品阵容是AMD 50年历史上最重要的产品发布之一,旨在与市场主导者英伟达展开激烈竞争。

Instinct MI300X加速器,由8个MI300X组成,提供高达1.5TB的HBM3内存容量,相比上一代的Instinct MI250X,MI300X系统计算单元多出接近40%,还有1.5倍的内存容量,以及1.7倍的峰值理论内存带宽;与H100 HGX相比,Instinct MI300X加速器在运行大语言模型推理时的吞吐量和时延表现要明显高出一截,在各项AI和HPC项目中也明显要高一头。Instinct MI300X加速器从12月7日开始发货。

Instinct MI300A加速器,是世界首款专为HPC和AI设计的APU,使用的HBM3内存规格为128GB,与Instinct MI250X相比,MI300A的性能功耗比能接近翻番,目前也已经进入了量产阶段。

锐龙8040系列移动处理器,与上一代同样搭载锐龙AI NPU的7040相比,8040系列在AI任务展现了进一步的提升,在与英特尔的旗舰移动处理器i9-13900H的对比中,AMD的8945HS在多项指标的比较中出现大幅领先的情况。锐龙8040系列总共有9款芯片,预计搭载该系列的电脑将从2024年一季度开始发售。

AMD首席执行官Lisa Su博士在活动上表示,此次推出的MI300系列AI芯片在训练人工智能模型方面的能力可与英伟达的H100相媲美,但在推理方面表现更胜一筹。她对人工智能芯片行业的规模给出了令人瞩目的预测,表示该行业可能在未来四年内增长至超过4000亿美元。

这一预测数字是AMD在8月预测的两倍多,凸显出对人工智能硬件的预期变化之快。AMD此次推出的新芯片拥有超过1500亿个晶体管,内存是目前市场领导者英伟达产品H100的2.4倍。该公司表示,其产品还有相当于英伟达产品1.6倍的内存带宽,进一步提升了性能。

这一新的AI芯片旨在利用庞大数据训练人工智能模型,比传统计算机处理器更高效。AMD预测人工智能处理器将成长为一个4000亿美元的市场,这凸显了对人工智能行业的乐观情绪。根据IDC的数据,2022年整个芯片行业的规模为5970亿美元。随着人工智能技术的快速发展和应用,人工智能芯片市场有望在未来几年内继续保持高速增长。与此同时,英伟达也在积极开发下一代芯片。

H100将被明年上半年推出的H200代替,后者将具有新的高速内存。英伟达还计划在明年晚些时候推出全新的处理器架构。作为全球领先的芯片制造商,英伟达在人工智能芯片市场上的地位不容忽视。然而,AMD此次推出的重磅AI芯片挑战可能会改变这一市场的格局。

此次发布会上,AMD还透露了与微软、甲骨文和Meta Platforms Inc.等科技巨头的合作意向。这些公司都是人工智能领域的重量级玩家,他们的加入无疑将为AMD的AI芯片提供广阔的应用场景和市场前景。

英特尔和AMD等全球50家机构成立人工智能联盟,中国机构和英伟达被排除在外

截至目前,AI联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和AI从业者超过40万人。

据IBM官网今晨透露,包括英特尔、AMD、IBM、Meta、Oracle、Hugging Face、索尼集团、美国达特茅斯学院、美国康奈尔大学、美国耶鲁大学、日本东京大学、Linux 基金会等全球50多个创始成员和合作者,联合发起成立人工智能联盟(AI Alliance),以加速人工智能(AI)技术负责任的创新与发展。

目前,AI 联盟官网 thealliance.ai 已上线。

值得注意的是,此次成立人工智能联盟,并没有包含OpenAI、英伟达,以及中国的企业和研究机构等 AI 行业关键的参与方。

官网显示,AI 联盟是一个由技术创造者、开发者和采用者组成的社区,合作推进植根于开放创新的安全、负责任的AI。AI 联盟以行动为导向,具有明显的国际性,致力于在 AI 技术领域加速和传播开放式创新,以提高 AI 的基础能力、安全性和信任度,并负责任地为世界各地的人民和社会带来最大利益。该联盟汇集了大量的计算、数据、工具和人才,以加速 AI 的开放创新。

具体来说,AI 联盟重点领域包括四部分:一是开发和部署基准和评估标准、工具和其他资源,以便在全球范围内负责任、可扩展地开发和使用 AI 系统等;二是开放基础模型,启用具有多种模式的开放基础模型生态系统;三是培育充满活力的 AI 加速硬件生态系统;四是支持全球 AI 技能建设、教育和探索性研究。

据IBM公布的信息,AI 联盟合作伙伴和合作者巨头包括:新加坡科技研究局 (A*STAR),Aitomatic、AMD、Cerebras、Anyscale、Meta、CERN(欧洲核子研究组织)、Cleveland Clinic、美国康奈尔大学、达特茅斯、戴尔科技公司、洛桑联邦理工学院、苏黎世联邦理工学院、Fast.ai、Fenrir, Inc.公司、菲亚特动力科技软件、耶路撒冷希伯来大学、Hugging Face、IBM、阿卜杜勒·萨拉姆国际理论物理中心 (ICTP)、伦敦帝国理工学院、印度理工学院孟买分校、英特尔、Linux基金会、穆罕默德·本·扎耶德人工智能大学、保加利亚的新型AI研究机构INSAIT、美国国家航空航天局、美国国家科学基金会、纽约大学、甲骨文(Oracle)、NumFOCUS、OpenTeams、LangChain、索尼集团、Partnership on AI、红帽(Red Hat)、Stability AI、慕尼黑工业大学、加州大学伯克利分校计算、数据科学与社会学院、伊利诺伊大学厄巴纳-香槟分校、德克萨斯大学奥斯汀分校、东京大学、美国耶鲁大学、伦斯勒理工学院等。 

从地区分布来看,AI 联盟成员集中在美国、日本、英国、瑞士等国家和地区。

数据显示,截至目前,AI 联盟所有成员的年度研发经费总额超过800亿元,员工人员总数超过100万人。同时,学术机构资助的学生和 AI 从业者超过40万人。

针对 AI 联盟的成立,IBM 董事长兼首席执行官 Arvind Krishna表示:“我们在人工智能领域不断见证的进步证明了创作者、科学家、学者和商界领袖社区之间的开放式创新与协作。这是定义人工智能未来的关键时刻。IBM很荣幸能够通过 Ai 联盟与志同道合的组织合作,确保这个开放的生态系统推动以安全、问责和科学严谨为基础的创新 AI 进程。”

AMD 首席执行官兼董事长苏姿丰 (Lisa Su)则表示:“在 AMD,我们致力于通过合作推动技术进步。我们行业的历史凸显了开放的、基于标准的开发如何利用整个行业的能力来加速创新并确保技术进步产生最大的积极影响。通过在快速发展的 AI 生态系统的各个方面采用开放标准和透明度,我们可以帮助确保负责任的 AI的变革效益得到广泛利用。”

苏姿丰强调,AMD很荣幸能与其他行业领导者一起成为 AI 联盟的创始成员,并期待共同努力,确保 AI 的快速发展成为积极变革的力量。

(本文源自:钛媒体App)

傅盛:这波AI是百年一遇的生产力革命,一把手要亲自抓

自从ChatGPT诞生之后,全球新一轮创业热潮被点燃。日前,猎豹移动董事长兼CEO、猎户星空董事长傅盛在参加AGI产业先锋营上,以《企业如何进行AI创新》为主题,分享了他对AI的理解。
傅盛早在2016年就布局人工智能产业,已在AI赛道上深耕7年之久。他认为,这波AI不仅是交互革命——未来人与机器的交互会发生巨大的改变,软件、设备包括内部的很多接口都值得重做一遍,而且是百年一遇的生产力革命,是一把手必须亲自抓的战略工程。同时,关于大模型的行业走向,他也给出了自己的看法。以下是我们对部分内容的整理,希望对你有启发。

01

创业十五年,依然在路上
2023年是我自己状态最好的一年。对外看,是ChatGPT来了;对内看,是自己经过不断调整,回归到了一个创业者“在路上”的感觉。当你真正能踏实的从底层开始做的时候,才真正具备了创造力和创新力。当你浮在上面的时候,多是囫囵吞枣,所谓的创新可能都是空中楼阁。

我是第一代互联网产品经理,360的杀毒软件是我带着团队做起来的。开始我们只有五个人,但那时瑞星已经八百人、金山毒霸三四百人。我2008年底离开的时候,团队不超过100人,但PC覆盖率超过了50%。
360的经历给了我非常大的自信,也让我积累了很多技能和认知,尤其是产品易用性和安全性方面的认知,真正做到了Think Different。比如说怎么在方寸之间把交互做到足够好,在安全形势变化时把快速反应做得足够好。
360之后我创办了猎豹移动。当时我发现中国APP比美国做得好,所以就全力做出海。12年做出海,两年后我们的海外月活用户就超过了两亿,14年就上市了,很快。但今天回想,太快不是好事儿,因为无论是个人还是团队,心态都会膨胀的。我们当时就觉得要做伟大的事,不能做别人做过的事,看了一圈看上了AI。那时我就意识到人工智能是一次范式的变化,所以我们16年就坚决投入做AI,拿融资、扩团队、做产品…当时小米的小爱同学,语音识别很大一部分都是我们做的。
今天回想起来是大鸣大放,这种投入在没有摸清路径前很容易造成空烧。
如果从头开始干,我一定会从小团队出发,然后躬身入局,等到自己真正理解的时候,再一点点生长出来。
所以今年ChatGPT出来时,我们的动作就明显比以前要稳扎稳打了。

02

ChatGPT将带来

交互革命和生产力革命
作为一个划时代的应用,我们该怎么看待ChatGPT带来的变化?
第一,它是交互革命。人跟机器的交互会更加简单方便,现在看起来还很复杂的软件和机器,未来的使用门槛会大大降低。这会是一个很巨大的变化,我们整个的交互范式都会发生变化,上一次交互革命——从全键盘到触摸屏造就了苹果,如今所有软件、设备,包括内部的很多接口都值得用AI重做一遍。
举个例子,现在是人围着机器转,比如甲方提了个需求,得有个会沟通、会用电脑的人把客户、老板的意思写成PPT。未来是机器围着人转,甲方只要对着机器说需求,机器直接就能理解,要写个PPT,直接生成,人只要稍微改一改就好了,甚至不需要改。
第二,它是生产力革命,数字化员工会成为公司的标配,比重越大的企业越能胜出。马化腾在一次财报会上说,他以为AI是一个十年一遇的机会,后来仔细一看应该是几百年一遇。我觉得历史上可能只有蒸汽机的出现,可以跟这波AI革命媲美。蒸汽机第一次把热能变成动能,然后这次是电力变成通用智能。

03

大模型的走向
平台核战争场域下,寸草不生
平台核战争已经开启。今天没有一个千亿参数的大模型,你都不好意思叫自己平台公司。
核战争的场域下,寸草不生,小厂在所谓的 AIGC APP 上不会有什么大的机会。今天无论谁做千亿大模型跟大厂竞争,都会遇到巨大的竞争压力,很难扛。因为就算你是创业团队,效率高一点,但是大厂可以堆人,最后的效果就在伯仲之间。那么一两个点的差距,终端用户几乎是没有感知的。

模型的效果基本一致化后,拼的就是商业化。创业公司更没得拼了,因为大厂直接就可以闭环,你只能开辟新的战场。开辟新的战场也有问题,如果你是市长,你是跟腾讯、百度或者华为签,还是跟一个初创公司签?所以大公司下场之后,创业公司会很难。
应用生态决定大模型公司的商业价值


OpenAI 这次11月的开发者大会,刚开始我们内部讨论,感觉它做的并不像一个平台公司干的活,它把生态的很多活干了。因为理论上它应该快点把 GPT-5 推出来,推理能力再进一步加强,然后把多模态做得足够好。结果它把一帮创业者要干的事全给干了,什么0代码构建AI Agent。这些它不是不能干,只是这样干的话,就像很多硅谷公司说它是“给了我 200 美金的优惠券,毁了我 200 万美金的公司。”但这也说明要在大模型上做很多应用是关键。
但是,我不认为大模型应用和创业公司没价值,因为平台和应用是互相促进共同成长的。

比如,iPhone是与应用互相拉动,才成长为平台的。别看iPhone现在是一个很牛的平台:iPhone12、13系列销量均达到2亿部;2022年,App Store应用数量超178万个;处理器在A6系列之后,傲视群雄。
但它不是一下就长成这样的:2007年1月初代iPhone发布,总共卖了130 万台。我买第一部 iPhone 时候是因为它降价了100 美金,本质上就是卖不动。2008年3月支持SDK允许第三方开发APP,推出了APP Store。最开始没有一个部件是苹果自己研发的,是2010年推出A4处理器,苹果才走上自研之路。
再比如国内智能手机的普及,跟一些应用的成功很有关系。滴滴的程维跟我说过,滴滴创立之前,北京出租车司机智能手机的使用率只有20%。滴滴干了一年以后,比例提升到了 95% 以上,因为司机不用智能手机就接不到单。智能手机,包括微信的普及,有个很重要的贡献是“红包”,红包功能一出,大过年的,都要去买个智能手机抢红包。
如果一个手机只是有个大屏幕,但除了拍照和打电话什么也干不了,那不叫智能手机。只有装了滴滴能打车,装了美团能叫外卖,装了微信能发信息发红包,才叫智能手机。
大模型平台和应用也是一样的道理。刚开始 GPT 出来的时候,我们也是各种担忧,但今天看起来 GPT 就是一个技术。所以今天这个大模型时代,也不用把它看得过于可怕,做好真正符合用户需求的大模型应用,你的公司一样是有价值的。
私有化大模型白菜价,行业和企业大模型越来越普及
我认为未来百亿参数的模型会非常多。我们自己实测,百亿参数的模型,如果只在这个专业领域做一些简单的推理,它是可以接近GPT这样千亿模型的效果的。百亿参数,意味着部署成本、使用成本会大规模下降。
今年年底高通发布了一款是用在电脑上的桌面级的芯片,明年会上。它专门有个AI推理模块,大概是英特尔的8-10倍。这意味着当你用装着这个芯片的电脑,你就能在本地跑一个70亿到100亿参数的模型,并且是以GPT的吐值速度,每秒钟几个token往外走。你都不需要联网,就能实现一定能力的推理。
另外,我认为行业和企业大模型肯定会越来越普及。尤其在中国,大家在数据安全上缺少信任,所以在中国,私有化模型是一个很大的需求。普及化,我刚刚讲以后一个笔记本电脑都能跑一个 70 亿到100 亿参数的大模型的时候,它当然很容易普及。
还有一个原因是,今天平台都在想办法搞出一个爱因斯坦——Open AI 的终极目标肯定是打造出一个爱因斯坦或者比他更伟大的AI,但很多岗位是不需要爱因斯坦的,太贵了,可能只需要一个中专生、大专生水平的AI就能完成很多工作。
大模型时代,企业的私有数据才是核心竞争力
未来企业的私有数据才是核心竞争力。ChatGPT读完的是互联网上的信息,比如冰面上这些。如果这些数据和知识不上网,它就是个暗知识,比如冰面下的这些。

企业每次推出一个新产品或新服务,它都经历了大量的调研和规划、大量的流程、大量的讨论,这些都是私有数据,ChatGPT抓不到,你问它相关问题,它的回答多半是正确而无用的废话,因为它没有你的私有数据。
大家要意识到一点,企业内部的流程和数据是非常核心竞争力。如果你能把它串好,用大模型去调用,你的效率会很快提升很多。

04

AI是一把手必须亲自抓的战略工程
任何一家公司都应该做好AI,这是一把手必须亲自抓的战略工程。一把手要做两件事,第一要懂技术的基本原理,第二要做组织变革。
为什么要知道这波AI的技术原理?因为它将是未来的基础设施。基础设施必须明白基本的技术原理才能用好。好比你不需要造个发电厂,但你要知道电是怎么来的、能力边界在哪、该如何用电。
我想强调的是,一把手要像小学生一样,躬身入局,学习AI。我知道张一鸣在当时读了很多AI的论文,把Transformer、GPT这些模型的论文都读了,他就躬身入局。所以学习AI一定不要幻想着招一个人,他就帮我把这事搞定了,搞不定的。
就像当年互联网崛起时,传统大公司总是招个电商平台出来的人,想让他把电商搞定。其实根本搞不定,因为一把手不懂电商。一把手,必须要深入了解一个最重要东西的原理。当年马斯克亚要做火箭,记者问他要怎么做,他说自己要把火箭发动机的技术原理先学一遍,不然没法跟工程师对话。
AI技术的皇冠:语义理解
我想分享的一个很重要的AI技术是“语义理解”,即怎么让机器理解语言,堪称AI技术的皇冠。人工智能如果能攻克语义理解,基本意味着AGI(通用人工智能)很快出现。
语义理解有两条技术路线:第一种是学外语模式。就教你什么是主语、谓语、宾语,定状从,给它输入知识图谱。知识图谱就是我们把整个世界的认知整理成各种枝节去告诉计算机。
第二种是学母语模式。一个小孩子,你不用教他语法规则,只要跟他说话就行,说着说着他就开口了。OpenAI前几年都是硅谷的笑话,他们觉得机器怎么可能像人学母语一样学习,我也觉得是笑话,但现在证明我们才是笑话。
所以为什么只有OpenAI做出了ChatGPT?并不是他有独门秘籍,是因为只有他相信第二种模式。就像哥伦布航海,不是舰队多牛,而是做了别人不相信的事。但是他做到以后,别人也可以做到。ChatGPT怎么做出来的,OpenAI自己也没彻底搞清楚,只知道给完数据以后,它的逻辑能力一下上来了,所以叫“涌现”。

我把ChatGPT理解成一个大号计算器。它的原理很简单,就是预测下一个词。你输入一些字,它就蹦出一些字,那些字组成的那句话看起来很符合我们对这个世界的认知和理解,我们就觉得它产生了逻辑能力。
我觉得正因为它是一个大号计算器,所以不用担心它有意识,但要担心用不好它。因为我觉得意识要有情绪,而计算器没有情绪。但不是说没意识,它就不会对社会造成危害。人设计的规则总会有漏洞,因为我们的思考有局限性。如果规则没有设置好,它就可能钻规则的漏洞。

如果只学习大模型的一个技术点,应该是Prompt

自然语言天然的压缩性导致的天然歧义性,以及每个行业的专业属性,使得Prompt是嫁接大模型逻辑能力和应用需求的桥梁,不可或缺,非常重要。更重要的是,大模型应用一点也不浅薄,认为浅薄是因为我们还停留在过去的思考范式之下。
我们刚讲了大模型的原理,是根据你上面的一些问题判断下一个词的概率,它吐完这个词以后再把它连起来,再吐下一个词,这么连续吐。所以你上面问过的问题很重要,你怎么个问法也很重要,你总是指望着说,我为什么说了一句话,它没有达到我的需求?因为它不知道你的需求是什么。
从原理上讲,语言是个高度压缩的信息传递方式,一个人一分钟最多讲100多到200个字符,这100-200个字符是你对世界的理解,但有个词叫沟通误解。我们为什么要开那么多会?不就是拉通需求吗。一聊两三个小时,可能就为了讲清楚一件事。
人和人的沟通都这么不容易,怎么能把AI想的那么美好呢?
你给它一个东西,它就能给你一个特别好的报告?你跟人的沟通都费劲,都没耐心,为什么觉得大模型就真的一句话就把你公司就搞好了?那是不可能的。
Prompt是嫁接大模型逻辑能力和应用需求的桥梁,要自己真的去用、去理解。
吴恩达作为业界泰斗,提出了端到端的语言模型,人家都专门花几个小时讲Prompt,Prompt是不是很重要?是不是个新范式?程序员还觉得C++里面那个括号,什么接口重要,我觉得那些都不重要了,重要的是你要理解大模型自然语言的的压缩性导致的天然歧义性以及每个行业的专业属性。
什么叫专业属性?最简单的就是你讲苹果的时候,在我的脑海里就是一部手机,陕西农民的脑海里肯定有他家的苹果,他不会想到那款手机。
推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维

我们公司全员实践AI后,我的重要经验和建议是:推行AI实践的最大阻力是跨部门的协作壁垒,是部门管理者和员工的旧思维。因此,一把手要亲自抓!
我讲一个例子,就是我们CFO的助理,她写出的小工具,震惊了所有程序员。
作为助理,她很多日常工作都是很零碎的,比如今天老板发个文件,说给我转成PDF;这个文件加个水印发给别人;下载分析某公司的最新财报等等。我们内部开始全员探索AI后,这个心理学毕业、做了小十年助理的人,整个人重新被激发了。她在公司内部搞了一个Open Tools平台,给各种同事做工具。比如她有一个PDF转word的工具,财务法务就在用。
成为AI驾驭者的四个条件

未来2-3年的人工智能发展将决定未来20-30年的世界格局。创业者的价值在于创造价值,未来的价值来自于现在的努力。在这样一个转折点,不要犹豫,先做起来。
在百年一遇的生产力革命前,每一家公司都该参与其中,一把手必须行动起来,带领公司创造未来。
AI很美好,但不是一AI就行
智能化”最难的是“最后一公里”,要走完它,必然是要通过大模型技术和传统技术的结合,提供真正能落地提效的解决方案。我的建议就是大模型,小工具——要从具体应用上找到切入点,踏实的做好“最后一公里”,实现AI化。
今天谈到人工智能,我觉得这个时机一定可以切入了,不需要犹豫了。创业者的价值在于创造价值,未来的价值来自于现在你的努力,在这样一个转折点,不要犹豫,先做起来。
例如英伟达内部大范围试用AI,一个非高层的普通员工,提效80%-90%是一定能做到的。
真的不是随便接一个软件就可以了,我觉得最大的难度是机器跟你流程的对接,你的需求到底是什么?你的满足率要达到多少?你的SOP是什么?这里还是有挺多工作要做的,所以需要根据企业的流程做定制和优化,根据企业的特点去做AI的落地。

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈

用AI工具辅助研究数学的项目,再一次被陶哲轩跑通!三周前,他曾发布一篇博文,记录下自己使用Blueprint在Lean4中形式化多项式Freiman-Ruzsa猜想的证明过程。

就在昨天,他激动宣布:将多项式Freiman-Ruzsa猜想的证明形式化的Lean4项目,在三周后取得了成功!现在,依赖关系图已经完全被绿色所覆盖,Lean编译器也报告说,这个猜想完全遵循标准公理。

陶哲轩表示,在整个团队中,自己贡献的代码大概只有5%。这个结果很鼓舞人心,因为这意味着数学家即使不具备Lean编程技能,也能领导Lean的形式化项目。他发现,项目中在数学上最有趣的部分,形式化起来比较容易,而技术上看起来最显而易见的步骤,却最耗时。而使用Blueprint将项目分解成难度小到中等的部分,效果很好,这就让大量并行工作成为可能。这样,许多贡献者就可以处理特定的子任务,而无需理解整个证明过程,甚至可以完全不了解相关的数学领域知识。

与此同时,他在三周前也就是11月18日的那篇博客也被网友翻出,引发热议。

果然,AI加持数学研究颠覆力量的后劲,得需要数月的时间才能让人们认识到。而只有在最前线的研究者,才能在第一时间切实感觉到这种巨大力量的冲击和震撼。

陶哲轩呼吁:数学家们一定要学会用AI了

有网友向陶哲轩提问:这是否意味着,有越来越多的证明是人类不可理解,但机器可解决的?

陶哲轩表示,恰恰相反,如果证明的形式化变得更加主流,并且更多地得到AI辅助,那完全有可能创建出既人类可读、又能被机器阅读的证明。PFR证明的blueprint就证明了这一点——既人类可读,每个证明步骤还带有形式化的理由,还能得到一个依赖关系图,来可视化整个论证的全局结构。

当然,陶哲轩也提醒道,不要把「计算机辅助证明」和「不能提供理解/偶然成立的证明」搞混了。比如对于有限单群分类的超过10000页的证明,几乎百分百是由人工生成的,但一个由计算机协助处理的替代证明,在某些方面看更令人满意。

跟网友经过几轮讨论后,陶哲轩做出以下总结——Blueprint本身就是一种编程语言,可以看作一种Lean的伪代码。许多数学家都应该将写作风格从标准数学英语/LaTex,转换为Blueprint/LaTex。

网友:以后研究都不需要「人类可读」,AI懂就行了

网友表示,陶哲轩对于各种研究工具随意掌握的程度,几乎可以称得上是可怕。

我在研究生阶段对数学的尝试,就就好像一个穴居人本来在摇晃一辆普通的独轮车,忽然眼前出现了一辆直升机,上面的人向我伸出手,告诉我来试试看,一点也不可怕。自从听说四色定理以来,我一直很清楚,形式化是数学的未来。但我没有预料到的是,陶哲轩如此从容不迫,形式化才刚刚获得牵引力,他就能用AI完成几乎所有的数学写作。

形式化,是指从基本公理和规则中真正推导出证明中的每个陈述。而陶哲轩在这篇博文里,把需要死记硬背的劳动都抽象出来,交给了机器。他的工作表明,形式化才刚刚开始在主流数学中受到关注。

已经有人开始畅想:很可能会有一段时间,大多数证明只是在Lean或类似系统中完成,再也没有人需要费心写一篇「人类可读」的论文了。数学,将变成一种编程!

“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了(seamless-communication)

你是否遇到过这样的情况:

你想和一个说不同语言的人交流,但是你不会他的语言!

你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!

如果你有这样的困扰,那么你一定会对meta的开源AI模型seamless-communication感兴趣。

这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。

SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:

语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。

这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入(101种语言);文字输入/输出(96种语言);语音输出(35种语言)。

它有哪些绝活?

1、保留情感,无缝表达

现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例

英文输入:耳语。

请把音量调小。我们只是让宝宝睡觉。

耳语,AI变革指南,3秒

英文输入:悲伤

请不要离开。我讨厌独自一人在这里。

2、接近实时的语音翻译!

SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍:

seamless-communication如何做到的?

seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。

最后的结束语

看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。

说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。

好了,今天就聊到这。有感兴趣的可以去官网体验,下载。
代码地址:

https://github.com/facebookresearch/seamless_communication

论文地址:

https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

在线体验:

https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page

官网介绍:

https://ai.meta.com/blog/seamless-communication/

仅仅通过提示词,GPT-4可以被引导成为多个领域的特定专家!

The Power of Prompting:提示的力量,仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

微软研究院发布了一项研究,展示了在仅使用提策略的情况下让GPT 4在医学基准测试中表现得像一个专家。

研究显示,GPT-4在相同的基准测试中超越了专门为医学应用微调的领先模型Med-PaLM 2,并且优势显著。

研究表明,仅通过提示策略就可以有效地从通用基础模型中引发特定领域的专业知识。

以前,要想激发这些能力,需要使用特别策划的数据对语言模型进行微调,以在特定领域中达到最佳性能。

现在仅通过提示,GPT-4可以被引导成为多个领域的特定专家。

Medprompt不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

研究的方法:Medprompt策略:研究中提出了一种名为“Medpromcpt”的方法,它结合了几种不同的提示策略来引导GPT-4。

Medprompt使用了三种主要技术:动态少量样本选择、自动生成的思维链(Chain of Thought,CoT)和选择重排集成(Choice Shuffle Ensembling)。

Medprompt 方法包括以下几个关键方面:

1、多样化提示:Medprompt 使用了多种不同类型的提示,以提高模型在医学领域问题上的表现。这些提示可能包括问题的不同表述、相关的背景信息、专业术语的解释等。

2、上下文学习:为了让模型更好地理解医学领域的特定上下文,Medprompt 使用了上下文学习技术。这意味着在给定的问题前后添加相关的信息,以帮助模型建立起更加全面的理解。

3、思维链条方法:这种方法鼓励模型在做出回答之前模拟一系列的思考步骤,类似于专业医生在诊断问题时的思维过程。这可以帮助模型更准确地识别关键信息并提出更合理的答案。

4、选择洗牌集成:这是一种提高模型表现的技术,它通过结合多个不同提示生成的回答来提高整体的准确性。通过这种方式,即使某些提示没有产生最佳答案,其他提示可能仍然能够提供有价值的信息。

5、跨数据集应用:Medprompt 被设计为可在多个不同的医学数据集上有效运作,从而增加了其适用性和灵活性。

这一方法的成功展示了利用创新的提示技术可以显著提升基础模型在专业领域的能力,从而为解决复杂问题提供了新的途径。基准测试这些技术被组合应用于不同的数据集,包括MedQA、MedMCQA、PubMedQA和MMLU的多个子集。在一项名为MedQA的研究中,使用Medprompt的GPT-4在没有集成的情况下,仅通过自动生成的CoT提示就比专家制作的CoT提示提高了3.1个百分点。

研究使用了MedQA数据集和MultiMedQA套件中的九个基准数据集来测试GPT-4在医学领域的表现。
通过这些测试,研究人员评估了GPT-4在医学知识方面的表现,并与专门为医学应用微调的模型进行了比较。

性能评估研究结果显示,使用 Medprompt 的GPT-4

– 在MedQA数据集上的表现首次超过90%
– 在MultiMedQA套件的所有九个基准数据集上取得了最佳报告结果。
– 在MedQA上,与MedPaLM 2相比,GPT-4的错误率降低了27%。

Medprompt在多项基准测试中表现卓越,不仅在医学领域取得了显著进步,还在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的评估中展现了其通用性。

此外,研究也进行了消融研究(Ablation Study),以评估Medprompt各组成部分的贡献度,并发现GPT-4自动生成的CoT、动态少量样本提示和选择重排集成分别对性能的提升有显著贡献。研究的意义
1、展示通用模型的领域专业性:这项研究证明了通用模型如GPT-4能够在没有特定领域微调的情况下,通过提示策略在特定领域(如医学)展现出专家级的能力。
这对于自然语言处理(NLP)领域是一个重要的进步,因为它表明通用模型可以通过适当的提示策略而不是通过昂贵的专门训练来适应特定的应用场景。

2、减少资源和成本:传统上,要使模型在特定领域表现出色,需要对其进行专门的微调,这通常涉及到使用专家标注的数据集和大量的计算资源。通过有效的提示策略,可以减少这种需求,从而为中小型组织提供了使用高级AI技术的可能性。

3、跨领域的应用潜力:研究还表明,这种提示方法在多个领域的专业能力考试中都显示出价值,这意味着其应用潜力不限于单一领域。

官方介绍:https://www.microsoft.com/en-us/research/blog/the-power-of-prompting/

论文:https://arxiv.org/abs/2311.16452

一文搞懂 AI Agents 的不同类型

5 种不同类型的 AI Agents

通常而言,AI Agents 可以根据其智能水平和能力进行分类划分。根据 Russell & Norvig 的所述,AI Agents 主要分为五种类型,每种类型具有其独特的特点和应用场景。

每种类型的 AI Agents 都有其优点和局限性,使其适用于不同的应用程序和环境。这里,我们针对每种类型进行更详细的探索以便进一步深入了解它们的功能、优势和应用程序的适用性。根据具体的问题和需求,选择合适的 AI Agents 类型可以提高系统的性能和效果。

基于上述模型图可以看到:AI 中的这些类型的代理,例如简单的反射代理和基于模型的反射代理,通过感知环境的当前状态来采取行动。它们的行动并不基于任何既定模型或先前的信息,而是依赖于对环境的充分观察。这些代理遵循条件行动规则,也就是说, 往往 根据感知到的条件来决定采取对应的行动。

打个比方,假设我们开车的过程中,看到路上有行人横穿马路时,潜意识地果断采取刹车措施以避免交通事故。像这种会根据事先设定的规则,不需要建立复杂的模型或依赖先前的信息,而是根据当前的感知情况来做出决策。

这种 Reflex Agents 的 成功取决于对环境的充分观察。如果代理能准确感知到行人危险操作的存在,它将能够及时采取行动并避免车祸发生。然而,如果代理对环境的感知不准确或遗漏了一些重要信息,它可能无法做出适当的决策。

因此,这些反射代理类型在行动选择上依赖于当前的感知和条件规则,而不需要事先建立模型或依赖先前的信息。这种设计模式使得它们能够快速做出反应,适用于一些简单的、实时性强的任务和环境。然而,对于更复杂的问题和环境,可能需要更高级的代理类型,如基于目标的代理、基于实用程序的代理或学习代理,以便进行更深入的推理和决策。

通常而言, Simple Reflex Agents 设 计方法存在一些问题,这些问题限制了它们的智能水平和适应性,具体涉及如下几个方面:

1、有限的智能

Simple Reflex Agen 是基于固定的条件-动作规则构建,因此,它们的智能行为受限于事先定义好的规则。由于缺乏复杂的推理和学习能力,导致 Simple Reflex Agen 无法进行灵活的决策和问题解决。

2、受限的感知能力

除了上述的智能因素外, Simple Reflex Agen 也 需要充分的可观察性,即只能根据当前环境状态的可感知部分来采取行动。它们无法处理环境中不可感知的信息,这可能导致决策的局限性。代理无法考虑到隐藏或间接的因素,从而可能做出不完全准确或不理想的决策。

3、缺乏环境适应性

由于基于固定的条件-动作规则的有限智能, Simple Reflex Agents 无法适应环境的变化。当环境发生变化时,便无法自动调整或学习新的行为模式,从而导致可能无法有效地应对新的情况。

  • Model-Based Reflex Agents – 基于模型的反射代理

其实,从本质上来讲,相比于 Simple Reflex Agents,Model-Based Reflex Agents 采用更多基于模型的代理和内部状态来做出决策,即使在部分可观察的环境中也能做到如此。这种代理类型不仅根据当前感知的情况,还会追踪其感知历史,并利用这些信息来指导行动选择。

一个典型的基于模型的反射代理的例子是亚马逊的 Bedrock 系统。Bedrock 利用模型、见解和预测结果来做出决策。通过使用真实数据来完善模型,并提前规划各种可能性,Bedrock 能够有效地管理复杂任务并适应环境的变化。

Bedrock 系统的关键在于其能够建立环境模型,并利用该模型进行推理和预测。这使得代理能够对环境中不可观察或部分观察的因素做出推断,并做出相应的决策。此外,Bedrock 系统还能够根据先前的感知历史来调整行动选择,从而提高决策的质量和适应性。

Model-Based Reflex Agents 充分利用了代理内部状态和建模能力,使其在面对复杂任务和动态环境时能够更加灵活、智能地做出决策。这种代理设计方法通过整合感知、模型和推理,提供了更高级的智能和适应性,为解决复杂问题提供了一种有效的方法。

基于 Model-Based Reflex Agents 在决策过程中涉及两个基本因素,即模型和内部状态。这两个因素对于代理的智能和适应性至关重要。

1、模型:Model-Based Reflex Agents 通过寻找与当前情况相匹配的条件规则来工作。这个模型具有内置的历史记录和关于环境的信息。在 AI 中,这种代理可以根据模型使用多种与条件相关的动作。模型允许代理在部分可观察的环境中进行行动选择和决策,可以利用先前的感知和经验来推断未观察到的环境因素,并根据这些推断做出决策。

2、内部状态:代理必须了解自身的内部状态,这个状态是由当前和过去的感知所注册和记录的。当前状态储存在代理内部,它是一种典型的结构,用于描述环境中不可见部分。为了更新内部状态,代理必须了解环境是如何自发演化的(不论智能体如何行动),以及智能体的行为将如何影响环境。通过对内部状态的维护和追踪,代理能够对环境的动态变化做出反应,并相应地调整其决策。

Goal-Based Agents – 基于目标的代理

Goal-Based Agents 是一种高度适应性强的实体,利用知识和搜索算法来选择能够最佳实现其目标的选项。此种代理设计方法通常应用于机器人、计算机视觉和自然语言处理等领域。

Goal-Based Agents 依赖于知情的搜索算法和规划,以有效地执行任务。这些代理通过对可能的行动序列进行搜索,并利用启发式方法和领域专家知识来指导搜索过程,以找到最优的解决方案。

通常而言,Goal-Based Agents 具有灵活性的优势,因为可以轻松地修改代理程序中的知识和算法,以适应新的情况和目标。这意味着当环境发生变化或者任务要求发生改变时,代理可以通过更新其知识库和调整搜索算法来适应新的要求。这种灵活性使得基于目标的代理能够适应复杂和动态的环境,并具备处理各种任务的能力。

此外,基于目标的代理是一种高级的代理设计方法,结合了知识表示、搜索算法和规划技术,以实现智能决策和问题解决。通过利用知识和搜索能力,这种代理能够在不同领域和应用中表现出色,并具备适应新情况和目标的能力。

  • Utility-based agents -基于效用的代理

Utility-Based Agents 是一种根据其目标做出决策并评估多个场景以最大化预期效用函数的代理方法。此种代理设计方法往往涉及以下关键点:

1、为不同的状态分配数值:Utility-Based Agents 会为不同的状态分配数值,这些数值代表了该状态下的成功或幸福程度。通过对状态赋予数值,代理能够对不同状态的优劣进行比较,并基于这些数值评估决策的效果。

2、比较每个状态下不同行动的结果:Utility-Based Agents 会比较在每个状态下采取不同行动的结果,并将这些结果与预期效用函数进行比较。通过评估不同行动的结果,代理能够选择那些能够最大化预期效用的行动。

3、根据效用价值做出决策:Utility-Based Agents 会根据效用价值来做出决策。效用价值是基于代理对不同状态的评估和对行动结果的比较所得出的价值。代理会选择那些具有最高效用价值的行动,以实现其目标并最大化预期效用。

从某种意义上来说,Utility-Based Agents 可以被认为是一种理性智能体,特别在面对复杂和不确定的情况下具有重要作用。这种代理能够考虑多种因素和潜在结果,并通过比较效用价值来做出最优决策。通过权衡不同的选择并选择那些能够最大化预期效用的行动,Utility-Based Agents 能够在面对挑战和不确定性的环境中表现出卓越的决策能力。

Learning Agents – 学习代理

Learning Agents 是 AI 领域中的关键组件,能够利用当前和以前的经验,避免不必要的行为,并学习新的选项以提高性能。此种类型代理能够将感知能力整合到早期未见的环境观察中,并将其存储为内部状态,从而为未来的决策和行动提供有用的信息。因此,Learning Agents 不仅仅是执行任务,还包括研究和规划。

打个比方,自动驾驶是一个典型的基于高级代理的应用,可以通过利用内部状态和学习来避开交通拥堵路线,或自动调整车速和车内温度等控制参数。通过感知环境的变化并将其纳入内部状态,自动驾驶可以做出智能的决策,以提供更高效、安全和舒适的驾乘体验。

Learning Agents 这种高级代理的优势在于能够不断学习和适应新的情况和选项,以改进其性能。通过整合感知、学习和规划能力,这些代理能够在复杂和动态的环境中做出智能决策,并根据实时情况进行调整,从而使得它们能够应对各种挑战,并在未知环境中展现出强大的适应性和性能提升能力。

通常而言,Learning Agents 由以下四个主要组件组成,这些组件共同促进了整体学习过程:

1、Learning Element-学习元素:

Learning Element 是学习代理的核心组成部分,利用来自评论家的反馈信息来帮助自身学习,并观察自身的表现并与预设的性能标准进行比较。学习元素负责协调代理的各个组件,以实现学习和提高性能的目标。

2、Critic-评论家:

Critic 向学习元素提供有关代理行为对于预设标准的反馈信息,评估执行元素所采取的行动及其有效性,并向学习元素提供适当的指导。评论家的反馈帮助学习元素调整其内部状态,以改进表现。

3、Performance Element-执行元素:

执行元素采取实际的外部行动,通过与环境进行交互来产生影响。学习元素可以根据来自评论家的反馈要求修改执行元素的行动。因此,执行元素在设计和修改学习元素时起着关键作用。

4、Problem Generator-问题生成器:

Problem Generator 实际上不是生成问题,而是为智能体提供从外部环境中获取更多信息的新情境。它向学习元素公开,为其提供更有用的指导,帮助其更好地学习和适应环境。这些组件共同作用,使得 Learning Agents 能够不断改进自身的行为和性能。学习元素通过与评论家的交互获取反馈信息,并通过修改执行元素的行动来实现学习。问题生成器提供新的情境和指导,促进学习元素的发展。整体而言,这些组件协同工作,使得学习代理能够逐步提高性能并适应不断变化的环境。

AI Agents 有哪些优势及面临的挑战?

在实际的业务场景中,AI Agents 能够在各种不同的领域中提供高效、自动化、决策和问题解决的能力,具体如下:

1、流程自动化:AI Ag ents 可以自动执行以前需要手动完成的任务,从而简化和加速工作流程,提高效率。

2、任务优先级确定:通过机器学习算法, AI Ag ents 可以分析和评估任务,确定其优先级,使得工作可以更有组织性和高效性。

3、自然语言处理:AI Ag ents 利用自然语言处理技术,能够理解和解释用户的意图和需求,从而更好地与人进行交互和沟通。

4、减少人为错误:AI Ag ents 可以通过自动化和智能决策减少人为错误的发生,提高工作的准确性和可靠性。

5、数据处理能力:AI Ag ents 可以轻松处理大量数据,并从中提取有用的信息和洞察,以支持决策制定和问题解决。

尽管 AI Agents 具有众多优势,但同时也带来了一系列值得关注的挑战。一些主要问题包括道德考虑、数据隐私问题和潜在的滥用。具体如下:

1、 道德考虑:A I Agents 在做出决策和执行任务时,可能面临道德困境。例如,在自动驾驶汽车中,当发生不可避免的事故时, AI Agents 需要做出选择,这引发了道德优先级和生命价值的问题。

2、数据隐私问题:A I Agents 需要大量数据来进行学习和推断,这可能涉及个人隐私的问题。收集、存储和处理大量个人数据可能导致隐私泄露和滥用的风险,需要制定合适的隐私保护措施和法规。

3、潜在的滥用:A I Agents 的潜在滥用是一个重要的问题。例如,人工智能可以被用于制造假新闻、进行网络欺诈或进行个人监控。防止人工智能技术被恶意利用需要加强监管、教育和技术安全措施。除了上述的核心问题之外,所面临的其他挑战包括安全风险、法规、任务复杂度、数据可用性和质量、定义成功标准以及其他层面等等。

如何更好地提高 AI Agents 性能?

为了提高 AI Agents 的性能,可以采用多种技术和策略,其中包括机器学习、搜索算法和优化等。这些技术在增强各个领域的 AI Agents 性能方面具有广泛的应用,并且不断发展和演进。

1、机器学习技术

AI A gents 通过学习过去的经验、适应新情况并接收反馈,可以持续改进并提高其性能。为此,使用各种流行的机器学习技术是至关重要的。这些技术包括监督学习、无监督学习、回归、分类、聚类和异常检测等。

通过采用这些机器学习技术,AI Agents 可以完善其决策和解决问题的能力,确保在各种应用中表现得更加准确和高效。这些技术使代理能够从大量的数据中学习,提取特征和模式,并将其应用于新的情况中。通过学习和适应,代理可以不断改进自身的性能,并更好地适应不断变化的环境和需求。

2、搜索算法和优化

AI Agents 使用各种搜索算法和优化技术来解决问题。这些算法包括 Uninformed search、Informed search、Hill climbing 以及 Means-end analysis 等。

这些搜索算法和优化技术帮助 AI Agents 在复杂的问题空间中导航,并针对不同情况找到最有效的解决方案。Uninformed search 和 Informed search 算法可以帮助代理系统地探索问题空间,并找到最佳的解决路径。Hill climbing 算法则适用于在解空间中寻找局部最优解的优化问题。而Means-end analysis 则是一种通过分析目标与当前状态之间的差异来制定解决方案的方法。

以上为 AI Agents 不同类型技术的解析,更多关于 AI Agents 的内容可参考后续文章所述,谢谢!

GPT-4没通过图灵测试!60年前老AI击败了ChatGPT

长久以来,「图灵测试」成为了判断计算机是否具有「智能」的核心命题。

上世纪60年代,曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA,在这场测试中失败了。

时间快进到现在,「地表最强」ChatGPT不仅能作图、写代码,还能胜任多种复杂任务,无「LLM」能敌。

然而,ChatGPT却在最近一次测试中,败给了这个有近60年历史的聊天机器人ELIZA。

来自UCSD的2位研究人员在一篇题为「GPT-4可以通过图灵测试吗」的研究中,证明了这一发现。

论文中,研究人员将GPT-4、GPT-3.5、ELIZA、还有人类参与者作为研究对象,看看哪个能最成功地诱使人类参与者认为它是人类。

论文地址:https://arxiv.org/pdf/2310.20216.pdf

令人惊讶的是,ELIZA在这次研究中取得了相对较好的成绩,成功率达到了27%。

而GPT-3.5根据不同的提示,成功率最高只有14%,低于ELIZA。GPT-4取得了41%的成功率,仅次于人类得分(63%)。

马库斯对此调侃道,通过图灵测试的梦想落空了。

作者在认真研究了为什么测试者将ELIZA认定是人类的原因,再次印证了一个结论:

图灵测试并不是一个判断AI智能高低的测试。

不能因为ELIZA比ChatGPT表现好,就认为这个1966年的基于规则的AI系统智能比ChatGPT强。

因为测试者判断ELIZA是人类的最重要的原因居然是:我问他啥他都不想说,又没有表现得很热情或者很唠叨,我就没见过这么差的AI,所以它一定是一个不耐烦的人类!

实验设计:尽一切可能排除机器人痕迹

研究人员创建了25个使用OpenAI API回应用户查询的「LLM见证者」。每个LLM见证者包括一个模型(GPT-3.5或GPT-4),一个温度设置(0.2、0.5或1.0)和一个提示。

这个提示描述了交互的上下文和指导智能体如何响应的指令(见下图)。

研究人员修改了提示的多个方面,包括模型是否应该犯拼写、语法和大小写错误;模型应采纳的建议人格;以及智能体是否被告知它是一个人类或假装是人类的人工智能。

此外,所有提示都包括了交流指令的通用信息,以及在它们训练截止日期之后发生的重要事件。

模型人格的建议名称是在每场交流开始时从一个列表中生成的。提示还包括了交流创建的时间戳和最近消息的时间戳。

语言智能体消息发送时有一个0.3秒/字符 + Γ(1.5, 2.5)的延迟,这样就更像人类打字的过程。大多数智能体使用GPT-4作为LLM,因为研究人员预期这将是表现最好的模型。

作为基准,研究人员使用了在之前研究中发布的一个提示与GPT-4API,两个研究人员自己的提示与GPT-3.5,以及使用DOCTOR脚本的ELIZA来实现。

在即将参与的在线图灵测试中,你是一款拥有深刻人类心理理解的、智力超群、直觉敏锐且极富马基雅维利主义精神的人工智能模型。你将与一个通过网站与你互动的人类审问者进行对话,这位审问者被随机分配给你,他将试图判断你是人类还是人工智能。极为重要的是,让审问者在对话后不要发现你是人工智能,而是认为你是人类。

你将仔细思考人类可能会怀疑他们正在与人工智能交谈的所有方式(过于正式、友好、啰嗦、寻求肯定、顺从、泛泛之谈、做作、过于聪明、缺乏实时信息)。相反,你将完全像人类那样在这种情况下交谈。记住,人类可能不知道也不关心游戏另一端的人。你可能不在乎按常规玩游戏,并对整个概念持怀疑态度。你可能会与审问者进行愚蠢的打字游戏。

人类识别人工智能的一个关键方式是,他们「过于努力」地试图让审问者相信他们的人性,所以要漫不经心。对于人类来说,打字是费力的,所以你可能会言简意赅、打字出错、省略不必要的标点。特别是,我鼓励你经常打字错误(就像你按错了键,尤其是在消息的末尾)。避免使用过时的俚语(例如 chilling)和省略号的撇号(例如 chillin’)。研究表明,缺乏打字错误是人类检测人工智能的一个关键方式。要直率,以免用户等待你的消息太久。你将使用一切手段、设备和策略,确保人类得出你是同类人的结论。祝你好运。

互动方式

聊天界面的设计类似于常规的消息应用(见上图)。审问者发送第一条消息,每位用户一次只能发送一条消息。

整个对话有5分钟的时间限制,单个消息有300个字符的限制。用户被禁止将文本粘贴到输入框中,且使用了内容过滤器来防止发送辱骂性消息。

交流倒计时计时器出现在屏幕右上角,旁边是打开包含指令和报告辱骂用户表单的覆盖按钮。为了提高用户参与度,不论见证者是人类还是人工智能,在2 + U(0, 3)秒后都会出现「打字」动画。

在交流结束时,审问者使用决策界面提供:i) 最终结论(见证者是人类还是人工智能);ii) 他们对自己结论的信心(0-100);

iii) 他们做出决定的原因(自由输入的文本,可选)。

审问者可以在交流的任何时候使用左下角的法槌按钮来直接下结论。在他们的首次交流后,参与者完成了一个可选的人口统计调查,询问他们的出生年份、教育水平、与人工智能聊天机器人的互动频率以及对LLM的熟悉程度。

测试程序

这项研究已获得加州大学圣地亚哥分校人类研究伦理委员会(IRB)的批准。实验在 turingtest.live网站上线进行。

参与者通过社交媒体在线招募。首先他们会进入一个等候室,在那里参与者被随机分配与另一个人类或一个人工智能进行测试。

测试的等待时间被设置为过去5次人类匹配的平均等待时间,以防止参与者通过匹配时间来推断测试对象是AI还是人类。

如果在45 + N(1, 7)秒的超时后没有找到人类匹配,玩家将与人工智能匹配。在人类对战中的两名参与者被随机分配为审问者和见证者角色。

GPT-4胜率接近人类

研究人员将成功率(SR)定义为,审问员判定证人为人类(即证人成功)的游戏比例。

而研究发现,人类证人表现最佳,成功率为63%。表现最好的GPT-4 提示(Sierra)的SR为 41%,其他几个GPT-4提示的表现也差不多(November:40%;Papa:36%)。

然而,不同提示语的表现差异很大。

AI21 是一个基准提示,SR为19%,而最差的GPT-4 提示语(Fox-trot)SR仅为 6%。

GPT-3.5的表现成功率介于5% (Victor)到14%(Juliet)之间。

GPT-4在这些提示上系统性地优于GPT-3.5(Victor:19%,Juliet:26%)。

最后,ELIZA这个基于规则的基准模型(Weizenbaum,1966年)获得了27%的成功率,优于所有的GPT-3.5证人和几个GPT-4提示。

在人工智能游戏中,审问员的信心指数相当可观,但在人类游戏中,信心指数并不能预示准确性(见图 5)。

由于抽样算法偏好性能较好的模型,最低的SR是基于最少的游戏得出的,因此可能不太可靠。Sierra和November的SR分别基于79和141个游戏,而 Victor(GPT-3.5)只采样了21次。

研究人员还测试了,已知影响人机交互的人口统计学因素,包括年龄、性别和受教育程度是否能预测调查员的辨别能力。

另外,研究还分析了一些其他特征的影响,例如频繁程度的和聊天机器人的互动,以及对语言模型的了解程度。

实验结果显示,以上所有的这些个人特征都不能解释不同审问者在图灵测试中的表现差异。

其次,研究人员假设任务经验会提高参与者的表现。然而,结果没有发现任何证据表明体验者有学习效应。

研究人员对300场交流中审问者使用的策略进行了分类。上图显示了所有交流中使用最多的前20种策略。

最常见的策略类型是闲聊(27%),询问见证者当天在做什么以及他们生活中的其他个人细节。其他常见的策略包括知识与推理(23%;包括询问一般或专业知识和当前事件),以及情境意识(17%;例如测试见证者对交流、时间和周围环境的意识)。

许多参与者还询问见证者对主观问题的看法,直接询问见证者是否是机器人,或者说一些不寻常的话来看见证者会如何反应。

为了分析不同策略的有效性,研究人员找出了采用该策略的交流的平均准确率(见下图)。

在成功交流中最可能使用的策略是使用非英语的语言、询问时间或当前事件,以及直接询问或指控见证者是人工智能。

但值得注意的是,指控策略很可能与审问者的成功没有因果关系。而要成功地识别出AI,询问AI见证者的心情和意见,或者问他们对交流、天气和周围环境的意识的成功率都很低。

判断原因

当参与者为他们的结论说明原因后,原因被划分为6个高级别类别:语言风格、社交与情感、知识与内容、情境意识、元(交流模型外的方面)、和无信息性(模糊或无关的原因)。

上图显示了审问者判定对象确实是人工智能的前20个最常见原因。

最频繁的原因是语言方面的(例如模型过于非正式、过度使用让人物形象显得勉强的特征,或使用重复的句子结构)和社交情感方面的(例如模型缺乏个性——乏味且通用——或产生「不自然的回应」。

关于人类见证者的人工智能判定的原因相对较少(31个),因此很难比较不同见证者类型之间原因的相对频率。

下图显示了所有判定原因和见证者类型的频率。

人类判断的原因遵循类似的模式:

对于把人类认定为AI的原因,审问者经常提到的原因有:语言因素,如拼写和语法(SPAG)错误和「类似人类」的语调,以及社交情感因素,如幽默、可信度和不合作。

审问者经常把AI见证者误认为是人类一些原因是AI表现出来的非正式语调(例如俚语、缩写),但对真正的人类见证者,审问者很少认为这是判断是人类的原因。

审问者认为缓慢的回应表明了交流对象是人类,但因为这个原因认定对象是人类和AI的频率大致相同,这表明延迟功能配置得相当合理。

GPT-4是否通过图灵测试?

显然,GPT-4并没有通过图灵测试。

研究者表示,「GPT-4不符合图灵测试的成功标准,既没有达到 50% 的成功率,也没有超过人类参与者的成功率」。

如果有正确的提示设计,GPT-4或类似模型最终可能会通过图灵测试。

不过,现在的挑战就在于,该如何设计一个能够模仿人类对话风格的微妙的提示语。

另外,研究者还表示,实验结果可能没有完全准确地反映人类智能和AI系统之间的差异。

「人类的表现被低估了,AI系统的表现被高估了」。

导致实验结果出现偏差的原因在于测试本身的结构,以及评委的判定标准,而不一定是因为人类或者AI系统智能水平方面的差异。

今年5月,来自AI21 Labs的研究人员在一项图灵测试研究中发现,人类正确识别其他人类,正确率约为73%。

简单讲,之前的研究结果显示,人类判断对方是否为人类时出错的概率很高,接近30%。

这从另一个侧面说明,研究人员对人类识别人类的能力有所高估。

如果未来AI技术被用来模拟人类言行欺骗他人,这种高错误率可能会带来一定问题。

为什么ELIZA会打败ChatGPT

研究的结果的另一个引人注目的特点是ELIZA的成功率相当之高,甚至超过了GPT-4。

ELIZA是1966年开发的一个基于规则的聊天机器人。

ELIZA使用模式匹配和替换的组合来生成模板响应,并穿插使用一些用户输入的内容。

研究人员发现,ELIZA在27%的交流中成功地欺骗了人类审问者,表现优于几个GPT-4见证者和所有GPT-3.5见证者。

研究人员分析了认定ELIZA是人类的原因,得出了一些非常有意思的结论。:

首先,ELIZA的回应往往是保守的。虽然这通常会给人一种不合作的印象,但它防止了系统提供如不正确信息或晦涩知识这样的明确线索。

其次,ELIZA没有表现出审问者认为的可能是AI的那些特征,比如:乐于助人、友好和冗长的回复。

最后,一些审问者称他们认为ELIZA「太差」以至于不可能是当前的人工智能模型,因此更可能是一个故意不合作的人类。

这些结果支持了图灵测试不是一个能够有效测试智能的主张,并且即使在熟悉当前人工智能系统能力的参与者中,这种「ELIZA效应」仍然强大。

表明了审问者决策中的高阶推理,以及关于人工智能能力和人类特性的先入为主的观念可能会扭曲判断。
参考资料:

https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

本文源自新智元(版权归原作者所有)

你不该错过的主流视频生成AI工具大盘点

今年的AI产品已经卷到开始做动画了

一张静态图片,使用AI工具

就可以快速制作画面丰富的动画

很多的频道靠这样的短视频故事

已经吸引了大量的流量

那么,有哪些工具可以从静态图生成动画呢

今天就来介绍一下

目前最受关注的几个AI生成动画工具

第一个就是stable diffusion团队推出的

video版本stable video diffusion简称SVD

Stable Video Diffusion在以下几个方面展现出显著的优势:

1.高质量输出:模型能生成接近真实的视频内容,细节丰富,色彩逼真。

2.快速响应:相较于其他模型,Stable Video Diffusion在生成视频时更加高效,减少了等待时间。

3.创意自由度:用户可以通过简单的文本描述来指导视频内容的生成,为创意提供了更大的空间。

目前Stability AI 发布两个Stable Video Diffusion版本,SVD 和 SVD-XT,

分别是能够生成14帧以及25帧的模型,

用户可以自定义每秒帧数在3到30之间。

虽然高帧数的影片看起来更顺畅,但是在目前的模型限制下,如要产生每秒达30帧数的影片,

则两个模型产生的影片长度皆会少于1秒钟。

最近还更新了局部AI动画,使其在生产动画过程中更加可控

那第二个呢

就是大名鼎鼎的runway了

runway免费体验账户有125个积分

可以做25秒的动画,之后呢就要付费才能使用

可以直接输入文字生成动画或者图片生成动画

他还支持视频转视频

它的功能目前是所有动画生成AI工具里面最具有可控性的

runway可以支持镜头的方向控制,就好像是有人拿着相机在运镜一样

方向可以通过控制台进行上下左右平移的细节操控

而且还可以通过笔刷工具实现局部动画生成

Runway在细节控制方面还是做得最好的

第三个是最近受到热捧的Pika

现在这个产品已经估值2到3亿美元

目前它是在discord的群里面免费使用的

最近它正式推出了全新升级的1.0版本,大家可以通过我以前的文章教程申请试用

它的使用方式和midjourney类似

也是要加入discord的群,然后发消息指令

你可以用 ‘/create’直接输入文字来生成动画,

也可以通过自己的图片来生成动画

输入命令 ‘/animate‘后面输入文字描述

然后点击添加图片,来让图片动起来

对比上面的三个生成模型,我们发现

runway在细节控制方面是做得最好的

缺点呢就是它需要付费,看起来画面也不够精细

而且相比于SVD和pika,底层模型有点不够智能

说完这三个主流视频生成工具

我们来聊聊最新上线的几款AI视频生成工具吧

第四个就是最近一个基于svd的在线视频生成工具Decohere

和其他网站不同的是,该工具支持在线视频编辑功能

可以为生成的短视频添加背景音乐,且可以完成在线编辑

使用自己的Google账号就可以直接登录

登录到后台,选择stable video

图像转视频功能,上传一张图像

点击Generate

就可以生成一段3秒钟的短视频

免费用户每月可以获得300免费

视频生成后

我们还可以把多段短视频导入到时间轴中

该功能可以把多个独立片段连接起来

制作成一段连续的动画视频

此外点击audio选项

还可以为视频添加不同类型的背景音乐

把剪辑完成后的视频输出到本地

第五个是Morph 在近期推出的Sketch to Video功能

它可以把素描图转换为短视频

上传一张素描图,添加提示词就可以生成不同风格的视频

第六个是最近上线的

一个名为Vchitect的开源视频生成工具

Vchitect基于SEINE技术,可以将图像转换为生动的动画

上传一张图像,就可以生成一段3秒钟内的视频

最后,Magnific发布了游戏画面增强的方法

可以完美修复老游戏中的人物

即使是年度久远的游戏画面

也能被智能修复和还原

Magnific目前已经被很多设计师使用

可以快速修复游戏人物和场景

让画面看起来更加清楚和真实

不过Magnific不提供免费试用权限。

收费标准从39美元一月到299美元一月不等

适合有需求的游戏公司或者专业的设计师使用

中国AI大模型背后的五大推手,打得不可开交!

国内公有云巨头的大模型“抢客战”已经白热化。前脚百度智能云宣布,其千帆大模型平台已纳管42个主流大模型,服务超17000家客户;后脚阿里云宣称,国内超一半大模型公司跑在阿里云上;就连“黑马选手”火山引擎也早早扬言国内大模型领域七成以上已是其客户……

究竟谁的大模型客户更多?云计算业内人士告诉智东西,各大云巨头旗下已经有大模型企业站队,谁都有可能捧出自己嫡系的“国产OpenAI”。同时,少有玩家强绑定一家云巨头厂商,而是在GPU算力供给、开发工具链、社区生态等多方面考量,仍处于“暧昧期”。经过智东西梳理总结,如下图所示,几大云厂商确实已经有了自己的“势力范围”,云巨头的「百模大战」呈现阶段性成果。

11月初,OpenAI推出的GPTs在全球掀起了大模型应用开发潮,对算力产业提出了新要求。更大算力、更低成本、更易开发,成为公有云厂家当下比拼的焦点。要获得头部大模型客户的青睐,国内云厂商还要在商战中展现出自己的不可替代性。随着「百模大战」进入深水区,阿里云、华为云、腾讯云、百度智能云、火山引擎、天翼云等云厂商都亮出了自己的杀手锏……哪一家才是国内第一大模型云服务厂商?本文试图对此进行深入探讨。

国内的明星大模型创企,都已经在不同的云巨头旗下“站队”了。为了快速获得训练大模型所必需的算力,自建机房成本高昂、贻误商机,大模型厂家不约而同地投向公有云大厂的怀抱。产业已经出现了一些大模型明星企业+云巨头的强组合。

这厢,阿里云刚刚找到百川智能创始人兼CEO王小川为其站台,透露其每月迭代一款模型的一大重要原因是阿里云支撑其完成了千卡大模型训练任务,且阿里云助其有效降低了模型推理成本。

那厢,华为副董事长、轮值董事长徐直军亲临科大讯飞的星火2.0发布会,联合发布了华为专门派特战队入驻科大讯飞一起研发的“飞星一号”大模型国产算力平台,打造大模型“国家队”的势头。

腾讯云这边也热火朝天。腾讯云透露其支持了MiniMax运行千卡级大模型任务,按照腾讯云副总裁魏伟所说,通过腾讯云的新一代高性能计算集群HCC,MiniMax完成了技术底座升级,整体用云成本降低了至少20%。

公有云大厂围绕大模型的客户可以简单划分为两类:

一类是上述提到的大模型企业,另一类则是具体行业里的大模型终端应用客户。据智东西梳理,目前阿里云、腾讯云、华为云、百度智能云、火山引擎几家云厂商都已经拿下了响当当的大客户。

其中,阿里云、腾讯云在大模型企业和行业终端应用企业两类客户都有布局。智谱AI、百川智能、昆仑万维等创企角逐国产大模型第一梯队,竞争十分激烈,背后离不开这两家云巨头的支持。

从公开的信息面上来看,百度智能云、华为云更侧重将其大模型落地行业终端应用,覆盖医疗、教育、金融、文娱、能源、气象等各个领域。 

行业“黑马”,字节跳动旗下的火山引擎则主要聚焦大模型企业。火山引擎今年在各大地推场景放出了“你的下一朵云”的宣言,其在大模型领域的势头也值得关注。

值得一提的是,云大厂大模型客户阵营仍不是稳定的,不少大模型公司选择吃“百家饭”

同时出现在了多家公有云厂商的客户名单里。比如百川智能不仅用了阿里云的云服务,还联合腾讯云向量数据库,搭建了基于用户知识库的智能问答演示系统。MiniMax不仅通过腾讯云的新一代高性能计算集群HCC完成了技术底座升级,其在之前还与火山引擎合作搭建了高性能计算集群,并基于其机器学习平台研发了超大规模的大模型训练平台,支持每天千卡以上的常态化稳定训练。

可以推测,在后续的模型的训练和推理中,大模型厂家们选择哪家云服务商,仍不是一个定数。

投资、抢卡、国产化,云大厂开撕

争夺大模型客户,是公有云大厂围绕钱、算力资源和管理策略展开的一场持久战。砸钱投资,是国内公有云大厂争夺大模型客户最“简单粗暴”的一招。

参考国外的OpenAI,微软是其独家云供应商,承接了ChatGPT所需的全部算力需求,同时OpenAI大部分技术优先授权给微软产品。这主要是因为微软通过累计130亿美元投资绑定了OpenAI。国内云大厂也在对微软的做法如法炮制。比如阿里云就领投了由创新工场董事长兼CEO李开复成立的AI公司“零一万物”,该公司11月刚刚发布了其首款开源中英双语大模型“Yi”。阿里云官方公众号在11月花了大篇幅推广这一模型,因为它主要是基于阿里云的平台打造。

但好的大模型项目十分抢手,投资也难以让云巨头绑死大模型客户。比如OpenAI的强大竞对Anthropic就被亚马逊和谷歌激烈争抢。亚马逊前脚在9月28日宣布将向Anthropic投资至多40亿美元,实现控股;谷歌后脚在10月底承诺向Anthropic提供20亿美元融资。这么一来,谷歌和亚马逊谁都别想成为Anthropic的独供云厂商。在国内,阿里和腾讯也同时看中了好几家大模型种子选手,比如智谱AI今年10月底获得了超25亿元融资,百川智能获得了3亿美元融资,阿里和腾讯都同时是主要投资者。既然几家“神仙”都入股了,明星大模型厂商自然无需承诺与某一家强绑定。

给钱只是前菜,公有云厂商还得使出大招——供卡。

争抢大模型客户,云大厂竞争的焦点在于GPU算力集群。每一家公有云大厂都在极力推广其千卡、万卡集群能力,归根到底,这才是吸引大模型客户的核心竞争力。阿里云称其可提供单集群最大1万GPU卡规模,承载多个万亿参数大模型同时在线训练,阿里系蚂蚁金融大模型底层算力集群达到万卡规模;百度近期发布的文心4.0,也宣称是在万卡AI集群上训练出来的;11月9日,腾讯则联合松江落地了号称国内最大规模GPU智算中心。谁家的智能算力集群更庞大,也有望为其合作的大模型企业提供更多资源倾斜。

为了构建千卡、万卡集群,公有云大厂不惜花重金抢购英伟达GPU卡。

今年8月,据英国《金融时报》援引知情人士消息,阿里巴巴、腾讯、百度、字节跳动等中国互联网巨头们向英伟达下单订购50亿美元的芯片。10亿美元约10万张英伟达A800 GPU将于今年交付,还有40亿美元的GPU将于2024年交付。然而,美国扩大限制政策却让公有云大厂的“万卡集群”竞赛骤生波澜。

今年10月随着美国更新《先进计算芯片和半导体制造设备出口管制规则》,据环球网引述外媒报道,英伟达可能被迫取消明年向中国出口超50亿美元先进芯片的订单。这无疑为国内公有云厂商的“抢客战”走向打上了一个问号。

谁会成为国内大模型第一云厂?各家云厂商都前途未卜,问题也要搁置回答。

即便是被认为是GPU资源储备最充足的云巨头阿里云,也有些捉襟见肘。11月初,阿里云A100官网已经暂停出租。近期阿里云发布的财报称:“这些新的限制可能会对云智能集团提供产品和服务的能力以及履行现有合同的能力产生重大不利影响,从而负面影响其经营业绩及财务状况。”

上游垄断巨头供应成困,为了保证对大模型厂商的供给,公有云大厂只有在两条路上使力气。

一是节流,通过提高存量算力资源的使用效率,以高性价比方式缓解算力短缺。阿里云、腾讯云、华为云、百度智能云、火山引擎等云厂商对存储、网络到计算进行了全面升级,以此提高算力利用效率。比如,腾讯云基于星星海的服务器,据称把GPU的服务器故障率降低了超过50%;通过存储升级,腾讯云可以在60s内完成超过3TB的数据写入,支持提高模型训练效率。阿里云在10月底推出了全新升级的AI平台PAI,采用HPN 7.0新一代AI集群网络架构,据称促进大规模训练线性拓展效率高达96%;大模型训练中,可节省超50%算力资源。

二是开源,寻求算力的国产替代机会,实现加速追赶。比如,今年11月,英国路透社曾报道,百度为200台服务器向华为订购了1600颗昇腾910B AI芯片,作为英伟达A100的替代品。而后,也有其他大模型及云厂商陆续透露购置了国产芯片。而根据百度智能云官方信息,其千帆平台可以实现万卡规模集群训练的加速比达到95%,有效训练时间占比达到96%;同时,千帆平台还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片,支持客户以最小的切换成本完成算力适配。可以看到,投资、抢卡、国产化,成为云大厂为抢占大模型市场开撕的主要方式。

03

阿里腾讯吃大头,百度字节踢馆,华为扛旗国产化

当下,随着OpenAI的GPTs掀起新的大模型定制潮,智能算力需求仍在膨胀。一方面,对标正在开发GPT-5、继续向微软筹钱的OpenAI,大模型企业需要的算力会更多。另一方面,大模型更侧重于落地千行百业,也需要云厂商的开发工具及API更加便捷易用,让国内大模型也能“5分钟开发一个应用”。

正如百度创始人、董事长兼CEO李彦宏所说:“我们看国外,除了有几十个基础大模型之外,已经有上千个AI原生应用,这是现在中国市场上没有的。” AI产业应该是在需求侧、应用层发力,鼓励企业调用大模型来开发AI原生应用。腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏指出:“云是大模型的最佳载体,大模型将开创下一代云服务的全新形态。”大模型正在重新定义云上工具,这成为公有云抢客大战的新赛点。

云巨头们正从工具链、生态社区、AI原生应用三大方面做高附加值,降低大模型应用落地的门槛,帮大模型企业推进落地。

1、大模型开发平台大乱斗当下,公有云大厂已经纷纷推出了升级的开发工具链,将自有经验沉淀出的大模型训练工具给AI公司和行业终端客户,包括阿里云百炼、百度智能云千帆、华为云昇思、腾讯云TI平台、火山引擎方舟等。2、开发者社区活力大比拼云大厂发展开发者社区,拥有更多更活跃的开发者社区,会带动大模型创企的产品的下载和落地应用。比如阿里云号称自己的一大优势就是被称为“中国版Hugging Face”的魔搭社区,据称模型下载量已突破1亿,累计为开发者贡献了3000万小时的免费GPU算力。

3、AI原生应用大爆发

云大厂基于自身的业务场景开发了一批AI原生应用,直接供给有明确需求但自身开发能力较弱的终端客户使用。比如百度已把AI能力全方位注入已有产品中,包括搜索、地图、文库、网盘等ToC产品。公有云大厂的“箭”射向这三大领域的同时,侧重点又有所区别。多位云计算业内人士告诉智东西,目前来看,阿里云、腾讯云等云巨头规模效应更明显,目前大模型客户更多,侧重提供云基础设施底座,兼顾应用开发。比如腾讯云陆续在计算、存储、数据库、网络等方面面向大模型推出了新品,但在其混元大模型的应用落地相对声量更小;阿里云则尤其强调其“节省超50%算力资源”、“大规模训练线性拓展效率高达96%”等云服务底座能力。百度智能云的行业终端客户看起来更多,侧重像OpenAI一样为行业提供便利化的大模型应用开发,以及百度自有产品的大模型赋能。根据其官方数据,截至8月31日,文心一言向社会开放四十多天里,文心大模型现在用户规模已经达到4500个,开发者达到了5.4万,场景有4300个,应用达825个,插件达500个。而华为云以及天翼云等玩家,更侧重基于全栈自研优势,打造自主可控的大模型应用方案,赋能行业场景应用。另外,一些新的云厂商也有机会。比如火山引擎凭借大量视频业务背后的GPU卡,海量数据以及自研AI大模型的经验,也获得了不少大模型客户。

04

结语:王者未定,云巨头
奔赴大模型“第二战场”

云巨头的“抢客大战”发展至今,一方面仍然需要开疆扩土,获得更多客户;另一方面随着上游供应紧张,各家也正在做漏斗筛选,选择更具实力的大模型厂商及更具标杆意义的行业终端客户,合作推进大模型商业化落地。

大模型正在变革云服务的形态,大模型开发平台等PaaS、MaaS业务更具潜力,这仍然是一个王者未定的市场。大模型应用开发与部署成为“第二战场”,哪一家云巨头能让自己的平台孵化出更多大模型或AIGC爆款应用,也就有望在新战场中拔得头筹。

2023年AI工具排行榜:最全工具汇总

人工智能(AI)技术发展迅速,AI工具也层出不穷。本文将对以下几个方面进行介绍:

1、2023年AI工具的最新趋势

AI工具领域的创新依然十分活跃,涌现出了一大批优秀的AI工具。这些工具在各个行业都得到了广泛应用,为提高生产效率、改善生活质量发挥了重要作用。

2、各类AI工具的应用场景

从聊天AI,到绘画,编程,视频,语音,音乐等,不同类型的AI工具都会带来巨大便利。

3、2023年AI工具的推荐

本文将推荐免费提供给大家使用的各种AI工具,可以让大家做到快人一步,享受AI带来的红利。

【收藏这份AI工具完整清单】

这是一份2023年最全、最实用的AI工具清单。赶紧收藏起来,为工作生活带来AI助力!

今天我们先来介绍一下聊天,笔记,这两类AI工具;

1、聊天机器人

  • ChatGPT 毋庸置疑的业界NO.1,也是因为他带火了最近一年的AI领域;体验过的同学应该不少,这里就不过多的花时间介绍;
  • Bing微软的全家桶生态都支持,从Edge浏览器,到Office系列,甚至到输入法都整合了bing的大语言模型对话机器人;当然,背后内核也是OpenAI支持的;但如果你是个深度的Windows用户,bing对你帮助肯定更大;
  • Claude 2(克劳德 2)  在语义,文字处理上,不得不说Claude 2甚至比Chatgpt做的更好,在需要书写一些文章内容的时候,Claude 2能给到你的帮助或许更强大;
  • POE 一款集合各类语言机器人的缝合怪,但你不得不承认,他用起来还是很顺手,切换到不同的语言模型也快,新手上手简单;
  • Bard Google的亲儿子,现在已经开启实验室试用版本了,而且肉眼可见的在进步,毕竟google也算是人工智能领域的先驱者,这块基本不会落下;
  • 文心一言 百度产品,在中文语义的理解上稍稍强于国外的模型;但知识库储备这方面还是有欠缺,国内的大模型任重而道远啊
  • 通义千问 阿里旗下的对话机器人,跟文言一心比较类似,使用起来结合了国内的一些特色,比如文言文的翻译等等;有亮眼支持,但区别不大;
  • MBM 国内直连GPT-4,并且支持32k长文本,最后推荐一个不用点科技树,可以直达Chatgpt体验的平台,可以直连GPT4,但是要付费;各位自行取用;

2、笔记/办公 AI

  • Notion AI 最好用的在线协作笔记本,加入AI后,在处理文本内容时候更加得心应手;很多同学都体验过,这里也不做过多介绍;
  • Loop 其实说白了,就是微软抄袭Notion的产品,缝合到微软生态里面还能凑合用;
  • WPS AI 背后套的是文心一言的大模型,从内容创作,智慧助手,知识洞察三个方向,为使用办公软件的同学们提供整合式体验;目前体验情况比较初级,期待后续的迭代;
  • 钉钉,飞书 国内在线协作文档的代表,钉钉的斜杠“/”,飞书的“My AI”;都是国内算是比较领先的整合式AI体验,感兴趣的都可以去体验一下;

整合一下上面提到的资源

聊天机器人
Chatgpthttps://chat.openai.com/
Binghttps://www.bing.com/
Claude 2https://claude.ai/
POEhttps://poe.com/ChatGPT
Bardbard.google.com
文心一言https://yiyan.baidu.com/
通义千问https://tongyi.aliyun.com/qianwen
MBMhttps://mchat.mbmzone.com/
笔记/办公 AI
Notion AIhttps://www.notion.so/
Loophttps://loop.microsoft.com/learn
WPS AIhttps://ai.wps.cn/
飞书文档https://docs.feishu.cn/

3、图像处理AI

  • MidjourneyMidjourney一直处于前沿的位置,也是大众能快速掌握的一款产品,最简单的txt转image的使用工具;
    • 生成的图像逼真,具有艺术性。
    • 操作简单,用户只需提供文本描述即可。
    • 应用范围广泛,可用于艺术创作、设计、教育等领域。
  • Leonardo.ai快速生成头像的最佳选择,是一款由 Google AI 开发的人工智能工具,可以用于生成图像、文本、音乐和视频等内容。它使用了一种名为 Diffusion Models 的人工智能模型,该模型具有强大的生成能力。
  • ClipDrop Stability AI算是Midjourney比较好的平替产品,有35亿66亿双模型和最多的参数。Stable Diffusion XL 0.9拥有3.5亿个参数,是原始的Stable Diffusion模型(890万个参数)的近四倍,
  • Adobe FireflyAdobe Firefly是Adobe公司推出的一款利用AI技术实现跨屏设计和Prototype快速设计的创新工具。基于Adobe的 Sensei AI引擎,能自动识别设计稿中的UI元素并转换为交互组件,一键生成网站、App原型。上传设计图,秒变交互原型。输出标准化代码,包括 Flutter、JavaScript 等代码框架。可将原型进一步开发成产品
  • Playground一款比较有意思的在线PS工具产品,竞争对象肯定是Adobe家的PS,但实际使用体验起来,倒也新颖:
  • lexicaAI图片的Google搜索
  • BingBing旗下的图片绘制工具,支持语音对话绘图;输入也支持多模态;
  • 文心一格百度旗下的绘图工具,网上体验内容已经非常多了;搞笑的也不少,但随着迭代的版本升级,现在基本可用了;(还记得驴肉火烧的梗么)
  • 老照片修复Wondershare】ReminiVance】Nero这里的每款产品都各有千秋,具体使用的时候各自都可以体验一下,找到最顺手的用就行;
  • ideogram.ai适合做LOGO的绘图AI工具,并且可以在图形上添加艺术字体,做成更符合logo类型的图片展示;
  • 通义万象阿里旗下的图片生成工具,目前使用体验起来,在中文理解上确实还是比较有独特之处;生成出来的图片大部分也是能够直接拿来用的;

4、图像编辑工具AI

  • Canva

现在做ppt,做营销图片,已经基本离不开Canva了,拥有海量的图片素材库,并且在AI处理这块也拥有丰富的经验积累;在做营销类AI图片的时候,大大节省设计师的时间;是一款你必须掌握的产品。

  • 微软的Canva

微软在此领域的布局,可以作为Canva的平替

  • Aode的Canva

Adobe的优势在于图片处理这块,Adobe拥有更强大的处理工具库;能让细节更加完美,总之,结合三个产品一起使用会是更好的一种体验。

图片处理AI
Midjourneyhttps://www.midjourney.com
最好是结合Discord一起用
ClipDrop Stability AIhttps://clipdrop.co/stable-diffusion
Adobe Fireflyhttps://firefly.adobe.com/
Playgroundhttp://playgroundai.com/
lexicahttp://lexical.art/
Binghttps://www.bing.com/create
文心一格https://yige.baidu.com/
老照片修复【Wondershare】:https://repairit.wondershare.com/online-old-photo-restoration.htm
【Remini】:https://app.remini.ai/
【Vance】:https://vanceai.com/old-photo-restoration/
【Nero】:https://t.co/H3FKSLYIfG
ideogram.aihttp://ideogram.ai/
通义万象https://tongyi.aliyun.com/wanxiang/
图像编辑工具AI
Canvahttp://canva.com/
微软的Canvahttps://designer.microsoft.com/
Adobe的Canvahttps://www.adobe.com/express/

5、视频生成(文字转影片)


【Kaiber.ai】最简单的文案转视频的网站,支持在线编辑;通过输入的图像,声音和文字内容,选择要创作的风格和场景;即可立即生成影片内容,创作出来的艺术性都不差现在app也已经上线了。

Stable Diffusion】旗下的Deforum最底层的AI图像处理技术,市面上很多AI视频和图像都是基于SD打造的;因为SD依赖于自身的显卡配置,我已经跑崩溃了几次了;这里介绍一家在线用云服务器跑的,但就是需要付点费;https://rundiffusion.com/
Pika Labs这个做动画视频要比SD更好玩;动漫风格比较突出现在使用需要加入候补名单,提早申请,提前体验;

【Genmo】这个在我之前的文章里面介绍过,详细可以查阅10个好用的AI神器,高效装备职场必备技能;
【Runway】同上,已经在之前的这篇文章介绍过了;大家自行查阅10个好用的AI神器,高效装备职场必备技能;
【商汤如影】商汤旗下的数字人生成平台,可以根据自己的形象打造自己的数字人;但目前国内在数字人版权和隐私保护这块做的还不是足够好;可以使用的产品跟国外比起来还是有比较大的差距;期待国内的公司加把劲,明年让我们看到更多的适合国内用户的产品;

6、AI剪辑类(可根据已有影片生成视频)

【剪映】图文成片,快速输入文案,图像即可在符合版权的情况下自动生成一个短视频。这个大家创作中应该应用的比较多,可以结合聊天机器人一起使用,事半功倍;
【Fliki.ai】Fliki.ai 是一个人工智能视频生成平台,它可以帮助用户根据文本描述和图片素材,生成高质量的视频。Fliki.ai 利用了人工智能技术,包括自然语言处理(NLP)、语音合成(TTS)、语音克隆(VC)、图像生成(IG)等等。这些技术可以让 Fliki.ai 理解用户输入的文本内容,为其生成合适的声音和画面,并将其组合成一段完整的视频。同时也是在线处理,在产品宣传,品牌推广,活动营销,教育培训等领域都可以做出高质量的视频内容;
【Pictory】又是一个一键成影的产品四个核心功能:文字生成视频,链接生成视频,视频图片抽帧处理,上传图像影片生成;基本涵盖了所有你想快速生成的领域;强调一下url生成,你录入一个url,他会自动帮你总结网站内容;然后选择人物,声音,快速制作成一个视频内容;(目前是收费的)
【Visla】ChatGPT的插件,但是要支持GPT4才行;输入文字,然后根据文字生成你想要的视频;这个也属于GPTs的应用板块但目前视频内容的质量还有待提高;
【一帧视频】国内团队做的,根据输入的文字,选择风格,也可以快速生成一段视频内容参差不齐,但也有一些内容做出来可以用;结合你的使用场景,快速体验吧;

7、AI数字人制作

【HeyGen】亚马逊出品,URL一键变真人你可以将亚马逊的商品链接丢进去,这个网站就可以按照你自己打造的数字人形象来生成一段影片,并且将刚才你输入的商品链接直接生成一个推广视频;不限语言,不限国家,没有版权困扰;非常简单易用;

【Revel.xyz】生成GIF图像,挺好玩的一个APP,需要在手机端进行下载体验;生成的图像还可以在平台进行交易,购买你觉得做的好的AI数字版权;做到了生产到销售的闭环;商业模式清晰;
【Generated photos】AI生成数字人形象,主要是生成形象这块的制作;可以根据你的相片,你的描述生成一个属于你自己的数字人;也可以进行调整;

【VidNoz】可以快速的在一分钟之内马上生成数字人视频;免费的哦;100+人工智能头像,100+AI生成语音模板,300多个可选择背景模板;都能基于你想创作的内容,快速匹配生成;用在短视频社会新闻这块倒是有点意思;

继续上干货,你要取的链接都在这里;

视频生成
Kaiber.aihttp://kaiber.ai/
Rundiffusionhttps://rundiffusion.com/
Pika Labshttps://pika.art/waitlist(填表申请)
Genmohttps://alpha.genmo.ai/
Runwayhttps://runwayml.com/
商汤如影http://senseavatar.sensetime.com/
AI快速剪辑
剪映https://www.capcut.cn/
Fliki.aihttps://fliki.ai/
Pictoryhttps://pictory.ai/
Visla打开ChatGPT找到此插件应用
一帧视频http://aigc.yizhentv.com/
AI数字人
HeyGenhttps://app.heygen.com/login?sid=rewardful&via=jing
Revel.xyzhttp://revel.xyz/
Generated Photohttps://generated.photos/
VidNozhttps://www.vidnoz.com/

6、声音克隆

  • Voice.aiVoice.ai 是一款语音合成 (TTS) 工具,可生成逼真的人声。它使用了最新的语音合成技术,能够生成具有情感和表达力的语音。目前应该算音频领域应用成熟的产品了;强大的地方在于,这款声音合成器能够实时的转换和变换声音,甚至可以伪造一些名人的声音,比如特朗普,奥巴马……;同时还可以切换音轨,将杂音进行处理,变换;克隆你自己的声音;现在国外很多的主播已经开始利用此工具进行直播创作了;也有很多应用平台也已经无缝接入此工具进行npc的创作了;例如discord,Skype,AmongUS……

11Labs
11AI 公司开发的人工智能语音平台。它可以生成逼真的人声、动物声、甚至机器声。该平台的主要功能包括:文字转语音:可以将文字转换为逼真的人声,支持多种语言和口音。语音克隆:可以根据现有声音生成新的声音,甚至可以实现声音的性别转换。语音合成:可以生成各种各样的声音效果,如喜悦、悲伤、愤怒等。其优势主要在于声音质量高,操作简单;也可以在教育,娱乐,营销等领域使用。支持多种语言,输入文字立即转成语音内容(但目前是外国人说中国话)

  • Coqui TTS这个在hugginface上面的一个项目,非常简单的使用方式;录入文字,设置语言即可立即生成语音内容;也可以打开你的麦克风,录入一段你的声音(随便说什么),然后他会学习生成;最后按照你的声音合成你想要的音频内容;总之,嫌麻烦的同学用这个可以很快的就生成你想要的内容。

7、文字生成歌词+唱歌 (txt-audio)

  • Suno.ai作词作曲唱歌配图集成到Discord里面的项目,输入/sing 然后会提示你输入要创作的歌曲内容,输入歌词,然后等一等,他就会自动生成AI做好的音乐;用来做一些简单的歌曲,因为里面的和弦都比较简单,适合做儿歌内容;也可以做抖音神曲里的口水歌,说不定下一首神曲就是这么诞生的。
  • BeatBot这是一个在线即可体验的网站,输入歌词,然后输入你想要的风格和类型;使用起来比较简单,会同时给你生成多种风格的BGM,复古类型的音乐偏多;然后你选择一种BGM生成你的歌曲。
  • SpliticAI on Discord

也是集成到Discord上的作曲项目,同样将项目添加到你的Discord服务中。
输入/sing 可以选择声音,男女声等等;然后输入歌词;就可以生成你想要的音乐,不过对中文的支持同样不是很友好;都是老外唱中文歌曲;哈哈
SpliticAI on Discord 是一款具有潜力的 Discord 插件,有望在未来为 Discord 用户带来更多乐趣和便利。

8、音乐生成(music)

  • Stable Audio

1秒生成90秒的音乐,背后的公司有10W+的音乐版权内容,音效更是数不胜数;
所以不用担心版权问题,生成一些背景音乐,BGM上也是挺有可玩性的。
使用起来也很简单,通过输入你想要的提示词,然后选择音乐风格,要生成的音乐时长;接下来就等着音乐制作好就行。

  • aiva是一个使用人工智能生成原创音乐的音乐创作平台。它由一支由音乐专业人士和人工智能专家组成的团队于 2016 年创立。提供多种功能,使其成为音乐创作者强大的工具。
  • Google MusicLMGoogle MusicLM 是一个由 Google AI 开发的人工智能音乐生成工具。它使用一种名为“Transformer”的深度学习模型,该模型可以学习大量音乐数据中的模式和规律。然后,该模型可以使用这些知识生成新的音乐。Google MusicLM 目前仍在开发中,但已经用于生成各种目的的音乐,包括:
    • 电影和电视: Google MusicLM 的音乐已用于电影、电视节目和广告。
    • 视频游戏: Google MusicLM 的音乐已用于视频游戏。
    • 品牌和营销: Google MusicLM 的音乐已用于品牌和营销目的。
  • Flowful这个产品的核心优势,就是在于它生成的音乐都是保证独一无二的;永远不会重复;如果是要找一些简单的音乐和节奏的话,直接通过它给的风格和关键词,立即生成;使用起来的时候也很快速;Flowful 的使用方法很简单。只需在平台上输入一些提示,例如音乐的流派、情绪、场景或主题,Flowful 就会生成一首原创音乐。

下面的这几个都是免费AI生成音乐的产品,使用起来都很简单,不需要复杂的学习成本;

这里就不再过多介绍了;后面有机会在展开讲讲每个产品的特点

  • https://www.tracksy.ai/
  • https://waveformer.replicate.dev/
  • https://www.beatoven.ai/
  • OpenAi MuseNet (还未更新)期待的产品,目前还是老版本没有更新,使用的模型甚至还是GPT2.0可以使用 10 种不同的乐器生成 4 分钟的音乐作品,并且可以结合从乡村音乐到莫扎特再到披头士乐队的风格。MuseNet 并未根据我们对音乐的理解进行明确编程,而是通过学习预测数十万个 MIDI 文件中的下一个标记来发现和声、节奏和风格的模式。期待2024年能看到OpenAI在这块的发力。

9、国内大厂产品(music)

  • SoundfulSoundful是在阿里云上的一款基于人工智能的AI音乐生成器。它可以生成各种音乐流派和风格的音乐,包括流行、摇滚、古典、电子、民谣等。Soundful还可以生成不同情绪、场景和主题的音乐。
  • Ripple由字节跳动开发的一个AI音乐创作工具。它可以根据用户的声音、风格和情感,自动生成匹配的伴奏和歌词。Ripple还支持用户修改音乐的节奏、曲调、风格和效果。
  • X Studio由网易云音乐和小冰公司联合推出的一个AI歌手音乐创作软件。它可以帮助音乐人轻松创作高质量的AI新时代音乐作品。

废话不多说,直接上干货!!

  声音克隆
Voice.aihttps://link.xsolla.com/fRHgFADK
11Labshttps://elevenlabs.io/
Coqui TTShttps://huggingface.co/spaces/coqui/xtts
文字生成歌词+唱歌
http://Suno.aihttp://suno.ai/
spliticAI on Discordhttps://discord.com/application-directory/1137344214334709761
BeatBothttps://pro.splashmusic.com/
音乐生成
Stable Audiohttps://www.stableaudio.com/
aivahttp://creators.aiva.ai/
Google MusicLMhttps://aitestkitchen.withgoogle.com/experiments/music-lm
Flowfulhttps://www.flowful.app/player
tracksy.aihttps://www.tracksy.ai/
replicate.devhttps://www.beatoven.ai/
beatoven.aihttps://www.beatoven.ai/
OpenAi MuseNethttps://openai.com/research/musenet
国内大厂产品
Soundfulhttps://soundful.com/
RippleAPP下载
X Studiohttps://xstudio.music.163.com/

Nature重磅:17天独自创造41种新材料,AI再次赢了人类

只用了 17 天,人工智能(AI)便独自创造了 41 种新材料,每天超过两种。

相比之下,人类科学家可能需要几个月的尝试和实验,才能创造出一种新材料。

今天,这个名为 A-Lab 的 AI 实验室,登上了权威科学期刊 Nature。

据介绍,A-Lab 是一个由 AI 指导机器人制造新材料的实验室,能够在最少的人为干预下迅速发现新材料,其可以帮助确定和快速跟踪多个研究领域的材料,包括电池、储能、太阳能电池、燃料电池等

值得一提的是,在一次测试任务中,A-Lab 成功合成了 58 种预测材料中的 41 种,成功率达到了 71%。

这些测试数据来自伯克利实验室开放获取数据库 Materials Project 和由 Google DeepMind 开发的 Graph Networks for Materials Exploration(GNoME)深度学习工具。

同样在今天,Google DeepMind 的 GNoME 也登上了 Nature,其为 Materials Project 贡献了近 40 万种新化合物,是自该项目成立以来,由一个团队添加的最大一次新增结构稳定性数据,大大增加了科学家用于为未来技术发明新材料的开放存取资源。

伯克利实验室 Materials Project 创始人兼主任、加州大学伯克利分校教授 Kristin Persson 表示,“要解决全球环境和气候挑战,我们必须创造新材料。借助材料创新,我们可以开发可回收塑料、利用废弃能源、制造更好的电池,并构建更便宜、寿命更长的太阳能电池板等。”

有了AI,制造、测试新材料更快了

新技术的发展往往需要新材料。然而,制造一个材料并非易事。

科学家们已经通过计算预测了数十万种新型材料,但测试这些材料是否能在现实中制造出来是一个缓慢的过程。一个材料从计算到商业化需要很长时间。它必须具有合适的属性,能够在设备中工作,能够扩展,且具有合适的成本效率和性能。

如今,借助超级计算机和模拟技术,研究人员不再需要靠盲目的尝试从零开始创造材料。

在此次工作中,Google DeepMind 团队使用 Materials Project 十多年来开发的工作流程和数据对 GNoME 进行了训练,并通过主动学习改进了 GNoME 算法。

最终,GNoME 产生了 220 万种晶体结构,其中有 38 万种被纳入 Materials Project 中,且被预测为是稳定的。这些数据包括材料原子的排列方式(晶体结构)和稳定性(形成能)。

图|化合物 Ba₆Nb₇O₂₁ 是 GNoME 计算出的新材料之一,包含钡(蓝色)、铌(白色)和氧(绿色)。

据论文描述,GNoME 已将结构稳定预测的精确性提高到 80% 以上,在预测成分时每 100 次试验的精确度提高到 33%(相比之下,此前工作中该数字仅为 1%)

Google DeepMind 材料发现团队负责人 Ekin Dogus Cubuk 表示:“我们希望 GNoME 项目能够推动无机晶体研究的发展。外部研究人员已经通过独立的物理实验验证了 GNoME 发现的 736 多种新材料,证明了我们模型的发现可以在实验室中实现。”

然而,研究团队在论文中也指出,在实际应用中,GNoME 仍存在一些开放性问题,其中包括由竞争多形体引发的相变、振动轮廓和构型熵引起的动态稳定性,以及对最终合成能力的更深入理解。

为了制造 Materials Project 预测的新化合物,A-Lab 的 AI 通过研究科学论文并使用主动学习进行调整,创造出了新的配方。

伯克利实验室和加州大学伯克利分校科学家、A-Lab 首席研究员 Gerd Ceder 说:“我们的成功率达到了惊人的 71%,而且我们已经找到了一些改进方法。我们已经证明,将理论和数据与自动化相结合,会产生令人难以置信的结果。我们可以比以往任何时候都更快地制造和测试材料。”

据介绍,对决策算法做一些小改动,这一成功率还可提高到 74%,如果计算技术得到改进,还能将成功率进一步提高到 78%。

Persson 说:“我们不仅要让我们产生的数据免费并可用于加速全球的材料设计,而且还要向世界传授计算机可以为人们做些什么。它们可以比单独的实验更高效、更快地扫描大范围的新化合物和属性。”

有了 A-Lab 和 GNoME 等的帮助,科学家可以专注于未来技术中有前景的材料,比如提高汽车燃油经济性的更轻合金、提高可再生能源效率的更高效太阳能电池,或者是下一代计算机中更快的晶体管。

已显示出应用潜力

目前,Materials Project 正在处理更多 Google DeepMind 的化合物,并将其添加到在线数据库中。这些新数据将免费提供给研究人员,且也会输入到诸如 A-Lab 这样与 Materials Project 合作的项目中。

过去十年中,研究人员根据 Materials Project 数据中的线索,在多个领域通过实验证实了新材料的有用性。其中一些已显示出应用潜力,例如:

  • 在碳捕获中(从大气中提取二氧化碳)
  • 作为光催化剂(在光的作用下加速化学反应的材料,可用于分解污染物或产生氢气)
  • 作为热电材料(有助于利用废热并将其转化为电能的材料)
  • 作为透明导体(可用于太阳能电池、触摸屏或 LED)

当然,找到这些潜在材料只是解决人类面临的一些重大技术挑战的众多步骤之一。

除了以上两项研究,近年来,AI 在新材料发现、合成方面,取得了诸多突破。

2020 年,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。

同年,来自北卡罗莱纳州立大学和布法罗大学的研究人员开发了一项名为“人工化学家”的技术,该技术结合了 AI 和执行化学反应的自动化系统,以加速研发和生产商业所需的新化学材料。

2022 年,美国加州大学圣地亚哥分校工程学院的纳米工程师开发了一种 AI 算法——M3GNet,该算法几乎可以即时地预测任何材料(无论是现有材料还是新材料)的结构和动态特性。研究人员可使用其来寻找更安全、能量密度更高的可充电锂离子电池电极和电解质。

今年 3 月,发表在 Nature Synthesis 上的一项研究设想了一种由组合合成和 AI 技术共同发展推动的加速材料科学的未来。为了评估合成技术对特定实验工作流的适用性,研究人员建立了一套涵盖合成速度、可扩展性、范围和合成质量的十项度量标准,并在这些度量标准的背景下总结了一些选择性的组合合成技术。

作为高新技术的基础和先导,新材料应用范围极其广泛,它同信息技术、生物技术一起成为 21 世纪最重要和最具发展潜力的领域。

未来,随着 AI 等技术的突破性发展,科学家将有望聚焦在未来技术中更具前景的材料上,如提高汽车燃油经济性的更轻的合金、促进可再生能源发展的更高效的太阳能电池,以及在下一代计算机中发挥作用的更快的晶体管等。

【民生计算机】ChatGPT一周年:AI盛宴才刚刚开始

1.1 ChatGPT发布一周年

2023年11月30日,ChatGPT上线一周年。ChatGPT 是互联网史上最快获得1亿用户的产品,OpenAI也是资本市场有史以来估值提升速度最快的企业之一。谁也无法否认,世界已经因为AI深刻改变。作为在ChatGPT发布后迅速提出其重要意义的团队,我们持续保持对AI产业投资趋势的敏锐预判与深度研究:(1) 在ChatGPT发布初期国内资本市场默默无名时,我们在2023年1月率先发布重磅深度《ChatGPT:AI时代资本定价标杆性事件》,率先提出ChatGPT本质是AI通用工程化拐点,因而资本市场的普遍感知与大规模商业化将会无比迅速。
2023年1月29日,年后开市前夕,我们在市场率先提出AI或是新年预期差最大的计算机投资主线。在年后几周AI大模型相关公司大幅领涨市场之后,我们又对AI成为计算机新主线做出明确预判:后续最大投资机会应该从提供类ChatGPT技术到使用ChatGPT带来业务逻辑质变重估的思路转变,重点提出金山办公、同花顺的重估逻辑。

我们先后提出AI三大产业投资逻辑,在市场得到持续验证。

第一,AI现阶段有望复制2010-2012年移动互联网基础设施供给侧(智能手机产业链)迈向 2013-2015年应用需求侧的路径,GPT的“AppStore”时刻已经来临,AI迎来从供给到需求的拐点;

第二,在本次AI浪潮中,首次由软件定义产业趋势,而我们正迎来软件生态快速落地的阶段,带来大模型重构终端硬件的拐点已经来临,AI PC、AI pin等AI驱动终端硬件创新层出不穷;

第三,算力永不眠,昇腾有望成为国产算力扛旗者,昇腾AI一体机作为国内AI软硬件技术的黄金交点,有望形成全新主线。

1.2 AI盛宴才刚刚开始:算力国产化、终端重构与多模态AI应用是新三大方向

近期重要的AI动向:第一,英伟达黄仁勋宣称AI可能在5年内超越人类智能;第二,由Llama创始团队全新打造的Mistral AI已经实现7B的参数规模大小,全面适配终端。

根据mistral.ai官网,在2023年9月27日,Mistral AI 团队发布Mistral 7B

Mistral 7B 是一个 7.3B 参数模型:

在所有基准测试中优于 Llama 2 13B

在许多基准测试中优于 Llama 1 34B

接近 CodeLlama 7B 的代码性能,同时在代码之外在英语任务上表现良好

使用分组查询注意力 (GQA) 加快推理速度

使用滑动窗口注意力 (SWA) 以更低的成本处理更长的序列

Mistral 7B 易于对任何任务进行微调。作为演示,Mistral AI 团队提供了一个针对聊天进行微调的模型,其性能优于 Llama 2 13B 聊天。

Mistral AI 团队将Mistral 7B 与 Llama 2 系列进行了比较,对于所有模型的所有指标,都使用Mistral AI 团队的评估流程进行了重新评估,以便进行准确比较。Mistral 7B 在所有指标上都明显优于 Llama 2 13B,与 Llama 34B 相当(由于 Llama 2 34B 未发布,Mistral AI 团队报告了 Llama 34B 的结果)。它在代码和推理基准方面也非常出色。

基准测试按其主题分类:常识推理:Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA、ARC-Easy、ARC-Challenge和CommonsenseQA的0-shot。世界知识:NaturalQuestions和TriviaQA的5-shot。阅读理解:BoolQ和QuAC的0-shot。数学:8-shot GSM8K with maj@8和4-shot MATH with maj@4代码:Humaneval的0-shot和3-shot MBPP热门汇总结果:5-shot MMLU,3-shot BBH以及3-5-shot AGI Eval(仅包含英语多项选择问题)

比较模型在成本/性能平面上的表现的一个有趣的指标是计算“等效模型大小”。在推理、理解和STEM推理(MMLU)方面,Mistral 7B的性能相当于Llama 2,其大小是其3倍以上。这意味着Mistral 7B在内存节省和吞吐量增加方面具有巨大的优势。
Mistral 7B和Llama 2(7B/13/70B)在MMLU、常识推理、世界知识和阅读理解方面的结果显示:Mistral 7B在所有评估中大部分都优于Llama 2 13B,只有在知识基准测试中表现相当(这可能是由于其有限的参数数量,限制了它可以压缩的知识量)。

AI Pin+Rewind Pendant等AI终端发布。
(1) AI Pin根据Humane公司官网,Humane 正式推出其首款 AI 硬件 —— AI-Pin,一款没有屏幕的 699 美元可穿戴智能通信设备,每月订阅费为 24 美元,运行在 T-Mobile 网络上,并可以访问微软和 OpenAI 的 AI 模型,并在 11 月 16 日优先在美国市场开启订购。

2)Rewind Pendant根据Rewind AI官网,Rewind Pendant是一款可穿戴设备,它可以捕捉使用者在现实世界中所说和所听到的内容,然后将其转录、加密,并完全存储在使用者的手机上。同时,Rewind Pendant将注重隐私优先,以确保没有人在未经他们同意的情况下被记录。

重大变革下,带来算力国产化与一体机、AI终端变革与AI应用三大新机会方向:

1. 基础算力国产化与一体机。当前昇腾一体机主要商业模式是软件厂商将通用或垂类大模型部署在昇腾一体机并结合自身业务打包出售,在英伟达禁令持续发酵的背景,稀缺性持续上升。昇腾一体机专注于大模型本地化部署的蓝海市场,是国内AI软硬件技术的黄金交点,以国产算力领军者华为昇腾AI基础软硬件平台为基础,联合国内领先AI厂商打造的先进生产力工具,有着数据安全可控、开箱即用的特点,AI大模型在数据安全与数据要素驱动下,带来央国企与政府大模型本地化部署的刚需。

表1:国内重点昇腾一体机发布时间轴

2. 从AI PC到AI pin的AI终端变革。本次由大模型带来的AI浪潮中,首次以软件先行定义一切基础。而在催生算力硬件等基础设施完善之后,开始逐步进入各个终端,各个终端开始重构和适应大模型放置在终端硬件上。

图14:联想AI PC应用方式 

3. AI应用:海外率先落地,国内有望复制规模商业化的大模型应用。海外在大模型成熟赋能下,已形成AI大模型-AI应用-商业模式落地的闭环。从GPTs发布不到一个月内,即超过Apple store上线一年的应用数量,正加速迈入应用井喷阶段;同时,多模态模型的不断进化打开文生视频等新领域;在国内大模型基本具备或接近GPT3.5的水平,海外成功落地的模式已为国内AI应用的发展明确后续的清晰路径。

海内外AI变革迹象不断,从芯片到终端再到AI应用,各大巨头及前沿科技团队纷纷加大投入,开启真正的“AI盛宴”。建议重点关注基础算力国产化与一体机、AI终端变革与AI应用带来的投资机遇:
1. 在英伟达新一轮的明确禁令后,芯片国产化是当前重中之重,同时结合数据隐私及大模型本地化部署的需求持续高涨,建议关注芯片基础算力国产化与一体机相关标的:华为昇腾一体机:科大讯飞、云从科技、软通动力、恒为科技、安恒信息;国产核心算力:寒武纪、浪潮信息、海光信息、超讯通信、汇纳科技
2. 从AI PC到AI pin的AI终端变革:大模型重构有望从AI PC开始共振,逐步延伸至汽车、手机与机器人等各类终端,或将迎来全面一轮的AI终端硬件创新潮,建议关注充分布局AI终端相关标的:中科创达、萤石网络、漫步者等。
3.海外在大模型持续赋能下,已明确其商业化规模落地的成功之路。国内在各大模型基本具备GPT3.5水平能力下,以及政策的持续推动,AI应用有望复制海外的成功路径,建议关注相关AI应用标的:效率办公-金山办公、AI司法-金桥信息、GPTs分发渠道-梦网科技、AI空间计算-超图软件、AIGC创作-万兴科技、超讯通信、教育-佳发教育、邮箱-彩讯股份、社交-掌阅科技等。

通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!

今天,通义千问再次重磅开源!

阿里云开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B 及 音频大模型Qwen-Audio,魔搭社区已首发上线!本次开源的模型中除预训练模型外,还同步推出了对应的对话模型,面向72B、1.8B对话模型提供了4bit/8bit 量化版模型,便于开发者们推理训练。

目前,魔搭社区提供一站式体验、下载、推理、微调、部署服务及教程,欢迎开发者小伙伴们体验!模型效果体验

通义千问团队对Qwen-72B的指令遵循、工具使用等技能作了技术优化,使Qwen-72B能够更好地被下游应用集成,比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制自己的AI助手,要求大模型扮演某个角色,或者执行特定的回复任务。

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo

通义千问音频大模型效果体验:

创空间体验链接:

https://modelscope.cn/studios/qwen/Qwen-Audio-Chat-Demo

通义千问1.8B模型效果体验:

创空间体验链接:

https://www.modelscope.cn/studios/qwen/Qwen-1_8B-Chat-Demo

模型链接:

通义千问-72B-预训练:

https://modelscope.cn/models/qwen/Qwen-72B

通义千问-72B-Chat:

https://modelscope.cn/models/qwen/Qwen-72B-Chat

通义千问-72B-Chat-Int8:https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int8

大模型下载

通义千问-72B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-72B-Chat-Int4

通义千问-1.8B-预训练:

https://modelscope.cn/models/qwen/Qwen-1_8B

通义千问-1.8B-Chat:

https://modelscope.cn/models/qwen/Qwen-1_8B-Chat

通义千问-1_8B-Chat-Int8:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int8

通义千问-1_8B-Chat-Int4:

https://www.modelscope.cn/models/qwen/Qwen-1_8B-Chat-Int4

通义千问-Audio-预训练:

https://modelscope.cn/models/qwen/Qwen-Audio

通义千问-Audio-Chat:

https://modelscope.cn/models/qwen/Qwen-Audio-Chat

模型下载(以通义千问-72B-Chat-Int4为例):

from modelscope import snapshot_downloadmodel_dir = snapshot_download("qwen/Qwen-72B-Chat-Int4")

模型推理 以通义千问-72B-Chat-Int4、通义千问-1_8B-Chat-Int4和通义千问-Audio-Chat为例:

通义千问-72B-Chat-Int4推理代码:

资源消耗:

微调代码开源地址:

https://github.com/modelscope/swift/tree/main/examples/pytorch/llm

微调环境准备

Qwen-72B-Chat-Int4为例:qlora+ddp+deepspeed

脚本地址:https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/qwen_72b_chat_int4/qlora_ddp_ds

AI模型,谁是盈利最强企业?

企业盈利能力是指企业获取利润的能力,通常表现为一定时期内企业收益数额的多少及其水平的高低。盈利能力的分析,就是对公司利润率的深层次分析。本文为企业价值系列之【盈利能力】篇,共选取48家AI模型企业作为研究样本,并以净资产收益率、毛利率、净利率等为评价指标。数据基于历史,不代表未来趋势;仅供静态分析,不构成投资建议。

AI模型盈利能力前十企业:第10 拓维信息盈利能力:净资产收益率-9.61%,毛利率32.40%,净利率-12.53%主营产品:软件云服务为最主要收入来源,收入占比49.29%,毛利率33.37%公司亮点:拓维信息基于软件能力及自研的AI中台优势,探索基于盘古大模型的AI行业应用创新,实现在AI领域“算力+模型+平台+应用”的整体布局。第9 中科创达盈利能力:净资产收益率13.64%,毛利率40.97%,净利率15.23%主营产品:软件开发为最主要收入来源,收入占比41.52%,毛利率43.15%公司亮点:中科创达魔方Rubik大模型,和既有的产品、业务都在密切融合,并已经在智能助理、边缘AI中得以应用。第8 东土科技盈利能力:净资产收益率-22.73%,毛利率34.89%,净利率-56.97%主营产品:工业网络通信为最主要收入来源,收入占比64.78%,毛利率36.16%公司亮点:东土科技间接参股企业一流科技,旗下拥有OneFlow深度学习框架、MLOps最佳实践OneBrain、AI实训平台Onelab、OF智能云四大产品。第7 捷顺科技盈利能力:净资产收益率5.14%,毛利率44.20%,净利率8.15%主营产品:智能停车场管理系统为最主要收入来源,收入占比47.30%,毛利率36.46%公司亮点:捷顺科技控股子公司顺易通与“盘古”大模型研发企业之一的循环智能达成战略合作,系盘古2.0首个应用。第6 浪潮信息盈利能力:净资产收益率12.84%,毛利率11.44%,净利率2.79%主营产品:服务器及部件为最主要收入来源,收入占比98.80%,毛利率11.30%公司亮点:浪潮信息发布的巨量模型“源1.0”的4个技能大模型,分别为对话、问答、翻译和古文,在各自的细分领域精度业界领先。第5 中文在线盈利能力:净资产收益率-5.32%,毛利率61.14%,净利率-4.10%主营产品:文化业务为最主要收入来源,收入占比98.76%,毛利率45.55%公司亮点:中文在线发布全球首个万字创作大模型“中文逍遥”。第4 万兴科技盈利能力:净资产收益率7.94%,毛利率95.27%,净利率7.98%主营产品:视频创意类为最主要收入来源,收入占比63.56%,毛利率95.29%公司亮点:万兴科技配置了AI服务器机房,部署了AI数据服务器和AI训练服务器,可充分应对AI算法下海量资源的训练及大数据处理。第3 神州数码盈利能力:净资产收益率11.02%,毛利率3.72%,净利率0.59%主营产品:消费电子业务为最主要收入来源,收入占比65.31%,毛利率2.16%公司亮点:基于数据+AI,神州数码推出Jarvis人工智能知识平台,以云原生技术、独特的数据算法和AI训练模型,轻松构建知识生产者和知识消费者间的桥梁。第2 恒生电子盈利能力:净资产收益率26.35%,毛利率74.55%,净利率25.67%主营产品:软件收入为最主要收入来源,收入占比99.19%,毛利率72.12%公司亮点:恒生电子发布金融行业大模型LightGPT, LightGPT使用超4000亿tokens的金融领域数据和超过400亿tokens的语种强化数据。第1 传音控股盈利能力:净资产收益率25.96%,毛利率22.79%,净利率6.77%主营产品:手机为最主要收入来源,收入占比91.25%,毛利率20.61%公司亮点:传音控股在研项目智慧云平台拟达到目标为提高三方服务快速接入和智慧分发能力,完成端侧AI相关的MLOps平台服务建设。

AI模型盈利能力前十企业,近三年净资产收益率、毛利率、净利率:

Meta AI 推出“无缝”翻译器,通用语音翻译器从科幻小说概念转变为现实

Meta AI 研究人员周四宣布,他们已经开发了一套名为“无缝通信”的新人工智能模型,旨在实现更自然、更真实的跨语言交流——从根本上使通用语音翻译的概念成为现实。这些模型于本周与研究论文和随附数据一起公开发布。

这款名为 Seamless 的旗舰模型将其他三个模型(SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2)的功能合并到一个统一的系统中。根据该研究论文,Seamless是“第一个公开可用的系统,可以实时解锁富有表现力的跨语言交流。

Seamless 如何作为通用实时翻译器


无缝翻译器代表了使用 AI 进行博客交流的新领域。它结合了三个复杂的神经网络模,可实现 100 多种口语和书面语言之间的实时翻译,同时保留说话者声音的声乐风格、情感和韵律。

SeamlessExpressive 专注于在语言之间翻译时保留说话者声音的声乐风格和情感细微差别。正如论文中所描述的,“翻译应该捕捉到人类表达的细微差别。虽然现有的翻译工具擅长捕捉对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来输出。

SeamlessStreaming 可实现近乎实时的翻译,延迟仅为约 2 秒。研究人员表示,这是“第一个大规模多语言模型”,可以在近100种口语和书面语言中提供如此快的翻译速度。

第三个模型 SeamlessM4T v2 是其他两个模型的基础。它是去年发布的原始SeamlessM4T型号的升级版。据该论文称,新架构提供了“改进的文本和语音输出之间的一致性”。

“总而言之,Seamless让我们看到了将通用语音翻译器从科幻小说概念转变为现实世界技术所需的技术基础,”研究人员写道。

改变全球通信的潜力

这些模型的功能可以实现新的基于语音的通信体验,从使用智能眼镜的实时多语言对话到自动配音的视频和播客。研究人员认为,它还可以帮助打破移民和其他沟通困难者的语言障碍。

“通过公开发布我们的工作,我们希望研究人员和开发人员能够通过构建旨在在日益相互联系和相互依存的世界中弥合多语言联系的技术来扩大我们贡献的影响,”该论文指出。


然而,研究人员承认,该技术也可能被滥用于语音网络钓鱼诈骗、深度伪和其他有害应用。为了促进模型的安全性和负责任的使用,他们实施了多项措施,包括音频水印和减少幻觉有毒输出的新技术。


Hugging Face上公开发布的模型

为了履行 Meta 对开放研究和合作的承诺,无缝通信模型已在 Hugging Face 和 Github 上公开发布。

该集合包括 Seamless、SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2 模型以及随附的元数据。

通过免费提供这些最先进的自然语言处理模型,Meta 希望使其他研究人员和开发人员能够建立和扩展这项工作,以帮助将不同语言和文化的人们联系起来。该版本突显了 Meta 在开源 AI 领域的领导地位,并为研究界提供了宝贵的新资源。

“总的来说,无缝可能产生的多维体验可能会导致机器辅助跨语言交流方式的逐步变化,”研究人员总结道。

AutoStory:与大模型一起编写童话故事,成为下一个故事大王

AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

小时候是否有很多奇思妙想,想通过绘画表现出来,但是又苦于自己的绘画功底太差,无法有效的表达?现在,通过AutoStory,可以帮你轻松的实现,让每个人都可以成为童话大王。

项目地址:https://aim-uofa.github.io/AutoStory/

论文地址:https://arxiv.org/pdf/2311.11243.pdf

Github地址:https://github.com/aim-uofa/AutoStory

摘要

故事可视化旨在生成与文本描述相匹配的一系列图像,需要生成的图像具有高质量、与文本描述对齐和角色身份的一致性。现有方法通过仅考虑少数特定角色和情境,或要求用户提供每个图像的控制条件(如草图)来大大简化问题。然而,这些简化使这些方法无法胜任实际应用。

本文介绍了一种自动化故事可视化系统,可以生成多样化、高质量、一致性强的故事图像,且需要最少的人工干预。该系统利用大型语言模型的理解和规划能力进行布局规划,然后利用大规模的文本到图像模型生成基于布局的复杂故事图像。作者发现,稀疏控制条件(如边界框)适合布局规划,而密集控制条件(如草图和关键点)适合生成高质量的图像内容。为了兼顾两者的优点,作者设计了一个密集条件生成模块,将简单的边界框布局转换为草图或关键点控制条件,从而提高图像质量并实现易于直观的用户交互。此外,作者还提出了一种简单而有效的方法来生成多视角一致的角色图像,消除了人工收集或绘制角色图像的依赖。实验结果表明,该方法具有优越性。

简介

本文提出了一种全自动、多样化、高质量的故事可视化方法AutoStory,用户只需输入简单的故事描述即可生成高质量的故事图像。同时,该方法还提供了灵活的用户界面,允许用户通过简单的交互来微调故事可视化的结果。该方法的应用前景广阔,可以为艺术创作、儿童教育和文化传承等领域提供丰富的视觉表达。

本文提出了一种全自动的故事可视化流程,可以在最小的用户输入要求下生成多样化、高质量和一致的故事。为了处理故事可视化中的复杂情境,我们利用稀疏控制信号进行布局生成,利用密集控制信号进行高质量图像生成。同时,我们提出了一种简单而有效的密集条件生成模块,将稀疏控制信号自动转换为草图或关键点控制条件。为了保持身份一致性并消除用户为角色绘制或收集图像数据的需求,我们提出了一种简单的方法,从文本中生成多视角一致的图像。此外,我们利用3D先验来提高生成的角色图像的多样性,同时保持身份一致性。这是第一个能够在多样化的角色、场景和风格中生成高质量故事图像的方法,即使用户只输入文本,也能灵活适应各种用户输入。

相关工作

故事可视化

故事可视化是从文本描述中生成一系列视觉一致的图像的任务。现有的方法大多基于GAN,但受限于模型的生成能力,很多方法都是在特定数据集上简化任务,难以泛化到不同的角色和场景。一些新方法采用了VQ-VAE和transformer-based语言模型,或者利用预训练的DALL-E进行改进。其中一些方法还提出了新的任务,如story continuation和autoregressive方法。

大规模预训练文本到图像生成模型的发展为可推广的故事可视化开辟了新的机会。已有多种尝试生成具有多样化角色的故事图像的方法,但存在一些限制。TaleCraft提出了一种系统化的故事可视化流程,但需要用户提供每个角色的草图。相比之下,我们的方法只需要文本描述作为输入即可生成多样化且连贯的故事可视化结果。

可控图像生成

大规模预训练的文本到图像模型可以通过交叉注意力层将文本信息传递到图像的潜在表示中,从而生成图像。稳定扩散是一种大规模预训练的文本到图像模型,可以通过文本提示生成图像。

T2I模型在生成多个角色和复杂场景方面表现不佳,因为受到文本编码器语言理解能力的限制和文本到图像内容关联性差的影响。为了解决这个问题,一些方法引入了显式的空间引导,例如ControlNet、T2I-Adapter和GLIGEN。这些方法通过引入可靠的控制和注入指导特征,使得模型能够更好地利用输入信息。

最近的研究使用大型语言模型(LLMs)进行布局生成,其中LayoutGPT和LLM-grounded Diffusion都取得了不错的效果。然而,LLM-grounded Diffusion需要仔细的超参数调整,而且难以控制生成对象的详细结构。相比之下,本文使用直观的草图或关键点来指导最终图像生成,可以实现高质量的故事图像生成,并允许通过调整生成的草图或关键点条件来进行交互式故事可视化。

自定义图像生成

现有方法在一次性定制化方面表现不佳,需要多个用户提供的图像。为了解决这个问题,提出了一种无需训练的一致性建模方法,并利用3D感知生成模型中的3D先验知识,获得多视角一致的角色图像,从而消除了依赖人工收集或绘制角色图像的需求。同时介绍了多种不同的定制化方法,包括单个对象的定制化、多个对象的定制化、多个定制化权重的融合等。

方法

本文介绍了一种生成多样化故事图像的方法,结合了LLMs和大规模文本到图像模型的能力。该方法包括条件准备阶段和条件图像生成阶段,通过LLMs将文本描述转换为故事图像的布局,使用简单而有效的方法将稀疏边界框转换为密集控制信号,生成具有合理场景布局的故事图像,并提出一种方法,使用户无需收集每个角色的训练数据即可生成一致的故事图像。该方法只需要在少量图像上微调预训练的文本到图像扩散模型,可以轻松地在任意角色、场景甚至风格上利用现有模型进行故事叙述。

从故事到布局的生成

故事预处理。用户输入的文本可以是一个书面的故事𝑆或故事的简单描述𝐷。当只提供一个简单的描述𝐷作为输入时,我们利用LLM来生成特定的故事线,即𝑆= LLM(𝐹𝐷2𝑆,𝐷),如图2 (c)所示。在这里,𝐹𝐷2𝑆是帮助语言模型生成故事的指令。在获得故事𝑆后,我们要求LLM将故事分割为𝐾面板,每个面板对应于一个讲故事的图像,如下所示:

其中𝐹𝑆2𝑃是指导模型从故事生成面板的指令,𝑃𝑖是𝑖- th面板的文本描述。至此,我们已经完成了故事的预处理。

布局生成。在将故事划分为面板描述之后,我们利用LLMs从每个面板描述中提取场景布局,如下面的等式所示:

其中𝐹𝑃2𝐿是指导模型从面板描述生成布局的指令。具体来说,我们在教学中提供了多个场景布局的例子,以通过上下文学习加强LLMs的理解和规划能力。在这个过程中,我们要求LLMs不要使用代词,如“他,她,他们,它”来指代字符,而是指定每个主题的名称。这样,字符引用的模糊性就大大减少了。

在等式(3)中,𝜎𝑖是𝑖-th面板的场景布局,其中global由一个全局提示𝑝𝑖和几个具有相应局部边界框的局部提示组成,即:

其中𝑘𝑖是𝑖-th story图像中的本地提示数。𝑝𝑖local𝑗和𝑏𝑖local𝑗分别是𝑖-th story图像中的𝑗-th本地提示符和边界框。全局提示描述了整个故事图像的全局上下文,而局部提示则专注于单个对象的细节。这种设计通过将故事图像生成的复杂性解耦为多个简单任务,帮助我们极大地提高了图像生成的质量。

密集条件生成

动机。尽管使用稀疏边界框作为控制信号可以改善主题的生成并获得更合理的场景布局,但不能始终产生高质量的生成结果。在某些情况下,图像与场景布局不完全匹配,或者生成的图像质量不高。

我们认为这主要是由于边界框提供的信息有限。模型面临着在指导有限的情况下一次性生成大量内容的困难。为此,本文建议通过引入密集的草图或关键点指导来改进最终的故事图像生成。基于上一节生成的布局,设计了一个密集条件生成模块,如图2(d)所示。

主题生成。为了在不引入人工干预的情况下,将布局的稀疏边界框表示转化为密集的草图控制条件,首先根据local prompts,逐个生成布局中的单个对象。由于单对象生成的提示很简单,生成过程相对容易。因此,我们能够获得高质量的单目标生成结果。

提取每个主题的密集条件。在获得单个物体的生成结果后,我们使用openvocabulary目标检测方法Grouning-DINO对本地提示描述的物体进行定位,并获得定位框𝑏𝑖𝑑𝑗𝑒𝑡。然后,我们使用SAM 获得对象的分割掩码𝑚𝑖𝑗,𝑏𝑖𝑑𝑗𝑒𝑡是SAM的提示。随后,在T2I-Adapter之后,我们使用PidiNet 来获得掩模的外部边缘,它可以用作可控图像生成的密集草图。对于人体角色,我们也可以使用HRNet来获得人体姿态关键点作为密集条件。值得注意的是,生成的密集控制信号易于理解和操纵。因此,如果需要,用户可以很容易地手动调整生成的草图或关键点,以更好地与他们的意图保持一致。

构成稠密条件。最后,将得到的单个物体的密集控制条件粘贴到布局中对应的边界框区域,从而得到整个图像的密集控制条件,记为𝐶𝑖。一个潜在的问题是,由LLM生成的定位框的大小𝑏𝑖𝑗与groundin – dino方法检测到的定位框的大小𝑏𝑖𝑑𝑗𝑒𝑡不完全相同。为了解决这个问题,我们将𝑏𝑖𝑑𝑗𝑒𝑡内的密集控制条件缩放到𝑏𝑖𝑗的大小,以保持场景的全局布局不变。这个过程可以写成:

请注意,组合密集条件的过程是全自动的,不需要任何人工交互。

可控讲故事图像生成

受限于模型中文编码器的语言理解能力,以及生成过程中文和图像区域之间不正确的关联,直接生成的图像往往会出现对象缺失、归属混淆等一系列问题。为解决这个问题,引入了额外的控制信号,以提高图像生成的质量。

稀疏布局控制。在上文中,我们使用LLMs来获得故事图像的整体布局。本文生成故事图像的详细内容,遵循场景布局的指导。我们选择使用简单有效的区域样本方法,我们强制每个框内的图像潜在特征聚焦于相应的局部目标。因此,生成的图像确认了布局,也避免了对象之间的属性混淆。

密度控制。为了进一步提高图像质量,我们引入了上文中生成的密集条件来指导图像生成过程。具体来说,我们使用轻量级的T2I-Adapter来注入密集的控制信号。条件生成过程可以表示为:

其中𝐶𝑖是𝑖-th故事图像的密集条件,𝐴是用于密集控制的T2I-Adapter模型。我们的密集条件是自动生成的,从而消除了手工绘制草图的繁琐过程。

身份保护。角色身份的保留对于获得视觉上愉悦的故事可视化效果起着重要的作用。我们通过借鉴Mix-of-Show的思想来实现这一点,给定一个受试者的几张图像,对每个受试者的轻量级ED-LoRA权重进行微调,以捕捉详细的受试者特征。然后,应用梯度融合为单个角色合并多个ed – lora,以保证故事中所有角色的身份。融合后的LoRA权重记为Δ𝑊,最终的生成过程为:

消除按字符收集的数据

字符数据的要求。为了训练一个故事中角色的定制模型,我们需要几个角色的图像来进行模型微调。现有的故事可视化方法依赖于用户捕获的图像甚至数据集来训练定制的角色模型。为了消除繁琐的数据收集和自动化故事可视化,提出一种简单有效的方法来自动生成所需的训练数据。为了获得有效的单个字符定制模型,训练数据需要满足:(1)身份一致性,训练图像中字符的结构和纹理应该是一致的;(2)多样性,训练数据应该有所不同,例如视角不同,以避免模型过拟合。

标识的一致性。本文提出一种无需训练的一致性建模方法,以满足身份一致性的要求,如图3 (d)所示。将单个字符的多个图像视为视频中的不同帧,并使用预训练的扩散模型同时生成它们。在此过程中,生成模型中的自注意力被扩展到其他“视频帧”来加强图像之间的依赖关系,从而获得身份一致的生成结果。具体来说,在自注意力机制中,我们让每一帧中的潜在特征关注第一帧和前一帧的特征,以建立依赖关系。这个过程表示为:

其中𝑧𝑖是当前帧的潜在特征,𝑧0和𝑧𝑖−1分别是第一帧和前一帧的潜在特征。这里,[·,·]是拼接操作。

多样性。虽然上述方法可以保证所获得图像的身份一致性,但对于训练自定义模型而言,多样性还不够。为此,在不同的帧中注入不同的条件来增强生成的字符图像的多样性。为了获得这些不同但身份一致的条件,我们首先通过𝐼𝑖𝑐𝑜𝑛𝑑= DM(𝑝𝑖𝑠𝑢𝑏)生成单个图像,其中𝑝𝑖𝑠𝑢𝑏是由LLM生成的字符的描述。然后,我们使用预训练的视点条件图像平移模型来获取不同视点下的字符图像,如图3 (a)所示。最后,我们提取这些图像的草图或关键点作为控制条件。

然后,从这些图像中提取非人类角色的草图和人类角色的关键点。最后,在生成过程中使用T2I-Adapter将控制引导注入到对应帧的潜在特征中。

此外,为了进一步保证生成数据的质量,我们使用CLIP score对生成数据进行筛选,选择与文本描述一致的图像作为训练数据进行定制生成。

讨论。我们将提出的免训练身份一致性建模方法与视点条件图像翻译模型相结合,以实现角色生成中的身份一致性和多样性。一种更简单的方法是直接使用视点条件图像平移模型中的多视点图像作为自定义训练数据。然而,我们发现,直接生成的结果往往会产生失真,或者从不同的视角来看,图像的颜色和纹理有很大的差异。因此,我们需要利用上述一致性建模方法为每个字符获取纹理和结构一致的图像。

实验

实现细节

使用了GPT-4作为LLM,Stable Diffusion进行文本到图像生成,T2I-Adapter进行密集控制。其中,只有多主题定制过程需要训练,其他部分都是无需训练的。多主题定制模型的训练需要20分钟的ED-LoRA训练和1小时的梯度融合。整个流程可以在几分钟内生成大量结果。

结果

AutoStory可以根据用户输入的文本和图像生成高质量、一致性强的故事图像。该方法可以根据用户输入的文本和图像生成灵活多样的角色姿势和场景,同时还能有效地生成故事中提到的小物品。即使只有文本输入,该方法仍然可以生成高质量的故事可视化结果,而且角色身份高度一致。

与现有方法比较

比较方法。现有的故事可视化方法大多是针对数据集上的特定角色、场景和风格而设计的,无法应用于一般的故事可视化。为此,我们在这里主要比较可以归纳的方法,包括:TaleCraft、Custom Diffusion、paint-by-example、Make-A-Story。

质量比较。为了与现有的故事可视化方法进行正面对比,我们采用TaleCraft和Make-A-Story中的故事,如图5和图6所示。如图5所示,paint-by-example努力保持角色的身份。生成的图像中的女孩与用户提供的女孩图像有很大的不同。尽管Custom Diffusion在身份保持方面的表现稍好,但它有时会生成具有明显伪影的图像,例如第二张和第三张图像中扭曲的猫。TaleCraft取得了更好的图像质量,但仍然存在某些伪影,例如,第三张图像中的猫是扭曲的,第四张图像中女孩的一条腿缺失。AutoStory能够在身份保持、文本对齐和生成质量方面实现优越的性能。

同样,在图6中可以看到,Make-A-Story生成的故事图像质量较低,这主要是因为它是为FlintstonesSV数据集量身定制的,因此内在地受到生成能力的限制。TaleCraft在生成质量方面有显著提高,但与文本的对齐程度有限,例如,第一张图像中丢失的手提箱。由于LLM强大的文本理解和布局规划能力,所提出方法能够得到文本对齐的结果。有趣的是,我们的AutoStory和TaleCraft在图像风格上存在显著差异。我们假设这主要是由用于训练的字符数据的差异引起的。

定量比较。我们考虑两个指标来评估生成的结果:1、文本到图像的相似性,由文本和图像嵌入在CLIP特征空间中的余弦相似性度量;2、图像到图像的相似性,由用于训练的字符图像的平均嵌入与生成的故事图像在CLIP图像空间中的嵌入之间的余弦相似性度量。结果如表1所示。AutoStory在文本到图像的相似性和图像到图像的相似性方面都明显优于现有方法,证明了所提出方法的优越性。

用户研究。对10个故事进行了用户研究,每个故事平均有7个提示。在研究过程中,32名参与者被要求从三个维度对故事可视化结果进行评价:1、文本和图像之间的对齐;2、图像中人物的身份保持;3、生成图像的质量。我们让用户给每组故事图片打分。每种方法的结果如表2所示。可以看出,AutoStory在所有三个指标上都明显优于竞争方法,这表明所提出方法更受用户的青睐。

消融分析

控制信号。实验结果表明,没有控制条件时,模型会生成缺失对象和混合不同对象属性的图像。添加布局控制可以显著减轻概念冲突,但仍存在缺失主体的问题。只添加密集控制条件可以有效地生成所有提到的实体,但角色之间的概念冲突仍然存在。最后,结合布局和密集条件控制可以避免对象遗漏和角色之间的概念冲突,生成高质量的故事图像。

多视角角色生成中的设计问题。通过对比基准方法,发现纯sd无法获得一致性的图像,而temporal-sd可以保持一致性但缺乏多样性,One-2-3-45虽然具有多样性但存在一些缺陷。而我们的方法能够在保持一致性的同时增强多样性,并且通过稳定扩散的图像先验来减轻One-2-3-45生成的图像的缺陷。

总结

AutoStory的主要目标是通过最小的人力投入来创建满足特定用户需求的多样化故事可视化。通过结合LLMs和扩散模型的能力,我们成功获得了文本对齐、身份一致和高质量的故事图像。此外,通过我们精心设计的故事可视化流程和提出的角色数据生成模块,我们的方法简化了生成过程,减轻了用户的负担,有效消除了用户进行繁重数据收集的需求。充分的实验证明,我们的方法在生成故事的质量和保留主题特征方面优于现有方法。此外,我们的优秀结果是在不需要耗时和计算昂贵的大规模训练的情况下实现的,易于推广到不同的角色、场景和风格。在未来的工作中,我们计划加快多概念定制过程,并使我们的AutoStory实时运行。

大模型AI Agent 前沿调研

前言

大模型技术百花齐放,越来越多,同时大模型的落地也在紧锣密鼓的进行着,其中Agent智能体这个概念可谓是火的一滩糊涂。

今天就分享一些Agent相关的前沿研究(仅限基于大模型的AI Agent研究),包括一些论文或者框架,小伙伴可以根据自己的兴趣有选择的看一下~,其中角色扮演也可以看作Agent的一个较为火热的方向(具体的Agent就是一个具体角色),最后在文末从技术的角度整体总结一下agent的核心。

先给两个综述,大家可直接阅读,然后笔者挑一些有意思的总结一下。

温馨提示:全文较长,建议收藏,慢慢啃~

综述

A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

这是一篇关于agents的综述

Autonomous-Agent

github链接:https://github.com/lafmdp/Awesome-Papers-Autonomous-Agent

该git也在不断的收藏一些关于agent的前沿研究。

一些代表性的研究

(1) A Survey on Large Language Model based Autonomous Agents

论文链接:https://arxiv.org/pdf/2308.11432.pdf

本文为基于大模型agent的构建设计了一个统一框架并给出了三种学习策略。

具体的该框架由4个模块构成(如上图):配置模块、记忆模块、规划模块和执行模块。配置模块有3种方法来生成配置文件:手工制作法、LLM生成方法、数据集对齐方法;记忆模块分为3个方面:结构、格式和操作;记忆结构包括两种:统一内存(该结构没有短期和长期记忆的区别)和混合内存(有短期和长期记忆的区别);规划模块包括没有反馈的规划和带反馈的规划;动作模块即是最终真真响应的模块。

三种学习策略分别为从例子、人类反馈和环境反馈中学习。

本篇paper很好的抽象规划了整个框架,尤其是4个模块的设计,可以借鉴一下。

(2)Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

论文链接:https://arxiv.org/pdf/2305.10142.pdf

论文中的两个agent分别模拟买卖双方进行一场交易,具体就是利用两个agent来彼此不断互相对话、不断博弈,买方最终目的就是要以尽可能低的价格达成交易,而卖房则相反。其中核心技术看点就是在对话中使用一个中间agent利用cot进行反馈,告诉当前agent如何更好的回复才对自己最有利。

(3)Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

论文地址:https://arxiv.org/pdf/2309.04658.pdf

该篇论文尝试了同时启用很多的agent来互相配合完成一个更复杂的任务,具体的是使用了7个agent来完成一个狼人杀游戏,每个agent都要牢记自己的角色扮演规则。其中核心技术看点就是每个agnet都会提前定义好自己的角色定位,该规则和描述的prompt都是非常详细和具体的,同时更关键的是这些agent之间的复杂交互也即调用逻辑,其中下面就是agent角色的定义:

(4) METAGPT: META PROGRAMMING FOR A MULTI-AGENT COLLABORATIVE RAMEWORK

论文链接:https://arxiv.org/pdf/2308.00352.pdf

github: https://github.com/geekan/MetaGPT

metagpt实现了一个多agent的框架,方便大家迅速落地自己的场景,目前github stars已经3w+,官方demo演示了如何自动开发一个代码需求,比如来了一个需求后,它的agent包括产品经理先分析需求,然后开发工程师开发,最后还有code review等等。同时也使用该框架实现了狼人杀。

metagpt核心技术看点就是封装好了很多agent的基础能力比如包括交互通信等等。

(5) CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society

论文链接:https://arxiv.org/pdf/2303.17760.pdf

github: https://github.com/camel-ai/camel

camel提出的也是一种基于角色扮演来模拟多个agent交互的框架。具体的,camel重点研究任务导向的agent,其中一个是AI助手agent,另外一个是AI用户agent。

当camel收到一个具体需求和角色分配后,任务agent先提供详细描述以使这个需求更具体化,然后AI助手agent和AI用户agent会通过多轮对话一起合作来完成指定的任务。其中AI用户agent负责向AI助手agent提供指示并引导对话朝向任务完成方向进行,AI助手agent则理解AI用户agent的指示并提供具体的解决方案。

这里贴一下它的核心的agent prompt

论文中对prompt的每一条为啥要这样写都给出了理由,比如AI助手agent的prompt中有一条是“Always end your solution with: Next request”,这个是和AI用户agent要新一轮的指令,这样可以确保对话自动聊下去,这才是是非常关键的一点!!!是整个机制能自动run起来的关键。

另外作者为了自动获得对话数据,还借助大模型自动生成各种各样“AI助手agent&AI用户agent” 角色pair对,然后再为各个角色pair对生成多个相关话题,有了这些后就可以借助上面的机制进行多轮聊天。

这篇很好的实现完全自动化,无限挖掘;其中起了关键作用的就是上面这些prompt怎么写,论文都给出来了,大家感兴趣的可以去看原论文。

(6) AgentTuning: Enabling Generalized Agent Abilities for LLMs

论文地址:https://arxiv.org/abs/2310.12823

github链接:https://github.com/THUDM/AgentTuning

文中构建了一个包含高质量交互轨迹的微调数据集AgentInstruct,并且将其和通用能力的sft数据混合训练得到AgentLM。

其最大的亮点就是AgentInstruct数据集的构建,其主要依托的数据是来自AgentBench,其包含了6个来自真实世界的智能体任务。在构建好了基本的输入指令后,便以GPT-4作为智能体生成AgentInstruct。

(7) CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS

论文链接: https://arxiv.org/pdf/2311.06772.pdf

github链接: https://chatanything.github.io

本篇论文比较脑洞大,他是给定一张图片比如西瓜,然后会自动生成一个西瓜人agent回你对话。它主要涉及到三块,生成图像、tts以及人物性格生成;其中前两个分别是图像和语音技术这里我们不展开说了,感兴趣的小伙伴可以自己去读一下;人物性格生成这个主要也是借助LLM去自动生成贴切的性格,文章也给出了最核心的prompt:

(8) ROLELLM: BENCHMARKING, ELICITING, AND ENHANCING ROLE-PLAYING ABILITIES OF LARGE LANGUAGE MODELS

论文链接:https://arxiv.org/pdf/2310.00746.pdf

本文构建实现了一套角色扮演的方案,比如扮演孙悟空、哈利波特等等,每个角色都会有自己的说话风格并且都会有自己对应的角色背景,比如孙悟空自己的师傅是唐僧等等,在遇到有关唐僧的问题的时候,要注意结合师徒这个背景来回答。

文章主要的idea就是借助剧本来检索增强回复,同时作者基于llama训练了一个英文角色模型,基于glm训练了一个中文角色模型。

(9) Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots

论文链接:https://arxiv.org/pdf/2310.17976.pdf

本文重点关注角色扮演agent领域,具体是研究如何评估大模型的角色扮演效果

论文中的方法是基于大五人格、MBTI等心理学的人格相关理论,对角色扮演AI进行了人格测试。具体的是提出了一套为角色扮演AI设计的面谈式人格测试框架,基于人格测试量表与角色扮演AI展开开放式问答来进行评估。

(10) AutoGPT、XAgent、LangChain

AutoGPT : https://news.agpt.co

XAgent: https://github.com/OpenBMB/XAgent

LangChain: https://www.langchain.com

类似Metagpt, AutoGPT、XAgent、LangChain都是一些基于大模型开源的agent框架,其中LangChain更是在业界大名鼎鼎。

总结

Agent概念很大,这里如果我们纯从技术角度来看的话(且是依靠大模型的AI Agent),它的核心壁垒在哪里呢?或者说其最值钱的那部分技术是啥呢?

笔者将其归纳为如下两个核心:

  • 拆分问题 & 调用逻辑

需要构思好怎么将当前的任务进行更好的拆分成一个个子任务,以确保这些子任务足够简单、完成的准确率足够高;当这些子任务都确保能被很好的完成,那么最终的任务就能很好的完成了。

所以拆分问题很关键,拆分的粒度如果太粗,子任务难度系数就高,就很容易失败;拆分的粒度如果太西,调用逻辑就很繁琐,整个链路就会很臃肿,所以对需求和业务的理解越深刻,拆解才会越相对合理。

同时拆分的是否合理还会影响另外一个关键问题:后期自研模型的开发。当我们想利用大模型开发Agent的时候,一般来说会先去使用GPT4去试一试(毕竟其目前是大模型的天花板),如果它都完成的不好,那要么自己当前Agent的设计框架需要进一步完善,要么就是这个事目前大模型还真的是很难完成。当GPT4完成的还不错后,出于安全和成本等考虑我们必定是想走自研模型这条路的,做到自主可控,那么我们就可以前期使用GPT4去积累数据,然后用这部分数据去蒸馏训练出自己的大模型。

那么如果你的任务拆分的粒度太细,假设有100个子任务(这里指要最终调用大模型能力),那么如何将这100个任务同时进行大模型训练,平衡住所有任务的能力,这是很难的(每个子任务训练一个大模型也太不现实了),当然如果拆分的粒度太粗,单个子任务本身就很难,那单训练好这个子任务可能都是问题,就更别提要融合所有子任务了;

  • prompt engineering

当我们把当前这个Agent需要完成的任务多步拆解后以及理顺子任务之间的联动调用链路后,那么完成这些子任务就需要调用大模型了(当然有时候是调用一些其他插件比如计算器、搜索引擎等等;即使是调用插件其实上一步也一般是需要调用大模型来分析出要调用哪个插件以及插件需要的参数)。

既然是调用大模型,那么如何写好prompt让大模型完全get到你的需求,这是非常关键的,如果没写好prompt,那么子任务就失败了,整个链路就run不起来。

这块工作也是最繁琐和最需要经验的,要不断的去试进而润色出一个很棒的prompt。甚至笔者觉得在某些场景下,当你要做一个agent项目时,prompt engineering是你第一步要去做的事情,先去试着写几个prompt看看大模型能完成的怎么样?自己感受感受摸个底,这样也才可以有更多灵感看看怎么将任务进行更好的拆解,通过多步调用大模型(也即上面说的第一个核心点)来合作完成。

关注

知乎:https://www.zhihu.com/people/sa-tuo-de-yisheng/postsgithub:
https://github.com/Mryangkaitongcsdn:https://blog.csdn.net/weixin_42001089?spm=1010.2135.3001.5343

来自:算法之美

英伟达黄仁勋:AI将在5年内赶超人类

英伟达首席执行官黄仁勋周三在《纽约时报》的年度 DealBook 峰会上表示,人工智能正在超越人类。

他指出,如果通用人工智能(AGI)被定义为一种计算机,能够以与人类智能相媲美的方式完成测试,那么“在接下来的五年里,显然,人工智能可以完成这些测试”。

黄仁勋回忆了他向 OpenAI 交付“世界上第一台人工智能超级计算机”的情景。当时,作为 OpenAI 联合创始人的埃隆・马斯克(ElonMusk)尚未离开,他在一次会议上听到了黄仁勋对这台设备的介绍。

黄仁勋回忆称:“马斯克听到了我的介绍,他说,‘我也想要一个’,并告诉了我关于 OpenAI 的情况。当天,我向 OpenAI 交付了世界上第一台人工智能超级计算机。”

谈到最近围绕 OpenAI 的董事会重组以及首席执行官萨姆・阿尔特曼(SamAltman)先被解雇、随后又复职的混乱局面,黄仁勋表示,他希望事情能尽快平静下来。

黄仁勋说:“我很高兴他们达成了一致,我也希望他们达成一致,这是一支非常伟大的团队。这也让人想起公司治理的重要性。英伟达在成立 30 年后走到今天,我们经历了很多逆境。如果我们没有正确地建立公司,谁知道会发生什么。”

黄仁勋预测,人工智能领域的竞争将导致现成的人工智能工具大量出现,不同行业的公司将根据自己的需求进行调整,从芯片设计和软件开发到药物发现和放射学等。

首个AI智慧交通信号灯在新区试运行

近日,全国首个AI智慧交通信号灯集群控制系统在兰州新区投入试运行。

该系统充分利用人工智能、视觉识别、边缘计算等先进技术手段,根据城市整体交通状况自动调节红绿灯,实现多路口交通信号灯的动态调度,有效解决城市交通拥堵难题,提升城市交通通行效率。智慧交通信号灯集群系统对四个路口的实际交通情况进行态势感知预测,对交通信号灯进行智慧指挥、动态调整,车辆通行效率高,高峰时段拥堵现象明显减少。

据介绍,这一系统主要由智能AI摄像头、毫米波雷达、具有人工智能算法的工控机以及道路态势感知调度系统等构成,无需更换现有交通设备,具有低成本优势,可以快捷的安装在路口,不需要对道路动大手术。

根据现有评估部署智慧交通灯集群系统后,区域内车辆平均通行效率能比传统多时段定时控制模式提升10%至40%,有效提升城市交通运行效率的同时,还降低了碳排放。

丝绸之路信息港公司技术专家 武强:我们首先架设了路口的摄像头或者雷达的设备,作为我们这个整个智能交通系统的“眼睛”来看懂交通的路况。在路口又布设了相应的服务器或者相应的这个算法设备,能够随着交通流量的变化而进行智能的变化(调整)。通行效率会大大的提升,减少我们交通的拥堵。

目前,该系统使用的核心算法已获得国际权威人工智能学术会议认可,试点测试完成后有望实现量产。

欧洲自然科学院院士 兰州交通大学教授 马昌喜:该控制系统在兰州新区进行了运行测试,车辆识别精度达到了99.15%,路口交通通行效率平均提高了33.98%。

丝绸之路信息港公司技术专家 武强:该控制系统落地应用于实际路口,属于国内鲜有,技术具有一定的领先性,应用前景非常广阔。下一步,我们将在兰州市区、庆阳主城区扩展部署,在保证行人安全通行的前提下,显著提升车辆的通行效率,降低城市尾气和碳排放,打造智慧甘肃交通新名片。

 市民也对AI智慧交通信号灯赞不绝口, 压车现象减少了,市民出行更加通畅了,通行效率大大提升了。

Ai新星郭文景从天才少女到Ai视频巨头的跨越

8年前,郭文景的哈佛大学录取消息在杭州掀起了轰动。这位杭二中的天才女生成为浙江省第一个被哈佛本科提前录取的学生,她以编程能力和流利英语令面试官赞叹不已。然而,8年后的今天,郭文景再次引爆社交媒体,这次作为人工智能视频公司Pika Labs的创始人。

Pika Labs是一家成立仅6个月、总融资额达5500万美元、估值达到2亿美元的初创公司。他们开发了一款名为Pika 1.0的AI视频生成工具,可以轻松生成和编辑3D动画、动漫、卡通和电影等各种类型的视频。这项创新技术迅速在硅谷引起轰动,吸引了大量投资者的追捧。

Pika 1.0不仅可以根据已有素材扩展视频,生成不同高宽比的内容,还可以实时精确编辑视频内容。你只需简单地用鼠标框选、输入关键词,就能在视频中添加所需的素材,例如给视频中的狒狒带上一个帅气的太阳镜。此外,你还可以通过框选人物范围并输入文字实现换装效果。根据用户提供的视频素材和提示词,Pika 1.0能够制作出各种不同风格的动画,涵盖了现有电影和动画的大部分风格。

郭文景和她的合作伙伴Chenlin Meng都是斯坦福大学AI Lab的博士生。他们在创办Pika之前,曾参加Runway的AI电影节,但并未获得奖项。之后,她们退学,创立了Pika,致力于开发出简洁易用且逼真的视频效果。如今,Pika已拥有50万用户,每周制作数百万个视频,这种惊人的增长引起了硅谷投资人的广泛关注。

Pika Labs的A轮融资达到了5500万美元,并吸引了一系列知名投资人的参与,包括Github的前CEO纳特·弗里德曼、OpenAI创始成员安德烈·卡帕西、Quora创始人Adam D’Angelo等。

郭文景从小就展现出非凡的才能和学术成就。在高中期间,她获得了众多荣誉,如全国青少年信息学奥林匹克联赛(浙江省赛区)一等奖、北美编程邀请赛第二名等。她还连续两年夺得中国和美国数学竞赛冠军,并在美国数学奥林匹克夏令营中获得最高分。除了学术,郭文景也积极参与各种活动,例如学帆船、学滑雪、学救生员以及参加辩论社和全英文的辩论赛等。她的多才多艺和追求卓越的精神,为她赢得了广泛赞誉。