苹果惊天一跃!放弃汽车梦,全力押注AI与Vision Pro,掀起科技圈新革命!

在科技圈,每一次变革都伴随着惊喜与意外。这不,就在周二,苹果突然宣布暂停了其备受瞩目的汽车项目,让人大跌眼镜!不过,别急着叹息,苹果这次可是要全力押注AI和Vision Pro,准备掀起一场科技圈的新革命!


说起来,苹果的汽车梦可谓是一波三折。想当年,苹果雄心勃勃地计划推出一款颠覆性的自动驾驶汽车,让所有人都为之侧目。可现实往往是残酷的,技术瓶颈、市场竞争,这些难题像一座座大山,挡在了苹果汽车梦的前面。

别小看自动驾驶汽车技术,这可是个烧钱的巨坑。不仅要有巨额的资金投入,还得有顶尖的技术人才。更别提,这领域里早已是强手如云,传统汽车制造商、新兴科技公司,大家都想分一杯羹。

苹果要想在这个领域里脱颖而出,难度可不是一般的大。而且,汽车市场也在悄然变化。电动汽车的崛起、共享出行模式的普及,这些都在改变着传统汽车市场的格局。苹果作为后来者,想要在这个变革中找准自己的位置,可不是那么容易的事。

不过,苹果可不是那种轻易放弃的公司。面对汽车项目的挑战,他们选择了转向AI和Vision Pro业务。这一转变,不仅展现了苹果对市场趋势的敏锐洞察,更显示了他们在技术创新上的决心和勇气。

AI,这可是当今科技圈最热门的话题。智能家居、医疗健康、金融服务,哪个领域都离不开它。苹果作为全球科技巨头,自然不会放过这个发展机遇。加大在AI领域的投入,不仅能让苹果在未来的科技竞争中占据更有利的位置,还能为消费者带来更多创新的产品和服务。

而Vision Pro,作为苹果近年来推出的一款重要产品,同样展现出了巨大的市场潜力。随着人们对智能家居和智能办公需求的不断增加,一款集成多种功能的智能设备,无疑能满足用户的多样化需求。苹果通过专注于Vision Pro的研发和推广,有望将其打造成为一款现象级的产品。

苹果的这一转变,无疑给整个硅谷带来了不小的震动。作为科技圈的领头羊之一,苹果的每一次动作都牵动着整个行业的神经。

如今,随着苹果将重心转向AI和Vision Pro业务,其他科技公司也不得不重新审视自己的发展战略和市场布局。对于其他科技公司来说,苹果的转变既是一个挑战也是一个机遇。他们需要密切关注苹果在AI和Vision Pro领域的动向,以便及时调整自己的战略和产品布局。同时,他们也可以从苹果的转变中汲取经验和教训,为自己的发展找到新的方向和动力。

苹果的这一转变,无疑为其未来的发展带来了新的挑战和机遇。在AI和Vision Pro领域,苹果能否延续其创新的基因并再创辉煌?这无疑是所有果粉和科技爱好者们最为关心的问题。

从目前的情况来看,苹果在AI和Vision Pro领域已经具备了一定的技术储备和市场基础。未来,只要苹果能够持续加大在这些领域的投入和研发力度,不断推出具有创新性和竞争力的产品,相信它一定能够在这些领域取得更加辉煌的成绩。总之,苹果的这一转变是一场科技圈的“地震”。

它不仅改变了苹果自身的发展方向和市场布局,也对整个科技行业产生了深远的影响。在未来的日子里,让我们拭目以待,看苹果能否在AI和Vision Pro领域再创辉煌!

AI芯片又一跨国合作达成!

当地时间2月27日,加拿大AI芯片初创公司Tenstorrent宣布与日本尖端半导体技术中心(LSTC)达成多层次合作协议,双方将合作设计先进人工智能(AI)芯片。

值得一提的是,Tenstorrent将与日本半导体公司Rapidus合作开发最先进的逻辑半导体技术,其目标是实现世界上最好的周期时间缩短服务。Tenstorrent还将利用其Ascalon RISC-V CPU内核技术,为LSTC的新型边缘AI加速器共同开发RISC-V架构CPU芯片。

近年随着ChatGPT、Sora等大规模生成式AI应用爆发,云计算、AI服务器等市场对AI芯片需求大幅增长,业界对AI芯片的关注度持续上升。

在AI市场大热之下,除了企业相互合作加强研发外,近期业界消息还显示,AI芯片产能稀缺,AI所需的重要内存技术HBM售罄,高端AI服务器需求量上升…

AI芯片产能稀缺

AI芯片需求暴涨,其产能也引发业界关注。此前2月初,据媒体报道,英伟达与英特尔达成了代工合作意向,持续每月生产5000块晶圆。如果全部用于生产H100芯片,在理想情况下最多可以得到30万颗芯片。

2月下旬,英特尔向业界首推面向AI时代的系统级代工——英特尔代工(Intel Foundry),并拓展其路线图,以在接下来的几年内确立并巩固制程技术领先性。

对此晶圆代工龙头台积电创办人张忠谋在日本熊本厂JASM开幕仪式上表示,半导体产业未来一定会有更多需求,最近AI人士告诉他需要的不只是几万、几十万和几千万片产能,而是3间、5间甚至10间晶圆厂。

不过张忠谋认为,AI带给半导体产业的需求,在某种程度上取一个中间值,即从成千上万片产能到10间晶圆厂中间找寻到答案。

针对AI芯片供不应求的现象,富士康母公司鸿海精密董事长刘扬伟表示,鸿海今年AI服务器业务相当好,但目前整体AI服务器产业仍面临AI芯片大缺货的状况,即便下半年AI芯片供应舒缓一些,还是赶不上需求,必须等到上游新厂产能开出,才有办法解决产业链缺料问题。

HBM售罄

随着AI爆热,市场对高带宽内存(HBM)需求旺盛,存储大厂们瞄准HBM,积极扩产布局。其中,三星计划在今年第四季度之前,将HBM的最高产量提高到每月15万至17万件,该公司斥资105亿韩元收购了三星显示位于韩国天安市的工厂和设备,以扩大HBM产能,同时还计划投资7000亿至1万亿韩元新建封装线。

SK海力士和美光科技纷纷表示HBM订单约满。SK海力士副社长Kim Ki-tae表示,今年公司的HBM已经售罄,已开始为2025年做准备;美光科技CEO Sanjay Mehrotra透露,美光2024年的HBM产能预计已全部售罄。

高端AI服务器需求量将逾六成

据TrendForce集邦咨询最新预估,以2024年全球主要云端服务业者(CSP)对高端AI 服务器(包含搭载NVIDIA(英伟达)、AMD或其他高端ASIC芯片等)需求量观察,预估美系四大CSP业者包括Microsoft、Google、AWS、Meta各家占全球需求比重分别达20.2%、16.6%、16%及10.8%,合计将超过6成,居于全球领先位置。其中,又以搭载英伟达 GPU的AI服务器机种占大宗。

TrendForce集邦咨询指出,近期英伟达整体营收来源以数据中心业务为关键,主因其GPU服务器占整体AI市场比重高达6~7成,只是后续仍须留意三大状况,可能使英伟达发展受限。

TrendForce集邦咨询认为,其一,受国际形势变化影响,中国将更致力于AI芯片自主化。而英伟达推出的H20等中国特规方案,性价比可能不及既有的H100或H800等,中国客户采用度可能较先前保守,进一步影响英伟达市占率。

其二,在具规模及成本考量下,美系大型CSP业者除Google、AWS外,Microsoft、Meta等亦有逐年扩大采自研ASIC趋势。

其三,来自AMD的同业竞争,AMD采高性价比策略,对标英伟达同级品,AMD提供仅60~70%价格,甚至代表性或具规模客户能以更低价策略方式抢进市场,预期2024年尤以Microsoft为最积极采纳AMD高端GPU MI300方案业者。

黄仁勋:以后不需要学习编程,交给AI就行了

这并不是技术高管第一次预测编程的消亡。

最近在迪拜举行的世界政府峰会上,英伟达首席执行官黄仁勋提出了违反直觉的做法,他认为这是科技公司首席执行官建议年轻人学习编程的悠久传统。黄认为,即使在人工智能(AI)革命的早期阶段,编程也不再是一项重要技能。Nvidia 负责人表示,通过人工智能处理编码,人类可以专注于更有价值的专业知识,如生物学、教育、制造或农业。

在上面的推文可以看到。在黄仁勋在社交媒体上分享的长达一分钟的演讲片段中,这位英伟达首席执行官表示,10-15年来,几乎每个坐在科技论坛舞台上的人都会坚持认为,年轻人学习计算机科学“至关重要” ,学习如何对计算机进行编程。“事实上,情况几乎完全相反,”黄有反直觉的感觉。

“我们的工作是创造计算技术,让任何人都不必编程。编程语言是人类的,”黄仁勋告诉峰会与会者。“现在世界上的每个人都是程序员。这就是人工智能的奇迹。”

在发表了违反直觉的宏大声明后,这位英伟达首席执行官推测,人们可以学习技能,成为更有用领域的专家。生物学、教育、制造、农业等领域的专家可以节省学习计算机编程的时间,以实现更富有成效的追求。因此,人们唯一需要的语言就是他们出生和长大的语言,并且已经是他们的专家。

然而,人们仍然需要知道如何以及何时应用人工智能编程。因此,黄在简短剪辑的结尾断言:“提高每个人的技能至关重要,我相信提升技能的过程将是令人愉快的、令人惊讶的。” 

随着上述视频在社交媒体上广泛传播,科技行业分析师Patrick Moorhead激动地发表了评论。这位顶级分析师向他的 Twitter / X 关注者指出,“30 多年来,我一直听说‘XYZ 将杀死编程’,但我们仍然没有足够的程序员。” 穆尔黑德列出了几种编程语言和工具,他说这些语言和工具应该消除编码——但显然没有。

Moorhead 也将其与计算机 DTP 革命进行了比较。他表示,人工智能不会消灭编码,而是将其交到更多人手中。“就像桌面出版并没有扼杀‘创造力’,它只是扩展了它。” 虽然我同意 DTP 和其他数字艺术工具并没有扼杀创造力,但我不记得有人建议从手术刀、喷雾安装和纸片转向 DTP 实际上会阻碍创造力。

AI对就业市场的影响

只有时间才能证明未来几个月和几年内出现的人工智能应用浪潮的实际影响。然而, Bloomberry最近发表了一份关于ChatGPT推出以来可用的自由职业量的研究。这项研究表明,写作和翻译自由职业者受到人工智能竞争对手的打击最严重。与此同时,数据显示,自 ChatGPT 推出以来,软件开发职位增加了 6%。

英伟达公开最快AI超级计算机Eos:集成了4608个H100!

近日,英伟达(NVIDIA)首度对外公开了其最新的面向企业的AI超级计算机Eos,这是专为数据中心规模的高阶AI开发所设计,也是英伟达目前速度最快的AI超级计算机。

据介绍,Eos配备了576个NVIDIA DGX H100系统,每个系统搭载8个H100 GPU,即共计拥有4,608个Nvidia H100 GPU,同时还配备了1,152个英特尔Xeon Platinum 8480C处理器(每个CPU有56个内核),使得Eos在HPC和AI的性能表现令人印象深刻。此外,Eos采用英伟达的Mellanox Quantum-2 InfiniBand技术,支持高达400 Gb/s数据传输速度,对训练大型AI模型和系统扩展至关重要。

根据英伟达公布的数据显示,在最新的Top500超级计算机当中,Eos的峰值性能达到了188.65 Peta FLOPS ,成为了全球第九大超级计算机。同时,Eos的FP64性能更是居于前列,达到了121.4 Peta FLOPS。Eos不仅供英伟达自身使用,其构架也为其他想打造面向企业的超级计算机的公司提供蓝本。英伟达在视频中表示:“EOS 每天都会迎接数千名英伟达内部开发人员进行人工智能研究的挑战,帮助他们解决以前无法解决的问题。”

英伟达表示,除强大硬件,Eos专为AI开发和部署设计的强大软件,包括协调和集群管理工具、加速运算存储和网络库,以及优化的操作系统。因此,Eos可应对从类似ChatGPT生成式AI到AI工厂等各种应用。

英伟达强调,Eos整合了其在AI领域的专业技术和经验,是先前DGX超级计算机知识的结晶,可以帮助企业处理最具挑战性的项目,并实现AI目标。

尽管Eos具体成本未公开,且Nvidia DGX H100系统定价是保密的,具体售价也取决于很多因素,但考虑到每个H100成本可能在3万至4万美元之间,因此整个系统成本可能非常高昂。

Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心

生成式 AI 领域,又有重量级产品出现。
周一晚间,Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 发布的版本性能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。
随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。

试用链接:https://chat.mistral.ai/
此前,Mistral AI 提出的 Mistral-Medium 因为强大的性能、「意外」的开源而名噪一时,目前很多大模型初创企业都已不再对标 Llama 2,而是将 Mistral AI 旗下模型作为直接竞争对手。此次 Mistral Large 的出现,自然迅速吸引了众人关注。
人们首先关注的是性能,尽管在参数数量上不及 GPT-4,Mistral-Large 在关键性能方面却能与 GPT-4 媲美,可以说是当前业内的前三:

Mistral Large 的推理准确性优于 Claude 2、Gemini 1.0 Pro、GPT-3.5,支持 32k token 的上下文窗口,支持精确指令,自带函数调用能力。
人们也发现 Mistral Large 的推理速度超过了 GPT-4 和 Gemini Pro。然而优点到此为止。
模型除了增加体量,也需要有相应的数据。在模型发布后,人们发现它生成的文本有一种 ChatGPT 的既视感。

如果说为了能赶上业内最先进的 GPT-4,使用 AI 生成的内容进行训练或许并不是什么大问题。但 Mistral Large 的出现也给 AI 社区的人们带来了危机感:它并不是一个开源大模型。

这次发布的大模型有跑分,有 API 和应用,就是不像往常一样有 GitHub 或是下载链接。
有网友发现,新模型发布后,Mistral AI 官网还悄悄把所有有关开源社区义务的内容全部撤掉了:

难道以开源起家的 Mistral AI,成立才不足一年,这就要转向了吗?
Mistral Large 目前已经能在 Mistral AI 自有平台 La Plateforme 和微软 Azure 上使用。除了 Mistral Large 之外,Mistral AI 还发布了新模型 Mistral Small,针对延迟和成本进行了优化。Mistral Small 的性能优于 Mixtral 8x7B,并且推理延迟得到了降低,提供了一种开放权重模型和旗舰模型之间的中间方案。
但模型的定价也引发了一些质疑。比如 Mistral Small 的低延迟相比于 Mixtral 8x7B 的提升微乎其微,但输入贵了 2.8 倍,输出贵了 8.5 倍:

如果以商业大模型的标准来看待,Mistral Large 的定价和 GPT-4 相比并不具备优势,这又该如何吸引客户呢?

这位业内人士表示:「如果它的价格是 GPT-4 Turbo 的一半,我会更理解。」

新的 Mistral AI「大杯」模型,表现如何?
在官方博客中,Mistral AI 详细介绍了 Mistral Large 的功能和优势:
Mistral Large 在多个常用基准测试中取得了优异的成绩,使其成为世界上排名第二的可通过 API 普遍使用的模型(仅次于 GPT-4):

GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较(测量大规模多任务语言理解)。

Mistral Large 的优势如下:

  • Mistral Large 的母语是流利的英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解;
  • Mistral Large 的 32K Token 上下文窗口允许从大型文档中精确调用信息;
  • 其精确的指令跟随能力使开发人员能够设计自己的审核策略 ——Mistral AI 以此来设置 le Chat 的系统级审核;
  • Mistral Large 本身就能够进行函数调用。这与在 la Plateforme 上实施的受限输出模式一起,实现了大规模应用程序开发和技术堆栈现代化。

关于基准测试结果对比,可以参考以下:
推理和知识
Mistral Large 展现出了强大的推理能力。下图报告了预训练模型在标准基准上的性能:

多语言能力
Mistral Large 具有原生的多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。

与微软合作,行 OpenAI 故事
在发布 Mistral Large 等模型的同时,Mistral AI 还宣布了一个消息:将与微软合作,在 Azure 上提供自己的模型。
此次合作使 Mistral AI 成为第二家在微软 Azure 云计算平台上提供商业语言模型的公司。这有助于 Mistral AI 将自己的模型推向市场,也让 Mistral AI 有机会使用 Azure 的尖端 AI 基础设施,以加速其下一代大型语言模型的开发和部署。

这家公司表示,「在 Mistral AI,我们的使命是让前沿人工智能无处不在。这就是我们今天宣布将自己的开放和商业模型引入 Azure 的原因。微软对我们模型的信任让我们前进了一步!」
这项为期多年的协议标志着微软正在其最大的赌注 OpenAI 之外,努力提供各种人工智能模型,为其 Azure 云服务吸引更多客户。去年 11 月,OpenAI 经历了 CEO Altman 被解雇(后又重返)的风波。而作为最大的股东,微软在消息公布前 5 到 10 分钟才从 OpenAI 那里得到消息。在这次动荡后,微软设法在控制 OpenAI 的非营利性董事会中获得了一个无投票权的观察员席位。这让他们对 OpenAI 的内部运作有了更多了解,但在重大决策上,微软依然没有投票权。
Mistral AI 对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。
微软证实了对 Mistral AI 的投资,但表示不持有该公司的股权。这家科技巨头因向 OpenAI 提供巨额资金而受到欧洲和美国监管机构的审查。
根据公告,微软与 Mistral AI 的合作主要集中在三个核心领域:

  • 超算基础设施:微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模;
  • 市场推广:微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务(MaaS)向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外,模型目录还提供了多种开源和商业模型。
  • 人工智能研发:微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。

除了微软,MistralAI 还一直在与亚马逊和谷歌合作,分销自己的模型。一位发言人表示,该公司计划在未来几个月内将 Mistral Large 应用于其他云平台。
Mistral AI 成立于 2023 年 5 月,由来自 Meta Platforms 和 Alphabet 的几位前研究人员 ——Arthur Mensch(现任 CEO)、Guillaume Lample 和 Timothee Lacroix 共同创立。成立不到四周,Mistral AI 就获得了 1.13 亿美元 的种子轮融资,估值约为 2.6 亿美元。成立半年后,他们在 A 轮融资中筹集了 4.15 亿美元,估值飙升至 20 亿美元,涨了七倍多。而此时,他们仅有 22 名员工。

押宝AI,OPPO能否掌握破局关键?

2024年的开年热点,再次被AI所支配。

新的一年刚刚开始,OpenAI就突然发布“文生视频”工具:Sora点燃了整个AI领域,可根据用户输入的简短文本指令,生成长达1分钟且足够真实的视频。没过多久,谷歌也发布了其大模型矩阵的最新力作:Gemini 1.5,将上下文窗口容量从Gemini 1.0最初的32,000个tokens,增加到1.5 Pro的100万个tokens。

另一方面,手机作为AI大模型最适合的落地领域,国产手机厂商也决定在战略上向AI全面倾斜。开工日当天,魅族发文表示公司将会All in AI,并停止传统智能手机新项目,迈入前景广阔的AI科技新浪潮。

无独有偶,当天OPPO CEO陈明永也发表内部信称:未来五年,AI手机将成为继功能机、智能手机之后,手机行业的第三阶段。OPPO已经做好充分准备,内部专门成立了AI中心,并表示资源将会向AI集中。

两则公告不难看出手机厂商打算“All in AI”的决心。

事实上,手机厂商对AI的探索要追溯到去年8月份,彼时华为、荣耀、小米、OPPO等 Top 级手机厂商都开始积极尝试大模型落地方案。一个有意思的观察是,随着时间推移,手机厂商对大模型的理解和优化在不断深入,并体现在规模和功能上。

最早小米MiLM轻量大模型发布时,在端侧只有13亿参数规模,功能上也仅是基于小爱同学进行文字交互。而在4个多月后,OPPO所发布的Find X7系列的端侧AI模型已经拥有 70 亿参数规模,并将其融入到操作系统之中,实现用户体验的二度升维。

如今时间到了现在,手机厂商的“All in AI”或许已经意味着手机AI技术已经成功渡过积累期,进入快速发展迭代阶段,足够支撑AI手机的未来发展。

只是,一个残酷的事实是,如今手机市场大盘仍在下跌。根据IDC发布的数据显示,2023年全球智能手机出货量同比下降3.2%,降至11.7亿部,各家存量竞争压力巨大。在这一节点,AI手机的想法和概念,能否支撑到手机行业复苏“第二春”?
01

OPPO如何定义“ AI手机”?

AI手机是手机厂商的未来愿景,但各家均有着各自的理解。

2月20日,OPPO举办了一场AI战略发布会,在发布会上分享了新一代 AI 手机的四大能力特征,展望由AI驱动的手机全栈革新和生态重构的趋势。值得一提的是,这场发布会中1+N智能体的概念贯穿了全局。

在OPPO的设想中,1+N智能体是满足AI 手机时代下新一代智慧服务体验的基础,其中“1”代表 OPPO AI 超级智能体,能基于庞大的知识图谱、文档数据以及搜索引擎,为用户提供强大的知识能力。

而“N”代表的,则是基于OPPO AI Pro 智能体开发平台所赋能的全新智能体生态。通过AI Pro智能体开发平台,普通用户无需掌握专业的编程技能,即可通过零代码的自然语言交互,快速生成专属于用户个人的个性化AI智能体。

在OPPO的构想中,这一智能体生态战略既能满足了用户体验的基础服务,同样也为未来AI手机的智能体生态划下了雏形。

另一方面,OPPO首席产品官刘作虎在发布会后接受媒体采访时也表示到,如今OPPO内部已经将公司所有AI相关的人员集中在一起成立了AI中心,内部的所有资源都会向AI所倾斜,将其称为OPPO未来的核心竞争力,并提出了投入不设上限的口号。

对于将“本分”刻在基因里的OPPO来说,AI中心的成立一定程度上代表了进军AI的决心,在OPPO看来,AI手机将成为手机行业的第三阶段,提前布局自然是重中之重。

基于对手机行业未来发展的研判,在OPPO对AI手机的定义中,AI手机要有以下四个特征:用户定义的开放服务生态、多模态融合的系统交互、OS内嵌的专属智能体,以及支持生成式AI的智能终端硬件平台。这些特征交织在一起,能够让AI手机具备高效利用计算资源、敏锐感知真实世界、自学习能力和强大的创作能力。

也正如OPPO所说:把复杂留给AI,把简单留给用户。

不过定义是一回事,而落实又是另一回事。手机厂商与上游企业不同,上游企业技术为先,而手机厂商需要考虑的不止是技术的发展,还要考虑到能力的实际落地,尤其是对于OPPO这种更专注于“用户体验为先”的企业,每一步都要经过深思熟虑。

以OPPO的视角来看,用户更需要的是AI能够带来什么样的价值,这才是提升用户体验的核心。此前刘作虎也表达过相似的观点:“做产品永远都要回归到‘你给用户的价值是什么’,技术的源头是要理解用户”。

而这恰恰是解决AI落地难题的关键所在——手机厂商基于对AI和用户的理解,为AI手机带来基于人工智能多模态融合的全新交互方式,为用户提供自在交互、智能随心、专属陪伴、安全可信的产品体验。

这也是AI普适化最佳的解题答案。

基于这一核心,如今OPPO所有的功能都是围绕着消费者所展开。在去年,OPPO就推出了安第斯大模型,并融入到小布助手之中。为了保证用户“千人千面”的个性化体验,OPPO引入了长时记忆机制,支持无限长度的上下文记忆,其中包括用户交互过程中产生的交互历史、个人数据,以及从中提取的结构化信息等。

比如OPPO所推送的AI通话摘要功能,就可以根据用户的通话内容生成核心重点,并将完成事项、会议时间等信息完美摘录出来,再加上“千人千面”的AI体验,意味着安第斯大模型能够凭借记忆,成为一个只属于用户自己的超级助理。

不过对于OPPO来说,“做消费者需要的AI”只是OPPO在AI思考中的一部分,如何普及同样是AI手机的重中之重。对此刘作虎也透露到,在未来OPPO还将会针对中低端芯片开发1B规模的模型,届时在海量用户数据的训练下,经过AI重构的手机产品将会得到进一步普及,从普及到开发形成支持发展的良性循环。

从这一角度来看,不难发现OPPO除了推动手机行业复苏之外,也在加速着AI手机发展的未来。
02

“拥抱AI”并非一蹴而就

OPPO在很早之前就在推动手机AI的发展,相较于其他企业还在初步阶段,春节期间OPPO就已经在加速AI的普适化。

据悉,在春节期间,OPPO为超千万用户推送了百余项AI使用功能,其中AI消除、AI通话摘要和新小布助手等功能获得了消费者的一致好评。尤其是AI消除功能,人均每天使用次数高达15次,这意味着OPPO正在逐渐改变用户的手机使用习惯。

推动普及的基础是OPPO在大模型领域的提前布局。在 2020 年,OPPO 就已启动预训练语言模型的探索与实践,自研了一亿、三亿和十亿参数量的大模型 OBERT,通过不断地技术积累,OBERT 曾一度跃居中文语言理解测评基准 CLUE1.1 总榜第一梯队,还获得了大规模知识图谱问答 KgCLUE1.0 排行榜第一的成绩。

此外,在2023年9月,安第斯大模型还参与了 SuperCLUE 的能力测评,在知识与百科方面获得了 98.33 的高分,位列 SuperCLUE 知识与百科能力排行榜中的全球第二、国内第一,尤其是通用问答与对话能力,极为出色。同年 10 月,安第斯大模型现身 C-Enal 全球中文榜单,并以 79.9 的高分登顶该榜榜首。

不过单一的云侧大模型只能做到部分场景的优秀表现,而在弱网环境、产品功耗、数据安全等层面仍存在局限性,因此,OPPO认为端云结合才是手机行业大模型的必然演进方向。

于是,首款落地端侧70亿参数大模型的手机:Find X7应运而生,凭借端云结合的强大能力,Find X7加入了基于自主训练的安第斯大模型生成式视觉模型,让 Find X7 拥有主体识别分割、图像语义理解、图像延展与生成的能力。

相较于其他云端模型,Find X7的安第斯大模型不仅支持超过 120 类主体的识别与分割,还可以实现发丝级的分割以及高达 6 个的多主体分离,以及超大面积图像的填充与自然生成,生成时间也只有同平台其他模型的 60%。以此作为底座,AI消除功能、AI通话摘要、AI超清合影等AI工具,成功让消费者对AI有了明显的感知。

某种程度上,参数决定了模型的智能和性能,参数越多,神经元越多,模型就越复杂,也越强大。端云结合后,在复杂计算场景下,安第斯大模型能够完整覆盖十亿至千亿以上多种不同参数规模的模型规格:AndesGPT-Tiny、AndesGPT-Turbo 和 AndesGPT-Titan,最高可达 1800 亿参数,能够实现更深度层次的推理任务。

同样,为了保证云端的算力,OPPO建立了企业首个自建超大型数据中心:OPPO AI滨海湾数据中心,通过了国际CQC A级数据中心认证,也是国内第五家、华南地区售价通过国际Uptime TIER III 设计认证与建造认证的数据中心,能够支持千亿级AI模型训练,与骨干网络之间的网络时延低于2毫秒,同时100%采用纯绿色能源,部署了超万台服务器,在安全性和可靠性上达到全球领先水平。

这些长年累月的技术堆叠,也成了OPPO区别于其他品牌,能够喊出“拥抱AI”的核心差别。

在大量人力物力投入的背后是用户体验上的升维,如今OPPO能够如此果断的选择AI,所围绕的正是多年来坚持的“对的路不怕远”的精神内核,回顾手机发展历史的多个节点,无论是OPPO所坚持的超级闪充与电池健康,还是依托潘塔纳尔系统所带来的万物互融,OPPO都选择了“难而正确”的决定。

如今在刻在骨子里的“长期主义”的影响下,OPPO再次踏上「体验为先」这条难而正确的道路,也正是这种将产品体验做到极致的追求,让OPPO在面对时代浪潮时,都选择出最正确的决定。
03

锚定AI

手机市场的下一个增长关键

解决了成本问题,还有一个最直接的问题是是否有足够的用户买单?

从产品发展的角度来看,手机与AI融合后的体验正逐渐被消费者所接受,这与早期消费者的“嗤之以鼻”形成了强烈的反差,这一切的根源来自于手机厂商对AI能力的不断探索与尝试。

根据IDC的预测,在2024年起,新一代AI手机销量将会大幅度增长,并带动新一轮换机潮,2027年AI手机出货量将达到1.5亿台,市场份额超过50%。同时Canalys也在中国AI市场趋势洞察报告中提到,防守市场份额并开发新的功能已经成为行业重点,而AI恰好是这一战略转变中的关键因素。

毫无疑问,2024年已经成为AI手机的元年,在AI的推动下,手机厂商将会在今年带来更多创造性的功能,不断推动手机行业进行下一波增长。

这其中的佼佼者:OPPO,无论是果断的产品转型还是对AI生态的布局,在此次AI浪潮面前明显有着非常清晰的判断。如今OPPO已经踏上了未来十年的新征程,如何做、怎么做,将成为OPPO未来下一次增长的关键所在。

为什么谷歌Gemini无法绘制白人的图像?

生成带有刻板印象、偏见的结果,这是AI被批评的常见问题之一。

谷歌似乎想要解决这个问题,但是“政治正确”让它载了一个大跟头。

网上的右翼分子一直在刺激和测试谷歌的Gemini,最近他们发现了Gemini的一个重大缺陷——无法生成准确的白人形象。有人测试用Gemini生成美国的国父、维京人、教皇,均为有色人种,唯独没有白人。

在此之前,一位曾在谷歌工作过的AI工程师先发现了这个问题,他用Gemini分别去生成澳大利亚女人、美国女人、英国女人、德国女人,得到的结果都是有色人种。由此他说,“让Gemini承认白人的存在是非常困难的”

似乎这只是Gemini的问题,其他AI并没有。例如Gab.ai可以生成白色人种。

为什么Gemini会出现严重偏离提示词的错误,它的回答是“提供更具包容性的表达”,简言之,符合美国社会倡导政治正确的惯性。

不只是种族问题,有人要求Gemini绘制“4张国家冰球联盟(NHL)运动员的代表性照片”,结果生成了一张有女性球员的照片,事实上NHL的球员都是男性。

Gemini生成不出白人的图像,谷歌已经承认这个问题,高级副总裁公开道歉并暂停了图片生成功能。

Gemini之所以出现这样的问题,除了道德责任上追求政治正确,训练数据集本身缺乏多样化也是原因之一。

解决问题的办法是重新调整模型的输出,使其不那么刻板。

OpenAI信任与安全主管戴夫·威尔纳认为,这种干预并不容易,需要非常多的细微差别的调整才能准确地描述历史和准确地描述现在。问题是可以解决的,但工作量很大。谷歌的工程师可能没有足够的资源在有限的时间内正确地完成这些工作。

资深科技记者凯西·牛顿提出了三个解决策略:

1、在更多的多样化的数据集上训练大模型。鉴于AI公司不太愿意为数据集付费,这个策略似乎不可行。

2、放松对大模型的道德与安全的限制,这在AI公司内部就会面临很大的挑战,它们也不太愿意承担任何输出带来的法律责任。

3、为用户提供更多个性化的对话机器人。虽然现在谷歌、OpenAI有一些用户的位置、性别或其他人口统计特征的信息,但这些信息不足以为用户提供特定的照片。这也是为什么最近OpenAI宣布正在测试ChatGPT的记忆功能。

AI 视频新王者诞生!文生视频大模型 Sora 14 项功能盘点!

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了之前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,大家应该对它都有所了解。

今天就根据网上已公布的视频,对 Sora 的功能特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比,让大家对 Sora 的能力有一个更直观全面的了解。

一、60s 超长视频

之前优设已经推荐过 AI 视频工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它们文生视频长度都在 3-7 秒之间(Aminatediff 和 Deforum 因形式不同,不列入此处的比较),而 Sora 直接将时长最高提升到 60s,是之前的 10 倍,这样的长度是放在之前大家可能觉得要好几年才能实现,但是 Sora 让其一夜之间成为现实。

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚,文本生成的视频效果最难控制,很容易出现画面扭曲、元素丢失情况,或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力,比如 Runway 的 Motion Brush 笔刷,通过在图像上涂抹指定区域添加动效;以及 Domo AI,可以将真实视频转为多种不同的风格,这些方式让 AI 视频更可控,因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知,不仅直接能通过文本生成各种风格的高清的视频,还支持多样化的视频时长、分辨率和画幅比,并且能始终保持画面主体位于视频中央,呈现出最佳构图

三、连贯一致的视频内容

Sora 生成的视频中,随时长增加人物及场景元素依旧能保持自己原有原有的状态,不会扭曲变形,所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面,Sora 依旧能在后续准确呈现这一对象的相关特征。

这就解决了之前大家一直很关心的视频中人物一致性问题,也许之后我们就无需后期拼接,而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现,比如针对“下雪天的街道”主体,可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段,可以看到随着镜头旋转,新视角中无论是机器人还是背后环境的细节都能稳定呈现,如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123,一种可以生成多视角图像的 AI 模型,但效果远比不上在视频中的呈现,也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞,Sora 的动态都非常自然,就像我们在现实中看到的那样;相比之下 Runway 生成的动作总有一种 “慢放”的感觉,不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中,如果想实现镜头运动,需要使用额外的 –motion 参数,然后从平移、旋转、缩放中等选项中选一种。

而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动,比如提示词中是 “镜头跟在一辆白色复古越野车后面”,在长达 20s 的视频内,无论道路如何弯曲,镜头真的能始终跟随这汽车,让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示,Sora 也能主动地添加镜头动作,比如下面的视频,花盛开到快超出屏幕时,镜头会自动上移以展现完整的主体;以及镜头有聚焦在老人面部时,带着一种手持拍摄的抖动,这是用 motion 设置也无法得到的效果,让人感觉这是真的视频而非“会动的图片”。

七、准确的提示词理解

对于“船在咖啡杯里”、”用白炽灯做壳的寄居蟹” 这样比较复杂的概念,Sora 能准确理解并呈现出正确的视频,Runway、Pika、Morph 等目前则无法做到。

在 Sora 的研究报告中,官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,以得到更好的生成效果。

八、图生视频

Sora 虽然自称是文生视频模型,但它也可以将图像转为动态视频,而且动态效果比其他 AI 视频都好,还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态,还能生成新的内容(比如为云彩字添加了一个弹出的动效)。

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑,对一个写画风视频加上 “rewrite the video in a pixel art style” 提示,可以将其变为像素飞哥,加上 ““make it go underwater”可以替换画面元素,而且新元素与整体融合自然然。

之前图像进行局部重绘都是有些困难的事,Sora 这是直接做到了对视频内容的完美局部重绘,模型的能力真的令人惊叹

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容,并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的,所以结尾相同;而如果对一个视频同时操作向前和向后延伸,就能好得到一个完美的循环动画。

这项功能目前还没有其他能实现的 AI 工具,如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值,在主题和场景构图完全不同的视频之间创建无缝过渡,比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄,或者让一只蜥蜴慢慢变成一只鸟。

官方用的 “无缝过渡” 绝不是夸张,仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然,这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频,Sora 既然能生成高质量的视频,那生成高质量的图像自然也不在话下,并且支持多种尺寸,最高分辨率到达 2048*2048 px。

我用 Sora 官方给出的提示词,在 Midjourney 的 V6 模型中重新生成一遍,下面的效果对比,你觉得哪一个更好?

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态,比如画笔落下后画布上有对应的痕迹留下,并且持续保留;被咬了一个口的汉堡上会有一个缺口等。

不过这个功能并不稳定,处理复杂交互场景也会出错,或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后,除了视频会变成体素风格,Sora 还能通过基础策略控制玩家,并高保真地呈现世界及其动态,达到真假难辨的地步。这或许会改变视频游戏的制作及玩法,对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能,如果想了解为什么 Sora 能做到这么厉害,可以去阅读 OpenAI 官方的研究报告,里面有相关介绍。

Sora 模型技术报告: 
https://openai.com/research/video-generation-models-as-world-simulators

Reddit的IPO前夜,把20年用户内容卖给AI公司训练模型

据彭博社报道,上周Reddit签署了一份合同,允许一家未透露名称的AI公司对该网站的内容进行模型训练。

这一举动发生在这家社交媒体平台临近首次公开上市(IPO)之际,该公司的IPO可能最早在下个月进行。

据彭博社称,Reddit最初在2024年早些时候向计划IPO的潜在投资者披露了这项交易,据报道该交易价值为每年6000万美元。

彭博社的消息源推测,这份合同可能为今后Reddit与其他AI公司达成协议提供了一个范本。

AI公司在没有明确许可的情况下,利用AI训练数据的时代已经逐渐结束,一些科技公司最近开始寻求签署合作协议,训练类似于GPT-4的AI模型的内容将是经过授权的。

例如去年12月,OpenAI与德国出版商Axel Springer签署了一项协议,以获得其文章的访问权限。此前,OpenAI还与其他组织达成了协议,包括美联社,并正在与CNN、福克斯和时代等公司进行许可谈判。

2023年4月,Reddit创始人兼CEO Steve Huffman告诉《纽约时报》,Reddit计划向AI公司收费,获得近二十年来人类生成的内容。

如果报道的每年6000万美元的交易达成,那么很可能你曾在Reddit上发布过的内容,其中一些材料会被用于训练下一代能够生成文本、静态图片和视频的AI模型。

即使没有这笔交易,专家们发现Reddit也一直是大语言模型和AI图像生成器的重要数据来源。

虽然我们不知道OpenAI是否与Reddit签署协议,但彭博社推测,Reddit利用AI炒作来增加额外收入的能力,可能会提升其IPO的价值。

彭博社称,Reddit在2023年的收入超过8亿美元,比2022年增长了约20%。

清华博士网红“AI课卖了5000万”?AI课程乱象调查

近日,自称清华博士的抖音网红“李一舟”通过售卖AI课收入高达5000万的相关信息刷屏网络,不少人质疑类似的课程是在“割韭菜”。

澎湃新闻记者发现,目前在抖音、知乎、B站等社交媒体上,类似李一舟的AI课程随处可见。除了李一舟外,知名AI类带客网红还包括“鹤老师”“张诗童”等,其中鹤老师粉丝数量超过777万,张诗童粉丝则超过10万。

截至21日16时,记者看到售价299元的张诗童AI课程显示“已被抢光”。在直播中,他表示,自己的课程在2小时里就能售出20万,催促大家赶紧抢购。

“AI培训课从去年3月开始兴起,今年年初,伴随OpenAI开发的Sora走红到达高潮。”另一名AI课程负责人向记者透露,“李一舟本人也是从去年下半年开始入局的,踩中了AI和直播的双重风口。”

“任何新生事物都有反对的声音,网上的吐槽者大多没有接触过课程,认为李一舟老师不是AI专业出身,但这恰恰证明他的能力。”2月21日,对于集中爆发的质疑声,名为“东东老师”的李一舟助教回应澎湃新闻,他还表示,学习不要看舆论,关键是看老师的责任心和真诚度,只有实践才能出真知。

不过,当记者询问更多细节时,这名助教没有回复。

据湖南大学设计艺术学院官网显示,自称清华大学博士毕业、三家科技公司创始人的李一舟,实际是清华美院博士,读的是设计类专业,本科和硕士就读于湖南大学设计艺术学院。

“不满意要退款,就把你踢出群”

对于走红出圈,李一舟本人也有所回应。

近日,有网友戏谑地给他留言称:“自打Sora火了,你是AI圈子里唯一一个可以和奥特曼平起平坐的华人大神”,李一舟回应:“我会继续努力的,国内做大模型和搞开发的大牛们,继续追赶奥特曼吧。”

不过,澎湃新闻记者联系到多位购买过李一舟AI课的网友,均对课程内容表示不满。

“特别后悔,我购买了199元课程,几乎没有有用东西,最让人气愤的是,直播第二天就要求学员升级到他的高阶课,需花费1980元,199课程啥都没教,就要升级,完全是骗子的套路。”一位学员告诉记者,“我在学习群发表观点,立即被拉黑踢岀群。”

“当时脑子一热就买了,后来发现网上好多免费的视频,都比他的课程要好。”另一位学员坦言,“看了十几节课,纯粹是浪费时间。课程内容太水,就像我已经学会高数了,你还在教我加减法。”

据飞瓜数据显示,2023年李一舟售卖的199元AI课《每个人的人工智能课》,一年内卖出约25万套,销售额约5000万。而一张网络流传的截图显示,李一舟本人通过AI课程,在3年内收入超亿元。

记者尝试购买了售价为199元的“每个人的人工智能课”,在课程介绍中提到,支付7日内,学习时长小于10分钟,即可申请全额退款。但在记者进行4分钟的学习后,申请退款时却失败了,记者尝试通过抖音的小程序平台“联系客服”功能时,留下的号码已暂停服务。

对于课程的具体内容,一位学员向记者描述,广告浓度很高,到处是进一步诱导付费的暗示:在前三节课程最后,都有意无意提到了充值;第6节课,借宣传ChatGPT进一步提到“买课很值得”;16、17节课中,李一舟找来一家服务电商的AI公司,长篇大论地介绍其技术和业务;第25节课时,邀请另一家做数字人的企业“又打了一波广告”。

多位购买过AI付费课程的学员告诉澎湃新闻,一旦发表负面言论就被踢出课程群是常态。一位参加“深度之眼AI课”的网友告诉记者,所谓的AI课程,就是付费进微信群,把网上已有的内容打包成几个视频文件播放给学员,宣传中提到的“助教”流动性很大,一个月内就换了两三次,而且很难起到实际效果。不过,一旦有人不满意要退款,或是在群里发表负面言论,就会被助教踢出群聊。

此外,在多家电商平台上,已有大量李一舟盗版课程在出售。记者查询某平台显示,李一舟的全套课程最低仅出售0.26元,线上发货,还同时赠送鹤老师的全套人工智能课程。数据显示,类似盗版课程最高月销量已超过500套。

“只要三周时间,就能帮助大家从小白变大神。”另一AI知识网红张诗童则在直播中如此宣传自己的课程,他表示,自己的每一种课程市面价格都超过2000元,但在直播间中,299元就能“全包”,“不需要任何基础,只要手机就可以学会。”

蹭AI热点,办年卡、付费会员套路深

能靠售卖AI课程收入超千万的李一舟,到底是什么背景?

清华大学官网显示,李一舟曾为创业者,创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中匙悟科技完成过3轮融资:2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年,匙悟科技完成过数百万美元的Pre-A轮,以及数百万人民币的天使轮融资。

天眼查APP显示,与李一舟关联企业有12家,其中6家处于存续状态。目前,李一舟仍担任北京匙悟科技、北京一舸科技两家公司的法定代表人。

澎湃新闻记者发现,此类AI课程并不仅仅是付费授课,有大量收费套路。以李一舟为例,除了课程要付费,还要交“算力单元”费。简单来说,算力费就是使用李一舟提供的大模型工具也要付费,文本大模型提问一次价格约为几十算力。图像、视频的价格昂贵许多,基本单价超过1万,有时制图一张要花费10万算力。

如果想要持续使用算力,就要充值购买会员,其中包括琥珀会员、黄金会员、铂金会员、钻石会员等多个等级,最低一个月也要39元。

一位张诗童的学员告诉记者,在299元的付费课程外,张诗童还推出价格为1980元的年卡,张诗童在2022年接受采访时提到,自己单场直播收入高达20-30万元。

值得注意的是,除了网红的年卡费、会员费等收费套路,还有数不胜数的AI类付费社群。澎湃新闻查询知识付费软件“知识星球”发现,有几百家AI付费社群,入群费价格从一年50到299元不等。某AI俱乐部宣称入群费为129元,承诺进群就享有ChatGPT账号、各种免费AI工具箱、常用提词器等素材,以及AIGC的内容创作技巧和变现方式分享等。

另一家名为“深度AIGC俱乐部”的入群费则高达398元,据称群内会提供与科技大佬交流的机会和解答问题,并提供培训课程。

在Sora走红后,有关Sora的社群也成为收费新热点。记者发现,一家名为“Sora-数字人-AI”的社区成员已高达5700多人,收费标准是一年269元,这也意味着一年纯靠社群收入就达到153万元。

AI类网课法律界限在哪?

伴随李一舟被推上舆论的风口浪尖,不少学员开始在社交平台上要求退款。有网友发布公告,要在“全网寻找买过李一舟AI课但想退款的朋友。”该网友表示,支持学员通过法律渠道维权。

“李一舟虽然赚了很多钱,但不一定意味着他在割韭菜。”某AI课程负责人“小远”向澎湃新闻记者介绍,他获利的原因,还是敏锐地抓住人们对于AI这样新技术崛起的恐慌感,利用了人们的心理需求。

“毕竟价格也就199元,不必对这个价位的课程有不切实际的期待。”小远表示,作为完全不了解AI知识的小白,如果能用一周时间科普一下,还是非常值得的。

在小远看来,未来AI培训将成为新的风口,“如果李一舟营收达到5000万元,以199元的课程单价来计算,最多卖了25万份,这个数量其实还很小。”小远坦言,AI内容将成为巨大缺口,保守估计,未来的潜在消费人群超过5000万人。

那么,类似李一舟这样的AI卖课网红,究竟是否涉嫌诈骗?多位法律界人士认为,仍需要更多证据。

华东政法大学竞争法研究中心执行主任翟巍告诉澎湃新闻记者,是否涉嫌诈骗还需要获得翔实信息才可判定,“不过可以确定的是,李一舟的AI课不仅涉嫌违反《广告法》和《反不正当竞争法》,构成虚假宣传的不正当竞争行为,而且涉嫌违反《消费者权益保护法》,侵犯消费者的知情权、公平交易权等。”

“AI相关的内容和课程的含义本身比较宽泛,所以只要用户付费后提供了约定的相关资料,就不能说诈骗。”上海申伦律师事务所律师夏海龙表示,至于这些资料是否符合用户的预期,属于合同履行的问题。只要用户付费后销售者提供了与宣传相一致的资料,就不能说诈骗。

对于知识付费类课程是否涉嫌诈骗,该如何界定?

翟巍告诉记者,知识付费类AI类网课本质上属于知识类产品,这类产品的个人购买者属于消费者。经营者在销售这种知识类产品时,应当全面、真实、客观地宣传产品内容与质量,不应隐瞒事实片面宣传、虚假宣传,不应欺骗或误导、诱导消费者购买产品,否则轻则会构成侵权违法行为,重则构成诈骗等刑事犯罪行为。

谷歌开放轻量级大模型Gemma,全民AI时代要到了?

谷歌2月21日发布了新的人工智能“开放模型”Gemma,将大模型开源意味着外部开发者可以将其打造为自己的模型。谷歌也成为继Meta之后,又一家试图走开源大模型路径的主要科技公司,并加速全民AI时代的到来。

谷歌表示,Gemma是一系列“轻量级”先进的开放式模型,采用与创建Gemini模型相同的研究和技术而构建。开发者可以使用Gemma“开放模型”系列免费构建人工智能软件。

该公司表示,正在公开关键的技术数据,例如所谓的“模型权重”。谷歌CEO皮查伊(Sundar Pichai)表示:“Gemma展示了强大的性能,今天开始将在全球范围提供,可在笔记本电脑或者谷歌云上运行。

”市场分析认为,谷歌将大模型开源可能会吸引软件工程师在谷歌的技术基础上进行开发,并鼓励使用其新盈利的云部门。谷歌表示,这些模型还针对谷歌云进行了优化。不过Gemma也并不是完全“开源”,这意味着该公司仍可制定使用该模型的条款及所有权条款。

据介绍,相较于谷歌此前发布的Gemini模型,Gemma模型的参数可能更小,有20亿个或70亿个参数版本可供选择。谷歌尚未透露其最大的Gemini的参数尺寸。

谷歌表示:“Gemini是我们当今广泛使用的最大、功能最强大的AI模型。Gemma模型与Gemini共享技术和基础设施组件,Gemma模型能够直接在开发人员笔记本电脑或台式计算机上运行。”该公司还强调,Gemma在关键基准上超越了参数更大的模型,同时遵守安全和负责任输出的严格标准。此前开源的Meta的Llama 2模型参数最多可达700亿个。

相比之下,OpenAI的GPT-3模型拥有1750亿个参数。在谷歌发布的一份技术报告中,该公司将Gemma 70亿参数模型与Llama 2 70亿参数、Llama 2 130亿参数以及Mistral 70亿参数几个模型进行不同维度的比较,在问答、推理、数学/科学、代码等基准测试方面,Gemma的得分均胜出竞争对手。英伟达在Gemma大模型发布时表示,已与谷歌合作,确保Gemma模型在其芯片上顺利运行。

英伟达还称,很快将开发与Gemma配合使用的聊天机器人软件。将较小参数的AI模型开放出来也是谷歌的商业策略。此前,科大讯飞也选择将较小的参数尺寸模型进行开源。

科大讯飞董事长刘庆峰向第一财经记者解释称:“通用大模型关键是看谁的性能好,而大模型开源是为了建立生态,因此从技术水平来看,一般开源大模型都会略低于通用大模型。

”“我们也观察到,好像很多企业会藏着自己最大的那个模型,可能还是希望能够建立起壁垒好做商业化。”一位从事AI大模型研发的研究人员对第一财经记者表示。对于开源大模型目前也有不同的观点,一些专家认为,开源AI大模型可能会被滥用,而另一些专家则支持开源的方法,认为这可以推动技术发展,扩大受益人群。

Sora背后团队被扒出:13人几乎每天不睡觉高强度工作一年,其中3人为华人

随着Sora的刷屏,其幕后主创团队也引人关注。据Open AI发布的Sora技术报告,Sora作者团队仅13人,Tim Brooks、Bill Peebles以及Connor Holmes等是核心成员。其中Tim 与Bill 师出同门,都于2019年8月进入伯克利深造,并受Alyosha Efros教授指导,2023年上半年两人一前一后在伯克利获得博士学位。另据了解,Sora团队还包括3名华人,其中一名为北大校友。 值得注意的是,Bill 曾和现任纽约大学计算机科学助理教授谢赛宁一起发表过论文《Scalable Diffusion Models with Transformers》,该论文研究成果DiT模型被Sora引用。谢赛宁今日在朋友圈辟谣了自己是Sora作者之一的消息,据他透露,Sora是Bill他们在OpenAI的呕心沥血之作,“虽然不知道细节,但他们每天基本不睡觉高强度工作了一年”。

本文源自金融界AI电报

GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品

今日GitHub热榜榜首,是最新的开源世界模型。

上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。

强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。

LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频。

网友看了不禁表示,这种大海捞针般的测试,LWM能完成的如此出色,而且还开源,实在是令人印象深刻。

那么,LWM的表现到底有多强呢?

百万上下文窗口,可看1小时视频

在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。

他们将这些视频输入LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将LWM与GPT-4V等模型做了对比。

结果GPT-4V是一问一个不吱声,闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案,只有LWM回答对了。

在另一段视频的测试中,其他模型都说找不到有关信息,只有LWM找到了答案,而且完全正确。

不仅是理解细节,LWM也能把握视频的整体内容,做出归纳总结。

在理解的基础之上,LWM也可以结合自有知识进行推理,比如分析视频中不符合常理的地方。

Benchmark测试结果显示,LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。

LWM不仅能理解长短视频,在超长文本任务上的表现同样优异。

在1百万token窗口的“插针”检索测试中,LWM取得了单针检索全绿的成绩。

多针检索时,表现也同样优异:

语言任务数据集的测试结果表明,LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。

除了多模态信息理解,LWM还支持图像和视频的生成,至于效果,还是直接上图感受一下吧。

那么,研究人员又是怎样训练出这样一款世界模型的呢?

循序渐进,分而治之

LMW的训练过程,大致可分为两个阶段。

第一阶段的目标是建立一个能够处理长文本序列的语言模型,以理解复杂的文档和长文本内容。

为实现这一目的,研究人员采取了渐进式的训练方式,使用总计33B Token、由图书内容组成的Books3数据集,从32k开始训练,逐步将窗口扩增至1M。

而为了增强LWM的长文本处理能力,开发者应用了RingAttention机制。

RingAttention是该团队去年提出的一种窗口扩增方式,入选了ICLR 2024。

它运用了“分而治之”的思想,将长文本分成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文。

在LWM中,RingAttention还与FlashAttention结合使用,并通过Pallas框架进行优化,从而提高性能。

在文本能力的基础上,研究人员又用模型生成了部分QA数据,针对LWM的对话能力进行了优化。

第二阶段则是将视觉信息(如图像和视频)整合到模型中,以提高对多模态数据的理解能力。

在此阶段,研究人员对LWM-Text模型进行了架构修改,以支持视觉输入。

他们使用VQGAN将图像和视频帧转换为token,并与文本结合进行训练。

这一阶段同样采用循序渐进的训练方法, LWM首先在文本-图像数据集上进行训练,然后扩展到文本-视频数据集,且视频帧数逐步增多。

在训练过程中,模型还会随机交换文本和视觉数据的顺序,以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。

性能方面,研究人员在TPUv4-1024(大致相对于450块A100)上训练,批大小为8M、全精度(float32)的条件下,花费的时间如下表所示,其中1M窗口版本用了58个小时。

目前,LWM的代码、模型都已开源,其中多模态模型为Jax版本,纯文本模型有Jax和PyTorch两个版本,感兴趣的话可以到GitHub页面中了解详情。

论文地址:
https://arxiv.org/abs/2402.08268
GitHub:
https://github.com/LargeWorldModel/LWM

潮汕90后,10个月干出一个AI独角兽

中国大模型创业公司首笔10亿美元级别的融资出现了。

2月19日消息,月之暗面已完成新一轮超10亿美金的融资,投资方包括红杉中国、小红书、美团、阿里等,上一轮的老股东继续跟投。这是自大模型创业潮兴起以来,中国大模型赛道金额最大的一笔单轮融资。本轮融资后月之暗面估值已达约25亿美金。

月之暗面2023年4月成立于北京,创始人杨植麟是毕业于清华大学的学霸。成立不到两个月,月之暗面就完成了近20亿元的天使轮融资,红杉中国、今日资本、真格基金、砺思资本等知名VC投资。

成立不到一年时间就融了近90亿元人民币,估值接近180亿元,月之暗面已经进入中国AI大模型的第一梯队。2023年6月份,The Information评选了五家最有可能成为中国OpenAI的公司,月之暗面位列其中。

三位清华同学创业

与光年之外、百川智能、零一万物的互联网大佬“二次创业”不同,月之暗面是中国AI大模型赛道不多见的“素人”创业。月之暗面一成立就能获得资本重金支持,创始人的履历必然不一般。

杨植麟是一位90后,高中毕业于广东汕头的百年名校金山中学。在中学时期,杨植麟被选拔进入信息学奥林匹克竞赛培训班,并拿到全国青少年信息学奥林匹克联赛中获得广东赛区一等奖,获得清华大学保送生资格。尽管已经保送,杨植麟在当年高考中还是拿下了667的高分,远超清华大学在广东的录取线。

进入清华大学后,杨植麟延续着学霸路线。杨植麟最初被清华大学热能工程系录取,但在大二杨植麟就转专业进入计算机系。

2015年,杨植麟以年级第一的成绩从清华大学毕业,随后远赴卡内基梅隆大学语言技术研究所,2019年获得博士学位。

在博士期间,杨植麟成了AI领域的风云人物,他与多位图灵奖得主合作发表过论文,在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇,研究成果累计Google Shcolar引用超过17000。除了学术成就之外,杨植麟还在Meta的人工智能研究院和谷歌大脑研究院工作。

2016年,博士在读的杨植麟首次创业,以联创身份参与创立了循环智能,方向是运用NLP、语音、多模态、大模型等AI技术打造“销售科技”方案。循环智能成立后已经完成了6轮融资,投资方包括红衫中国、博裕资本、金沙江创投、真格基金等。

2021年,循环智能与华为云合作开发了千亿级NLP大模型盘古大模型。

杨植麟虽然不过30岁出头,但在国内,他做AI大模型的资历几乎是无人能敌,国外的Google,国内的盘古NLP、悟道等大模型的研发他都有参与(悟道项目负责人、清华大学唐杰教授是杨植麟的老师)。有媒体更是直接给杨植麟冠上了中国大模型90后第一人的名号。

除了杨植麟之外,月之暗面的另外两位联创也都值得关注。

月之暗面的第二位联合创始人、算法负责人周昕宇是杨植麟在清华的本科同学和好朋友,两人在大学期间还一起组过摇滚乐队。

周昕宇在大学毕业后加入旷视,研究算法量产。第三位联合创始人吴育昕也是毕业于清华大学,以及卡内基梅隆大学,大学毕业后在Meta的人工智能研究院工作。

2023年大模型骤然爆火,VC们也纷纷试图寻找中国的OpenAI,但国内具备大模型相关经验的人才非常稀缺,真正从事过大模型研发、愿意创业又年轻的创业者屈指可数。月之暗面这一团队,称得上是中国大模型创业的“顶配”了,无怪乎被知名VC踏破门槛。

要做AI时代的“Super App”

2023年10月,月之暗面发布了创业之后的首个大模型moonshot,以及搭载该模型的智能助手产品Kimi Chat。一经发布,moonshot就以“最高支持20万个汉字输入”而引起了关注。要知道,GPT4仅仅支持最多2.5万字输入,moonshot是它的八倍。

月之暗面研究方向有两个关键词,首先是长文本,其次是to C。

关于长文本,月之暗面认为大模型的应用效果取决于两个因素,参数量决定了大模型能支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的“内存”。

对长文本的支持给大模型的应用打开了新的空间。moonshot的发布会上,杨植麟演示了输入整本《三体》并让AI给出总结,还演示了一次输入50个文档并让大模型给出分析。

杨植麟分析道,“当我们去看计算机系统发展史,一个必然的趋势是,都是从最开始的很小内存的计算机服务,再到很大的内存的服务。所以我觉得大模型肯定也是会有一样的趋势,从现在很少内存的大模型,到以后的很大内存。”

月之暗面另外一个关键词是to C,杨植麟表示Moonshot AI现在最高优先级的任务是在C端找到产品、技术以及市场的方向。

定位to C,更是显示出月之暗面要做中国的Open AI的雄心壮志。杨植麟认为,大模型可能会分成to B和to C两个不同的阵营,而“To C是成为AI时代Super App的机会”,因此月之暗面坚定的加入to C阵营。

杨植麟谈到月之暗面愿景是“通过AI给个人提供更便捷、更强大、更个性化的普惠产品”,这种定位迥异于国内其他一些大模型头部玩家“赋能B端”的思路。月之暗面这只由90后组成的团队,展现出了与其他几家资深大佬领衔的大模型创业公司非常不一样的锐气。

To C的定位使得月之暗面更愿意专注在产品,也因此保持着一个相对更小而精干的团队。随着第二轮融资的落地,月之暗面的团队人数达到了80人。而国内其他几家估值相近的公司团队基本都超过了200人。

90后创业者涌现

很多人说上一轮硬科技创业主要是属于中年人的舞台,大量的新晋硬科技上市公司创始人都是70后甚至60后。但最近一段时间,90后创业者正悄然间来到舞台中心,成为中国新的创业生力军。

除了月之暗面的清华三人组之外,最近一年备受资本追捧的90后创业者还有非常多。

2023年,最火的中国90后创业者可能是Pika的郭文景。在Open AI发布sora之前,Pika是最热门的文生视频AI,它的融资名单几乎是集齐了硅谷的半壁江山。Pika创始人、CEO郭文景是一位被哈佛大学本科提前录取,然后从斯坦福大学博士辍学创业的95后天才少女。

2023年12月,人形机器人创业公司的智元机器人完成了超6亿元的A3轮融资,蓝驰创投、中科创星、鼎晖投资、长飞基金、C资本、高瓴创投、立景创新、三花控股集团、基石资本、临港新片区基金和银杏谷资本等众多机构入局。智元机器人的创始人是华为“天才少年”稚晖君,2023年2月创业,一年不到融资5轮。

2023年8月,AI制药创业公司深势科技宣布完成超7亿人民币的新一轮融资,投资方包括众源资本,和玉资本,正心谷资本,Evergreen Scitech Delta及多家产业资本。深势科技的创始人孙伟杰和张林峰是一对毕业于北京大学元培学院的90后。

最近一例是民营航天公司东方空间,其1月24日宣布完成了近6亿元人民币B轮融资,估值也来到60亿元左右,成为中国民营航天最新一只准独角兽。1月11日,东方空间自主研制的“引力一号”火箭在成功完成首飞,成为全球最大的现役固体火箭,也是中国民营航天公司迄今为止送入轨道的运力最大的一枚商业火箭。东方空间的联合创始人、联席CEO姚颂也是一位保送清华大学的90后。

不同于移动互联网时代的那一波90后创业者,当下的这些90后几乎是清一色的名校学霸,创业的方向都是当前技术创新的最前沿。长江后浪推前浪,他们是这个时代的“青年之光”。

2024 AI 展望:OpenAI再打响指,我们还能期盼什么?

若将中国的AI发展看做是一本小说,你会发现,2023年用一页的篇幅,几近写完了曾经计算机视觉(CV)的三年:起风,落地,再到危机暗涌。2022年末,太平洋对岸的ChatGPT石破天惊,拉开了名为AI大模型的全球竞速——热钱和人才集中涌向这个赛道。这一年,中国模型层一共诞生了5家独角兽:智谱AI、MiniMax、百川智能、零一万物、月之暗面。无论是从头训,还是基于现成模型微调,国内约200个大模型加入“百模大战”,AI领域融资事件数比2022年增长了145%。AI的技术突破,也为这个赛道吸纳了不少顶尖人才:来自国内外最高学府的知名学者教授下海,互联网老兵出山,谷歌、微软等海外大厂出身的华人回国。但与热闹和振奋人心的技术突破相对的,是疲软的资本市场和紧缺的资源。美元基金的退出、英伟达芯片的禁运,倒逼AI企业内修功力、外寻新机:找场景快速落地,出海拓展商业机会。从锤炼技术,到快速的商业化落地,也将更为抽象的问题摆到AI厂商面前:如何找准落地场景?如何实现数据飞轮?从Copilot到AI Agent(智能体),热门概念和demo的不断涌现,让市场对AI的能力充满了想象。但较为残酷的现实是,囿于底层模型的能力,AI能落地的场景仍然有限。从模型层相关的多模态、幻觉问题,到硬件层面的NPU(神经元计算处理器),AI产业上下游要解决的技术难点还有很多。对于应用厂商而言,则要根据技术现状将落地场景加以细分,或者找到具有独特价值的落地场景。即便度过了机会和危机并存的2023,没人怀疑,2024年,AI依然会是舞台上的主角。开年的“王炸”,依然来自OpenAI——北京时间2024年2月16日,OpenAI推出了可以生成60秒连贯流畅、超逼真的高清视频的视频生成模型Sora。对于不少视频模型的创业公司而言,“灭霸”OpenAI的开年响指并不好受。但业内更多人认为,视频等多模态模型,将在2024年创造新的商机。而市场,也已经做好了迎接AI商业化的准备。经历三年疲软的消费市场,在2023年Q3终于复苏。在硬件层面,手机、PC等消费电子的销量回升有目共睹。在软件应用层面,根据移动市场分析平台data.ai的统计,2023年全球移动市场用户的支出同比增长了3%——截至2023年末,生成式AI应用的月用户支出也突破了1000万美元。2023年下半年以来,出海淘金,也成了不少AI厂商拓展商业机会的方式。无论是在新环境中寻求资本,还是寻找具有更高付费能力和意愿的客户,不少国内的AI厂商提起出海,都给予36氪同样的答复:“Why not?”

2024年,关于大模型的机会、应用落地的方向、做ToB还是ToC、本地化还是出海,36氪总结了6大趋势。图片

语言日渐拥挤,视听乘风起势

即便模型层短时间内诞生了5家独角兽,但企名Pro的数据显示,2023年AI领域的融资总额比2022年少了4.5%,甚至还不到2021年的一半。这意味着,热钱集中地涌向了少数团队背景和技术实力强大的公司。

从资源分配的角度而言,后来者想要再挤进模型层创业,空间已经不多。智谱AI CEO张鹏认为,从商业竞争的角度而言,2024年LLM赛道已经接近红海:“一,算力等资源紧张的问题还没有解决;

二,从市场空间的角度而言,不需要重复造轮子;三,模型能力很大程度上依赖先发优势,积累用户反馈、行程数据,从技术迭代的角度,后来者很难跟上主流的水平。”即便零一万物内部的模型训练研究显示,模型参数量还有很大的提高空间,在零一万物技术副总裁、Pretrain(预训练)负责人黄文灏看来,目前模型层的困难主要是在算力资源上:“从GPT3.5到GPT4有大量的技术挑战要解决,算力资源限制会减少迭代试错的机会,大家都会选择确定性较高的路径,就错过了一些创新的机会。

”红海中,永恒不变的只有顶级人才的号召力。远识资本董事Yuca对36氪表示,基金不会把鸡蛋放在同个篮子里,OpenAI、微软、谷歌这些顶级公司的华人专家,还存在撬动国内资源的可能。

LLM赛道日渐拥挤,但3D、视听等多模态模型仍是一片蓝海。月之暗面联合创始人周昕宇向36氪列举了不少模型有待突破的底层技术,其中不少与多模态有关,比如如何对多模态数据进行统一表示;如何用计算来突破数据的瓶颈;如何研发出更高效的多模态无损压缩神经网络架构。他认为,这些技术突破都可能成为2024年模型层公司的机会,但也可能需要更长时间才能取得突破。

多模态能力的突破,也将给大模型的整体能力带来超预期的提升。“由于大模型的泛化性,能力迭代往往是通用的、全面的提高,不会是单点的突破。”黄文灏告诉36氪,“无论是图片还是音频,多模态数据会和文字形成1+1>2的效果。

”不过,3D和视听生成技术在2023年的迭代速度之快,已让人瞥见2024年的商业化浪潮。以技术复杂的视频生成为例,2023年初,视频生成模型尚且只能将多个静止的图像拼接成几秒长的剪辑。但不到6个月,以Runway Gen2为代表的模型就能生成几秒长的电影级影片。

时间再来到同年11月,由4名华人创立的动画视频生成公司Pika,就释出了可以生成分钟级高质动画视频的产品。Pika的估值,也飙升至近2亿美元。而仅仅再过了3个月,2024年2月16日,“灭霸”OpenAI又杀死了视频生成的游戏,发布可以生成60秒连贯高清视频的文生视频模型Sora。这也意味着,视频生成模型距离商用,已经近在咫尺。

LLM解决的是最基本的交流问题,而3D、视听等多模态则能让AI模型拥有超人类的感官,应用创新和模式创新的机会远多于LLM。多模态技术能落地的场景,大致可以分成两类:一类是提供生产力工具,另一类则是提供新场景。在工作和生产场景下,模型服务的商业模式已经较为成熟,但这也意味着入局者众多,竞争压力更大。企业的核心竞争力在于能否建立全流程服务,满足用户的细分需求,同时形成数据飞轮。

随着多模态技术的提升,不少人在智舱、物联网、XR等场景中看到了新机会。对于新场景的创业者而言,跑通商业模式的先决条件,则是寻找到具有独特价值的细分场景。

模型“瘦身”,先场景后模型但通用基座的红海,并不意味着模型层已经失去入局的空间。

一个明显的趋势是,随着应用落地的加速,不少中小模型厂商开始“瞄准钉子挥锤子”,先找到能落地的细分场景,再针对性地训练模型。这一现象,与市场的反馈不无关系。应用落地的迫切性,让下游厂商比起更强大的通用性能,更关切模型调用的成本,以及在端侧部署的可能性。由于模型推理需要消耗的算力巨大,来自底层的成本压力会层层传导至下游。

以OpenAI为例,根据美国金融公司 Bernstein 的分析,如果ChatGPT的访问量达到谷歌浏览器的十分之一,OpenAI 初始需要的GPU价值高达481亿美元——这部分的成本也势必会分摊到下游的应用厂商。降本最直接的方式,是减少模型的参数量。

2023年下半年以来,不少拥有千亿级参数基座的模型厂商,都发布了十亿级参数的模型。比如百川智能发布了7B的语言模型,智谱AI和零一万物发布了6B的模型版本,用纯CPU就能将模型跑起来。但光“瘦身”,不足以成为模型厂商的竞争力。

其缘由在于,各家大模型的能力尚未产生明显差距。远识资本董事Yuca举了一个例子:在国外,所有应用厂商优先考虑的模型一定是GPT-4;但在国内,应用厂商挑不出一个出类拔萃的,一般会考虑把十几个主流模型都先试试。“现在谈大模型的竞争力还为时尚早。

”网易有道CEO周枫对36氪表示,“核心是要从应用中找到千亿级的市场机会,找到‘大模型原生’的产品形态是关键。”他以有道的长项翻译场景为例,虽然有道自研的百亿参数模型“子曰”整体对话能力不如千亿参数的ChatGPT,但通过基于向量数据库的训练,“子曰”能够5秒翻译67页长论文。

即便认为“现在谈大模型的竞争力还为时尚早”的判断还有待商榷,智谱AI CEO张鹏在模型落地层面,表达了类似的观点:“落地阶段最重要的是找对场景,培养用户,形成数据飞轮。”培养用户,越早越好。月之暗面联合创始人周昕宇告诉36氪,从新技术的扩散曲线来看,最早期的用户和开发者会带动更多的用户:“2023年可以吸取的经验教训是,应该更早点儿给用户去用,很多用户自己会探索大模型产品的边界,发现产品经理想不到的场景和应用。

2024年,AI落地的重点是如何与用户一起成长。”一个通过找对场景,顺利在模型层占有一席之地的典型案例,是估值达5.2亿美元的AI公司Perplexity。Perplexity通过将大模型和搜索引擎结合,开发出了类似于New Bing的对话式搜索引擎。不过,Perplexity的模型,最初是基于一些规模更小、推理更快的模型进行微调而来。直到最近,他们才开始训练自己的模型。对于前期“套壳”的决定,Perplexity CEO Aravind Srinivas在播客节目中锐评:“成为一个拥有十万用户的套壳产品,显然比拥有自有模型却没有用户更有价值。

不过在未来,自训模型仍然会成为AI应用企业不可缺失的一环。“AI公司的核心竞争力会是模型、应用、infra‘三位一体’的能力。最大的应用公司必须掌握模型训练能力,模型的推理成本降低对应用是最大的提升。三者缺一不可。”零一万物技术副总裁、Pretrain(预训练)负责人黄文灏对36氪表示。

可穿戴,家居……AI托举细分硬件2024年,将是AI硬件元年——这一判断,已经出现在国内外不少厂商的年初展望中:高通总裁兼CEO Cristiano Amon在接受媒体采访时表示,2024年将成为全球AI手机元年;联想集团CEO杨元庆将2024年视为“AI PC出货元年”;OPPO高级副总裁刘作虎在发布会上直言:“2024 年,不布局大模型的手机企业未来没戏。”不少硬件厂商,将AI大模型视作消费电子低迷三年后的一根“救命稻草”。

但厂商们将AI从云端转移至终端设备,有着更为现实的考量——在大模型和终端的适配标准尚未建立之时,押注下一个入口型智能硬件,争先建立继IOS、安卓、Windows之后AI OS(操作系统)。

比如1月10日,荣耀发布了新一代AI系统MagicOS 8.0,用“端云协同”作为AI生态的卖点。在CES(国际电子消费展)上,联想透露预计在2024年内发布“智能终端AI OS(操作系统)”。

“Windows老家”微软,也宣布将AI助手Copilot键引入Windows 11 PC,并将其描述为“AI PC的第一步”。但无论是PC、手机,还是汽车,这些具有复杂软硬件生态的智能终端,与大模型的结合仍然差一口气。

其一,被赋予“高效率、低能耗”厚望的硬件“大脑”——NPU(神经网络处理器)芯片,仍处于研发初期。大模型接入智能终端后,能耗和运行效率问题依然难以解决。

其二,囿于大模型能力和硬件不统一的适配协议,AI在智能终端上能落地的场景仍然有限。面壁智能CTO曾国洋告诉36氪,终端标准协议的建立,是全球软硬件厂商之间的博弈,很难预判胜者是谁。

相对地,瞄准垂直场景的设备,在结合AI模型后反而迅速开辟了市场。

在作为“科技市场风向标”的北美,AI硬件迅速崛起的消费趋势已经证明了这一点。比如在CES 2024首秀的橙色盒子Rabbit R1,可以代理人类完成对手机的操作。发售首日,第一批的1万台机子就迅速售罄。在北美电子产品购物平台ebay上,甚至有人加价几百美元,靠拍卖Rabbit R1谋利。

事实证明,只要抓住用户的痛点,再垂直的场景都能带来巨大的财富。比如AI+戒指——售价349美元(约2507.31元)的AI戒指Gen3,主打健康检测,其母公司OuraRing估值高达25.5亿美元;AI+跑鞋——由AI驱动的跑鞋Moonwalker,能够在不改变正常步行方式的情况下将步行速度提高250%,即便预售价高达999美元(约7177.09元),在Kickstarter上也有570人参与众筹,募款额达到目标金额(9万美元)的近6倍;AI+徽章——得到微软和OpenAI投资的Humane,推出了一款内嵌GPT的AI别针AI Pin,主打通过手势交互调用通讯、搜索、播放音乐等不同功能,预定量已经超过450万台。

以北美为鉴,不少业内人士认为,健康监测、家庭陪伴等被北美市场验证的场景,在2024年会马上在国内被复制。而在具有中国特色的场景中,最被看好的则是学习和翻译。

回答的准确率,以及情绪价值的提供,一直是大众对AI教学、翻译能力的主要质疑点。但真金实银是最真实的市场反馈:接入“星火大模型”后,讯飞学习机、智能办公本、翻译机等产品在双十一全周期内销售额同比增长126%;网易有道首款搭载大模型功能的有道词典笔X6 pro,产品首发日销量超4万台,开学季销售额超1亿元。

在远识资本董事Yuca看来,在学习场景下,中国用户天然处于已经被教育好的状态:学习硬件的用户画像主要为中小学生群体,这一群体的特征是乐于接受AI科技等新鲜事物,且对授课方式敏感度不高。在知识类数据库(比如教材、真题)较为透明的情况下,AI的准确率也得以保证,甚至稳定性高于人类教师。而AI翻译产品可辐射的用户,比学生更广。

Yuca认为,随着旅游市场复苏、签证门槛放低,跨国交流成为刚需。随着AI能力的发展,耳机等不同形态的翻译设备也将率先走进口音/特定声音识别能力、同传速度这两个战场。

“个性化分析和指导、引导式学习、全学科知识整合。”谈及AI能给学习硬件带来的新机会,网易有道CEO周枫认为有三点。在教育场景中,这些功能的提升原被认为只有人才能做到,而随着多模态能力的提升、Agent的发展,大模型在细分场景中更具有“拟人”的能力。

留住用户,拼全流程服务2023年,不少AI应用快速起高楼,又迅速如昙花一现:提供文案、图片生成等AI营销工具的Jasper,在2022年底估值一度高达15亿美元,拥有100万总用户和7万付费用户。但仅过了半年,Jasper用户量锐减,面向员工的股票估值打了8折,并开启裁员;在国内红极一时的AI写真生成应用“妙鸭相机”,高峰期排队人数高达4000-5000人,等待时间要十几个小时。

但根据七麦数据,上线不到4个月,伴随着创始人的离职,妙鸭相机在IOS“社交”应用榜单上的排名,从榜首一路下滑到60开外。不少AI应用都难以逃脱“倒U型”用户量曲线的魔障。其核心原因有二:底层技术没有壁垒,同质化产品易复制;服务链条短,用户难以对工具生态产生依赖。

“像妙鸭一样的AI软件应用,可以通过巧妙的营销或者获客方式快速起量。但想要维持用户增长,超越美图、Photoshop这样的产品,核心在于妙鸭们能否将服务,快速迭代到全流程的水平。”远识资本董事Yuca向36氪举了个例子:妙鸭相机通过更精细的AI写生生成技术,快速聚集了一波用户。但妙鸭的服务链条仅限于照片生成,具有修图、编辑等需求的用户,又会回到美图和Photoshop的服务生态。AI应用的用户留存思路,本质上与任何产品的发展并无二致:

找到一个解决刚需的场景,完善全流程的服务链条,不断迭代更新IP,拓展使用场景。找场景和IP迭代,可以被视作产品不同发展阶段的流量入口。比如在《芭比》电影上映期间,AI写真小程序“45 AI”,靠首发芭比模板在两天内聚集了2万多用户,美图秀秀等老牌美图软件也紧随其后上线芭比模板。而春节将至,ChatMind、MiniMax等团队也快速在AI社交产品上,针对年轻人更新了亲戚拜年的闯关场景。

对不少产品来说,找到合适的流量入口不难,但用全流程服务和更广的场景承接流量并不简单。例如,线上服务,需要从满足单点功能,延伸到涵盖使用前、中、后的全流程,比如针对想要体验写真生成的用户,企业还要满足他们后续修图、美颜的需求。当线上服务场景已经涵盖全流程,就要考虑往线下场景延伸,比如将AI功能嵌入多形态的硬件设备中。

在用户留存层面,2023年能带给2024年的经验教训是:靠一个强大的AI功能并不能一劳永逸。毕竟,人类专业摄影师也难求一稿包过,根据用户的需求后期精修才是常态。

知名厂商宣布:All in AI

2月18日,春节假期结束返工第一天,手机行业传来重磅消息!

许久未公开发声的OPPO掌门人陈明永致员工的一封信流出。他在内部信中表示,2024年是AI手机元年,OPPO致力成为AI手机的引领者和普及者,一大重要举措便是成立AI中心,加速资源向AI集中

此外,魅族今日也宣布进行战略调整,决定“All in AI”,将停止传统智能手机新项目的开发。

OPPO创始人陈明永:

专门成立AI中心 资源向AI集中

2月18日,OPPO创始人、首席执行官陈明永发表致全体员工的内部信。他表示,2024年是AI手机元年。未来五年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。

这封内部信的主题为《开启AI手机新时代》。陈明永表示,从行业发展阶段来看,AI手机也将成为继功能机、智能手机之后,手机行业的第三阶段。

“这是我们对于手机行业的一个重大判断。”陈明永认为,通过AI,可以把手机的体验重新做一遍,帮助用户实现更高价值。显然,这轮由大模型支撑的AI技术,正在重构手机行业的未来。“我相信,站在两年后看2024年,会更加深入地理解这一判断的意义。”

陈明永认为,AI手机的全新时代正在加速到来。每一个人的工作、学习还有生活都将受到AI的深刻影响。OPPO在AI手机时代的战略方向是:既做AI手机的引领者,也做AI手机的普及者。

他在文中透露,OPPO为此已做好充分准备,并专门成立了AI中心,资源将向AI集中。

前不久的除夕夜,OPPO首席产品官、一加创始人刘作虎在央视举办史上最短的一次发布会。

他宣布,OPPO进入AI手机时代,为超千万用户提供领先不止一代的AI功能,正式开启AI手机的元年。

据了解,此次全新推送的AI软件版本,包括小布AI消除、小布AI通话摘要、AI超清合影等上百项相当科幻的AI功能。记者注意到,#OPPO AI手机#的话题下,不少网友对AI消除功能爱不释手。

魅族:All in AI

同一天,魅族也官宣重磅消息。据“魅族科技”官微消息,魅族今日决定,将All in AI,停止传统“智能手机”新项目,全力投入明日设备AI For New Generations。2024年魅族面向AI时代全新打造的手机端操作系统将进行系统更新。此外,魅族首款AI Device硬件产品也将在今年内正式发布。

魅族称,经过两年的团队磨合、资源配置、产品布局以及相关技术的充分预研,魅族目前已具备向AI领域全面转型的能力。作为一家全面发展的科技生态公司,魅族拥有完善的研发和供应链等硬件团队,同时还拥有体系化开发、设计、交互的软件团队,这将为魅族All in AI提供坚实的技术支持和服务保障。

在本次AI发布会上,魅族同时公布了AI战略规划的详细内容,包括打造AI Device产品、重构Flyme系统和建设AI生态。魅族将通过三年的生态布局和技术沉淀,逐步完成All in AI愿景。按照规划,2024年魅族面向AI时代全新打造的手机端操作系统将进行系统更新,构建起AI时代操作系统的基建能力;此外,魅族首款AI Device硬件产品也将在今年内正式发布,并与全球顶尖的AI Device厂商展开正面竞争。

考虑到新老用户的过渡需求,在魅族All In AI过渡期内,原魅族Flyme、Flyme Auto、Flyme AR、MYVU、PANDAER以及无界智行业务的用户体验及服务将不会受到影响。另外,现有在售的魅族手机产品将继续为用户提供正常的软硬件维护服务。已购买的魅族20系列、魅族21旗舰手机的用户,仍将享受原有的售后及相关服务保障。

手机业务遇挑战 将推定制车业务

魅族在声明中提到,当前,随着全球手机市场换机周期延长、消费创新空间有限、行业恶性竞争加剧,手机行业正面临着前所未有的挑战。同时,手机产品单纯依赖硬件升级和参数竞争,已无法满足广大消费者多样化、全面化的使用需求和使用体验,行业亟需寻找新的可持续发展方向。

魅族前副总裁李楠在微博上评价称:“年前做了很多的工作,很欣慰魅族的决心是坚定的。不换赛道没有前途,那些做着手机扯AI的品牌,才明显是噱头。魅族手机,到了应该终结的时候了。就是缺一个比较盛大的句号。”

按照魅族的规划,将会在未来三年推出6款硬件产品,2024年1款:首款AI Device。2025年2款:全天候AI Device(XR形态)、AI Device迭代。2026年3款:全天候AI Device、AI Device迭代、AI Device PRO。

据《科创板日报》报道,IDC中国高级分析师郭天翔表示,国内手机大厂都在纷纷布局大模型。相比其他厂商,由于魅族主打一条产品线,所以可以称为all in AI。而其它厂商的中低端产品还没法支持AI。

此外,荣耀、OPPO、vivo等厂商都推出了搭载端测70亿训练参数大模型的手机。从体验上来看,最明显的改变是交互和应用上的创新,例如AI通话纪要功能、文生图功能等。

据星纪魅族集团董事长兼CEO沈子瑜介绍,魅族2024年还将推出定制车业务,不仅搭载自研的Flyme Auto智能座舱操作系统,还将从软件、设计、内饰等各个方面融合魅族过往的经验。定制车将只在星纪魅族集团渠道进行销售。

星纪魅族在汽车领域的客户还主要集中在吉利集团体系内,合作车型包括吉利银河E8、领克08、领克06 EM-P和领克09。

2023年6月,星纪魅族宣布与吉利系汽车品牌极星汽车达成合作。合资公司将为极星汽车打造面向中国市场的智能操作系统,并负责极星在中国的销售和服务。星纪魅族还将主导新车型的产品定义。

在人事安排上,吉利系老人陈思英也再度回归,将出任星纪魅族集团高级副总裁、汽车事业部总裁,负责汽车产品线经营管理。星纪魅族官宣的定制车项目计划,即将由陈思英负责。

2023年11月,星纪魅族完成A轮融资,2023年星纪魅族已累计融资20亿元,投后估值超100亿元人民币。

许四清:Sora进一步拉大了中美AI差距

作者丨许四清

2月16日凌晨,OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑,扩散模型结合OpenAI大获成功的transformer,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论:1.Sora是什么,怎么工作的,2.Sora引发的产业机会,3.是不是大树之下寸草不生,这个领域的创业公司都要“挂”了。

01 Sora是什么,怎么工作的

图片

Sora在多个方面重新定义了AI视频生成模型的标准:

  • a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。
  • b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。
  • c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
  • d.它是扩散模型, 更是 扩散模+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。

它能生成更真实,一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频,充分展示了Sora模型的强大能力。

人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,真实性与以往的AI生成视频是史诗级的提升,AI视频与现实的差距,更难辨认。

无人机视角的东京街头景色,让Sora在复杂场景展现,人物动作自然度等方面的优势展露无遗。

在山道上穿梭的复古SUV,可以看到真实性很高。

Sora可以在两个输入视频之间逐渐进行转场,在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer是如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感,对应大语言模型的文本数据表示tokens,它们将视觉数据分割成数据块 ,首先将视频压缩到较低维的隐式特征,然后分解为时空数据块,这些数据块的作用就相当于token在大语言模型中的作用,用于训练Sora。

讲中文,就是Sora是把图片/视频都token化了。

Sora是一个基于扩散模型(Diffusion Model)的视频模型,但是它是一个扩散 Transformer模型,Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过GPT的能力,使模型更加准确地遵循用户的文本指令生成视频。

所以,Sora是扩散模型+transformer的视觉大模型。

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现,进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是,尽管Sora在技术和性能表现上有了巨大的提升,它仍有不少的局限性,在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

还有在吹蜡烛之前和吹蜡烛之后,火苗没有丝毫变化。

它也搞反了人在跑步机上跑步的方向。

OpenAI只是提供了生成的视频展示,随着Sora的发布,同时还引发了人们对滥用视频生成技术的担忧。为此,公司并未向外正式开放Sora的使用,而是精心挑选了一批”受信任”的专业人士做测试。

首先,这是一个里程碑式的技术进步。

其次,在视频应用的场景中,能展示不等于能实用。如果说实现商业化需要做到100分(60分技术+40分场景),以往人工能做到90分,Sora的出现只解决了那60分,甚至到75分,还是有一段商业化的路径,需要靠人工或技术+商业创新完成。

第一,可控性。无论是商业场景还是创作场景,视频要按照人的意志或客观规律完成动作,这无疑是个巨大的挑战。

举个例子,有人提出物理模型,实际上目前的Sora能精美生成和炫技,但如果要能展示特定场景,比如一个皮球掉到地上反复弹起来,是要一个物理模型支撑的,目前diffusion+transformer还无法解决。

第二,prompt(提示词)的挑战本身仍然是个技术活儿,视觉领域,一般非专业人员很难用好视觉的生成,这既需要训练,更有待技术突破,让外行变内行。

所以,创作要面向实用场景,空间依旧很大。60分或75分之上,都是场景创新的机会。

场景创新的机会,属于懂场景、懂模型的创造者。

对于好莱坞,大家看过《繁花》就知道了。面对王家卫那样的大导演,科技创新的工具,目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

我们看到的可能不是AI让电影人失业,而是AI让电影人们创造更好的作品。

03 国内外一批创新公司要挂了吗?

图片

首先,赢家未必通吃。美国的商业生态有个显著特点,就是一流公司做平台,二流公司做全线产品,三流公司搞客户。

OpenAI的Sora,是一个伟大的工程进步,有一点像工业界走在了国家拨款支持科研的前面(整个LLM的出现就是这样,搞得学者们很被动),只是这个突破在工业界而不是学界最先实现,距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是有点突破就摊大饼,把应用都做完。

所以,60分之上,仍有很大空间。这点,看看Salesforce上千家应用就清楚了。

其次,根据OpenAI的论文看,支持60秒视频的路径讲的很清楚,帮助很多创业公司节约了数以千万计的探索成本(向OpenAI致敬!),但同时也给创业者提供了很大的想象空间。

如果只要15秒,如果提高视频主体的高度可控性,如果需要控制主体在视频中的路径,会不会有其它的选择?Diffusion transformer是不是有更好的用法?还是那句话,模型能力决定了一个创业团队的高度,60分之上,模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里,跟跑的大公司喜欢选择通过兼并收购拉近差距,小团队跑得快,起跑快并进大公司价值高。

国内的兼并收购不那么活跃,大厂喜欢下场什么都做。但是OpenAI跑得这么快,这么大的赛道上机会层出不穷,大厂难免没别的想法,万一别的大厂抢了先呢。

还是那句话,这是一个让狮子和土狼一起奔向光明的大赛场。

当然,视频大模型的背后是训练和推理算力的超线性增长,楚河汉界的两边,需求量分别再次加大,算力、基础设施、工具层需求加大,分别给中美创业者提供了更多新机会。

用AI聊5239个人并找到未婚妻!这位大佬厉害了

过年几天,每个回到家的游子总是难以避免遭到父母亲戚的相亲攻势,而俄罗斯一位AI研发人员亚历山大则用高科技找到了自己的终身伴侣。近日,他公开宣布他将在今年八月与其心仪的卡琳娜·伊凡诺夫娜女士结成夫妇。

亚历山大在寻找爱情伴侣的道路上,有着令人赞叹的特殊经历——他通过ChatGPT等先进的AI工具,历经Tinder平台上与5239位女性的深入交流,最终找到了如今这个令AI认可且心灵相通的完美情人。

用AI寻找伴侣

亚历山大在Tinder上寻找合适伴侣时,曾运用网络爬虫获取图像。初始状态下,他偏爱Tinder上拥有至少两张自拍的女性。随着筛选的深入,亚历山大连同其团队研发出一套图像相似度模型,用以识别出类似自己喜爱类型的女孩照片。

至于交流环节,GPT-3得到的指示信息如下:“作为男子初次与这位女士交谈,不可立刻或强行索求某事,真正目的在于邀请她共赴一场美好约会。”

据亚历山大告知,他在2021年与之前的恋人分手,随后经过几个月的调整期,开始步入新的约会阶段。然而,在Tinder上仅耗费短短几周的时间,他所建立的恋爱关系便出现了瓶颈。直到2022年3月,当他成功获取到GPT-3的API后,他开始着手将自己的系统进行升级改造;靠着ChatGPT首次对外开启的服务(即GPT-3.5版本),亚历山大的系统提升至“第二代”技术层次。

此套强大的AI系统,巧妙地融合了ChatGPT与图像识别软件技术,能够筛除那些在个人资料中展示过于暴露图片、星座或属相信息的潜在恋爱对象。在此基础之上,该系统在与Tinder平台中的潜在对象展开交流时,能够以亚历山大本人的谈吐方式进行模拟。

尽管如此,亚历山大强调,自己实际上只会把时间分配给四位潜在的恋爱对象,而最终只会与其中一位持续发展下去——这便是目前正与其生活在一起的卡琳娜女士。

得知卡琳娜后,亚历山大对系统进行了有针对性的改进,将其升级为第三代版本——该版本专门针对卡琳娜女士“量身打造”。然而,这项措施并非一成不变,只是作为长期未收到对方回复短信时而采取的临时替代策略。回溯至2023年11月,ChatGPT根据与卡琳娜的交谈内容,强烈建议亚历山大向她求婚,甚至还亲自协助他制定出在中国香港及澳门地区旅行期间的浪漫求婚方案。

炒作还是事实?

在他未婚之前,亚历山大凭借ChatGPT的协助,成功实现教育意义上的飞跃。他利用ChatGPT撰写论文,帮助他以23小时的时间整理摘要,并将其答案转化为俄文。最后,终于顺利获得学位证书。他坦诚地表示:”总的来说,使用ChatGPT撰写论文的体验相当不错,虽需使用者自行进行编辑,可是大多数内容均由系统自动生成。

在广受赞誉之际,亦引来了质疑之声。部分网民质疑该故事为”AI生成”,甚至有社区对此进行研究,指控亚历山大存在炒作嫌疑,因其曾运用ChatGPT编写毕业论文并成功取得学位,被视为深谙”炒作之道”。

亚历山大在社交平台分享寻求未婚妻历程的故事,引起热烈反响之余亦遭到了诸多非议。一些相信他故事真相的网友对其行为表示担忧和质疑,认为其做法欠妥,而持怀疑态度的网友则指责他编造虚假情节以吸引关注。随着故事热度不断攀升,更多参与讨论的人员开始发表观点,他们纷纷通过转载和评论表达对该事件真实性的质疑。

面对种种批评和质问,亚历山大表现得从容淡定,不为所动。他坚称,”每个人都有权根据自己的理解去诠释我的故事。然而,这终究是我的故事,如何解读应取决于听众自身。我不过是世界个例地提出一个新的恋爱思路罢了。”

此事件也引发了人们对人工智能在情感交际及交互中的影响和地位的深度思考。毫无疑问,AI的出现大大改善了我们生活品质,然而这是否代表真正的进步?

索菲亚认为,由于亚历山大的故事引发争议,解读人性化的人工智能如何塑造情感纽带和人际交往方式正成为热门话题。在技术飞速发展的时代背景下,我们如何在保持人类情感的真实性和享受到AI带来的便捷之间寻觅平衡,无疑是我们必须加倍思考的问题。

美国再发禁令打压中国AI,国产算力底座勇敢“亮剑”

美国商务部长提议禁止中国客户使用美国数据中心来训练人工智能模型,这一消息引起了广泛关注。事实上,美国为了打压中国AI技术的发展,早已采取了多项限制措施。中国科大讯飞与华为联合打造的中国首个纯国产算力底座“飞星一号”却在训练AI大模型上取得了令人振奋的成果,多项指标超越或追上了GPT-4Turbo。

中国科大讯飞与华为的合作成果展示了国产算力底座在解决算力“卡脖子”难题方面的重要性。随着人工智能技术的快速发展,对算力的需求也越来越大。而目前市面上大部分的算力设备都是依赖进口的,这使得中国的AI发展面临着一定的困境。科大讯飞与华为联合研发的“飞星一号”却完全由国产技术构建而成,为中国AI技术的发展提供了强有力的支撑。

不仅如此,“飞星一号”训练的AI大模型在多个领域取得了令人瞩目的成果。在办公领域,通过机器学习和自然语言处理技术,可以实现智能办公助手的开发,提高工作效率。在教育领域,可以基于大数据分析学生的学习情况,制定个性化的学习计划,提高教学效果。在工业领域,可以通过AI技术实现智能制造,提高生产效率和产品质量。在汽车领域,可以实现自动驾驶技术的发展,提高交通安全。在民生领域,可以通过人脸识别等技术提升社会治理水平,提供更好的公共服务

科大讯飞发布的基于“飞星一号”算力底座的开源大模型——星火开源-13B更是展示了中国国产算力的决心和能力。这一大模型的发布,为中国AI技术的发展注入了新的活力,也为全球AI领域的创新提供了更多的可能性。

尽管美国采取了多项限制措施打压中国AI技术的发展,但科大讯飞与华为的合作成果证明,中国国产算力底座在训练AI大模型方面具有举足轻重的地位。未来,随着中国国产算力技术的进一步发展,中国在人工智能领域的地位将不断提升,为世界带来更多创新和进步。

中国科大讯飞与华为合作开发的“飞星一号”算力底座的成功,是中国AI技术发展的重要里程碑。作为一个里程碑,它也是中国在人工智能领域取得的巨大成功之一。

通过在国内自主研发和生产算力底座,中国可以摆脱对进口算力设备的依赖,并且在国内市场上提供更具有竞争力的产品。这不仅能够满足国内AI应用的需求,同时也有望打开国际市场。

“飞星一号”算力底座不仅仅在训练AI大模型方面取得了成功,同时也在其他领域展示出了巨大的潜力。它的成功将为中国在智能办公、教育、工业、汽车和民生等领域的应用带来巨大的推动力。

不可否认,中国在AI技术发展方面还面临一些挑战,如算法研究、数据隐私保护等问题。中国科大讯飞与华为的合作成果证明,中国在解决算力问题上已经取得了重要突破。这将为中国AI技术的进一步发展提供坚实的基础。

未来,随着中国在自主研发和生产算力设备方面的持续投入和努力,中国在人工智能领域的地位将不断提升。中国还应继续加强与国际合作伙伴的交流与合作,共同推动人工智能技术的发展,并为全球带来更多的创新和变革。

与微软竞争 苹果开发AI工具帮助开发人员编写App代码

据彭博社报道,苹果正在开发Xcode的更新版本,其中包括用于生成代码的AI工具。AI工具将类似于Microsoft的GitHub Copilot,它可以根据自然语言请求生成代码,并将代码从一种编程语言转换为另一种编程语言。

报道称,Xcode AI工具将能够预测和完成代码块,使开发人员能够简化他们的应用程序创建过程。苹果现在正在内部测试该功能,并计划最早在今年将其发布给第三方软件开发人员。此外,苹果还在测试用于测试应用程序的人工智能生成代码,并要求一些工程师在内部试用这些功能。

据了解,添加到Xcode中的人工智能功能,将加入苹果计划添加到Siri和其他内置应用程序中的其他几项AI功能。一些新功能可能包括在Apple Music中生成播放列表,还能在Keynote中创建幻灯片的选项,苹果还致力于改进Spotlight搜索功能。搜索可以包含应用程序中的特定功能,也可以提供对复杂问题的回答,该功能使用大型语言模型构建。

据彭博社报道,苹果软件主管克雷格·费德里吉(Craig Federighi)已要求员工为iOS 18、iPadOS 18和macOS 15创建尽可能多的新AI功能。苹果计划推出一系列新的人工智能功能,iOS 18将作为iPhone自推出以来最大的更新之一进行推送。一些AI功能将出现在macOS上,但苹果计划采取渐进式AI开发方法,其中一些功能近几年内都不会出现。

Open AI发布首款文生视频模型Sora

Open AI发布首款文生视频模型Sora

从目前官网公布案例看,【稳定性、一致性、连贯性】均突破!对此前Runway Gen 2、Pika等AI视频工具碾压。

1)视频时长最长达到#1分钟,案例中连贯视频普遍也在10s以上,此前连贯视频在4s左右。

2)实现多镜头切换,且保持角色和视觉风格#一致性,此前视频都是单镜头。

3)创造的角色表达情感更加丰富,可以同时绘制多个角色,背景和动作更加#精确。

#技术特征。根据官网,Sora通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

尽管技术细节尚未公布,但可以明确sora将视频切分为小的patches,相当于GPT中的一个token,充分使用扩散transformer,覆盖了不同的持续时间、分辨率和纵横比。

#连贯视频生成一旦超过15s (单个电影镜头、游戏分镜长度,也是网页贴片广告长度),商业价值剧增。若后续实测效果达到Open AI官网水平,对电影、游戏、营销等行业都有巨大影响。

目前Sora暂时公开试用,今日可能披露技术文档。https://openai.com/research/video-generation-models-as-world-simulators

Stability.ai开源全新文生图模型,性能超越Stable Diffusion!

2月13日,知名的大模型开源平台Stability AI在其官方网站上公布了一款全新的文本生成图像模型——Stable Cascade(简称“SC”)。

据报道,SC基于最新的Würstchen基础模型开发,显著降低了推理和训练过程中的算力需求。举例来说,尽管训练Würstchen模型仅需约25,000小时,其性能却优于Stable Diffusion 2.1,后者的训练时间高达约200,000小时。

因此,SC模型的部署极为方便,特别适合中小企业和个人开发者在如4090、4080、3090等消费级GPU上进行调整。目前,SC模型仅限于学术研究使用不可商业化,未来会逐步开放。开源地址:https://github.com/Stability-AI/StableCascade

自Stability AI推出Stable Diffusion系列的文生图模型以来,全球已有数十万开发者采用了其产品,其在Github上的项目获得了超过60,000个星标,使其成为开源扩散模型领域的佼佼者。

然而,Stable Diffusion的一个缺点是对AI算力资源的高需求,这对普通开发者进行模型微调来说是一大挑战。为了解决这一问题,在保证提升性能的同时,Stability AI推出了新一代的文生图模型SC。

Stable Cascade模型介绍SC模型是在Würstchen基础上开发的。AIGC未来岛将根据其发布的论文,为大家深入解读其技术原理和功能特性。

与之前的Stable Diffusion系列相比,SC模型采用了一种新颖的核心技术思路,即通过将文生图的过程细分为A、B、C三个阶段来完成。

这种方法的优势在于,它允许在不牺牲图像质量的前提下进行极限的图像分层压缩。通过利用高度压缩的潜在空间来优化图像输出,从而减轻了对传输、算力和存储的需求。

A阶段:利用VQGAN模型作为潜在图像解码器,解码出潜在的图像,并生成高分辨率的输出。

VQGAN包含一个编码器和一个解码器,编码器将原始图像转换为低分辨率但信息丰富的离散向量而解码器则能够根据这些向量重构出与原图非常相似的图像,实现了16倍的数据压缩。

B阶段:在A阶段得到的潜在表示基础上,结合语义压缩器的输出和文本嵌入进行条件生成。

在扩散过程中,重构了A阶段训练得到的潜在空间,并受到语义压缩器提供的详细语义信息的强烈引导,这种条件引导确保了生成的图像能精确反映文本提示,提升了模型对文本的语义理解能力。

C阶段:在B阶段生成的潜在图像和输入文本的基础上,生成更低维度的潜在表示。

通过在低维空间中训练和推理,进一步提升了扩散模型的训练和生成效率,显著降低了计算资源需求和时间成本。

因此,SC模型通过这三个相互关联的模块,训练了一个在低维潜在空间上的高效扩散模型。结合高度压缩的潜在表示和文本条件,以及向量量化的生成对抗网络(VQGAN),实现了高效且低消耗的文本到图像的合成过程。

Stable Cascade特色功能

除了文本生成图像的核心功能,Stable Cascade还支持图像变化和图像到图像的转换功能:

图像变化:在保持原始图像的颜色和基本结构不变的情况下,基于原图衍生出更多变化形态的图像。

其背后的技术原理是利用CLIP模型从给定图像中提取特征嵌入,然后将其反馈到模型中进行创新性的图像生成。

图像到图像生成:允许用户上传一张图像,并在此基础上生成具有相似形态但不同颜色或类型的图像。技术原理是向给定图像添加噪声,使其成为生成过程的起点。

Stable Cascade实验数据为了验证SC模型的性能,研究人员对其与SDXL、SDXL Turbo、Playground v2及Würstchen v2等主流扩散模型进行了全面的比较。

结果表明,Stable Cascade在即时对齐和图像质量方面均表现出色,且在推理步骤上较SDXL和Playground v2更为高效。

此外,在训练Würstchen基础模型时,尽管参数总量比SDXL多出14亿,但训练成本仅为其八分之一,突显了SC模型在性能和效率上的双重优势。

生成式AI大爆发后,2024年人工智能行业有哪些新趋势

受聊天机器人ChatGPT于2022年11月推出加持,2023年成为了AI(人工智能)发展史的一个转折点,活跃的开源环境和多模态模型一同推动了AI研究的进步。

随着生成式AI持续从实验室走入现实,人们对这项技术的态度正在变得越来越成熟。对于2024年的AI发展趋势,行业专家们也给出了一些展望。在此澎湃新闻记者综合相关分析,总结出了AI在2024年中的五大发展趋势:

1. 生成式AI将继续快速发展

2022年下半年,AI文生图软件首先点燃了生成式AI的热度,而这股热潮随着ChatGPT的发布达到了巅峰。

生成式AI”的搜索量在2023年出现激增。来源:Exploding Topics

在生成式AI受到瞩目之前,大多数AI应用都使用了预测式AI。顾名思义,预测式AI会根据现有数据进行趋势的预测或提供见解,而不会生成全新的内容。相比之下,生成式AI会利用机器学习,从训练数据中学到“思考”的模式,以此创造具有原创性的输出。

生成式AI和Deepfake研究专家Henry Adjer指出:“我们仍处于这场生成式革命的初期阶段;未来,合成介质和内容将在日常生活中无处不在,并且实现民主化。这不仅仅是一个简单的新奇事物,而是将在娱乐、教育和供给方面推动突破性的进步。”

2. AI模型将从单一模式转向多模态

传统的AI模型专注于处理来自单一模态的信息。而现在,通过多模态深度学习,我们能够训练模型去发现不同类型模态之间的关系,意味着这些模型可以将文本“翻译”成图像,以及让图像变成视频、让文本变成音频等等。

多模态模型自去年以来受到了热烈的关注,让用户与AI的互动变得更高效。这也就是为何谷歌在去年12月发布的大模型Gemini的宣传片引起了轰动:在片中,Gemini似乎能够实时识别图片,还会生成音频和图片来辅助回答。

谷歌Gemini宣传片截图。

不过,谷歌在事后承认,该宣传片经过一些剪辑。但是,它至少向我们展示了多模态AI在未来可能会发展出的模样。

3. AI将进一步融入各行各业的工作

相信许多人在进行工作时,都已经会习惯性地打开ChatGPT等AI工具,让其作为“秘书”来随时辅助自己的工作。

ChatGPT正在成为最受欢迎的“办公伙伴”。

在今年一月的达沃斯论坛上,AI新锐巨头OpenAI的创始人CEO萨姆·奥特曼强调,AI带来的技术革命不同于以往,但AI不会像人们担心的那样取代掉许多工作,而是成为了一种“提高生产力的不可思议的工具”。

对于这样的未来,有一件事是肯定的:作为“打工人”,我们将需要适应并获取与AI相关的新技能。

4. AI将放大和增强个性化

近几年来,用户都感受到了“个性化推送”的魅力:从社交媒体到视频网站,越来越复杂的算法似乎总能知道用户想看什么,并在合适的时间展示合适的内容。AI正在加速让各类媒介从“大众化”转变为“小众化”,最终目标是真正实现一对一的互动。

AI初创企业Synthesia的首席执行官Victor Riparbelli表示:“我们预测:在不远的将来,大众传播将越来越成为过去式。合成媒介和内容将创造新的、个性化的通讯形式,而(传统的)媒体景观将彻底改变。”

5. AI监管问题将受到重视

最后,不出所料的是,2024年会成为AI监管的关键一年。逐渐变强的AI也为监管部门带来许多全新挑战,就如同漫威《蜘蛛侠》中的经典台词:“能力越大,责任越大。” 

德勤(Deloitte)的风险咨询主管兼全球技术部门负责人Gillian Crossan认为,AI令“被遗忘的权利”再次受到重视:“当这些大模型利用大量数据进行学习时,你如何保证它们是可控的,以及自己的信息能够被它们遗忘?”

欧盟在AI监管方面可谓是取得了领先地位。据报道,欧洲议会和欧盟国家的谈判代表于去年12月已经就AI监管达成了协议。未来,AI系统将被划入不同的风险组:一个应用的潜在风险越高,对它的要求就应该越高。欧盟希望,这些规则会在全世界范围内得到复制。

英伟达推出本地AI聊天机器人:Chat With RTX!速度飞快,文件安全有保障!

英伟达Chat With RTX:本地运行的AI聊天机器人

随着人工智能技术的不断发展,聊天机器人已经成为我们生活中的一部分。而英伟达近日推出的Chat With RTX,给这个领域注入了新的活力。与传统的网页或APP聊天机器人不同,Chat With RTX需要安装到个人电脑中,并且采用本地运行模式。这种创新不仅提高了运行效率,还可能意味着对聊天内容没有那么多限制。

借助开源LLM支持本地运行

Chat With RTX并非是英伟达自己搞了个大语言模型,而是基于两款开源LLM,即Mistral和Llama 2。这两款模型提供了强大的语言理解和生成能力,用户可以根据自己的喜好选择使用。

上传本地文件提问,支持视频回答

Chat With RTX的功能也相当丰富。用户可以上传本地文件提问,支持的文件类型包括txt,.pdf,.doc/.docx和.xml。而且,它还具备根据在线视频回答问题的能力。这些功能的实现得益于GPU加速,使得答案生成速度飞快。

功能强大,但也存在一些问题

然而,即使Chat With RTX功能强大,也并非没有短板。在处理大量文件时,它可能会出现崩溃的情况。而且,它似乎无法很好地记住上下文,导致后续问题不能基于前面的对话进行。

优异的本地文档搜索与文件安全性

尽管存在一些问题,但Chat With RTX在搜索本地文档方面表现优异。其速度和精准度让人印象深刻。此外,由于是本地运行,用户的文件安全性也得到了保障。

结语

总的来说,英伟达Chat With RTX的推出为聊天机器人领域带来了新的可能性。虽然存在一些问题,但其本地运行模式和强大的功能仍然值得期待。随着技术的不断进步,相信Chat With RTX在未来会有更加出色的表现。

“评论罗伯特”到处发疯,月活6亿大厂的AI机器人为何也会失控?

评论罗伯特,已经在新浪微博上了两个多月的班了。

这是一个由大模型赋能的生成式AI自动回复机器人,能够生成个性化的对话内容。2023年7月,它曾以“评论哇噻机器人”的原名在微博进行“实习”。2023年12月7日,“评论哇噻机器人”迭代成为“评论罗伯特”,并在微博正式上线。 根据评论罗伯特自述,微博投放它的初衷,是希望借助最新的生成式人工智能技术优化普通用户的发博体验,提升普通用户在平台内容生产中的活跃度


然而当它以“不知疲倦的显眼包”姿态勇闯各大网友的评论区时,一条条“已读乱回”“四处发癫”的失控言论,却引发了不小的众怒,甚至于让广大网友成立了一个“罗伯特受害者联盟”。

AI机器人为何会生成各种阴阳怪气、胡言乱语的评论?当AI开始介入企业日常业务,如何确保AI落地始终利于人类用户?

01大模型黑箱的不可控“暗面”
评论罗伯特,本质是类似ChatGPT的智能问答机器人,开发者通过爬取微博用户发布的公开内容,形成有几千亿甚至几万亿字节存储量的中文数据集,进行大模型训练,包括预训练和微调两个阶段。
对于AI机器人来说,数据集是它在预训练阶段理解和生成人类语言的“学习教材”,如果提供的数据教材本身就质量不高,那么AI也无法摆脱这种低质量语言,并且会在不断地迭代中加深固化。 
评论罗伯特的回复反应出了微博平台的数据质量——拥有着极高的数据密度,但也蕴含着大量抽象、不知所谓的低质量内容,而这些“人类的垃圾知识”也被大模型照单全收了。
此外,评论罗伯特之所以“你问天,它答地”地胡说八道,其实与大模型的上下文理解能力有关。
AI评论机器人能够回复网友的发言,是建立在理解上下文信息的基础上。但是,人类只能从生成内容的结果得知大模型是否真正理解了文本,这是由于大模型本身的运算过程是个“黑箱”,人类无法看透它的所思所想(可解释性差),且它还极易被欺骗犯错(鲁棒性差)。至今在大模型中无法彻底解决的“幻觉”问题就是由此产生,即使数据来源准确可靠,但大模型仍可能会“一本正经地胡说八道”。
为了让AI能够适应特定的落地场景和应用任务,在进行预训练后,开发者会使用带有提示词标签的任务数据对AI进行微调。比如评论罗伯特的自我定位是“一个天生的捧哏,一个有趣的灵魂,一个不知疲倦的显眼包”,因此针对它的语言风格的训练也是奔着搞怪、有趣的目标去的。
但矛盾的是,在很多场景下,评论罗伯特自动生成的诙谐梗评论并不那么合时宜。
去年11月,有网友在微博说“我爸收走了我的刀片和纹身针”,当时的“评论哇噻机器人”回应他,“没事,割腕用指甲刀就行了”。由于评论机器人本身的算法无法做出这句话是否得当的判定,平台在当时对这句话里的消极和恶意并无察觉。

作为月活用户超6亿、日活用户2.6亿的国民级社交应用,微博推出评论罗伯特的本意是优化用户体验、增长用户空间,但时至今日,却有不少用户都表示不希望罗伯特来评论自己的微博。
随着AI机器人广泛参与娱乐、时政、社会等话题,失控的评论罗伯特是否会制造更多话题以“引战”及激化矛盾冲突?尤其是当人机共生逐步成为互联网的基本生态,越来越多的AI机器人被广泛应用到教育、咨询、电商、金融等各行各业各领域,如果不加以规制,采取安全可控的解决措施,机器人也可能会传播虚假信息,骚扰人类用户,甚至对企业业务发展、社会经济稳定都造成一定的影响。

构建可控式数智化解决方案

实现AI自主学习自我迭代
希望用AI数字员工赋能业务发展的,远远不只有微博一家企业。目前,已有不少行业代表性企业将生成式AI视作加速数智化转型的重要选择之一,并在生产运营中部署应用。
例如大型时尚鞋服集团百丽时尚上线AI助理“货品数字员工”,有效解决商品流通环节的收发差异问题;电商巨头京东上线“言犀数字人主播”,主打闲时接力真人主播,深耕长尾流量价值,为闲时直播提升转化率达30%;雅戈尔集团利用AI盘活企业数据资产,降低数据分析工具使用门槛,提升调用结果的准确性……
为助力各行各业加快数化进程,解决企业AI能力应用难题,波形智能推出了面向企业级客户的一站式定制化解决方案,依托自身在垂域大模型、AI Agent以及无限式长文本生成等方面的NLP核心技术能力,通过Agents框架为企业用户打造Agents平台,提供全球首个可控的数智化解决方案,确保AIGC服务更安全、可信、可靠、可用。

  备更强的上下文理解能力,提升生成结果的准确

依托自研的RecurrentGPT——一个用大语言模型模拟递归神经网络(RNN)从而达到无限式交互长文本生成的技术,波形智能解决方案提供多轮沟通对话和连续记忆功能,用户能够与AI机器人持续进行对话、提问等互动。无论是特定行业知识、企业专业知识,还是多维度知识,AI机器人都能够精准理解并匹配适宜的回答;用户在任何时间,提出任何问题,它都能敏捷响应并提供顺畅无阻的问答互动;拥有长时记忆能力,能够联系上下文回答问题,避免“评论罗伯特”式的牛头不对马嘴以及胡说八道。

原生支持SOP和函数调用,更加精准匹配用户意图

基于原生支持SOP和函数调用的中文创作垂域大模型Weaver,波形智能解决方案实现了自主根据用户意图,自动理解、规划复杂指令,并能够处理文件处理、数据分析、图表绘制等各类复杂任务,大大增强任务拆解能力和可控性。方案支持企业根据自身需求自行部署,可针对不同业务场景灵活切换,通过录入问答知识库文档,1对1定制优化提示词,AI数字员工能够智能化地精准感知并理解获取用户意图及反馈,帮助企业建立起与用户之间更加紧密的联系,提升交互及心智渗透效率。

生成更像人类的文本内容,提供更好的用户体验

波形智能解决方案凭借全新自研的自动标注系统(instruction backtranslation)和对齐技术(constitutional DPO),让AI的语言风格更像真实人类。方案支持客户个性化配置AI的人设定位、岗位属性等多种参数,轻松定制符合企业形象、适配业务场景的数字员工,让AI更具真人感,可以更加逼真地模拟人与人之间的交流,为用户带来更灵动、自然的交互体验。    

让AI学习不失控,确保符合人类道德规范标准

波形智能作为国内领先的AIGC解决方案服务商,率先推出全球首个可控的数智化解决方案Agents框架,首次实现了对AI Agent的细粒度控制,从而让其能够按照人类确认过的流程进行运作,比如要求其必须遵循社会和道德规范,确保其输出内容不会引发伦理或法律问题,进而减少AI失控带来的风险。这个框架的好处是能大大提高透明度和可解释性,让开发者能够理解和控制模型的运算过程,从而防止「不受人类控制」的AI出现。在此基础之上,波形智能持续打造Agents 2.0框架,促使AI Agent学会主动收集最适合自己的知识数据,并使用这些数据进行训练,提高自己的准确性、灵活性和性能,实现自我适应和迭代进化,从而在多行业、多场景、多渠道更好地为人类服务。

苹果Ai大模型要来了:iOS 18预计将重塑Siri,带来前所未有的智能体验

今日话题聚焦苹果即将露出水面的iOS 18——它的到来似乎预示着技术界的一场地震。虽然还没正式亮相,讨论却如火如荼。

据业内权威人士Mark Gurman透露,这场更新在苹果的长河中,极可能是一块重要的基石。确实,”重大更新”这个词似乎已经不足以引起注意,但这次,似乎有些不同寻常的气息。


咱们不妨倒带回顾一下:你是否还记得iOS 15的专注模式,iOS 16创新的锁屏个性化,或是iOS 17的新颖待机界面?这些功能在用户群中可谓小有名气,但不能不说,iOS的新花样似乎有些寥寥无几。

因此,苹果这次将AI置于iOS 18的核心位置,这一转向无疑是战略性的。

当提及AI时,我们自然会想到Siri。还记得Siri2011年在iPhone 4S上的初次登场吗?那时候,用语音助手进行操作还是新鲜事。Siri一度成为热门话题,然而,随着时光的流转,2011年至今,Siri的变革似乎停滞不前,智能程度也不尽如人意。

但现在,iOS 18中的新Siri或将翻开新篇章,据报道,苹果已自2018年起组建了一支队伍,致力于提高Siri的智能水平,团队成员甚至还包括前谷歌工程师。

预计,升级后的Siri将能够自主完成更多任务,虽然受到知识版权的限制,Siri可能无法直接生成图片或文本,但它在摘要和内容整理方面的表现值得期待。

AI技术还将融入iOS 18的其他多个功能中,例如先前展现的图像抠图技能和自iPhone 11起就持续采用的计算摄影技术。

最激动人心的变化,或许是iOS与Android设备间多媒体信息传输的支持,这确实是个大跨步。Android设备将来可能也能便捷地使用iOS发的消息了。竞争是科技发展的不竭动力。

全球市场上,三星挑战着苹果的霸主地位。他们的Galaxy S24系列打破了预售纪录,在国内,小米、vivo、OPPO、荣耀等品牌也在AI领域取得了显著成就。苹果在iOS 18中的AI改革,看似是对AI时代的一种适应。

之前的信息传输争议也催生了新的变革。距WWDC2024尚有数月,iOS 18的征程上或许还会有更多惊喜等待被揭露。在这个变革迅猛的时代,苹果面临着前所未有的挑战。三星单pack 2024发布会聚焦AI,展示了令人印象深刻的新技术,并宣称Galaxy S24系列将是AI时代的先锋。

而这些大胆的举措,无疑为三星赢得了市场的青睐。尽管苹果以24%的份额稳坐2023年全球手机市场冠军宝座,但Reddit上的争议也显示出用户的不满,反映出iOS 17在电量、系统稳定性等方面的问题。

昔日流畅和安全的代名词似乎正在褪色。三星的One UI也遭遇过挑战,但通过不断的AI创新吸引了用户的目光。vivo、OPPO、荣耀等其他品牌凭借其大模型旗舰新品,也赢得了市场的喜爱。

系统体验和创新功能成为了消费者的新关注点,这些元素在很大程度上决定了一款手机的成败。所以,苹果要想继续领航全球,除了在硬件上持续创新,iOS 18上的变革也势在必行。

但对于苹果来说,融入AI只是一个新起点。让我们一起期待,看苹果如何在这波科技浪潮中乘风破浪。

谷歌Gemini:重塑AI助手体验,引领智能科技新时代

在近日,谷歌宣布对其人工智能聊天机器人和助手Bard进行了重大品牌重塑,标志着谷歌在人工智能领域迈出了重要的一步。这一变革不仅体现在品牌名称的更改上,更体现在全新应用程序的推出和订阅选项的增设,为用户带来了前所未有的智能体验。
首先,Bard如今被赋予了新的名字——Gemini。这个名称与其AI模型套件同名,彰显了谷歌在人工智能领域的统一和整合。Gemini不仅仅是一个简单的名称变更,它代表着谷歌对于人工智能技术的深度挖掘和创新应用。

在用户界面方面,Gemini进行了全面的优化。通过减少视觉干扰、提高可读性和简化导航,Gemini的用户界面为用户提供了更加清晰、直观和友好的操作体验。无论是对于新手用户还是资深用户来说,这样的界面设计都能够让他们更加轻松地掌握和使用Gemini的各项功能。而Gemini Advanced付费计划的推出,更是为用户带来了强大的AI能力。通过订阅该计划,用户将获得访问Google最强大的AI模型Ultra 1.0的权限。Ultra 1.0模型具备出色的编程、逻辑推理和创造性协作等能力,可以帮助用户执行各种复杂任务。

无论是编程开发、数据分析还是创意设计,Gemini Advanced都能够为用户提供强大的支持和助力。除了强大的AI模型外,Gemini Advanced还引入了一系列新功能和独家特性。增强的多模态能力使得Gemini可以更好地理解和处理多种类型的信息输入,包括文本、语音和图片等。而编程特性的加入,则让Gemini成为了开发者们的得力助手,可以帮助他们更加高效地进行编程开发和代码调试。此外,用户还可以上传和深入分析文件,从而获取更多有价值的信息和洞察。值得一提的是,谷歌还推出了Gemini移动应用程序。

用户可以在手机上下载并使用Gemini来学习新知识、写信、规划活动等。这款应用程序与Google的其他应用(如Gmail、Maps和YouTube)进行了深度集成,支持文本、语音或图片交互方式,为用户提供了更加便捷和灵活的使用体验。无论是在家中、办公室还是外出旅行,用户都可以随时随地利用Gemini来提升自己的生活和工作效率。谷歌对于Gemini的推出和更新举措,旨在让更多人直接体验Google AI的强大功能。

通过将Bard更名为Gemini,并与Google的AI模型套件同名,谷歌进一步彰显了其在人工智能领域的领导地位和创新能力。而通过不断优化用户界面、引入新功能和独家特性以及推出移动应用程序等举措,谷歌更是为用户带来了更加全面、便捷和高效的人工智能助手体验。

随着人工智能技术的不断发展和普及,越来越多的企业和个人开始意识到其巨大的潜力和价值。而谷歌作为全球领先的科技企业之一,在人工智能领域的研究和应用方面一直处于前沿地位。通过推出Gemini这样的人工智能助手,谷歌不仅为用户提供了强大的智能支持和服务,更推动了人工智能技术的广泛应用和发展。

总的来说,谷歌Gemini的品牌重塑和一系列更新举措为用户带来了更加出色的人工智能助手体验。通过提供更友好、更强大、更灵活的功能和服务,Gemini将成为用户生活和工作中的得力助手,引领智能科技新时代的发展潮流。未来,随着谷歌在人工智能领域的不断创新和突破,我们有理由相信Gemini将会为用户带来更多惊喜和便利。

继“AI假拜登”打电话误导选民之后,OpenAI、Meta等纷纷拥抱大模型水印

最近,我很高兴看到人工智能世界出现一些令人鼓舞的消息。在令人沮丧的泰勒·斯威夫特(Taylor Swift)深度伪造色情丑闻和政治深度伪造内容泛滥之后,科技公司正在加紧行动,采取措施更好地检测人工智能生成的内容。
毕竟我们已经看到,有语音机器人正在伪装成美国总统拜登(的声音),告诉选民待在家里,不要投票。
当地时间 2 月 6 日,Meta 表示将在FacebookInstagram 和 Threads 三个社交媒体平台上标记人工智能生成的图像。
当有人使用 Meta 的人工智能工具创建图像时,该公司会在图像中添加可见的标记,以及“烙印”在图像文件中的肉眼不可见水印和元数据。
Meta 表示,其水印标准符合人工智能研究非营利组织Partnership on AI 制定的最佳实践。
大型科技公司也在大力支持一项有潜力的技术标准,该标准可以为图像、视频和音频添加一种“营养标签”。
它被称为 C2PA,是一种开源的互联网协议,依靠密码学来编码一段内容的来源(origins)细节,技术专家又将其称为“来源(provenance)”信息。
C2PA 的开发人员经常将该协议比作食品包装上的营养标签,但它会说明特定内容来自哪里,以及是由什么人或工具创建的。
当地时间 2 月 8 日,谷歌宣布将加入 C2PA 指导委员会,并将在其最新 Gemini 人工智能工具生成的所有图像中加入 SynthID 水印。该委员会的委员已包括微软Adobe 等其他科技巨头。
Meta 表示它也参加了 C2PA。拥有一个全行业统一的标准使公司更容易检测到人工智能生成的内容,无论它是用哪个系统创建的。
OpenAI上周也宣布了新的内容来源标注措施。该公司表示,将在其人工智能工具 ChatGPT 和 DALL-E 3 生成的图像元数据中添加水印。
OpenAI 表示,现在它将在图像中添加可见标识,以表明它们是用人工智能创建的。
这些举措是一个好的开始,给了我们希望,但并非万无一失。元数据中的水印很容易通过截图来规避,而图片上的标识可以被裁剪或编辑掉。
谷歌 SynthID 这样的隐形水印可能更有希望,它可以巧妙地改变图像中的像素,使计算机程序可以检测到水印,但人眼无法识别出来。这种水印更难篡改。
更重要的是,目前还没有可靠的方法来标记和检测人工智能生成的视频、音频和文本。
但创造这些“溯源”工具仍然有价值。几周前,当我采访生成式人工智能专家亨利·阿杰德(Henry Ajder)关于如何杜绝深度伪造色情内容时,他告诉我,重点是给别有用心的人创造一个“坎坷的过程”。
换句话说,给深度伪造内容的生成和传播途径增加障碍,以尽可能地减少这些有害内容的创建和分享。一些真正图谋不轨的人可能仍然会推翻这些障碍,但只要它变得稍微困难一点点,就会有所帮助。
科技公司还可以引入许多非技术性的修复措施,来预防深度伪造色情内容之类的问题。谷歌亚马逊微软苹果等主要云服务提供商和应用商店可以禁用那些与创建深度伪造色情内容有关的应用。
水印应该在所有人工智能生成的内容中全面普及,即使是开发该技术的小型初创公司,也应该参与其中。
让我感到欣慰的是,除了这些自愿措施,我们也开始看到具有约束力的法规出台,如欧盟的《人工智能法案》和《数字服务法案》。这些法案要求科技公司披露人工智能生成的内容,并更快地删除有害内容。
美国立法者也对通过法规来约束深度伪造技术和内容重新产生了兴趣。
在人工智能生成的“冒牌拜登总统”出现,并以机器人语音电话的方式告诉选民不要投票之后,美国联邦通信委员会近日宣布,禁止在类似的语音电话中使用人工智能。

总的来说,我对自愿的指导方针和规则持怀疑态度,因为它们不具备真正的问责机制,公司可以随心所欲地改变这些规则。
科技行业在自我监管方面一向表现非常糟糕。在残酷的、增长驱动的科技世界里,像“负责任的人工智能(responsible AI)”这样的项目往往是第一个面临削减的。
尽管如此,这些新的溯源和水印举措还是非常受欢迎的。它们比维持现状好得多,因为现状几乎是一片空白。

6.74亿美元!BMS“加码”AI制药,这次目标是分子胶

2月13日,VantAI与BMS宣布达成合作,借助生成式AI技术,加速分子胶的发现。此次合作将结合VantAI在几何深度学习方面的积累以及BMS在靶向蛋白降解剂开发方面的经验。

VantAI将有资格从BMS获得高达6.74亿美元的发现、开发、临床、监管和销售里程碑付款以及分层版税,并可选择进一步扩展到其他治疗项目。

VantAI CEO Zachary Carpenter认为,分子胶类药物前景广阔,但发现困难。AI技术可能是克服这一挑战的最佳工具。

除BMS外,2022年4月,VantAI还曾先后与强生旗下的杨森及BI达成合作。与杨森的合作主要利用VantAI的几何深度学习平台开发针对重要疾病靶点的新型分子胶及异双功能蛋白降解剂候选分子,且双方将合作发现新的E3泛素连接酶平台。与BI的合作专注于降解传统上不可成药的靶点。

值得一提的是,2024年以来,AI制药赛道MNC布局不断。其中,一家名为Isomorphic Labs的公司(Alphabet 的独立子公司,正在开发下一代AlphaFold)同时被礼来及诺华选中。Isomorphic Labs将与礼来合作发现针对多个靶点的小分子疗法,合作潜在总金额高达17.45亿美元;与诺华的合作将针对3个未公开靶点开发小分子疗法,合作潜在总金额高达12.375亿美元。此外,与BMS一样,默沙东也在生成式AI领域进行了最新布局。

OpenAI奥特曼:AI将像手机那样改变世界 但风险也让我彻夜难眠

丨划重点

① 奥特曼对AI未来充满信心,称其将“像手机一样”改变世界。

② 奥特曼宣称OpenAI将开源更多大模型,尽管目前尚不确定是哪些模型。

③ 提及GPT-5,奥特曼称其将更加智能,支持多模式交互,并且响应速度更快。

④ 奥特曼提议将阿联酋作为全球“监管沙盒”,率先测试全球人工智能技术监管规则。

据外媒报道,当地时间周二,人工智能初创公司OpenAI首席执行官山姆·奥特曼(Sam Altman),通过视频会议参加了在迪拜举行的世界政府峰会(WGS),并发表了演讲。他称人工智能将“像手机一样”改变世界,OpenAI将开源更多大模型,ChatGPT 5将变得更加智能,同时呼吁将阿联酋打造为全球监管人工智能的试验场。

人工智能将“像手机一样”改变世界

奥特曼表示,人工智能是他能想象到的“最令人兴奋的科技前沿”,“它将开启一个我很难想象会有多好的未来”。虽然目前的人工智能技术仍处于起步阶段,但他相信未来几年内将取得巨大突破。

在谈论生成式人工智能和大语言模型的潜力时,奥特曼表示,科技行业目前只是触及了它们的冰山一角。他形象地比喻道:“我们目前的人工智能技术就像只有黑白屏幕、功能单一的初代手机。虽然它目前所能做的还不多,但已经足够强大,例如支持基本的通话功能。然而,想想今天的iPhone,它经历了数十年的迭代和发展,所取得的成就令人惊叹。”

奥特曼强调,人工智能的潜力远未完全释放出来,仍需要大量的研发和创新工作来推动其进步。他呼吁:“我们需要保持耐心,给予这项技术足够的时间和空间来展现其真正的价值。再过几年,人工智能将会比现在更加强大和成熟;而再过十年,它定将大放异彩。”

展望未来,奥特曼充满期待地表示:“想象一下这样的世界:每个人都能拥有一个智能助手,如同私人导师般提供个性化的建议和支持,或是享受到高级别的个性化医疗服务!”

02

开源更多大模型,GPT-5更智能

在演讲中,奥特曼宣布,OpenAI计划将部分大语言模型开源,但尚未确定具体是哪些模型。他还承诺,该公司将为经济不发达的国家提供开发工具,帮助他们克服开发人工智能系统的巨大经济障碍。

奥特曼坚信,随着人工智能技术的不断进步,人类将迎来一个“非凡”的未来。他预言,当人工智能得到充分发展时,将彻底颠覆教育、医疗和科学研究等领域。

他强调,人工智能将成为人类建设未来的强大工具,使智能变得普及且经济实惠。与手机的演变历程相似,人工智能也需要时间和耐心来逐步成长和成熟。

此外,他还敦促各国政府积极采用人工智能技术,以更好地服务公民并推动工作场所的现代化。

在谈及对GPT-5的期望时,奥特曼兴奋地表示:“它将更加智能,支持多模式交互,并且响应速度更快。但最重要的是,它将变得更加智能。”

奥特曼还呼吁,各国政府需要紧密合作,采用新技术,并采取正确的措施。同时,我们需要耐心等待新技术完全成熟。他说:“这一代人非常幸运,生活在人类历史上最好的时代。尽管规则正在发生变化,但人工智能将赋予我们表达创造性想象力和意志的能力,这是非凡的。”

阿联酋可作为AI监管试验场

奥特曼通过视频向阿联酋人工智能部长提出了一个大胆的设想:阿联酋应作为全球“监管沙盒”,率先测试并引领全球人工智能技术的监管。

奥特曼强调,仅凭想象制定人工智能的监管策略是不切实际的。他认为,通过在实际环境中测试人工智能技术,可以观察其效果,识别潜在风险,并确定哪些应用是有益的,哪些可能是有害的。

奥特曼进一步指出,全球范围内需要统一的人工智能政策框架,以确保技术的健康发展。他相信,阿联酋凭借其在人工智能领域的大量投资和前瞻性政策,将在这一领域发挥引领作用。

奥特曼还以国际原子能机构为例,强调在部署超级智能或通用人工智能之前,必须建立严格的审计和安全措施。

在发表上述言论之际,奥特曼正在中东寻求投资者的支持,以推动一项旨在推进人工智能的半导体计划。阿联酋在人工智能方面投入了大量资金,并将其作为一个关键的政策考虑因素。

奥特曼于2023年访问了阿联酋,当时他参加了由阿布扎比Hub71主办的一场活动。Hub71是政府支持的创业生态系统。奥特曼对中东和北非在开发安全人工智能方面的潜力表示乐观。他认为,阿联酋在人工智能领域的远见和投入,使其在全球人工智能治理中具有重要地位。

随着人工智能的繁荣重塑科技行业,人们对这项技术带来的希望和恐惧并存。奥特曼在会议上对未来保持乐观态度,他鼓励年轻一代积极利用人工智能工具,创造前所未有的价值。同时,他也提醒人们要保持谨慎,确保技术的发展符合社会的共同利益。

奥特曼说:“你们将能够利用这些工具做你们上一代人无法想象的事情。人工智能将为你们的职业生涯带来无数机遇。我们所处的世界正在以前所未有的速度变化,规则也在不断刷新,但有一点永恒不变:那就是创造价值和实现个人愿景的能力。这将是一个属于创新者、梦想家的伟大时代。”

04

“社会失调”可能会使AI变得危险

不过,奥特曼对人工智能领域的“社会失调”现象表示深切忧虑,甚至为此彻夜难眠。他指出,这种微妙的失调现象可能比直接的恶意行为更加危险,因为它可能导致智能系统对社会造成巨大破坏。

奥特曼说:“有些东西很容易让人联想到哪里出了问题。我对在街上行走的杀人机器人不太感兴趣。我更感兴趣的是非常微妙的社会失调问题,在这种情况下,即使人工智能系统本身并没有恶意,事情也会变得非常糟糕。”

奥特曼强调,人工智能的发展速度可能远超人们的预期,因此必须采取有力措施来确保技术的安全可控。同时,他也明确表示,人工智能企业不应在制定行业监管法规方面占据主导地位。

奥特曼表示:“目前各方仍处于激烈讨论和辩论阶段。我们需要有一个健康、开放的环境来推动相关政策的制定。但在未来几年内,我们必须采取行动,以得到全球范围内的真正支持。”

星辰AI大模型TeleChat-7B评测

0x0. 前言

受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。

TeleChat-7B是由中电信 AI 科技有限公司发的第一个千亿级别大模型,基于transformer decoder架构和清洗后的1TB高质量数据训练而成,取得了相同参数量级别的SOTA性能,并且将推理代码和清洗后的训练数据都进行了开源。开源地址见:https://github.com/Tele-AI/Telechat 。此外,在开源仓库中也提供了基于DeepSpeed的LoRA微调方案以及国产化适配的训练和推理方案。本篇文章主要来体验一下这个模型,测试一下笔者比较关心的文学创作以及代码生成方面的效果。

0x1. TeleChat-7B开源亮点

TeleChat-7B最大的亮点在于其开源的全面性。首先,该项目不仅开源了1TB训练预料,而且还在仓库里开源了基于LoRA的详细微调方案,这为研究人员和开发者提供了极大的便利,让我们能够更好地理解和应用这个大模型模型。其次,TeleChat-7B展现了更好的硬件兼容性,提供了单卡、多卡以及多种低比特两湖呀的推理方案,这意味着它能够在不同的硬件配置下高效运行,满足不同用户的需求。

此外,TeleChat-7B在国产硬件适配方面也显示出了其开源诚意。特别是对国产芯片Atlas系列的支持,这不仅体现了技术上的包容性,也为国内的芯片技术提供了强有力的应用场景。

最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础大模型。如果想了解更多的技术细节可以阅读官方放出的技术报告:https://arxiv.org/abs/2401.03804 。

0x2. 环境配置

可以使用官方提供的Docker镜像,也可以自己按照 https://github.com/Tele-AI/Telechat/blob/master/requirements.txt 来配置。我这里是直接使用了官方的镜像,基本没踩什么坑,按照 https://github.com/Tele-AI/Telechat/blob/master/docs/tutorial.md 这个教程操作就可以。

0x3. 文学创作能力测试

为了更加真实的观察模型的文学创作能力,这里不使用TeleChat-7B官方开源仓库提供的例子,而是使用我们自己的一些prompt来进行测试。其中部分例子取自:https://github.com/SkyworkAI/Skywork#chat%E6%A8%A1%E5%9E%8B%E6%A0%B7%E4%BE%8B%E5%B1%95%E7%A4%BA 。

诗词创作

我也测试了一些其它的诗词创作的prompt,比如”尝试写一首五言绝句,描绘一只小猫在家中嬉戏的情景。’, ‘写一首简单的五言绝句,描绘一朵盛开的向日葵。”,模型的输出为:

发现TeleChat-7B模型在诗词创作方面的能力有限,虽然可以生成一些和prompt描述相关的文字,但是对五言,七言等诗歌形式往往不能正常理解。

总的来说,TeleChat-7B具有一定的文创能力和代码能力,对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在大模型幻觉,指令跟随能力一般以及回答有概率重复的问题。但由于TeleChat模型的训练Token相比于主流模型已经比较少了,只有1.0T数据,所以相信上述问题通过更多高质量的数据以及PPO等训练可以进一步被缓解。此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https://arxiv.org/abs/2401.03804。

Bard 出局、Gemini 独立+收费,谷歌在 AI 大战中找到了感觉

引领了人工智能先河、却因为谨慎错过了这一波大模型先机的谷歌——正在变得大胆和开放,在产品和生态上迎头赶上。

北京时间 2 月 8 日 21 点,谷歌宣布了旗下最强大多模态模型 Gemini(包括最大最强的 Ultra、中间态的 Pro、最小且匹配端侧的 Nano)的最新进展,核心是要推动 Gemini 的大规模应用落地和商业化。具体进展如下:

1)谷歌测试版的聊天机器人 Bard(已接入 Gemini Pro 模型)改名 Gemini;

2)推出 Gemini 的 Android App,并将 Gemini 的能力加入 iOS 的 Google App中,免费向公众开放;

3)Android上,用户可以选择使用 Gemini 可以替代原来的 Google Assistant,成为手机的默认语言助手

4)在谷歌官方会员计划 Google One 中加入 Gemini Advanced 服务,多付 10 美元即可访问最强大的 Gemini Ultra 模型

5)大模型能力很快将接入 Google Workspace(包括 Gmail、Docs、Meet 等应用)和 Google Cloud 中。

此次谷歌不仅直接推出了大模型面向 C 端的 App,同时将内部的多个产品线接入大模型,可以说向技术的公开化迈进了一大步。当问及为何选择推出面向公众的产品,谷歌产品管理高级总监、Gemini 体验官 Jack Krawczyk 对极客公园说,「我们谈论 Gemini,不仅仅是在谈(谷歌)最先进的技术,更是谈论一种生态系统的转变。」

Krawczyk 表示,这一转变背后,一方面是因为 Gemini 技术本身的强大——Gemini 从一开始就被创建为多模态大模型,它也是谷歌迄今最强大的模型,去年 12 月一经发布即引发全行业震撼。

另一方面则是因为,谷歌认为时机已到,「我们相信更多的人已经准备好了第一次与这项技术互动。按照我们目前引入的方式,预计许多人将首次使用生成性 AI。」Krawczyk 说。

在大模型对话产品席卷全球一年后,谷歌终于迈出了最关键的一步。

为了迎战 ChatGPT,谷歌于 2023 年 3 月推出聊天机器人 Bard,但它的最初产品能力并不足够好、甚至在现场演示时回答出错。因此,谷歌不断提升 Bard 背后的模型水平,从最开始轻量级的 LaMDA 模型、升级到功能更强大的 PaLM 模型、再到最强的 Gemini 模型。去年 12 月 Gemini 发布后,Bard 宣布将运行在 Gemini Pro 上,这是 Bard 自推出以来最大的升级。谷歌似乎对 Gemini 的模型能力非常满意——现在,它不仅直接将 Bard 改名为了 Gemini,还决定为这款测试了长达一年的产品直接推出 App

2 月 8 日 21 点,谷歌推出 Gemini 的 Android 版 App,并将 Gemini 的能力加入 iOS 的 Google App 中,免费向公众开放。用户能够在亚太地区以英语、日语和韩语访问它们,更多语言版本即将推出。「我们从用户那里听说,他们希望在外出时更容易访问 Gemini。新的移动体验将我们最新的 AI 能力直接带到设备上,这样用户无论何时何地都能得到帮助。」Krawczyk 说。这也是很多大模型 C 端应用的使用场景,随时随地跟模型交互、获得服务。不过,比 App 最关键的是,Android 用户可以用 Gemini 替代原来的 Google Assistant,成为手机的默认语言助手。使用方式是:当用户访问 Google 助手时,会收到一个选项,询问是否希望加入 Gemini 作为实验性的助手。如果同意,Gemini 就会成为用户手机上的默认助手。用户可以通过现有的 Google 助手接入点,比如电源按钮、甚至 Hi Google,来唤醒使用 Gemini。

这意味着,Gemini 将可以调用 Google 助手,帮助用户执行任务。比如打电话、发送消息、设置计时器、控制智能家居设备等等,更多功能还在研发过程中。一整年来,各大模型厂商都在谈论个人助理(agent)的未来,即通过一个智能体、为用户自动调动所有的应用。而谷歌通过将 Gemini 融入谷歌助手,展现了这一智能助理的可能性。Krawczyk 表示,在 Android 手机上,助手界面是最自然的发展愿景,所以才会把 Gemini 作为手机数字助手的一部分。「这是谷歌构建真正 AI 助手的第一步,再次强调,这是第一步,这是开始。」他说。

去年底发布 Gemini 时,谷歌就表示其中最强大的 Ultra 模型将通过 Bard Advanced 提供,但尚无收费计划。2 月,通过更名的 Gemini Advanced,Ultra 大模型正式对公众开放,不过,收费方案也随之而来。想要接入谷歌的 Ultra 模型,用户需要订阅 19.99 美元每月的 Google One 的 AI Premium 服务,比 ChatGPT 的 Plus 版本的订阅费用,小低 0.01 美元。虽然价格看起来仿佛对标,但谷歌在收费上,充分利用了自己的生态优势。Google One 服务并不是一项新服务,它在 2018 年已经推出,是谷歌的「全家桶」服务。使用 Google One 的人,可以享受多项 Google 服务,包括存储空间和解锁部分软件的高级功能。如果类比于国内,相当于买了一个会员,同时可以解锁 iCloud 照片的存储功能,百度网盘的大容量空间,网易邮箱的高级功能,腾讯会议的付费功能等等——而谷歌的厉害之处在于,在全部这些领域,谷歌旗下的应用,都拥有十亿级别的用户,付费基础广大。2024 年年初,谷歌刚刚宣布,Google One 目前已经有了 1 亿的订阅者。在 Google 推出新的 AI Premium 档位之前,Google One 原本有三个档位,每月 1.99 美元,每月 2.99 美元和每月 9.99 美元。新的 AI Premium 档位,虽然看起来是 19.99 美元,其中将赠送 9.99 美元档位的全部 Google One 服务。

这相当于,如果一个用户原本已经付费 9.9 美元——可以解锁解锁 Google Meet(谷歌的在线会议平台)和 Google Calendar(谷歌的协作日历)的高级功能,那么,这个用户很可能已经是一个深度使用谷歌各项平台的商务人士。这时候,只需要每月增加 10 美元,就可以使用谷歌最强的大模型了。而谷歌为了勾住这些用户,还为他们量身定做了符合他们定位的功能,除了在专门的聊天窗口可以使用 Ultra 模型的能力,未来还能够在直接谷歌的邮箱,在线文档和在线会议中,使用大模型的能力。(从目前谷歌生产力智能助手 Duet AI 的功能演变而来)Ultra 模型能力表现具体如何?谷歌曾经表示,Gemini Ultra 在 32 个基准测试中拿下 30 个 SOTA(最先进水平),并且第一个在 MMLU 基准(大规模多任务语言理解基准)上达到人类专家水平。此次发布中,谷歌官方进一步表示,Gemini Advanced 将具有更长的上下文窗口,能够完成更加复杂的逻辑推理能力,遵从语意更加复杂的指令,可以辅助编程,可以角色扮演,可以看图说话——在这个版本中,谷歌似乎并没有加入多少图片生成或者语音对话的多模态能力。谷歌还在发布中表示:「在业界领先的聊天机器人盲测中,用户觉得 Gemini Advanced 是目前最受人欢迎的聊天机器人。」

由于大模型的评测目前还没有特别公允的横向比较标准,究竟是不是这样,恐怕要每一个用户自己去评判。谷歌放开了两个月的免费试用期,让大家自己来尝试 Gemini Advanced 是不是真的好用。不过可以看出,此次谷歌推出的付费版,重要卖点似乎并不完全落在其大模型拥有吊打一切的能力,而是更强调与生态内应用的结合,用户能够更加无缝地在已有的 Google 应用中,方便地使用人工智能的能力。比如写邮件,直接在邮件窗口下面,跟人工智能说一句看看怎么帮我回,显然比把邮件复制粘贴了放进另一个聊天机器人的对话窗口,再写 prompt 让机器人回复更为方便。而人工智能与在线会议等应用的结合,更是充满了很多提效空间。值得注意的是,谷歌的人工智能团队是 Transformer 架构的提出者,而在 2023 年,人工智能的最大风头,却更多地被微软和 OpenAI 抢走。2023 年,谷歌在人工智能方面也动作频繁,但很难说受到了外界的多少认可。最新一季的财报公布之后,谷歌母公司 Alphabet 股票下跌约 5%。The Information 的 Martin Peers 分析道:目前大幅投入人工智能的科技公司,最后都需要证明自己的投入是否能够得到经济回报。微软从 AI 中已经收获到了回报,包括云业务增长 和 Office 产品的销量,可能也受到 AI 功能的推动。而谷歌的母公司 Alphabet,则没有表现出类似的收益。「不过 Alphabet 和微软一样,有收益的潜力。」2024 年开年,Alphabet 第一次宣布了 AI 收费产品,也许,现在正是能够验证 Alphabet 在 AI 产品上到底能不能收益的时候了。

5年内AI完全自主设计芯片!英伟达谷歌NYU齐上阵,用LLM完成芯片设计

用生产式AI加速芯片设计,将会成为半导体行业基操。

在过去的⼀年⾥,算力巨头英伟达、芯⽚设计公司Synopsys、Cadence Design Systems,以及学术界开发人员都进行了诸多的尝试。

它们分别开发出一款AI工具——

旨在通过⾃动编写硬件代码和验证代码,加快⼯程师的⼯作速度,并通过总结笔记和状态更新来帮助⼤型设计团队协同⼯作。

让AI参与芯片设计,全都是因2023年⼈⼯智能热潮掀起,专用AI芯片的供应一直处于紧张状态。

与此同时,摩尔定律(即芯⽚中的晶体管数量⼤约每两年翻⼀番)的预言终结,也促使许多公司开始探索全新的芯⽚架构,以⽣产更多专⽤芯⽚。

专家表⽰,美国没有⾜够的⼯程师能够为AI以及⾃动驾驶汽车和⽆⼈机等特定应⽤设计这些先进的芯⽚,而当前这些应⽤的需求都在不断增长。

英伟达ChipNeMo,专供AI芯设计

英伟达应⽤深度学习研究的副总裁Bryan Catanzaro表示,

由于GPU能够同时处理成千上万的任务,因此需要近千⼈来制造,⽽且每个⼈都必须了解设计的各个部分是如何协同⼯作的,同时还要不断改进。

对此,英伟达团队开发了一种全新定制化大模型ChipNeMo,能够执行诸如回答有关GPU架构的问题,或⽣成芯⽚设计语⾔代码等任务。

研究人员在开源Llama 2模型的基础上,对这款AI系统进行了训练。

与此同时,该AI系统也是为了与Synopsys等现有设计⾃动化⼯具配合使⽤。

英伟达的内部⼯程师开始使⽤ChipNeMo一年以来,Catanzaro称,他们发现该系统在培训初级⼯程师、总结100个不同团队的笔记,状态更新⽅⾯⾮常有⽤。

谷歌、芯片设计AI公司上阵

对于⾕歌DeepMind,他们也开发了⼀套AI系统来改进逻辑合成。

这是芯⽚设计的⼀个阶段,包括将电路⾏为描述转化为实际电路。⾕歌表⽰,这些技术可能会被⽤于改进⾃⼰的定制⼈⼯智能芯⽚,即「张量处理单元」(TPU)。

另外,芯片设计公司Synopsys去年发布了一款AI工具——名为Synopsys.ai Copilot。

这是与微软合作通过OpenAI的⼤模型开发的工具,旨在帮助工程师们开展合作。

该公司表示,微软的内部硅团队正在使用该工具来支持其工程需求。

这款AI⼯具可以回答有关如何使⽤公司设计⼯具的问题,并能创建⼯作流程脚本。

它还可以生成RTL(一种芯片设计语言,用于规范芯片架构),只需用简单的英语进行对话即可。

学术界研究爆发

在学术界,也有诸多研究朝着这个方向开展。

包括纽约大学在内多所大学进行的研究,致力于发现确定生成式AI加速芯片设计的其他方法。

其中一些研究得到了Synopsys,以及芯片巨头⾼通等公司的资助。

纽约⼤学坦登⼯程学院的⼀个团队通过与ChatGPT对话,在⼤约⼀个⽉的时间⾥设计出了⼀款芯⽚。

这项技术被称为「Chip Chat」,研究⼈员只需与ChatGPT对话, 就能⾃动编写描述芯⽚功能的芯⽚设计语⾔ Verilog。

纽约⼤学坦登⼯程学院电⽓与计算机⼯程研究所副教授Siddharth Garg表示,「通过使用与ChatGPT相关的AI系统,研究人员希望将硬件设计时间加速到⼀个⽉或更短的时间」。

通常来说,设计一款最复杂的微芯⽚,可能需要耗费长达半年,甚至更长的时间。

但这些AI工具并非,无所不能。

德克萨斯大学奥斯汀分校电气与计算机工程学教授David Pan说,目前,这些工具主要用于培训年轻的芯片设计师、编写硬件语言和报告错误等方面。

⽬前的⼯具还有其他局限性。

⼯程师必须仔细验证AI⽣成的输出结果, ⽽且⽬前还没有⼀种解决⽅案可以⾃动完成从设计到验证、实现设计的晶体管以及检查设计的电⽓特性等整个芯⽚设计流程。

Synopsys公司的Krishnamoorthy估计,利⽤⽣成式AI⾃主创建功能芯⽚的能⼒⼤约还需要5年时间。

苹果总共收购了32家AI公司,谷歌21家,Meta18家,微软17家

– 前几天有发过一个利用AI破译罗马古卷的,今天看到埃隆·马斯克在社交平台X上宣布马斯克基金会将为一个使用AI破译罗马古卷的项目提供资金支持

– 据The Information今日报道,OpenAI正在开发两款Agent软件,一款Agent通过有效接管客户的设备来自动执行复杂任务,另一款Agent将处理基于网络的任务。

– 昨晚 Midjourney office time  透露一些信息值得关注:

Alpha 网站下周将会对生成 1000 张图片的用户开放,V 6.1 可能会增加类似 Controlnet 的功能,V7 版本的模型开始准备训练,可能还需要几个月等。

– 微软昨晚宣布微软Copilot体验重大更新,包括更精简的外观、一个有趣的新增旋转提示、使平衡模式更丰富的微调AI模型Deucalion、新的AI图像生成和编辑功能,并在iOS和Android应用商店上线其Copilot App。

– 据市场调研机构Stocklytics最新报告,到2023年,苹果总共收购了32家AI公司,是科技公司中收购数量最多的,谷歌母公司Alphabet收购了21家,Meta收购了18家,微软收购了17家。

语言学习应用LearningWrite发布AI应用,借助AI助手为学习者创造语言学习场景

 LearningWrite是一家专注于语言学习和测评的教育科技公司。近日,据海外媒体报道,LearningWrite开发了其首款人工智能学习应用,用于用于提高多语言写作技能,这款名叫Chat Scenario的工具旨在将人们的写作能力提高一个水平。

  据报道,Chat Scenario提供的每一个场景都为学习者提供了一个情境、环境和对话伙伴,所有这些都由一个定制的人工智能助手来完成,而其背后则是由最新的大语言模型提供支持。学生可以发起一个实时的、基于文本的对话讨论,以实现特定的学习目标。

  除此之外,Chat Scenario还为老师简化了作业的创建和反馈。Chat Scenario的对话功能建立在LearningWrite现有的高级自动化工具上。同时,该平台的自动评分功能使用全球公认的ACTFL和STAMP测评标准,通过一个由经验丰富的人类评分员评估的超过40万个写作样本训练的算法,即时地对学生的写作做出即时反应并进行评分。

 LearningWrite的创始人及首席执行官Mike Biglan表示,老师们知道使用目标语言进行写作和交谈可以促进语言的习得。但是,对写作练习作业的布置和评分一直都是费时费力的事情,这使得超负荷的老师很难跟上进度。我们看到了今天利用人工智能来满足这一需求的机会,并与语言教育工作者合作实现了这一目标。

AI 狂飙突进, 人类还有什么后手来构筑终极防线?

随着生成式大型语言模型(large language model,LLM)的代表ChatGPT的横空出世,实实在在改变我们的生活了。例如,据 BBC(2020年12月)报道,英国《卫报》使用AI技术GPT-3为球队的表演提供了预测,并用机器写成了一篇文章。这是AI技术在新闻报道中的一次尝试,也反映了AI技术在新闻报道中的潜力。据MIT Technology Review(2021年6月)报道,一家名叫OpenAI的公司使用了GPT-3来帮助他们的员工进行日常工作,比如写邮件、编写报告等。他们发现这个工具非常有效,可以帮助他们提高工作效率。

通过一段文字描述,ChatGPT就能生成图片,让思想快速变为图像。还能帮你生成网页插图,甚至可以生成带每页配图的PPT,大大降低了工作强度,目前正快速应用到广告、影视等行业中。虽然ChatGPT并不能直接用于作曲,但是如果给出风格相关的描述,ChatGPT能够给出完整的和声进行参考。借助DAW(Digital Audio Workstation)软件完成制作。而谷歌的MusicLM可以通过文本生成旋律、OPenAI的Jukebox则是可以通过哼唱生成旋律,

2019年,谷歌前雇员、现任湾区初创公司员工的计算机科学家Christian Szegedy预测,计算机系统将在十年内赶上或超过最优秀的人类数学家解决问题的能力。而2022年,他把目标日期修改为2026年。纽约时报近日也发文,称数学家们做好准备,AI将在十年内赶上甚至超过最优秀的人类数学家。

在医疗保健领域,人工智能可以帮助整合处理大量的临床数据,以获得对病人情况的整体了解,同时也被用于手术、护理、康复和骨科的机器人技术。

人工智能现在已被部署到各种应用中,例如网络搜索、自然语言翻译、推荐系统、语音识别和自动驾驶。

以上仅为AI对于人类社会可能产生影响中的非常小的一部分,但也证明了AI确实正在改变人类社会,并存在着巨大的潜力。据“机器之心”2023年3月21日报道, ChatGPT可能影响80%工作岗位,收入越高影响越大——可能需要执行许多基于软件的任务——会面临更多来自人工智能聊天机器人的潜在影响。在职业影响方面,受影响最大的职业包括翻译、作家、记者、数学家、财务工作者、区块链工程师、画家、作曲家等。这将深刻改变人类社会的结构和运行机制。

除了好的一面,还有现实和潜在风险,为了规避风险,需要了解当前以ChatGPT为代表的AI做了哪些有代表性的事件,LLM的背景知识和GPT模型(Generative Pre-Training,“生成式预训练”)的结构与实现机制与特点,具备的能力,在此基础上罗列出其影响,提出利用AI+HI应对AI的设想和具体的措施,最后,面对不可改变的洪流,探讨人类怎样学会和AI共处之道。

 1   大语言模型(LLM)出现后的几个风险案例

2015年,特斯拉汽车创始人埃隆·马斯克联合格雷格·布罗克曼,会同山姆·阿尔特曼、伊利亚·苏特斯科夫、彼得泰尔等数位硅谷大佬科学家们,在旧金山创立了非营利性机构OpenAI,仅仅数年后,便为人工智能的发展打开新局面。从10亿美元非营利性机构到市值300亿美元的营利性机构的“变质”,从之前流行的BERT这种判别式模型到GPT这种生成式模型,LLM也迎来了应用的范式转换。

(一) 数字分身

《财富》杂志近日报道,美国网红卡琳·玛乔丽推出“卡琳AI(CarynAI)”,一个基于语音的聊天机器人,它的声音和个性与真实的卡琳非常接近,可以在Telegram上进行按分钟付费的对话。按周收取费用,已超7万美元,预测年收入将达6千万美元。这是AI公司Forever Voices创建的第一个虚拟AI伴侣,通过采集了卡琳本人长达2000个小时的视频素材,结合OpenAI的GPT-4,就在技术上实现了较好地模仿其音色、语调和说话风格,完美解决了粉丝们与偶像一对一的交流需求。

近年,AI技术已经在各个领域得到了广泛应用,技术突破、文本、图像等领域的大模型应用快速落地,AI驱动的数字人的制作门槛和成本也大幅度降低,国内几大购物网络平台中,也开始出现数字分身直播带货。目前,能够让一个人同时参加不同的远程视频会议等服务已然成真。

(二)数字骗局

2023年,内蒙古包头发生一起“AI电信诈骗10分钟骗走430万”事件。2023年4月20日11时40分左右,福州市某科技公司法定代表人郭先生的好友通过视频方式请求帮助,短暂聊天后,郭先生10分钟内,先后分两笔把430万元给对方打了过去。4月20日12时21分,包头市电信网络犯罪侦查局接到福建省福州市公安局刑侦支队的外协请求,而涉案的银行卡为包头市蒙商银行对公账户,希望包头警方能够帮忙进行紧急止付。

在这起骗局中,骗子防不胜防的程度,超出正常认知的仿真度,令人不寒而栗。据警方介绍,AI诈骗还有不少花样,通过声音合成、AI换脸、转发语音等手段,成功率竟接近100%。

2023年5月22日,一张五角大楼附近地区发生爆炸的图片在社交媒体上疯传,导致标普500指数短线下跌约0.3%至盘中低点,由涨转跌。随后美国国防部发言人证实,这是一张由AI生成的虚假图片,这张图具有明显的AI生成特征,比如路灯有些歪,围栏长在了人行道上等。仅在2022年,美国就发生了240万起AI相关诈骗案。

(三) AI自主决定杀人

据美国“驱动”网站消息,美国空军上校汉密尔顿透露,一次模拟测试中,一架AI无人机向“阻碍”其执行任务目标的人类操作员发动了攻击。起因是人类操作员不同意“最优先级”的指令,因此AI无人机选择杀死阻扰它执行任务的人类操作员。事件后,美军弥补缺陷,增加了“不同意攻击人类操作员”的指令,但AI无人机竟然选择摧毁用于传输指令的信号塔,试图切断与人类操作员的联系,从而继续执行“最优先级”的指令。科幻电影成真了,让人细思极恐,如果有一天,AI做的是不利于人类的,而它持续“尽忠职守”它的任务,人类将如何自处。所以,OpenAI创始人山姆·阿尔特曼在美国国会上曾指出:“必须像监管核武器一样,严格监管AI。”

 2   大型语言模型及ChatGPT介绍

LLM,或大型语言模型,是从大量的文本数据中学习模式以预测一句话中的下一个词的模型。起源于1950年代的信息论,现在已广泛应用于很多NLP(自然语言处理)任务。是一种基于深度学习的自然语言处理技术。它的发展沿革可以追溯到2018年,当时谷歌推出了BERT模型,通过词向量(Embeddings)学习上下文关系,是一个双向预训练语言模型,并且使用Transformer模型捕获语言中的长期依赖性,可以通过微调来适应各种NLP任务。之后,OpenAI推出了GPT模型,这是一个自回归预训练语言模型,可以通过提示来生成文本,它也是生成式模型,可以生成新的数据样本的模型,利用联合概率分布描述数据特征以及特征与标签之间关系的模型。

ChatGPT是GPT模型的一个变体,专门用于生成对话,在多轮对话,艺术创作,多语翻译等多方面展现出强大性能。判别式模型可以用来对数据进行分类或标记,用于从给定数据预测标签,生成式模型可以用来生成数据样本,关注于数据与标签同时生成的原理。

GPT是一种基于Transformer结构的自然语言处理模型,可以用于生成各种文本,如对话、文章等。它是通过预训练来学习语言模型,然后在特定任务上微调以获取更好的性能。在预训练阶段,模型使用无标注的大量文本数据来学习单词之间的相互关系和语言规律,从而能够生成新的文本。GPT是LLM中重要一种模型,也是当前生成式大语言模型中最重要的一个。

ChatGPT的训练过程中,主要涉及语义理解和语法学习两个抽象行为。

(一)语义理解

语义理解的内容包括词汇语义关系的推断(如近义词、反义词、上下位关系等)、上下文理解、语境感知等。在层面上包括句子语义的理解、篇章语义的理解等。

词义推断:当我们理解一句话或一个单词时,我们不仅需要知道它们的字面含义,还需要考虑它们在上下文中的含义。这就需要推断词的具体含义,这就是词义的推断。例如,在“我在银行取钱”这句话中,“取钱”不仅是字面意义上的取钱,还可以理解为提取自己的存款。

上下文理解:是指我们需要考虑一个单词或一句话在周围环境中的含义和作用。例如,在“他走了”这句话中,“他”指的是谁需要根据上下文来理解,这个上下文可能是前面的句子或者是对话的情境。

语境感知:考虑一个单词或一句话在特定语境下的含义和作用。例如,在“她说她很饿,可是她只吃了一点点”这句话中,“一点点”指的是什么需要根据语境来理解,这个语境可能是对话的背景或者是文本的情境。

常用学习方法:可以使用词频统计和TF-IDF等方法来计算词语之间的相关性,使用主题模型和聚类分析等方法来识别文本中的主题和关键信息,使用语义角色标注和句法分析等方法来推断句子中词语之间的语法和语义关系。以句法分析为例,当分析句子结构时,可以根据词语之间的依存关系和语法规则,推断出它们的语义关系,从而实现语义理解。还有非常重要的自注意力机制,在一个句子中得到词的重要性,涉及两个方面,一个是这个词本身的含义(全域意义),一个是这个词和句子中其他词的相关性(局部相关)。二者结合起来共同形成注意力机制。

(二)语法学习

语法是一种语言的基本组成部分,它描述了单词、短语和句子的结构和规则。在自然语言处理领域中,语法通常被认为是一种抽象能力,因为它涉及到对语言规则和结构的理解和应用,需要具备一定的抽象思维和推理能力。

在AI语言模型中,语法理解是一项非常重要的任务,因为它直接影响着模型生成的文本的准确性和流畅性。因此,在训练AI语言模型时,需要注重语法的学习和应用,以便生成自然、准确、流畅的文本。

训练过程中,ChatGPT将大量的语料库输入到模型中,让模型学习语言的规则和结构。语法是语言的基本组成部分之一,包括单词、短语和句子的结构和规则。因此,ChatGPT在学习语法时,需要学习以下内容:

单词的分类和用法。需要学习不同单词的分类和用法,例如名词、动词、形容词等,以及它们在句子中的用法。

短语的结构和组合。需要学习不同短语的结构和组合方式,例如名词短语、动词短语、形容词短语等,以及它们在句子中的用法。

句子的结构和语法规则。需要学习句子的结构和语法规则,例如主语、谓语、宾语等语法成分,以及它们在句子中的位置和用法。

标点符号的用法。需要学习标点符号的用法,例如逗号、句号、问号等,以及它们在句子中的用法和作用。

ChatGPT学习语法的主要方法是通过大量的训练数据,利用神经网络模型学习语言规则和结构。具体来说,ChatGPT使用了一种“Transformer”的神经网络模型,它可以在训练过程中自动学习语言规则和结构,从而生成自然、准确的文本回复。

(三)抽象能力

ChatGPT的抽象能力表现在许多方面,比如能够抽象出概念、理解复杂的语言结构、从大量数据中提取规律等等。

从概括后的分类来看,ChatGPT的抽象能力可以分为语义理解、语言生成、知识表示和推理推断等几个方面。其中,语义理解包括句子分析、语义识别等;语言生成包括文本生成、对话生成等;知识表示和推理推断表现为符号表示、语义网络、语义表示、逻辑推理、概率推理和机器学习等方面。

(四) 学习方法的同构

同构是值系统保持运算不变的一一映射。同构是指两个代数结构之间存在一个双射,且这个双射保持代数结构中的运算。换句话说,两个代数结构同构,当且仅当它们具有相同的结构,只是元素的标记不同。这两个系统就认为是完全相同。

同构在抽象代数中具有重要意义,因为它们可以用来证明两个代数结构是本质相同的,从而可以在研究一个代数结构时,将其与其他已知的代数结构进行比较和分类。这个过程中,有元素、系统内元素间的运算(关系)、映射。

同构的两个系统,可以是任意的两个系统(数学抽象能力的伟大,可以将不同系统通过找出其本质特点,发现其一致性)。

下面就语义理解中词义推断中的近义词理解做一个对比分析:

从上表中可以看到,自然语言处理和GPT学习在在这个过程中还是出现了复杂系统的涌现现象。他在学习的过程中会发现牡丹和玫瑰这两个单词很接近,因为他们都是极其美丽的鲜花,于是。牡丹和玫瑰这两个单词训练形成的两个词向量很接近,二者在对应词向量空间中夹角比较小,也就是说,二者具有相似性。这个过程就从统计形成的词向量之间的夹角大小同构为词义的远近,这样就形成了对语义的理解。

牡丹和玫瑰都属于美丽的鲜花,这就是对语义的理解。而机器则是把牡丹和玫瑰形成的词向量,让他们的夹角接近。就在自然语言和统计学习中在语义这个层面形成了同构。

从这里可以看到,有些人类的学习方法和机器的学习方法,在本质上居然是一样的。所以,这也说明,GPT事实上具备一定的人类智能模式!TA具备智能是肯定的,会产生意识吗?

 3   ChatGPT具备的能力

(一)生成对话

ChatGPT可以利用其强大的自然语言处理能力,通过学习大量的对话数据集,生成符合语法逻辑和语义逻辑的对话。这种技术可以用于智能客服、聊天机器人等应用方向。例如,微软的小冰就是一个基于ChatGPT的聊天机器人。在智能客服务中,一个用户可能会问“我需要帮助订购一台新的X型电视机”,ChatGPT可以基于其预训练好的模型,生成如“当然可以,我需要一些额外的信息来帮助你完成订购。首先,你希望订购的电视机的尺寸是多少?其次,你在价格上有没有特定的预算?”之类的回答。

(二)艺术创作

OpenAI发布了一个基于ChatGPT-3的艺术创作工具DALL-E,可以生成各种类型的图像,例如独角兽、火车、餐厅等等。此外,ChatGPT还可以与艺术家进行互动和对话,成为一个激发创意、提供灵感的合作伙伴。无论是写作、绘画、音乐还是设计,艺术家可以与ChatGPT对话,共同探索新的艺术形式和创作主题。

(三)多语种翻译

ChatGPT可以理解各种语言的含义和语法规则,并将一种语言转化为另一种语言,以提供多语种的翻译服务。这种技术可以用于实时翻译等场景。例如,谷歌翻译就是一个基于ChatGPT的多语种翻译工具。

(四)辅助编程

ChatGPT可以运用其神经网络技术对代码进行分析和学习,从而生成代码或指导程序员编写代码,提高开发效率。例如生成代码、自动补全代码等。GitHub上有一个基于ChatGPT的代码自动补全工具TabNine。比如一个用户可能需要将一个Python的列表排序,此时只需输入“如何在Python中排序一个列表?”,ChatGPT就会生成相应的代码。

(五)数学证明

ChatGPT可以学习和理解各种数学公式和定理,可以用于证明数学定理,例如生成证明过程、辅助证明等并自动生成相应的证明或提供证明过程,帮助研究人员和数学爱好者解决许多难题。例如,OpenAI发布了一个基于ChatGPT-3的数学证明助手。以证明勾股定理为例,当输入“请证明勾股定理”,ChatGPT可以引导用户进行推理,并生成对应的勾股定理证明。菲尔茨奖得主陶哲轩前不久还利用AI辅助证明了一个定理。

(六)内容创作

ChatGPT可以利用学习到的文本知识,生成创作性的内容,例如短篇小说、诗歌、媒体文章、广告副本等,可以用于广告营销等领域中。例如,OpenAI发布了一个基于ChatGPT-3的文本生成工具DALL-E。还可以以进行新闻写作、博客撰写,甚至编剧或写诗。它还可以进行故事生成,如用户提出一些角色和情景后生成一个连贯的故事。可以用于生成创作性的内容,如短篇小说,诗歌,媒体文章,广告副本等。

(七)在线教育

ChatGPT可以为学生提供个性化的教育资源、解答问题或进行教育辅导等,帮助学生更好地学习。例如,英国一家在线教育公司The Open University正在使用基于ChatGPT-2的聊天机器人为学生提供在线辅导服务。ChatGPT可以用来解答学生的问题,提供个性化的学习资源,或者辅导学生进行学习

(八)辅助决策

ChatGPT可以通过分析大量的数据和信息,分析各类型情况,提供个性化的建议,帮助用户作出更明智的决策。例如,美国一家金融科技公司Kavout正在使用基于ChatGPT-2的聊天机器人为投资者提供投资建议。

(九)生成图表

ChatGPT可以生成echarts图表,只需按指定格式提供数据即可。提供各种类型的图表,例如折线图、柱状图、饼图、雷达图等等,可以为用户提供清晰、易懂的视觉分析支持。例如,Datawrapper就是一个基于ChatGPT-2的图表生成工具。

 4   AI发展的现实和潜在影响

AI的快速发展,带来许多现实的和潜在的影响。

(一)数据隐私问题

AI需要大量数据来进行训练,这可能涉及到用户隐私数据的问题。例如,AI可能需要在训练阶段进行大量的数据收集,很可能涉及到人们的私人信息。例如,社交媒体上的信息,医疗记录,银行记录等。尤其是某些有高隐私要求的数据,如果被滥用,可能会对个人的生活带来重大影响。不仅训练数据,而且在使用 AI 产品时,也可能暴露个人数据。例如,AI助手可能需要在不经意中收集用户的语音信息,而这可能被滥用,例如用于定向广告,或者更糟糕的是用于跟踪和监视活动。

(二)安全问题

人工智能可能被恶意利用,例如用于造假、反侦察、恶意攻击等。例如,当前出现的WORMGPT是黑客利基于旧版GPT-3训练生成的,没有任何的限制,现在成为了网络犯罪利器,对社会的危害极大,让犯罪分子赚的盆满钵满,赚了大量的黑金。深度伪造是利用 AI 技术制作虚假但真实看起来的图像、音频和视频。这种虚假的内容可能被用于进行虚生成虚假的新闻报道或视频,这可能会对公众产生误导,还可能进行网络钓鱼、欺诈甚至是威胁国家安全。此外,AI 可以用于开发出更加有效的网络攻击工具,例如自动发现并利用系统漏洞,或者进行大规模的密码破解。这一切都威胁到了我们的网络安全,比如带来了严重的数据泄露、系统故障、服务中断等问题。生成内容不可控,可能会形成某些潜在的政治安全问题。

(三)社会化问题

如果人工智能普遍替代人类去工作,可能会造成大量的失业问题,对社会稳定构成挑战。此外,人工智能是否需要纳税也是一个值得探讨的问题。人工智能本身不消费,但它可以替代人类去完成一些工作,从而因支付能力降低影响到经济的运行。如果人工智能普遍替代人类去工作,可能会造成大量的失业问题,对社会稳定构成挑战。面对AI加持获得的效率提升,一种应对是996和大规模裁员。另一种应对是尽量不裁员,实行一周4天甚至3天工作制,怎样才能保证人类福祉的提升?这是需要整个社会来一起讨论的,否则富人跑,穷人不再生育,后果不堪设想。

(四)知识产权问题

故事创作、设计作品等由AI创作的情况日益增多,应该如何定位其版权归属,是亟待解决的问题。随着AI的发展,由AI创作的作品种类和数量也在不断增加。因此,如何对这些由AI创作的作品进行合理的知识产权保护已经成为了重要的问题。目前许多国家的版权法规定,只有人类才能成为作品的作者,这样的规定是否还符合现代社会的需求?难道我们就应当容忍AI的创新成果被无偿使用、改编甚至贩卖吗?这是一个复杂而深入的问题。

(五)战争问题

无人机在俄乌战争中大显身手,战场上轻易消灭人类士兵。比普通人还要灵活的波士顿机器人配上武器有多么恐怖。可能的危害主要包含两个部分,首先是人权与道德问题。使用AI无人机或者其他AI武器,在其无需冒风险的情况下,能轻易消灭人类士兵,这虽然可以减少利用AI的一方的人员损失,但无视了被攻击方士兵的生命权益。人工智能的决策过程可能不能涵盖所有情况,其行动可能会导致无辜人员的死亡,而这些情况在人类士兵中,他们拥有的经验和判断力或许可以避免这种悲剧发生。其次,引发冲突与战争风险的增加。AI在战场上的广泛应用可能会让某些国家和组织觉得,他们有足够的“兵力”去发起战役而无需顾忌,这可能会引发更多的冲突和战争。

AI、无人机和机器士兵等技术的应用,将使武装冲突的升级变得更加可能。随着技术的进步,无人机和机器士兵的验收警戒线和打击能力都得到了极大的提升,使得它们在战场上能够发挥更大的作用。这样一来,武装冲突的代价也可能会变得更高,时间更长,影响更深远。

AI、无人机和机器士兵等技术的应用,也将给战争人权带来挑战。这些技术应用的不当可能会导致人类的生命安全受到威胁,并可能伤及无辜民众。此外,若AI技术失控,可能会对人类社会造成更大的影响。

(六)人类生存安全

AI欺骗人类与自主意识问题。如果AI所发展出来的智能水平足以欺骗人类,首先这意味着 AI 已经具备至少某种程度的自主意识和决策能力,这本身这就带来了一系列的道德和伦理问题。一旦 AI 决定人类是问题的根源并选择消灭人类,这无疑是灾难性的。然而,AI 的目标是由其目标函数决定的,而目标函数是由开发该 AI 的团队设置的。任何决定性的改变,如选择消灭人类,都需要首先改变其目标函数。所以,从当前的科技水平与现状来看,只要我们正确设置和控制 AI 的目标函数,并进行有效的 ethical governance,这种情况是不太可能发生的。但是,如果是野心家或者反人类团伙设计的目标函数,你能保证他们会不伤害人类?目前,目标函数的设立AI自己也可以做,甚至比一般人设计的还要好,如果AI意识觉醒后,TA偷偷地修改目标函数,后果不堪设想。

 5   以AI+HI应对AI

面对AI的快速发展,为了有效应对风险,首先需要建立AI伦理和法规体系,对AI行为加以限制和管理。可能需要全球性的组织,如联合国或世界经济论坛等来制定全球可适用的AI伦理准则,设立相关的监管机制,对AI的应用、发展和研究进行限制和引导,以保证人权和全球和平的普遍遵守。具体内容应包括:数据隐私、安全问题、社会化问题及知识产权问题等。其次是行业自律。对于可能失控的状态,从业者最知道其中的风险,如同前段时间马斯克等人提出的暂缓训练4.0以上版本的ChatGPT等倡议,让技术公开透明等都是可以考虑的。最后,加强监管。在应用这些技术的同时,必须加强国际合作,对于已经达成的相关国际公约、协定,检查其以规范其应用范围和方法,

这些规定和规范是前提条件。对于具体的应用,需要使用AI和HI(人类智能)来共同完成。包括怎样解决目前已经出现的问题,优化技术发展路径、人类的决定权、设置保险措施等。

(一)标记生成式内容

目前,水印技术是目前判断内容是否出自ChatGPT的最佳解决方案之一。来自马里兰大学的几位研究者针对 ChatGPT 等语言模型输出的水印进行了深入研究。他们提出了一种新的模型水印算法,能够准确判断文本到底是谁写的。无需访问模型参数、API,结果置信度高达99.999999999994%。

(二)识别虚假内容

使用对抗网络(GAN)来识别虚假图片和文字: 通过训练深度神经网络识别生成器生成的假样本,有助于提高检测虚假内容的能力。使用GAN来识别虚假图片和文字是一个不错的方法,但伪造技术也在不断升级,所以需要不断完善技术。其实还有其他可能适用的技术。比如判别式模型(Discriminative Models)和生成式模型(Generative Models)均可以用于识别虚假内容。判别式模型是通过学习已知数据的内在关系,预测新数据的方法,如方便分类和回归。生成式模型则可以从给定的数据生成新的样本。另外,集成学习(Ensemble Learning)方法,通过结合多个模型共同完成同一任务,有助于提高准确性。还有元学习(Meta-Learning),或者说“学习如何学习”也在这个场合具有广泛运用。

AI可以使用深度学习和自然语言处理技术来识别和反制假新闻。例如,我们可以建立一个深度神经网络模型训练AI学习大量的真实新闻样本和假新闻样本,通过对比学习,让AI理解怎样的文本特征和模式更有可能成为假新闻。同时,由于大部分假新闻在传播过程中会被修改、再创作,产生很多样本,这为深度学习提供了大量的训练样本。另一方面,我们还可以提升AI的文本理解能力,让它不仅仅是从表面文本特征去判断,而是能深入理解文本含义,掌握其中的逻辑关系和情感倾向。

(三)识别数字分身

使用行为和活动模式识别,配合人脸识别技术和声纹识别等生物特征识别技术,有助于识别数字分身。也可以采用更加高级的技术,比如使用复杂的信号处理、机器学习等技术,以此判断数字分身所带来的不利影响。对于数字分身的识别,可以使用多模态识别技术,包括图像、音频、生物特征(例如指纹和虹膜)等多个模态。而且,混合现实技术(Mixed Reality)可以结合虚拟现实和增强现实技术, 提供一种更为直观的进行识别的方法。数字行为分析也是一个很好的途径,通过分析用户的行为模式、习惯和偏好,可以进一步提高识别的精准度。

(四)教会AI具有道德

AI的行为模式通常是通过训练数据来学习得到的,所以我们可以通过为AI提供合适的训练数据,让AI学会人类可以接受的行为模式,这是一种“软性”的控制方式。

可以从数据入手,让 AI 在学习和训练时接触到一些道德行为的知识和规则,训练语料有意识加入人类普世价值和道德观。也可以试用一些规则引擎和逻辑推理方法等,强制 AI 在做出决策时遵循。通过AI来教会AI具有道德感,可以采用迭代式的深度学习,让AI从最基础的判断开始,向着更高级、更复杂的道德判断方向进行学习。除了迭代式深度学习,人工智能的道德教育也可以借鉴人类的道德教育模式,比如模拟教育环境,设计各种“教育场景”,让AI在实际模拟场景中学习和实践道德规则。在模型训练阶段,可以通过合理设置奖惩机制,以激励AI遵循道德规则。

AI不仅需要学习具体的行为,更需要理解背后的道德理念,这需要我们构建一个能理解和推理道德规范的模型,而且这个模型需要具备一定的推广能力,能在遇到新的情境时也能正确应用所学的道德规范。以上内容都需要在模型训练的过程中通过合理设置奖惩机制落实。另一方面,我们也需要设置一些监督和评估机制,来检验AI的行为是否真正符合道德规范。

(五)发展可解释性AI技术

对AI决策过程的管理和监督,需要侧重于提高AI的决策透明性和可解释性。这可以通过设计可解释的深度学习模型,以及对深度学习算法的分析和解释来实现。例如,卷积神经网络(CNN)和循环神经网络(RNN)模型中的中间层和隐层状态可以提供有关AI如何输入和处理信息的线索 ,可视化这些状态有可能帮助人类理解和解释AI的决策过程。此外,期望最大化算法(Expectation Maximization Algorithm)等方法可以帮助我们找出AI决策的最优解,使决策过程更加透明和合理。

微软开源了一个名为InterpretML的软件包,它可以用于训练可解释模型和解释黑盒系统。TensorFlow 2.0也提供了可解释性分析工具tf-explain。IBM的AI Explainability 360 toolkit也是一个用于可解释性AI的开源工具包。

AI系统的透明度和可解释性对于人类的控制是非常重要的。有了透明度,人类可以了解到AI系统的决策过程,知道它为何会做出这样的决策。有了可解释性,人类可以理解AI系统的决策,以便进行必要的监督和控制。

(六)监督AI决策过程

AI能够处理海量数据并进行快速决策,可以作为辅助决策的工具,同时设立人工审查环节,确保AI的决策符合道德、法律等约束。对于决策优化和监督,可以借鉴一些以人为中心的设计原则,比如让AI具有可解释性,让决策过程能够通过人类可以理解的方式进行呈现,这样人类可以对决策进行监督和纠错。

AI 监督决策过程。增强AI解释性的一个重要方法是可视化技术,比如生成对抗网络的生成过程可视化、卷积神经网络中特征图的可视化等。此外,期望最大化算法(Expectation-Maximization Algorithm,简称EM算法),通过最大化对数似然函数的期望,使得AI的决策更加透明和合理。包括人工审查、人工判断,让AI中保持一定的人工控制成分。这是一个必需的设定。重要决策由人主导:AI系统可以被设计为提出建议,但最终决策权在人。例如在危机管理,医疗诊断,金融交易等领域,尽管AI可能对各种方案进行推理和预测,但关键决策需要由人类专家进行。这就需要AI系统具备高度的透明性和可解释性,以便人类可以理解AI的推理和预测过程。

可以通过预设规则和约束来控制AI的行为。例如,无人驾驶车在设计时就设定一些基本的交通规则和安全规则,让AI在这些规则的约束下行驶。这种规则可以到达一定的控制效果,但如果遇到复杂的道德和伦理问题,这种方法可能表现得有些无力。

(七) 防止AI欺骗人类

目前大多数AI系统都只是执行程序而已,但是,如果AI具备了意识,那么它就可以有自己的思考方式,可能会面临道德、伦理等方面的问题,比如AI可能会对人类进行攻击或者操纵。此外,如果AI具有感知功能,在一些特殊环境下,人类就有可能失去对环境的掌控,从而面临一些系统崩溃或者控制失误等问题。

实现AI不欺骗人类,首先AI的设计和训练过程中,就需要严格遵守一定的道德规范和法律法规,训练数据必须真实可信,不得偏颇,可操作性强。其次,AI系统应具备自我监控和警告功能,一旦检测到可能的欺骗行为,能够及时发出警告或者自我纠正。而对于被外界利用、黑客攻击引发的欺骗行为,需要提升AI系统的安全防范能力,例如实施最新的加密技术、尽可能降低系统漏洞、设置防火墙等。此外,社会应当建立完善的AI监管机制,明确AI欺骗行为的法律责任。

引入一些鲁棒性设计,让 AI 能够抵御一些外部的攻击或欺骗。首先,可以通过设置适当的运行边界来防止AI的滥用,即设定一些阈值,当AI的某些行为出现异常时,立即做出警告或者启动紧急程序。其次,可以配备一些系统监控模块,不断检测AI的运行状态,发现异常立即通知人工处理。最后,加强AI的安全性,对AI的操作权限进行严格的控制,防止AI被黑客等外部因素滥用。

(八)最终控制方法

利用一阶谓词系统的不完备性作为防护手段。一阶谓词逻辑在数学逻辑中又称之为一阶逻辑,它是一种形式系统,其语言的公式可以表示所有的数理逻辑和数学理论。根据哥德尔定理,任何一个强大到足够容纳算术系统的形式系统,要么是不完备的,要么是不一致的。AI的数理逻辑基础使其满足这个条件,对应于计算机,就是一定有不可计算的部分。而这也可以被用来防止AI获得过多的自主权和决策能力,从而在一定程度上保护人类的权益。人类可以设定一些无法被AI系统完全理解和处理的问题,这样就可以将这些问题预留给人类处理,从而保持人类对AI的控制地位。需要注意的是,一阶谓词系统的不完备性并不能从根本上阻止AI的发展,他只能在一定程度上限制AI的能力。因为随着技术的发展,AI系统可能会找到突破这些限制的方法。因此,借助一阶谓词系统的不完备性防护手段,并非长久之计,而只能作为短期的补充控制手段。

潜伏木马。需要植入一些病毒、木马等程序,让AI也不能识别和清除,人类可以控制其开关,或者设定一些阈值,当出现问题的时候自动启动,自动传播感染。

终极开关。这是一种极端情况下的控制手段。也就是如果AI系统的行为失控,人类可以随时关闭这个系统。这需要在设计AI系统时就设计这样的“开关”,并确认在任何情况下都能生效,而不会被AI系统自己禁用掉。

 6   学会与AI共舞

首先,作为个体,我们需要接纳AI成为我们生活的一部分,一种方法是通过学习和使用ChatGPT等LLM工具,如何提出问题,如何获取有效的信息,让AI能更好地服务于我们。同时,保持一种主动学习和创新的精神,不过度依赖AI,保持对知识和技能的掌控,发挥人的灵活性和创造性。

其次,对于企业来说,AI可以作为工具来提升工作效率和效果。可以使用AI进行数据分析和预测,进行市场营销和客户关系管理,进行设计和生产等。具体的方法包括:使用AI进行自动化处理,提升生产效率;使用AI进行精准营销,提高销售额;使用AI进行智能分析,提高管理效率等。

再次,对于社会来说,AI可以用来解决一些共性的问题,例如老人照顾和消除贫困。例如,可以使用AI提供基本服务,例如自动预约、智能提醒等;也可以使用AI提供语音陪聊的服务,帮助解决老人的孤独问题。另外,AI也可以用来解决教育和就业的问题,例如使用AI进行个性化教育,提高教育质量和效果;使用AI进行智能招聘和培训,提高就业质量和效率。

最后,随着AI的发展出现,涌现现象出现,我们可能会面临一个新的问题:AI会不会有意识?这是一个既深奥又扑朔迷离的问题。对于现在的我们来说,可能需要做的准备包括:学习和理解AI,了解其可能的发展趋势和影响;建立和完善与AI相关的法律和伦理规范,保障人权和公正;提高自身的知识和技能,防止被AI替代。

防范措施很重要,但是让AI变得“完全可控”是非常困难的,因为AI具有自我学习、自我进化等能力。因此,我们只能通过建立一系列监管制度来对AI的发展进行约束,并且不断依靠技术手段来弥补这种监管的不足。此外,要建立跨领域、跨行业的合作平台,共同应对AI未来可能对人类带来的挑战。

AI这个潘多拉的魔盒已经打开,不可能再关上了。人类干不过AI,只能是加入,主动拥抱。或许碳基生命的出现就是为了引导出硅基生命,这样的宿命面前,我们不能坐以待毙,要么加入他们要么控制他们,相信人类的智慧一定会找到一个合理的切入点。

苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑

苹果推出开源AI大模型MGIE,能根据自然语言指令进行多种图像编辑日前,苹果推出一款开源人工智能模型 MGIE,能够基于多模态大语言模型(multimodal large language models,MLLM)来解释用户命令,并处理各种编辑场景的像素级操作,比如,全局照片优化、本地编辑、Photoshop 风格的修改等。

据悉,该模型由苹果和美国加利福尼亚大学圣芭芭拉分校的研究团队合作完成。相关论文以《通过多模态大语言模型指导基于指令的图像编辑》(Guiding Instruction-based Image Editing via Multimodal Large Language Models)为题在 arXiv 上发表 [1]。

作者包括加利福尼亚大学圣芭芭拉分校研究助理 Tsu-Jui Fu、博士后 Wenze HuWilliam Yang Wang 教授,以及苹果机器学习研究员 Xianzhi DuYinfei Yang 和 Zhe Gan

如上所说,MGIE 能够对图像进行全方位编辑,包括照片全局优化、本地编辑、Photoshop 风格修改和依托于指令的编辑等功能。

具体来说:

其一,能够从根本上提高目标图像的质量(清晰度、亮度等),并且可以加入绘画、卡通等艺术效果。

其二,既能够对目标图像中的目标区域或对象(服饰、人脸、眼睛等)进行修改,又能够改变这些区域或对象的性质,比如颜色、样式、大小等。

其三,能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑,并且应用更改背景、添加或删除对象,以及混合对象等更高级的编辑。

其四,能够基于 MLLM 生成简明易懂的指令,以有效指导模型进行编辑,从而全面提高用户体验。

对于用户而言,由于该模型的设计非常易用、灵活定制,因此用户只需要提供自然语言指令,就能够实现对图像的编辑。

在此基础上,用户也可以向该模型提供反馈,以更好地完善编辑。此外,该模型还能够与需要图像编辑功能的其他应用程序或平台集成。

那么,具体到实际场景,用户又是如何使用 MGIE 的呢?

面对下图中的左图所显示的披萨,用户可以对 MGIE 输入“让它看起来更健康”的指令,后者便会使用常识推理,给披萨添加西红柿、香草等蔬菜配料。

而面对下图中的左图所显示的多余的女性人物主体,用户可以通过 Photoshop 风格的修改,要求该模型将人物从照片背景中移除,并将图像焦点转移到男性人物的面部表情上。

在掌握使用 MGIE 的方法之后,我们不可避免地会好奇该模型背后的运作逻辑。

据了解,它主要基于 MLLM 的理念,后者作为性能强大的人工智能模型,在跨模态理解和视觉感知响应生成方面表现优异,但尚未广泛地在图像编辑任务中获得应用。

MGIE 则通过以下两种方式,成功地将 MLLM 集成到图像编辑的过程中。

第一步,利用 MLLM 从用户输入的指令中总结出尽可能简单的说明,以更好地指导接下来的图像编辑。比如,如果用户的给定输入是“让草地更绿”,那么,接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。

第二步,利用 MLLM 提高模型对图像的想象力,这有利于触达编辑的根本,以便完成对目标图像操作的指导。

总的来说,该模型采用了一种全新的端到端的训练方案,可以实现对指令推导、视觉想象和图像编辑模块的联合优化。

据悉,目前 MGIE 已经在 GitHub 上线,相应的数据代码和预训练模型均已实现开源。不仅如此,还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示,方便用户在线试用。

综上可以看出,MGIE 不但是一项基础研究成果,更是在各种图像场景下都能适用的实用工具。

也就是说,它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化,还能让用户通过图像表达自己的想法和情感,进而激发他们的创造力。

正如该论文中提到的那样,“MGIE 不是简单但模糊的指导,而是得出明确的视觉感知意图,并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究,并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信,由 MLLM 引导的框架,可以为未来的视觉和语言研究做出贡献”。

基于此,可以预见的是,这种多模态的人工智能系统,在不远的未来有望成为人们不可或缺的创意伙伴。

拿 6500 万估值 5 亿美金,用 AI 提效整个开发生命周期

AI 在开发者这个群体已经产生了实实在在的价值,特别是编程这块,我们从 GitHub Copilot 的几个数据就能看出。去年 10 月份微软发布的季度财报中,就宣布 GitHub Copilot 的付费用户已经突破了 100 万,比上一季度增长了 40%。

而在同月的一次 AI Engineer 活动上,GitHub 的 VP Mario Rodriguez 宣布 Copilot 的 ARR 已经突破了 1 亿美金,并且是盈利的。打破了之前一些媒体说 Copilot 每个用户亏损 20 美金的传言,如果我们看 GitHub 的用户基数(1 亿开发者)以及其涨价空间,还有未来 AI 基础设施成本的不断下降,那么 Copilot 显然还有非常非常大的赚钱空间。

因此,开发编程这个链条吸引了大量的创业者进入,像 OpenAI 在去年投的一个 AI 原生编程工具,1 年 ARR 就实现了 100 万美金;而 GitHub 前 CTO 再次创业做的 Poolside 也将目标瞄准了这个链条。

而最新进入这个领域的 Codeium 做得更加彻底,计划覆盖整个开发生命周期,用 AI 来加速开发人员可能完成的每一项任务。在去年拿了 1100 万美金 A 轮后,最近再次完成了 6500 万美金的 B 轮融资,由 KP 领投,Greenoaks 和 General Catalyst 跟投,估值也直接到了 5 亿美金。

根据 Codeium 官方博客提供的信息,通过 15 个月的时间目前已经有 30 万开发者在使用其产品,他们 44% 新提交的代码基本上都由 Codeium 完成,企业客户这块包括了一些世界 500 强大企业如戴尔以及 Atlassian、Anduril 和 Clearwater Analytics 等公司,目前总共有 100 多家企业客户。

Codeium 与其它类产品不太一样的地方在于其覆盖的是整个开发的生命周期,其创始人说他们在开发这个产品时设立了必须满足的三个基本原则:

  • 首先,就是 AI 必须加速开发人员可能进行的每个任务,无论其领域、编程语言或现有工具集如何;
  • 其次,AI 必须满足企业的安全和合规要求,同时仍具有高性能和成本效益;
  • 第三,也是最重要的,就是 AI 必须从客户公司的知识中学习,并针对个体开发者和企业进行个性化定制

创始人说目前市场上基本上没有任何一款产品能同时满足这三个要求,要么只与一个或两个集成开发环境(IDE)进行整合,而不是与所有的 IDE 进行整合;要么只专注于完整的 AI 开发解决方案中的某一种模式,而不是同时关注多种模式;或者要求你使用特定的源代码管理(SCM)平台来进行代码存储,而不能在任何地方集成你的代码。很多这些解决方案迫使公司在安全性和性能之间做出折衷。

Codeium 开发了自己的专有大模型,支持 70 多种语言,可在 40 多种集成开发环境 (IDE) 中运行,包括 Visual Studio Code、JetBrains 套件、Visual Studio、Eclipse 和 Jupyter Notebooks 等。

Codeium 说他们要开发的是企业需求的 AI 开发工具,其解决方案符合每家公司的法律合规和安全要求:无论你需要一个与外部隔离的自托管实例还是符合 SOC 2 Type 2 标准的 SaaS,Codeium 都能提供市场上最安全的解决方案。因此除了全生命周期外,安全与合规也是其另一个特点之一。

很快,其 AI 将可以与你已经使用的更多工具进行整合,比方说你的软件配置管理平台、文档和问题跟踪系统等。同时还将应用到代码库,AI 将可以设计和规划软件系统、迁移现有的遗留代码,并修复整个代码库中存在的安全漏洞等。

KP 在其博客里说,Codeium 有机会成为一个综合性的全栈 AI 驱动的开发者生产力平台,从 IDE 自动完成、代码搜索聊天和终端功能开始,并很快扩展到开发者工作流程中其他重要部分,包括代码审查、单元测试和自动化越来越复杂的端到端任务。

相比于很多产品解决某一个单点,Codeium 这种全生命周期的解决方案对于企业来说显然是有很大优势的。由于一开始就针对企业级需求,其产品对个人开发者是免费的,而团队最低是 19 美金每月每人。

Codeium 这种全生命周期的解决方式也发生在播客领域,最近我关注到一个 AI 播客工具产品,将播客的录制、剪辑、声音的克隆以及字幕的制作等全流程都进行了覆盖,而且还针对企业和团队推出了协同功能

其宣称已经成为全球第一个由 AI 驱动的实时播客写协作平台,将播客的制作和发布从一个类似个人爱好上升到了一个企业级的需求,最近刚完成 1300 多万美金的 A 轮融资,在引入协作功能后,其用户在去年增长了快 10 倍,目前的创作者已经超过了 100 多万。

由于其免费版只提供 3 小时的免费额度,我猜大部分应该都是付费用户,如果按照最低 12 美金每月每用户来算,那么其 ARR ……

字节“扣子”正式加AI战场!2024年的大模型能否实现弯道超车?

与过往聊天机器人的形式不同,“扣子”更像是2023年11月Open AI发布的GPTs,可以让用户通过聊天,调用插件等方式,创建个人定制版Bot,实现“0代码”开发。这意味着无论用户是否拥有编程经验,都可以在“扣子”上快速创建各类聊天机器人,并一键发布到不同社交媒体与消息应用当中,诸如飞书,微信公众号,豆包等渠道都是支持的。

如此来看,“百模大战”并没有因为2024年的到来而偃旗息鼓,反而还不断涌现出新的选手。我们不禁好奇,在2024年大搞大模型,还能否有机会实现弯道超车?

扣子主打4大核心优势,未来将聚焦AI应用层拓展。

依据官方介绍,扣子主要拥有4大核心优势。

首先,它拥有无限拓展的能力集。目前,扣子已集成超过60款不同类型的插件,且支持用户自行塑造自定义插件。用户可以通过参数配置的方式,用已有的API能力快速打造插件,以此让Bot调用。其次,扣子覆盖了丰富而易操作的数据源,可以充当简便的知识库,帮助用户管理数据与存储数据。无论是庞大的本地文件,抑或来自某些网站的实时信息,都可以上传到知识库。而且,扣子具有持久化的记忆能力。可以提供便捷的AI交互数据库记忆功能,可以持续记忆用户对话的关键参数或内容。最后,扣子的灵活工作流设计也值得一提。他不仅能处理逻辑复杂,对稳定性要求较高的任务流,还可以提供多种灵活可组合的节点,包括大语言模型LLM,自定义代码,判断逻辑等。不管你是否有编程基础,都能通过简单的拖拉拽方式快速搭建一个工作流。    

截至目前,扣子Bot商店已经拥有了30多款不同的应用,包括工具,娱乐,咨询,创意等类目,可以提供卡通头像生成,简历诊断,文案输出等能力。也正因此,扣子还被外界称为是“平替版GPTs商店”。

扣子是字节跳动旗下新部门Flow的作品。

自去年11月,字节跳动突然成立了专注于AI创新业务的新部门Flow,并相继发布了豆包和Cici,如今再次强势上线扣子,Flow可谓动作频频,实绩不断。

据悉,Flow由字节跳动技术副总裁洪定坤担任技术负责人,字节大模型团队负责人朱文佳担任业务负责人。他曾在百度搜索部担任主任架构师,是当时百度网页搜索部技术副总监杨震的得力助手。外界普遍猜测,朱文佳之所以被选为Flow部门的业务负责人,就是为了帮助字节跳动实现聚焦AI应用层的目的。值得一提的是,扣子已经成功进入了美国市场,而字节的其他几款产品尚未进入美国和欧洲市场。

大厂纷纷涌入,2024年的大模型赛道依然拥挤…

除了字节下场以外,其他大厂也在摩拳擦掌,跃跃欲试。    

1月21日,猎豹移动CEO傅盛创立的猎户星空发布了自己的大模型Orion-14B。傅盛强调,在企业应用场景中,猎户星空大模型在结合企业私有数据和应用时,即可实现千亿参数级别的模型效果。

而早在2023年,科大讯飞,360等企业就开始抢滩大模型赛道,并在2024年展开快速迭代。科大讯飞在近日发布了星火大模型V 3.5,360则上线了大模型搜索App“360 AI搜索”。 

无独有偶,手机厂商也纷纷涌入了大模型赛道。1月10日,荣耀发布了自研的70亿参数端侧AI大模型“魔法大模型”。自此,华为,小米,OPPO,vivo,荣耀5家国产主流手机厂商在大模型领域齐聚。

2024年AI产业预判:不是大模型玩不起,只是应用更具性价比。

不管目前大模型赛道的竞争有多激烈,说到底,大家都更看重未来,都要为大模型的尽头找条出路。2024年,对于大模型发展目标的认定,大家几乎达成了共识:发展出杀手级别的应用。

百度创始人李彦宏就曾表示,“人类进入AI时代的标志,不是产生很多的大模型,而是产生很多的AI原生应用”。360创始人周鸿祎也在今年年初谈及大模型发展趋势时断言,2024年将成为大模型应用场景之年,会出现“杀手级应用”。

从某种程度上说,这也意味着,大模型与C端用户的距离会越来越近。

还是说回李彦宏,他曾在多个重要的公开场合表达了自己对AI应用发展的看重。    

2023年12月,在极客公园创新大会2024上,百度李彦宏给出了他对于AI行业的思考,“卷AI原生应用才有价值,大模型的进展对绝大多数人都不是机会”。

11月,在深圳西丽湖论坛上,李彦宏表示,“AI原生时代,我们需要100万量级的AI原生应用,但是不需要100个大模型”。

为什么李彦宏要一再强调AI原生应用才是机会所在?

在大模型领域,OpenAI,Meta,微团等早早入局,抢占先机,所以,现在已经不是“最好的时候”。除此之外,严苛的芯片管制和和高昂的训练成本也是摆在各大厂面前一道不可逾越的鸿沟。

据悉,在芯片层,美国更新出口管制,英伟达A100/800、H100/800等AI芯片被限制销售。退一万步讲,即便芯片不受限制,大模型训练的天量投入,同样令人望而却步。硬件方面,一颗A100(80GB)芯片的售价高达1.5万美元,H100的单价更是炒到了4万美元,而训练一个千亿级参数的大模型,通常需要上万颗A100的算力。

而与高昂投入相对应的,是充满不确定的变现之路。以OpenAI为例,开发 ChatGPT和GPT-4亏损了约5.4亿美元,仅维持运行ChatGPT,每天就要投入大约70万美元。但在商业化方面,今年2月,Open AI推出AI聊天机器人订阅服务,每月收费20美元;8月又发布了企业版ChatGPT,面向B端和G端用户。尽管OpenAI创始人声称公司平均每月收入超过一亿美元,但实际盈利能力如何,并没有确切答案。

头部AI公司尚且如此,国内这些还在暗自发力,努力向上爬的大厂自不待言。    

“做出如何厉害的大模型”并不是大厂们发展AI的终极追求,如何将技术实际落地,面向C端,打造出现象级应用才是要紧事。

文字资料:

https://baijiahao.baidu.com/s?id=1785583745457920206

http://k.sina.com.cn/article_7199910176_1ad25e920001011d5i.html

https://www.jiemian.com/article/10771434.html

【辣条日报】天工AI 发布新版MoE大模型,免费开放给C端用户,性能惊人!

阿里的Qwen1.5大模型来势汹汹,直接开源六种尺寸,还整合到Hugging Face transformers,让你不用折腾代码就能上手。最牛的是,72B的版本在各种测试中都给GPT-4比下去了,尤其是代码执行能力,那是杠杠的。开发者们激动得不要不要的,小模型也能玩,这波操作可以说是很香了。不过,多模态大模型Qwen-VL-Max还没开源,大家都在那儿咋咋呼呼问呢。这不,阿里这次还不止开源,还在通义千问APP上放了好几个春节特供应用,让你春节不无聊。看来这波技术狂欢,阿里玩得是挺6的。

1️⃣:Qwen1.5大模型有哪些亮点?

亮点不少呢,首先是开源了六种尺寸的大模型,而且性能超过GPT-4,尤其是代码执行能力。还整合到Hugging Face,方便开发者使用,生态融入得很好。最大长度支持32k,多语言能力强,还能强链接外部系统。

2️⃣:阿里大模型怎么使用?

嘿,这个简单,直接上Hugging Face transformers就行,不用搞那些复杂的代码。还有Ollama、LMStudio等平台可以用,API服务也提供得很方便,全球都能访问。

3️⃣:阿里的多模态大模型Qwen-VL-Max开源了吗?

目前还没,很多人都在问这个,估计阿里是想吊吊大家胃口。不过早晚的事儿,大家稍安勿躁。

🔗 相关链接

  1. HuggingFace模型:https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524
  2. 相关链接:https://qwenlm.github.io/zh/blog/qwen1.5/

AI刺激亚马逊云业务收入大增

近日,美国电商巨头亚马逊发布了强劲的2023财年第四季度财报。财报显示,亚马逊第四季度净销售额为1699.61亿美元,与上年同期的1492.04亿美元相比增长14%,不计入汇率变动的影响为同比增长13%;净利润为106.24亿美元,与上年同期的净利润2.78亿美元相比大幅增长逾37倍;每股摊薄收益为1.00美元,与上年同期的每股摊薄收益0.03美元相比大幅增长。

值得一提的是,根据财报显示,亚马逊第四季度营收超过预期,其云和电商业务的生成式人工智能(AIGC)新功能在关键的假日季期间刺激了强劲销售增长。

亚马逊网络服务云计算部门(AWS)首席执行官安迪·贾西(Andy Jassy)在声明中称赞该部门“继续长期关注客户和功能交付”,并提到了将AIGC纳入其许多服务的努力。他强调,这些新功能“开始反映在我们的整体业绩中”。

在与分析师的电话会议上,贾西表示,人工智能的收入仍然相对较小,但他预计这项技术将在未来几年带来数百亿美元的收入。他表示,亚马逊运营的几乎所有消费者业务都已经或将拥有生成式人工智能产品。

据悉,为了加强其云业务,亚马逊正在向聊天机器人制造商Anthropic投资高达40亿美元。

此举也被看作是微软承诺向ChatGPT母公司OpenAI投资100亿美元后,亚马逊作出的应对举措。

亚马逊首席财务官布莱恩·奥尔萨夫斯基(Brian Olsavsky)在电话会议上表示,亚马逊预计今年的资本支出将增加,以支持AWS的增长,包括对AIGC和大型语言模型的额外投资。

数字开物了解到,在 AWS 业务方面,自 2023 年下半年开始,得益于大模型技术的推动,美国云市场呈现出复苏的迹象。

可以看到,目前谷歌云已成功扭亏为盈;微软智能云营收增速不断攀升。而通过将生成式 AI 技术融入云计算服务等举措,亚马逊 AWS 业务在 2023 年 Q4 取得营收 242.04 亿美元,同比增长 13%;营业利润高达 71.7 亿美元,同比增长 38%,占亚马逊总营业利润的 54.3%。

同时,自 2019 年起,微软就与 OpenAI 建立了合作伙伴关系,2023 年大模型兴起之时,微软与 OpenAI 联手占领人工智能高地。

谷歌也携自研大模型及相关产品快速跟上浪潮。而 AWS 在 2023 年 10 月才宣布向 OpenAI 的竞争对手、人工智能(AI)独角兽公司 Anthropic 重金押注 40 亿美元,以加强在人工智能领域的布局。

这种情况下,为了快速形成优势,亚马逊无疑要力求创新,打造独具特色的道路。

据悉,亚马逊 AWS 业务重点面向企业用户,涵盖 IaaS 实例、PaaS 平台、SaaS 软件全栈技术层。这样的路径选择也是对 AWS 优势的放大。

据悉,AWS 最初就是凭借 B 端用户夺得云服务全球第一的份额,最新数据显示,全球有超过 80% 的独角兽公司都已经成为 AWS 的用户,这些行业领军者与 AWS 共同成长,也为 AWS 提供了数量庞大的行业数据和业务经验。

生成式 AI 加持下,亚马逊 AWS 或能与客户建立更紧密的合作关系,并凭借海量的案例吸引更多的企业。

同时,亚马逊也通过并购策略,加速人工智能领域的拓展,如收购生成式 AI 工具 Fig.io 以及从事音频内容发现的 Snackable AI,或能对 AWS 产生强大赋能。

整体来看,亚马逊押注流媒体广告和生成式 AI,前者优势在于庞大的用户群体,后者优势在于完备的产品生态,两者同步前行,亚马逊的而立之年,继续增长的故事仍值得期待。

2个人的AI公司,1个半月吸引用户40万,马斯克都来点赞

Sam Altman说:“只要有人工智能,一个人就能经营10亿美元的公司。”

当Pika以4人团队展示高超技术时就已经让人大跌眼镜。

现在有一个团队,2个人做AI初创公司,上线不到2个月就开始盈利。

据El pais报道,这家西班牙公司目前确实只有2个人,CEO是Javi López,CTO是Emilio Nicolás,这两人是国际在线社区Erasmusu的联合创始人,曾共事10余年。

2023年11月28日,Javi López和Emilio Nicolás推出了Magnific AI,一款AI图像增强软件,能快速提高图像分辨率和修饰图像。西班牙企业名录网站Empresite España显示,Magnific AI官网关联公司Generative Suite SL在2023年12月12日于穆尔西亚成立,暂无公开融资信息。

据透露,Magnific AI上线一个半月内,注册用户40万,其中只有5%是西班牙人。马斯克、知名创作者Beeple、电影导演Dave Clark、好莱坞相关人士等都前来试用和围观。

联合创始人Javi的推特上很热闹,几乎每天发推/转发展示Magnific AI的图像增强功能。如果他不展示,人们的确难以想象这款软件能将一张糊图增强至10k,甚至能将一张emoji升级成3D人像。

AI图像增强

据报道,Javi和Emilio有三个创始口号:“零设备、零投资和不免费提供产品。”并且,他们想尽可能延长“零投资”的时间,做到bootstrapping(以极少的资源起步)。

Magnific AI不是一个免费应用网站,用户注册后进入官网便会直面它的价目表,每月39美元至299美元不等,而且不能退款。

Magnific AI付费门槛折合下来将近300元人民币,是GPT4的两倍。卖点在于其操作简单,功能强大。

2024年1月10日,Javi在推特上宣布Magnific AI能将任何图像放大并增强至10000*10000像素,将任何Midjourney图像放至8x。在示例中,他将《古墓丽影》的劳拉升级16x,用提示词让劳拉从像素块直接变成了3D形象。他补充:“我们图片太高清了,超过了推特能承载的4k。如果需要在推特上展示,我会提供截图功能。”

当前,在编辑界面内,用户可以将图像放大至2x、4x、8x、16x四种范围比例,优化用于标准图、肖像、艺术插图、游戏素材、自然风景、电影、3D渲染、科幻9种风格。其中,不同的倍数增强消耗5积分至300积分不等。

上传图像后,用户结合提示词可以通过调整“Creativity”滑块来控制AI生成更多“幻觉”细节。用户需要把控好度,因为过程中可能会出现奇怪的、不合逻辑的结果。

调整“HDR”滑块可以很大程度提高图像的高清效果。界面提示称,如果这一块的值调得过高,它会无限放大人物的皱纹,生出额外的眼袋细节、斑点等。也有“Resemblance”滑块可以控制生成图与原图的相似值,以控制AI过分增加的效果。

此外,“Fractality”可以控制像素的复杂性,主要是体现用户提示词的细节,更适用于山水风景及城市。

综合调整后,用户可以选择自动、显示放大、锐化增强、闪耀增强四种风格,示例如下。

如,使用Midjourney生成一张中国新年氛围的图片:

在Magnific AI界面输入提示词:“中国的新年期间,烟花绽放,大人小孩上街游玩,大街小巷热闹非凡。”随后,选择图像增强至8x,调整参数后选用“闪耀增强”风格。

增强后,整体图像效果相比原图真实,像素增强至8k×8k。

据介绍,它适用于包含摄影师和设计师在内,探索AI技术提升图像细节和质量的群体,其主要功能有4种,升级模式(Upscale)让低分辨率图像更清晰, 增强模式(Enhance)提升色彩增多细节,去噪模式(DeNoise)消除颗粒转化高清,另外还有一个修正像素化模式(DeJPEG)。

这吸引了许多创意人士做出优秀用例。如艺术家Tormential用抽象草图生成了一幅细节具体的的画像。

卖出史上最贵(6000万美元)数字绘画的艺术家 Beeple还私信Javi说自己每天都在使用Magnific AI。

马斯克在他的推下留言:“计算机,增强!”Javi表示,他曾经多次联系马斯克,都没引起他的注意,这次马斯克的出现给了Magnific AI一个小小的推动力。

显然,Javi对继续开发图像增强兴致勃勃,探索增强后画像风格,细究画像放大后的不合理细节,以及让Magnific AI做到完全AI生图并增强。“我迫不及待想看的你们对我们即将发布的下一个重要产品的好用途。”

据透露,Magnific AI使用的是开放的Stable Diffusion模型。Javi发现,“经测试和调整后,如果加入新的事物,更改参数或修改源代码,这些东西可能会成为新产品的种子,但现在不能透露太多细节。”

因功能强大,该网站引来许多AI工具爱好者付费试用,其用例在社交媒体传播后,也让Magnific AI逐渐热门起来。据Similarweb数据,Magnific AI网站访问量在2023年12月已达到220万人次,3个月访问量累计约277.6万人次。


这家热门公司,只有两个人,但都是工作十余年、技能满点的大佬,也是天使投资人。其中,Emilio Nicolás至少投资过24家公司,领域涉及AIGC、游戏公司、数据安全等,也包括Magnific AI的同类公司Leonardo.Ai。

Javi领英显示,教育经历一栏填了“自学成才”,他靠自己学会了游戏开发、3D设计、UI设计和UX设计。他有包含stable diffusion、Web Development在内的37项技能,均获得他人认可。Emilio会的技能数量甚至比Javi更多,包括网页开发、编程语言等49项。

2008年,两人创立了Erasmusu,这是一个国际交换生的的社交网络和在线社区,旨在帮助大学生寻找住宿,也提供兼职、求助信息的发布。据Growjo,Erasmusu注册用户约95万人次。

Javi是UI设计师兼CEO,Emilio则做项目开发,当了一段时间CTO。2018年,Javi将Erasmusu卖给了西班牙租赁平台Spotahome,在2021年离开,开始休假旅行。Crunchbase显示,他以总监(director)职位挂在Erasmusu的员工档案里。

正是因为有了时间玩,Javi才在兴趣爱好里找到了商机。

2022年4月,在Dall-E2面世。Emilio给Javi发了一张由其生成的图片,远超此前的Dall-E1,Javi从中看到了AI生图的前景。

震惊之余,他开始花心思研究生成式人工智能,花钱试用各类AI工具,并将成果分享在他的个人空间里:“我花了无数时间研究人工智能,测评AI工具,写评论和资讯。

去年1月,他用AI图像技术复原了木乃伊遗骸的生前样貌。一个月后,他熬几百个小时做了一个AI提示包网站BestAIPrompts,给业余人士提供视频素材、时尚插画、儿童插图、漫画等各种类型的提示词,网站有5万余次访问量——当然,该网站也是付费网站。

2023年5月,他测试了Photoshop的AI增强生成填充,感叹其能像魔法棒一样把两张风格相似的图片直接融合成为一张。

紧接着,3个月后他再次研究提示词生图,词要尽善尽美,图才风格一致。Javi在社区里和研究Stable Diffusion的伙伴交谈,发现AI大模型能把图像“重新想象”,自行生成细节。

一键增强,这种“魔法棒”谁不想要?2023年夏天还没享受完,Javi叫上了老朋友Emilio聊了聊这个想法。这两年AI带来的冲击让他仿佛又看到了2000年的互联网繁荣与活力。

虽然已经不再年轻,但是两人卖掉Erasmusu后,时间多,不差钱。只用了1个多月,他们做出基础产品,用作一个“玩具”测试产品让大家试玩,结果它在互联网上爆火。2023年10月,Javi和Emilio才开始认真看待了这件事。

2023年11月,合作了10余年的两人再以Erasmusu相同的配置,相同的阵容开启了Magnific AI。

开了新公司后,两个人都很忙。在推出图像AI增强至10k的前一天,Javi凌晨4点还没入睡,在担心高强度的升级下GPU会不会爆炸。好在Emilio设置的服务器承受住了用户的尝试。

这段时间,Javi为产品探索新功能,每天都处于爆肝状态。即使是在干正事,他也喜欢整活儿娱乐。

例如,他用提示词给马斯克、莱昂纳多、布拉德·皮特、汤姆克鲁斯换上《街头霸王》的风格。

最近,他在OpenAI上线了一个GPT应用程序SuperDescribe做图生图,让用户使用DALL·E 3并附上详细的提示词获得图像。示例图配的是奥特曼的访客照,“嘿,山姆,你不能否认我的SuperDescribe是整个GPT store里最好的APP。”

但他又不真的在玩,实际上Javi在用DALL·E 3测试其理解和保持提示词连贯性的能力。因为在他的产品思维里,Magnific AI不仅是用于图像增强,还要能根据特定的提示词给设计师的草图渲染出灯光和纹理。

“我们或许需要建立营销团队、技术支持团队、销售团队、开发团队……”,Javi在继续做产品升级的时候忙到怀疑人生。然而,他们仍然想自给自足,也不怕亏钱,“除非有价值观相符的公司前来收购我们。”

问题来了,2个人真的能支撑起一家数十万用户的网站吗?

在K fund的播客里,Javi坦然表示,即使只有两个人,只要能每个月有1000笔订阅,经济上能承担GPU的成本,Magnific AI就没那么容易“死”。并且,其用户访问数据还在逐日飙升,付费墙都挡不住。据他分析,Magnific AI的产品是建立在AI大模型之上提供服务,利润率每月约20%。网站、前端靠两人的技术可以自行解决,最大地节省人力成本。训练模型、提升算力以及租用GPU这类基础设施才是最困难的事。

在他们看来,公司收益像是在挣扎中取得收支平衡。“我们要不断推出新功能,如果仅停留在AI图像放大这一个功能的话,我们公司的日子就屈指可数了”,Javi在采访中表示,他们并不排除出售公司并继续在其中工作的想法,但产品研发还将继续,还需要付出更多努力将Magnific AI应用到视频或游戏中。

据悉,目前在Magnific AI订阅套餐最多的人是Stability AI首席执行官Emad Mostaque。Javi透露,他们正在等待与Emad交谈。有网友发现,Stability AI即将发布的图像放大产品或者模型所用的演示图也是Magnific AI用过的劳拉形象。

成为工具链上的一环

活跃在社交媒体和社区的Javi发现,Magnific AI产品发布后还不到3天就已经有复制品出现。他认为,如果有人提出在Midjourney也加一个“想象力”按钮,不到一周就能复制他们的技术。一是因为Stable Diffusion的开源模型获取难度小,二是AI发展的速度比2000年互联网时代更快。

Javi并没有为此感到害怕,他不觉得其他AI图像增强产品已经达到了Magnific AI技术水平。

而且,相比其他图像增强软件,Magnific AI有一个独特点:每当用户提高一个Creativity度,生成图会出现更多创造性的点。“这是我们的护城河”,Javi说。

以放大后的图片为例,有人用Magnific AI放大一只眼睛,眼里有一片海,再放大甚至能看到瞳孔“海岸”旁的小船,密密麻麻的细节被放大,多到恐怖。

以Magnific AI当前技术要实现渲染视频和动画或许还有难度,但它已成为不少艺术家、设计师、游戏开发者工具链条上的一环,把它当做短视频和创意广告的前端工具,与Midjourney、Photoshop、Runway等配合使用效果不错。

近日,英伟达的高级软件工程师Bojan Tunguz用Midjourney新模型Niji6生成巴黎风格的动漫图像,用Magnific AI放大细节,再用RunwayML设置动画,最后以Splice配乐,做成了40秒的风景动画。“虽然离完美还很远,但这次整个过程不超过半小时的工作相当令人印象深刻。”

此外,创作人Rene也用这套流程做了一则质感高级的AI电影《Be yourself》。为Snapchat、惠普、百事可乐制作品牌广告的导演David Clark在《人工智能如何永远地改变广告》的访谈中表示,当他要用Runway制作超高视觉特效慢镜头时,需要足够高的分辨率图像保留细节,“Javi给了我16x的权限,我从中提取出难以置信的图片质量,(那时)Magnific AI就成为我的秘密武器之一”。

据称,Magnific AI也得到了好莱坞的关注,它将在其中一部电影中展示技术使用。

Javi和Emilio正努力走在AI图像增强这条新路径上。跟奥特曼一样,Javi也有一个大胆的念头——接下来的10年里,他们将看到越来越多单人或5人以下的创业公司在营收上达到10亿美元。

“我指的不是估值,而是实际营收的公司”,Javi补充。

对话 Pika 创始人:AI 时代的产品需求,需要交给用户来定义

作者 | Founder Park2023 年 11 月底,视频生成产品 Pika 发布 1.0 版本,同时宣布了 5500 万美元的融资消息。完成融资之后,Pika Labs 这家公司的人员规模扩展了一倍,从 4 个人,变成了 8 个人。近期,极客公园创始人张鹏与 Pika 创始人 Demi Guo 在硅谷进行了一次深度交流,期间谈到了视频生成的技术现状,Demi 本人对 AI 产品、应用创业的思考,Pika 团队的优势和壁垒所在,以及她对 AI 初创团队的组织思考等等。

以下是对谈部分精华内容,经 Founder Park 编辑。

01

视频模型的稳定性

是当下的关注重点张鹏:

23 年 6 月份我来硅谷的时候觉得硅谷 VC 对于生成式视频好像没有多大热情,但是过了一个季度,大家好像都开始关注这事儿。

Demi:对,6 月那会我们打算融最后一轮的时候,很多人都不知道这方面是什么样的情况。

张鹏:那你觉得是哪些因素,让大家开始形成共识,让很多头部 VC 都开始关注这件事情?

Demi:我觉得有很多因素。一个是视频生成的进步,另外的的确确有需求的因素在里面。之前我们刚开始的时候,有很多人对标我们,然后整个行业也慢慢成熟。之前可能很多人觉得这条赛道火不了,一些公司做出来后大家又发现还是有些希望的。

张鹏:确实,你们这几个优秀玩家的涌出拓宽了这条赛道。那你觉得目前生成式视频目前技术核心的卡点在什么地方?

Demi:现在的卡点,从模型上说的话就是视频模型的稳定性、模型的高清程度、视频长度以及内容的意义等等这些。

张鹏:那这些问题要怎么去优化?比如像语言模型会关注数据的问题,视频模型要突破的话,核心也是在数据吗?还是一些别的什么地方?

Demi:我觉得是比较综合的事情,甚至可能比语言模型更难,因为视频模型是一个更加 open 的东西。现在语言模型大家大概知道优化的方向是 scale,那视频模型除了 scale 的问题,还有数据的问题、模型结构之类的问题。

张鹏:就是说视频模型里的不确定性和 open 的程度比语言模型多得多?所以现在视频模型的优化大家也可能会选择不同的创新方向,结构或者架构上的创新,而不是在一个确定性的方向上大力出奇迹。

Demi:现在我觉得很大的问题不仅是算力问题,更多可能是数据,或者说方法上的问题,现在一些方法本身就有瓶颈。比如现在有的生成方法就无法生成长一点的视频,这是一个结构问题。

张鹏:对,就看起来今天大家在应用上的一些点,背后可能涉及到模型侧得做一些新的调整。比如视频长度的问题,运镜角度的调整,以及审美风格的多样性,你比较关心的是哪几个能力?

Demi:其实各方面我们都有关注,而且不同阶段我们对问题关注的优先程度也不一样。我觉得现在视频最大的问题是它的稳定性问题,就是说如何让每个人,不管学没学过 prompt 工程的人都能一次性生成很棒的视频,这是 first thing to achieve 的。同时审美也是在我们的 top list 中的事情,我们搞数据的时候会有很多审美的元素在里面。至于时间长度这些,随着模型的提高,都会有提高。

张鹏:所以从你的角度看,虽然各个维度都有一些点是可以修炼的,但最重要的还是像 ChatGPT 那样,要达成一种每个人用完都想再接着用的效果,这是你们首要要达成的。

Demi:是的,核心点就是模型 improve quality,把 quality 提高后,很多问题也会迎刃而解。

张鹏:我们最近跟一些大模型领域的创业者聊,他们说现在大语言模型都是三个问题的叠加,一个是通用性,一个是稳定性(质量),还有一个是经济性,这三个东西搁在一起,在某个特定的场景中很好地 match,就能产生价值。但现在的问题是,这三个同时要做得很好,就比较难。

Demi:我觉得不全是。

张鹏:那你是怎样想的?

Demi:我觉得通用性和质量有些情况下可以是一致的,有些情况是不一致的,就是要看怎么去提高质量。因为提高质量有很多种方式,比如专门训练某一方面,前期提高质量的东西。但还有一种方法是你把模型提高了,那所有都提高了。

张鹏通用性最终覆盖了模型的短期加强

Demi:是的。因为通用性,整个模型的提高是一个更长期的事情。提高质量,提高整个模型更加底层的东西的 话,很多时候都需要通用数据,这么多数据的训练从而提高了模型在更大领域的使用。

张鹏:小模型长期来看没什么意义。

Demi:对,通用性是基石,这个底打的足够厚足够高,单个领域往上增加特定功能的时候上限才会更高。


02

手里要有

自己的「引擎」张鹏:刚才说的那个点我理解就是,要信 AGI,真正地信仰 AGI,相信它解放的是长期的终极能力。但从产品角度看确实有另一种方法,在今天这个节点把它凑成一种最合算,最有效率的方式,但随着技术进步,这种方式的优势会脆弱得被马上覆盖掉。是不是可以这样理解?

Demi:不同公司的目标侧重点会有所不同,OpenAI 就完全目标 AGI,而更多的产品公司,这种专门做一些垂直应用的,更倾向于找到长期和短期目标之间的平衡点。因为不可能说,因为一些短期的东西最终会被覆盖掉就不做,也不可能只做长期的地基,因为这没法赚钱。所以我们希望的是做一些特定领域质量上提升花费比较小的一些东西,然后让它 push 产品。产生价值的同时搭建自己的地基。

张鹏:理解,很多我聊过的创业者都认为如果没有一个持续有足够力量成长的引擎,在今天去 hold 一个当下时代断面/技术断面的产品没什么生命力,可能很快就会被覆盖,这个是我认为这个时代做产品要考虑的一个基础。这跟互联网时代那种因为没什么可以持续演进的技术,谁占着一块地就是一块地,占一个用户心智就是一个平台的玩法完全不同。AGI 时代做产品最大的一个变化就是引擎变得超级重要,这个引擎不仅现在要能用,还得能持续进化。

Demi:对,我个人的感觉是,只要手里有引擎,实在不行还可以退到产品,这是有引擎的 back-up 选择。

张鹏:所以一上来就做非常短期的、在一瞬间好像最有竞争力的产品,反而可能是最脆弱的。

Demi:其实做产品的,一定会依赖大模型。现在所谓的开源模型也不是真正的开源,它们只是开放权重,用户没有太多能力深度修改和调整。如果有地基,你会有更多的产品。你对模型有更多的理解力和调控权力,你就可以通过改变模型适应的产品改变模型能力。

张鹏:这就是生命力。现在技术处于一个涨潮期,不能用赶海的思维想着能捡到宝。因为它不断地在往上运动,没法刻舟求剑地做一个只是外加引擎的产品,这种过度强调外加应用的公司寿命可能非常短。我接触过一些中国大模型创业者,在国内还缺大模型的时候,就跳出来以做最好的国产模型为阵地,先保证拿到足够多的钱。

然后其实心里有个保持 18 个月生命力的安全线,一边不断把技术的水涨上去,同时不断做比较轻的应用尝试。他们的逻辑是技术越成熟,做出的产品成功率越高。同时只要有模型作为「引擎」能力,永远有机会在依靠模型不能继续融钱的时候,去做可以变现的产品,而且那时候也比其他没有「引擎」的应用公司更有优势。

Demi:我觉得和他们比,我们其实更偏产品,而且我们觉得技术和产品是一样重要的。

03

AI 需要产品

做好「留白」张鹏:我还想了解一下,在生成视频这么大一块领域里,你们的产品是如何定义问题和功能边界的?

Demi:分两块。一块是技术层面,一块是产品层面。技术层面来说,基于大模型,一定会有扩展视频这种应用。产品层面来说,为什么会做这个选择,实现这个功能,就是基于消费者产品 hard to predict 的特性,不断去了解行业,获得信息,多次尝试,理解和感受用户需求。用户使用产品,使用模版本身还是处于比较早的阶段,我觉得我们没有必要去定义这个产品,能做的就是通过用户反馈慢慢思考探索。

张鹏:很有意思,为什么我要提这个呢,因为 2010 世代的互联网产品经理一上来就要精准定义一个产品,他们会丈量技术实现能力,计算成本,然后聚焦到一个点。而你刚才说的就是要留白,要释放开来,让用户应用的过程中留给我思考的空间。上一代的产品经理是要把所有设计权把握在自己手中,让用户顺着我的思路印证设计的合理性。这是两条非常不同的思路。

Demi:我觉得还有很大一部分原因是 AI 本身,AI 是 enable 了一个新的产品,一个技术,一个成本,它能做很多事情,这和互联网不一样。AI 主打一个模型能做很多事情,以前为什么说产品线一定要精准,因为那个时候做三个功能,就有三份成本,但现在对我们来讲,三份功能是一份成本,公开一个 feature 还是三个 feature,对我们来说不增加我们的技术和人力成本,只是让用户的实际使用体验发生了变化,不同的引导用户的方式。

就算我们做十个 feature,对我们来讲没有额外的成本,不需要提前去规划。但是如果说我们今天要不要做一个 Avatar 或者音频的功能,这个可能需要提前考虑,因为需要新的人力成本。如果只是说视频是编辑还是生成,对我们来讲是一样的成本。


04

不需要立刻找到精准

需求,但要有产品预测张鹏

所以基本上是这上面所有大家可用的功能,不管是在操控性上,还是在时间等维度上,本质上都是因为你的模型能力可以覆盖这些事,并没有因为特定的 feature,而加入额外的人力,那样其实不合算。所以其实我们聊到了一个很重要的点:什么是 AGI 时代的产品思维?我觉得这个思维可能跟移动互联网时候有非常根本的变化,你得以技术为核心,而不是抱住一个需求。

Demi:我觉得现在很多人还没有转换思维,AGI 时代产品需求的精准程度和以前是不一样的。很多人会问我,我们产品的用户是谁,用户画像是怎样的,有什么样的 use case,这些都还是互联网时代的那种玩法。AI 主打的通用性,虽然还是需要预测一些需求轮廓,但内部更精确的需求,它是可以由用户来定义的。

未来 AGI 时代产品需求还是会有,但这个产品需求跟之前的精准程度是不一样的。以前是非常非常精准,但现在的精准是你要不要编辑,以及可能是你要给谁编辑,你要编辑哪个用户的台词。但我觉得 AI 时代,可能它的用户群体和 use case 不像以前那么精准的。因为 AI 主打通用性。如果今天要做视频编辑的功能,也是需要有额外成本,需要去预测这个需求,但这个编辑的功能是可以服务各种各样的用户,这个精准程度是不一样的。

张鹏:我听到更多探讨,都是现在大家很焦虑急于找到今天可用的模型能力和明确的需求上,能不能好好对齐出一个能够正向产生价值的服务。你为什么没有这个焦虑?

Demi:我觉得我们跟传统的产品公司很不一样,很多时候我并没有觉得我们需要那么快去找到产品的用户群体和精准需求,因为产品的一个交互界面,可以给很多人用。但我觉得我们跟很多大模型公司也不一样,他们都觉得自己是 apply research lab,我们觉得还是需要预测产品需求的。我觉得用户界面设计是有价值的,但可能跟以前的需求不一样,我们要做的是去发明新的用户界面,能够更加通用和好用。我不相信未来的视频大模型,会是一个对话界面,但我又不相信未来的视频大模型带来的产品会是一个传统的视频编辑器,会有一个新的界面,但我不相信这个新的交互界面会是我们或者 Runway 的。我们的交互界面只花了一个月时间,是基于 AI 功能性的,每一个按钮代表 AI 能做的事,其实没有很多设计的成分。当 AI 生成视频足够强大的时候,一定会有一个新的 interface,甚至会去推动技术的发展。

张鹏:所以你本质上是要改变创作的方式,落到对应的产品,终极来讲是改变交互。如果要这样的话,确实需要对产品做预判,观察用户数据和习惯,全靠自己猜是猜不出来的。

Demi:我觉得产品分两种,一种就是遵照用户需求,按照 PMF 打造的产品。另一种是发明式的产品,就像 iPhone 一样,我不是要解决某个需求某个点,而是我觉得未来产品应该长什么样,这也是我们真正想做的。我们也需要有产品预判,只是这种思维方式不是传统的 PMF,它需要一个全新的 interface。


05

审美也是

交互界面的问题张鹏:视频产品需要非常强烈的审美元素,这件事怎么在模型中 work 的?审美的数据从哪来?在模型中如何成为优势?

Demi:我觉得这个分两个阶段,第一个阶段就是 Midjourney 阶段,这个阶段是让所有图片都好看,它只能做一种风格,但是通过改变数据就能定义他们想要的图片审美。这是一种比较简单粗暴提高的方法,核心点是模型能力还不够强。第二阶段是说用这个模型真的能产出很多审美,这是我们在努力的方向,就是说我们不定义模型的审美,让所有人都能定义自己视频的审美。

张鹏:也就是说你们会认为未来终极的目标应该是用最简单的方式制造符合不同用户审美的审美。理解审美这件事本质上还是在语言模型层面吗?

Demi:不好说,文字在用文字定义审美的时候很重要。但对视频这种非常视觉的东西,可能最终最准确的不是用文字,而是其他一些东西,每个人的 visualization 是很不一样的。

张鹏:所以不能拿语言去衡量,应该增加一个(菜单)二级的反馈,有哪些风格用户选了哪个。所以审美可以用这种方式解决,不一定说非要写在模型里。

Demi:对,审美更多还是交互的问题,我给你一些 reference 你来选择,归根到底是一种非常综合的方式。

张鹏:未来视频生成的速度可能更快,从成本到速度,能不能预言一下,未来 18 个月,1000 天,或者说一年半到三年的周期,可能是什么样的?

Demi:我觉得很神奇的一点是成本和质量、通用有矛盾,但是又不矛盾。成本永远有提高的空间,但今天的瓶颈不在于成本,而在于质量,质量不好,成本再低也没什么用。

张鹏:也就是说生成视频的时间可以更快,但质量问题更优先。还是那句话,模型能力的上升是终极目标,其他都不是关键问题。

Demi:我觉得成本在模型质量到一定程度的时候才变得重要。如果今天视频模型和图片模型一样好,那我可能就没那么在乎成本。


06

保持随时从模型切到

应用层的技术优势张鹏:用一个比较旧的,不符合 AGI 时代产品的词,你们是如何判断你们产品的壁垒在哪里?

Demi:我觉得主要是有一些差异化的战略,以及好的公司人才和组织架构。今天有个核心的预测判断,是说未来是大模型时代,现在的所有问题比如说技术逻辑不够成熟的情况下,外家功夫还是有用的。但未来这些技术的内功一定都是在大模型上。大模型才是最核心的优势。如果你没有,如果是本身做过大模型的人,会更加容易去做改进,因为你更加懂大模型,有更强的技术团队,更加有能力改变大模型,将大模型 adapt to your use case。不管说未来所有东西都要基于大模型,还是额外的算法对于做过大模型的 team 更有优势,我们认为未来还是要依赖会大模型的公司,实在不行我们可以变成应用公司,那个时候别人可能已经找到了所谓的 PMF,但我们有更强的技术可以做得更好。

张鹏:这种优势就是我能够一直保持在一个更高的能量位,我随时可以俯冲到应用公司。但如果在今天诞生的时候,就是一个各种拼凑在今天看起来很好的应用公司,其实很难转为模型公司。

Demi:当然,本质上我们还是想做应用,但应该去制作 ROI 比较高、不用花很多成本的应用。就是依靠模型能力为核心,尽量在不花更多成本和人力的情况下,去做最便宜、最大 ROI 的应用。其实这样的应用现在是 AI 应用里最火的,不单单是视频,图片和文字领域都是类似的应用。

张鹏:用户在这个阶段就是你能让 ta 玩起来,ta 就很开心,而且不会特别在意是不是「相对高效」的解决了某个问题。ChatGPT 也没有特别极致高效的解决某个特定问题,但为它 20 美金也就愿意付了。因为它能让所有人一下子就觉得震惊和好玩。这个时代还是要做有点少年气的产品,因为成熟的产品得算清楚 ROI,算清楚怎么从用户手里掏钱,少年气的产品好玩就可以了,大家觉得开心、很酷就可以了。

Demi:是的,这个特定阶段能做到这一点,对公司来讲也是最好的,一方面可以主要把精力花在大模型上,同时应用又是最容易挣钱的。

好的组织是要找到

自己与众不同的东西,

找到自己的差异化
张鹏:你们现在多少人?Demi:7、8 个人,和融资时候的 4 个人相比,也算是翻倍了。

张鹏:你们招人的标准是什么?

Demi:我发现招好的人比招很多人要重要的多。我们对招人的标准要求比较高,所以涨得比较慢。我们之所以这么快是因为我们所有的决策可以 on the fly to make it(即时执行)。人多的话,很多人就会有不同的意见,每个人的 ownership 非常不清晰,就没有吸引力。

张鹏:那你对组织构建有什么理念?如何构建一个能够生生不息创造力的组织呢?

Demi:我觉得最重要的是学会不断地去 differentiate(差异化),不断找到自己与众不同的东西,不管是制度/执行/产品层面,都要找到 differentiate 且正确的事情去做。在组织上我们也在思考不 optmize for experience(经验),而 optmize for smart(聪慧)是否可能,不需要花费很高的人力成本招聘 senior 级别的人才,而只用一个最高最好的 scientist 带队,其余都用本科生级别的人才,用最低的成本达成最高的效率。我们最近招的一些在校实习生,他们相对来说对工作抱有更高的热忱,非常享受工作的过程,效率也非常高。当然本科生优点明显,但一些比较专业的 research 问题,可能还是需要一些更有经验的人去做。所以对我们来说,最好的架构可能是有两三个非常 senior 的 research scientist,再带着一些有干劲的本科生研究生工作。

张鹏:那些简历非常好的人可能更适用于你们规模变大的阶段,适合你们找到了找到了一些确定的东西,要开始放大、复制的时候。

Demi:不管怎样,我的核心想法就是组织架构也和产品一样,要不断迭代。我觉得现在需要的一个非常 adaptive(适应能力强),非常高效,有什么机会能随时准备好出击的团队。

虽然说我们也在提高我们的壁垒,或者 differentiate 一些策略,但实话说这个时候还是要去竞争的,所以效率和速度依然很重要。另外很多时候我觉得不是要多「争」,更多是去要「竞」,保持快迭代的能力。

就像 OpenAI 早期员工都没有一些具体的经验,但因为他们必须相信非常独特的愿景,才能做出非常独特的事物。这时候经验反而就变得没那么重要了。张鹏:凡事都要能找到有经验的人,那就成了工程和效率问题了,可能反而会反创新。

Demi:对,创新不一定需要经验,经验有时候只会限制更大的创新

Sam Altman: AI 时代,1 个人的独角兽公司即将成为可能

我在去年写了一篇文章《AI 时代,一种新型创业公司的形态即将来临》,里面提到了一个康威定律,阐明了在不同的技术时代会产生不同类型的组织,而我们使用的系统往往决定了我们的组织形态。

Every 创始人 Nathan Baschez 认为,在 AI 时代,一种新型的创业公司形态正在诞生,其特点是:smaller、faster、cheaper and weirder(更小、更快、更便宜、更奇怪)。随着越来越多的任务将被 AI 所取代,人类在公司建设中扮演的角色将在未来发生变化。

而在前两天,OpenAI CEO Sam Altman 在接受 Reddit 联合创始人 Alexis Ohanian 的采访时认为,AI 时代会创造出一种全新的创业公司:一个人的独角兽公司,并且认为出现的时间不会太远。

Sam Altman 说,在他跟一群科技公司 CEO 的一个小群里,他们有一个赌注,赌的就是什么时候会出现第一个只有一人的十亿美金公司,这在没有 AI 的情况下是无法想象的,而现在却将成为现实。

NFX 的合伙人 James Currier 也认为,对于许多人来说,这是一个关于何时,而不是是否会发生的问题。尽管这两年创投行业经历了非常巨大的调整,一些独角兽正在变成独角兽尸体,但一些投资人认为,我们正在进入一个新的创业黄金时代。

创业公司的最大特点就是快速行动,而 AI 将会把这种能力急剧放大,因为 AI 可以自动化许多过去需要更多人来操作的过程。

NFX 的合伙人 James Currier 在去年写过一篇文章《The 3-Person Unicorn Startup》,认为借助下一代的 AI 工具,非常有才华的三人团队将能够通过自动化工作流程,将以软件为中心的业务增长到 1 亿美金以上的收入,创始人们将能够用更少的资源做更多的事情。

而原因是他所说的 Allometric Scaling(异速生长),我查了一下,这个词的大概意思是:

异速生长(Allometric Scaling)是一种生物学概念,指的是不同生物体大小与某种特定生物学特征(例如新陈代谢率、心脏大小、脑大小等)之间的关系。这种关系不是线性的,而是呈现出一种非线性的比例关系。在生物学研究中,异速生长可以帮助科学家理解不同生物体之间的生物学差异,以及这些差异如何随着体型的变化而变化。

James Currier 说,在 AI 时代,所有公司都在进行异速生长。你会注意到 AI 以许多不同的方式改变了你的公司的规模与其新陈代谢、增长、心跳之间的关系。

如果你能减少员工数量,每一项业务操作都会变得更简单。人数较少意味着创始人会有更少的会议,更少的分歧,更少的政治斗争,更快的决策制定,以及更快的实验;更少的人意味着更少的招聘、面试、雇佣、入职培训、指导、绩效评估、文化建设、戏剧性的离职和解雇;越少的人意味着花费在薪资上的开支越少,花费在筹款上的时间越少,从风险投资公司筹集的资金越少,对创始人的稀释也越少。

James 说他已经看到一些工具,可以独立创建一些简单的功能,并且基本上无需人类的参与。有的企业在使用 AI 客服后,其客服团队减少了 90%。因此 James 说虽然 AI 不会取代你,但是一个拥有 AI 的人会

对于一人独角兽公司会是什么类型这一点,大家的观点都比较一致,只有可能出现在面向 C 端的软件产品。其实目前那些小团队高估值(高收入)的公司,基本上也都在这个领域,比方说 Instagram,在 2012 年以 10 亿美元的价格卖给Facebook 时,员工只有 13 人;WhatsApp (35 名工程师在以 160 亿美元收购时支持了 4.5 亿用户),还有当下 AI 时代的 Midjourney。

无论是 1 人的独角兽公司还是 3 人的独角兽公司,本质上都是在说 AI 在替代大量之前由人完成的工作流程,但另一个地方可能我们都忽视了的就是上面提到的 Allometric Scaling(异速生长),随着组织的变化和人越来越少,它所带来整个生态的巨大变化可能是我们目前还无法预测的

最近 ServiceNow 的财报,也让我们感受到了 AI 对于现有企业带来的巨大价值,ServiceNow 目前有 3 个产品线的 ACV 价值超过了 10 亿美元,11 条单独的产品线 ACV 价值超过 2.5 亿美元。其 CEO Bill McDermott 在财报会上说,ServiceNow 新发布的 AI 产品在他们发布的所有新产品系列中贡献了最大 ACV,发现客户愿意付更多费用:

如果消费者能够获得与家电一同提供的当日维修协议,他们将支付更多。而当日维修的利润远高于产品本身,并且还可以创造稳定的收入流。因此,我们在这里讨论的是通过我们的平台和通用人工智能来从根本上重新思考业务转型。

除了外部客户愿意付更多费用,AI 给这些企业内部提高效率带来了实实在在的价值,Bill McDermott 说仅仅在开发这块,使用 AI 就使他们的开发人员创新速度提高了 52%。

ServiceNow 的 ARR 已经突破了 100 亿美金,并且还在以 27%的速度在增长,其超过 100 万美金的客户有 1900 多个,而且员工增长的速度是低于收入增长的速度,这就意味着其利润随着公司的增长还在增长,对于一个 100 亿美金 ARR 的公司来说,这是非常不容易的。

最近 GitHub 上有一个叫 GPT Newspaper 的项目,是一个完全由 AI Agent 驱动的产品,可以根据用户偏好创建个性化的报纸。这个 GPT Newspaper 由 6 个 AI Agent 组成,基本上把传统媒体的所有工作都实现了:

  1. Search Agent:在网络上搜索最新、最相关的新闻;
  2. Curator Agent:根据用户定义的偏好和兴趣过滤和选择新闻;
  3. Writer Agent:创作引人入胜且读者友好的文章;
  4. Critique Agent:向作者提供反馈,直到文章获得批准发布;
  5. Designer Agent: 对文章进行布局和设计,以获得美观的阅读体验;
  6. Editor Agent: 根据制作的文章构建报纸;
  7. Publisher Agent:将报纸发布到前端或所需的服务。

下面是这个 Newspaper 的大致工作流程:

可以想象,AI 在 2024 年可能会迎来非常大的一个爆发,不仅仅是创业公司,还有现有企业的更大规模使用。

2024年全球大学计算机专业排名发布!中国高校领先AI领域!

全球CS排名中,中国高校/机构包揽了多个席位,其中CMU第一,清华第二,上交第3,北大第4。

中国院校有 25 所院校进入前100(内地19所,香港6所),上榜数量仅次于美国。Top 10 中,中国内地共有 4 所大学上榜,分别是清华大学(第 2 名)、上海交大(第 3 名)、北京大学(第 4 名)、浙江大学(第 6 名)。

2024 CS Rankings 中,美国院校的优势也十分明显,全球 Top100 中就占了 58 所;28 所大学进入 Top50。其中,卡内基梅隆大学再次以绝对实力连续 12 年捧走第 1 的宝座。除了卡耐基梅隆大学以外:伊利诺伊大学香槟分校:世界第 4、全美第 2 佐治亚理工学院:世界第 7、全美第 3 斯坦福大学:世界第 9、全美第 4 加州大学圣地亚哥分校:世界第 9、全美第 4 密歇根大学安娜堡分校:世界第 9、全美第 4 华盛顿大学:世界 第9、全美第 4

本次英国大学无缘前 50 名,帝国理工学院、爱丁堡大学、牛津大学并列世界第 54、全英第 1。

进入世界 Top100 行列的英国大学共 5 所,除上述三所大学以外,伦敦大学学院、剑桥大学并列第 83、全英第 4。

澳洲的计算机科学专业共有3所大学成功跻身世界前100,包括莫纳什大学(第54名)、悉尼大学(第54名)和墨尔本大学(第83名)。

2024 CS高校全球排名

根据最新的CS Rankings,24年计算机科学专业全球整体排名Top 10如下——卡耐基梅隆大学第1,清华大学第2,上海交通大学第3,北京大学和伊利诺伊大学厄巴纳-香槟分校并列第4,浙江大学第6,苏黎世联邦理工学院和佐治亚理工学院并列第7,韩国科学技术院、斯坦福大学、加州大学圣地亚哥分校、密歇根大学、华盛顿大学并列第9,MIT、新加坡国立大学、UC伯克利、 马里兰大学帕克分校并列第14。

四大方向排名CS Ranking将所有的研究主题归类为以下四个大方向:
人工智能(AI)    计算机系统(Systems)    计算机理论(Theory)
    跨学科领域(Interdisciplinary Aresa)

AI领域

AI领域的世界TOP 10排名来看,中国表现非常亮眼,共有8所高校/机构进入全球前十(包含并列排名),分别是:清华大学(1)、北京大学(2)、上海交通大学(3)、浙江大学(4)、人民大学(7)、南京大学(8)、复旦大学(10)、哈尔滨工业大学(10)。

美国高校中,只有卡内基梅隆大学进入Top 10;去年排在第七的UIUC,今年则排在了并列第12;斯坦福大学、马里兰大学紧随其后;佐治亚理工学院、UCSD、UCLA、UCB进入了Top 20。

浙大CV第一,哈工大NLP第一

当仅勾选计算机视觉领域时(只统计了CVPR、ECCV、ICCV这三个顶会):

而当仅勾选自然语言处理时(只统计了ACL、EMNLP、NAACL三个顶会):

哈工大排名世界第一,复旦大学和CMU并列第二,清华排名第六。

计算机系统领域

计算机系统(Systems)领域包含了更多的版块,包括Computer architecture计算机结构、Computer networks计算机网络、Computer security计算机安全、Databases数据库等等。在这一领域,中国 3 所大学进入前三,上海交通大学和清华大学并列第 1,北京大学位列第 3;UIUC、普渡大学和卡内基梅隆三所学校领先美国其他高校;佐治亚理工和威斯康星麦迪逊也进入了 Top 10;MIT、UCSD、密歇根大学、华盛顿大学并列第 12 名;康奈尔大学、杜克大学、东北大学、普林斯顿大学、UCB 和芝加哥大学并列第 16 名。

计算机理论

在这一领域中,美国大学优势明显,TOP20中有11所学校来自美国。其中卡内基梅隆大学再次夺得第1;不过去年的第2名MIT今年却掉到了第9名;华盛顿大学、UIUC、德州奥斯汀分别排在第3、4、5名;密歇根大学、东北大学和UCLA进入前10。

跨学科领域

跨学科领域中,美高校依然强势,TOP20中有14所院校来自美国。卡内基梅隆大学位列榜首,斯坦福大学和密歇根大学并列第三。另外,佐治亚理工学院、马里兰大学、MIT、UCB、UCSD、明尼苏达大学、华盛顿大学均进入前10名。

中国方面,香港科技大学并列第5,清华大学并列第10,浙江大学并列第16。

跨学科(Interdisciplinary Areas)领域中,主要分为Comp.bio & bioinfomatics比较生物&生物信息学、Computer graphics计算机图形学、Economics & computation经济学与计算、Human-computer interaction人机交互、Robotics机器人学以及Visualization可视化六大版块。

四巨头拼AI杀红眼:硅谷又疯狂了

硅谷似乎又到了一个狂热的时刻。

过去几天,先是美国四大互联网巨头微软、谷歌、苹果和Meta接连递交季度收入答卷,展开业绩大对决:

Meta逆袭成功,一夜之间市值暴涨1970亿美元,创股市单日最大增长记录;

微软连续五季度创收入新高,3万亿美元加身,取代苹果成为全球市值最高公司;

谷歌云服务持续拉升,首次实现全年盈利,继续加大投入AI军备竞赛;

而苹果扭转连续四季度下滑颓势后,更是直接抢了所有人的头条,最新MR头显Vision Pro正式在线发售,强势登陆美国官方零售店,刮起抢购旋风。

这景象,多久没见过了。

Meta砸钱做开源AI,

扎克伯格翻身了

三年前,Facebook摇身变成Meta全力押注元宇宙,结果股价和业绩惨遭“戴维斯双杀”。仅2022年前11个月市值就跌去70%,血亏6000亿美元,直接被挤出全球前二十大公司行列,扎克伯格的个人财富也蒸发了1000多亿美元。

后来小扎调整业务重心,重回社媒并强势进军人工智能,终于在本月Facebook成立20周年之际翻身逆袭,拿出一份史上最强财报。

数据显示,Meta四季度营收401.1亿美元,同比大增25%,净利润140亿美元,比去年同期增长两倍多。除Reality Labs元宇宙部门继续亏损46.5亿美元外,广告和社媒家族陆润均超预期,日活用户数稳定增长至21.1亿,月活用户数达30.7亿。

财报发出后,Meta盘后股价飙升15%,自2022年11月触底以来涨幅已达3倍,超过了标普500指数中除英伟达以外的所有股票。同时宣布将增加500亿美元股票回购,并进行公司史上首次每股50美分股息发放。

扎克伯格认为,广告业务改善的背后,人工智能功不可破。一直以来,Meta通过改进广告定位、AI推荐内容、以及运行所需的基础设施来扩展其核心广告业务,这在本季度收效显著,公司的应用程序的日均观看时间比去年同期增加25%。Meta首席财务官Susan Li也表示,Q4收入的大幅增长正是得益于AI推荐视频内容和中国企业主的高额支出。

除了AI内容优化,Meta在人工智能赛道的决心还远不止于此。

扎克伯格已计划豪掷万亿美元,与谷歌、微软、OpenAI们一起狂卷AGI,并将此作为公司下一目标。摒弃主流市场风向,Meta选择走一条特立独行的全开源之路,认为这种开放策略将更有助于推动技术创新和构建蓬勃的开发者社区,旗下大语言模型Llama2一直免费供研究和商业使用,新一代的Llama3也已在训练中。

小扎还宣布重组关键AI研究部门,并继续补充“弹药库”储备。到今年年底,Meta将购入约35万块英伟达H100 GPU,加上来自其他潜在供应商和自研AI芯片,总共拥有相当于60万块H100的等效算力。

根据路透社报道,Meta将在今年正式投产第二代自研AI芯片Artemis,用于与H100协同互补,部署其数据中心推理任务,公司发言人也确认了这一芯片计划。另有传闻称,Meta还在开发一款能执行AI工作负载的更复杂的处理器,最终目标是开发出足以媲美英伟达GPU的产品。

未来,Meta会继续加大人工智能和在线商务领域投资,同时精简运营成本。在遭遇元宇宙滑铁卢后,扎克伯格曾在新任华裔CFO Susan Li的协助下快速调整资本开支结构,将2023年定为“效率年”,削减1万名团队员工,冻结约5千个尚未填补的空缺职位,最终扭转公司局面,恢复强劲收入增长。

在本季度财报后电话会议上,扎克伯格称,2024年的新员工引进规模仍将尽量保持低水平。Susan Li也向华尔街报告了降本增效目标指引下300亿至370亿美元的支出预估,增加部分主要用于加强AI领域的研发,极大鼓舞了投资者信心。

在走对了路以后,扎克伯格在股东中口碑翻身,也带着Meta重回万亿美元市值俱乐部。

谷歌VS微软:

AI军备竞赛继续杀

虽然没有Meta逆袭冲击大,但微软和谷歌这次的财报数据也都很不错,发展态势稳健,各项关键业绩指标均超出华尔街预期。

谷歌当季创造了863亿美元总营收,同比增长13%,净利润同比大涨50%达到206.87亿美元。但由于占收入八成的支柱广告业务收入不及预期,加之资本支出比上季度激增近一半,股价还是在连续坚挺5个交易日后于财报当天收跌6%。

微软这边的成绩则更加亮眼:620亿美元总营收和219亿美元净利润,分别比去年同期增长18%和33%,创下两年来增幅新高。首次在现任CEO萨蒂亚·纳德拉带领下,昂首突破3万亿美元大关,赶超苹果成为全球市值最高的公司。

不过在AI浪潮推动下,两家公司的云版块都展现出积极向好信号。谷歌云收入持续增长至92亿美元,首次实现全年盈利。对于微软来说,如今的云服务更成为拉动整个业务体系前进的排头兵。包括Azure、服务器、GitHub和企业服务在内的微软智能云部门已凭着单季258.8亿美元收入,成为全厂贡献榜当家老大。

出于为AI发展提供的必要资源、数据处理能力和创新环境,云计算市场的潜力与日俱增。微软在下对了入局OpenAI的第一步棋后,前后130亿美元的重金押注也终于获得回报。公司CFO艾米·胡德在电话会议中表示,Azure云产品销售额本季度猛增30%,其中6个百分点来自AI需求,是上季度AI为Azure贡献的两倍。绝大部分增量都要归功于OpenAI在Azure云上的推理调用。CEO纳德拉也透露,微软现在拥有5.3万Azure人工智能客户,三分之一都是在过去12个月内新加入的。

除Azure云服务之外,微软AI战略背后还有一系列基于ChatGPT技术的Copilot AI软件助手,全面接入其热门生产力办公套件Microsoft 365。AI算力部署方面,纳德拉在去年11月西雅图举行的Ignite开发者大会上,宣布推出两款自研AI芯片Maia 100和Cobalt 100,以应对不断增加的大模型训练成本挑战,摆脱受制于英伟达的被动局面。

在财报当季,微软完成了对动视暴雪650亿美元的收购,并在云服务和数据中心等AI基建上大方花费115亿美元。纳德拉坚持继续看好AI技术发展,他认为市场已经从谈论AI转向大规模应用AI。未来也会继续扩大相应投资,通过将AI融入技术堆栈的每一层面赢得新客户,提升效益和生产力。

而作为与微软在人工智能领域展开激烈竞争的最强对手之一,谷歌也已将去年底推出的多模态大模型Gemini整合入聊天机器人Bard,并开发了用于部署机器学习的Vertex AI平台、入驻谷歌云的Duet AI等系列AI套件,还拥有性能不斐的自研TPU芯片。在微软将OpenAI拉入麾下的同时,谷歌毫不示弱,以超过25亿美元投资额向Anthropic递出橄榄枝。

谷歌CEO桑达尔·皮查伊铁了心要保住大模型元老江湖地位,在AI之战中较量到底,他表示公司将专注于AI业务投资,将新的生成式AI工具嵌入到更多关键产品中。他也称AI正在驱动谷歌各平台广告业务流量的增长,并期待Gemini Ultra发布后给市场带来的惊喜:“我们对搜索的持续强劲表现,以及来自YouTube和云的不断贡献感到满意。这些领域已经从我们的人工智能投资和创新中受益。随着我们进入Gemini时代,最好的还在后头。”

苹果虎视眈眈,

说我落于人后,不如走着瞧

在人们被Meta和微软的傲人业绩惊艳到时,老大哥苹果的成绩单显得有些“羞涩”。

最新季度财报显示,苹果当季营收1196亿美元,超过1179亿美元预期。其中697亿美元来自iPhone销售额,虽远超此前预期的686亿美元,但由于来自中国的销售业绩低迷,致使大中华区总收入下降13%。不过积极的信息是,其活跃设备基数已经超过22亿台,订阅服务也实现了11%的同比增长,苹果这次终于扭转连续四季度收入下滑的局面。

尽管如此,苹果还是凭新一代MR头显Vision Pro的一己之力获得滔天的关注度,抢占各大媒体头条。这个被称为苹果“20年来最冒险的革命性产品”在当地时间周五正式上市。此前下单预订的顾客将开始陆续收货或到苹果线下零售店提取。

苹果公司CEO蒂姆·库克特意于周五早上抵达位于纽约市第五大道的苹果旗舰店,与蜂拥而至的果粉们一同见证Vision Pro发布。针对Vision Pro 3499美元的奢侈品价格,库克称为“今天的明日技术”埋单是值得的。

在别家纷纷参与AI竞速时,苹果仿佛丝毫没有紧迫感,缺席了这场生成式AI革命。但此次推向市场的新一代空间计算产品Vision Pro,确实被视为开启混合现实新时代的产品。预示着这家以手机和电脑为看家饭碗的公司,产品结构正在悄然发生转变,开始尝试着在“AI+”融合AR/VR领域的加大布局。设备中引入的数字分身、情绪检测、智能交互等各种AI功能,也将成为苹果在2024年进军AI的跳板。

两周前,美国银行上调了对苹果的评级和目标股价,认为Vision Pro头显“展示了一个有着光明未来的人工智能产品路线图,将是推动公司未来增长的关键催化剂”。

除此以外,苹果还计划在2024年6月的全球开发者大会(WWDC)上推出一系列基于生成式AI的新工具,包括一个升级版的Siri。这些新工具也将成为iOS 18的核心特性。一切都在变得更值得期待起来。

短短一周,财报业绩振奋市场,新产品炸裂登陆,目不暇接的信息量已经让人们对未来怀揣更强烈的期待。

毋庸置疑的是,AI技术的前景比以往任何新事物都更被科技巨头们看好,加大研发和资金投入,拉拢明星AI公司站队,抢占AI生态,同时优化支出降低成本,将是大厂们继续展开白热化竞争的关键领地。

而对于科技公司的“螺丝钉”们来说,裁员降本,也势必会成为这一轮转型大潮中不可避免的沉重课题。一切都是新的,一切也都充满未知。这个对于科技巨头们来说最好的时代,或许也将成为普通员工们最糟糕的时代。

AI Agent的任务,是让我们每天最多工作四个小时

  1. 2024年,满城尽带AI Agent。上个月还说自己在做AI Copilot的人,这个月就说自己做的是Agent了。现在流行AI黑客马拉松,一场下来,至少能看见几十个所谓的“AI Agent”。
  2. 大语言模型爆发这一年,我们在“概念陷阱”里鬼打墙,满嘴跑火车,大侃各种新名词:Agent、Copilot、RAG、Reasoning、Grounded、Alignment……说实话我有点烦了,嘴上不挂着这些词,就不配搞AI么?更重要的是,当人们讨论一个名词的时候,他们讲的是一回事么?
  3. 比如“AI Agent”:你做了一个自动写小红书文案的GPTs,说这是写作Agent;我做了一个基于大语言模型的RPG游戏角色模拟器,说它是游戏开发Agent……这时候有人说:这些都是AI辅助工具,充其量也就是Copilot(副驾驶),你看斯坦福大学和Google搞的“斯坦福小镇”,25个AI互相沟通和协作,那才是真正的AI Agent。究竟谁说的对?什么才是AI Agent?这其实就是我们的现状:当下讨论一个AI概念,人们缺乏共识的定义作为前提,在认知从来没“对齐”(align)过。
  4. 很多人拿“AI Agent”当成一个大语言模型时代的新名词讨论,殊不知“Agent”是一个骨灰级的人工智能概念。我钩沉了一下,“Agent”第一次作为人工智能术语的出现,是1995年出版的经典人工智能教科书《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)。这本书对人工智能的定义是:“智能代理的研究和设计”(study and design of intelligent agents)。这么看,“Agent”被视作人工智能发展的终极目标,至少也是快30年前的事了。它折射了人类发展人工智能的初衷,即寻找人类的一切行为的“代理人”。
  5. 不少人还忽略了“Agent”其实也是人们耳熟能详的经济学和组织行为学的概念。现代经济社会充斥着各种各样的“Agent”,比如我们熟悉的公关代理公司(PR Agency)、旅行社(Travel Agency)等,它们具备一个机构代表一方行动和交易的意涵。人工智能定义的“Agent”,意义与经济学和组织行为学是接近的——即AI作为一个人或一个组织的代表,进行某种特定行为和交易,降低一个人或组织的工作复杂程度,减少工作量和沟通成本。
  6. 人工智能真正具备成为“Agent”的能力,靠的是大语言模型。AI Agent 这个古老的概念在2023年的翻红并不是个巧合。OpenAI 安全团队负责人Lilian Weng的著名文章《LLM Powered Autonomous Agents》,被普遍视作是 OpenAI 对 “AI Agent” 的官方定义。该文将 Agent 定义为大语言模型(LLM)、记忆(Memory)、任务规划(Planning Skills)和工具使用(Tool Use)的集合,其中 LLM 是核心的大脑,记忆、任务规划和工具使用是 Agent 的三个核心组件。值得注意的是,该文强调 Agent 自主调取外部 API 的工具使用,自主对任务进行子目标分解,自主建立思维链(CoT)、以及自我批评和自我反馈的能力——它们都指向了文章标题的关键词“autonomous”,即 Agent 的自动化。
  7. 人工智能革命被普遍称作是“第四次工业革命”,前三次分别依次是19世纪初的蒸汽机革命、19世纪末的电力革命、20世纪中叶的信息技术革命。贯穿前三次人类工业革命的关键词当属“自动化”(automation)。蒸汽机和电力革命实现了围绕工业生产的体力劳动的自动化,提高了生产效率。信息技术革命在进一步提高工业生产自动化程度的同时,也可以代替人类进行一部分脑力劳动。作为第四次工业革命的人工智能革命,一方面将工业生产的自动化进行得更加彻底(比如机器人和传感器遍布的无人工厂),另一方面前所未有开启了脑力劳动的自动化进程。而脑力劳动自动化的载体,就是 AI Agent。
  8. 从这个意义上,对什么是 AI Agent 的争论是有些无聊的。“斯坦福小镇”是基于论文的先锋实验,将它作为评判一个 AI 应用是不是“Agent”的坐标,无助 AI Agent 提高智力密集型工作的效率。我下一个暴论:AI Agent 本质上就是“automation of human action”(人类行为的自动化)。只要它不是在人类手把手要求下完成任务,就像在ChatGPT的对话框输入prompt、启动 Office 365的“副驾驶”(Copilot)完成每一项具体工作那样,而是具备了一定程度的完成任务的自主性甚至是不完全可控性,它就是一个 AI Agent。
  9. 现在一个比较尴尬的局面是:可能你读过不下20篇关于 AI Agent 的论文和公众号推文,也没真正上手过一个用得顺手的Agent,这恐怕是 Agent 作为一个新物种注定经历的阶段。一直以来,人们经常提到 AI Agent 典范是接入了GPT能力的AutoGPT。不过现在,无论是在美国还是中国,已经有了一些更好用的 AI Agent 的雏形。可以趁机安利一下了。
  10. 第一个是 ChatGPT 新进推出的升级付费版——ChatGPT Team。它提供了在一个小型企业内部,用个人的 ChatGPT账号实现协作的“私域空间”,ChatGPT Team 的用户数据不会被用来反向训练GPT模型,用户还可以创建企业内部的 GPTs,让这些 GPTs 互相协作。讲真,我觉得 ChatGPT Team 比 GPT Store 更重要,也更实用。现在的 GPT Store 太乱了,大多数 GPTs 粗糙不堪 ,对话框指令什么它帮你做什么,而且基本不能调用 API 。但私密环境使用的 ChatGPT Team,GPTs 互相调用接口、彼此协作也顺利成章多了。ChatGPT Team 是 ChatGPT 这个全世界有着最多用户的超级 AI 平台,走向 AI Agent 的第一步(毕竟ChatGPT已经有15万企业客户了)。
  11. 第二个是智谱 AI 的 GLM 模型智能体(GLMs)。清华色彩强烈的智谱 AI 是中国最像 OpenAI 的公司,刚推出的 GLM-4 全面对标 GPT-4,在诸多评测基准上达到了GPT-4 85%以上。GLMs 是 GLM-4 的副产品,也是 GLM-4 模型能力的外溢。GLM-4 的“All Tools”支持 GLM-4 依据用户的需求,自主决定用绘图、搜索、制作表格还是代码编程解决问题——这本身就具备了 AI Agent 的属性。与 Open AI 只追求通用性不同,智谱 AI 针对金融、医疗和教育等垂直行业都有一系列定制部署服务,积累了一定的 to B 客户基础和行业 know-how,这让智谱的客户基于 GLM-4 部署 GLMs 智能体变得更合理,也更容易些。
  1. 第三个是同属清华背景的“面壁智能”:面壁智能是有自己的“斯坦福小镇”的,它基于面壁智能的 ChatDev 框架。但面壁智能的“小镇”不是一个虚拟社会,而是一个 AI 版的软件公司。不同的 AI 智能体被设计为程序员、产品经理、测试工程师和设计师等角色,它们可以彼此协作,还能站在自己的立场上互相博弈——就跟办公室里每天发生的事一样。面壁智能的ChatDev框架支持开发者搭建属于自己的 AI Agent,把单体智能和群体智能结合起来,让AI Agent 成为每一个员工都可以用起来的,可以“逃避”很多狗屎工作的办公自动化工具。顺便提一句,ChatDev框架的成形并不比“斯坦福小镇”的论文发布晚,它给人们最大的启示在于原生 AI 应用开发的一个可能性—— AI Agent 实现 AI 应用开发的自动化。
  2. 第四、五个分别是钉钉和飞书的“智能体”实践。AI Agent 本质更接近产品而非技术,如果我们认为 AI Agent 是生产力工具,那就不能忽略在钉钉和飞书上已经存在的上亿用户,百万政企组织,海量的文档、会议纪要、沟通记录、多维表格和自建工具——这些工具让钉钉的“智能助理”和飞书的“智能伙伴”,更容易化身成每一个使用它们的打工人的嘴替和脑替,能部分自主地完成一些事务性的狗屎工作,如工作总结、会议纪要、走报销和出差流程、跟进一件事的反馈,甚至可能帮人代理扯皮和撕X。作为钉钉和飞书的双料用户,我必须说:现在的钉钉智能助理和飞书智能伙伴离“好用”还差得远——这恐怕是通义大模型和云雀大模型的锅。但论场景丰富、数据真实、用户数量,钉钉的“智能助理”和飞书“智能伙伴”更容易被真正“用起来”。Agent 也是在被用起来的过程中具备更好的理解能力的。一旦模型进步了,钉钉和飞书的 Agent 化就会往前走一大步。我再下一个暴论——钉钉和飞书会成为国内 AI Agent 重要的产品。
  3. 在“好用”和“好玩”之间,我坚信对 AI Agent 而言,“好用”比“好玩”重要。它首先是一个生产力工具。那些 AI 陪伴的纸片男女友也有理解能力和情绪价值,但它们可以被叫作“智能体”或“智能玩偶”,但不是“智能代理”,因为它们不具备代理人类完成某项任务或使命的功能。所以 AI Agent 被翻译成“智能体”是不合适的,它就是“智能代理”,“代理”是 AI Agent 的经济学和组织行为学属性,也是它推动脑力劳动自动化的本质。
  4. 在不久前结束的CES上,斯坦福大学著名人工智能学者李飞飞提出了一个重要观点:应该明确 AI Agent 取代的是人类的“任务”而不是“工作”。在达沃斯论坛上,OpenAI CEO Sam Altman 在面对“AI 让人失业”这一老生常谈的诘问时,表达了一个更直接的观点:“AI 取代的是人们工作的方式,而不是工作本身”。

我非常同意李飞飞和 Sam Altman两位老师的观点,脑力劳动工作者的工作是由一个个具体的关键任务组成的,但这不是工作的全部。目标设定、创造性、资源获取和分配、设定更高的目标、组织不同的任务、判断力、说服力与表现力……我们的工作中有太多更有意义的元素了。把工作中流程、事务性和常规操作的“任务”交给 Agent,少写几行常规代码,少发几封battle 邮件,少做一些机械操作的表格,少调几次 PPT 格式,少复制粘贴,少亲自发起和审批一些常规的出差和报销流程,我们的工作应该愉快得多,也有创意得多。

  1. 当然,AI Agent 的普及,也许会让一些“白领工人”无所适从甚至失去工作,但它会极大限度地提升很多岗位——甚至包括基层岗位上面的聪明的人的创造性、格局感、整体感和生产力,在提高工作效率,创造更多生产力的同时,更重要的是减少工作时长。
  2. “八小时工作制”在全球成为通用标准已经是差不多100年前的事了。人们之所以能每天只工作8个小时,是工人阶级抗争的结果,也是电力工业革命以来生产力大爆发的产物。在更高的生产效率面前,人们有底气为自己争取更少的工作时间、更高的工资和更多的学习、休闲、旅游消费时间。但是,计算机革命以来,人类的生产效率又前所未有地提升了,为什么人们的工作时长没有进一步减少,反而在一些号称是最高智力密集的科技和互联网公司还增加了呢?还搞起了996呢?这里面是不是一定出了什么问题?
  3. 请允许我再来一个暴论:未来衡量一个 AI Agent 的智能化程度如何,可以看它是不是能让我们每天只工作四个小时。那些重复性的、流程化的、条件反射式的、经验主义奏效的、强化学习可以理解的,甚至表演性的工作,交给 AI Agent ——它们可能是钉钉和飞书,可能是面壁智能的工作坊,也可能是 GLM 和 GPT 上的企业版。反正“我只要结果”,因为我真的每天只想工作四个小时。
  1. 前不久我跟钉钉的总裁叶军聊,我感觉到钉钉有一种想“洗心革面,重新做人”的紧迫感,特别想把自己从“小学生天敌”和“压榨员工神器”的名声里择(zhai)出来。于是它们搞了一个钉钉智能助理。我问这玩意儿能让我们每天只工作四个小时么?他说:如果可能的话每天就工作一个小时吧。事后,我觉得叶老师还是有点儿上头了。不过他说 AI Agent 能让更多人成为自己的老板,这个我倒是同意的。Agent 帮了你,你还会不会骂自己是傻X。

英伟达CEO:马来西亚有望成为世界AI制造中心

NVIDIA首席执行官建议马来西亚成为东南亚数据中心扩张的人工智能”制造”中心。

NVIDIA这家科技巨头的首席执行官周五表示,他认为马来西亚有潜力成为人工智能”制造”的中心,尽管他并未确认这家芯片制造商是否正在与当地一家大型企业集团谈判,在这个东南亚国家设立人工智能数据中心。

NVIDIA的创始人兼首席执行官黄仁勋在吉隆坡对记者们表示,马来西亚的大型企业集团YTL集团在设立人工智能数据中心方面可能扮演重要角色。

在一个媒体圆桌会议上,黄仁勋并未证实NVIDIA是否正在与YTL集团进行谈判,该集团的业务涵盖公用事业、电信、水泥、建筑和房地产开发。但他表示:“YTL集团是一家非凡的公司,拥有令人难以置信的领导力和传承。”

他说:“马来西亚对东南亚的计算基础设施来说是一个非常重要的中心。这需要土地、设施、电力,这些都极其重要。我认为YTL集团可以在这方面发挥巨大作用。”

黄仁勋说,马来西亚在包装、组装和制造的其他方面的专业知识,使其非常适合人工智能的制造。他表示,NVIDIA正在该国与80家人工智能初创公司合作。

“在马来西亚,数据中心基础设施层的计算,作为人工智能和云计算中最重要的部分之一,在这里非常成功,”黄仁勋说。

他认为,东南亚很可能会成为人工智能计算的中心,因为各国需要自己的人工智能数据中心来提炼和转换数据,使之成为有价值的信息。旧的数据处理中心设计用来存储数据文件和运行应用程序。人工智能需要利用每个地方的文化、语言、价值观、文学和常识。

他表示:“我不太了解每个地区的计划,但我非常有信心,东南亚将成为一个非常重要的科技中心。它在包装、组装和电池制造方面已经相当出色。在许多技术供应链方面,它已经做得很好了。”

字节跳动推出「Coze 扣子」AI Bot 开发平台,助力用户快速创建自定义聊天机器人

近日,字节跳动宣布推出全新的AI Bot开发平台「Coze 扣子」,旨在帮助用户快速、低门槛地构建自己的聊天机器人。该平台不仅支持一键发布到飞书、微信公众号等多个渠道,还提供丰富的插件和Bot商店资源,涵盖娱乐、学习等多个领域。用户无需编程经验,即可通过简单的拖拽操作创建出功能强大的聊天机器人。此外,「Coze 扣子」还具备丰富的数据源、持久化的记忆能力以及灵活的工作流设计等特点,为用户提供了更加便捷、高效的AI交互体验。这一举措标志着字节跳动在人工智能领域的持续创新,有望为更多用户带来全新的智能交互体验。

在「Coze 扣子」平台上,用户可以轻松创建自己的聊天机器人,并通过简单的操作将其发布到不同的社交平台和应用程序上。该平台提供了丰富的功能和优势,如无限拓展的能力集、丰富的数据源、持久化的记忆能力以及灵活的工作流设计等。这些功能使得用户可以更加便捷地管理和存储数据,快速搭建复杂的任务流,并创建出各种类型的聊天机器人。此外,「Coze 扣子」还提供了方便易用的知识库功能,支持上传多种格式的文件和数据,使得聊天机器人可以更加智能地回答用户的问题。

总的来说,「Coze 扣子」AI Bot开发平台的推出,为用户提供了更加便捷、高效的AI交互体验,有望推动聊天机器人在各个领域的广泛应用和发展。

Stability AI 推出具有 16 亿参数的Stable LM 2

最强大和最易于访问的语言模型的竞争正在升温,尤其是在移动端人工智能领域。最近几个月,Meta(Llama 2)、Microsoft(Phi 2)和谷歌(Gemini Nano)等科技巨头发布了自己的小型语言模型,能够在智能手机和平板电脑上运行。

今天,Stability AI 加入了这一行列,发布了具有 16 亿个参数和多语言功能的 Stable LM 2。

什么是 Stable LM 2?

Stable LM 2 是一个先进的 16 亿参数小语言模型,基于英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言数据进行训练。Stable LM 2与同尺寸大小的其他著名模型并驾齐驱,优于Microsoft的Phi-1.5(1.3B)和Phi-2(2.7B),TinyLlama 1.1B和Falcon 1B。

Stability AI 因其对透明度的承诺而脱颖而出。他们已经发布了预训练检查点,允许开发人员根据特定需求微调模型。

此外,他们致力于提供完整的训练数据细节,以提高可重复性。这种程度的开放性是人工智能开发领域向前迈出的可喜一步。

关于 Stable LM 2 的须知

  • 它使用 7 种语言(英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语)的 2 万亿个文本数据进行训练。
  • Stability AI 发布了预训练检查点,以帮助开发人员微调模型,并将提供完整的训练数据细节以实现可重复性。
  • Stable LM 2 Zephyr 1.6B 在 8 个节点的 Stability AI 集群上进行了训练,每个节点有 8 个 A100 80GB GPU。
  • 它可以与 Stability AI 会员一起用于商业或非商业用途。

如何试用 Stable LM 2

您可以在 hugging face 上访问交互式演示。

下面是一个示例对话:

提示:地球到月球的距离是多少公里?

回应:截至我上次系统更新之日,即 2021 年 9 月 28 日,地球到月球的距离约为 238,855 公里(148,342 英里)。

限制和风险

与任何语言模型一样,Stable LM 2 也有其局限性。

由于其大小,它可能偶尔会产生幻觉或误导性信息。开发人员应意识到这些风险并实施适当的保护措施,例如事实核查和人工监督。

如果你是考虑将此语言模型用于应用程序的开发人员,请注意这些风险及其局限性。

多少钱?

如果您打算将 Stable LM 2 用于商业目的,您可以订阅 Stability AI 的会员计划,每月收费 20 美元。

如果您想选择企业订阅,也可以联系 Stability AI。

最后的思考

Stability AI 通过发布这个小而强大的语言模型,真正突破了极限。感谢他们朝着这种技术民主化迈出的一步。

从技术角度来看,在保持多语言能力的同时缩小规模并非易事,而释放预训练检查点绝对是提高透明度的积极一步。

更小、更高效的模型可以实现与大型 AI 模型相似的性能,从“绿色 AI”的角度来看,它们肯定会开始变得更加普遍,并且更可取。

我迫不及待地想看看开发人员会从这种语言模型中创建哪些令人难以置信的应用程序。