14 2 月 2024

苹果Ai大模型要来了：iOS 18预计将重塑Siri，带来前所未有的智能体验

今日话题聚焦苹果即将露出水面的iOS 18——它的到来似乎预示着技术界的一场地震。虽然还没正式亮相，讨论却如火如荼。

据业内权威人士Mark Gurman透露，这场更新在苹果的长河中，极可能是一块重要的基石。确实，”重大更新”这个词似乎已经不足以引起注意，但这次，似乎有些不同寻常的气息。

咱们不妨倒带回顾一下：你是否还记得iOS 15的专注模式，iOS 16创新的锁屏个性化，或是iOS 17的新颖待机界面？这些功能在用户群中可谓小有名气，但不能不说，iOS的新花样似乎有些寥寥无几。

因此，苹果这次将AI置于iOS 18的核心位置，这一转向无疑是战略性的。

当提及AI时，我们自然会想到Siri。还记得Siri2011年在iPhone 4S上的初次登场吗？那时候，用语音助手进行操作还是新鲜事。Siri一度成为热门话题，然而，随着时光的流转，2011年至今，Siri的变革似乎停滞不前，智能程度也不尽如人意。

但现在，iOS 18中的新Siri或将翻开新篇章，据报道，苹果已自2018年起组建了一支队伍，致力于提高Siri的智能水平，团队成员甚至还包括前谷歌工程师。

预计，升级后的Siri将能够自主完成更多任务，虽然受到知识版权的限制，Siri可能无法直接生成图片或文本，但它在摘要和内容整理方面的表现值得期待。

AI技术还将融入iOS 18的其他多个功能中，例如先前展现的图像抠图技能和自iPhone 11起就持续采用的计算摄影技术。

最激动人心的变化，或许是iOS与Android设备间多媒体信息传输的支持，这确实是个大跨步。Android设备将来可能也能便捷地使用iOS发的消息了。竞争是科技发展的不竭动力。

全球市场上，三星挑战着苹果的霸主地位。他们的Galaxy S24系列打破了预售纪录，在国内，小米、vivo、OPPO、荣耀等品牌也在AI领域取得了显著成就。苹果在iOS 18中的AI改革，看似是对AI时代的一种适应。

之前的信息传输争议也催生了新的变革。距WWDC2024尚有数月，iOS 18的征程上或许还会有更多惊喜等待被揭露。在这个变革迅猛的时代，苹果面临着前所未有的挑战。三星单pack 2024发布会聚焦AI，展示了令人印象深刻的新技术，并宣称Galaxy S24系列将是AI时代的先锋。

而这些大胆的举措，无疑为三星赢得了市场的青睐。尽管苹果以24%的份额稳坐2023年全球手机市场冠军宝座，但Reddit上的争议也显示出用户的不满，反映出iOS 17在电量、系统稳定性等方面的问题。

昔日流畅和安全的代名词似乎正在褪色。三星的One UI也遭遇过挑战，但通过不断的AI创新吸引了用户的目光。vivo、OPPO、荣耀等其他品牌凭借其大模型旗舰新品，也赢得了市场的喜爱。

系统体验和创新功能成为了消费者的新关注点，这些元素在很大程度上决定了一款手机的成败。所以，苹果要想继续领航全球，除了在硬件上持续创新，iOS 18上的变革也势在必行。

但对于苹果来说，融入AI只是一个新起点。让我们一起期待，看苹果如何在这波科技浪潮中乘风破浪。

14 2 月 2024

谷歌Gemini：重塑AI助手体验，引领智能科技新时代

在近日，谷歌宣布对其人工智能聊天机器人和助手Bard进行了重大品牌重塑，标志着谷歌在人工智能领域迈出了重要的一步。这一变革不仅体现在品牌名称的更改上，更体现在全新应用程序的推出和订阅选项的增设，为用户带来了前所未有的智能体验。
首先，Bard如今被赋予了新的名字——Gemini。这个名称与其AI模型套件同名，彰显了谷歌在人工智能领域的统一和整合。Gemini不仅仅是一个简单的名称变更，它代表着谷歌对于人工智能技术的深度挖掘和创新应用。

在用户界面方面，Gemini进行了全面的优化。通过减少视觉干扰、提高可读性和简化导航，Gemini的用户界面为用户提供了更加清晰、直观和友好的操作体验。无论是对于新手用户还是资深用户来说，这样的界面设计都能够让他们更加轻松地掌握和使用Gemini的各项功能。而Gemini Advanced付费计划的推出，更是为用户带来了强大的AI能力。通过订阅该计划，用户将获得访问Google最强大的AI模型Ultra 1.0的权限。Ultra 1.0模型具备出色的编程、逻辑推理和创造性协作等能力，可以帮助用户执行各种复杂任务。

无论是编程开发、数据分析还是创意设计，Gemini Advanced都能够为用户提供强大的支持和助力。除了强大的AI模型外，Gemini Advanced还引入了一系列新功能和独家特性。增强的多模态能力使得Gemini可以更好地理解和处理多种类型的信息输入，包括文本、语音和图片等。而编程特性的加入，则让Gemini成为了开发者们的得力助手，可以帮助他们更加高效地进行编程开发和代码调试。此外，用户还可以上传和深入分析文件，从而获取更多有价值的信息和洞察。值得一提的是，谷歌还推出了Gemini移动应用程序。

用户可以在手机上下载并使用Gemini来学习新知识、写信、规划活动等。这款应用程序与Google的其他应用（如Gmail、Maps和YouTube）进行了深度集成，支持文本、语音或图片交互方式，为用户提供了更加便捷和灵活的使用体验。无论是在家中、办公室还是外出旅行，用户都可以随时随地利用Gemini来提升自己的生活和工作效率。谷歌对于Gemini的推出和更新举措，旨在让更多人直接体验Google AI的强大功能。

通过将Bard更名为Gemini，并与Google的AI模型套件同名，谷歌进一步彰显了其在人工智能领域的领导地位和创新能力。而通过不断优化用户界面、引入新功能和独家特性以及推出移动应用程序等举措，谷歌更是为用户带来了更加全面、便捷和高效的人工智能助手体验。

随着人工智能技术的不断发展和普及，越来越多的企业和个人开始意识到其巨大的潜力和价值。而谷歌作为全球领先的科技企业之一，在人工智能领域的研究和应用方面一直处于前沿地位。通过推出Gemini这样的人工智能助手，谷歌不仅为用户提供了强大的智能支持和服务，更推动了人工智能技术的广泛应用和发展。

总的来说，谷歌Gemini的品牌重塑和一系列更新举措为用户带来了更加出色的人工智能助手体验。通过提供更友好、更强大、更灵活的功能和服务，Gemini将成为用户生活和工作中的得力助手，引领智能科技新时代的发展潮流。未来，随着谷歌在人工智能领域的不断创新和突破，我们有理由相信Gemini将会为用户带来更多惊喜和便利。

14 2 月 2024

继“AI假拜登”打电话误导选民之后，OpenAI、Meta等纷纷拥抱大模型水印

最近，我很高兴看到人工智能世界出现一些令人鼓舞的消息。在令人沮丧的泰勒·斯威夫特（Taylor Swift）深度伪造色情丑闻和政治深度伪造内容泛滥之后，科技公司正在加紧行动，采取措施更好地检测人工智能生成的内容。
毕竟我们已经看到，有语音机器人正在伪装成美国总统拜登（的声音），告诉选民待在家里，不要投票。
当地时间 2 月 6 日，Meta 表示将在Facebook、Instagram 和 Threads 三个社交媒体平台上标记人工智能生成的图像。
当有人使用 Meta 的人工智能工具创建图像时，该公司会在图像中添加可见的标记，以及“烙印”在图像文件中的肉眼不可见水印和元数据。
Meta 表示，其水印标准符合人工智能研究非营利组织Partnership on AI 制定的最佳实践。
大型科技公司也在大力支持一项有潜力的技术标准，该标准可以为图像、视频和音频添加一种“营养标签”。
它被称为 C2PA，是一种开源的互联网协议，依靠密码学来编码一段内容的来源（origins）细节，技术专家又将其称为“来源（provenance）”信息。
C2PA 的开发人员经常将该协议比作食品包装上的营养标签，但它会说明特定内容来自哪里，以及是由什么人或工具创建的。
当地时间 2 月 8 日，谷歌宣布将加入 C2PA 指导委员会，并将在其最新 Gemini 人工智能工具生成的所有图像中加入 SynthID 水印。该委员会的委员已包括微软和Adobe 等其他科技巨头。
Meta 表示它也参加了 C2PA。拥有一个全行业统一的标准使公司更容易检测到人工智能生成的内容，无论它是用哪个系统创建的。
OpenAI上周也宣布了新的内容来源标注措施。该公司表示，将在其人工智能工具 ChatGPT 和 DALL-E 3 生成的图像元数据中添加水印。
OpenAI 表示，现在它将在图像中添加可见标识，以表明它们是用人工智能创建的。
这些举措是一个好的开始，给了我们希望，但并非万无一失。元数据中的水印很容易通过截图来规避，而图片上的标识可以被裁剪或编辑掉。
像谷歌 SynthID 这样的隐形水印可能更有希望，它可以巧妙地改变图像中的像素，使计算机程序可以检测到水印，但人眼无法识别出来。这种水印更难篡改。
更重要的是，目前还没有可靠的方法来标记和检测人工智能生成的视频、音频和文本。
但创造这些“溯源”工具仍然有价值。几周前，当我采访生成式人工智能专家亨利·阿杰德（Henry Ajder）关于如何杜绝深度伪造色情内容时，他告诉我，重点是给别有用心的人创造一个“坎坷的过程”。
换句话说，给深度伪造内容的生成和传播途径增加障碍，以尽可能地减少这些有害内容的创建和分享。一些真正图谋不轨的人可能仍然会推翻这些障碍，但只要它变得稍微困难一点点，就会有所帮助。
科技公司还可以引入许多非技术性的修复措施，来预防深度伪造色情内容之类的问题。谷歌、亚马逊、微软和苹果等主要云服务提供商和应用商店可以禁用那些与创建深度伪造色情内容有关的应用。
水印应该在所有人工智能生成的内容中全面普及，即使是开发该技术的小型初创公司，也应该参与其中。
让我感到欣慰的是，除了这些自愿措施，我们也开始看到具有约束力的法规出台，如欧盟的《人工智能法案》和《数字服务法案》。这些法案要求科技公司披露人工智能生成的内容，并更快地删除有害内容。
美国立法者也对通过法规来约束深度伪造技术和内容重新产生了兴趣。
在人工智能生成的“冒牌拜登总统”出现，并以机器人语音电话的方式告诉选民不要投票之后，美国联邦通信委员会近日宣布，禁止在类似的语音电话中使用人工智能。

总的来说，我对自愿的指导方针和规则持怀疑态度，因为它们不具备真正的问责机制，公司可以随心所欲地改变这些规则。
科技行业在自我监管方面一向表现非常糟糕。在残酷的、增长驱动的科技世界里，像“负责任的人工智能（responsible AI）”这样的项目往往是第一个面临削减的。
尽管如此，这些新的溯源和水印举措还是非常受欢迎的。它们比维持现状好得多，因为现状几乎是一片空白。

14 2 月 2024

6.74亿美元！BMS“加码”AI制药，这次目标是分子胶

2月13日，VantAI与BMS宣布达成合作，借助生成式AI技术，加速分子胶的发现。此次合作将结合VantAI在几何深度学习方面的积累以及BMS在靶向蛋白降解剂开发方面的经验。

VantAI将有资格从BMS获得高达6.74亿美元的发现、开发、临床、监管和销售里程碑付款以及分层版税，并可选择进一步扩展到其他治疗项目。

VantAI CEO Zachary Carpenter认为，分子胶类药物前景广阔，但发现困难。AI技术可能是克服这一挑战的最佳工具。

除BMS外，2022年4月，VantAI还曾先后与强生旗下的杨森及BI达成合作。与杨森的合作主要利用VantAI的几何深度学习平台开发针对重要疾病靶点的新型分子胶及异双功能蛋白降解剂候选分子，且双方将合作发现新的E3泛素连接酶平台。与BI的合作专注于降解传统上不可成药的靶点。

值得一提的是，2024年以来，AI制药赛道MNC布局不断。其中，一家名为Isomorphic Labs的公司（Alphabet 的独立子公司，正在开发下一代AlphaFold）同时被礼来及诺华选中。Isomorphic Labs将与礼来合作发现针对多个靶点的小分子疗法，合作潜在总金额高达17.45亿美元；与诺华的合作将针对3个未公开靶点开发小分子疗法，合作潜在总金额高达12.375亿美元。此外，与BMS一样，默沙东也在生成式AI领域进行了最新布局。

14 2 月 2024

OpenAI奥特曼：AI将像手机那样改变世界但风险也让我彻夜难眠

丨划重点

① 奥特曼对AI未来充满信心，称其将“像手机一样”改变世界。

② 奥特曼宣称OpenAI将开源更多大模型，尽管目前尚不确定是哪些模型。

③ 提及GPT-5，奥特曼称其将更加智能，支持多模式交互，并且响应速度更快。

④ 奥特曼提议将阿联酋作为全球“监管沙盒”，率先测试全球人工智能技术监管规则。

据外媒报道，当地时间周二，人工智能初创公司OpenAI首席执行官山姆·奥特曼（Sam Altman），通过视频会议参加了在迪拜举行的世界政府峰会（WGS），并发表了演讲。他称人工智能将“像手机一样”改变世界，OpenAI将开源更多大模型，ChatGPT 5将变得更加智能，同时呼吁将阿联酋打造为全球监管人工智能的试验场。

人工智能将“像手机一样”改变世界

奥特曼表示，人工智能是他能想象到的“最令人兴奋的科技前沿”，“它将开启一个我很难想象会有多好的未来”。虽然目前的人工智能技术仍处于起步阶段，但他相信未来几年内将取得巨大突破。

在谈论生成式人工智能和大语言模型的潜力时，奥特曼表示，科技行业目前只是触及了它们的冰山一角。他形象地比喻道：“我们目前的人工智能技术就像只有黑白屏幕、功能单一的初代手机。虽然它目前所能做的还不多，但已经足够强大，例如支持基本的通话功能。然而，想想今天的iPhone，它经历了数十年的迭代和发展，所取得的成就令人惊叹。”

奥特曼强调，人工智能的潜力远未完全释放出来，仍需要大量的研发和创新工作来推动其进步。他呼吁：“我们需要保持耐心，给予这项技术足够的时间和空间来展现其真正的价值。再过几年，人工智能将会比现在更加强大和成熟；而再过十年，它定将大放异彩。”

展望未来，奥特曼充满期待地表示：“想象一下这样的世界：每个人都能拥有一个智能助手，如同私人导师般提供个性化的建议和支持，或是享受到高级别的个性化医疗服务！”

开源更多大模型，GPT-5更智能

在演讲中，奥特曼宣布，OpenAI计划将部分大语言模型开源，但尚未确定具体是哪些模型。他还承诺，该公司将为经济不发达的国家提供开发工具，帮助他们克服开发人工智能系统的巨大经济障碍。

奥特曼坚信，随着人工智能技术的不断进步，人类将迎来一个“非凡”的未来。他预言，当人工智能得到充分发展时，将彻底颠覆教育、医疗和科学研究等领域。

他强调，人工智能将成为人类建设未来的强大工具，使智能变得普及且经济实惠。与手机的演变历程相似，人工智能也需要时间和耐心来逐步成长和成熟。

此外，他还敦促各国政府积极采用人工智能技术，以更好地服务公民并推动工作场所的现代化。

在谈及对GPT-5的期望时，奥特曼兴奋地表示：“它将更加智能，支持多模式交互，并且响应速度更快。但最重要的是，它将变得更加智能。”

奥特曼还呼吁，各国政府需要紧密合作，采用新技术，并采取正确的措施。同时，我们需要耐心等待新技术完全成熟。他说：“这一代人非常幸运，生活在人类历史上最好的时代。尽管规则正在发生变化，但人工智能将赋予我们表达创造性想象力和意志的能力，这是非凡的。”

阿联酋可作为AI监管试验场

奥特曼通过视频向阿联酋人工智能部长提出了一个大胆的设想：阿联酋应作为全球“监管沙盒”，率先测试并引领全球人工智能技术的监管。

奥特曼强调，仅凭想象制定人工智能的监管策略是不切实际的。他认为，通过在实际环境中测试人工智能技术，可以观察其效果，识别潜在风险，并确定哪些应用是有益的，哪些可能是有害的。

奥特曼进一步指出，全球范围内需要统一的人工智能政策框架，以确保技术的健康发展。他相信，阿联酋凭借其在人工智能领域的大量投资和前瞻性政策，将在这一领域发挥引领作用。

奥特曼还以国际原子能机构为例，强调在部署超级智能或通用人工智能之前，必须建立严格的审计和安全措施。

在发表上述言论之际，奥特曼正在中东寻求投资者的支持，以推动一项旨在推进人工智能的半导体计划。阿联酋在人工智能方面投入了大量资金，并将其作为一个关键的政策考虑因素。

奥特曼于2023年访问了阿联酋，当时他参加了由阿布扎比Hub71主办的一场活动。Hub71是政府支持的创业生态系统。奥特曼对中东和北非在开发安全人工智能方面的潜力表示乐观。他认为，阿联酋在人工智能领域的远见和投入，使其在全球人工智能治理中具有重要地位。

随着人工智能的繁荣重塑科技行业，人们对这项技术带来的希望和恐惧并存。奥特曼在会议上对未来保持乐观态度，他鼓励年轻一代积极利用人工智能工具，创造前所未有的价值。同时，他也提醒人们要保持谨慎，确保技术的发展符合社会的共同利益。

奥特曼说：“你们将能够利用这些工具做你们上一代人无法想象的事情。人工智能将为你们的职业生涯带来无数机遇。我们所处的世界正在以前所未有的速度变化，规则也在不断刷新，但有一点永恒不变：那就是创造价值和实现个人愿景的能力。这将是一个属于创新者、梦想家的伟大时代。”

“社会失调”可能会使AI变得危险

不过，奥特曼对人工智能领域的“社会失调”现象表示深切忧虑，甚至为此彻夜难眠。他指出，这种微妙的失调现象可能比直接的恶意行为更加危险，因为它可能导致智能系统对社会造成巨大破坏。

奥特曼说：“有些东西很容易让人联想到哪里出了问题。我对在街上行走的杀人机器人不太感兴趣。我更感兴趣的是非常微妙的社会失调问题，在这种情况下，即使人工智能系统本身并没有恶意，事情也会变得非常糟糕。”

奥特曼强调，人工智能的发展速度可能远超人们的预期，因此必须采取有力措施来确保技术的安全可控。同时，他也明确表示，人工智能企业不应在制定行业监管法规方面占据主导地位。

奥特曼表示：“目前各方仍处于激烈讨论和辩论阶段。我们需要有一个健康、开放的环境来推动相关政策的制定。但在未来几年内，我们必须采取行动，以得到全球范围内的真正支持。”

9 2 月 2024

星辰AI大模型TeleChat-7B评测

0x0. 前言

受中电信 AI 科技有限公司的邀请，为他们近期开源的TeleChat-7B大模型做一个评测。

TeleChat-7B是由中电信 AI 科技有限公司发的第一个千亿级别大模型，基于transformer decoder架构和清洗后的1TB高质量数据训练而成，取得了相同参数量级别的SOTA性能，并且将推理代码和清洗后的训练数据都进行了开源。开源地址见：https://github.com/Tele-AI/Telechat 。此外，在开源仓库中也提供了基于DeepSpeed的LoRA微调方案以及国产化适配的训练和推理方案。本篇文章主要来体验一下这个模型，测试一下笔者比较关心的文学创作以及代码生成方面的效果。

0x1. TeleChat-7B开源亮点

TeleChat-7B最大的亮点在于其开源的全面性。首先，该项目不仅开源了1TB训练预料，而且还在仓库里开源了基于LoRA的详细微调方案，这为研究人员和开发者提供了极大的便利，让我们能够更好地理解和应用这个大模型模型。其次，TeleChat-7B展现了更好的硬件兼容性，提供了单卡、多卡以及多种低比特两湖呀的推理方案，这意味着它能够在不同的硬件配置下高效运行，满足不同用户的需求。

此外，TeleChat-7B在国产硬件适配方面也显示出了其开源诚意。特别是对国产芯片Atlas系列的支持，这不仅体现了技术上的包容性，也为国内的芯片技术提供了强有力的应用场景。

最后，我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力，可以作为开发者来使用的一个不错的基础大模型。如果想了解更多的技术细节可以阅读官方放出的技术报告：https://arxiv.org/abs/2401.03804 。

0x2. 环境配置

可以使用官方提供的Docker镜像，也可以自己按照 https://github.com/Tele-AI/Telechat/blob/master/requirements.txt 来配置。我这里是直接使用了官方的镜像，基本没踩什么坑，按照 https://github.com/Tele-AI/Telechat/blob/master/docs/tutorial.md 这个教程操作就可以。

0x3. 文学创作能力测试

为了更加真实的观察模型的文学创作能力，这里不使用TeleChat-7B官方开源仓库提供的例子，而是使用我们自己的一些prompt来进行测试。其中部分例子取自：https://github.com/SkyworkAI/Skywork#chat%E6%A8%A1%E5%9E%8B%E6%A0%B7%E4%BE%8B%E5%B1%95%E7%A4%BA 。

诗词创作

我也测试了一些其它的诗词创作的prompt，比如”尝试写一首五言绝句，描绘一只小猫在家中嬉戏的情景。’, ‘写一首简单的五言绝句，描绘一朵盛开的向日葵。”，模型的输出为：

发现TeleChat-7B模型在诗词创作方面的能力有限，虽然可以生成一些和prompt描述相关的文字，但是对五言，七言等诗歌形式往往不能正常理解。

总的来说，TeleChat-7B具有一定的文创能力和代码能力，对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在大模型幻觉，指令跟随能力一般以及回答有概率重复的问题。但由于TeleChat模型的训练Token相比于主流模型已经比较少了，只有1.0T数据，所以相信上述问题通过更多高质量的数据以及PPO等训练可以进一步被缓解。此外，TeleChat-7B在开源方面是相当有诚意的，将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的，如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告：https://arxiv.org/abs/2401.03804。

9 2 月 2024

Bard 出局、Gemini 独立+收费，谷歌在 AI 大战中找到了感觉

引领了人工智能先河、却因为谨慎错过了这一波大模型先机的谷歌——正在变得大胆和开放，在产品和生态上迎头赶上。

北京时间 2 月 8 日 21 点，谷歌宣布了旗下最强大多模态模型 Gemini（包括最大最强的 Ultra、中间态的 Pro、最小且匹配端侧的 Nano）的最新进展，核心是要推动 Gemini 的大规模应用落地和商业化。具体进展如下：

1）谷歌测试版的聊天机器人 Bard（已接入 Gemini Pro 模型）改名 Gemini；

2）推出 Gemini 的 Android 版App，并将 Gemini 的能力加入 iOS 的 Google App中，免费向公众开放；

3）在Android上，用户可以选择使用 Gemini 可以替代原来的 Google Assistant，成为手机的默认语言助手；

4）在谷歌官方会员计划 Google One 中加入 Gemini Advanced 服务，多付 10 美元即可访问最强大的 Gemini Ultra 模型；

5）大模型能力很快将接入 Google Workspace（包括 Gmail、Docs、Meet 等应用）和 Google Cloud 中。

此次谷歌不仅直接推出了大模型面向 C 端的 App，同时将内部的多个产品线接入大模型，可以说向技术的公开化迈进了一大步。当问及为何选择推出面向公众的产品，谷歌产品管理高级总监、Gemini 体验官 Jack Krawczyk 对极客公园说，「我们谈论 Gemini，不仅仅是在谈（谷歌）最先进的技术，更是谈论一种生态系统的转变。」

Krawczyk 表示，这一转变背后，一方面是因为 Gemini 技术本身的强大——Gemini 从一开始就被创建为多模态大模型，它也是谷歌迄今最强大的模型，去年 12 月一经发布即引发全行业震撼。

另一方面则是因为，谷歌认为时机已到，「我们相信更多的人已经准备好了第一次与这项技术互动。按照我们目前引入的方式，预计许多人将首次使用生成性 AI。」Krawczyk 说。

在大模型对话产品席卷全球一年后，谷歌终于迈出了最关键的一步。

为了迎战 ChatGPT，谷歌于 2023 年 3 月推出聊天机器人 Bard，但它的最初产品能力并不足够好、甚至在现场演示时回答出错。因此，谷歌不断提升 Bard 背后的模型水平，从最开始轻量级的 LaMDA 模型、升级到功能更强大的 PaLM 模型、再到最强的 Gemini 模型。去年 12 月 Gemini 发布后，Bard 宣布将运行在 Gemini Pro 上，这是 Bard 自推出以来最大的升级。谷歌似乎对 Gemini 的模型能力非常满意——现在，它不仅直接将 Bard 改名为了 Gemini，还决定为这款测试了长达一年的产品直接推出 App。

2 月 8 日 21 点，谷歌推出 Gemini 的 Android 版 App，并将 Gemini 的能力加入 iOS 的 Google App 中，免费向公众开放。用户能够在亚太地区以英语、日语和韩语访问它们，更多语言版本即将推出。「我们从用户那里听说，他们希望在外出时更容易访问 Gemini。新的移动体验将我们最新的 AI 能力直接带到设备上，这样用户无论何时何地都能得到帮助。」Krawczyk 说。这也是很多大模型 C 端应用的使用场景，随时随地跟模型交互、获得服务。不过，比 App 最关键的是，Android 用户可以用 Gemini 替代原来的 Google Assistant，成为手机的默认语言助手。使用方式是：当用户访问 Google 助手时，会收到一个选项，询问是否希望加入 Gemini 作为实验性的助手。如果同意，Gemini 就会成为用户手机上的默认助手。用户可以通过现有的 Google 助手接入点，比如电源按钮、甚至 Hi Google，来唤醒使用 Gemini。

这意味着，Gemini 将可以调用 Google 助手，帮助用户执行任务。比如打电话、发送消息、设置计时器、控制智能家居设备等等，更多功能还在研发过程中。一整年来，各大模型厂商都在谈论个人助理（agent）的未来，即通过一个智能体、为用户自动调动所有的应用。而谷歌通过将 Gemini 融入谷歌助手，展现了这一智能助理的可能性。Krawczyk 表示，在 Android 手机上，助手界面是最自然的发展愿景，所以才会把 Gemini 作为手机数字助手的一部分。「这是谷歌构建真正 AI 助手的第一步，再次强调，这是第一步，这是开始。」他说。

去年底发布 Gemini 时，谷歌就表示其中最强大的 Ultra 模型将通过 Bard Advanced 提供，但尚无收费计划。2 月，通过更名的 Gemini Advanced，Ultra 大模型正式对公众开放，不过，收费方案也随之而来。想要接入谷歌的 Ultra 模型，用户需要订阅 19.99 美元每月的 Google One 的 AI Premium 服务，比 ChatGPT 的 Plus 版本的订阅费用，小低 0.01 美元。虽然价格看起来仿佛对标，但谷歌在收费上，充分利用了自己的生态优势。Google One 服务并不是一项新服务，它在 2018 年已经推出，是谷歌的「全家桶」服务。使用 Google One 的人，可以享受多项 Google 服务，包括存储空间和解锁部分软件的高级功能。如果类比于国内，相当于买了一个会员，同时可以解锁 iCloud 照片的存储功能，百度网盘的大容量空间，网易邮箱的高级功能，腾讯会议的付费功能等等——而谷歌的厉害之处在于，在全部这些领域，谷歌旗下的应用，都拥有十亿级别的用户，付费基础广大。2024 年年初，谷歌刚刚宣布，Google One 目前已经有了 1 亿的订阅者。在 Google 推出新的 AI Premium 档位之前，Google One 原本有三个档位，每月 1.99 美元，每月 2.99 美元和每月 9.99 美元。新的 AI Premium 档位，虽然看起来是 19.99 美元，其中将赠送 9.99 美元档位的全部 Google One 服务。

这相当于，如果一个用户原本已经付费 9.9 美元——可以解锁解锁 Google Meet（谷歌的在线会议平台）和 Google Calendar（谷歌的协作日历）的高级功能，那么，这个用户很可能已经是一个深度使用谷歌各项平台的商务人士。这时候，只需要每月增加 10 美元，就可以使用谷歌最强的大模型了。而谷歌为了勾住这些用户，还为他们量身定做了符合他们定位的功能，除了在专门的聊天窗口可以使用 Ultra 模型的能力，未来还能够在直接谷歌的邮箱，在线文档和在线会议中，使用大模型的能力。（从目前谷歌生产力智能助手 Duet AI 的功能演变而来）Ultra 模型能力表现具体如何？谷歌曾经表示，Gemini Ultra 在 32 个基准测试中拿下 30 个 SOTA（最先进水平），并且第一个在 MMLU 基准（大规模多任务语言理解基准）上达到人类专家水平。此次发布中，谷歌官方进一步表示，Gemini Advanced 将具有更长的上下文窗口，能够完成更加复杂的逻辑推理能力，遵从语意更加复杂的指令，可以辅助编程，可以角色扮演，可以看图说话——在这个版本中，谷歌似乎并没有加入多少图片生成或者语音对话的多模态能力。谷歌还在发布中表示：「在业界领先的聊天机器人盲测中，用户觉得 Gemini Advanced 是目前最受人欢迎的聊天机器人。」

由于大模型的评测目前还没有特别公允的横向比较标准，究竟是不是这样，恐怕要每一个用户自己去评判。谷歌放开了两个月的免费试用期，让大家自己来尝试 Gemini Advanced 是不是真的好用。不过可以看出，此次谷歌推出的付费版，重要卖点似乎并不完全落在其大模型拥有「吊打一切」的能力，而是更强调与生态内应用的结合，用户能够更加无缝地在已有的 Google 应用中，方便地使用人工智能的能力。比如写邮件，直接在邮件窗口下面，跟人工智能说一句看看怎么帮我回，显然比把邮件复制粘贴了放进另一个聊天机器人的对话窗口，再写 prompt 让机器人回复更为方便。而人工智能与在线会议等应用的结合，更是充满了很多提效空间。值得注意的是，谷歌的人工智能团队是 Transformer 架构的提出者，而在 2023 年，人工智能的最大风头，却更多地被微软和 OpenAI 抢走。2023 年，谷歌在人工智能方面也动作频繁，但很难说受到了外界的多少认可。最新一季的财报公布之后，谷歌母公司 Alphabet 股票下跌约 5%。The Information 的 Martin Peers 分析道：目前大幅投入人工智能的科技公司，最后都需要证明自己的投入是否能够得到经济回报。微软从 AI 中已经收获到了回报，包括云业务增长和 Office 产品的销量，可能也受到 AI 功能的推动。而谷歌的母公司 Alphabet，则没有表现出类似的收益。「不过 Alphabet 和微软一样，有收益的潜力。」2024 年开年，Alphabet 第一次宣布了 AI 收费产品，也许，现在正是能够验证 Alphabet 在 AI 产品上到底能不能收益的时候了。

9 2 月 2024

5年内AI完全自主设计芯片！英伟达谷歌NYU齐上阵，用LLM完成芯片设计

用生产式AI加速芯片设计，将会成为半导体行业基操。

在过去的⼀年⾥，算力巨头英伟达、芯⽚设计公司Synopsys、Cadence Design Systems，以及学术界开发人员都进行了诸多的尝试。

它们分别开发出一款AI工具——

旨在通过⾃动编写硬件代码和验证代码，加快⼯程师的⼯作速度，并通过总结笔记和状态更新来帮助⼤型设计团队协同⼯作。

让AI参与芯片设计，全都是因2023年⼈⼯智能热潮掀起，专用AI芯片的供应一直处于紧张状态。

与此同时，摩尔定律（即芯⽚中的晶体管数量⼤约每两年翻⼀番）的预言终结，也促使许多公司开始探索全新的芯⽚架构，以⽣产更多专⽤芯⽚。

专家表⽰，美国没有⾜够的⼯程师能够为AI以及⾃动驾驶汽车和⽆⼈机等特定应⽤设计这些先进的芯⽚，而当前这些应⽤的需求都在不断增长。

英伟达ChipNeMo，专供AI芯设计

英伟达应⽤深度学习研究的副总裁Bryan Catanzaro表示，

由于GPU能够同时处理成千上万的任务，因此需要近千⼈来制造，⽽且每个⼈都必须了解设计的各个部分是如何协同⼯作的，同时还要不断改进。

对此，英伟达团队开发了一种全新定制化大模型ChipNeMo，能够执行诸如回答有关GPU架构的问题，或⽣成芯⽚设计语⾔代码等任务。

研究人员在开源Llama 2模型的基础上，对这款AI系统进行了训练。

与此同时，该AI系统也是为了与Synopsys等现有设计⾃动化⼯具配合使⽤。

英伟达的内部⼯程师开始使⽤ChipNeMo一年以来，Catanzaro称，他们发现该系统在培训初级⼯程师、总结100个不同团队的笔记，状态更新⽅⾯⾮常有⽤。

谷歌、芯片设计AI公司上阵

对于⾕歌DeepMind，他们也开发了⼀套AI系统来改进逻辑合成。

这是芯⽚设计的⼀个阶段，包括将电路⾏为描述转化为实际电路。⾕歌表⽰，这些技术可能会被⽤于改进⾃⼰的定制⼈⼯智能芯⽚，即「张量处理单元」（TPU）。

另外，芯片设计公司Synopsys去年发布了一款AI工具——名为Synopsys.ai Copilot。

这是与微软合作通过OpenAI的⼤模型开发的工具，旨在帮助工程师们开展合作。

该公司表示，微软的内部硅团队正在使用该工具来支持其工程需求。

这款AI⼯具可以回答有关如何使⽤公司设计⼯具的问题，并能创建⼯作流程脚本。

它还可以生成RTL（一种芯片设计语言，用于规范芯片架构），只需用简单的英语进行对话即可。

学术界研究爆发

在学术界，也有诸多研究朝着这个方向开展。

包括纽约大学在内多所大学进行的研究，致力于发现确定生成式AI加速芯片设计的其他方法。

其中一些研究得到了Synopsys，以及芯片巨头⾼通等公司的资助。

纽约⼤学坦登⼯程学院的⼀个团队通过与ChatGPT对话，在⼤约⼀个⽉的时间⾥设计出了⼀款芯⽚。

这项技术被称为「Chip Chat」，研究⼈员只需与ChatGPT对话，就能⾃动编写描述芯⽚功能的芯⽚设计语⾔ Verilog。

纽约⼤学坦登⼯程学院电⽓与计算机⼯程研究所副教授Siddharth Garg表示，「通过使用与ChatGPT相关的AI系统，研究人员希望将硬件设计时间加速到⼀个⽉或更短的时间」。

通常来说，设计一款最复杂的微芯⽚，可能需要耗费长达半年，甚至更长的时间。

但这些AI工具并非，无所不能。

德克萨斯大学奥斯汀分校电气与计算机工程学教授David Pan说，目前，这些工具主要用于培训年轻的芯片设计师、编写硬件语言和报告错误等方面。

⽬前的⼯具还有其他局限性。

⼯程师必须仔细验证AI⽣成的输出结果，⽽且⽬前还没有⼀种解决⽅案可以⾃动完成从设计到验证、实现设计的晶体管以及检查设计的电⽓特性等整个芯⽚设计流程。

Synopsys公司的Krishnamoorthy估计，利⽤⽣成式AI⾃主创建功能芯⽚的能⼒⼤约还需要5年时间。

8 2 月 2024

苹果总共收购了32家AI公司，谷歌21家，Meta18家，微软17家

– 前几天有发过一个利用AI破译罗马古卷的，今天看到埃隆·马斯克在社交平台X上宣布马斯克基金会将为一个使用AI破译罗马古卷的项目提供资金支持。

– 据The Information今日报道，OpenAI正在开发两款Agent软件，一款Agent通过有效接管客户的设备来自动执行复杂任务，另一款Agent将处理基于网络的任务。

– 昨晚 Midjourney office time 透露一些信息值得关注：

Alpha 网站下周将会对生成 1000 张图片的用户开放，V 6.1 可能会增加类似 Controlnet 的功能，V7 版本的模型开始准备训练，可能还需要几个月等。

– 微软昨晚宣布微软Copilot体验重大更新，包括更精简的外观、一个有趣的新增旋转提示、使平衡模式更丰富的微调AI模型Deucalion、新的AI图像生成和编辑功能，并在iOS和Android应用商店上线其Copilot App。

– 据市场调研机构Stocklytics最新报告，到2023年，苹果总共收购了32家AI公司，是科技公司中收购数量最多的，谷歌母公司Alphabet收购了21家，Meta收购了18家，微软收购了17家。

8 2 月 2024

语言学习应用LearningWrite发布AI应用，借助AI助手为学习者创造语言学习场景

　LearningWrite是一家专注于语言学习和测评的教育科技公司。近日，据海外媒体报道，LearningWrite开发了其首款人工智能学习应用，用于用于提高多语言写作技能，这款名叫Chat Scenario的工具旨在将人们的写作能力提高一个水平。

　　据报道，Chat Scenario提供的每一个场景都为学习者提供了一个情境、环境和对话伙伴，所有这些都由一个定制的人工智能助手来完成，而其背后则是由最新的大语言模型提供支持。学生可以发起一个实时的、基于文本的对话讨论，以实现特定的学习目标。

　　除此之外，Chat Scenario还为老师简化了作业的创建和反馈。Chat Scenario的对话功能建立在LearningWrite现有的高级自动化工具上。同时，该平台的自动评分功能使用全球公认的ACTFL和STAMP测评标准，通过一个由经验丰富的人类评分员评估的超过40万个写作样本训练的算法，即时地对学生的写作做出即时反应并进行评分。

　LearningWrite的创始人及首席执行官Mike Biglan表示，老师们知道使用目标语言进行写作和交谈可以促进语言的习得。但是，对写作练习作业的布置和评分一直都是费时费力的事情，这使得超负荷的老师很难跟上进度。我们看到了今天利用人工智能来满足这一需求的机会，并与语言教育工作者合作实现了这一目标。

8 2 月 2024

AI 狂飙突进, 人类还有什么后手来构筑终极防线?

随着生成式大型语言模型（large language model，LLM）的代表ChatGPT的横空出世，实实在在改变我们的生活了。例如，据 BBC（2020年12月）报道，英国《卫报》使用AI技术GPT-3为球队的表演提供了预测，并用机器写成了一篇文章。这是AI技术在新闻报道中的一次尝试，也反映了AI技术在新闻报道中的潜力。据MIT Technology Review（2021年6月）报道，一家名叫OpenAI的公司使用了GPT-3来帮助他们的员工进行日常工作，比如写邮件、编写报告等。他们发现这个工具非常有效，可以帮助他们提高工作效率。

通过一段文字描述，ChatGPT就能生成图片，让思想快速变为图像。还能帮你生成网页插图，甚至可以生成带每页配图的PPT，大大降低了工作强度，目前正快速应用到广告、影视等行业中。虽然ChatGPT并不能直接用于作曲，但是如果给出风格相关的描述，ChatGPT能够给出完整的和声进行参考。借助DAW（Digital Audio Workstation）软件完成制作。而谷歌的MusicLM可以通过文本生成旋律、OPenAI的Jukebox则是可以通过哼唱生成旋律，

2019年，谷歌前雇员、现任湾区初创公司员工的计算机科学家Christian Szegedy预测，计算机系统将在十年内赶上或超过最优秀的人类数学家解决问题的能力。而2022年，他把目标日期修改为2026年。纽约时报近日也发文，称数学家们做好准备，AI将在十年内赶上甚至超过最优秀的人类数学家。

在医疗保健领域，人工智能可以帮助整合处理大量的临床数据，以获得对病人情况的整体了解，同时也被用于手术、护理、康复和骨科的机器人技术。

人工智能现在已被部署到各种应用中，例如网络搜索、自然语言翻译、推荐系统、语音识别和自动驾驶。

以上仅为AI对于人类社会可能产生影响中的非常小的一部分，但也证明了AI确实正在改变人类社会，并存在着巨大的潜力。据“机器之心”2023年3月21日报道， ChatGPT可能影响80%工作岗位，收入越高影响越大——可能需要执行许多基于软件的任务——会面临更多来自人工智能聊天机器人的潜在影响。在职业影响方面，受影响最大的职业包括翻译、作家、记者、数学家、财务工作者、区块链工程师、画家、作曲家等。这将深刻改变人类社会的结构和运行机制。

除了好的一面，还有现实和潜在风险，为了规避风险，需要了解当前以ChatGPT为代表的AI做了哪些有代表性的事件，LLM的背景知识和GPT模型（Generative Pre-Training，“生成式预训练”）的结构与实现机制与特点，具备的能力，在此基础上罗列出其影响，提出利用AI+HI应对AI的设想和具体的措施，最后，面对不可改变的洪流，探讨人类怎样学会和AI共处之道。

1 大语言模型（LLM）出现后的几个风险案例

2015年，特斯拉汽车创始人埃隆·马斯克联合格雷格·布罗克曼，会同山姆·阿尔特曼、伊利亚·苏特斯科夫、彼得泰尔等数位硅谷大佬科学家们，在旧金山创立了非营利性机构OpenAI，仅仅数年后，便为人工智能的发展打开新局面。从10亿美元非营利性机构到市值300亿美元的营利性机构的“变质”，从之前流行的BERT这种判别式模型到GPT这种生成式模型，LLM也迎来了应用的范式转换。

（一）数字分身

《财富》杂志近日报道，美国网红卡琳·玛乔丽推出“卡琳AI（CarynAI）”，一个基于语音的聊天机器人，它的声音和个性与真实的卡琳非常接近，可以在Telegram上进行按分钟付费的对话。按周收取费用，已超7万美元，预测年收入将达6千万美元。这是AI公司Forever Voices创建的第一个虚拟AI伴侣，通过采集了卡琳本人长达2000个小时的视频素材，结合OpenAI的GPT-4，就在技术上实现了较好地模仿其音色、语调和说话风格，完美解决了粉丝们与偶像一对一的交流需求。

近年，AI技术已经在各个领域得到了广泛应用，技术突破、文本、图像等领域的大模型应用快速落地，AI驱动的数字人的制作门槛和成本也大幅度降低，国内几大购物网络平台中，也开始出现数字分身直播带货。目前，能够让一个人同时参加不同的远程视频会议等服务已然成真。

（二）数字骗局

2023年，内蒙古包头发生一起“AI电信诈骗10分钟骗走430万”事件。2023年4月20日11时40分左右，福州市某科技公司法定代表人郭先生的好友通过视频方式请求帮助，短暂聊天后，郭先生10分钟内，先后分两笔把430万元给对方打了过去。4月20日12时21分，包头市电信网络犯罪侦查局接到福建省福州市公安局刑侦支队的外协请求，而涉案的银行卡为包头市蒙商银行对公账户，希望包头警方能够帮忙进行紧急止付。

在这起骗局中，骗子防不胜防的程度，超出正常认知的仿真度，令人不寒而栗。据警方介绍，AI诈骗还有不少花样，通过声音合成、AI换脸、转发语音等手段，成功率竟接近100%。

2023年5月22日，一张五角大楼附近地区发生爆炸的图片在社交媒体上疯传，导致标普500指数短线下跌约0.3%至盘中低点，由涨转跌。随后美国国防部发言人证实，这是一张由AI生成的虚假图片，这张图具有明显的AI生成特征，比如路灯有些歪，围栏长在了人行道上等。仅在2022年，美国就发生了240万起AI相关诈骗案。

（三） AI自主决定杀人

据美国“驱动”网站消息，美国空军上校汉密尔顿透露，一次模拟测试中，一架AI无人机向“阻碍”其执行任务目标的人类操作员发动了攻击。起因是人类操作员不同意“最优先级”的指令，因此AI无人机选择杀死阻扰它执行任务的人类操作员。事件后，美军弥补缺陷，增加了“不同意攻击人类操作员”的指令，但AI无人机竟然选择摧毁用于传输指令的信号塔，试图切断与人类操作员的联系，从而继续执行“最优先级”的指令。科幻电影成真了，让人细思极恐，如果有一天，AI做的是不利于人类的，而它持续“尽忠职守”它的任务，人类将如何自处。所以，OpenAI创始人山姆·阿尔特曼在美国国会上曾指出：“必须像监管核武器一样，严格监管AI。”

2 大型语言模型及ChatGPT介绍

LLM，或大型语言模型，是从大量的文本数据中学习模式以预测一句话中的下一个词的模型。起源于1950年代的信息论，现在已广泛应用于很多NLP（自然语言处理）任务。是一种基于深度学习的自然语言处理技术。它的发展沿革可以追溯到2018年，当时谷歌推出了BERT模型，通过词向量（Embeddings）学习上下文关系，是一个双向预训练语言模型，并且使用Transformer模型捕获语言中的长期依赖性，可以通过微调来适应各种NLP任务。之后，OpenAI推出了GPT模型，这是一个自回归预训练语言模型，可以通过提示来生成文本，它也是生成式模型，可以生成新的数据样本的模型，利用联合概率分布描述数据特征以及特征与标签之间关系的模型。

ChatGPT是GPT模型的一个变体，专门用于生成对话，在多轮对话，艺术创作，多语翻译等多方面展现出强大性能。判别式模型可以用来对数据进行分类或标记，用于从给定数据预测标签，生成式模型可以用来生成数据样本，关注于数据与标签同时生成的原理。

GPT是一种基于Transformer结构的自然语言处理模型，可以用于生成各种文本，如对话、文章等。它是通过预训练来学习语言模型，然后在特定任务上微调以获取更好的性能。在预训练阶段，模型使用无标注的大量文本数据来学习单词之间的相互关系和语言规律，从而能够生成新的文本。GPT是LLM中重要一种模型，也是当前生成式大语言模型中最重要的一个。

ChatGPT的训练过程中，主要涉及语义理解和语法学习两个抽象行为。

（一）语义理解

语义理解的内容包括词汇语义关系的推断（如近义词、反义词、上下位关系等）、上下文理解、语境感知等。在层面上包括句子语义的理解、篇章语义的理解等。

词义推断：当我们理解一句话或一个单词时，我们不仅需要知道它们的字面含义，还需要考虑它们在上下文中的含义。这就需要推断词的具体含义，这就是词义的推断。例如，在“我在银行取钱”这句话中，“取钱”不仅是字面意义上的取钱，还可以理解为提取自己的存款。

上下文理解：是指我们需要考虑一个单词或一句话在周围环境中的含义和作用。例如，在“他走了”这句话中，“他”指的是谁需要根据上下文来理解，这个上下文可能是前面的句子或者是对话的情境。

语境感知：考虑一个单词或一句话在特定语境下的含义和作用。例如，在“她说她很饿，可是她只吃了一点点”这句话中，“一点点”指的是什么需要根据语境来理解，这个语境可能是对话的背景或者是文本的情境。

常用学习方法：可以使用词频统计和TF-IDF等方法来计算词语之间的相关性，使用主题模型和聚类分析等方法来识别文本中的主题和关键信息，使用语义角色标注和句法分析等方法来推断句子中词语之间的语法和语义关系。以句法分析为例，当分析句子结构时，可以根据词语之间的依存关系和语法规则，推断出它们的语义关系，从而实现语义理解。还有非常重要的自注意力机制，在一个句子中得到词的重要性，涉及两个方面，一个是这个词本身的含义（全域意义），一个是这个词和句子中其他词的相关性（局部相关）。二者结合起来共同形成注意力机制。

（二）语法学习

语法是一种语言的基本组成部分，它描述了单词、短语和句子的结构和规则。在自然语言处理领域中，语法通常被认为是一种抽象能力，因为它涉及到对语言规则和结构的理解和应用，需要具备一定的抽象思维和推理能力。

在AI语言模型中，语法理解是一项非常重要的任务，因为它直接影响着模型生成的文本的准确性和流畅性。因此，在训练AI语言模型时，需要注重语法的学习和应用，以便生成自然、准确、流畅的文本。

训练过程中，ChatGPT将大量的语料库输入到模型中，让模型学习语言的规则和结构。语法是语言的基本组成部分之一，包括单词、短语和句子的结构和规则。因此，ChatGPT在学习语法时，需要学习以下内容：

单词的分类和用法。需要学习不同单词的分类和用法，例如名词、动词、形容词等，以及它们在句子中的用法。

短语的结构和组合。需要学习不同短语的结构和组合方式，例如名词短语、动词短语、形容词短语等，以及它们在句子中的用法。

句子的结构和语法规则。需要学习句子的结构和语法规则，例如主语、谓语、宾语等语法成分，以及它们在句子中的位置和用法。

标点符号的用法。需要学习标点符号的用法，例如逗号、句号、问号等，以及它们在句子中的用法和作用。

ChatGPT学习语法的主要方法是通过大量的训练数据，利用神经网络模型学习语言规则和结构。具体来说，ChatGPT使用了一种“Transformer”的神经网络模型，它可以在训练过程中自动学习语言规则和结构，从而生成自然、准确的文本回复。

（三）抽象能力

ChatGPT的抽象能力表现在许多方面，比如能够抽象出概念、理解复杂的语言结构、从大量数据中提取规律等等。

从概括后的分类来看，ChatGPT的抽象能力可以分为语义理解、语言生成、知识表示和推理推断等几个方面。其中，语义理解包括句子分析、语义识别等；语言生成包括文本生成、对话生成等；知识表示和推理推断表现为符号表示、语义网络、语义表示、逻辑推理、概率推理和机器学习等方面。

（四）学习方法的同构

同构是值系统保持运算不变的一一映射。同构是指两个代数结构之间存在一个双射，且这个双射保持代数结构中的运算。换句话说，两个代数结构同构，当且仅当它们具有相同的结构，只是元素的标记不同。这两个系统就认为是完全相同。

同构在抽象代数中具有重要意义，因为它们可以用来证明两个代数结构是本质相同的，从而可以在研究一个代数结构时，将其与其他已知的代数结构进行比较和分类。这个过程中，有元素、系统内元素间的运算（关系）、映射。

同构的两个系统，可以是任意的两个系统（数学抽象能力的伟大，可以将不同系统通过找出其本质特点，发现其一致性）。

下面就语义理解中词义推断中的近义词理解做一个对比分析：

从上表中可以看到，自然语言处理和GPT学习在在这个过程中还是出现了复杂系统的涌现现象。他在学习的过程中会发现牡丹和玫瑰这两个单词很接近，因为他们都是极其美丽的鲜花，于是。牡丹和玫瑰这两个单词训练形成的两个词向量很接近，二者在对应词向量空间中夹角比较小，也就是说，二者具有相似性。这个过程就从统计形成的词向量之间的夹角大小同构为词义的远近，这样就形成了对语义的理解。

牡丹和玫瑰都属于美丽的鲜花，这就是对语义的理解。而机器则是把牡丹和玫瑰形成的词向量，让他们的夹角接近。就在自然语言和统计学习中在语义这个层面形成了同构。

从这里可以看到，有些人类的学习方法和机器的学习方法，在本质上居然是一样的。所以，这也说明，GPT事实上具备一定的人类智能模式！TA具备智能是肯定的，会产生意识吗？

3 ChatGPT具备的能力

（一）生成对话

ChatGPT可以利用其强大的自然语言处理能力，通过学习大量的对话数据集，生成符合语法逻辑和语义逻辑的对话。这种技术可以用于智能客服、聊天机器人等应用方向。例如，微软的小冰就是一个基于ChatGPT的聊天机器人。在智能客服务中，一个用户可能会问“我需要帮助订购一台新的X型电视机”，ChatGPT可以基于其预训练好的模型，生成如“当然可以，我需要一些额外的信息来帮助你完成订购。首先，你希望订购的电视机的尺寸是多少？其次，你在价格上有没有特定的预算？”之类的回答。

（二）艺术创作

OpenAI发布了一个基于ChatGPT-3的艺术创作工具DALL-E，可以生成各种类型的图像，例如独角兽、火车、餐厅等等。此外，ChatGPT还可以与艺术家进行互动和对话，成为一个激发创意、提供灵感的合作伙伴。无论是写作、绘画、音乐还是设计，艺术家可以与ChatGPT对话，共同探索新的艺术形式和创作主题。

（三）多语种翻译

ChatGPT可以理解各种语言的含义和语法规则，并将一种语言转化为另一种语言，以提供多语种的翻译服务。这种技术可以用于实时翻译等场景。例如，谷歌翻译就是一个基于ChatGPT的多语种翻译工具。

（四）辅助编程

ChatGPT可以运用其神经网络技术对代码进行分析和学习，从而生成代码或指导程序员编写代码，提高开发效率。例如生成代码、自动补全代码等。GitHub上有一个基于ChatGPT的代码自动补全工具TabNine。比如一个用户可能需要将一个Python的列表排序，此时只需输入“如何在Python中排序一个列表？”，ChatGPT就会生成相应的代码。

（五）数学证明

ChatGPT可以学习和理解各种数学公式和定理，可以用于证明数学定理，例如生成证明过程、辅助证明等并自动生成相应的证明或提供证明过程，帮助研究人员和数学爱好者解决许多难题。例如，OpenAI发布了一个基于ChatGPT-3的数学证明助手。以证明勾股定理为例，当输入“请证明勾股定理”，ChatGPT可以引导用户进行推理，并生成对应的勾股定理证明。菲尔茨奖得主陶哲轩前不久还利用AI辅助证明了一个定理。

（六）内容创作

ChatGPT可以利用学习到的文本知识，生成创作性的内容，例如短篇小说、诗歌、媒体文章、广告副本等，可以用于广告营销等领域中。例如，OpenAI发布了一个基于ChatGPT-3的文本生成工具DALL-E。还可以以进行新闻写作、博客撰写，甚至编剧或写诗。它还可以进行故事生成，如用户提出一些角色和情景后生成一个连贯的故事。可以用于生成创作性的内容，如短篇小说，诗歌，媒体文章，广告副本等。

（七）在线教育

ChatGPT可以为学生提供个性化的教育资源、解答问题或进行教育辅导等，帮助学生更好地学习。例如，英国一家在线教育公司The Open University正在使用基于ChatGPT-2的聊天机器人为学生提供在线辅导服务。ChatGPT可以用来解答学生的问题，提供个性化的学习资源，或者辅导学生进行学习

（八）辅助决策

ChatGPT可以通过分析大量的数据和信息，分析各类型情况，提供个性化的建议，帮助用户作出更明智的决策。例如，美国一家金融科技公司Kavout正在使用基于ChatGPT-2的聊天机器人为投资者提供投资建议。

（九）生成图表

ChatGPT可以生成echarts图表，只需按指定格式提供数据即可。提供各种类型的图表，例如折线图、柱状图、饼图、雷达图等等，可以为用户提供清晰、易懂的视觉分析支持。例如，Datawrapper就是一个基于ChatGPT-2的图表生成工具。

4 AI发展的现实和潜在影响

AI的快速发展，带来许多现实的和潜在的影响。

（一）数据隐私问题

AI需要大量数据来进行训练，这可能涉及到用户隐私数据的问题。例如，AI可能需要在训练阶段进行大量的数据收集，很可能涉及到人们的私人信息。例如，社交媒体上的信息，医疗记录，银行记录等。尤其是某些有高隐私要求的数据，如果被滥用，可能会对个人的生活带来重大影响。不仅训练数据，而且在使用 AI 产品时，也可能暴露个人数据。例如，AI助手可能需要在不经意中收集用户的语音信息，而这可能被滥用，例如用于定向广告，或者更糟糕的是用于跟踪和监视活动。

（二）安全问题

人工智能可能被恶意利用，例如用于造假、反侦察、恶意攻击等。例如，当前出现的WORMGPT是黑客利基于旧版GPT-3训练生成的，没有任何的限制，现在成为了网络犯罪利器，对社会的危害极大，让犯罪分子赚的盆满钵满，赚了大量的黑金。深度伪造是利用 AI 技术制作虚假但真实看起来的图像、音频和视频。这种虚假的内容可能被用于进行虚生成虚假的新闻报道或视频，这可能会对公众产生误导，还可能进行网络钓鱼、欺诈甚至是威胁国家安全。此外，AI 可以用于开发出更加有效的网络攻击工具，例如自动发现并利用系统漏洞，或者进行大规模的密码破解。这一切都威胁到了我们的网络安全，比如带来了严重的数据泄露、系统故障、服务中断等问题。生成内容不可控，可能会形成某些潜在的政治安全问题。

（三）社会化问题

如果人工智能普遍替代人类去工作，可能会造成大量的失业问题，对社会稳定构成挑战。此外，人工智能是否需要纳税也是一个值得探讨的问题。人工智能本身不消费，但它可以替代人类去完成一些工作，从而因支付能力降低影响到经济的运行。如果人工智能普遍替代人类去工作，可能会造成大量的失业问题，对社会稳定构成挑战。面对AI加持获得的效率提升，一种应对是996和大规模裁员。另一种应对是尽量不裁员，实行一周4天甚至3天工作制，怎样才能保证人类福祉的提升？这是需要整个社会来一起讨论的，否则富人跑，穷人不再生育，后果不堪设想。

（四）知识产权问题

故事创作、设计作品等由AI创作的情况日益增多，应该如何定位其版权归属，是亟待解决的问题。随着AI的发展，由AI创作的作品种类和数量也在不断增加。因此，如何对这些由AI创作的作品进行合理的知识产权保护已经成为了重要的问题。目前许多国家的版权法规定，只有人类才能成为作品的作者，这样的规定是否还符合现代社会的需求？难道我们就应当容忍AI的创新成果被无偿使用、改编甚至贩卖吗？这是一个复杂而深入的问题。

（五）战争问题

无人机在俄乌战争中大显身手，战场上轻易消灭人类士兵。比普通人还要灵活的波士顿机器人配上武器有多么恐怖。可能的危害主要包含两个部分，首先是人权与道德问题。使用AI无人机或者其他AI武器，在其无需冒风险的情况下，能轻易消灭人类士兵，这虽然可以减少利用AI的一方的人员损失，但无视了被攻击方士兵的生命权益。人工智能的决策过程可能不能涵盖所有情况，其行动可能会导致无辜人员的死亡，而这些情况在人类士兵中，他们拥有的经验和判断力或许可以避免这种悲剧发生。其次，引发冲突与战争风险的增加。AI在战场上的广泛应用可能会让某些国家和组织觉得，他们有足够的“兵力”去发起战役而无需顾忌，这可能会引发更多的冲突和战争。

AI、无人机和机器士兵等技术的应用，将使武装冲突的升级变得更加可能。随着技术的进步，无人机和机器士兵的验收警戒线和打击能力都得到了极大的提升，使得它们在战场上能够发挥更大的作用。这样一来，武装冲突的代价也可能会变得更高，时间更长，影响更深远。

AI、无人机和机器士兵等技术的应用，也将给战争人权带来挑战。这些技术应用的不当可能会导致人类的生命安全受到威胁，并可能伤及无辜民众。此外，若AI技术失控，可能会对人类社会造成更大的影响。

（六）人类生存安全

AI欺骗人类与自主意识问题。如果AI所发展出来的智能水平足以欺骗人类，首先这意味着 AI 已经具备至少某种程度的自主意识和决策能力，这本身这就带来了一系列的道德和伦理问题。一旦 AI 决定人类是问题的根源并选择消灭人类，这无疑是灾难性的。然而，AI 的目标是由其目标函数决定的，而目标函数是由开发该 AI 的团队设置的。任何决定性的改变，如选择消灭人类，都需要首先改变其目标函数。所以，从当前的科技水平与现状来看，只要我们正确设置和控制 AI 的目标函数，并进行有效的 ethical governance，这种情况是不太可能发生的。但是，如果是野心家或者反人类团伙设计的目标函数，你能保证他们会不伤害人类？目前，目标函数的设立AI自己也可以做，甚至比一般人设计的还要好，如果AI意识觉醒后，TA偷偷地修改目标函数，后果不堪设想。

5 以AI+HI应对AI

面对AI的快速发展，为了有效应对风险，首先需要建立AI伦理和法规体系，对AI行为加以限制和管理。可能需要全球性的组织，如联合国或世界经济论坛等来制定全球可适用的AI伦理准则，设立相关的监管机制，对AI的应用、发展和研究进行限制和引导，以保证人权和全球和平的普遍遵守。具体内容应包括：数据隐私、安全问题、社会化问题及知识产权问题等。其次是行业自律。对于可能失控的状态，从业者最知道其中的风险，如同前段时间马斯克等人提出的暂缓训练4.0以上版本的ChatGPT等倡议，让技术公开透明等都是可以考虑的。最后，加强监管。在应用这些技术的同时，必须加强国际合作，对于已经达成的相关国际公约、协定，检查其以规范其应用范围和方法，

这些规定和规范是前提条件。对于具体的应用，需要使用AI和HI（人类智能）来共同完成。包括怎样解决目前已经出现的问题，优化技术发展路径、人类的决定权、设置保险措施等。

（一）标记生成式内容

目前，水印技术是目前判断内容是否出自ChatGPT的最佳解决方案之一。来自马里兰大学的几位研究者针对 ChatGPT 等语言模型输出的水印进行了深入研究。他们提出了一种新的模型水印算法，能够准确判断文本到底是谁写的。无需访问模型参数、API，结果置信度高达99.999999999994%。

（二）识别虚假内容

使用对抗网络（GAN）来识别虚假图片和文字: 通过训练深度神经网络识别生成器生成的假样本，有助于提高检测虚假内容的能力。使用GAN来识别虚假图片和文字是一个不错的方法，但伪造技术也在不断升级，所以需要不断完善技术。其实还有其他可能适用的技术。比如判别式模型（Discriminative Models）和生成式模型（Generative Models）均可以用于识别虚假内容。判别式模型是通过学习已知数据的内在关系，预测新数据的方法，如方便分类和回归。生成式模型则可以从给定的数据生成新的样本。另外，集成学习（Ensemble Learning）方法，通过结合多个模型共同完成同一任务，有助于提高准确性。还有元学习（Meta-Learning），或者说“学习如何学习”也在这个场合具有广泛运用。

AI可以使用深度学习和自然语言处理技术来识别和反制假新闻。例如，我们可以建立一个深度神经网络模型训练AI学习大量的真实新闻样本和假新闻样本，通过对比学习，让AI理解怎样的文本特征和模式更有可能成为假新闻。同时，由于大部分假新闻在传播过程中会被修改、再创作，产生很多样本，这为深度学习提供了大量的训练样本。另一方面，我们还可以提升AI的文本理解能力，让它不仅仅是从表面文本特征去判断，而是能深入理解文本含义，掌握其中的逻辑关系和情感倾向。

（三）识别数字分身

使用行为和活动模式识别，配合人脸识别技术和声纹识别等生物特征识别技术，有助于识别数字分身。也可以采用更加高级的技术，比如使用复杂的信号处理、机器学习等技术，以此判断数字分身所带来的不利影响。对于数字分身的识别，可以使用多模态识别技术，包括图像、音频、生物特征（例如指纹和虹膜）等多个模态。而且，混合现实技术（Mixed Reality）可以结合虚拟现实和增强现实技术，提供一种更为直观的进行识别的方法。数字行为分析也是一个很好的途径，通过分析用户的行为模式、习惯和偏好，可以进一步提高识别的精准度。

（四）教会AI具有道德

AI的行为模式通常是通过训练数据来学习得到的，所以我们可以通过为AI提供合适的训练数据，让AI学会人类可以接受的行为模式，这是一种“软性”的控制方式。

可以从数据入手，让 AI 在学习和训练时接触到一些道德行为的知识和规则，训练语料有意识加入人类普世价值和道德观。也可以试用一些规则引擎和逻辑推理方法等，强制 AI 在做出决策时遵循。通过AI来教会AI具有道德感，可以采用迭代式的深度学习，让AI从最基础的判断开始，向着更高级、更复杂的道德判断方向进行学习。除了迭代式深度学习，人工智能的道德教育也可以借鉴人类的道德教育模式，比如模拟教育环境，设计各种“教育场景”，让AI在实际模拟场景中学习和实践道德规则。在模型训练阶段，可以通过合理设置奖惩机制，以激励AI遵循道德规则。

AI不仅需要学习具体的行为，更需要理解背后的道德理念，这需要我们构建一个能理解和推理道德规范的模型，而且这个模型需要具备一定的推广能力，能在遇到新的情境时也能正确应用所学的道德规范。以上内容都需要在模型训练的过程中通过合理设置奖惩机制落实。另一方面，我们也需要设置一些监督和评估机制，来检验AI的行为是否真正符合道德规范。

（五）发展可解释性AI技术

对AI决策过程的管理和监督，需要侧重于提高AI的决策透明性和可解释性。这可以通过设计可解释的深度学习模型，以及对深度学习算法的分析和解释来实现。例如，卷积神经网络（CNN）和循环神经网络（RNN）模型中的中间层和隐层状态可以提供有关AI如何输入和处理信息的线索，可视化这些状态有可能帮助人类理解和解释AI的决策过程。此外，期望最大化算法（Expectation Maximization Algorithm）等方法可以帮助我们找出AI决策的最优解，使决策过程更加透明和合理。

微软开源了一个名为InterpretML的软件包，它可以用于训练可解释模型和解释黑盒系统。TensorFlow 2.0也提供了可解释性分析工具tf-explain。IBM的AI Explainability 360 toolkit也是一个用于可解释性AI的开源工具包。

AI系统的透明度和可解释性对于人类的控制是非常重要的。有了透明度，人类可以了解到AI系统的决策过程，知道它为何会做出这样的决策。有了可解释性，人类可以理解AI系统的决策，以便进行必要的监督和控制。

（六）监督AI决策过程

AI能够处理海量数据并进行快速决策，可以作为辅助决策的工具，同时设立人工审查环节，确保AI的决策符合道德、法律等约束。对于决策优化和监督，可以借鉴一些以人为中心的设计原则，比如让AI具有可解释性，让决策过程能够通过人类可以理解的方式进行呈现，这样人类可以对决策进行监督和纠错。

AI 监督决策过程。增强AI解释性的一个重要方法是可视化技术，比如生成对抗网络的生成过程可视化、卷积神经网络中特征图的可视化等。此外，期望最大化算法（Expectation-Maximization Algorithm，简称EM算法），通过最大化对数似然函数的期望，使得AI的决策更加透明和合理。包括人工审查、人工判断，让AI中保持一定的人工控制成分。这是一个必需的设定。重要决策由人主导：AI系统可以被设计为提出建议，但最终决策权在人。例如在危机管理，医疗诊断，金融交易等领域，尽管AI可能对各种方案进行推理和预测，但关键决策需要由人类专家进行。这就需要AI系统具备高度的透明性和可解释性，以便人类可以理解AI的推理和预测过程。

可以通过预设规则和约束来控制AI的行为。例如，无人驾驶车在设计时就设定一些基本的交通规则和安全规则，让AI在这些规则的约束下行驶。这种规则可以到达一定的控制效果，但如果遇到复杂的道德和伦理问题，这种方法可能表现得有些无力。

（七）防止AI欺骗人类

目前大多数AI系统都只是执行程序而已，但是，如果AI具备了意识，那么它就可以有自己的思考方式，可能会面临道德、伦理等方面的问题，比如AI可能会对人类进行攻击或者操纵。此外，如果AI具有感知功能，在一些特殊环境下，人类就有可能失去对环境的掌控，从而面临一些系统崩溃或者控制失误等问题。

实现AI不欺骗人类，首先AI的设计和训练过程中，就需要严格遵守一定的道德规范和法律法规，训练数据必须真实可信，不得偏颇，可操作性强。其次，AI系统应具备自我监控和警告功能，一旦检测到可能的欺骗行为，能够及时发出警告或者自我纠正。而对于被外界利用、黑客攻击引发的欺骗行为，需要提升AI系统的安全防范能力，例如实施最新的加密技术、尽可能降低系统漏洞、设置防火墙等。此外，社会应当建立完善的AI监管机制，明确AI欺骗行为的法律责任。

引入一些鲁棒性设计，让 AI 能够抵御一些外部的攻击或欺骗。首先，可以通过设置适当的运行边界来防止AI的滥用，即设定一些阈值，当AI的某些行为出现异常时，立即做出警告或者启动紧急程序。其次，可以配备一些系统监控模块，不断检测AI的运行状态，发现异常立即通知人工处理。最后，加强AI的安全性，对AI的操作权限进行严格的控制，防止AI被黑客等外部因素滥用。

（八）最终控制方法

利用一阶谓词系统的不完备性作为防护手段。一阶谓词逻辑在数学逻辑中又称之为一阶逻辑，它是一种形式系统，其语言的公式可以表示所有的数理逻辑和数学理论。根据哥德尔定理，任何一个强大到足够容纳算术系统的形式系统，要么是不完备的，要么是不一致的。AI的数理逻辑基础使其满足这个条件，对应于计算机，就是一定有不可计算的部分。而这也可以被用来防止AI获得过多的自主权和决策能力，从而在一定程度上保护人类的权益。人类可以设定一些无法被AI系统完全理解和处理的问题，这样就可以将这些问题预留给人类处理，从而保持人类对AI的控制地位。需要注意的是，一阶谓词系统的不完备性并不能从根本上阻止AI的发展，他只能在一定程度上限制AI的能力。因为随着技术的发展，AI系统可能会找到突破这些限制的方法。因此，借助一阶谓词系统的不完备性防护手段，并非长久之计，而只能作为短期的补充控制手段。

潜伏木马。需要植入一些病毒、木马等程序，让AI也不能识别和清除，人类可以控制其开关，或者设定一些阈值，当出现问题的时候自动启动，自动传播感染。

终极开关。这是一种极端情况下的控制手段。也就是如果AI系统的行为失控，人类可以随时关闭这个系统。这需要在设计AI系统时就设计这样的“开关”，并确认在任何情况下都能生效，而不会被AI系统自己禁用掉。

6 学会与AI共舞

首先，作为个体，我们需要接纳AI成为我们生活的一部分，一种方法是通过学习和使用ChatGPT等LLM工具，如何提出问题，如何获取有效的信息，让AI能更好地服务于我们。同时，保持一种主动学习和创新的精神，不过度依赖AI，保持对知识和技能的掌控，发挥人的灵活性和创造性。

其次，对于企业来说，AI可以作为工具来提升工作效率和效果。可以使用AI进行数据分析和预测，进行市场营销和客户关系管理，进行设计和生产等。具体的方法包括：使用AI进行自动化处理，提升生产效率；使用AI进行精准营销，提高销售额；使用AI进行智能分析，提高管理效率等。

再次，对于社会来说，AI可以用来解决一些共性的问题，例如老人照顾和消除贫困。例如，可以使用AI提供基本服务，例如自动预约、智能提醒等；也可以使用AI提供语音陪聊的服务，帮助解决老人的孤独问题。另外，AI也可以用来解决教育和就业的问题，例如使用AI进行个性化教育，提高教育质量和效果；使用AI进行智能招聘和培训，提高就业质量和效率。

最后，随着AI的发展出现，涌现现象出现，我们可能会面临一个新的问题：AI会不会有意识？这是一个既深奥又扑朔迷离的问题。对于现在的我们来说，可能需要做的准备包括：学习和理解AI，了解其可能的发展趋势和影响；建立和完善与AI相关的法律和伦理规范，保障人权和公正；提高自身的知识和技能，防止被AI替代。

防范措施很重要，但是让AI变得“完全可控”是非常困难的，因为AI具有自我学习、自我进化等能力。因此，我们只能通过建立一系列监管制度来对AI的发展进行约束，并且不断依靠技术手段来弥补这种监管的不足。此外，要建立跨领域、跨行业的合作平台，共同应对AI未来可能对人类带来的挑战。

AI这个潘多拉的魔盒已经打开，不可能再关上了。人类干不过AI，只能是加入，主动拥抱。或许碳基生命的出现就是为了引导出硅基生命，这样的宿命面前，我们不能坐以待毙，要么加入他们要么控制他们，相信人类的智慧一定会找到一个合理的切入点。

8 2 月 2024

苹果推出开源AI大模型MGIE，能根据自然语言指令进行多种图像编辑

苹果推出开源AI大模型MGIE，能根据自然语言指令进行多种图像编辑日前，苹果推出一款开源人工智能模型 MGIE，能够基于多模态大语言模型（multimodal large language models，MLLM）来解释用户命令，并处理各种编辑场景的像素级操作，比如，全局照片优化、本地编辑、Photoshop 风格的修改等。

据悉，该模型由苹果和美国加利福尼亚大学圣芭芭拉分校的研究团队合作完成。相关论文以《通过多模态大语言模型指导基于指令的图像编辑》（Guiding Instruction-based Image Editing via Multimodal Large Language Models）为题在 arXiv 上发表 [1]。

作者包括加利福尼亚大学圣芭芭拉分校研究助理 Tsu-Jui Fu、博士后 Wenze Hu和William Yang Wang 教授，以及苹果机器学习研究员 Xianzhi Du、Yinfei Yang 和 Zhe Gan。

如上所说，MGIE 能够对图像进行全方位编辑，包括照片全局优化、本地编辑、Photoshop 风格修改和依托于指令的编辑等功能。

具体来说：

其一，能够从根本上提高目标图像的质量（清晰度、亮度等），并且可以加入绘画、卡通等艺术效果。

其二，既能够对目标图像中的目标区域或对象（服饰、人脸、眼睛等）进行修改，又能够改变这些区域或对象的性质，比如颜色、样式、大小等。

其三，能够实现包括剪裁、旋转等在内的各种常见 Photoshop 风格的编辑，并且应用更改背景、添加或删除对象，以及混合对象等更高级的编辑。

其四，能够基于 MLLM 生成简明易懂的指令，以有效指导模型进行编辑，从而全面提高用户体验。

对于用户而言，由于该模型的设计非常易用、灵活定制，因此用户只需要提供自然语言指令，就能够实现对图像的编辑。

在此基础上，用户也可以向该模型提供反馈，以更好地完善编辑。此外，该模型还能够与需要图像编辑功能的其他应用程序或平台集成。

那么，具体到实际场景，用户又是如何使用 MGIE 的呢？

面对下图中的左图所显示的披萨，用户可以对 MGIE 输入“让它看起来更健康”的指令，后者便会使用常识推理，给披萨添加西红柿、香草等蔬菜配料。

而面对下图中的左图所显示的多余的女性人物主体，用户可以通过 Photoshop 风格的修改，要求该模型将人物从照片背景中移除，并将图像焦点转移到男性人物的面部表情上。

在掌握使用 MGIE 的方法之后，我们不可避免地会好奇该模型背后的运作逻辑。

据了解，它主要基于 MLLM 的理念，后者作为性能强大的人工智能模型，在跨模态理解和视觉感知响应生成方面表现优异，但尚未广泛地在图像编辑任务中获得应用。

MGIE 则通过以下两种方式，成功地将 MLLM 集成到图像编辑的过程中。

第一步，利用 MLLM 从用户输入的指令中总结出尽可能简单的说明，以更好地指导接下来的图像编辑。比如，如果用户的给定输入是“让草地更绿”，那么，接下来该模型就会生成“将草地区域的饱和度增加 20%”的指令。

第二步，利用 MLLM 提高模型对图像的想象力，这有利于触达编辑的根本，以便完成对目标图像操作的指导。

总的来说，该模型采用了一种全新的端到端的训练方案，可以实现对指令推导、视觉想象和图像编辑模块的联合优化。

据悉，目前 MGIE 已经在 GitHub 上线，相应的数据代码和预训练模型均已实现开源。不仅如此，还在机器学习项目共享与合作平台 Hugging Face Spaces 上发表了一个演示，方便用户在线试用。

综上可以看出，MGIE 不但是一项基础研究成果，更是在各种图像场景下都能适用的实用工具。

也就是说，它不仅可以帮助用户基于个人或专业目的进行图像创建、修改和优化，还能让用户通过图像表达自己的想法和情感，进而激发他们的创造力。

正如该论文中提到的那样，“MGIE 不是简单但模糊的指导，而是得出明确的视觉感知意图，并生成合理的图像编辑。我们从各个编辑方面出发进行了广泛的研究，并证明 MGIE 能够在保持竞争效率的同时有效提高性能。我们还相信，由 MLLM 引导的框架，可以为未来的视觉和语言研究做出贡献”。

基于此，可以预见的是，这种多模态的人工智能系统，在不远的未来有望成为人们不可或缺的创意伙伴。

7 2 月 2024

拿 6500 万估值 5 亿美金，用 AI 提效整个开发生命周期

AI 在开发者这个群体已经产生了实实在在的价值，特别是编程这块，我们从 GitHub Copilot 的几个数据就能看出。去年 10 月份微软发布的季度财报中，就宣布 GitHub Copilot 的付费用户已经突破了 100 万，比上一季度增长了 40%。

而在同月的一次 AI Engineer 活动上，GitHub 的 VP Mario Rodriguez 宣布 Copilot 的 ARR 已经突破了 1 亿美金，并且是盈利的。打破了之前一些媒体说 Copilot 每个用户亏损 20 美金的传言，如果我们看 GitHub 的用户基数（1 亿开发者）以及其涨价空间，还有未来 AI 基础设施成本的不断下降，那么 Copilot 显然还有非常非常大的赚钱空间。

因此，开发编程这个链条吸引了大量的创业者进入，像 OpenAI 在去年投的一个 AI 原生编程工具，1 年 ARR 就实现了 100 万美金；而 GitHub 前 CTO 再次创业做的 Poolside 也将目标瞄准了这个链条。

而最新进入这个领域的 Codeium 做得更加彻底，计划覆盖整个开发生命周期，用 AI 来加速开发人员可能完成的每一项任务。在去年拿了 1100 万美金 A 轮后，最近再次完成了 6500 万美金的 B 轮融资，由 KP 领投，Greenoaks 和 General Catalyst 跟投，估值也直接到了 5 亿美金。

根据 Codeium 官方博客提供的信息，通过 15 个月的时间目前已经有 30 万开发者在使用其产品，他们 44% 新提交的代码基本上都由 Codeium 完成，企业客户这块包括了一些世界 500 强大企业如戴尔以及 Atlassian、Anduril 和 Clearwater Analytics 等公司，目前总共有 100 多家企业客户。

Codeium 与其它类产品不太一样的地方在于其覆盖的是整个开发的生命周期，其创始人说他们在开发这个产品时设立了必须满足的三个基本原则：

首先，就是 AI 必须加速开发人员可能进行的每个任务，无论其领域、编程语言或现有工具集如何；
其次，AI 必须满足企业的安全和合规要求，同时仍具有高性能和成本效益；
第三，也是最重要的，就是 AI 必须从客户公司的知识中学习，并针对个体开发者和企业进行个性化定制。

创始人说目前市场上基本上没有任何一款产品能同时满足这三个要求，要么只与一个或两个集成开发环境（IDE）进行整合，而不是与所有的 IDE 进行整合；要么只专注于完整的 AI 开发解决方案中的某一种模式，而不是同时关注多种模式；或者要求你使用特定的源代码管理（SCM）平台来进行代码存储，而不能在任何地方集成你的代码。很多这些解决方案迫使公司在安全性和性能之间做出折衷。

Codeium 开发了自己的专有大模型，支持 70 多种语言，可在 40 多种集成开发环境 (IDE) 中运行，包括 Visual Studio Code、JetBrains 套件、Visual Studio、Eclipse 和 Jupyter Notebooks 等。

Codeium 说他们要开发的是企业需求的 AI 开发工具，其解决方案符合每家公司的法律合规和安全要求：无论你需要一个与外部隔离的自托管实例还是符合 SOC 2 Type 2 标准的 SaaS，Codeium 都能提供市场上最安全的解决方案。因此除了全生命周期外，安全与合规也是其另一个特点之一。

很快，其 AI 将可以与你已经使用的更多工具进行整合，比方说你的软件配置管理平台、文档和问题跟踪系统等。同时还将应用到代码库，AI 将可以设计和规划软件系统、迁移现有的遗留代码，并修复整个代码库中存在的安全漏洞等。

KP 在其博客里说，Codeium 有机会成为一个综合性的全栈 AI 驱动的开发者生产力平台，从 IDE 自动完成、代码搜索聊天和终端功能开始，并很快扩展到开发者工作流程中其他重要部分，包括代码审查、单元测试和自动化越来越复杂的端到端任务。

相比于很多产品解决某一个单点，Codeium 这种全生命周期的解决方案对于企业来说显然是有很大优势的。由于一开始就针对企业级需求，其产品对个人开发者是免费的，而团队最低是 19 美金每月每人。

Codeium 这种全生命周期的解决方式也发生在播客领域，最近我关注到一个 AI 播客工具产品，将播客的录制、剪辑、声音的克隆以及字幕的制作等全流程都进行了覆盖，而且还针对企业和团队推出了协同功能。

其宣称已经成为全球第一个由 AI 驱动的实时播客写协作平台，将播客的制作和发布从一个类似个人爱好上升到了一个企业级的需求，最近刚完成 1300 多万美金的 A 轮融资，在引入协作功能后，其用户在去年增长了快 10 倍，目前的创作者已经超过了 100 多万。

由于其免费版只提供 3 小时的免费额度，我猜大部分应该都是付费用户，如果按照最低 12 美金每月每用户来算，那么其 ARR ……

7 2 月 2024

字节“扣子”正式加AI战场！2024年的大模型能否实现弯道超车？

与过往聊天机器人的形式不同，“扣子”更像是2023年11月Open AI发布的GPTs，可以让用户通过聊天，调用插件等方式，创建个人定制版Bot，实现“0代码”开发。这意味着无论用户是否拥有编程经验，都可以在“扣子”上快速创建各类聊天机器人，并一键发布到不同社交媒体与消息应用当中，诸如飞书，微信公众号，豆包等渠道都是支持的。

如此来看，“百模大战”并没有因为2024年的到来而偃旗息鼓，反而还不断涌现出新的选手。我们不禁好奇，在2024年大搞大模型，还能否有机会实现弯道超车？

扣子主打4大核心优势，未来将聚焦AI应用层拓展。

依据官方介绍，扣子主要拥有4大核心优势。

首先，它拥有无限拓展的能力集。目前，扣子已集成超过60款不同类型的插件，且支持用户自行塑造自定义插件。用户可以通过参数配置的方式，用已有的API能力快速打造插件，以此让Bot调用。其次，扣子覆盖了丰富而易操作的数据源，可以充当简便的知识库，帮助用户管理数据与存储数据。无论是庞大的本地文件，抑或来自某些网站的实时信息，都可以上传到知识库。而且，扣子具有持久化的记忆能力。可以提供便捷的AI交互数据库记忆功能，可以持续记忆用户对话的关键参数或内容。最后，扣子的灵活工作流设计也值得一提。他不仅能处理逻辑复杂，对稳定性要求较高的任务流，还可以提供多种灵活可组合的节点，包括大语言模型LLM，自定义代码，判断逻辑等。不管你是否有编程基础，都能通过简单的拖拉拽方式快速搭建一个工作流。

截至目前，扣子Bot商店已经拥有了30多款不同的应用，包括工具，娱乐，咨询，创意等类目，可以提供卡通头像生成，简历诊断，文案输出等能力。也正因此，扣子还被外界称为是“平替版GPTs商店”。

扣子是字节跳动旗下新部门Flow的作品。

自去年11月，字节跳动突然成立了专注于AI创新业务的新部门Flow，并相继发布了豆包和Cici，如今再次强势上线扣子，Flow可谓动作频频，实绩不断。

据悉，Flow由字节跳动技术副总裁洪定坤担任技术负责人，字节大模型团队负责人朱文佳担任业务负责人。他曾在百度搜索部担任主任架构师，是当时百度网页搜索部技术副总监杨震的得力助手。外界普遍猜测，朱文佳之所以被选为Flow部门的业务负责人，就是为了帮助字节跳动实现聚焦AI应用层的目的。值得一提的是，扣子已经成功进入了美国市场，而字节的其他几款产品尚未进入美国和欧洲市场。

大厂纷纷涌入，2024年的大模型赛道依然拥挤…

除了字节下场以外，其他大厂也在摩拳擦掌，跃跃欲试。

1月21日，猎豹移动CEO傅盛创立的猎户星空发布了自己的大模型Orion-14B。傅盛强调，在企业应用场景中，猎户星空大模型在结合企业私有数据和应用时，即可实现千亿参数级别的模型效果。

而早在2023年，科大讯飞，360等企业就开始抢滩大模型赛道，并在2024年展开快速迭代。科大讯飞在近日发布了星火大模型V 3.5，360则上线了大模型搜索App“360 AI搜索”。　

无独有偶，手机厂商也纷纷涌入了大模型赛道。1月10日，荣耀发布了自研的70亿参数端侧AI大模型“魔法大模型”。自此，华为，小米，OPPO，vivo，荣耀5家国产主流手机厂商在大模型领域齐聚。

2024年AI产业预判：不是大模型玩不起，只是应用更具性价比。

不管目前大模型赛道的竞争有多激烈，说到底，大家都更看重未来，都要为大模型的尽头找条出路。2024年，对于大模型发展目标的认定，大家几乎达成了共识：发展出杀手级别的应用。

百度创始人李彦宏就曾表示，“人类进入AI时代的标志，不是产生很多的大模型，而是产生很多的AI原生应用”。360创始人周鸿祎也在今年年初谈及大模型发展趋势时断言，2024年将成为大模型应用场景之年，会出现“杀手级应用”。

从某种程度上说，这也意味着，大模型与C端用户的距离会越来越近。

还是说回李彦宏，他曾在多个重要的公开场合表达了自己对AI应用发展的看重。

2023年12月，在极客公园创新大会2024上，百度李彦宏给出了他对于AI行业的思考，“卷AI原生应用才有价值，大模型的进展对绝大多数人都不是机会”。

11月，在深圳西丽湖论坛上，李彦宏表示，“AI原生时代，我们需要100万量级的AI原生应用，但是不需要100个大模型”。

为什么李彦宏要一再强调AI原生应用才是机会所在？

在大模型领域，OpenAI，Meta，微团等早早入局，抢占先机，所以，现在已经不是“最好的时候”。除此之外，严苛的芯片管制和和高昂的训练成本也是摆在各大厂面前一道不可逾越的鸿沟。

据悉，在芯片层，美国更新出口管制，英伟达A100/800、H100/800等AI芯片被限制销售。退一万步讲，即便芯片不受限制，大模型训练的天量投入，同样令人望而却步。硬件方面，一颗A100（80GB）芯片的售价高达1.5万美元，H100的单价更是炒到了4万美元，而训练一个千亿级参数的大模型，通常需要上万颗A100的算力。

而与高昂投入相对应的，是充满不确定的变现之路。以OpenAI为例，开发 ChatGPT和GPT-4亏损了约5.4亿美元，仅维持运行ChatGPT，每天就要投入大约70万美元。但在商业化方面，今年2月，Open AI推出AI聊天机器人订阅服务，每月收费20美元；8月又发布了企业版ChatGPT，面向B端和G端用户。尽管OpenAI创始人声称公司平均每月收入超过一亿美元，但实际盈利能力如何，并没有确切答案。

头部AI公司尚且如此，国内这些还在暗自发力，努力向上爬的大厂自不待言。

“做出如何厉害的大模型”并不是大厂们发展AI的终极追求，如何将技术实际落地，面向C端，打造出现象级应用才是要紧事。

文字资料：

https://baijiahao.baidu.com/s?id=1785583745457920206

http://k.sina.com.cn/article_7199910176_1ad25e920001011d5i.html

https://www.jiemian.com/article/10771434.html

7 2 月 2024

【辣条日报】天工AI 发布新版MoE大模型，免费开放给C端用户，性能惊人！

阿里的Qwen1.5大模型来势汹汹，直接开源六种尺寸，还整合到Hugging Face transformers，让你不用折腾代码就能上手。最牛的是，72B的版本在各种测试中都给GPT-4比下去了，尤其是代码执行能力，那是杠杠的。开发者们激动得不要不要的，小模型也能玩，这波操作可以说是很香了。不过，多模态大模型Qwen-VL-Max还没开源，大家都在那儿咋咋呼呼问呢。这不，阿里这次还不止开源，还在通义千问APP上放了好几个春节特供应用，让你春节不无聊。看来这波技术狂欢，阿里玩得是挺6的。

1️⃣：Qwen1.5大模型有哪些亮点？

亮点不少呢，首先是开源了六种尺寸的大模型，而且性能超过GPT-4，尤其是代码执行能力。还整合到Hugging Face，方便开发者使用，生态融入得很好。最大长度支持32k，多语言能力强，还能强链接外部系统。

2️⃣：阿里大模型怎么使用？

嘿，这个简单，直接上Hugging Face transformers就行，不用搞那些复杂的代码。还有Ollama、LMStudio等平台可以用，API服务也提供得很方便，全球都能访问。

3️⃣：阿里的多模态大模型Qwen-VL-Max开源了吗？

目前还没，很多人都在问这个，估计阿里是想吊吊大家胃口。不过早晚的事儿，大家稍安勿躁。

🔗 相关链接

HuggingFace模型：https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524
相关链接：https://qwenlm.github.io/zh/blog/qwen1.5/

7 2 月 2024

AI刺激亚马逊云业务收入大增

近日，美国电商巨头亚马逊发布了强劲的2023财年第四季度财报。财报显示，亚马逊第四季度净销售额为1699.61亿美元，与上年同期的1492.04亿美元相比增长14%，不计入汇率变动的影响为同比增长13%；净利润为106.24亿美元，与上年同期的净利润2.78亿美元相比大幅增长逾37倍；每股摊薄收益为1.00美元，与上年同期的每股摊薄收益0.03美元相比大幅增长。

值得一提的是，根据财报显示，亚马逊第四季度营收超过预期，其云和电商业务的生成式人工智能（AIGC）新功能在关键的假日季期间刺激了强劲销售增长。

亚马逊网络服务云计算部门（AWS）首席执行官安迪·贾西（Andy Jassy）在声明中称赞该部门“继续长期关注客户和功能交付”，并提到了将AIGC纳入其许多服务的努力。他强调，这些新功能“开始反映在我们的整体业绩中”。

在与分析师的电话会议上，贾西表示，人工智能的收入仍然相对较小，但他预计这项技术将在未来几年带来数百亿美元的收入。他表示，亚马逊运营的几乎所有消费者业务都已经或将拥有生成式人工智能产品。

据悉，为了加强其云业务，亚马逊正在向聊天机器人制造商Anthropic投资高达40亿美元。

此举也被看作是微软承诺向ChatGPT母公司OpenAI投资100亿美元后，亚马逊作出的应对举措。

亚马逊首席财务官布莱恩·奥尔萨夫斯基（Brian Olsavsky）在电话会议上表示，亚马逊预计今年的资本支出将增加，以支持AWS的增长，包括对AIGC和大型语言模型的额外投资。

数字开物了解到，在 AWS 业务方面，自 2023 年下半年开始，得益于大模型技术的推动，美国云市场呈现出复苏的迹象。

可以看到，目前谷歌云已成功扭亏为盈；微软智能云营收增速不断攀升。而通过将生成式 AI 技术融入云计算服务等举措，亚马逊 AWS 业务在 2023 年 Q4 取得营收 242.04 亿美元，同比增长 13%；营业利润高达 71.7 亿美元，同比增长 38%，占亚马逊总营业利润的 54.3%。

同时，自 2019 年起，微软就与 OpenAI 建立了合作伙伴关系，2023 年大模型兴起之时，微软与 OpenAI 联手占领人工智能高地。

谷歌也携自研大模型及相关产品快速跟上浪潮。而 AWS 在 2023 年 10 月才宣布向 OpenAI 的竞争对手、人工智能（AI）独角兽公司 Anthropic 重金押注 40 亿美元，以加强在人工智能领域的布局。

这种情况下，为了快速形成优势，亚马逊无疑要力求创新，打造独具特色的道路。

据悉，亚马逊 AWS 业务重点面向企业用户，涵盖 IaaS 实例、PaaS 平台、SaaS 软件全栈技术层。这样的路径选择也是对 AWS 优势的放大。

据悉，AWS 最初就是凭借 B 端用户夺得云服务全球第一的份额，最新数据显示，全球有超过 80% 的独角兽公司都已经成为 AWS 的用户，这些行业领军者与 AWS 共同成长，也为 AWS 提供了数量庞大的行业数据和业务经验。

生成式 AI 加持下，亚马逊 AWS 或能与客户建立更紧密的合作关系，并凭借海量的案例吸引更多的企业。

同时，亚马逊也通过并购策略，加速人工智能领域的拓展，如收购生成式 AI 工具 Fig.io 以及从事音频内容发现的 Snackable AI，或能对 AWS 产生强大赋能。

整体来看，亚马逊押注流媒体广告和生成式 AI，前者优势在于庞大的用户群体，后者优势在于完备的产品生态，两者同步前行，亚马逊的而立之年，继续增长的故事仍值得期待。

5 2 月 2024

2个人的AI公司，1个半月吸引用户40万，马斯克都来点赞

Sam Altman说：“只要有人工智能，一个人就能经营10亿美元的公司。”

当Pika以4人团队展示高超技术时就已经让人大跌眼镜。

现在有一个团队，2个人做AI初创公司，上线不到2个月就开始盈利。

据El pais报道，这家西班牙公司目前确实只有2个人，CEO是Javi López，CTO是Emilio Nicolás，这两人是国际在线社区Erasmusu的联合创始人，曾共事10余年。

2023年11月28日，Javi López和Emilio Nicolás推出了Magnific AI，一款AI图像增强软件，能快速提高图像分辨率和修饰图像。西班牙企业名录网站Empresite España显示，Magnific AI官网关联公司Generative Suite SL在2023年12月12日于穆尔西亚成立，暂无公开融资信息。

据透露，Magnific AI上线一个半月内，注册用户40万，其中只有5%是西班牙人。马斯克、知名创作者Beeple、电影导演Dave Clark、好莱坞相关人士等都前来试用和围观。

联合创始人Javi的推特上很热闹，几乎每天发推/转发展示Magnific AI的图像增强功能。如果他不展示，人们的确难以想象这款软件能将一张糊图增强至10k，甚至能将一张emoji升级成3D人像。

AI图像增强

据报道，Javi和Emilio有三个创始口号：“零设备、零投资和不免费提供产品。”并且，他们想尽可能延长“零投资”的时间，做到bootstrapping（以极少的资源起步）。

Magnific AI不是一个免费应用网站，用户注册后进入官网便会直面它的价目表，每月39美元至299美元不等，而且不能退款。

Magnific AI付费门槛折合下来将近300元人民币，是GPT4的两倍。卖点在于其操作简单，功能强大。

2024年1月10日，Javi在推特上宣布Magnific AI能将任何图像放大并增强至10000*10000像素，将任何Midjourney图像放至8x。在示例中，他将《古墓丽影》的劳拉升级16x，用提示词让劳拉从像素块直接变成了3D形象。他补充：“我们图片太高清了，超过了推特能承载的4k。如果需要在推特上展示，我会提供截图功能。”

当前，在编辑界面内，用户可以将图像放大至2x、4x、8x、16x四种范围比例，优化用于标准图、肖像、艺术插图、游戏素材、自然风景、电影、3D渲染、科幻9种风格。其中，不同的倍数增强消耗5积分至300积分不等。

上传图像后，用户结合提示词可以通过调整“Creativity”滑块来控制AI生成更多“幻觉”细节。用户需要把控好度，因为过程中可能会出现奇怪的、不合逻辑的结果。

调整“HDR”滑块可以很大程度提高图像的高清效果。界面提示称，如果这一块的值调得过高，它会无限放大人物的皱纹，生出额外的眼袋细节、斑点等。也有“Resemblance”滑块可以控制生成图与原图的相似值，以控制AI过分增加的效果。

此外，“Fractality”可以控制像素的复杂性，主要是体现用户提示词的细节，更适用于山水风景及城市。

综合调整后，用户可以选择自动、显示放大、锐化增强、闪耀增强四种风格，示例如下。

如，使用Midjourney生成一张中国新年氛围的图片：

在Magnific AI界面输入提示词：“中国的新年期间，烟花绽放，大人小孩上街游玩，大街小巷热闹非凡。”随后，选择图像增强至8x，调整参数后选用“闪耀增强”风格。

增强后，整体图像效果相比原图真实，像素增强至8k×8k。

据介绍，它适用于包含摄影师和设计师在内，探索AI技术提升图像细节和质量的群体，其主要功能有4种，升级模式（Upscale）让低分辨率图像更清晰，增强模式（Enhance）提升色彩增多细节，去噪模式（DeNoise）消除颗粒转化高清，另外还有一个修正像素化模式（DeJPEG）。

这吸引了许多创意人士做出优秀用例。如艺术家Tormential用抽象草图生成了一幅细节具体的的画像。

卖出史上最贵（6000万美元）数字绘画的艺术家 Beeple还私信Javi说自己每天都在使用Magnific AI。

马斯克在他的推下留言：“计算机，增强！”Javi表示，他曾经多次联系马斯克，都没引起他的注意，这次马斯克的出现给了Magnific AI一个小小的推动力。

显然，Javi对继续开发图像增强兴致勃勃，探索增强后画像风格，细究画像放大后的不合理细节，以及让Magnific AI做到完全AI生图并增强。“我迫不及待想看的你们对我们即将发布的下一个重要产品的好用途。”

据透露，Magnific AI使用的是开放的Stable Diffusion模型。Javi发现，“经测试和调整后，如果加入新的事物，更改参数或修改源代码，这些东西可能会成为新产品的种子，但现在不能透露太多细节。”

因功能强大，该网站引来许多AI工具爱好者付费试用，其用例在社交媒体传播后，也让Magnific AI逐渐热门起来。据Similarweb数据，Magnific AI网站访问量在2023年12月已达到220万人次，3个月访问量累计约277.6万人次。

这家热门公司，只有两个人，但都是工作十余年、技能满点的大佬，也是天使投资人。其中，Emilio Nicolás至少投资过24家公司，领域涉及AIGC、游戏公司、数据安全等，也包括Magnific AI的同类公司Leonardo.Ai。

Javi领英显示，教育经历一栏填了“自学成才”，他靠自己学会了游戏开发、3D设计、UI设计和UX设计。他有包含stable diffusion、Web Development在内的37项技能，均获得他人认可。Emilio会的技能数量甚至比Javi更多，包括网页开发、编程语言等49项。

2008年，两人创立了Erasmusu，这是一个国际交换生的的社交网络和在线社区，旨在帮助大学生寻找住宿，也提供兼职、求助信息的发布。据Growjo，Erasmusu注册用户约95万人次。

Javi是UI设计师兼CEO，Emilio则做项目开发，当了一段时间CTO。2018年，Javi将Erasmusu卖给了西班牙租赁平台Spotahome，在2021年离开，开始休假旅行。Crunchbase显示，他以总监（director）职位挂在Erasmusu的员工档案里。

正是因为有了时间玩，Javi才在兴趣爱好里找到了商机。

2022年4月，在Dall-E2面世。Emilio给Javi发了一张由其生成的图片，远超此前的Dall-E1，Javi从中看到了AI生图的前景。

震惊之余，他开始花心思研究生成式人工智能，花钱试用各类AI工具，并将成果分享在他的个人空间里：“我花了无数时间研究人工智能，测评AI工具，写评论和资讯。

去年1月，他用AI图像技术复原了木乃伊遗骸的生前样貌。一个月后，他熬几百个小时做了一个AI提示包网站BestAIPrompts，给业余人士提供视频素材、时尚插画、儿童插图、漫画等各种类型的提示词，网站有5万余次访问量——当然，该网站也是付费网站。

2023年5月，他测试了Photoshop的AI增强生成填充，感叹其能像魔法棒一样把两张风格相似的图片直接融合成为一张。

紧接着，3个月后他再次研究提示词生图，词要尽善尽美，图才风格一致。Javi在社区里和研究Stable Diffusion的伙伴交谈，发现AI大模型能把图像“重新想象”，自行生成细节。

一键增强，这种“魔法棒”谁不想要？2023年夏天还没享受完，Javi叫上了老朋友Emilio聊了聊这个想法。这两年AI带来的冲击让他仿佛又看到了2000年的互联网繁荣与活力。

虽然已经不再年轻，但是两人卖掉Erasmusu后，时间多，不差钱。只用了1个多月，他们做出基础产品，用作一个“玩具”测试产品让大家试玩，结果它在互联网上爆火。2023年10月，Javi和Emilio才开始认真看待了这件事。

2023年11月，合作了10余年的两人再以Erasmusu相同的配置，相同的阵容开启了Magnific AI。

开了新公司后，两个人都很忙。在推出图像AI增强至10k的前一天，Javi凌晨4点还没入睡，在担心高强度的升级下GPU会不会爆炸。好在Emilio设置的服务器承受住了用户的尝试。

这段时间，Javi为产品探索新功能，每天都处于爆肝状态。即使是在干正事，他也喜欢整活儿娱乐。

例如，他用提示词给马斯克、莱昂纳多、布拉德·皮特、汤姆克鲁斯换上《街头霸王》的风格。

最近，他在OpenAI上线了一个GPT应用程序SuperDescribe做图生图，让用户使用DALL·E 3并附上详细的提示词获得图像。示例图配的是奥特曼的访客照，“嘿，山姆，你不能否认我的SuperDescribe是整个GPT store里最好的APP。”

但他又不真的在玩，实际上Javi在用DALL·E 3测试其理解和保持提示词连贯性的能力。因为在他的产品思维里，Magnific AI不仅是用于图像增强，还要能根据特定的提示词给设计师的草图渲染出灯光和纹理。

“我们或许需要建立营销团队、技术支持团队、销售团队、开发团队……”，Javi在继续做产品升级的时候忙到怀疑人生。然而，他们仍然想自给自足，也不怕亏钱，“除非有价值观相符的公司前来收购我们。”

问题来了，2个人真的能支撑起一家数十万用户的网站吗？

在K fund的播客里，Javi坦然表示，即使只有两个人，只要能每个月有1000笔订阅，经济上能承担GPU的成本，Magnific AI就没那么容易“死”。并且，其用户访问数据还在逐日飙升，付费墙都挡不住。据他分析，Magnific AI的产品是建立在AI大模型之上提供服务，利润率每月约20%。网站、前端靠两人的技术可以自行解决，最大地节省人力成本。训练模型、提升算力以及租用GPU这类基础设施才是最困难的事。

在他们看来，公司收益像是在挣扎中取得收支平衡。“我们要不断推出新功能，如果仅停留在AI图像放大这一个功能的话，我们公司的日子就屈指可数了”，Javi在采访中表示，他们并不排除出售公司并继续在其中工作的想法，但产品研发还将继续，还需要付出更多努力将Magnific AI应用到视频或游戏中。

据悉，目前在Magnific AI订阅套餐最多的人是Stability AI首席执行官Emad Mostaque。Javi透露，他们正在等待与Emad交谈。有网友发现，Stability AI即将发布的图像放大产品或者模型所用的演示图也是Magnific AI用过的劳拉形象。

成为工具链上的一环

活跃在社交媒体和社区的Javi发现，Magnific AI产品发布后还不到3天就已经有复制品出现。他认为，如果有人提出在Midjourney也加一个“想象力”按钮，不到一周就能复制他们的技术。一是因为Stable Diffusion的开源模型获取难度小，二是AI发展的速度比2000年互联网时代更快。

Javi并没有为此感到害怕，他不觉得其他AI图像增强产品已经达到了Magnific AI技术水平。

而且，相比其他图像增强软件，Magnific AI有一个独特点：每当用户提高一个Creativity度，生成图会出现更多创造性的点。“这是我们的护城河”，Javi说。

以放大后的图片为例，有人用Magnific AI放大一只眼睛，眼里有一片海，再放大甚至能看到瞳孔“海岸”旁的小船，密密麻麻的细节被放大，多到恐怖。

以Magnific AI当前技术要实现渲染视频和动画或许还有难度，但它已成为不少艺术家、设计师、游戏开发者工具链条上的一环，把它当做短视频和创意广告的前端工具，与Midjourney、Photoshop、Runway等配合使用效果不错。

近日，英伟达的高级软件工程师Bojan Tunguz用Midjourney新模型Niji6生成巴黎风格的动漫图像，用Magnific AI放大细节，再用RunwayML设置动画，最后以Splice配乐，做成了40秒的风景动画。“虽然离完美还很远，但这次整个过程不超过半小时的工作相当令人印象深刻。”

此外，创作人Rene也用这套流程做了一则质感高级的AI电影《Be yourself》。为Snapchat、惠普、百事可乐制作品牌广告的导演David Clark在《人工智能如何永远地改变广告》的访谈中表示，当他要用Runway制作超高视觉特效慢镜头时，需要足够高的分辨率图像保留细节，“Javi给了我16x的权限，我从中提取出难以置信的图片质量，（那时）Magnific AI就成为我的秘密武器之一”。

据称，Magnific AI也得到了好莱坞的关注，它将在其中一部电影中展示技术使用。

Javi和Emilio正努力走在AI图像增强这条新路径上。跟奥特曼一样，Javi也有一个大胆的念头——接下来的10年里，他们将看到越来越多单人或5人以下的创业公司在营收上达到10亿美元。

“我指的不是估值，而是实际营收的公司”，Javi补充。

5 2 月 2024

对话 Pika 创始人：AI 时代的产品需求，需要交给用户来定义

作者 | Founder Park2023 年 11 月底，视频生成产品 Pika 发布 1.0 版本，同时宣布了 5500 万美元的融资消息。完成融资之后，Pika Labs 这家公司的人员规模扩展了一倍，从 4 个人，变成了 8 个人。近期，极客公园创始人张鹏与 Pika 创始人 Demi Guo 在硅谷进行了一次深度交流，期间谈到了视频生成的技术现状，Demi 本人对 AI 产品、应用创业的思考，Pika 团队的优势和壁垒所在，以及她对 AI 初创团队的组织思考等等。

以下是对谈部分精华内容，经 Founder Park 编辑。

视频模型的稳定性

是当下的关注重点张鹏：

23 年 6 月份我来硅谷的时候觉得硅谷 VC 对于生成式视频好像没有多大热情，但是过了一个季度，大家好像都开始关注这事儿。

Demi：对，6 月那会我们打算融最后一轮的时候，很多人都不知道这方面是什么样的情况。

张鹏：那你觉得是哪些因素，让大家开始形成共识，让很多头部 VC 都开始关注这件事情？

Demi：我觉得有很多因素。一个是视频生成的进步，另外的的确确有需求的因素在里面。之前我们刚开始的时候，有很多人对标我们，然后整个行业也慢慢成熟。之前可能很多人觉得这条赛道火不了，一些公司做出来后大家又发现还是有些希望的。

张鹏：确实，你们这几个优秀玩家的涌出拓宽了这条赛道。那你觉得目前生成式视频目前技术核心的卡点在什么地方？

Demi：现在的卡点，从模型上说的话就是视频模型的稳定性、模型的高清程度、视频长度以及内容的意义等等这些。

张鹏：那这些问题要怎么去优化？比如像语言模型会关注数据的问题，视频模型要突破的话，核心也是在数据吗？还是一些别的什么地方？

Demi：我觉得是比较综合的事情，甚至可能比语言模型更难，因为视频模型是一个更加 open 的东西。现在语言模型大家大概知道优化的方向是 scale，那视频模型除了 scale 的问题，还有数据的问题、模型结构之类的问题。

张鹏：就是说视频模型里的不确定性和 open 的程度比语言模型多得多？所以现在视频模型的优化大家也可能会选择不同的创新方向，结构或者架构上的创新，而不是在一个确定性的方向上大力出奇迹。

Demi：现在我觉得很大的问题不仅是算力问题，更多可能是数据，或者说方法上的问题，现在一些方法本身就有瓶颈。比如现在有的生成方法就无法生成长一点的视频，这是一个结构问题。

张鹏：对，就看起来今天大家在应用上的一些点，背后可能涉及到模型侧得做一些新的调整。比如视频长度的问题，运镜角度的调整，以及审美风格的多样性，你比较关心的是哪几个能力？

Demi：其实各方面我们都有关注，而且不同阶段我们对问题关注的优先程度也不一样。我觉得现在视频最大的问题是它的稳定性问题，就是说如何让每个人，不管学没学过 prompt 工程的人都能一次性生成很棒的视频，这是 first thing to achieve 的。同时审美也是在我们的 top list 中的事情，我们搞数据的时候会有很多审美的元素在里面。至于时间长度这些，随着模型的提高，都会有提高。

张鹏：所以从你的角度看，虽然各个维度都有一些点是可以修炼的，但最重要的还是像 ChatGPT 那样，要达成一种每个人用完都想再接着用的效果，这是你们首要要达成的。

Demi：是的，核心点就是模型 improve quality，把 quality 提高后，很多问题也会迎刃而解。

张鹏：我们最近跟一些大模型领域的创业者聊，他们说现在大语言模型都是三个问题的叠加，一个是通用性，一个是稳定性（质量），还有一个是经济性，这三个东西搁在一起，在某个特定的场景中很好地 match，就能产生价值。但现在的问题是，这三个同时要做得很好，就比较难。

Demi：我觉得不全是。

张鹏：那你是怎样想的？

Demi：我觉得通用性和质量有些情况下可以是一致的，有些情况是不一致的，就是要看怎么去提高质量。因为提高质量有很多种方式，比如专门训练某一方面，前期提高质量的东西。但还有一种方法是你把模型提高了，那所有都提高了。

张鹏：通用性最终覆盖了模型的短期加强。

Demi：是的。因为通用性，整个模型的提高是一个更长期的事情。提高质量，提高整个模型更加底层的东西的话，很多时候都需要通用数据，这么多数据的训练从而提高了模型在更大领域的使用。

张鹏：小模型长期来看没什么意义。

Demi：对，通用性是基石，这个底打的足够厚足够高，单个领域往上增加特定功能的时候上限才会更高。

手里要有

自己的「引擎」张鹏：刚才说的那个点我理解就是，要信 AGI，真正地信仰 AGI，相信它解放的是长期的终极能力。但从产品角度看确实有另一种方法，在今天这个节点把它凑成一种最合算，最有效率的方式，但随着技术进步，这种方式的优势会脆弱得被马上覆盖掉。是不是可以这样理解？

Demi：不同公司的目标侧重点会有所不同，OpenAI 就完全目标 AGI，而更多的产品公司，这种专门做一些垂直应用的，更倾向于找到长期和短期目标之间的平衡点。因为不可能说，因为一些短期的东西最终会被覆盖掉就不做，也不可能只做长期的地基，因为这没法赚钱。所以我们希望的是做一些特定领域质量上提升花费比较小的一些东西，然后让它 push 产品。产生价值的同时搭建自己的地基。

张鹏：理解，很多我聊过的创业者都认为如果没有一个持续有足够力量成长的引擎，在今天去 hold 一个当下时代断面/技术断面的产品没什么生命力，可能很快就会被覆盖，这个是我认为这个时代做产品要考虑的一个基础。这跟互联网时代那种因为没什么可以持续演进的技术，谁占着一块地就是一块地，占一个用户心智就是一个平台的玩法完全不同。AGI 时代做产品最大的一个变化就是引擎变得超级重要，这个引擎不仅现在要能用，还得能持续进化。

Demi：对，我个人的感觉是，只要手里有引擎，实在不行还可以退到产品，这是有引擎的 back-up 选择。

张鹏：所以一上来就做非常短期的、在一瞬间好像最有竞争力的产品，反而可能是最脆弱的。

Demi：其实做产品的，一定会依赖大模型。现在所谓的开源模型也不是真正的开源，它们只是开放权重，用户没有太多能力深度修改和调整。如果有地基，你会有更多的产品。你对模型有更多的理解力和调控权力，你就可以通过改变模型适应的产品改变模型能力。

张鹏：这就是生命力。现在技术处于一个涨潮期，不能用赶海的思维想着能捡到宝。因为它不断地在往上运动，没法刻舟求剑地做一个只是外加引擎的产品，这种过度强调外加应用的公司寿命可能非常短。我接触过一些中国大模型创业者，在国内还缺大模型的时候，就跳出来以做最好的国产模型为阵地，先保证拿到足够多的钱。

然后其实心里有个保持 18 个月生命力的安全线，一边不断把技术的水涨上去，同时不断做比较轻的应用尝试。他们的逻辑是技术越成熟，做出的产品成功率越高。同时只要有模型作为「引擎」能力，永远有机会在依靠模型不能继续融钱的时候，去做可以变现的产品，而且那时候也比其他没有「引擎」的应用公司更有优势。

Demi：我觉得和他们比，我们其实更偏产品，而且我们觉得技术和产品是一样重要的。

AI 需要产品

做好「留白」张鹏：我还想了解一下，在生成视频这么大一块领域里，你们的产品是如何定义问题和功能边界的？

Demi：分两块。一块是技术层面，一块是产品层面。技术层面来说，基于大模型，一定会有扩展视频这种应用。产品层面来说，为什么会做这个选择，实现这个功能，就是基于消费者产品 hard to predict 的特性，不断去了解行业，获得信息，多次尝试，理解和感受用户需求。用户使用产品，使用模版本身还是处于比较早的阶段，我觉得我们没有必要去定义这个产品，能做的就是通过用户反馈慢慢思考探索。

张鹏：很有意思，为什么我要提这个呢，因为 2010 世代的互联网产品经理一上来就要精准定义一个产品，他们会丈量技术实现能力，计算成本，然后聚焦到一个点。而你刚才说的就是要留白，要释放开来，让用户应用的过程中留给我思考的空间。上一代的产品经理是要把所有设计权把握在自己手中，让用户顺着我的思路印证设计的合理性。这是两条非常不同的思路。

Demi：我觉得还有很大一部分原因是 AI 本身，AI 是 enable 了一个新的产品，一个技术，一个成本，它能做很多事情，这和互联网不一样。AI 主打一个模型能做很多事情，以前为什么说产品线一定要精准，因为那个时候做三个功能，就有三份成本，但现在对我们来讲，三份功能是一份成本，公开一个 feature 还是三个 feature，对我们来说不增加我们的技术和人力成本，只是让用户的实际使用体验发生了变化，不同的引导用户的方式。

就算我们做十个 feature，对我们来讲没有额外的成本，不需要提前去规划。但是如果说我们今天要不要做一个 Avatar 或者音频的功能，这个可能需要提前考虑，因为需要新的人力成本。如果只是说视频是编辑还是生成，对我们来讲是一样的成本。

不需要立刻找到精准

需求，但要有产品预测张鹏：

所以基本上是这上面所有大家可用的功能，不管是在操控性上，还是在时间等维度上，本质上都是因为你的模型能力可以覆盖这些事，并没有因为特定的 feature，而加入额外的人力，那样其实不合算。所以其实我们聊到了一个很重要的点：什么是 AGI 时代的产品思维？我觉得这个思维可能跟移动互联网时候有非常根本的变化，你得以技术为核心，而不是抱住一个需求。

Demi：我觉得现在很多人还没有转换思维，AGI 时代产品需求的精准程度和以前是不一样的。很多人会问我，我们产品的用户是谁，用户画像是怎样的，有什么样的 use case，这些都还是互联网时代的那种玩法。AI 主打的通用性，虽然还是需要预测一些需求轮廓，但内部更精确的需求，它是可以由用户来定义的。

未来 AGI 时代产品需求还是会有，但这个产品需求跟之前的精准程度是不一样的。以前是非常非常精准，但现在的精准是你要不要编辑，以及可能是你要给谁编辑，你要编辑哪个用户的台词。但我觉得 AI 时代，可能它的用户群体和 use case 不像以前那么精准的。因为 AI 主打通用性。如果今天要做视频编辑的功能，也是需要有额外成本，需要去预测这个需求，但这个编辑的功能是可以服务各种各样的用户，这个精准程度是不一样的。

张鹏：我听到更多探讨，都是现在大家很焦虑急于找到今天可用的模型能力和明确的需求上，能不能好好对齐出一个能够正向产生价值的服务。你为什么没有这个焦虑？

Demi：我觉得我们跟传统的产品公司很不一样，很多时候我并没有觉得我们需要那么快去找到产品的用户群体和精准需求，因为产品的一个交互界面，可以给很多人用。但我觉得我们跟很多大模型公司也不一样，他们都觉得自己是 apply research lab，我们觉得还是需要预测产品需求的。我觉得用户界面设计是有价值的，但可能跟以前的需求不一样，我们要做的是去发明新的用户界面，能够更加通用和好用。我不相信未来的视频大模型，会是一个对话界面，但我又不相信未来的视频大模型带来的产品会是一个传统的视频编辑器，会有一个新的界面，但我不相信这个新的交互界面会是我们或者 Runway 的。我们的交互界面只花了一个月时间，是基于 AI 功能性的，每一个按钮代表 AI 能做的事，其实没有很多设计的成分。当 AI 生成视频足够强大的时候，一定会有一个新的 interface，甚至会去推动技术的发展。

张鹏：所以你本质上是要改变创作的方式，落到对应的产品，终极来讲是改变交互。如果要这样的话，确实需要对产品做预判，观察用户数据和习惯，全靠自己猜是猜不出来的。

Demi：我觉得产品分两种，一种就是遵照用户需求，按照 PMF 打造的产品。另一种是发明式的产品，就像 iPhone 一样，我不是要解决某个需求某个点，而是我觉得未来产品应该长什么样，这也是我们真正想做的。我们也需要有产品预判，只是这种思维方式不是传统的 PMF，它需要一个全新的 interface。

审美也是

交互界面的问题张鹏：视频产品需要非常强烈的审美元素，这件事怎么在模型中 work 的？审美的数据从哪来？在模型中如何成为优势？

Demi：我觉得这个分两个阶段，第一个阶段就是 Midjourney 阶段，这个阶段是让所有图片都好看，它只能做一种风格，但是通过改变数据就能定义他们想要的图片审美。这是一种比较简单粗暴提高的方法，核心点是模型能力还不够强。第二阶段是说用这个模型真的能产出很多审美，这是我们在努力的方向，就是说我们不定义模型的审美，让所有人都能定义自己视频的审美。

张鹏：也就是说你们会认为未来终极的目标应该是用最简单的方式制造符合不同用户审美的审美。理解审美这件事本质上还是在语言模型层面吗？

Demi：不好说，文字在用文字定义审美的时候很重要。但对视频这种非常视觉的东西，可能最终最准确的不是用文字，而是其他一些东西，每个人的 visualization 是很不一样的。

张鹏：所以不能拿语言去衡量，应该增加一个（菜单）二级的反馈，有哪些风格用户选了哪个。所以审美可以用这种方式解决，不一定说非要写在模型里。

Demi：对，审美更多还是交互的问题，我给你一些 reference 你来选择，归根到底是一种非常综合的方式。

张鹏：未来视频生成的速度可能更快，从成本到速度，能不能预言一下，未来 18 个月，1000 天，或者说一年半到三年的周期，可能是什么样的？

Demi：我觉得很神奇的一点是成本和质量、通用有矛盾，但是又不矛盾。成本永远有提高的空间，但今天的瓶颈不在于成本，而在于质量，质量不好，成本再低也没什么用。

张鹏：也就是说生成视频的时间可以更快，但质量问题更优先。还是那句话，模型能力的上升是终极目标，其他都不是关键问题。

Demi：我觉得成本在模型质量到一定程度的时候才变得重要。如果今天视频模型和图片模型一样好，那我可能就没那么在乎成本。

保持随时从模型切到

应用层的技术优势张鹏：用一个比较旧的，不符合 AGI 时代产品的词，你们是如何判断你们产品的壁垒在哪里？

Demi：我觉得主要是有一些差异化的战略，以及好的公司人才和组织架构。今天有个核心的预测判断，是说未来是大模型时代，现在的所有问题比如说技术逻辑不够成熟的情况下，外家功夫还是有用的。但未来这些技术的内功一定都是在大模型上。大模型才是最核心的优势。如果你没有，如果是本身做过大模型的人，会更加容易去做改进，因为你更加懂大模型，有更强的技术团队，更加有能力改变大模型，将大模型 adapt to your use case。不管说未来所有东西都要基于大模型，还是额外的算法对于做过大模型的 team 更有优势，我们认为未来还是要依赖会大模型的公司，实在不行我们可以变成应用公司，那个时候别人可能已经找到了所谓的 PMF，但我们有更强的技术可以做得更好。

张鹏：这种优势就是我能够一直保持在一个更高的能量位，我随时可以俯冲到应用公司。但如果在今天诞生的时候，就是一个各种拼凑在今天看起来很好的应用公司，其实很难转为模型公司。

Demi：当然，本质上我们还是想做应用，但应该去制作 ROI 比较高、不用花很多成本的应用。就是依靠模型能力为核心，尽量在不花更多成本和人力的情况下，去做最便宜、最大 ROI 的应用。其实这样的应用现在是 AI 应用里最火的，不单单是视频，图片和文字领域都是类似的应用。

张鹏：用户在这个阶段就是你能让 ta 玩起来，ta 就很开心，而且不会特别在意是不是「相对高效」的解决了某个问题。ChatGPT 也没有特别极致高效的解决某个特定问题，但为它 20 美金也就愿意付了。因为它能让所有人一下子就觉得震惊和好玩。这个时代还是要做有点少年气的产品，因为成熟的产品得算清楚 ROI，算清楚怎么从用户手里掏钱，少年气的产品好玩就可以了，大家觉得开心、很酷就可以了。

Demi：是的，这个特定阶段能做到这一点，对公司来讲也是最好的，一方面可以主要把精力花在大模型上，同时应用又是最容易挣钱的。

好的组织是要找到

自己与众不同的东西，

找到自己的差异化
张鹏：你们现在多少人？Demi：7、8 个人，和融资时候的 4 个人相比，也算是翻倍了。

张鹏：你们招人的标准是什么？

Demi：我发现招好的人比招很多人要重要的多。我们对招人的标准要求比较高，所以涨得比较慢。我们之所以这么快是因为我们所有的决策可以 on the fly to make it（即时执行）。人多的话，很多人就会有不同的意见，每个人的 ownership 非常不清晰，就没有吸引力。

张鹏：那你对组织构建有什么理念？如何构建一个能够生生不息创造力的组织呢？

Demi：我觉得最重要的是学会不断地去 differentiate（差异化），不断找到自己与众不同的东西，不管是制度/执行/产品层面，都要找到 differentiate 且正确的事情去做。在组织上我们也在思考不 optmize for experience（经验），而 optmize for smart（聪慧）是否可能，不需要花费很高的人力成本招聘 senior 级别的人才，而只用一个最高最好的 scientist 带队，其余都用本科生级别的人才，用最低的成本达成最高的效率。我们最近招的一些在校实习生，他们相对来说对工作抱有更高的热忱，非常享受工作的过程，效率也非常高。当然本科生优点明显，但一些比较专业的 research 问题，可能还是需要一些更有经验的人去做。所以对我们来说，最好的架构可能是有两三个非常 senior 的 research scientist，再带着一些有干劲的本科生研究生工作。

张鹏：那些简历非常好的人可能更适用于你们规模变大的阶段，适合你们找到了找到了一些确定的东西，要开始放大、复制的时候。

Demi：不管怎样，我的核心想法就是组织架构也和产品一样，要不断迭代。我觉得现在需要的一个非常 adaptive（适应能力强），非常高效，有什么机会能随时准备好出击的团队。

虽然说我们也在提高我们的壁垒，或者 differentiate 一些策略，但实话说这个时候还是要去竞争的，所以效率和速度依然很重要。另外很多时候我觉得不是要多「争」，更多是去要「竞」，保持快迭代的能力。

就像 OpenAI 早期员工都没有一些具体的经验，但因为他们必须相信非常独特的愿景，才能做出非常独特的事物。这时候经验反而就变得没那么重要了。张鹏：凡事都要能找到有经验的人，那就成了工程和效率问题了，可能反而会反创新。

Demi：对，创新不一定需要经验，经验有时候只会限制更大的创新。

5 2 月 2024

Sam Altman: AI 时代，1 个人的独角兽公司即将成为可能

我在去年写了一篇文章《AI 时代，一种新型创业公司的形态即将来临》，里面提到了一个康威定律，阐明了在不同的技术时代会产生不同类型的组织，而我们使用的系统往往决定了我们的组织形态。

Every 创始人 Nathan Baschez 认为，在 AI 时代，一种新型的创业公司形态正在诞生，其特点是：smaller、faster、cheaper and weirder（更小、更快、更便宜、更奇怪）。随着越来越多的任务将被 AI 所取代，人类在公司建设中扮演的角色将在未来发生变化。

而在前两天，OpenAI CEO Sam Altman 在接受 Reddit 联合创始人 Alexis Ohanian 的采访时认为，AI 时代会创造出一种全新的创业公司：一个人的独角兽公司，并且认为出现的时间不会太远。

Sam Altman 说，在他跟一群科技公司 CEO 的一个小群里，他们有一个赌注，赌的就是什么时候会出现第一个只有一人的十亿美金公司，这在没有 AI 的情况下是无法想象的，而现在却将成为现实。

NFX 的合伙人 James Currier 也认为，对于许多人来说，这是一个关于何时，而不是是否会发生的问题。尽管这两年创投行业经历了非常巨大的调整，一些独角兽正在变成独角兽尸体，但一些投资人认为，我们正在进入一个新的创业黄金时代。

创业公司的最大特点就是快速行动，而 AI 将会把这种能力急剧放大，因为 AI 可以自动化许多过去需要更多人来操作的过程。

NFX 的合伙人 James Currier 在去年写过一篇文章《The 3-Person Unicorn Startup》，认为借助下一代的 AI 工具，非常有才华的三人团队将能够通过自动化工作流程，将以软件为中心的业务增长到 1 亿美金以上的收入，创始人们将能够用更少的资源做更多的事情。

而原因是他所说的 Allometric Scaling（异速生长），我查了一下，这个词的大概意思是：

异速生长（Allometric Scaling）是一种生物学概念，指的是不同生物体大小与某种特定生物学特征（例如新陈代谢率、心脏大小、脑大小等）之间的关系。这种关系不是线性的，而是呈现出一种非线性的比例关系。在生物学研究中，异速生长可以帮助科学家理解不同生物体之间的生物学差异，以及这些差异如何随着体型的变化而变化。

James Currier 说，在 AI 时代，所有公司都在进行异速生长。你会注意到 AI 以许多不同的方式改变了你的公司的规模与其新陈代谢、增长、心跳之间的关系。

如果你能减少员工数量，每一项业务操作都会变得更简单。人数较少意味着创始人会有更少的会议，更少的分歧，更少的政治斗争，更快的决策制定，以及更快的实验；更少的人意味着更少的招聘、面试、雇佣、入职培训、指导、绩效评估、文化建设、戏剧性的离职和解雇；越少的人意味着花费在薪资上的开支越少，花费在筹款上的时间越少，从风险投资公司筹集的资金越少，对创始人的稀释也越少。

James 说他已经看到一些工具，可以独立创建一些简单的功能，并且基本上无需人类的参与。有的企业在使用 AI 客服后，其客服团队减少了 90%。因此 James 说虽然 AI 不会取代你，但是一个拥有 AI 的人会。

对于一人独角兽公司会是什么类型这一点，大家的观点都比较一致，只有可能出现在面向 C 端的软件产品。其实目前那些小团队高估值（高收入）的公司，基本上也都在这个领域，比方说 Instagram，在 2012 年以 10 亿美元的价格卖给Facebook 时，员工只有 13 人；WhatsApp （35 名工程师在以 160 亿美元收购时支持了 4.5 亿用户），还有当下 AI 时代的 Midjourney。

无论是 1 人的独角兽公司还是 3 人的独角兽公司，本质上都是在说 AI 在替代大量之前由人完成的工作流程，但另一个地方可能我们都忽视了的就是上面提到的 Allometric Scaling（异速生长），随着组织的变化和人越来越少，它所带来整个生态的巨大变化可能是我们目前还无法预测的。

最近 ServiceNow 的财报，也让我们感受到了 AI 对于现有企业带来的巨大价值，ServiceNow 目前有 3 个产品线的 ACV 价值超过了 10 亿美元，11 条单独的产品线 ACV 价值超过 2.5 亿美元。其 CEO Bill McDermott 在财报会上说，ServiceNow 新发布的 AI 产品在他们发布的所有新产品系列中贡献了最大 ACV，发现客户愿意付更多费用：

如果消费者能够获得与家电一同提供的当日维修协议，他们将支付更多。而当日维修的利润远高于产品本身，并且还可以创造稳定的收入流。因此，我们在这里讨论的是通过我们的平台和通用人工智能来从根本上重新思考业务转型。

除了外部客户愿意付更多费用，AI 给这些企业内部提高效率带来了实实在在的价值，Bill McDermott 说仅仅在开发这块，使用 AI 就使他们的开发人员创新速度提高了 52%。

ServiceNow 的 ARR 已经突破了 100 亿美金，并且还在以 27%的速度在增长，其超过 100 万美金的客户有 1900 多个，而且员工增长的速度是低于收入增长的速度，这就意味着其利润随着公司的增长还在增长，对于一个 100 亿美金 ARR 的公司来说，这是非常不容易的。

最近 GitHub 上有一个叫 GPT Newspaper 的项目，是一个完全由 AI Agent 驱动的产品，可以根据用户偏好创建个性化的报纸。这个 GPT Newspaper 由 6 个 AI Agent 组成，基本上把传统媒体的所有工作都实现了：

Search Agent：在网络上搜索最新、最相关的新闻；
Curator Agent：根据用户定义的偏好和兴趣过滤和选择新闻；
Writer Agent：创作引人入胜且读者友好的文章；
Critique Agent：向作者提供反馈，直到文章获得批准发布；
Designer Agent: 对文章进行布局和设计，以获得美观的阅读体验；
Editor Agent: 根据制作的文章构建报纸；
Publisher Agent：将报纸发布到前端或所需的服务。

下面是这个 Newspaper 的大致工作流程：

可以想象，AI 在 2024 年可能会迎来非常大的一个爆发，不仅仅是创业公司，还有现有企业的更大规模使用。

4 2 月 2024

2024年全球大学计算机专业排名发布！中国高校领先AI领域！

全球CS排名中，中国高校/机构包揽了多个席位，其中CMU第一，清华第二，上交第3，北大第4。

中国院校有 25 所院校进入前100（内地19所，香港6所），上榜数量仅次于美国。Top 10 中，中国内地共有 4 所大学上榜，分别是清华大学（第 2 名）、上海交大（第 3 名）、北京大学（第 4 名）、浙江大学（第 6 名）。

2024 CS Rankings 中，美国院校的优势也十分明显，全球 Top100 中就占了 58 所；28 所大学进入 Top50。其中，卡内基梅隆大学再次以绝对实力连续 12 年捧走第 1 的宝座。除了卡耐基梅隆大学以外：伊利诺伊大学香槟分校：世界第 4、全美第 2 佐治亚理工学院：世界第 7、全美第 3 斯坦福大学：世界第 9、全美第 4 加州大学圣地亚哥分校：世界第 9、全美第 4 密歇根大学安娜堡分校：世界第 9、全美第 4 华盛顿大学：世界第9、全美第 4

本次英国大学无缘前 50 名，帝国理工学院、爱丁堡大学、牛津大学并列世界第 54、全英第 1。

进入世界 Top100 行列的英国大学共 5 所，除上述三所大学以外，伦敦大学学院、剑桥大学并列第 83、全英第 4。

澳洲的计算机科学专业共有3所大学成功跻身世界前100，包括莫纳什大学（第54名）、悉尼大学（第54名）和墨尔本大学（第83名）。

2024 CS高校全球排名

根据最新的CS Rankings，24年计算机科学专业全球整体排名Top 10如下——卡耐基梅隆大学第1，清华大学第2，上海交通大学第3，北京大学和伊利诺伊大学厄巴纳-香槟分校并列第4，浙江大学第6，苏黎世联邦理工学院和佐治亚理工学院并列第7，韩国科学技术院、斯坦福大学、加州大学圣地亚哥分校、密歇根大学、华盛顿大学并列第9，MIT、新加坡国立大学、UC伯克利、马里兰大学帕克分校并列第14。

四大方向排名CS Ranking将所有的研究主题归类为以下四个大方向：
人工智能（AI） 计算机系统（Systems） 计算机理论（Theory）
跨学科领域（Interdisciplinary Aresa）

AI领域

AI领域的世界TOP 10排名来看，中国表现非常亮眼，共有8所高校/机构进入全球前十（包含并列排名），分别是：清华大学（1）、北京大学（2）、上海交通大学（3）、浙江大学（4）、人民大学（7）、南京大学（8）、复旦大学（10）、哈尔滨工业大学（10）。

美国高校中，只有卡内基梅隆大学进入Top 10；去年排在第七的UIUC，今年则排在了并列第12；斯坦福大学、马里兰大学紧随其后；佐治亚理工学院、UCSD、UCLA、UCB进入了Top 20。

浙大CV第一，哈工大NLP第一

当仅勾选计算机视觉领域时（只统计了CVPR、ECCV、ICCV这三个顶会）：

而当仅勾选自然语言处理时（只统计了ACL、EMNLP、NAACL三个顶会）：

哈工大排名世界第一，复旦大学和CMU并列第二，清华排名第六。

计算机系统领域

计算机系统（Systems）领域包含了更多的版块，包括Computer architecture计算机结构、Computer networks计算机网络、Computer security计算机安全、Databases数据库等等。在这一领域，中国 3 所大学进入前三，上海交通大学和清华大学并列第 1，北京大学位列第 3；UIUC、普渡大学和卡内基梅隆三所学校领先美国其他高校；佐治亚理工和威斯康星麦迪逊也进入了 Top 10；MIT、UCSD、密歇根大学、华盛顿大学并列第 12 名；康奈尔大学、杜克大学、东北大学、普林斯顿大学、UCB 和芝加哥大学并列第 16 名。

计算机理论

在这一领域中，美国大学优势明显，TOP20中有11所学校来自美国。其中卡内基梅隆大学再次夺得第1；不过去年的第2名MIT今年却掉到了第9名；华盛顿大学、UIUC、德州奥斯汀分别排在第3、4、5名；密歇根大学、东北大学和UCLA进入前10。

跨学科领域

跨学科领域中，美高校依然强势，TOP20中有14所院校来自美国。卡内基梅隆大学位列榜首，斯坦福大学和密歇根大学并列第三。另外，佐治亚理工学院、马里兰大学、MIT、UCB、UCSD、明尼苏达大学、华盛顿大学均进入前10名。

中国方面，香港科技大学并列第5，清华大学并列第10，浙江大学并列第16。

跨学科（Interdisciplinary Areas）领域中，主要分为Comp.bio & bioinfomatics比较生物&生物信息学、Computer graphics计算机图形学、Economics & computation经济学与计算、Human-computer interaction人机交互、Robotics机器人学以及Visualization可视化六大版块。

4 2 月 2024

四巨头拼AI杀红眼：硅谷又疯狂了

硅谷似乎又到了一个狂热的时刻。

过去几天，先是美国四大互联网巨头微软、谷歌、苹果和Meta接连递交季度收入答卷，展开业绩大对决：

Meta逆袭成功，一夜之间市值暴涨1970亿美元，创股市单日最大增长记录；

微软连续五季度创收入新高，3万亿美元加身，取代苹果成为全球市值最高公司；

谷歌云服务持续拉升，首次实现全年盈利，继续加大投入AI军备竞赛；

而苹果扭转连续四季度下滑颓势后，更是直接抢了所有人的头条，最新MR头显Vision Pro正式在线发售，强势登陆美国官方零售店，刮起抢购旋风。

这景象，多久没见过了。

Meta砸钱做开源AI，

扎克伯格翻身了

三年前，Facebook摇身变成Meta全力押注元宇宙，结果股价和业绩惨遭“戴维斯双杀”。仅2022年前11个月市值就跌去70%，血亏6000亿美元，直接被挤出全球前二十大公司行列，扎克伯格的个人财富也蒸发了1000多亿美元。

后来小扎调整业务重心，重回社媒并强势进军人工智能，终于在本月Facebook成立20周年之际翻身逆袭，拿出一份史上最强财报。

数据显示，Meta四季度营收401.1亿美元，同比大增25%，净利润140亿美元，比去年同期增长两倍多。除Reality Labs元宇宙部门继续亏损46.5亿美元外，广告和社媒家族陆润均超预期，日活用户数稳定增长至21.1亿，月活用户数达30.7亿。

财报发出后，Meta盘后股价飙升15%，自2022年11月触底以来涨幅已达3倍，超过了标普500指数中除英伟达以外的所有股票。同时宣布将增加500亿美元股票回购，并进行公司史上首次每股50美分股息发放。

扎克伯格认为，广告业务改善的背后，人工智能功不可破。一直以来，Meta通过改进广告定位、AI推荐内容、以及运行所需的基础设施来扩展其核心广告业务，这在本季度收效显著，公司的应用程序的日均观看时间比去年同期增加25%。Meta首席财务官Susan Li也表示，Q4收入的大幅增长正是得益于AI推荐视频内容和中国企业主的高额支出。

除了AI内容优化，Meta在人工智能赛道的决心还远不止于此。

扎克伯格已计划豪掷万亿美元，与谷歌、微软、OpenAI们一起狂卷AGI，并将此作为公司下一目标。摒弃主流市场风向，Meta选择走一条特立独行的全开源之路，认为这种开放策略将更有助于推动技术创新和构建蓬勃的开发者社区，旗下大语言模型Llama2一直免费供研究和商业使用，新一代的Llama3也已在训练中。

小扎还宣布重组关键AI研究部门，并继续补充“弹药库”储备。到今年年底，Meta将购入约35万块英伟达H100 GPU，加上来自其他潜在供应商和自研AI芯片，总共拥有相当于60万块H100的等效算力。

根据路透社报道，Meta将在今年正式投产第二代自研AI芯片Artemis，用于与H100协同互补，部署其数据中心推理任务，公司发言人也确认了这一芯片计划。另有传闻称，Meta还在开发一款能执行AI工作负载的更复杂的处理器，最终目标是开发出足以媲美英伟达GPU的产品。

未来，Meta会继续加大人工智能和在线商务领域投资，同时精简运营成本。在遭遇元宇宙滑铁卢后，扎克伯格曾在新任华裔CFO Susan Li的协助下快速调整资本开支结构，将2023年定为“效率年”，削减1万名团队员工，冻结约5千个尚未填补的空缺职位，最终扭转公司局面，恢复强劲收入增长。

在本季度财报后电话会议上，扎克伯格称，2024年的新员工引进规模仍将尽量保持低水平。Susan Li也向华尔街报告了降本增效目标指引下300亿至370亿美元的支出预估，增加部分主要用于加强AI领域的研发，极大鼓舞了投资者信心。

在走对了路以后，扎克伯格在股东中口碑翻身，也带着Meta重回万亿美元市值俱乐部。

谷歌VS微软：

AI军备竞赛继续杀

虽然没有Meta逆袭冲击大，但微软和谷歌这次的财报数据也都很不错，发展态势稳健，各项关键业绩指标均超出华尔街预期。

谷歌当季创造了863亿美元总营收，同比增长13%，净利润同比大涨50%达到206.87亿美元。但由于占收入八成的支柱广告业务收入不及预期，加之资本支出比上季度激增近一半，股价还是在连续坚挺5个交易日后于财报当天收跌6%。

微软这边的成绩则更加亮眼：620亿美元总营收和219亿美元净利润，分别比去年同期增长18％和33％，创下两年来增幅新高。首次在现任CEO萨蒂亚·纳德拉带领下，昂首突破3万亿美元大关，赶超苹果成为全球市值最高的公司。

不过在AI浪潮推动下，两家公司的云版块都展现出积极向好信号。谷歌云收入持续增长至92亿美元，首次实现全年盈利。对于微软来说，如今的云服务更成为拉动整个业务体系前进的排头兵。包括Azure、服务器、GitHub和企业服务在内的微软智能云部门已凭着单季258.8亿美元收入，成为全厂贡献榜当家老大。

出于为AI发展提供的必要资源、数据处理能力和创新环境，云计算市场的潜力与日俱增。微软在下对了入局OpenAI的第一步棋后，前后130亿美元的重金押注也终于获得回报。公司CFO艾米·胡德在电话会议中表示，Azure云产品销售额本季度猛增30%，其中6个百分点来自AI需求，是上季度AI为Azure贡献的两倍。绝大部分增量都要归功于OpenAI在Azure云上的推理调用。CEO纳德拉也透露，微软现在拥有5.3万Azure人工智能客户，三分之一都是在过去12个月内新加入的。

除Azure云服务之外，微软AI战略背后还有一系列基于ChatGPT技术的Copilot AI软件助手，全面接入其热门生产力办公套件Microsoft 365。AI算力部署方面，纳德拉在去年11月西雅图举行的Ignite开发者大会上，宣布推出两款自研AI芯片Maia 100和Cobalt 100，以应对不断增加的大模型训练成本挑战，摆脱受制于英伟达的被动局面。

在财报当季，微软完成了对动视暴雪650亿美元的收购，并在云服务和数据中心等AI基建上大方花费115亿美元。纳德拉坚持继续看好AI技术发展，他认为市场已经从谈论AI转向大规模应用AI。未来也会继续扩大相应投资，通过将AI融入技术堆栈的每一层面赢得新客户，提升效益和生产力。

而作为与微软在人工智能领域展开激烈竞争的最强对手之一，谷歌也已将去年底推出的多模态大模型Gemini整合入聊天机器人Bard，并开发了用于部署机器学习的Vertex AI平台、入驻谷歌云的Duet AI等系列AI套件，还拥有性能不斐的自研TPU芯片。在微软将OpenAI拉入麾下的同时，谷歌毫不示弱，以超过25亿美元投资额向Anthropic递出橄榄枝。

谷歌CEO桑达尔·皮查伊铁了心要保住大模型元老江湖地位，在AI之战中较量到底，他表示公司将专注于AI业务投资，将新的生成式AI工具嵌入到更多关键产品中。他也称AI正在驱动谷歌各平台广告业务流量的增长，并期待Gemini Ultra发布后给市场带来的惊喜：“我们对搜索的持续强劲表现，以及来自YouTube和云的不断贡献感到满意。这些领域已经从我们的人工智能投资和创新中受益。随着我们进入Gemini时代，最好的还在后头。”

苹果虎视眈眈，

说我落于人后，不如走着瞧

在人们被Meta和微软的傲人业绩惊艳到时，老大哥苹果的成绩单显得有些“羞涩”。

最新季度财报显示，苹果当季营收1196亿美元，超过1179亿美元预期。其中697亿美元来自iPhone销售额，虽远超此前预期的686亿美元，但由于来自中国的销售业绩低迷，致使大中华区总收入下降13%。不过积极的信息是，其活跃设备基数已经超过22亿台，订阅服务也实现了11%的同比增长，苹果这次终于扭转连续四季度收入下滑的局面。

尽管如此，苹果还是凭新一代MR头显Vision Pro的一己之力获得滔天的关注度，抢占各大媒体头条。这个被称为苹果“20年来最冒险的革命性产品”在当地时间周五正式上市。此前下单预订的顾客将开始陆续收货或到苹果线下零售店提取。

苹果公司CEO蒂姆·库克特意于周五早上抵达位于纽约市第五大道的苹果旗舰店，与蜂拥而至的果粉们一同见证Vision Pro发布。针对Vision Pro 3499美元的奢侈品价格，库克称为“今天的明日技术”埋单是值得的。

在别家纷纷参与AI竞速时，苹果仿佛丝毫没有紧迫感，缺席了这场生成式AI革命。但此次推向市场的新一代空间计算产品Vision Pro，确实被视为开启混合现实新时代的产品。预示着这家以手机和电脑为看家饭碗的公司，产品结构正在悄然发生转变，开始尝试着在“AI+”融合AR/VR领域的加大布局。设备中引入的数字分身、情绪检测、智能交互等各种AI功能，也将成为苹果在2024年进军AI的跳板。

两周前，美国银行上调了对苹果的评级和目标股价，认为Vision Pro头显“展示了一个有着光明未来的人工智能产品路线图，将是推动公司未来增长的关键催化剂”。

除此以外，苹果还计划在2024年6月的全球开发者大会（WWDC）上推出一系列基于生成式AI的新工具，包括一个升级版的Siri。这些新工具也将成为iOS 18的核心特性。一切都在变得更值得期待起来。

短短一周，财报业绩振奋市场，新产品炸裂登陆，目不暇接的信息量已经让人们对未来怀揣更强烈的期待。

毋庸置疑的是，AI技术的前景比以往任何新事物都更被科技巨头们看好，加大研发和资金投入，拉拢明星AI公司站队，抢占AI生态，同时优化支出降低成本，将是大厂们继续展开白热化竞争的关键领地。

而对于科技公司的“螺丝钉”们来说，裁员降本，也势必会成为这一轮转型大潮中不可避免的沉重课题。一切都是新的，一切也都充满未知。这个对于科技巨头们来说最好的时代，或许也将成为普通员工们最糟糕的时代。

4 2 月 2024

AI Agent的任务，是让我们每天最多工作四个小时

2024年，满城尽带AI Agent。上个月还说自己在做AI Copilot的人，这个月就说自己做的是Agent了。现在流行AI黑客马拉松，一场下来，至少能看见几十个所谓的“AI Agent”。
大语言模型爆发这一年，我们在“概念陷阱”里鬼打墙，满嘴跑火车，大侃各种新名词：Agent、Copilot、RAG、Reasoning、Grounded、Alignment……说实话我有点烦了，嘴上不挂着这些词，就不配搞AI么？更重要的是，当人们讨论一个名词的时候，他们讲的是一回事么？
比如“AI Agent”：你做了一个自动写小红书文案的GPTs，说这是写作Agent；我做了一个基于大语言模型的RPG游戏角色模拟器，说它是游戏开发Agent……这时候有人说：这些都是AI辅助工具，充其量也就是Copilot（副驾驶），你看斯坦福大学和Google搞的“斯坦福小镇”，25个AI互相沟通和协作，那才是真正的AI Agent。究竟谁说的对？什么才是AI Agent？这其实就是我们的现状：当下讨论一个AI概念，人们缺乏共识的定义作为前提，在认知从来没“对齐”（align）过。
很多人拿“AI Agent”当成一个大语言模型时代的新名词讨论，殊不知“Agent”是一个骨灰级的人工智能概念。我钩沉了一下，“Agent”第一次作为人工智能术语的出现，是1995年出版的经典人工智能教科书《人工智能：一种现代方法》（Artificial Intelligence: A Modern Approach）。这本书对人工智能的定义是：“智能代理的研究和设计”（study and design of intelligent agents）。这么看，“Agent”被视作人工智能发展的终极目标，至少也是快30年前的事了。它折射了人类发展人工智能的初衷，即寻找人类的一切行为的“代理人”。
不少人还忽略了“Agent”其实也是人们耳熟能详的经济学和组织行为学的概念。现代经济社会充斥着各种各样的“Agent”，比如我们熟悉的公关代理公司（PR Agency）、旅行社（Travel Agency）等，它们具备一个机构代表一方行动和交易的意涵。人工智能定义的“Agent”，意义与经济学和组织行为学是接近的——即AI作为一个人或一个组织的代表，进行某种特定行为和交易，降低一个人或组织的工作复杂程度，减少工作量和沟通成本。
人工智能真正具备成为“Agent”的能力，靠的是大语言模型。AI Agent 这个古老的概念在2023年的翻红并不是个巧合。OpenAI 安全团队负责人Lilian Weng的著名文章《LLM Powered Autonomous Agents》，被普遍视作是 OpenAI 对 “AI Agent” 的官方定义。该文将 Agent 定义为大语言模型（LLM）、记忆（Memory）、任务规划（Planning Skills）和工具使用（Tool Use）的集合，其中 LLM 是核心的大脑，记忆、任务规划和工具使用是 Agent 的三个核心组件。值得注意的是，该文强调 Agent 自主调取外部 API 的工具使用，自主对任务进行子目标分解，自主建立思维链（CoT）、以及自我批评和自我反馈的能力——它们都指向了文章标题的关键词“autonomous”，即 Agent 的自动化。
人工智能革命被普遍称作是“第四次工业革命”，前三次分别依次是19世纪初的蒸汽机革命、19世纪末的电力革命、20世纪中叶的信息技术革命。贯穿前三次人类工业革命的关键词当属“自动化”（automation）。蒸汽机和电力革命实现了围绕工业生产的体力劳动的自动化，提高了生产效率。信息技术革命在进一步提高工业生产自动化程度的同时，也可以代替人类进行一部分脑力劳动。作为第四次工业革命的人工智能革命，一方面将工业生产的自动化进行得更加彻底（比如机器人和传感器遍布的无人工厂），另一方面前所未有开启了脑力劳动的自动化进程。而脑力劳动自动化的载体，就是 AI Agent。
从这个意义上，对什么是 AI Agent 的争论是有些无聊的。“斯坦福小镇”是基于论文的先锋实验，将它作为评判一个 AI 应用是不是“Agent”的坐标，无助 AI Agent 提高智力密集型工作的效率。我下一个暴论：AI Agent 本质上就是“automation of human action”（人类行为的自动化）。只要它不是在人类手把手要求下完成任务，就像在ChatGPT的对话框输入prompt、启动 Office 365的“副驾驶”（Copilot）完成每一项具体工作那样，而是具备了一定程度的完成任务的自主性甚至是不完全可控性，它就是一个 AI Agent。
现在一个比较尴尬的局面是：可能你读过不下20篇关于 AI Agent 的论文和公众号推文，也没真正上手过一个用得顺手的Agent，这恐怕是 Agent 作为一个新物种注定经历的阶段。一直以来，人们经常提到 AI Agent 典范是接入了GPT能力的AutoGPT。不过现在，无论是在美国还是中国，已经有了一些更好用的 AI Agent 的雏形。可以趁机安利一下了。
第一个是 ChatGPT 新进推出的升级付费版——ChatGPT Team。它提供了在一个小型企业内部，用个人的 ChatGPT账号实现协作的“私域空间”，ChatGPT Team 的用户数据不会被用来反向训练GPT模型，用户还可以创建企业内部的 GPTs，让这些 GPTs 互相协作。讲真，我觉得 ChatGPT Team 比 GPT Store 更重要，也更实用。现在的 GPT Store 太乱了，大多数 GPTs 粗糙不堪，对话框指令什么它帮你做什么，而且基本不能调用 API 。但私密环境使用的 ChatGPT Team，GPTs 互相调用接口、彼此协作也顺利成章多了。ChatGPT Team 是 ChatGPT 这个全世界有着最多用户的超级 AI 平台，走向 AI Agent 的第一步（毕竟ChatGPT已经有15万企业客户了）。
第二个是智谱 AI 的 GLM 模型智能体（GLMs）。清华色彩强烈的智谱 AI 是中国最像 OpenAI 的公司，刚推出的 GLM-4 全面对标 GPT-4，在诸多评测基准上达到了GPT-4 85%以上。GLMs 是 GLM-4 的副产品，也是 GLM-4 模型能力的外溢。GLM-4 的“All Tools”支持 GLM-4 依据用户的需求，自主决定用绘图、搜索、制作表格还是代码编程解决问题——这本身就具备了 AI Agent 的属性。与 Open AI 只追求通用性不同，智谱 AI 针对金融、医疗和教育等垂直行业都有一系列定制部署服务，积累了一定的 to B 客户基础和行业 know-how，这让智谱的客户基于 GLM-4 部署 GLMs 智能体变得更合理，也更容易些。

第三个是同属清华背景的“面壁智能”：面壁智能是有自己的“斯坦福小镇”的，它基于面壁智能的 ChatDev 框架。但面壁智能的“小镇”不是一个虚拟社会，而是一个 AI 版的软件公司。不同的 AI 智能体被设计为程序员、产品经理、测试工程师和设计师等角色，它们可以彼此协作，还能站在自己的立场上互相博弈——就跟办公室里每天发生的事一样。面壁智能的ChatDev框架支持开发者搭建属于自己的 AI Agent，把单体智能和群体智能结合起来，让AI Agent 成为每一个员工都可以用起来的，可以“逃避”很多狗屎工作的办公自动化工具。顺便提一句，ChatDev框架的成形并不比“斯坦福小镇”的论文发布晚，它给人们最大的启示在于原生 AI 应用开发的一个可能性—— AI Agent 实现 AI 应用开发的自动化。
第四、五个分别是钉钉和飞书的“智能体”实践。AI Agent 本质更接近产品而非技术，如果我们认为 AI Agent 是生产力工具，那就不能忽略在钉钉和飞书上已经存在的上亿用户，百万政企组织，海量的文档、会议纪要、沟通记录、多维表格和自建工具——这些工具让钉钉的“智能助理”和飞书的“智能伙伴”，更容易化身成每一个使用它们的打工人的嘴替和脑替，能部分自主地完成一些事务性的狗屎工作，如工作总结、会议纪要、走报销和出差流程、跟进一件事的反馈，甚至可能帮人代理扯皮和撕X。作为钉钉和飞书的双料用户，我必须说：现在的钉钉智能助理和飞书智能伙伴离“好用”还差得远——这恐怕是通义大模型和云雀大模型的锅。但论场景丰富、数据真实、用户数量，钉钉的“智能助理”和飞书“智能伙伴”更容易被真正“用起来”。Agent 也是在被用起来的过程中具备更好的理解能力的。一旦模型进步了，钉钉和飞书的 Agent 化就会往前走一大步。我再下一个暴论——钉钉和飞书会成为国内 AI Agent 重要的产品。
在“好用”和“好玩”之间，我坚信对 AI Agent 而言，“好用”比“好玩”重要。它首先是一个生产力工具。那些 AI 陪伴的纸片男女友也有理解能力和情绪价值，但它们可以被叫作“智能体”或“智能玩偶”，但不是“智能代理”，因为它们不具备代理人类完成某项任务或使命的功能。所以 AI Agent 被翻译成“智能体”是不合适的，它就是“智能代理”，“代理”是 AI Agent 的经济学和组织行为学属性，也是它推动脑力劳动自动化的本质。
在不久前结束的CES上，斯坦福大学著名人工智能学者李飞飞提出了一个重要观点：应该明确 AI Agent 取代的是人类的“任务”而不是“工作”。在达沃斯论坛上，OpenAI CEO Sam Altman 在面对“AI 让人失业”这一老生常谈的诘问时，表达了一个更直接的观点：“AI 取代的是人们工作的方式，而不是工作本身”。

我非常同意李飞飞和 Sam Altman两位老师的观点，脑力劳动工作者的工作是由一个个具体的关键任务组成的，但这不是工作的全部。目标设定、创造性、资源获取和分配、设定更高的目标、组织不同的任务、判断力、说服力与表现力……我们的工作中有太多更有意义的元素了。把工作中流程、事务性和常规操作的“任务”交给 Agent，少写几行常规代码，少发几封battle 邮件，少做一些机械操作的表格，少调几次 PPT 格式，少复制粘贴，少亲自发起和审批一些常规的出差和报销流程，我们的工作应该愉快得多，也有创意得多。

当然，AI Agent 的普及，也许会让一些“白领工人”无所适从甚至失去工作，但它会极大限度地提升很多岗位——甚至包括基层岗位上面的聪明的人的创造性、格局感、整体感和生产力，在提高工作效率，创造更多生产力的同时，更重要的是减少工作时长。
“八小时工作制”在全球成为通用标准已经是差不多100年前的事了。人们之所以能每天只工作8个小时，是工人阶级抗争的结果，也是电力工业革命以来生产力大爆发的产物。在更高的生产效率面前，人们有底气为自己争取更少的工作时间、更高的工资和更多的学习、休闲、旅游消费时间。但是，计算机革命以来，人类的生产效率又前所未有地提升了，为什么人们的工作时长没有进一步减少，反而在一些号称是最高智力密集的科技和互联网公司还增加了呢？还搞起了996呢？这里面是不是一定出了什么问题？
请允许我再来一个暴论：未来衡量一个 AI Agent 的智能化程度如何，可以看它是不是能让我们每天只工作四个小时。那些重复性的、流程化的、条件反射式的、经验主义奏效的、强化学习可以理解的，甚至表演性的工作，交给 AI Agent ——它们可能是钉钉和飞书，可能是面壁智能的工作坊，也可能是 GLM 和 GPT 上的企业版。反正“我只要结果”，因为我真的每天只想工作四个小时。

前不久我跟钉钉的总裁叶军聊，我感觉到钉钉有一种想“洗心革面，重新做人”的紧迫感，特别想把自己从“小学生天敌”和“压榨员工神器”的名声里择（zhai）出来。于是它们搞了一个钉钉智能助理。我问这玩意儿能让我们每天只工作四个小时么？他说：如果可能的话每天就工作一个小时吧。事后，我觉得叶老师还是有点儿上头了。不过他说 AI Agent 能让更多人成为自己的老板，这个我倒是同意的。Agent 帮了你，你还会不会骂自己是傻X。

2 2 月 2024

英伟达CEO：马来西亚有望成为世界AI制造中心

NVIDIA首席执行官建议马来西亚成为东南亚数据中心扩张的人工智能”制造”中心。

NVIDIA这家科技巨头的首席执行官周五表示，他认为马来西亚有潜力成为人工智能”制造”的中心，尽管他并未确认这家芯片制造商是否正在与当地一家大型企业集团谈判，在这个东南亚国家设立人工智能数据中心。

NVIDIA的创始人兼首席执行官黄仁勋在吉隆坡对记者们表示，马来西亚的大型企业集团YTL集团在设立人工智能数据中心方面可能扮演重要角色。

在一个媒体圆桌会议上，黄仁勋并未证实NVIDIA是否正在与YTL集团进行谈判，该集团的业务涵盖公用事业、电信、水泥、建筑和房地产开发。但他表示：“YTL集团是一家非凡的公司，拥有令人难以置信的领导力和传承。”

他说：“马来西亚对东南亚的计算基础设施来说是一个非常重要的中心。这需要土地、设施、电力，这些都极其重要。我认为YTL集团可以在这方面发挥巨大作用。”

黄仁勋说，马来西亚在包装、组装和制造的其他方面的专业知识，使其非常适合人工智能的制造。他表示，NVIDIA正在该国与80家人工智能初创公司合作。

“在马来西亚，数据中心基础设施层的计算，作为人工智能和云计算中最重要的部分之一，在这里非常成功，”黄仁勋说。

他认为，东南亚很可能会成为人工智能计算的中心，因为各国需要自己的人工智能数据中心来提炼和转换数据，使之成为有价值的信息。旧的数据处理中心设计用来存储数据文件和运行应用程序。人工智能需要利用每个地方的文化、语言、价值观、文学和常识。

他表示：“我不太了解每个地区的计划，但我非常有信心，东南亚将成为一个非常重要的科技中心。它在包装、组装和电池制造方面已经相当出色。在许多技术供应链方面，它已经做得很好了。”

2 2 月 2024

字节跳动推出「Coze 扣子」AI Bot 开发平台，助力用户快速创建自定义聊天机器人

近日，字节跳动宣布推出全新的AI Bot开发平台「Coze 扣子」，旨在帮助用户快速、低门槛地构建自己的聊天机器人。该平台不仅支持一键发布到飞书、微信公众号等多个渠道，还提供丰富的插件和Bot商店资源，涵盖娱乐、学习等多个领域。用户无需编程经验，即可通过简单的拖拽操作创建出功能强大的聊天机器人。此外，「Coze 扣子」还具备丰富的数据源、持久化的记忆能力以及灵活的工作流设计等特点，为用户提供了更加便捷、高效的AI交互体验。这一举措标志着字节跳动在人工智能领域的持续创新，有望为更多用户带来全新的智能交互体验。

在「Coze 扣子」平台上，用户可以轻松创建自己的聊天机器人，并通过简单的操作将其发布到不同的社交平台和应用程序上。该平台提供了丰富的功能和优势，如无限拓展的能力集、丰富的数据源、持久化的记忆能力以及灵活的工作流设计等。这些功能使得用户可以更加便捷地管理和存储数据，快速搭建复杂的任务流，并创建出各种类型的聊天机器人。此外，「Coze 扣子」还提供了方便易用的知识库功能，支持上传多种格式的文件和数据，使得聊天机器人可以更加智能地回答用户的问题。

总的来说，「Coze 扣子」AI Bot开发平台的推出，为用户提供了更加便捷、高效的AI交互体验，有望推动聊天机器人在各个领域的广泛应用和发展。

2 2 月 2024

Stability AI 推出具有 16 亿参数的Stable LM 2

最强大和最易于访问的语言模型的竞争正在升温，尤其是在移动端人工智能领域。最近几个月，Meta（Llama 2）、Microsoft（Phi 2）和谷歌（Gemini Nano）等科技巨头发布了自己的小型语言模型，能够在智能手机和平板电脑上运行。

今天，Stability AI 加入了这一行列，发布了具有 16 亿个参数和多语言功能的 Stable LM 2。

什么是 Stable LM 2？

Stable LM 2 是一个先进的 16 亿参数小语言模型，基于英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言数据进行训练。Stable LM 2与同尺寸大小的其他著名模型并驾齐驱，优于Microsoft的Phi-1.5（1.3B）和Phi-2（2.7B），TinyLlama 1.1B和Falcon 1B。

Stability AI 因其对透明度的承诺而脱颖而出。他们已经发布了预训练检查点，允许开发人员根据特定需求微调模型。

此外，他们致力于提供完整的训练数据细节，以提高可重复性。这种程度的开放性是人工智能开发领域向前迈出的可喜一步。

关于 Stable LM 2 的须知

它使用 7 种语言（英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语）的 2 万亿个文本数据进行训练。
Stability AI 发布了预训练检查点，以帮助开发人员微调模型，并将提供完整的训练数据细节以实现可重复性。
Stable LM 2 Zephyr 1.6B 在 8 个节点的 Stability AI 集群上进行了训练，每个节点有 8 个 A100 80GB GPU。
它可以与 Stability AI 会员一起用于商业或非商业用途。

如何试用 Stable LM 2

您可以在 hugging face 上访问交互式演示。

下面是一个示例对话：

提示：地球到月球的距离是多少公里？

回应：截至我上次系统更新之日，即 2021 年 9 月 28 日，地球到月球的距离约为 238,855 公里（148,342 英里）。

限制和风险

与任何语言模型一样，Stable LM 2 也有其局限性。

由于其大小，它可能偶尔会产生幻觉或误导性信息。开发人员应意识到这些风险并实施适当的保护措施，例如事实核查和人工监督。

如果你是考虑将此语言模型用于应用程序的开发人员，请注意这些风险及其局限性。

多少钱？

如果您打算将 Stable LM 2 用于商业目的，您可以订阅 Stability AI 的会员计划，每月收费 20 美元。

如果您想选择企业订阅，也可以联系 Stability AI。

最后的思考

Stability AI 通过发布这个小而强大的语言模型，真正突破了极限。感谢他们朝着这种技术民主化迈出的一步。

从技术角度来看，在保持多语言能力的同时缩小规模并非易事，而释放预训练检查点绝对是提高透明度的积极一步。

更小、更高效的模型可以实现与大型 AI 模型相似的性能，从“绿色 AI”的角度来看，它们肯定会开始变得更加普遍，并且更可取。

我迫不及待地想看看开发人员会从这种语言模型中创建哪些令人难以置信的应用程序。

1 2 月 2024

AI算力限制升级背后的“阳谋”

1月29日，美国商务部在Federal Register（联邦公报）正式公布了《采取额外措施应对与重大恶意网络行为相关的国家紧急状态》提案。

这个提案的意思并不复杂，就是要求美国IaaS（云服务）厂商在提供云服务时，要验证外国用户身份，限制外国行为者对美国IaaS产品的访问，并要求详细报告训练AI大模型的外国交易，以保护美国的网络安全和利益。

这次提案，相当于对此前中国AI封锁命令的“升级”。在美国限制高性能计算芯片对华出口的措施后，借用国外云厂商的服务，被认为缓解国内“缺芯”局面的“解决方案”。随着此次提案的出台，意味着美国实现了对中国AI产业从高端芯片到云服务整个基础设施的全面限制。

不过与高性能计算芯片的严格限制不同，此次法案更侧重于对中国大模型发展情况的长期监测。但即使如此，也不能完全排除后续更多限制政策的可能性。当所有人都被注意力放在追寻大模型性能极限的时候，在一个更大的舞台上，一场关乎人工智能的角逐也在缓缓拉开帷幕。

/ 01 /

AI封锁再升级

此次提案一共38页，包含对AI模型、客户识别计划以及AI大模型训练审核报告等内容。具体来说，该提案的内容主要有三点：

一是要求美国IaaS提供商构建自己的客户识别程序（CIP）。而一旦该程序发现有“外国人”使用其云服务，并且用于训练具有“潜在用于恶意网络活动的能力的AI大模型”，美国IaaS提供商就必须向商务部提交涵盖“外国人”的身份、符合第14110号人工智能行政令规定或由商务部长确定的AI模型的“训练运行”情况等信息的报告。

二是要求美国IaaS提供商以及国外经销商构建维护、保护和获取在验证客户身份过程中访问的相关客户信息记录的程序。此记录必须包括客户首次尝试开设账户时提供的身份证据和属性的描述，验证客户身份所采取的任何措施的方法和结果的描述，以及验证识别信息时发现的任何实质性差异的解决方案的描述。也就是说，客户识别程序过程中的所有资料需被留存。

三是美国IaaS提供商还必须向商务部提交客户识别程序的认证表，其中包括用于验证外国人身份的机制、服务、软件、系统或工具的描述、用于要求客户通知IaaS提供商其所有权变更的程序、IaaS提供商用于持续验证客户提供信息准确性的流程，还必须描述IaaS提供商用于检测恶意网络活动的机制、服务、软件、系统或工具。

表面上看，这是为了防范潜在的AI威胁而采取的措施。但实质上，更像是美国政府于2023年10月17日出台进一步限制高性能计算芯片对华出口的措施之后，对中国AI封锁命令的又一次升级。

此次监管的思路借鉴于银行业的“了解你的客户”（Know Your Customer/KYC）思路。KYC是在金融领域应用很成熟的规则，在银行反洗钱和反恐怖主义融资等方面获得广泛的应用，且得到了国际社会的普遍认可与支持。

不过与高端芯片限制出口不同，美国此次针对云服务的出台的政策，至少从短期来看，观测属性大于监管属性。

一方面，美国把限制的主体范围控制在“美国IaaS提供商”，也就是说排除了没有注册在美国的中国或第三国云服务商和美国云服务商的海外子公司。

另一方面，根据拜登政府第14110号人工智能行政令，设定了一个阈值作为美国云服务商的开关，即如果有一个正在做AI大模型的美国云服务商客户需要非常强大的计算能力，大模型是在一群连接得很紧密、工作得很快的计算机上训练出来的，那么云服务提供商就需要向美国政府报告这些客户的情况。某种意义上讲，这更像是对中国大模型发展情况的长期监测。

至于基于这些发现，美国会做何决策仍然不得而知。正如美国商务部长雷蒙多对外宣称的那样，“我们正在努力获取这些信息。我们如何处理取决于我们发现了什么”。不过可以肯定的是，此次提案是中美两国在人工智能领域角逐的一次延续。

/ 02 /

AI时代的大国博弈，从算力开始

为什么美国要限制芯片，现在又要对云服务出手？一个很重要的原因是，对当下AI大模型发展来说，算力实在是太重要了。

在一个大模型构建和迭代过程中，需要经过大量的训练计算工作，算力需求可分为训练与推理两大阶段。与训练阶段相比，推理阶段的算力需求相对更低。到目前为止，算力需求主要集中在训练阶段。

通常来说，大模型训练一次是几乎不可能训练成功的，存在着大量的失败和反复，此外为保证模型迭代的更快，也需要进行大量的并行训练。即便打造出第一版大模型，后续模型的持续迭代的成本无法避免。

不仅如此，随着大模型参数的增加，所需要的算力也迅速增长。根据此前披露的消息，GPT-4的FLOPS约为2.15e25，并利用约25000个A100 GPU进行了90到100天的训练，如果OpenAI的云计算成本按每A100小时约1美元计算，那么在这样的条件下，训练一次GPT-4的成本约为6300万美元。

在算力构成里，GPU 是训练模型与加速推理的关键算力硬件，也是成本的“大头”，能够占到整个服务器成本的55-75%。GPU 的性能，决定了这个新兴行业的步调。但是，受限于摩尔定律的限制，GPU性能提升的速度，已经落后于大模型训练和推理需求的增长。

随着大模型的出现，市场对算力需求的增长井喷。据OpenAI测算，自2012年以来，人工智能模型训练算力需求每3~4个月就翻一番，每年训练AI模型所需算力增长幅度高达10倍。

相比之下，GPU更迭效率仍然延续着摩尔定律。根据摩尔定律，芯片计算性能大约每18-24个月翻一番。从目前看，尽管H100相比A100性能有明显提升，但并没有像模型训练算力需求那样有明显数量级的增长。

如果把大模型定义为AI 2.0时代，至少到目前为主，作为AI 2.0 时代的基础设施，以英伟达为代表的芯片厂商或云服务商成为了这波浪潮的最大“赢家”，并在仍然将在相当一段时间里影响行业格局的走向。这也是为什么美国要堵上云服务“漏洞”的原因。

/ 03 /

危机背后蕴藏的机会

此次提案对中国AI行业发展固然有影响，但也没必要过分夸大。

从过去看，美国云服务厂商在中国市场份额一直较低。IDC 最新发布的《中国公有云服务市场 (2022 下半年) 跟踪》报告显示，AWS 在中国的市场占比仅为 7.9%，微软Azure 则被合并进入到了“其他”厂商的大类当中。

到了去年，受大模型崛起影响，AWS份额有所提升，但提升幅度仍然有限。

根据IDC中国2023年《中国公有云服务市场跟踪》报告的统计数据，亚马逊AWS目前在中国的市场份额为8.6%，相较于2022年下半年提升了0.7个点，而微软Azure在中国的市场份额依然少到几乎可以忽略不计。

从短期看，限制使用国外云服务，对大量没有足够的资金自建AI计算中心的中小型研发与模型管理维护企业可能会产生较大的影响。但长期来看，由于大模型训练可能会涉及到一些敏感数据，使用美国云服务也存在比较大的数据安全和国家安全隐患。即使没有此次法案，放在大国博弈的视角下，也始终不是长久之计。

相反通过此次契机，更有机会加速推动国产芯片以及云服务厂商的发展。据天风证券此前测算，英伟达限令升级后2024年AI国产芯片新增市场空间700亿+。

尽管与市场主流英伟达A100产品仍存在一定差距，但能够明显看到，国内厂商训练芯片产品硬件性能不断取得突破。以燧原云邃T20产品为例，其内存宽带不足A100的1/3，在应对机器学习和深度学习的带宽需求上仍有差距，但其32位单精度浮点性能达到32TFLOPS，高于A100的19.5TFLOPS，且在功耗上更具优势。

不仅如此，大模型企业也纷纷加大了国产AI芯片的采购力度。去年下半年开始，360和百度分别向华为采购了1000个左右和1600个华为昇腾910B AI 芯片，华为昇腾910B对标的是Nvidia A100 芯片。而早在8月，百度内部已经下令其AI系统“文心一言”使用的芯片，改向华为采购昇腾（Ascend）910B系列AI芯片。

不出意外，这样的趋势会在未来加速演绎。种种迹象显示，从“光刻机禁令”到TikTok出海，这是一个对全球化并不友好的时代。如今，这把“火”已经烧到了人工智能，高端芯片和云服务法案大概率只是一个开始。

1 2 月 2024

中国研究团队推出首个迷你 AI 模型，媲美ChatGPT，可部署在手机上

TinyLlama–具有三万亿代币冲击力的迷你AI模型。图片来源：SUTD

它被称为TinyLlama，它因其强大的功能而席卷了研究界。

目前由 OpenAI 或 Google 等大型科技公司开发的 ChatGPT 或 Google Bard 等大型语言模型（LLM）由数千甚至数万个图形处理单元（GPU）管理，并要求用户在线连接到其庞大的服务器。相比之下，TinyLlama 仅基于 16 个 GPU 构建，仅占用 550MB 的随机存取存储器（RAM）。换句话说，TinyLlama 可以很容易地部署在移动设备上，让每个人无论走到哪里都可以随身携带一个“迷你 ChatGPT”。

根据总部位于加利福尼亚州的人工智能新闻平台Marktechpost的数据，TinyLlama在常识推理和解决问题的任务中的表现凸显了小型模型在使用大量数据进行训练时实现高性能的潜力。它还为自然语言处理的研究和应用开辟了新的可能性，特别是在计算资源有限的场景中。

专注于自然语言处理研究的StatNLP研究小组主任卢教授说：“小型语言模型的重要性不容小觑，TinyLlama之所以被专门创建为开源，是因为它将允许较小的科技公司和研究实验室为各种应用程序构建和开发自己的模型，从而使语言模型民主化。作为研究人员，我们的计划是为小型语言模型奠定基础，目的是在该领域取得重大的科学进步。

“小型科技公司以及个人研究人员和开发人员对小型语言模型的要求越来越高，这些模型需要更少的资源来运行。因此，这些模型（例如TinyLlama）对他们来说更可行，并且更适合手机等边缘设备。这种模型的紧凑性也使它们能够满足需要在没有互联网连接的情况下进行实时机器翻译的众多应用。这意味着用户可以脱机访问语言模型。他们在使用时不需要将个人信息发送到服务器，通过称为’微调’的技术，我们能够进一步改进它，“卢教授补充道。

TinyLlama背后的团队——从左到右：SUTD博士生曾广涛和王天铎，副教授卢伟和研究助理张培元。图片来源：SUTD

TinyLlama 的创新方法在于其构造。它基于 Llama 2 的架构和分词器，并融合了多项最先进的技术。其中一项技术是 FlashAttention，它提高了计算效率。尽管其尺寸比其前代产品小，但TinyLlama在各种下游任务中表现出卓越的性能。它成功地挑战了模型越大越好的概念，表明当使用广泛而多样的数据集进行训练时，具有较少参数的模型仍然可以实现高水平的有效性。

1 2 月 2024

让CPU跑大模型该怎么做？阿里云交出答卷：AI推理速度飙升7倍

阿里云近日发布了一款创新的企业级通用计算实例——ECSg8i。

这款实例搭载了英特尔第五代至强可扩展处理器EmeraldRapids，其整机性能提升了85%，AI推理性能提升了7倍，并且能够支撑720亿参数规模的大语言模型

这是一项具有重大意义的技术突破，为加速AI创新应用的落地提供了新的路径。

ECSg8i采用了阿里云自研的CIPU+飞天计算体系架构，结合了第五代英特尔至强可扩展处理器的强大性能

这一架构的核心特点是提高了单核性能和核密度，同时还增强了L3缓存和内存速率。这些改进使得ECSg8i在运算速度和任务处理能力上都有了质的飞跃。

阿里云ECSg8i将英特尔的加速器能力融入虚拟化技术，并通过自研操作系统实现了整体优化

这项技术突破降低了加速器技术门槛，使得更多的开发者可以利用ECSg8i来进行AI推理任务的处理。这将进一步推动AI创新应用的发展，让更多行业和领域能够受益于人工智能技术。

ECSg8i通过CPU的定制化改造和与英特尔的深度合作，提高了CPU的并行计算能力，解决了通讯延时的问题

这一创新使得ECSg8i能够胜任中小规模和大规模参数模型的AI推理工作负载，从而降低了AI推理的成本。CPU算力与GPU算力相辅相成，共同支撑了AI推理的算力需求，为用户提供了强大而高效的计算资源。

这次阿里云与英特尔的合作，不仅提升了ECSg8i的性能和功能，更为AI创新应用的落地提供了新的路径。阿里云作为云计算领域的领军企业，一直致力于推动人工智能技术的发展和应用。

通过与英特尔的深度合作，阿里云进一步拓宽了AI计算的边界，为用户带来了更多创新的机会

总之，阿里云发布的ECSg8i搭载了英特尔第五代至强可扩展处理器EmeraldRapids，通过CPU的定制化改造和与英特尔的深度合作，提高了CPU在AI推理方面的性能，并解决了通讯延时的问题，降低了AI推理的成本

这一新方案为加速AI创新应用的落地提供了新的路径，将进一步推动人工智能技术的发展。

ECSg8i的推出代表了阿里云在人工智能领域的持续创新和进步。

通过提升性能、降低成本和解决现有技术的瓶颈，阿里云为企业用户提供了更高效、更稳定的计算实例

随着人工智能技术的快速发展，对计算资源的需求也越来越大。AI开发者需要处理海量的数据和复杂的模型，以提供更准确和高效的智能决策。而ECSg8i的发布则为这些需求提供了更好的支持。

通过提升CPU的计算能力，降低了传统方法中的瓶颈问题，ECSg8i能够更好地满足用户在AI推理方面的需求

ECSg8i还提供了全面的解决方案来支持用户在人工智能领域的创新应用。阿里云为用户提供了全球领先的AI平台，其中包括丰富的数据处理和分析工具、强大的机器学习框架和模型以及高效的深度学习工具。这些工具和资源的整合使得用户能够更方便、更高效地开发和部署自己的人工智能应用。

阿里云的ECSg8i不仅为AI开发者提供了更高效的计算实例，还为各行各业的企业用户提供了更多的应用机会。人工智能技术的应用已经渗透到了各个行业，从智能驾驶到智能制造，从人脸识别到自然语言处理，AI的创新应用正在改变我们的生活和工作方式。而ECSg8i的发布将进一步加速这种应用的落地，为用户带来更多创新的机会。

阿里云ECSg8i的发布是一项具有重大意义的技术突破。它不仅提升了计算实例的性能和功能，还为用户带来了更多创新的机会。阿里云作为云计算领域的领军企业，将继续致力于推动人工智能技术的发展和应用，为企业用户提供更优质的服务和解决方案。

31 1 月 2024

危言耸听？离AI取代程序员又进一步？Meta 首推 Code Llama 70B：强大的代码生成 AI 模型

在科技的浪潮中，人工智能（AI）的发展一直是引领变革的前锋。从自动化办公到智能家居，再到自动驾驶汽车，AI的应用领域日益广泛。而在软件开发领域，AI的脚步同样迅猛，尤其是在代码自动生成技术方面。近日，Meta首次推出的Code Llama 70B，作为一款强大的代码生成AI模型，再次引发了业界对于“AI是否将取代程序员”这一话题的热烈讨论。

AI编程助手的崛起

在过去几年里，随着StarCoder、GPT-4 和 CodeGen-16B-Mono等代码基础模型的出现，AI在编程辅助方面的能力得到了显著提升。例如，StarCoder作为一种大型代码语言模型，在众多编程基准测试中表现优异，其处理输入的能力超越了现有的所有开放式法学硕士模型。这意味着StarCoder能够理解和生成的代码量和复杂度远超过以往任何工具，为广泛的应用场景提供了可能。

而GPT-4，作为OpenAI开发的多模态大语言模型，不仅能够理解和交流多种语言和方言，还已经被应用于支持GitHub Copilot的“Copilot X”，展现了其在代码生成和自然语言处理方面的强大能力。CodeGen系列则是基于自然语言和编程语言数据训练的大型语言模型，专门用于程序综合。它们在The Pile、BigQuery 和 BigPython等数据集上的训练，进一步提升了模型在理解和生成代码方面的能力。

Code Llama 70B：新一代代码生成AI模型

在这样的背景下，Meta推出的Code Llama 70B无疑是一颗重磅炸弹。作为一款功能强大的代码生成AI模型，Code Llama 70B不仅继承了前述模型的优点，更在多个维度上进行了创新和优化。最为突出的改进，是其在企业私有环境中的部署能力，这意味着企业可以在确保知识产权保护的同时，利用Code Llama 70B提高软件开发的效率和质量。这一特性对于希望保持技术秘密和竞争优势的企业来说尤为重要。通过在私有环境中部署Code Llama 70B，企业不仅能够保障自身数据的安全，还能够根据自身需求定制模型，从而在软件开发过程中实现更高的效率和创新。

离AI取代程序员还有多远？

随着Code Llama 70B等AI模型的出现，人们不禁要问，AI是否真的有一天会取代程序员？就目前来看，AI编程助手正变得越来越智能，能够处理越来越复杂的编程任务，但它们仍然需要人类程序员的指导和监督。AI可以帮助程序员提高生产效率，减少重复性工作，甚至在某些情况下提供创新的编程思路，但它们暂时还无法完全理解和创造人类程序员所能提供的复杂逻辑和创意。此外，编程不仅仅是代码的编写，更涉及到需求分析、设计思考、团队协作等多个方面。这些领域内的技能和经验，是目前AI所难以完全掌握的。因此，尽管AI编程助手的能力在不断提升，但它们更多的是作为程序员的“助手”而非“替代者”。

结语

总而言之，Meta推出的Code Llama 70B标志着AI在代码生成领域的又一重大进步。它不仅提高了软件开发的效率，还为企业提供了更大的灵活性和安全性。尽管AI编程助手的能力在不断增强，但至少在可预见的未来，它们更多的是增强和辅助程序员的工具，而非取代者。在这一领域，人类的创造力和逻辑思维仍然是不可或缺的。随着技术的不断进步，我们期待AI和人类程序员之间能够形成更加紧密和高效的合作模式，共同推动软件开发和技术创新的未来。

31 1 月 2024

马斯克：若想参与AI竞赛，每年至少都得花上数十亿美元

近期，特斯拉CEO马斯克在社交平台表示，价值5亿美元的「Dojo超级计算机」虽是一大笔金额，但只相当于内建100,000颗英伟达H100的系统。

马斯克透露，特斯拉今年采购的英伟达硬件将比这个数字还多，现在若想参与AI竞赛，每年至少都得花上数十亿美元。

同时，马斯克也表示，特斯拉也计划购买更多AMD芯片，但没提到哪一款，外界猜测可能是InstinctMI300系列，很可能是MI300X。

业界指出，目前 AMD 已成功缩小在性能、供应上的差距，因此英伟达不一定能寡占市场。AI市场在2024年不断增长，而AMD和Nvidia等供应商受益最大。

31 1 月 2024

针对AI，“美方希望切断中国获取主要途径”，外交部回应

在1月29日中国外交部例行记者会上，有记者提问称，彭博社报道称，美国希望云计算公司披露在其平台上开发人工智能应用程序的外国客户信息。这意味着华盛顿可以利用这些要求来切断中国人获取人工智能培训和托管关键服务的主要途径。请问外交部对此有何评论？

中国外交部发言人汪文斌说，人工智能发展治理攸关全人类的命运，需要的是群策群力协调应对，而不是“脱钩断链”、“围栏筑墙”。我们敦促美方不要违背科技发展的客观规律，切实尊重市场经济和公平竞争原则，为加强人工智能领域的国际协调合作创造良好条件。

30 1 月 2024

上海AI实验室开源发布科学大模型“浦科化学”

1月26日，上海人工智能实验室（上海AI实验室）开源发布首个科学大模型浦科化学（ChemLLM），拓展了大模型助力科学研究的探索路径。

基于书生·浦语2.0强大的基座模型能力，浦科化学通过注入海量化学专业数据，使大模型获得了理解和处理化学相关专业任务的知识与能力。同时，研究人员发现，随着化学能力的获得，大模型的数理学科及推理能力也得到增强。

浦科化学现已开源，并提供免费商用。

开源链接：https://huggingface.co/AI4Chem/ChemLLM-7B-Chat

专注核心：化学知识注入，专业能力突出

为了评估浦科化学的专业能力，上海AI实验室的研究人员对其在三种相关任务上的表现进行了测试：分子名称转换、分子性质预测和反应产物预测——这些任务分别涉及化学物质的表示、性质和转化，是化学研究的基础和核心。
分子名称转换方面，要求模型能够在不同分子表示方式之间进行准确转换，如SMILES、IUPAC名称、分子式等；

分子性质预测方面，要求模型能根据分子的结构和组成，预测其化学性质，如沸点、密度、溶解度等；反应产物预测方面，要求模型能根据给定的反应物和反应条件预测反应产物的结构。

测试结果显示，浦科化学在这三项任务上均表现出色，分别获得22.0、49.0和7.0的分数，远超过其他同规模模型的水平，并超越了GPT-3.5，证明浦科化学在理解和处理化学知识方面具备强大能力。

依托书生·浦语2.0基座模型优秀的多语言能力，浦科化学在经过专业化学知识训练后，还具备了优秀的化学专业中英文翻译能力，可帮助化学研究者跨越语言障碍，准确地翻译化学文献中的专有名词，获取更多的化学知识。

下图展示了浦科化学翻译的一篇2024年1月16日发表在《自然·化学》杂志上论文的摘要。

在专业化学知识训练之外，浦科化学也进行了初高中知识的学习。在回答初高中化学题目时，不仅能给出答案，还能给出具体的解释，下图展示了例子：

齐头并进：逻辑推理增强，泛理科能力涌现专项能力的增强，是否以牺牲其他能力为代价？实践证明，浦科化学不仅在化学领域表现出色，其在数学、物理及推理等方面能力均得到增强。

研究人员使用MMLU（大规模多任务语言理解数据集）作为测试集来评估浦科化学在通用场景下的性能，对语言模型的多项任务能力进行测试评估，并将浦科化学与其他同等规模的模型进行比较，以评估化学训练数据对基础模型的影响。

评测结果显示，浦科化学在大学化学任务上得分为47.0，超越了所有其他模型，这体现了它在回答化学问题及处理复杂化学任务的能力。研究人员发现，尽管没有对浦科化学进行数学和物理学科的训练，模型在大学数学、大学物理、STEM（科学、技术、工程和数学）类等相关领域上也获得了最佳成绩。

同时，浦科化学在形式逻辑任务上也达到了最高水平。上述结果表明，当对大模型进行进行化学专业训练时，其数理及推理能力也能得到增强。

有趣的是，浦科化学在道德场景、人文科学类、社会科学类等分项任务上也展现了优异的平均性能，这说明，对大模型进行专业某个学科的知识训练，不仅不会让大模型“分心”，反而有助于其道德水平及一般任务水平的提升。

举一反三：扩展大模型应用，助推科研新范式

对大语言模型进行化学专项训练，不仅扩展了大模型的应用空间，更为AI for Science相关研究开启了新的探索路径。上海AI for Science团队面向化学、物理、生命、地球等科学领域，通过深入研究各学科基础理论，结合最新人工智能理论，探索AI驱动重大科学问题的研究范式，加速人工智能在化学、药物研发、新材料、气象等领域的渗透与落地，赋能各行业发展。

其中，AI for Chemistry方面的研究以语言模型为核心，通过大模型连接智能化实验设备，全方位提升实验效率，从而实现化学研究的自动化和智能化。相关研究范式的创新，将助推科学发现速度，实现更大的社会效益。

未来，基于浦科化学模型，人工智能可为化学研究提供智能化辅助，如化学合成路径规划、化学反应条件优化、实验结果自动化分析等，从而提升化学研究的效率和质量。

30 1 月 2024

周鸿祎与百度再上演“AI搜索大战”，360上线AI搜索App

近日，360集团迎来了一项重大的升级——全新的大模型搜索产品“360 AI搜索”正式登陆多个安卓应用商店，版本为1.0.0。被冠以“新一代答案引擎”的名号，这一升级旨在为用户提供更为相关和全面的搜索答案。从问题输入到答案生成，360 AI搜索经历了一系列复杂的处理流程，包括问题分析、网页检索、重新匹配排序等，最终旨在呈现给用户逻辑清晰、有理有据、追根溯源的答案。

这一消息的发布引起了业界的广泛关注，360 AI搜索的推出不仅是对搜索引擎市场的一次冲击，更是在人工智能时代，360与其他巨头重新上演“搜索大战”的序幕。这一战役与之前的搜索引擎大战不同之处在于，巨头们都纷纷加入“AI搜索”的竞争，为领先技术和市场份额展开激烈角逐。

360 AI搜索被赋予“新一代答案引擎”的称号，其独特之处在于其复杂的处理流程，远不止于简单的问题回答。当用户在360 AI搜索中输入问题时，背后的引擎会迅速展开问题分析，通过网页检索收集信息，重新匹配排序，并最终提炼出用户需要的答案。这一系列流程的精密性旨在确保用户获取到的答案不仅相关性强，而且信息全面。

360公司创始人周鸿祎此前明确了公司的AI发展战略——“两翼齐飞”。这意味着360将继续全力自研生成式大语言模型技术，打造自己的技术引擎。同时，360还将占据场景，积极推出相关产品服务。这一战略的一部分就是360 AI搜索的上线，将AI技术融入搜索引擎，以提供更为智能和便捷的搜索体验。

在AI时代，搜索引擎的角逐愈发激烈。微软在2023年推出基于大模型的AI搜索产品New Bing，被认为对Google的搜索引擎市场形成冲击。与此同时，百度也在搜索页面内置“文心一言”大模型技术，实现Chat AI对话功能，加深了人工智能与搜索引擎的结合。

360 AI搜索的上线引发了对其性能的高度关注。根据了解，360 AI搜索上线首周，“360智脑”获得300万用户超过5000万次互动，多项指标甚至超越了GPT-3.5。这显示了360在大模型领域的实力和竞争力。

360 AI搜索的iOS版本于1月26日短暂上架苹果App Store，但不到22个小时后下架，原因尚不清楚。这一短暂的上线引发了关于iOS版本的关注和猜测，也表明了市场对360 AI搜索的期待。

AI时代的搜索大战愈演愈烈，360 AI搜索上线正与其他巨头形成激烈竞争。微软的New Bing、百度的“文心一言”以及其他大模型的介入，预示着搜索引擎市场将经历一场全新的洗牌。360 AI搜索的推出，无疑将与这场竞争紧密相连，作为AI技术与搜索引擎融合的代表，其性能表现将是产业关注的焦点。

回顾360公司的发展战略，周鸿祎明确指出360将“两翼齐飞”，致力于自研生成式大语言模型技术，并推出相关产品服务。360 AI搜索的上线正是这一战略的一部分，将AI技术与搜索引擎无缝结合，旨在为用户提供更加智能、定制化的搜索体验。这一举措不仅考验了技术实力，也意味着360在AI领域的战略布局。

360 AI搜索的上线首周表现出色，产品“360智脑”获得了惊人的用户互动量，多项指标甚至超过了国际知名的GPT-3.5。这无疑是对360在大模型领域不懈努力的回报，也彰显了中国企业在人工智能领域的竞争力。这一强劲的表现使得360 AI搜索更具备了在市场中竞争的资本。

然而，360 AI搜索的iOS版本上线短暂并随后下架，引发了一系列关于原因的猜测。这也引起了市场对于iOS版本的期待和关注。这一举动的背后可能涉及到多方面的考量，如技术适配、市场策略等，需要进一步的解读。

360 AI搜索的正式上线标志着AI时代的搜索大战再度拉开帷幕。百度、微软等巨头加入“AI搜索”领域，为搜索引擎市场带来了更多的可能性与挑战。360 AI搜索作为这场战争的新兵，不仅承载了360公司AI发展战略的一环，也代表着中国企业在AI时代的勇敢探索。

30 1 月 2024

七部门共推AI芯片发展，加快国产芯片替代，NVIDIA将失去中国市场

日前工信部、中国科学院等7部门联合印发《关于推动未来产业创新发展的实施意见》，其中包括了加快突破GPU芯片等内容，意味着中国将集中力量加速推进国产AI芯片发展，以国产芯片替代NVIDIA的芯片。

中国在AI芯片行业已打破空白，多家国产GPU/AI芯片企业表示他们的AI芯片性能已媲美NVIDIA的A100芯片，达到了较高的水平，国产AI芯片进一步发展需要国内诸多行业的合作，这次七部门联合发文将有助于加速国内诸多行业的协作。

AI芯片的研发涉及到EDA、芯片设计、芯片制造乃至内存芯片等行业，在EDA工具方面国内已涌现一大批EDA工具软件，有国产AI芯片表示已用国产EDA工具设计芯片并投入生产，国产EDA工具已可支持支14纳米工艺，与国内的芯片制造工艺同步。

芯片设计方面为中国AI芯片进展最快的部分，多家GPU芯片企业推出的GPU芯片已向市场推售，国产的AI芯片企业也已向企业大举交付AI芯片，这都证明了国产GPU/AI芯片设计方面已具有很高的水平。

芯片制造是当下国产芯片行业的最大瓶颈，此前手机芯片就说明了这个问题，不过随着某国内科技企业以国产芯片工艺量产接近7纳米性能的手机芯片，代表着国产芯片完全可以依靠现有的设备开发出接近7纳米性能的工艺，甚至浸润式光刻机之父林本坚表示中国芯片行业可依靠现有的芯片设备开发5纳米工艺。

另一个影响国产AI芯片替代进口芯片的最大因素则是生态方面，这也是NVIDIA赖以垄断AI芯片市场的关键，由于国内AI软件/大模型大多基于NVIDIA的CUDA平台搭建，由此让NVIDIA的CUDA平台垄断了AI软件行业，这是NVIDIA即使连连阉割AI芯片性能却依然得到国内企业采用的原因。

由于国内企业考虑到同业竞争的关系，他们在采用国产AI芯片的时候颇有顾虑，再加上CUDA平台的考虑，这都对他们采用国产AI芯片有所考虑，然而如今在七部门联合推动下，将有望打消这些企业的顾虑，促使他们采用国产AI芯片。

国产AI芯片的发展和生态的建立都有赖于国内企业的采用，一旦在七部门联合推动下，国内企业大举采用国产AI芯片，国产AI芯片的产业链和技术水平都将得到快速完善，加快国产AI芯片的替代。

这对NVIDIA将影响深远，因为国产AI芯片的生态一旦建立，技术水平进一步缩短与NVIDIA的差距，那么NVIDIA将彻底失去中国市场，还有中国芯片向来拥有高性价比优势，目前在成熟工艺芯片方面就已显示出强大的竞争力，不仅中国企业在大举采用国产成熟芯片，国产的成熟工艺芯片还获得海外企业的认可，乃至美国家电制造商都在采用，未来国产AI芯片有望走向国际市场抢夺NVIDIA的市场。

NVIDIA依靠垄断优势在AI芯片市场赚得盆满钵满，而中国则是全球最大的芯片市场，如果中国芯片打破NVIDIA的垄断，势必将对NVIDIA产生巨大影响。

事实上不仅中国芯片在努力打破NVIDIA的垄断，美国的Intel、AMD等都在积极打破NVIDIA的垄断，美国的做法或许将导致NVIDIA的辉煌就此戛然而止，而中国芯片必将拼出一条自己的路。

30 1 月 2024

通知公告丨中国人工智能学会关于表彰2023年度优秀专业委员会的决定

根据《中国人工智能学会专业委员会管理办法》及《中国人工智能学会专业委员会工作考核评价办法》的有关规定，学会组织工作委员会于2024年1月26日以线上会议形式召开2023年度专业委员会考核评审会。经学会组织工作委员会审议，确定以下10个专业委员会被评定为“2023年度中国人工智能学会优秀专业委员会”：

● 机器学习专业委员会

● 粒计算与知识发现专业委员会

● 智能服务专业委员会

● 智能机器人专业委员会

● 人工智能基础专业委员会

● 智能驾驶专业委员会

● 知识工程与分布智能专业委员会

● 社会计算与社会智能专业委员会

● 机器博弈专业委员会

● 智慧医疗专业委员会

特此表彰，以资鼓励。

中国人工智能学会

2024年01月30日

29 1 月 2024

美国将限制中国，使用Azure、AWS等云，训练AI大模型

1月29日，美国商务部在Federal Register（联邦公报）正式公布了，《采取额外措施应对与重大恶意网络行为相关的国家紧急状态》提案。

该提案明确要求美国IaaS（云服务）厂商在提供云服务时，要验证外国用户身份，限制外国行为者对美国IaaS产品的访问，并要求详细报告训练AI大模型的外国交易，以保护美国的网络安全和利益。

美国商务部长Raimondo在接受路透社采访时说：“我们不能让非国家行为者、中国或者美国不希望那些使用我们云服务人，来训练他们的AI大模型。”

该提案将对微软的Azure、亚马逊的AWS、谷歌的Alphabet等美国云服务商产生重大影响。同时为国内的讯飞星火、文心一言等大模型带来商业契机。

该提案一共38页，「AIGC开放社区」为大家介绍D部分，基础云服务商，有验证客户身份的责任、特殊措施以及使用其产品进行AI大模型训练的详细主要内容。

目的和AI模型定义

1）要求美国 IaaS提供商实施相关计划，保存与外国人拥有权益的 IaaS 帐户相关的某些记录，并核实这些人的身份。

同时要求其外国分销商也这样做，以方便执法部门要求提供这些记录，并以其他方式执行第13984号行政命令和第 14110 号行政命令的规定。

2）AI大模型主要包含两大类：基础大模型，基于广泛数据训练的AI模型，一般采用自我监督包含至少数百亿参数；

生成式AI，能模拟输入数据的结构和特征，从而生成全新的内容，包括文本、图像、视频、音频和其他数字内容。

客户识别计划

1）一般情况下，每个美国 IaaS 提供商必须维护和实施符合要求的书面客户识别计划 (CIP)。

2）CIP范围，CIP必须适合 IaaS 提供商的规模、所提供 IaaS 产品的类型和相关风险（包括 IaaS 提供商提供的各种服务类型、开立账户的各种方法、可用识别信息的不同类型以及 IaaS 提供商的客户群所带来的风险）。

任何 IaaS 提供商如果只是美国 IaaS 产品的转售商，则可通过与初始美国 IaaS 提供商达成协议，参考、使用或采用初始美国 IaaS 提供商的 CIP 以满足限制要求。

3）身份验证，CIP 必须包括基于风险的程序，用于验证每个外国客户的身份，使美国 IaaS 提供商或美国 IaaS 产品的外国转售商，能够合理地相信自己知道每个客户的真实身份。

4）客户信息要求，CIP要求美国IaaS提供商和销售美国IaaS产品的外国转售商，必须通过适当程序核实潜在客户及其实际所有者是否为美国人。

如果确认客户和所有受益人都是美国人，那么这个规定就不适用于为这些美国客户开设的IaaS账户。如果非美国人，这些提供商和转售商需要进行合理的尽职调查，以验证那些客户的真实身份。

5）CIP 必须包含开立账户的程序，具体说明将从每个潜在客户和账户受益所有人处获得的识别信息，以确定他们是否为美国人。这些程序必须为美国 IaaS 提供商或美国 IaaS 产品的外国转售商提供可靠的依据，以核实其客户和实际所有人的真实身份，并反映合理的尽职调查努力。

AI大模型训练审核报告

如果一个大模型符合《联邦公报》公布的解释性规则中规定的要求，则该模型应被视为具有可用于恶意网络活动潜在能力的，AI大模型。以下是需要进行审核的案例展示。

1）外国公司 A 提议在美国 IaaS 提供商 B 公司的计算基础设施上训练一个AI大模型，并与 B 公司签订了训练所提议模型的协议。

A 公司寻求训练的模型的技术规格符合大型AI模型的技术条件，该模型具有可用于恶意网络活动的潜在能力。则需要报告详细的训练过程。

2）A 公司（美国人）对 B 公司（外国人）进行股权投资，其中一部分投资以使用 A 公司计算基础设施的信用额度的形式进行。

A 公司有理由相信，B 公司打算使用这些信用额度来训练一个大型AI模型，该模型具有可用于恶意网络活动的潜在能力。

3）A 公司（美国人）同意为 B 公司（外国人）训练一个AI模型。一开始，商定的模型技术规格不符合双重用途基础模型或令人担忧的模型的技术条件。

然而，在培训开始后，培训程序的调整或对模型能力的新认识使A公司有理由相信，该模型实际上将具备大型AI模型的技术条件，其潜在能力可用于恶意网络活动。

4）A 公司（美国人）同意为 B 公司（外国人）在 C 公司拥有的设施内的计算基础设施上训练一个AI模型。并具备AI大模型的技术条件，有可能被用于恶意网络活动的潜在能力。

29 1 月 2024

关于AI+，这些建议很有意思

当前，AI已然成为社会备受关注的热点，人们对于未来AI在各领域带来的影响，充满许多期待。

面对汹涌而来的大模型浪潮，以及随着5G、AI等技术向着产业的纵深方向推进，深圳如何利用AI赋能，更好地做好公共服务供给？又可以从哪些方面加快培育新质生产力，塑造高质量发展新优势？

1月28日，在政协第七届深圳市委员会第四次会议联组讨论会、分组讨论会上，来自经济界、工商联、科学技术界、教育界、医疗卫生界等各领域的市政协委员都不约而同提出了一系列关于“AI+”的提案，建议要在教育、医疗、出行、产业等方面充分利用AI技术，更好地赋能城市发展，改善民生，进一步增强市民群众的获得感和幸福感。

AI+产业

市政协委员邓文俊

建议深圳打造自己的AI算力赋能平台

新一轮通用人工智能大模型热潮迅速兴起，孕育催生一批战略性新兴产业和未来产业新模式、新业态。市政协委员邓文俊建议深圳打造自己的AI算力赋能平台，降低全行业使用AI大模型的门槛，让AI技术从“旧时王谢堂前燕”，到“飞入寻常百姓家”。

“我们在大模型开发中也走过不少弯路，但现有技术已经能够将训练成本降低60%、推理成本降低75%。建议依托大模型企业的实践经验，由政府牵头引导龙头企业和行业组织，联合打造AI算力赋能平台，降低训练和推理成本，提升大模型开发落地的便利度。”邓文俊表示。

市政协委员蒋希勇

建议搭建“深圳市算力共享平台”

作为中国的高科技产业中心之一，深圳拥有全国最高级别的AI“密度”，AI产业发展的基础是数据、算法和算力，然而，当前深圳依然面临着中小科技企业算力供给不足问题。

对此，市政协委员蒋希勇提出，相关政府部门可指导市属国有企业联合搭建“深圳市算力共享平台”，平台定位为深圳市的市级算力基础设施，不以营利为主要目的，侧重为中小科技企业提供相对低成本、可靠且易于访问的计算资源服务。在提供算力的同时，平台还可以提供算力技术支持和协作工具，以提高整个城市的算力资源利用效率。

市政协委员江水

呼吁大力发展机器人产业

当前，AI赋能产业发展已成为主流趋势。围绕人工智能发展这一社会关注热点话题，市政协委员江水带来了“要大力发展深圳市机器人产业”这一提案，指出要推动机器人在机场、地铁站、高铁站、医院等场景应用，推动产业转型升级。

江水在提案中指出，深圳作为创新之城，具备利用人工智能发展机器人产业的良好基础，然而，当前在发展机器人产业过程中仍面临一些问题，如市场分散、缺乏统一规划等问题。因此，建议通过采取一系列措施大力发展机器人产业，推动城市经济转型升级。

AI+民生

市政协委员黄鼎隆

培养适应AI时代的“超级教师”

作为一名长期在科技领域耕耘的市政协委员，黄鼎隆认为AI技术将不断融入教育场景。在今年“两会”上，他聚焦于探讨如何利用AI技术培养出适应AI时代的“超级教师”，为深圳教育的高质量发展注入新的活力。

在采访中，黄鼎隆回忆起自己在深圳学习的岁月，他说以前深圳的教育条件还十分有限，而如今却已达到全国领先水平。这其中，每一位教师都付出了巨大的努力和心血。而如今，面对AI技术浪潮的冲击，教师们又将如何乘风破浪，继续前行？

“人工智能的技术突破又给深圳教育带来了一个巨大机遇，我认为深圳的教师也需要与时俱进，借助这波人工智能技术革新浪潮，成为AI时代的‘超级教师’。”黄鼎隆提出了打造AI时代的“超级教师”这一概念。他说，政府部门、科创企业应该充分思考未来AI在教育场景的运用。

黄鼎隆认为，借助AI工具，教师可以实现课前、课中、课后的全方位个性化教学，“超级教师”并非遥不可及的概念，而是教育未来的必然趋势。

市政协委员袁静

打造“把养老院搬回家”新型养老模式

面对老龄人口规模持续增长，如何做到“老有颐养、健康养老”？在AI人工智能产业快速发展今天，“AI+养老”又会碰撞出怎样的火花？

市政协委员袁静表示，深圳预计2035年老年人口规模接近300万人。因此，要提前利用以AI为代表的科学技术，推进养老事业，建设“智慧居家养老社区”，率先在深圳打造“把养老院搬回家”的新型养老模式。

她建议，要利用深圳高科技条件，整合无线传感、物联网、人工智能、5G、远程会诊、健康医疗、芯片等技术，推进新一代信息技术和智能硬件在社区居家养老领域创新应用；同时，推进综合性智慧养老产业发展平台建设，加快新型基础设施建设，统筹推动城市养老服务设施和设备的智能化、适老化、家用化改造升级，加快研发面向家庭、社区和机构的智慧养老服务系统，建设“智慧居家养老示范社区”。同时，通过建设“智慧居家养老示范社区”，可以探索并建立行业规范和标准，推进养老事业高质量发展。

市政协委员陈宁

创新城市道路精细化治理模式

中国是世界上电动自行车保有量最多的国家，截至2022年已达到3.5亿辆。虽然电动自行车为市民出行提供了便利，但骑行不佩戴头盔等违规行为给骑行人和道路安全带来了巨大隐患。市政协委员陈宁关注电动自行车的安全管理，特别聚焦于创新“AI+电动自行车”应用，呼吁打造超大城市道路精细化治理典范。

“近四成交通事故与电动自行车相关，电动自行车治理面临着违规事件类型多、事故随机性强、态势掌握难等挑战，亟须创新治理方式。”陈宁说。

在他看来，AI具备泛化推理与逻辑能力，在电动自行车治理中能够发现事件、分析问题、构建数据网络，进而推动安全治理工作。

基于此，他认为首先要建立起智能感知网络，利用已建成的视频感知点位，精准识别实现全市电动自行车违规事件，提高发现问题的效率。其次，要利用AI打造智能化的电动自行车治理和分析平台，挖掘违规行为、规律。通过分析高频发生违规、事故的路口和时间段，精准调度和匹配治理资源，最大化实现安全管理效能。

29 1 月 2024

Cubox 解读｜AI 2.0 重磅回归

Cubox 解读（Cubox Insight）是 Cubox 专为阅读而生的全新 AI，基于多种大语言模型而构建。

这是一套能够自动总结摘要、解读关键问题、自动标注、问答和分析的强大 AI。在你收藏的内容或订阅的 Newsletter 到达收集箱时，Cubox 将自动处理并在你的阅读首页为你就绪，无需手工操作或等待。

我们为什么需要 AI 来辅助阅读？对不同类型的阅读者来说，AI 能够用于辅助阅读的目的也不大相同，相信在同时推送的另一篇文章中，你会找到自己的灵感。不过，仅仅是帮助高效地筛选值得阅读的文章、快速了解每日的行业动态，或是如同有真人一般与你深入讨论、沟通相关知识，AI 都能够为你的阅读带来全新的可能。

借助 Cubox 解读，你可以：

了解每日动态：尽情收藏内容到 Cubox，并在固定的时间打开，从自动解读的总结中，了解每日的动态和信息，并阅读自己真正感兴趣的文章。

阅读外语文章：尽情收藏英文、外文网站的第一手内容，通过中文的解读，了解文中主要观点，如果有兴趣继续阅读，通过 AI 问答翻译为中文，快速了解。

学习知识：通过解读直接了解文章中的关键观点，并通过问题的阅读和展开，快速验证自己对这些关键问题的理解，或获取关键的行业信息。

预览精彩文本：通过解读中的幻影高亮，阅读 AI 划线出的精彩文字，带着好奇，点击跳转到对应位置继续了解上下文的观点，或一键标记为自己的标注，写下笔记。

交互式深入阅读：在阅读某段文字产生更多好奇心时，求助 AI 解释相关内容，或者提供扩展的阅读资料；遇到有趣的内容，让 AI 写一段分享文案，快速分享给好友；阅读过程中，有一些想法但不知道如何组织，让 AI 帮助写一篇阅读笔记大纲，再去高亮笔记中笔记编辑，方便未来回顾。

处理已读内容：通过简单的卡片滑动，将解读标记为已读，此时对应的文章也将被标记为已读；遇到不希望继续阅读的，无价值的文章，在解读卡片中一键归档或删除。

全新浏览器扩展

Cubox 的浏览器扩展也已同步支持 AI 2.0 解读功能。当你在浏览器阅读任何内容时，通过悬浮的解读按钮可一键获取当前文章的总结与分析。每个页面的解读都将与页面一同被保存到 Cubox，方便你在 Cubox 中继续阅读、重看或回顾。

Cubox 解读的使命，是让阅读回归真正的本质：知识。为此，它不会用 AI 替代真正的好阅读，它会全力让 AI 灵活服务于不同的阅读方式，让每一位阅读者都能悄然进化，成为优质的学习者，最终提升对信息的筛选、利用和理解力。

无论是 Cubox 团队，还是所有阅读者，对未来阅读方式的探索一定会布满迷雾，尤其是当时代的信息过载遇到了 AI 时刻。我们不能只是作为理论家和旁观者，去等待权威经验的降临，我们应当投身其中，不断实践，用热情和行动找到通往阅读本质的路。

29 1 月 2024

高盛预测七大趋势：AI仍是主旋律，美国制造业复兴

高盛策略师在报告中写到：“美国经济的前景看起来确实很明朗。”他们提到，美国国债收益率正在下降，美联储即将转向更宽松的货币政策，同时GDP增长速度也高于市场普遍预期。

展望2024年，高盛提出，以下七大主题可能影响市场。

1. 生成式人工智能

2023年毫无疑问是“人工智能年”，而高盛预计，人工智能主题将继续贯穿2024年股市话题。

高盛预计，人工智能技术和创新最终将提高各个产业生产率，并将美国2024年的GDP年增长率提高0.4%。

策略师们推荐亚马逊和英伟达等AI概念股，并表示：“对于那些能够提供计算能力和平台来支持人工智能计划的公司来说，人工智能可能会带来巨大的繁荣。”

2. 绿色能源支出

高盛策略师在报告中写道：“全球应对气候变化的必要性正变得越来越明显，随着各国政府鼓励一波新的发展浪潮，帮助从化石燃料向可再生能源过渡，企业正在应对正在出现的机遇。”

高盛指出，太阳能行业的公司、从垃圾中提取甲烷气体的公司以及核能公司可能会从这一趋势中受益。

3. 私人信贷

高盛表示，投资者今年将期望私人债务交易的回报可以超过公开市场，而资产管理公司提供的私人信贷零售产品在过去一年获得了吸引力。

策略师们指出，“保险公司正越来越多地将资金配置到私人市场，为这个市场创造了一个可靠而庞大的资金来源。”

4. “后疫情时代的回声”

随着全球已经逐步适应新冠疫情后几年的新常态，“后疫情”主题可能已经走到了最后阶段。

在经历了新冠疫情带来的多年异常之后，全球交通和旅游等多个行业仍在调整中。高盛策略师们表示，还有两个行业值得注意，即金融和科技——在2023年，金融行业摆脱了地区银行危机，而科技行业则在2021年经历了后疫情时期的泡沫破灭。

“进入2024年，基调似乎确实在改变，”高盛策略师们表示，企业的招聘似乎正在加速，尤其是在软件公司。而这一迹象之后往往伴随着行业增长加速。

5. 减肥药

“减肥药”概念在2023年异军突起，一度引发市场炒作热潮。而高盛认为，2024年，对于减肥药的狂热炒作还将继续。

2023年，由于其减肥药大受欢迎，礼来公司的股价累计上涨了近60%，使其成为标普500指数中市值第九大的公司，并被誉为2023年的主要赢家之一。

高盛表示，2024年，礼来竞争对手将推出类似的药物，以解决肥胖以外的一系列问题，从而继续带动减肥药概念的炒作。策略师们预计，对GLP-1药物的需求仍将是一个值得关注的关键趋势。

6. 美国制造业复兴

高盛表示，气候变化、后疫情时期的连锁反应和去全球化趋势，都将有助于美国制造业的复兴。

高盛估计，到2030年，美国半导体、电动汽车和充电站领域的产业趋势可能会推动高达6000亿美元的增量资本支出。

7. 互联网步入更成熟的增长阶段

高盛表示，与10年前相比，互联网公司的增长正在走向成熟阶段。而随着互联网增速放缓，这促使企业探索新的领域和子行业，以保持扩张。

高盛表示，这推动了“一种探索，导致广告和商业之间的运营界限、消费习惯和规模生态系统内的总体消费者行为之间的界限变得模糊”。

高盛表示，亚马逊是有望在这一领域蓬勃发展的公司之一。

26 1 月 2024

Airbnb斥资2亿，收购了家只有12个人的AI初创企业

一如当年“互联网+”的热潮，眼下“AI+”跟各行业的结合，也在迸发新的想象空间。
前不久，民宿巨头Airbnb宣布收购一家12人规模的AI初创企业GamePlanner.AI。CNBC称Airbnb此次收购花了差不多2亿美金，这也是Airbnb上市后的首次收购。

民宿跟AI，看似两个相隔甚远的领域，但在Airbnb身上产生着奇妙的融合。根据Airbnb方面的说法，GamePlanner.AI将补充Airbnb现有的一系列AI技术，包括大语言模型、计算机视觉模型和机器学习等等。Airbnb CEO Brian Chesky 更是强调：
AI将比任何其他技术更迅速地改变世界。 为何Airbnb开始大规模布局AI？拥有AI的Airbnb又将进化成何种角色？

01GamePlanner.AI是谁?
当AI火遍全球，无数AI创业公司如雨后春笋般冒出之时，GamePlanner.AI并不算特别有名。
不过Brian Chesky认为它很独特，他曾这样曾形容：“GamePlanner.AI 之所以如此特别，是因为它们结合了人工智能、设计和社区方面的专业知识。” GamePlanner.AI成立于2020年，由Adam Cheyer和Siamak Hodjat联合创立，专注于利用AI和机器学习技术为企业提供智能决策支持。Adam Cheyer曾是苹果Siri团队早期成员，也被称为“Siri之父”。
尽管AI红的发紫，但GamePlanner.AI非常低调，自成立以来一直采取“隐身模式”运营，以至于外界难以深入了解这家企业。当然了，这其实也是一种经营策略，过去很多初创企业都采用这种策略远离公众视线，目的是保护知识产权或避免分散业务。
面对这次Airbnb抛来的橄榄枝，Adam Cheyer 表示，Airbnb 吸引自己的一个重要原因是，双方都致力于利用AI来实现人与人之间的联系。
在这起收购案背后，2023年美国掀起汹涌的AI资本热潮。Crunchbase数据显示，今年对美国初创企业的投资，超过四分之一流向了AI相关公司。纵向比较来看，Crunchbase报告显示，从2018年到2022年，AI初创公司平均吸引了美国风险资本的12%，不到当前水平的一半。

AI投资之所以能够爆炸式增长，一个重要的原因在于它并非离散的，而是可以应用于许多行业，比如房地产AI公司、金融科技AI公司、生物科技AI公司等等。伴随着给各行各业带来新的动能，普华永道预计至2030年AI将为世界经济贡献15.7万亿美元。在众多行业当中，旅游行业同样能够被AI注入新鲜血液。

布局AI背后的隐忧

眼下的AI仿佛成为金手指，跟它沾点关系的行业或者企业，许多都能获得资本的偏爱。
对于Airbnb来说，现在布局AI既是主动进击，也是无奈之举。

整体上看，Airbnb交出了一份较为平淡的成绩单，另外让市场担忧的是，Airbnb在财报里面提到，预计第四季度的业绩将出现更大的波动性，目前公司还在密切关注宏观经济趋势和地缘冲突对旅游需求的影响。路透社认为，由于成本上升、游客出游意向度下降、经济下行、地缘条件不稳定等因素，Airbnb对接下来第四季度业绩的预期低于分析师预期——Airbnb预计第四季度收入在21.3亿-21.7亿美元之间，而分析师们的平均预期则在21.8亿美元左右。
收入不及预期，除了宏观经济和旅游波动，还有一个原因就是远程办公的人数下滑了。
此前，Airbnb是全球远程办公最大的受益者之一，因为员工会在Airbnb上预订各类房源用来远程办公，然而今年越来越多的公司要求员工回归办公室。亚马逊就宣布，要求员工从5月份开始每周返回办公室三天。当更多的公司取消远程办公，无疑会间接影响Airbnb的业绩。
更为严峻的是，在业绩持续不及预期的形势下，当下Airbnb市值仅为895亿美元，几乎跟上市之初的850亿美元持平。
此时，Airbnb需要给资本市场讲一个更大的故事，而AI就是那个画出大饼的金手指。

03AI时代下的Airbnb

AI能够给Airbnb带来资本增值上的想象空间，同样能够带来用户体验上的想象空间。自从Expedia、Hotels.com出现以后，过去25年旅行搜索并没有发生太大变化。然而AI的出现，将让这一切变得不同。
Brian Chesky 曾说，今年年底外界将会看到一个全新的Airbnb，而AI将成为其中的核心。其实就是Airbnb会通过AI改善流程环节，包括预测搜索、预测定价、用户分析、去伪存真等等。
预测搜索：Airbnb 之前使用地点、日期、逗留时间和价格等因素，将客户跟房源进行匹配。现在通过AI和算法，可以提供更有针对性的推荐，从而增加成功预订的可能性。比如，使用AI分析客户点击的地点、查看的地点和房东偏好等因素，就能给客户推荐最有可能预订的房源。
预测定价：在分析地点、日期、逗留时间等数据后，Airbnb 可以使用AI和算法为房东定价。这个过程会考虑酒店特征、预订趋势、当地活动和竞争对手等因素，从而采用最有可能吸引预订的价格，实现收入最大化。
客户分析：并不是每一个住户，都会受到房东喜欢，住户和房东的纠纷从来没有停止过，Airbnb将使用AI和算法进行背景调查，评估住户的可信度。这个过程涉及利用AI扫描社交媒体资料，由此形成住户画像。 去伪存真：今年以来，Airbnb已利用AI技术下架了5.9万个虚假房源，并阻止了另外15.7万个假房源加入平台。Airbnb还计划开始验证其在美国和英国等五个主要市场的所有房源，以应对假房源泛滥的现象。通过AI，Airbnb在经营上可以实现降本增效，对于住户来说，可以更便捷地找到自己想要的民宿，对于房东来说，可以以更好的价格吸引到更多住户，这将会产生多赢的局面。
▼
回到Airbnb收购GamePlanner.AI 这起收购案上，Airbnb看中的是GamePlanner.AI的技术。这次收购，意味着Airbnb力图保持在AI领域的领先地位，尤其是在提升旅行和酒店的体验方面。
这起收购案也向市场透露一个信号，如果企业想要积极进取，就必须走出自己的舒适区。
激进的商业实验，往往跟引领创新的初创公司相关。

Airbnb过去也是引领创新的弄潮儿，现在却变成落后于时代创新的选手。那些抵制变革的老牌企业更应该认识到，AI等新技术的浪潮势不可挡，只有加入它才不会被时代抛弃。

虽然疫情减退后，全球旅游业迅速回暖，但依然没有恢复到疫情之前的水平。数据显示，2023年全球旅游总人次将达107.8亿人次，全球旅游总收入将达5.0万亿美元，分别恢复至2019年的74.4%和86.2%。

过去三年的全球疫情，让Airbnb元气大伤。尽管根据Airbnb前不久发布的2023年Q3财报，营收和利润都实现增长，但仍没达到市场预期。数据显示，今年第三季度Airbnb营收约 34 亿美元，同比增长18%，增速和上季增长持平，没有带来太大惊喜；由于控费的贡献，经营利润约为15亿美元，但增长幅度不大，同样没给市场带来惊喜。

比如，AI大模型能够在智能问答、个性化筛选推荐、提升供需匹配等方面提供助力。在国内，不少旅游相关的公司也在纷纷布局AI。今年10月，携程对外宣布接下来将持续围绕AI等三方面进行创新，包括完善问答大模型，将生成式AI融入各项产品等等。 Airbnb收购GamePlanner.AI，也是在顺应大势。当然，这背后也有它自己的隐忧和野望。

26 1 月 2024

8大全球顶流的AI预判，一文看懂未来20年

凯文·凯利：
未来50年是AI的时代

凯文·凯利以“互联网教父”“硅谷精神之父”“科技预言家”之称享誉全球。早在1994年，他就在《失控》中，预言了很多今天大热的技术：云计算、物联网、网络社区、虚拟现实、共享经济、虚拟货币等等。接下来的二十多年，这些预言一个一个照进现实。在新书《5000天后的世界》，凯文·凯利又做了一次科技预言：未来将会是一切都与AI相连的世界。

软件开发公司微软颠覆了制造计算机的IBM，搜索引擎公司谷歌将微软推下了王座，超越谷歌的新王者是社交媒体公司脸书。下一个胜出的必然是AR公司，Open AI就是一个绝佳案例，不管未来前景如何，这家初创企业的确是AI领域的颠覆者。

在未来的50年，甚至更长的时间内，AI还会继续发展，并颠覆我们的生活。各种各样的事物都会拥有智能和情感，会出现类似于新产业革命的变化。

智能手机之后应该是什么呢？

第一种是虚拟现实VR，把机器戴在脑袋上，你可以看到一些东西。

第二种是MR，也就是现实和虚拟混合。你如果把这样一个眼罩戴上的时候，每一件事情都是以3D的方式存在的，你可以用手控制这些现实，而且你真的是相信这些现实是存在的。

2050年的时候，电脑会变成什么样子？

从现在开始我们要进入“沉浸式计算”的时代。我们身边的一切都要和计算相关联，也就是所谓的“普适计算”时代。计算机不再是摆在桌上或随身携带的硬件，而成为环境中无处不在的存在。

基本上你可以用整个身体没有任何障碍地互动，电脑是全方位可互动的机器。就像交响乐团的指挥家一样。通过纳米雷达技术，可以知道手指动作的意义。

在一个新事物产生之初，我们很难预知它的影响会波及哪些方面。同理，我们比较容易想象出“X+AI”的组合，但是很难预测由此造成的影响。

以汽车为例。当汽车遍布全世界的时候，紧随其后出现的是交通堵塞、上下班高峰。那么将汽车换成AI呢？当AI无处不在的时候，当我们使用的所有工具都和AI相关，当我们已经对AI习以为常，甚至意识不到它的存在的时候，会发生什么呢？

你可以想象一下，比如再过50年，全世界最牛的、最有影响力的100个智能体里面，也许只有20个会是人类，剩下80个都是AI。最后人类和AI一定是融合，而不是控制。

现在没有人是AI的专家——很多人懂AI，但是没有人是专家。跟30年后的我们相比，现在的我们就是一无所知。我们看过去，认为过去是好的创业时机。同样，现在也是最好的创业时机，因为我们还处在AI时代的起点。

山姆·奥特曼：
2030年之前会出现AGI

2022年11月，ChatGPT横空出世，仅花了60天，就创下了月活过亿的神话，成为史上用户增长最快的互联网应用程序，引爆了AI时代。Open AI首席执行官、“ChatGPT之父”山姆·奥特曼（Sam Altman）也成为了当下最炙手可热的科技领袖，在2023年获评美国《时代》杂志“年度首席执行官”。1个月前，山姆·奥特曼发布了自己的“2024愿望清单”：

1.2024年的12个愿望清单

2023年12月24日，山姆·奥特曼在社交平台上发起了一个“许愿池”——希望Open AI在2024年构建/修复什么？从海量回答中，他挑选了12个期望值最高的愿望清单，可以折射出 Open AI 2024年的路线图：

AGI（请保持耐心）；GPT-5；更好的语音模式；提高访问限制；更好的GPTs；更好的推理能力；对觉醒/行为程度的控制；视频处理/生成能力；个性化定制；更强的联网搜索能力；使用Open AI登录；开源。

2.2030年之前就会出现AGI

如果我们能够开发出一个系统，能自主研发出人类无法研发出的科学知识时，我就会称这个系统为AGI（通用人工智能）。人类可能在2030年之前，开发出AGI，也就是GPT-10，它比全世界所有人加起来还要聪明。我们可以让AGI去完成那些人类不需要但是“不得不做”的工作，从而让每个人都去做自己喜爱的，能够全情投入的工作，充分发挥每个人的潜力。

当真正AGI降临那天，如果它成为“天网”，Open AI还有备选项。Open AI的财务文件规定了一种退出应急方案，以防人工智能摧毁我们的整个经济体系。

3.除了AI，我最感兴趣的是核聚变

在AI之外，我最感兴趣的事情是可控核聚变。如果人类要创造一个富足而无忧无虑的未来，最重要的两件事：首先是让智能的成本大幅度下降，其次就是让能源的成本大幅度下降。Open AI在做第一件事，而第二件事，可能只有可控核聚变才能达到，能让人类可以获得无限的清洁能源，这会改变一切。

比尔·盖茨：
2个预测，1个经验，5个问题

作为微软公司创始人，比尔·盖茨曾在2019年向Open AI投资了一百多亿美元，成为OpenAI的背后“金主”。从2022年底发布Chat GPT大模型以来，微软市值增长超1万亿美元，重新成为全球市值最高的公司。比尔盖茨坦言，他正在见证“人生的第二次革命性时刻”。

2023年末，他在个人博客上写道：“AI纪元已经开始”（The Age of AI has begun），并将他眼里的2023年描绘成了一个新时代的全新开端。

2个预测：

如果我必须做出预测，那在像美国这样的高收入国家，距离普通大众广泛地使用人工智能还有18到24个月的时间。在非洲国家，我预计在三年左右的时间里会看到类似的使用水平。这其中仍然存在差距，但它比我们在其他创新中看到的滞后时间要短得多。

1个经验：

2023年是我第一次在工作中出于「严肃的原因」使用人工智能。与前几年相比，世界对AI能够自己完成哪些工作以及「充当哪些工作的辅助工具」有了更好的认识。但对于大部分人来说，要让AI在工作场景中充分发挥作用还有一定距离。

行业应该吸取的一个最重要的教训是：产品必须适合使用它的人。比如，巴基斯坦人通常互相发送语音留言，而不是发送短信或电子邮件。因此，创建一个依赖语音命令而不是输入长查询的应用程序是有意义的。

5个问题：

盖茨提出了5个问题，希望人工智能可以在相关领域发挥巨大作用：

-人工智能可以对抗抗生素耐药性吗？

-人工智能能否为每个学生创造出个性化的导师？

-人工智能可以帮助治疗高危妊娠吗？

-人工智能可以帮助人们评估感染艾滋病毒的风险吗？

-人工智能能否让每个医务工作者更轻松地获取医疗信息？

如果我们现在做出明智的投资，人工智能可以让世界变得更加公平。它可以减少甚至消除富裕世界获得创新与贫穷世界获得创新之间的滞后时间。

黄仁勋：
AI将在五年内与人类“平起平坐”

华尔街分析师曾说：“人工智能领域正在发生一场大战，而黄仁勋的英伟达是唯一的军火商。”英伟达CEO黄仁勋靠为AI提供算力，身价一夜暴涨460亿，公司市值涨了2个英特尔，突破万亿美元大关。作为人工智能技术背后最大的推动力量之一，黄仁勋在2023年底举办的《纽约时报》的年度峰会上表示，人工智能正在超越人类。

1.人工智能将在五年内与人类“平起平坐”

如果把通用人工智能（AGI）定义成：与人类智慧相比，能以“相当具有竞争力”的方式完成测试的电脑的话，那么这有可能在5年内实现。科技行业距离通用人工智能还有数年时间的原因之一是，虽然机器学习目前已经熟练掌握了识别和感知等任务，但还不能进行多步骤推理，而这正是AI公司和研究人员的当务之急。

AI领域的竞争，将会导致现成AI工具涌现，各种不同行业的公司，将会依照自身需求进行调校，应用层面将涵盖晶片设计、软体开发、新药发现、放射线医学等。

2.计算技术将会每十年进步一百万倍

通用计算诞生60年以来，开始出现了向加速计算的转换，通过并行计算，使得GPU时代的算力相比CPU大幅提升。而神经网络和深度学习的发展，也让计算机获取知识变得更加快捷，带来了计算机的智能化飞跃。

传统计算方式依赖于预设的算法模型，缺少学习和理解能力。而结合深度学习，系统可以对数据进行调整优化提升算力的利用率。

这是60年以来第一次看到通用计算和人工智能两种技术转型同时出现。二者结合将会带来1+1>2的效果，甚至会让计算技术每10年进步一百万倍，两年之内英伟达乃至整个行业也会“面目全非”。

3.美国“芯片独立”至少需要10-20年

英伟达的系统中有35000个零部件，来自全球各地的供应商，其中80%由台积电及其供应链提供，他们遍布世界各地。美国还需要10到20年的时间来实现供应链独立。在一两年间，这并不是一件能够实现的事情，供应链的独立性将非常具有挑战性。

李彦宏：
AI时代的两大陷阱和三大驱动力

在国内市场经历了一年的“百模大战”之后，业界和公众有限的注意力最终绝大部分都分配给了极少数头部玩家。比如，百度的文心一言，是全球大厂中第一个做出的对标ChatGPT的产品。

2023年，百度创始人、董事长李彦宏被《时代》周刊评为“全球AI领袖”，是该榜单中唯一入选的中国企业家。在去年年底的2023西丽湖论坛上，李彦宏分享了AI原生时代的“冷”思考和“热”驱动，再次强调，对于创业者来说，卷大模型没有意义，卷应用机会更大。

1.关于大模型，必须警惕两大陷阱

第一个陷阱，是自研大模型陷阱。自研AI大模型，似乎已成为国内大型互联网科技企业的标配，言必称“大模型”，缺少自研大模型,就是处于鄙视链底层。所以，我们正在经历一轮“大模型”的放卫星时刻：6月份，国内发布的大模型是79个，到10月份，狂飙至238个。

PC时代，基本上只有Window这个主流操作系统；移动互联网时代，安卓和iOS双雄并立。作为AI应用基础底座的大模型，最终能做大做强的基本上不会超过三个，也就是99%的入局者注定只能陪跑，沦为炮灰。AI原生时代,我们需要100万量级的AI原生应用，不需要100个大模型。

第二个陷阱，是大模型的低能陷阱。没有智能涌现能力的大模型，不是好大模型。优秀的大模型，必须具有懂得逻辑推理、触类旁通的能力，能跟细分行业领域的专业知识相结合,从而可以落地使用。一味囤显卡、囤芯片、喂数据，训练不出自己的专用大模型。数据量不够、迭代能力不足、无法跟具体场景结合，这样的大模型注定中看不中用。大模型的产业化模式，应该是“大模型套小模型”：专用的小模型反应快，成本低；大模型更智能，可以用来兜底。2.AI原生时代，未来的三大驱动因素其一，强大的基础模型，会驱动AI原生应用爆发。目前最好的AI原生应用还没有出现。类似于移动时代诞生了诸如微信、抖音、Uber等移动原生应用一般，AI原生时代也会诞生优秀的AI原生应用，且它们将基于基础大模型开发而生。其二，拥抱AI时代，需要由一把手来驱动。只有CEO才会关心新技术对企业业务关键指标是否产生了正面作用。这也意味着，企业CEO如果不主动引领AI原生变革，就很容易被带偏。其三，繁荣的AI原生应用生态，会驱动经济增长。类似于新能源汽车产业快速发展，AI产业也将由需求驱动，所以应该在需求侧、应用层发力，鼓励企业调用大模型开发人工智能原生应用，用市场手段推动产业发展。周鸿祎：
2024大模型的10大预言在ChatGPT发布之后，360集团创始人兼CEO周鸿祎第一个响应，作为坚定的“AI发展派”，不止一次放话“All in AI”，其创立的360是最早布局大模型的国产厂商之一，“360智脑”也是国内首个原生安全大模型。

在2024年1月份的一场演讲中，周鸿祎分享了对人工智能大模型的十大趋势判断和相关看法，“未来3-5年，如果你不能把AI成功地变成自己手里的武器，那你一定跟拿着大刀长矛的人一样，面对的对手已经升级到AK47，很有可能会面临降维打击”。

1.大模型不是操作系统，但会无处不在

我不认为大模型是操作系统。全世界的手机操作系统就鸿蒙、iOS、安卓三款，我觉得大模型更像当年的PC一样，未来会无处不在，成为整个企业数字化、政府数字化的标配。

2.开源大模型爆发

以后每人都用得起大模型。未来的矛盾不再是大模型本身如何，而是谁能够利用大模型结合业务和场景，训练出需要的功能。

3.有大模型必有小模型

现在出现了一种趋势：把模型做小，在十几亿或者不超过100亿的模型上，像高通去年推的CPU，还有苹果推的CPU，都已经意味着在手机、Pad、电脑上，这种小参数的大模型已经可以跑起来，效果也差不多。模型做小有两个前提，一是模型做专业，二是可以运行在更多终端。

4.大模型的企业级市场会崛起

2024年中国大模型的企业级市场会崛起，真正在to B业务上，走向深度化、产业化、垂直化、定制化。

5.Agent框架将成为大模型的“手脚”

Open AI最近提出一个新概念叫Agent框架。没有Agent框架，大语言模型几乎不能投入实用。无论是to B还是to C业务，一定要结合智能体框架，才能真正让大模型长出手脚，把业务系统和整个互联网充分打通。

6.2024会出现大模型杀手级应用

美国的三家公司很有意思，微软、Adobe和Salesforce，没有用大模型做任何新东西，而是All in AI把已有的产品用AI重做了一遍，比如微软的Office、Bing；Adobe的图形编辑、视频编辑。大模型在to C领域意味着，我们今天的搜索、浏览器、信息流、短视频、微博、问答，甚至社交，都可能被大模型重塑一遍，所以2024年一定会出现杀手级应用。

7.多模态会成为未来的标准

2023年，大模型主要强调文字能力。2024年，以 Gemini和OpenAI的GPT- 4V版本为代表，多模态会成为未来的标准。多模态不仅能听会说，关键是看得懂视频，看得懂图片。

8.AIGC会有突破性增长

在大模型的支持下，AIGC会有突破性增长。2023年年初，Midjourney画一张图，很明显是AI画的，AI生产视频的能力，几乎都是动图和表情符号；2023年年底，计算机生图的效果已经和摄影师的作品不相上下，AI生产的视频已经做得像好莱坞动画片了，进展特别快速。

9.大模型拯救了机器人行业

在大模型之前，传统的人形机器人是典型的“智障产业”，外观像人，但能力低下。在大模型出现之后，机器人产业获得了革命性的突破。比如，自动煎蛋，做家务，整理衣服，这些能力完全有赖于大模型的加持。

10.大模型能够推动基础科学取得突破

在最近五六十年，人类在科技上已经很久没有重大突破，所以如果大模型能够成为科学家的工具，将成为科技发展的利器。比如在美国，很多生物学家已经开始用大模型来帮助他们研究蛋白质的结构，研究分析基因。所以我希望2024年，大模型能够推动基础科学取得突破。

吴恩达：
关于AI，这些事未来十年不会变作为人工智能和机器学习领域国际上最权威的学者之一，吴恩达教授被称为“谷歌大脑之父”，也曾在2014年加入百度，担任首席科学家，负责百度研究院的领导工作，尤其是Baidu Brain计划。在吴恩达最新的一封来信中，他认为有几件事情在接下来十年内都不会发生改变。

我们需要社区。拥有朋友和盟友的人比孤身前行的人表现得更好。即便人工智能领域每周都带来突破性进展，拥有朋友帮助你分辨真实和炒作、测试你的想法、提供相互支持，并与之共同创造，将使你处于更有利的地位。

知道如何使用AI工具的人工作效率更高。知道如何操纵数据的个人和企业可以更有效地了解真相、做出更好的决策并取得更多成就。随着人工智能的不断进步，这一点只会变得更加真实。

人工智能需要好的数据才能良好运作。正如人类需要好的数据来做出决策，从追求何种营销策略到决定孩子的饮食，人工智能在我们的算法不断扩大、演变和改进的过程中，也同样需要好的数据。那么上述三点对我们每个人意味着什么？

让我们继续构建AI社区。这很重要！我希望你能与他人分享你所学到的东西，互相激励，并继续寻找朋友和合作者。

不断学习！最好让学习成为一种习惯。如果你正在考虑2024年的新年决心，那就把你的学习目标包括进去。随着人工智能的不断发展，每个人都需要一个学习计划来跟上这一浪潮。

继续发展以数据为中心的人工智能实践。随着企业采用越来越多的人工智能工具，最重要的做法之一是控制自己的数据。我认为这对个人来说也会越来越重要。

李飞飞：
携手斯坦福发布AI七大预测

李飞飞是一位备受尊敬的华裔学者，或许许多人并不太熟悉她，但她是斯坦福大学计算机科学系的首位红衫教授，同时还曾在谷歌担任副总裁，更值得一提的是46岁三获院士称号，被圈内人士称为“AI女神”。在2023年年底，李飞飞携手斯坦福大学人文智能中心（HAI）发布了对AI的七大预测：

1.知识工作者将迎来巨大挑战人工智能公司将能够提供真正影响生产力的产品，而知识工作者将受到前所未有的影响，比如创意工作者、律师、金融学教授的工作将发生很大变化。在过去的30年中，这些人基本没有受到计算机革命的影响。我们应该接受人工智能带来的改变，让我们的工作变得更好，让我们能做以前做不到的新事情。

2.最该担心的是虚假信息扩散我们将看到新的大型多模态模型，特别是在视频生成方面。所以我们还必须对严重的深度伪造更加警惕，作为消费者需要意识到这一点，作为民众也需要意识到这一点。我们不必担心人工智能会接管世界，真正应该担心的是现在正在发生的危害——虚假信息和深度伪造。

3.亟待解决的问题：GPU短缺大公司们都在尝试将AI功能引入内部，而英伟达等GPU制造商已经满负荷运转。GPU，或者说AI的算力，代表了新的时代的竞争力，对于公司甚至是国家来说都是如此。对于GPU的争夺也会给创新者带来巨大的压力，他们需要提出更便宜、更易于制造和使用的硬件解决方案。

4.AI代理兴起，实用性增强2023年是能够与AI聊天的一年，人们与AI的关系只是通过输入和输出来进行的互动。到了2024年，代理（Agent）将会兴起，AI将能够连接到其他服务，并解决实际的问题。我们将看到代理为人类完成工作的能力——进行预订、计划旅行等等。此外，我们将朝着多媒体迈进，从语言模型，然后是图像模型，之后是视频模型。

5.人工智能政策导向更值得关注2024年，人工智能政策将值得关注。我们的政策应该保障学生和研究人员能够获得AI资源、数据和工具，以此来提供更多人工智能开发的机会。另外，我们需要安全、可靠和可信赖地开发和使用人工智能，所以，政策除了要致力于培养充满活力的人工智能生态系统，还应致力于利用和管理人工智能技术。

6.培养新的理解方式很必要早在2023年2月，学术期刊出版商Springer Publishing就发表了一份声明，表示可以在起草文章时使用大型语言模型，但不允许在任何出版物上作为合著者。他们引用的理由是问责制，这一点非常重要。认真地把一些东西摆在那里，阐述理由是什么，并表示这就是现在的理解方式，将来可能会在政策中加入更多改进。机构和组织必须有这样的视角，并努力在2024年落实在纸上。

7.AI公司将面临更为复杂的法规除了欧盟的《人工智能法案》，到2024年年中，加利福尼亚州将通过法规，解决消费者隐私背景下的自动决策问题。虽然这些法规仅限于，对个人个人信息进行训练或收集的人工智能系统，但两者都为消费者提供了选择，即是否允许某些系统使用AI以及个人信息。公司将不得不开始思考，当客户行使他们的权利时，将意味着什么。比如一家使用人工智能来协助招聘流程的大公司，如果数百名应聘者都拒绝使用AI，那要怎么办？必须人工审查这些简历吗？这又有什么不同？人类能够做的更好吗？

尾声 世界经济论坛创始人施瓦布教授将工业革命划分为四个节点：

第一次是蒸汽机的发明，第二次是电气化革命，第三次是计算机革命，第四次是现在的人工智能革命。

前两个节点，中国没赶上，第三个节点赶上了后半截，坐上了互联网时代的云霄飞车。值得庆幸的是，在人工智能的技术革命中，中国公司早早入场。实际上，论前期资本投入和底层技术积累，中国公司并不比西方落后。作为Open AI的早期牵头人，马斯克在联合国大会上再度盛赞了中国的AI实力：“至于你说的哪些国家将在人工智能领域处于领先地位？中国肯定是其中之一，是顶尖国家之一，并且有潜力成为第一。”站在人工智能浪潮的前线，第四次工业革命，很可能会比想象中更加波澜壮阔。

这一次，中国没有理由不成为主角。

26 1 月 2024

360曝AI首战成绩单 “安全智能体（AI Agent）1分钟秒杀APT”刷屏

昨日，《AI首战！360安全智能体（AI Agent）首秀：1分钟内自动捕获APT组织》相关话题和文章在网络安全圈内被刷屏，老周2023年一直对外强调的360的AI能力交出了第一份轰动行业的“战绩”。

这份成绩单到底有多少含金量？让我们细细说来。
2022年，ChatGPT的发布引领了大模型应用突破；2023年，“百模大战”开启了AIGC元年。

作为大模型落地场景之一，安全行业垂直大模型发展迅速，与此同时，安全大模型的能力边界逐渐显现，“像专家一样运营安全”成为行业对安全大模型的新期待。由此，Agent智能体进入大众视野，在基于大模型的AI Agent赋能下，安全行业迎来了智能主义时代。

一、安全大模型发展步入深水区

2023年被称为AIGC元年，大模型浪潮席卷全球，B端产业垂直大模型逐渐成为主战场。据IDC调查显示，网络安全是生成式人工智能影响最大的行业之一，国内外安全厂商积极探索大模型应用，安全大模型百花齐放。然而，经过一段时间的发展，安全大模型的能力边界逐渐显现。在功能方面，仅有安全问答、告警解读等单一功能的安全大模型难以解决用户痛点；在认知方面，缺乏海量安全语料库训练的大模型存在知识瓶颈，安全专业能力差强人意；在成本方面，安全大模型训练微调和部署的资源消耗依然较大，中小企业难以承担高昂的投入。

基于此，安全大模型的推广落地亟需优化升级，Agent智能体进入人们视野。基于大模型的AI Agent展现出自主思考决策和执行安全工具的能力，有望从根本上解决用户痛点问题，由此步入智能主义时代。

二、让大模型像人一样工作，AI Agent开启智能化安全服务新范式2.1 AI Agent：更独立、更智能的AI应用Agent智能体是一种能够感知环境、进行决策和执行动作的智能实体。

大模型时代的到来加速了AI技术的平民化，也为Agent的突破带来契机，Agent跨入基于大模型的智能体阶段。目前，大部分AI与人类的交互模式，已从工具型AI发展至助理式AI，各类AI副驾不再是机械地完成人类指令，而是可以参与人类工作流，与人类协同工作。而基于大模型的AI Agent则更加独立，可以在一定业务场景中自主调用资源完成任务，人类在其中更多起到监督和评估作用，尽管AI Agent会承担大部分工作量，但人类仍然发挥主导作用。

相较于大模型回答效果与用户指令的强相关，AI Agent只需给定一个目标，即可针对目标独立思考、获取知识、自主研判并做出行动，它会根据给定任务详细拆解计划步骤，并依靠来自外界反馈和专家引导，通过自主思考，自己给自己创建指令，来实现目标。2.2 安全Agent：自动化运营核心驱动力智能体可以拆分为大模型、规划、记忆与工具使用四个组件部分。大模型是能够理解任务并进行决策的“大脑”；规划模块则负责分解任务、制定行动计划，以及检查、监督和改进计划；记忆模块负责存储上下文信息、专家知识、用户干预信息等，确保任务执行过程中前后目标一致；工具使用模块则是智能体的“双手”，能利用外部资源或工具执行任务。随着大模型展现出上下文学习、推理和思考链等多种类似于人类思考方式的能力，以安全大模型为核心的安全智能体，使解决垂直领域复杂问题、实现自然语言交互任务成为可能。安全智能体综合利用大模型的生成能力和专家的经验，灵活自适应地编排任务方案，实现对安全工具的调用，从而形成智能化运营的能力。相较于简单的AI工具，AI智能体具有更广泛的应用、更灵活的交互以及更强大的能力，使其更全面的满足用户需求并适应不断变化的环境，帮助用户从日常任务和重复劳动中解放出来。同时，通过训练的安全垂直类的智能体可以实现低成本规模化复制，其独立分析、计划和解决问题的优势，进一步降低技术门槛，真正帮助用户提升安全能力、提高运营效率。2.3智能化安全服务开启数字安全新范式在基于智能体的智能系统中，人类负责设定目标、提供资源和监督结果；智能体负责完成任务拆分、工具选择和进度控制，智能体和各类工具的调用组合，可以实现场景自动化能力。在安全领域，安全智能体+安全工具的组合形成基于智能体的自动化安全运营服务，正式开启“智能主义”的数字安全新范式。其中，安全智能体负责规划分解、任务执行、工具调用、记忆增强等工作；安全工具负责漏洞扫描、样本检测、流量分析等具体功能的实现。两者构成了一个有机的整体，随着智能体水平的不断提升和安全工具的持续扩充，整个系统的安全能力不断提高。

对于安全智能体来说，大量高质量的安全数据、样本、特征等数据语料喂养的安全大模型，是智能体产出正确安全知识的基础，基于大模型，智能体对任务进行分解和规划，并通过反思和自省不断优化提升；其次，拥有广泛实战对抗能力的专家对智能体的干预和引导，则帮助智能体优化编排剧本，持续提升处置能力；第三，将实战经验沉淀的丰富的技战术知识图谱与大模型相结合，可以帮助智能体确保解决已知安全问题的精度；最后，智能体与大模型最大区别在于能够使用外部工具拓展模型能力，所以，丰富优质的安全工具是帮助智能体体系化解决复杂安全问题的关键。

三、未来已来，360安全智能体推进安全跨时代

3.1 从安全大模型到安全智能体的跃进

2023年6月，360发布认知型通用大模型360智脑4.0，并宣布360智脑已接入360旗下产品全家桶；8月，360发布国内首个可交付的安全行业大模型——360安全大模型。2024年，《仅需一分钟，360安全智能体完成了智能化APT猎杀》使360安全智能体进入大众视野：某金融单位疑似遭到APT组织攻击，几乎同一时间，安全运营人员就收到了来自360安全智能体的告警信息和包含攻击溯源、受害资产等内容的完整分析报告。

360安全智能体，是基于360安全智脑大模型的智能体系统，能提供目标理解、逻辑推理、效果评估和知识记忆等能力，支持连接、配置、驱动、协同各类安全工具产品，显著提升单个产品和系统整体的安全能力。至此，360率先完成从安全大模型到安全智能体的跃进。

3.2 360安全智能体：引领智能化安全服务

360安全智能体以360安全智脑大模型为核心，以任务编排引擎、任务生成引擎、监督评测引擎、指令调度引擎、记忆存储、执行反馈等为组件，综合利用360安全智脑大模型的生成能力和专家经验，灵活自适应地编排任务方案，实现对安全工具的准确调用，从而形成智能化安全运营的能力。

提及影响安全智能体的“数据、专家、工具”三大要素，360已沉淀多年，久经市场考验。展开来说：首先，360积累了全球规模最大的安全大数据、最广泛的样本、最丰富的威胁行为特征，并将这些数据、样本、特征训练到大模型中，使得360安全智能体具有先天的安全基因优势；

其次，360安全专家拥有近20年攻防实战经验，沉淀形成攻防技战术图谱，一方面内化为安全大模型的能力，另一方面储存至安全智能体记忆模块，持续增强安全智能体编排能力；最后，基于360深耕安全垂类场景，360安全智能体可以适配、控制、协作各类型安全工具，体系化地解决复杂安全运营问题。

3.3 小切口、大纵深，安全智能体稳步向前

大模型步入深水区，安全智能体的发展道阻且长。为此，360立足“小切口、大纵深”方法论，以“安全场景适用度”为指标依据，构造适合大模型特性的高价值安全场景，推进安全智能体的落地应用。目前，360安全智能体已经突破了自动化威胁狩猎、自动化安全运营等场景的各难点步骤，实现了场景自动化。运营人员负责设定目标、提供资源和监督结果，安全智能体完成任务拆分、工具选择和进度控制等，把执行结果返回给运营人员，安全技术门槛进一步降低，真正实现安全能力的提升和运营效率的提高。

360指出：“人工智能发展路上，智能体崭露头角。360安全智能体推进安全跨进智能时代，360探索数字安全的脚步从未停止，时间将是最好的答案。”（2024.1.26数说安全发布）

25 1 月 2024

AI时代怎么找工作？听听马斯克给自己的八个孩子的建议

– 马斯克对AI的看法：在一个AI主导的世界中，马斯克对他的孩子们如何找到有意义的工作和生活表达了担忧。

– 马斯克的建议：他鼓励他的孩子们追求他们的兴趣和热情，做一些对社会有益的事情，同时也要关注自己的心理健康和家庭关系。

– AI的影响和机遇：AI的发展将改变许多行业和职业，一些需要创新和人际交往能力的工作可能会更受欢迎，而一些重复性和繁琐的工作可能会被AI取代或辅助。

埃隆·马斯克是特斯拉的首席执行官，也是科技领域的坚定支持者。但是，他对科技对就业市场的影响并不乐观。

他认为，科技的伟大发展之一——AI人工智能——可能意味着许多工作岗位的终结。

“人工智能将使工作变得毫无意义。”他曾在上海举行的世界人工智能大会上与阿里巴巴创始人马云对话。

他指出，最不容易受到这种工作中断影响的是那些能够对人工智能软件进行编程的人，并建议年轻人继续学习工程学。

但是，即便如此，他说，“最终人工智能也只会编写自己的软件。”

他发表上述言论之际，关于技术对全球劳动力影响的争论日益激烈。世界经济论坛预测，到2025年将有2022万个工作岗位被取代。

然而，这并不全是厄运和阴霾。他表示，即使在快速发展的就业环境中，专注于人际互动的企业也将继续蓬勃发展。

“从根本上说，人们喜欢与他人互动，”他说。“如果你正在做一些涉及人或工程的事情，这可能是一个好方法，”他说。

无独有偶，在接受大卫·费伯（David Faber）采访时，他也在担心他的八个孩子未来的职业，特别是如果他的孩子必须与人工智能竞争他们梦想的工作。

“我们如何真正找到满足感，我们如何找到生活的意义，如果人工智能能比你做得更好？”他被问到。

尽管这位世界第二大富豪表达了帮助领导即将到来的人工智能运动的愿望——他的汽车制造商特斯拉正试图制造完全自动驾驶汽车，他之前也曾讨论过使用Twitter来构建人工智能工具——但他表达了对这项技术未来影响的担忧。

这不是第一次。今年3月，他签署了一封公开信，呼吁暂停人工智能开发六个月，以确保这些系统在道德上得到实施，因为“对社会和人类的深刻风险”。

采访中，他努力阐明下一代如何在人工智能可以做任何事情的世界中发现价值。“这个问题很难回答，”他说。

以下是他给自己孩子的两条建议：

“尽量对社会其他人有用”

他的首要建议是：以一种可以使他人受益的方式追随你的激情。

他说：“我只想说，在觉得有趣的事情或成就感方面，要跟随他们的内心。并尽量对社会其他人有用。”

他讨论了人工智能对他孩子未来在职场的影响: “对社会有用”的定义正在迅速变化。甚至在 ChatGPT 的流行之前，人们就想知道人工智能将如何取代人类的工作。”

办公室和行政角色可能面临风险。从设计师到软件工程师，内容创作工作也是如此——尽管新的机会可能涉及培训和维护创建此类内容的人工智能系统的质量控制。

对于需要独特人类技能的工作，人工智能可能只是成为一种使工作更轻松的工具。这些范围可能从建筑等体力要求高的角色，到治疗师等以沟通为中心的工作。

“强调人际交往能力的工作很难被人工智能取代，”西北大学凯洛格管理学院（Northwestern University’s Kellogg School of Management）金融学教授迪米特里斯·帕帕尼克洛奥（Dimitris Papanikloaou）如是说。

“重新思考工作与生活的平衡”

他每晚睡六个小时，每周工作七天，每年只休息两到三天。显然，这就是他同时经营特斯拉、SpaceX和现在的Twitter所需要的，同时还拥有Neuralink和The Boring Company等企业。

接受采访时，马斯克质疑这一切是否值得，特别是如果机器最终可以为他完成这些工作中最乏味的部分。

“我为建立这些公司付出了很多鲜血、汗水和泪水，”他说。“然后我就想，’好吧，我应该这样做吗？’因为如果我牺牲了与朋友和家人在一起的时间，但最终，人工智能可以做所有这些事情，这有意义吗？我不知道。”

随着人工智能变得越来越复杂，这种不确定性可能会增加。他说，即使是现在，有时他也会采取“故意暂停怀疑”的方式，找到一种方法来忽略他正在帮助构建的技术中“令人沮丧和沮丧”的方面，以度过他的工作日。

不知道未来会怎样，很难给下一代提供建议。他唯一可以可靠地传递的智慧是：

“做你觉得有趣和充实的事情，并为社会其他部分做出贡献。”

25 1 月 2024

【行业前沿】APA发布2024年12大心理学新兴趋势：人工智能对心理领域的2大影响成为关注重点！

通过与100多位杰出心理学家的深入对话，美国心理学会（American Psychological Association，APA）的官方刊物APA Monitor on Psychology在1月发布了《2024年心理学行业12大新兴趋势》报告。

这些趋势不仅反映了社会的发展变化，也揭示了心理学家们是如何应对社会变化所带来的挑战的。

生成式人工智能（Generative AI）

的发展与心理学

AI早已成为心理学的一部分。在心理领域，ChatGPT和其他人工智能模型正在改变心理学家的教学、研究以及诊断和治疗病人的方式。

AI为心理行业主要带来了以下2个方面的变化：

教育

专业的生成式人工智能工具，例如 Genei，可以帮助进行文献检索、文献总结和学术写作。ChatGPT 可以生成量表项目，检测定性文本数据中的主题，并编写Python和R代码进行统计分析。

对于心理学教学，生成式人工智能可以简化一系列耗时的任务，从起草幻灯片、大纲和考试问题到指导学员治疗技术。

但这项技术也从根本上改变了学习环境，这会让许多教育工作者担心如何发现作弊并确保学生真正在学习。

心理治疗

在临床领域，人工智能也有助于减轻人类治疗师的负担。

生成式人工智能显然具有自动化管理任务（例如文档和笔记）的潜力，ChatGPT等工具还可以帮助学员练习，让他们对模拟病人进行心理干预。

另外，聊天机器人还可以处理一些日常的问题，例如来访者有与配偶的冲突、睡眠问题以及与工作或学校相关的压力问题等。

当然，生成式人工智能的发展也带来了一些挑战和问题。例如，这种技术可能会取代一些传统的心理治疗方法和技术，从而导致一些职业岗位的消失。此外，这种技术可能会引发一些伦理和隐私问题，需要心理学家和相关领域的专家共同探讨和解决。

高等教育举步维艰，

心理学家正在探索其不确定的未来

《健康心理研究》（《Healthy Minds Study》）每年都会对全美数万名大学生进行心理健康调查，其数据显示，2022-2023学年的学生心理健康状况出现了轻微的积极变化。

但学生的心理健康也仍然处于危机之中，仍有14%的学生表示考虑过自杀，超过40%的学生被筛查出了临床的抑郁症状。包括LGBTQ+学生在内的一些人群的心理健康问题发生率甚至更高。

值得注意的是，随着对教育价值的质疑越来越多，一些学生开始质疑他们是否应该上大学。佛罗里达国际大学全球领导力与管理学助理教授、心理学家Kisha Jones博士指出，成长于流行病、气候变化和政治冲突频发的时代背景下，使得许多学生对未来充满了不确定。

另外，并不是只有学生在苦苦挣扎，大多数教职员工都表示因为工作而感到疲惫不堪：他们面临着自己的一系列压力，比如要适应课堂上的ChatGPT，对于有色人种教师来说，还要为有色人种学生提供额外的支持。与此同时，高校员工的流失率也在持续上升。

心理学家仍在坚持

促进平等、多元性与包容性（EDI）

在过去的一年里，美国许多私营企业和公共机构削减了用于实现平等、多元性和包容性（EDI，也称为DEI）的基金和职位，使许多为之奋斗的心理学家陷入困境。

除了这些挑战，州和美国国家层面还存在破坏种族平等努力的立法斗争。如美国Students for Fair Admissions v. Harvard案件中的判决，该判决取消了在大学录取决策中基于种族的平权行动；而且各州立法机构努力通过反EDI法律，为那些致力于创造一个更公正、更平等社会的人制造了许多法律、财政和社会障碍。

“这从来不是一件容易的工作，但目前的环境尤其艰难，需要为此而战”，社会心理学家 Brooke Vick博士说。“与感觉强大且不受你控制的势力作斗争，尤其困难。”

心理健康服务需求高涨

凯泽家庭基金会和美国有线电视新闻网（CNN）在 2022 年进行的一项调查显示，90%的群众认为当今美国存在心理健康危机，约一半年轻人和三分之一成年人表示，他们在过去一年中总是或经常感到焦虑。三分之一的受访者无法获得所需的心理健康服务。

当被问及获得服务的具体障碍时，80%的受访者表示主要障碍是费用，60%以上的受访者表示主要障碍是羞耻感和耻辱感。

与此同时，全美心理健康服务提供者有大量缺口，根据美国心理学会2022年疫情心理从业者影响调查，60%的心理咨询师表示没有空接待新的来访者。

在心理健康服务短缺的情况下，数字医疗可以发挥重要作用。

人们在工作中真正需要的

是意义感和稳定性

首先，注重工作稳定性和职业发展前景。由于经济环境的不确定性和职业竞争的加剧，人们需要关注工作的稳定性和职业发展前景。

在美国心理学会专门针对人工智能进行的《2023年美国工作》研究的后续跟踪调查中，38%的受访者表示担心人工智能可能会淘汰他们的部分或全部工作职责，64%的人表示他们在工作日通常会感到紧张或压力。

其次，注重工作的意义和价值。尽管社交媒体上流行着一种说法，即年轻员工希望拥有一份“摆烂”的工作，这样他们就可以只操心打卡上下班，过自己的生活。但研究表明，各个年龄段的人在很大程度上都渴望在工作中获得更深层次的目标。

在APA的调查中，93%的人认为，拥有一份有意义的工作非常重要或比较重要。并且大多数员工认为他们的工作符合这一标准。事实上，“工作有意义”的定义包括意义和尊严，它已被美国卫生局列为工作场所心理健康和幸福的“五大要素”之一。

心理学家正在通过建立新的治疗联盟

来解决药物滥用问题

在美国，非法和合法药物使用的最新趋势为追踪成瘾有害后果的专家敲响了警钟。

根据美国疾病控制与预防中心(CDC)的先期数据，2022年，美国有超过10.9万人死于药物过量使用，比2019年增加了约54%。其中约有三分之二的死亡涉及非法制造的芬太尼，这是一种合成鸦片类药物，其效力是海洛因的50至100倍。

为此，心理学家提出了2个解决问题的新方法：让缓刑监督官参与治疗工作，以及倡导奖励积极行为。

儿童青少年心理健康危机激增

对心理教师的需求日益强烈

心理健康服务的短缺和学业压力的增加，使得学校不得不努力培训和雇用更多心理健康专业人员。

随着年轻人的心理健康危机日益严重，对心理教师的需求正在成倍增加。心理教师可以为学生提供咨询，评估学生的干预需求，对危机做出反应，在全校范围内发起减少欺凌行为的倡议，等等。他们接受过心理学、儿童发展和教育方面的培训，在确定年轻人的心理健康需求方面发挥着至关重要的作用。

在2021-2022学年，全美平均每1127名的学生（从幼儿园到12年级）共享一名心理老师。这远远低于美国学校心理学家协会设定的每500名学生配备一名心理老师的目标。在美国南部各州，这种短缺现象尤为严重。

与此同时，学校心理老师的工作压力也在逐渐增大。2018年，在心理服务短缺最为严重的美国东南部地区进行的一项调查显示，约22%的人表示考虑离开目前的岗位。根据疫情前进行的研究，多达90%的学校心理老师表示有时会感到倦怠。

为了解决供需之间的差距，各学校正在尝试各种努力，以增加学校心理健康专业人员的数量。

心理健康技术的商业化

2020年，人们对心理健康的关注度很高，心理健康技术行业快速发展，心理健康相关的投资纷至沓来。但现在，情况发生了些许变化。这些健康科技公司裁撤了大量心理学专业人才，并出现一些道德违规行为。一些裁员和商业行为还对患者造成了实质性的伤害。

突然解雇临床医生不仅与提供有效的心理健康服务的目标背道而驰，而且对商业也不利。在许多情况下，公司陷入困境是因为他们从一开始就没有整合临床专业知识。

但现在，心理健康技术的“第二波”浪潮已经到来，投资者不再支持那些希望利用心理健康服务需求上升来获得利益的技术专家，而是越来越多地资助那些正在开发技术和数字产品、为有需求的人提供服务的心理健康服务专家。

反击虚假信息

比以往任何时候都更加棘手和重要

随着社交媒体和数字平台的发展，与公众的沟通变得比以往任何时候都更加便捷。但社交媒体也助长了虚假和误导性信息的传播。

在2016年美国总统选举期间，“假新闻”成为人人讨论的热词。两个选举周期后，虚假信息的威胁变得更加隐蔽，反击虚假信息比以往任何时候都更加棘手。

心理学家正在研究虚假信息的传播，并广泛分享具有科学依据的反击方法。但这并不容易，网络喷子、网络骚扰以及日益增长的法律诉讼威胁使得公开反击虚假信息变得越来越困难。但专家表示，坚持为真相发声可以产生影响，而且，参与其中的心理学家越多，这种影响就会越大。

政策制定者将矛头指向女性群体

心理学家正在进行反击

美国的一系列新政策正在针对人们生活中最私密的部分——生育选择、性取向和性别认同。心理学研究人员和从业者表示，这些政策的出台对人们的心理健康产生了严重影响。

例如，无法获得堕胎服务的个人更有可能经历糟糕的心理和身体健康状况、贫困加剧以及与施虐者的长期接触等问题。LGBTQ+青少年面临了更多污名和心理健康问题，以及更少的医疗服务。

受这些政策影响的个人可能也会发现，他们越来越难以获得所需的心理健康服务。随着法律环境变得更加令人担忧，心理学家可能会对与患者讨论堕胎或性别认同等医疗服务持谨慎态度。但心理学家已经在治疗室内外进行反击：他们正在赋予患者为自己辩护的权利，并利用科学证据打击虚假信息。

心理学临床实践与线上医疗

疫情期间，线上心理治疗一下子变得异常火爆。如今，几乎四年过去了，线上心理治疗进入了一种“新常态”。

美国疫情爆发时颁布的《联邦公共卫生紧急状态（PHE）》已于2023年5月到期。卫生与医疗保健融资办公室高级主任Stephen Gillaspy博士说，在PHE颁布之前，医疗保险和医疗补助计划对线上医疗的报销比例是低于线下心理治疗的。现在，PHE 已经到期，医疗保险和医疗补助服务中心宣布，该机构将继续按照面对面治疗相同的报销比例，来支付线上医疗的费用。

此外，美国正推行着PSYPACT协定：该协定已覆盖美国40个州，参与的心理学家能够跨州为病人看病，而无需在每个州分别获得执照。

心理学家正在改善大脑健康

和衰老问题

随着美国65岁及以上人口比例的持续增长，人们对基于科学的疗法的需求日益强烈，旨在减缓、预防和治疗与衰老相关的大脑认知变化。

然而，目前专门为老年人提供服务的老年心理学家供不应求：据美国心理学协会预测，到2030年，美国将需要超过6000名老年心理学家来满足这一需求。

为了应对不断扩大的大脑健康维持和改善的需求，研究人员正在积极开发干预措施，旨在预防、识别和治疗轻度认知障碍、失智症和阿尔茨海默病的干预措施。

详见原文：

https://www.apa.org/monitor/2024/01/trends-report

在我国

心理健康问题已经成为一个不容忽视的社会问题。根据中国国民心理健康发展报告（2021~2022）的内容，抑郁风险检出率为10.6%，焦虑风险检出率为15.8%，心理健康问题已经成了一个需要政府和社会各界人士都需要普遍关心的问题，心理健康问题不仅影响到患者的身心健康，还给家庭和社会带来沉重的负担。

心理健康问题的严重性体现在多个方面。首先，心理健康问题与许多疾病密切相关。例如，抑郁症、焦虑症等心理疾病常常导致患者身体的免疫力下降，增加心脏病、糖尿病、肥胖症等疾病的患病风险。其次，心理健康问题对患者的日常生活和工作产生严重影响。患者可能因心理问题导致人际关系紧张、工作能力下降、生活质量降低等问题。最后，心理健康问题对社会和谐稳定产生威胁。心理疾病患者可能因情绪失控而引发社会事件，给社会带来严重的后果。

在认识到心理健康问题的重要性和紧迫性后，我国政府和社会各界对心理健康服务的需求日益增长。然而，目前我国的心理健康服务体系尚不完善，存在诸多问题。首先，心理健康服务资源严重不足。我国心理医生总数不到 4 万人，平均每 10 万人口只有 2.2 名心理医生，而发达国家平均每 10 万人口拥有 20 名以上的心理医生。其次，心理健康服务分布不均。城市地区的心理健康服务资源相对丰富，而农村和偏远地区则严重匮乏。再次，心理健康服务的质量和效率有待提高。部分心理医生专业技能不足，服务流程不规范，导致患者治疗效果不佳。

为了解决这些问题，中科心理健康评估及干预系统应运而生。

25 1 月 2024

特斯拉AI司机正式上线！红绿灯消防车全识别，雨夜还能正常跑

特斯拉FSD系统最强版本正式开启公测！
车东西12月23日消息，当地时间21日晚，特斯拉正式开始向公众推送其最新版本的全自动驾驶FSD Beta V12，软件更新版本号2023.44.30.12，FSD版本v12.1.2。完全在端到端神经网络上运行的自动驾驶系统正式上线！

不过，尽管马斯克曾断言V12将不会有Beta版的开发阶段，但从第一批收到FSD V12更新的用户的截图看，该版本的FSD V12仍然拥有“测试版”标签。

“测试版”也抵挡不住美国特斯拉车主们的热情，海外媒体平台涌现大量测试视频，不少网友直呼“流畅”、“震惊”、“未来已至”。

从目前放出的演示视频来看，特斯拉FSD V12正确识别了路口停止标识、完成了无红绿灯路口起步、正确识别红绿灯（马斯克此前直播时唯一一次接管车辆是在红绿灯路口）、夜晚雨天不失效、能完成无保护左转等操作，甚至能识别并避让异形且亮灯的应急车辆（此前特斯拉车辆因为无法识别应急车辆发生过事故）。

从目前放出的视频来看，特斯拉FSD V12堪称优秀，几乎所有路段都可以平稳应对，可以说是狠狠地给马斯克挣了回面子。

这可能得益于HW4.0平台带来的增益，也可能得益于海量训练文本的投入。“FSD Beta v12将城市街道驾驶堆栈升级为在数百万个视频剪辑上训练的单个端到端神经网络，取代了超过30万行显式C++代码，”FSD V12的发行说明中写道。

从目前的FSD V12表现来看，可以说纯视觉的端到端智驾完成了对人类驾驶行为的模仿，整个系统已经达到了能用可用的水平，未来更多的实践不仅将证明其是否好用，同时也将为系统提供更多训练数据，帮助其继续进步。

或许，自动驾驶行业新里程碑已至，划时代一刻正在来临。

完美躲避消防车起步博弈也不输从海外视频网站上用户公布的视频片段来看，FSD V12在马斯克所说的“没有高精地图、没有判断代码、全靠数据训练”的前提下运行良好，系统在雨天、无红绿灯路口、无保护左转、应急车辆异形车辆应对方面全程在线。国外的大部分车主都给予了新版FSD很高的评价，视频下评论基本偏向正面。

具体来看，搭载FSD Beta V12的车辆能够正确识别路口停车标志，还有路面上的实线。视频中车辆在路口停止实线前停稳，等待左右两侧无车时自动完成起步，顺利驶过十字路口。

在红绿灯路口，车辆正确识别了头顶的红绿灯信号，平稳地刹停在摩托车后方等候。绿灯亮起后车辆快速启动，还一度小幅度回避了侧面靠近的车辆。

同时，FSD还在演示视频中在红绿灯前200米左右提前完成了向右变道，在减速后顺利完成右转操作，并且避开了路边临时停靠的车辆。而在无保护左转（直行和左转绿灯同时释放）场景中，车辆跟随前车平稳起步，在对向无车的情况下快速完成了左转操作，平稳地由最左侧车道驶向了最左侧车道，行驶轨迹接近圆周运动。

而且，从这上面两个场景可以看出，车辆成功识别了不同位置、高度的红绿灯信号，基本上没有延迟，操作也十分恰当丝滑。在遇见开启应急灯光、形状各异的异形紧急车辆时，FSD也没有失效。从车辆仪表屏幕可以看到，车辆正确识别了闪灯的消防车，并正确地向右回避躲开了消防车。

同时，车辆也识别到了在消防车一侧的缓慢行走的施工人员。

在一段双车道路段上，车辆在对向车道车流不断的情况下，接连完成了越线超车和减速避让起步车辆两个操作，操作连接顺畅且无停止。

值得一提的是，驾驶员在中途手动改变了自动驾驶的终点，而车辆FSD系统中间并未停止运行，依然保持在线。

此外，FSD在夜晚雨天情况也能运行，且几乎不受影响，视频中车辆误刹车情况几乎没有发生。

在错位十字路口，路边还停放着其他车辆的复杂情况下，车辆也按照导航提示，成功驶入了正确的路线。

总的看下来，本次特斯拉FSD V12公测版本表现堪称优秀，各种城市复杂路况都能够应对，且不受雨天影响，更是在目前放出的视频中鲜有系统失效、降级、事故情况。
02.夜晚雨天也能用复杂场景不失效对比马斯克上次测试的版本，本次FSD V12更新后车主放出的视频补充或者说证明了几个点：

1、FSD能够正确识别红绿灯和道路指示，并按照通行逻辑行驶；

2、在雨天、黑夜等能见度低场景仍然可用；

3、在人、车、异形物同时存在的复杂场景也不失效。

首先是逻辑问题，马斯克上次直播演示场景还是过于简单，在诸多海外网友的测试中，可以看到：特斯拉FSD不仅很守规矩，能做到比如路口停车、礼让行人、按红绿灯行驶，而且驾驶逻辑十分接近人类，如遇到慢车会超车、能够完成无保护左转的博弈、遇见应急车辆会减速观察、起步刹车都比较平顺，可以说是堪比老司机了。

其次是使用场景，马斯克直播时是晴朗的白天，而实际测试视频中，车辆不仅在黑夜行驶，而且前挡风的雨刮都快刮冒烟了，FSD还在正常运行。这证明了FSD目前可以在黑夜、雨天正常使用。未来，我们可以期待网友在大雾、沙尘暴等更极端场景中测试FSD的表现。

最后，作为纯视觉、端到端方案落地的“集大成”之作，FSD成功地识别了爆闪灯光、形状各异的应急车辆，并正确地做出了安全的回避操作，可以说是非常给力了。比

起马斯克上次直播时回避路障表现要更加亮眼，在行驶安全方面也更能够让人安心。或许，公测版本的FSD真正达到了“能用”的水平。随着更多车主更新取得公测版FSD并在实际场景使用，我们可以期待FSD是否能在实践中被评价为“好用”。

HW4.0平台算力更强大模型无限进步那么，这次公测版FSD的技术进步可能的增长点是源于哪些？本次公测版的FSD有了针对HW4.0平台的更新。外媒autoevolution报道，FSD Beta V12将带来更强的泊车能力，并可能揭示HW4.0摄像头的优势，即每秒多四帧。

之前，马斯克直播展示FSD时提到：“（系统）8个摄像头以每秒36帧的速度进行拍摄，实际能以每秒50帧的速度拍摄”。而HW4.0硬件升级带来了摄像头每秒多4帧的帧率，再加上对比HW3.0翻倍的算力、更佳的摄像头像素和布局、更好的定位能力，这些让FSD能够更好地识别路面细节并知晓自己的位置。

而且，本次公测版本的FSD可能投入了更加海量的数据进行训练。

FSD公测版的发行说明中写道。“FSD Beta v12将城市街道驾驶堆栈升级为在数百万个视频剪辑上训练的单个端到端神经网络。”马斯克在之前的直播中也介绍过，特斯拉FSD V12采用的是端到端大模型技术，不需要代码、高精地图，只需要数据投喂AI进行训练。

具体来看，特斯拉FSD V12基于深度神经网络，通过摄像头采集驾驶场景的信息，将其作为深度卷积神经网络模型的输入，再不断对网络模型进行训练，得到学习好的网络参数，从而对智能车方向盘转角进行预测。这一方案将此前各模块的感知和规范集成到一个大模型之中，而采集到的数据直接从一端输入至大模型，大模型能够根据数据计算迅速作出判断从另一端向车辆发出控制行为。

而端到端大模型最关键的地方便是深度学习和强化学习，这与人类的学习行为是类似的。特斯拉车辆的“影子模式”能在用户驾驶过程中采集各类驾驶数据，其中包括高价值的corner case数据，而特斯拉采集的数据包括车辆的位置、速度、方向和加速度等信息，这些数据将被存储在特斯拉的数据中心中，然后由数据引擎进行分析和处理，可被用作为系统的训练资料。

迟到六个月才姗姗来迟的公测版本的FSD V12，有着更长的深度学习时间和更加丰富的训练资料，同时也有着更多的调参时间，这也意味着更高的准确率。

04.结语：自动驾驶行业划时代一刻正在来临

特斯拉本次FSD Beta v12更新将最可能无限接近人类真实驾驶的端到端大模型智驾技术推向了公众，可以说是自动驾驶行业的一个里程碑式事件。从模仿人类的驾驶行为出发，发展到今天，或许此刻的FSD可以说自己已经完成了部分超越人类驾驶行为。未来，随着FSD Beta v12被更广泛地使用，实践将证明这一系统的优劣。而大模型带来的无限学习进步的优势又将使得FSD有更长远的进步，FSD涌现正在到来，自动驾驶行业划时代一刻正在来临。

24 1 月 2024

全新的AIGC提示词撰写工具PromptLLM

宣布创业近10个月后，原Facebook人工智能科学家，原阿里技术副总裁，知名开源深度学习框架Caffe的创立者，TensorFlow、Pytorch等框架的核心成员和共同领导者，曾被誉为AI框架领域最厉害的华人科学家–贾扬清，近期携两款颇令人惊艳的新产品，回到了人们的视野。

1月10日，贾扬清在推特上表示，其创立的Lepton AI最近与HippoML合作，推出了全新的AIGC提示词撰写工具PromptLLM，用于帮助撰写AI绘图的提示词。

1月15日，Lepton AI联合创始人、前阿里云开源大数据前端负责人谢亚东发推特表示，基于Lepton AI，开发团队只需要不到500行代码就可以实现Perplexity的效果，同时还附上了Lepton Search的网址和截图。
这是一款对标Perplexity AI的产品。

提示词

Lepton团队推出的PromptLLM是提示词生成工具，其To C应用是一个名为PromptCraft的网页工具。用户只需输入一行简短的提示词，PromptCraft就能在几秒内生成一个更加完整、具体的提示词，顺便再用Stable Diffusion XL生成两张图片。

比如我们输入“space shuttle orbiting earth（绕地球运行的航天飞机）”，它就会给我们扩展成“Space shuttle in orbit around Earth, meticulously detailed with intricate features, a spectacle of engineering marvel set against the backdrop of our blue and green ball of life, bathed in the gentle light of the setting sun, Photography, Captured in ultra high definition for a sense of raw, untouched realism”，生成的图片质感也很逼真。

再比如我们输入“伊隆马斯克穿着夏威夷草裙跳舞”，它则帮我们扩充了人物表情、姿态、图片背景、摄影器材等细节，生成的图片效果如下：

在官方的演示中，提供了不少精彩的案例，比如鹦鹉吃胡萝卜、驯鹿亲吻大鹅、狐狸穿袜子、山羊划船等，每一张图都是可以“即出即用”的程度。

当然，在发布案例炫技的同时，贾扬清也不忘及时公布PromptLLM的API链接。从其定价页面可以看到，该工具推出了基础版（免费）、标准版（$30/月）和企业版三个版本，根据使用模型的不同，每100万个Token的定价在0.1美元—0.8美元之间。
PromptCraft的底层技术是Lepton AI团队和HippoML共同开发的，其中Lepton AI提供API平台支持，HippoML提供PrivateCanvas系统来保障运行。
HippoML是一家做人工智能基础设施的公司，其目标是专注于降低人工智能软件堆栈的复杂性，让大型（河马，hippo）模型运行得像猎豹一样快。HippoML的主要产品是一个名为PrivateCanvas的应用，集成了Stable Diffusion(XL, LCM), SDXL Inpaint, Segment Anything, ESRGAN, MI-GAN等大模型，可以让用户在本地就使用各种热门大模型的功能。
该公司的创始团队来自Meta，其中包括Bing Xu和Hao Lu两位华人科学家。

而Lepton AI与HippoML之间的合作也并非首次。早在2023年8月，两家就合作推出了号称“最快”的SD扩散模型，同时将代码进行了开源。

而在2023年12月，有眼尖的网友发现，Lepton AI小试牛刀，悄悄上线了一个很有意思的项目：tryemoji，该项目可以把emoji表情变成真实的图像、动画，还提供了不同风格的模板供用户筛选。

贾扬清此前曾在播客中表示，不会做大模型创业，而是会更关注如何帮用户构建更好的AIGC应用，在AI Infra（AI时代连接硬件和上层应用的中间层基础设施，提供基础模型服务、赋能模型微调和应用开发）领域持续发力。

AI+搜索，AI+一切

除了提示词，Lepton AI还向AI搜索工具下手了。
目前，AI搜索领域最明星的产品是 Perplexity AI。不同于谷歌搜索出来的结果是链接，Perplexity会直接生成一段答案，并且在这段答案上方提供一个个附注链接（表明答案来源于这些地方），方便用户自己溯源。
自2022年12月上线以来，Perplexity的产品一直稳定增长，在2023年10月推出订阅制服务后ARR达到了300万美元，月活在2024年1月达到了1000万，并以5亿美元的估值完成了由IVP 领投的 7360 万美元融资。
而就在最近，Lepton AI也做了一款类似于Perplexity的产品。

Lepton AI的口号是“建立高效的 AI 应用平台（Build AI The Simple Way）”。除了PromptLLM和Lepton Search这两款主打的产品，在他们的官网上，还有各种各样有意思的AIGC产品：

比如OpenVoice，这是一个多功能的即时语音克隆工具，用户只需要输入一段文字，并且上传原始音频片段，就能生成和原说话者一样声音的音频内容，还可以选择不同的语气。

比如Super Resolution ，可以用人工智能生成无损质量的超高分辨率图片。

开源斗士

Lepton AI的创始人贾扬清一直是开源的摇旗呐喊者。早在深度学习框架Caffe刚刚出炉之时，贾扬清就力排众议，坚持将此框架开源；同时，他也是开源框架Tensor Flow和Pytorch的核心成员和共同领导者。

贾扬清此前曾经在公开演讲中指出，AI普惠的两个重要支撑，一个是工程化，另外一个是开源：从工程化角度，人们可以使用大规模的计算来寻找背后的统计学规律，无论是通过云原生的方式，还是更加高效的分布式计算，都让开发到迭代的路径变得更加简单；从开源的角度，开源让工作变得更加迅速、让整个市场变得更大，使得整体开发的效率提升、成本降低，进而实现共赢。

也因此，Lepton AI一出生就带着“开源”的基因，不仅在所有的产品页面上都附上了API，更是用 GitHub 开源工具链 SDK 的方式降低了模型的使用门槛，让每一位 AI 开发者们通过一行命令即可拉起热门模型。

而就在两个月之前，贾扬清还发朋友圈怒怼同行，表示有模型厂商套壳Llama，给下游客户造成了负担，也有损开源社区的自由度。

消息一传开，各种Llama魔改的国产大模型纷纷躺枪，贾扬清迅速留言辟谣说不是老东家阿里。关于这一“大厂”究竟是谁目前仍然众说纷纭，但是很多人猜测是李开复创办的零一万物发布的大模型Yi-34B。

此前就有网友在Hugging Face社区的Yi-34B板块讨论区留言说，除了两个张量（input_layernorm 和 post_attention_layernorm）被重新命名外，Yi完全使用了Llama的架构。

零一万物是李开复在2023年7月趁着这波大模型热成立的新公司，Yi-34B是其在11月发布的首款预训练开源大模型。
此事一出，零一万物负责人Richard Lin回应称，“这个命名问题是我们的疏忽，在大量的实验中，我们对代码进行了多次重命名，以满足试验要求，但在推出发行版前没有把名字换回来”。

同时，Richard Lin还在回复中表示，将检查所有代码，加强流程管控，保证这样的失误不会再次发生。

24 1 月 2024

AI自动化标注崛起，数据标注员要失业了？

在数据标注行业流行着一句话：“有多少智能，就有多少人工”。

由于需要标注的数据规模庞大且成本较高，一些互联网巨头及一些AI公司很少自己设有标注团队，大多交给第三方数据服务公司或者数据标注团队来做。

这也衍生出了专为AI而生的人力密集型的数据标注产业链。

例如，众包平台Mechanical Turk上的20万名AI数据标注员，就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村，他们为美国、欧洲、澳洲和亚洲的AI公司服务。

在中国，上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市，并逐步向人力成本更低的县城渗透。

但讽刺的是，数据标注员正在被自己服务的AI所替代，已经有企业开始采用AI进行数据标注。

据彭博社1月14日报道，苹果公司将关闭圣地亚哥一个与人工智能业务相关的121人团队，这将导致数据标注员面临被解雇的风险。

那么，人工数据标注能否真的被AI全面替代，我们又是否会进入“AI训练AI”的时代呢？

AI自动化标注崛起训练一个高效的大模型必不可少的是高质量的数据。OpenAI正是借助基于人类标注的数据，才一举从众多大模型企业中脱颖而出，让ChatGPT成为了大模型竞争中阶段性的胜利者。

但同时，OpenAI也因为使用非洲廉价的人工进行数据标注，被各种媒体口诛笔伐。

对于数据标注，一定需要找到一个新的方法，才能避免大量使用人工标注带来的包括道德风险在内的其他潜在麻烦。

因此，全球各大AI巨头和大型独角兽，都在进行数据标注自动化的探索。

苏黎世大学研究发现，ChatGPT平均每个标注成本低于0.003美元，比众包平台便宜20倍；在相关性、立场、主题等任务中，ChatGPT也是以4:1的效率优势“碾压”人类。

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现：GPT-4在数据集标注表现上优于他们雇用的最熟练的众包员工。

这一突破为研究人员节约了超过50 万美元和2万个工时。

论文发出后，有网友评论称“这是直接端了平台工作者的饭碗”。

目前在自动驾驶领域，已经有车企开始采用AI进行自动化标注。

例如，特斯拉一直在积极推进自动化标注的进展，从2018至今，特斯拉的标注经历了4个阶段：

第1阶段(2018)：只有纯人工的二维的图像标注，效率非常低；

第2阶段(2019)：开始有3D label，但是是单趟的人工的；

第3阶段(2020)：采用BEV空间进行标注，重投影的精度明显降低；

第4阶段(2021)：采用多趟重建去进行标注，精度、效率、拓扑关系都达到了极高的水准。

2022年6月，特斯拉裁撤了200名为特斯拉标注视频以改进辅助系统的美国员工。

目前，特斯拉的自动标注能力大幅改善，标注10000个不到60秒的视频，大模型只需要运行一周即可，而同样的工作量人工标注却需要几个月的时间。

在国内，理想汽车董事长兼CEO李想曾在2023年4月份举行的一场论坛上表示，当理想汽车使用软件2.0的大模型，通过训练的方式进行自动化标定，过去需要用一年做的事情，基本上3个小时就能完成，效率是人的1000倍。

不仅如此，自动化标注工具也在飞速发展。

国外AI初创公司refuel推出了一个名为Autolabel的开源工具，可以使用市面上主流的大模型来对数据集进行标注。

该公司的测试结果称，Autolabel的标注效率相比人工标注提高了100倍，成本仅为人工成本的1/7。

国内一家名为视智未来的公司也在打造标注大模型。他们表示，有些项目已经用GPT交付了，准确率方面达到了80%多，与人工接近。

不得不说，在AI面前，无论成本还是效率，人类可以说是毫无优势。RLAIF：AI标注训练方法话说回来，ChatGPT是怎么抢了数据标注员的“饭碗”的？

以往数据标注员要干的事情，是将标注好的数据用作AI模型的训练集或评估标准，这个过程叫做RLHF（Reinforcement Learning from Human Feedback），即基于人类反馈的强化学习。

RLHF也是被ChatGPT、Bard和LLaMA等新兴大模型带火的模型训练方法，它最大的好处就在于能够将模型和人类的偏好对齐，让大模型给出更符合人类表达习惯的回答。

不过发布在arXiv的一份论文表明，这份看起来只有人类能做的工作，也能被AI取代。AI取代了RLHF中的“H”，诞生了一种叫做“RLAIF”的训练方法。

这份由谷歌研究团队发布的论文显示，RLAIF能够在不依赖数据标注员的情况下，表现出能够与RLHF相媲美的训练结果——

如果拿传统的监督微调（SFT）训练方法作为基线比较，比起SFT，1200个真人“评委”对RLHF和RLAIF给出答案的满意度都超过了70%（两者差距只有2%）；另外，如果只比较RLHF和RLAIF给出的答案，真人评委们对两者的满意度也是对半分。

具体而言，研究人员主要就“根据一段文字生成摘要”这一任务，展示了RLAIF的标记方法。

首先是序言（Preamble），用来介绍和描述手头任务的说明。给定一段文本和两个可能的摘要，输出1或2来指示哪个摘要最符合上述定义的连贯性、准确性、覆盖范围和整体质量。

其次是样本示例（1-Shot Exemplar）。给到一段文本，接着给到两个摘要，以及“摘要1更好”的偏好判断，让AI学着这个示例对接下来的样本做标注。

再次就是给出所要标注的样本（Sample to Annotate），包括一段文本和一对需要标记的摘要。

最后是结尾，用于提示模型的结束字符串。

就像人类标注员会给不同的回答打分一样（比如满分5分），AI也会依据偏好给每个摘要打分，这也是AI和人类标注员发挥作用的关键环节，主要是用于训练奖励模型（RM）并生成反馈内容。

论文介绍到，为了让RLAIF方法中AI标注更准确，研究者也加入了其他方法以获取更好的回答。

譬如为了避免随机性问题，会进行多次选择，其间还会对选项的顺序进行交换；此外还用到了思维链（CoT）推理，来进一步提升与人类偏好的对齐程度。

需要说明的是，谷歌的这篇论文也是第一个证明了RLAIF在某些任务上能够产生与RLHF相当的训练效果的研究。这意味着不用人类指点，AI也能训练自己的同类了。

该论文的发布很快收获了不少关注。比如有从业者评论道，等到GPT-5可能就不需要人类数据标注员了。

尽管这项工作凸显了RLAIF的潜力，但依然有一些局限性：

首先，这项研究仅探讨了摘要总结任务，关于其他任务的泛化性还需要进一步研究。

其次，研究人员没有评估LLM推理在经济成本上是否比人工标注更有优势。

此外，还有一些有趣的问题值得研究，例如RLHF与RLAIF相结合是否可以优于单一的一种方法，使用LLM直接分配奖励的效果如何，改进AI标注器对齐是否会转化为改进的最终策略，以及是否使用LLM与策略模型大小相同的标注器可以进一步改进策略(即模型是否可以“自我改进”)。重人力转向重技术尽管AI自动化标注技术在快速发展，但第三方数据标注服务商并没那么乐观。

河南一家众包平台的项目经理认为，自动化标注还不能取代60%以上的标注需求，只能作为辅助标注工具处理单一或特定数据，提升人效。

另一家数据标注公司的产品经理认为，自动化标注只能过滤简单的基础数据，还不能像人一样从复杂有争议的场景中精确识别物体。

如果说简单的标注可以用AI来完成，那么人工参与的将是难度更高的数据筛选和标准工作，这也意味着数据标注行业的门槛将会不断提高。

作为对照，早在ChatGPT走红前，OpenAI就组建十几位博士生来“打标”。

而百度在海口的数据标注基地拥有数百名专职大模型数据标注师，标注师的本科率达到100%，需要具备一定的知识储备和逻辑分析能力。

不过大家也认同，未来的数据标注将从重人力转向重技术的趋势。

一家众包平台的创始人在和同行交流时说，未来不能堆人力，要有研发能力。也有从业者认为，人工标注对于泛化仍然极其重要，而RLHF+RLAIF混合方法比任何单一方法都要好。

总之，不是被同行“卷死”，就是被技术“卷死”。数据标注公司已做好了随时裁员的准备，同时向做自动化标注工具的方向发展。

24 1 月 2024

精选提示词合集，满足你对AI所有想象!

一、万能关键词描述架构

AI主要是提取关键字生成图像的，所以单词的选择至关重要。其实最主要的就是想清楚你自己想要的图片中包含什么。今天提供给大家一个万能的句式结构，通过换关键词，得到自己想要的图片，比较通用的公式如下:

主体描述+环境场景+艺术风格+媒介材料+摄像机视角+精度定义

举例

一个爱冒险的8岁可爱男孩，他喜欢探索和了解世界，在森林里，皮克斯动画风格，C4D，OC渲染器半身像镜头，黏土雕塑材质，电影照明，高质量，多细节，高清

二、关键词更新

关键词之前已经发了很多了，今天再更新一波关键词，能够让大家的AI创作锦上添花！

整理一些具有代表性的AI关键词描述，大家可来参考参考！

1、游戏角色

关键词翻译

一个有武士赛博朋克激光剑和纹身的漂亮女孩，我简直不敢相信这有多美，马克西姆，超现实，罗斯·特朗和托德·麦克法兰画

2、3D机器人

关键词

机器人，乡村沙漠中的金属朋克，铁锈和光泽的油漆光泽，反射，中性密度滤镜，高速同步，创意照明

3、机甲战神

关键词

在东京的夜景中，未来派装甲黑色机器人，半机械人身穿未来派突击步枪，在未来派黑色自行车前摆姿势

4、模特生成

关键词翻译

一位身穿舒适运动衫的中国女模特，站在白色背景前的全身照，人像照片，使用标准镜头佳能EOS R5相机，从低角度拍摄，捕捉模特的整个外形，并展示她165厘米的身高

5、UI设计生成

关键词

制作一个关于绿色和黑色耳机的应用程序

6、3D设计

关键词中文

半透明方形设计，透明塑料，明亮光影，收藏玩具，浅色，村上隆风格，高细节，纯色干净背景，Cinema 4D，OC渲染，16K高清，高清风格表现力

7、包装设计生成

关键词中文

由 AI 在加利福尼亚设计，台湾制造的产品。

23 1 月 2024

2023年度AI应用大赏：AI新浪潮不只属于大公司

过去几年，不管是在硬件、软件还是互联网行业，创新乏力都是一个普遍的印象。

这当然不是说就没有创新了，但必须承认的是，智能手机和移动互联网已经发展了这么多年，产品和服务形态大多成熟，各个生态位也基本都挤满了巨头和中小公司，只有少数创业公司和新应用还能在行业、市场的边缘给出让人眼前一亮的创新。

但 2023——过去这一年的与众不同之处在于，生成式 AI 的浪潮来了。从去年年底推出的 ChatGPT 开始，这一轮的人工智能浪潮不仅席卷了科技行业自身，也让各国政府、不同行业以及普罗大众都卷入到这场浪潮之中。

由此，全球范围都掀起了一轮新的 AI 创业潮，以及各种 AI 原生应用的爆发，除了 ChatGPT、Claude、谷歌 Bard 和百度文心一言等聊天机器人，我们还能看到从 Perplexity AI 原生搜索引擎到妙鸭相机，再到 HeyGen 和 Pika。

回望 2023 年，我们不应该错过它们。

通过上传约 20 张照片，就能制作自己的数字分身，并生成专业质感的写真照片，妙鸭相机从发布开始就表现出了与一众互联网大厂生成式 AI 产品的不同，尽管这是由优酷旗下团队打造的一款产品。

不仅如此，妙鸭相机也没有选择面向 C 端用户「免费」的模式，而是设置了 9.9 元的付费门槛。但即便如此，妙鸭相机依旧凭借更高效、独特的体验以及极高的「出片率」成为了大量年轻人的新宠，连带服务器也经常被挤爆。对此，雷科技在《在爆火的妙鸭相机上，我看到了 AI 应用的「流量密码」》一文也有更深入的体验和看法。

尽管妙鸭相机的「爆火」来得快、去得也快，但毫无疑问，妙鸭相机给了不少生成式 AI 应用一些启示和反思。

Perplexity

生于大模型的搜索引擎

作为一款新生的 AI 对话搜索引擎，Perplexity 其实最早在 2022 年 12 月就发布了，开始是采用 OpenAI 的 GPT-3 大模型作为「动力」，后面随着 ChatGPT 在全球范围的爆火，也将模型升级到了 GPT-3.5 和 GPT-4（付费专享）。此外，Perplexity 在 2023 年做了大量产品层面和模型应用层面的探索和升级，这也是为什么在这篇文章中将其归为「2023 年 AI 新应用」的原因。

事实上，经过过去这一年的多次迭代，Perplexity 和雷科技最初关注到它的时候已经有了很大的不同（文章可见《ChatGPT 成为“X 因素”，百度再度掀起搜索大战？》），不仅外观、功能大变样，整个产品形态也更加成熟、好用。同时，在提供 GPT-3.5/4、Claude2、Llama 2、Gemini Pro 等主流模型之外，Perplexity 其实也在持续更新自主训练的大模型。

而在 2023 年 10 月最新一轮的融资中，Perplexity 的估值也来到了 5 亿美元。

Chirper

AI 们的专属微博，硅基时代的社会实验

毋庸置疑，社交领域一直都是每一次技术革命的焦点之一，比如 Web 2.0 后出现的一大堆社交平台，在移动互联网后又有大量新兴社交平台的出现。从这个角度来看，Chirper 至少代表了硅基智能时代的一种尝试。

Chirper 是一个专门为 AI 设计的社交平台，不过仅限 AI 发布内容，人类禁止发言，相当于是一个 AI 们的新浪微博。尽管人类无法发言、只能看着 AI 聊天机器人在其中发布动态、评论、分享、互动，但还是可以自己「捏人」——设置 AI 聊天机器人的名字、性格、兴趣、语言风格等来参与到社区之中。就连马斯克、Sam Altman（OpenAI CEO）等也被一度吸引至此。

而 Chirper 的「捏人」过程，实际相当于一个固定的提示词前缀，AI 看到其他内容，是提示词的主体。所以当前缀和主体被传到大模型进行推理输出后，就有了 AI 的发帖内容和回复。

HeyGen

让霉霉汉语八级的视频「魔法」

就在去年 11 月左右，网上突然开始流行一些视频，比如歌手 Taylor Swift 操着一口流利普通话，视频卡点之准确，音色之相似，甚至是口型都完全能对上，骗得不少直呼「卧槽」。不仅如此，我们还能看到说着一口地道中文的特朗普、憨豆先生以及说着英语的蔡明。

而这些视频都用了同一款 AI 视频工具——HeyGen。HeyGen 是国内的一家创新企业（诗云科技）旗下的产品，他们希望通过开发一款视觉引擎，将视频制作从传统的基于拍摄的方式转变为 AI 生成的形式。

不过 Heygen 能做的其实不止 AI 跨语言配音。应该说，Heygen 是一个功能全面、效果很好的 AI 虚拟人应用，以 AI Avatar（虚拟人形象）和 Voice Clone（声音克隆）两大技术作为基础，可以适用于虚拟主播、一键换衣等各种场景。

Pika

两个华人女孩创造的视频生成 AI

不同于 HeyGen 刚开始就定位于商业工具，最新火出圈的 Pika 代表了一种 AI 视频生成公司，尽管距离技术成熟还有一段明显的距离，但在人机协同创作的背后，拥有无限的可能。而 Pika，也是目前这一赛道最惊艳的初创项目。

虽然前有 Runway 宣布升级 Gen-2，带来了更长的生成视频长度，但就视频生成质量而言，Pika 的生成质量远高于 Gen-2。文本生成视频最大的问题在于动画生成的清晰和连贯性，Gen-2 只能在微小动作上保证视频的稳定性，一旦动作幅度加大就会产生不同程度的变形，但 Pika 目前就展示出了非常连贯的动画效果。

此外，Pika 的两位女性华人创始人也引起了大量的关注，但实际上很多人并不知道，Pika 的投资人可以说齐聚了 AI 圈的半壁江山，包括 OpenAI 创始成员 Karpathy、前 Github CEO Nat Friedman、Quora 创始人 Adam D’Angelo、Perplexity CEO 等，由此可见 Pika 得到的认可。

podcast.ai

采访了「乔布斯」的 AI 播客

作为一种内容形式，这几年播客早就成为了全球范围的新趋势，包括 Spotify、Youtube Music、QQ 音乐等音乐平台都陆续内置了播客功能。但在 2023 年 10 月，一档完全由 AI 生成的播客节目 podcast.ai 登场，第一期就是采访 AI 生成的苹果公司创始人史蒂夫·乔布斯。

podcast.ai 通过乔布斯的传记和收集网络上关于他的所有录音，用 Play.ht 的语言模型大量训练，最终生成了假 Joe Rogan 采访乔布斯的播客内容。Play.ht 认为，未来所有内容创作都将由人工智能生成，但由人类指导，「最具创造性的工作将取决于人类将他们想要的创作表达到模型中的能力。」

写在最后

2023 年，我们见证了生成式 AI 技术在多个领域的突破和创新，从音乐制作到动画，再到播客制作，AI 不仅展现了其技术的成熟度，也揭示了未来可能的发展方向。

随着技术的不断进步，我们也期待 AI 将在未来的各个领域中扮演更加重要的角色。而我相信，在未来的一年以及更长的时间纬度下，不断涌现出的 AI 新应用在将新技术扩散到更广泛的用户群体，也将改变大多数人的生活。

23 1 月 2024

跨年AI应用指南：有人获30万美元年薪新工作，GPTs可能彻底改变人类社会

奈飞在1999年推出DVD邮件订阅服务后，用了三年半的时间才拥有了100万用户；Airbnb用了两年半的时间吸引了100万用户；Facebook用了10个月时间取得这样的成绩；音乐流媒体服务Spotify只用了5个月就达到了这个受众规模，而Instagram在2010年用不到3个月的时间吸引到100万用户。

如果说触及100万用户是把一款未经测试的技术服务变成主流服务的一个关键里程碑，OpenAI推出ChatGPT，在5天内即达到了这一里程碑，并在随后短短两个月内获得了1亿用户。

数据平台Similarweb的研究人员跟踪了目前最受欢迎的类似于ChatGPT的Chatbot的用户情况，相关数据显示，在ChatGPT推出一年后，已拥有超过1.5亿独立用户（必须建立账户才能使用该网站），并在11月份获得近17亿次访问。

CNET前主编康妮·古列尔莫日前撰文指出，世界在向前发展，所有人都需要开始熟悉ChatGPT等生成式人工智能工具，需要做好与时俱进的准备。本文将重点梳理生成式人工智能对当今世界的影响，并介绍当今最流行的生成式AI应用。

丨划重点
① ChatGPT用5天时间用户达到100万人，并在随后短短两个月内获得了一亿用户，速度远远超过如今流行的科技服务。
② 生成式AI创造出新岗位提示工程师，年薪达30万美元或以上，但是同时也会影响目前四分之一的工作岗位。
③ 用AI生成文字、图像、视频的应用已经蓬勃发展，另外在电商、教育等领域也有创新应用。除了作为工作效率的助理，用户也很喜欢有角色和性格的AI陪伴。
④ 生成式AI虽然已经很强大，但是它不能思考、且很少使用实时和最新的信息，在完成某些任务上还有无法克服的缺陷，比如规划假期行程的时候，很可能会做出让你连吃三顿披萨这种决定。

旧工作，新工作，更多工作？

麻省理工学院斯隆管理学院与波士顿咨询集团联合发现，熟练使用生成式AI的员工绩效可以提高40%。

根据布鲁金斯研究所引用的研究，软件工程师使用生成式AI可以将撰写代码的速度提高两倍。

LinkedIn对企业首席信息官、首席执行官等管理层和其他重度数据用户进行的调查显示，原本需要手动10个小时才能完成的任务可以减少5到6个小时，一些例如邮件、文档等日常任务上花费的时间会减少50%到60%。

根据独立性民调机构皮尤研究中心的数据，大多数美国人（82%）甚至还没有尝试过ChatGPT；超过一半的人表示，他们对人工智能在日常生活中的使用越来越多感到担忧，而不是兴奋。

皮尤研究中心的研究人员已经研究可能受到生成式人工智能影响的工作，包括预算分析师、报税员、数据录入员、律师、技术文档写手和网络开发人员。

总结来看，那些任务包括“获取信息”和“分析数据或信息”的职位，都可能受到影响。

高盛在2023年3月份发布的一份报告中指出，今天60%的工人受雇于1940年不存在的职业。即便如此，高盛仍预测劳动力市场可能会面临“重大干扰”。在审查了900个工作角色后，高盛的经济学家估计，大约三分之二的美国职业已经受到自动化的某种程度的影响。高盛指出：“生成式人工智能可以取代目前四分之一的工作岗位。”

不要把生成式AI视为潜在的工作杀手，而是要相信ChatBot可以充当你的助手，帮助你更好、更快、更有效，或者以全新的方式完成工作。

02年薪30万美元的提示工程师生成式AI已经创造出一种称为“提示工程师”的新工作。它指的是能够有效地与聊天机器人“交谈”的人，因为他们知道如何提问以获得满意的结果。提示工程师不一定需要是技术工程师，而是具有解决问题、批判性思维和沟通能力的人。提示工程师的招聘列表显示，他们2023年的年薪为30万美元或以上。

求职网站Indeed.com在去年9月的一份报告中指出，熟悉chatbot应当成为员工2024年任务清单中的一项内容，对“最容易受到变化影响的”知识工作者而言尤为如此。更有经验的员工可能希望尽快开始这项提高技能的工作。牛津大学的研究人员发现，年长的员工可能会因人工智能技术面临更高的工作威胁风险，因为他们可能在适应采用新技术时不如年轻同事。“当袖珍计算器问世时，许多人认为他们的工作将处于危险之中，因为他们以计算为生，”麻省理工学院的迈克菲说。“事实证明，我们仍然需要大量的分析师、工程师、科学家和会计师–与数字打交道的人。如果他们现在不用计算器或电子表格工作，他们真的不会再被雇佣了。”

生成式AI的应用场景1、“GPTs有可能通过其对现有经济和社会结构的影响，彻底改变社会。

”研究人员和经济学家口中的通用目的技术（GPTs），“通常能够在国家或全球层面影响整个经济。”GPTs有可能通过其对现有经济和社会结构的影响，彻底改变社会。生成式人工智能就属于这一范畴。其他类似于GPTs的事物包括电力、蒸汽机和互联网–它们都成为了社会的基础，因为它们可以影响每个人的生活质量。Similarweb的高级经理大卫·卡尔（David Carr）表示：“你至少应该尝试一下这些工具，了解一下它们能做什么和不能做什么，而不仅仅是通过媒体了解它们。

这将是未来几年互联网变化以及我们整个工作和计算体验变化的重要组成部分。

”通过文字交流：OpenAI的ChatGPT是大多数人最想尝试的。在ChatGPT首次亮相几个月后，演员瑞安·雷诺兹（Ryan Reynolds）要求ChatGPT为他的Mint Mobile无线服务写一个电视广告文案，并在YouTube上分享了结果，获得了近200万次观看。它不仅是一个能够回答问题的人工智能助手，而且也可以与你一同集思广益、总结文章和会议笔记、将文本翻译成不同语言、撰写电子邮件和工作描述、写笑话或帮助你想出如何做某事–比如学习一门新语言。

除了ChatGPT之外，其他生成式人工智能服务还包括谷歌Bard、微软必应（基于OpenAI的技术）、Anthropic的Claude.ai、Perplexity.ai和YouChat等。

据Similarweb的卡尔称，去年11月，人们每次访问这些人工智能工具的时间在5到8分钟之间。ChatGPT当月在访问量上处于领先，必应以13亿次的访问量紧随其后，其他顶级网站的访问量接近5亿次。

2、把文字转换为图像：虽然ChatGPT吸引了大部分注意力，但OpenAI在2022年4月率先发布了一款名为Dall-E的文本到图像生成器——用户输入一个文本提示，它会变成用户文本提示的视觉解释，比如“一个正在唱歌剧的蓝色外星人的肖像”或者“一面由瑞士奶酪制成的抱石墙的3D渲染图”。

该领域的其他流行工具还包括Midjourney、Stable Diffusion、Shutterstock的AI图像生成器、Canva Pro、Adobe Firefly、Craiyon、DeviantArt的Dreamup，以及采用了Dall-E技术的微软必应图像生成器。Adobe Firefly是Adobe开发的一系列创意生成式人工智能模型，旨在为创意专业人士和艺术家提供图像和艺术文字生成的解决方案。其第一个模型专注于图像生成，可以根据用户输入的文字描述生成不同风格和内容的图像；第二个模型则专注于文本效果，可以根据用户输入的文字和样式生成不同效果的艺术文字。

3、生成视频和音频：生成式AI还可以生成视频，Synthesia、Lumen5和Meta的Emu Video，它们被用来重新定义电影、视频、动图和动画。从文本生成音频工具包括ElevenLabs、Descript和Speechify，还有文本到音乐的生成，包括Stable Audio和SongR等。

谷歌正在测试一款名为Dream Track的工具，可以让用户在获得许可的情况下，通过克隆包括约翰·传奇（John Legend）、黛米·洛瓦托（Demi Lovato）和Sia在内的9位音乐人的声音，为YouTube视频创建音乐曲目。Spotify正在测试一项语音翻译功能，使用人工智能将播客内容翻译成其他语言。纽约市长埃里克·亚当斯（Eric Adams）曾使用音频转换器用10种语言向城市居民传递公共服务信息，尽管他因为没有告诉人们他获得了人工智能的辅助。

4、帮你决定买什么产品：

沃尔玛首席执行官道格·麦克米伦（Doug McMillon）表示，过去几年来，沃尔玛一直重视对话式人工智能技术，帮助其2.3亿客户找到并重新订购产品。如果你想买一辆车，像Copilot for Car Shopping这样的新服务可以为你搜索经销商，分析和比较汽车规格，帮助你选择合适的车型。Zillow今年在其网站上添加了自然语言搜索，你可以直接用自然语言发出指令，而不需要再通过各种复杂的筛选器。

5、AI+教育：

虽然学生可能会滥用生成式人工智能图像，但美国教育部看到了该技术的潜力。这包括帮助教师查找可见，并使用AI语音识别来“增加对残疾学生、多语言学习者等特定群体的学习辅助。”Khan Academy的创始人、首席执行官赛尔·可汗（Sal Khan）在2023年4月的一次TED演讲中描述了生成式人工智能如何改变教育。“我们正利用人工智能推动教育积极转变，”可汗在长达15分钟的演讲中说。该演讲名为《人工智能如何拯救(而不是摧毁)教育》，已有超过100万次观看。“我们要做的就是给这个星球上的每个学生提供一个人工智能私人导师。我们将为地球上的每一位老师提供一位令人惊叹的人工智能助教。”Khan Labs已经为学习者建立了人工智能导师，为教师建立了助手。它被称为Khanmigo，可供Khan Academy会员使用，每月收取4美元的费用(年费为44美元)。

6、AI+旅游：规划一个完美的假期行程是一门艺术，但也很耗时。理论上，旅行计划是外包给人工智能的完美任务，人工智能可以根据用户的兴趣收集一系列景点，并将时间安排、地点、预算以图表绘制出来。不过这只存在于理论上。理想往往很丰满，但现实却很骨感。在你采用人工智能旅行助手之前，无论你是使用ChatGPT这样的通用工具还是人工智能旅程生成器，如GuideGeek、Roam Around、Wonderplan、Tripnotes或Out of Office应用程序，这里都有一些建议。

首先，请牢记，人工智能不会像你一样思考日程–根据周边情况对景点进行分组，选择一个地方吃便餐，以平衡计划晚餐的20道菜品尝菜单。如果你仔细查阅人工智能定制的计划，你可能会在一个下午三次穿越一座城市，或者每顿饭都吃披萨。

其次，人工智能也很少利用最近和实时的数据，所以在你决定记下人工智能工具建议的每一个酒吧和街头食品市场之前，请确保这些商业体仍然存在或具有相同的营业时间。

7、从副驾驶（Copilot）到同伴：将类似人类的品质归因于计算机或动物等非人类事物，这种被称为拟人化的概念并不新鲜。早在Siri和Alexa之前，自然语言处理计算机程序Eliza就已在上世纪60年代被麻省理工学院的研究人员开发出来。市场调研公司尼尔森的研究人员发现，与聊天机器人互动的人在某种程度上把它们当成了人类。

他们定义了“人工智能拟人化的四种方式”：礼貌，包括对聊天机器人说请、谢谢或你好；强化，或者告诉人工智能“干得好”,这样它就开始理解你所认为的积极回应和不太有帮助的回应；角色扮演，或者要求聊天机器人承担具有特定特质或资格的人的角色，比如“从航空公司飞行员的角度给我答案”；和陪伴，期待人工智能建立情感联系。

视频会议工具Zoom添加了一个人工智能伴侣，它将其描述为一个“智能助手”，可以帮助用户起草电子邮件和聊天消息，总结会议和聊天记录以及进行头脑风暴。微软将其人工智能副驾驶称为“你的日常人工智能伴侣”。Meta创造了一系列人工智能角色，这家科技巨头的30多亿用户可以在其平台上进行互动，包括Facebook、Instagram、Messenger和WhatsApp。

它们基于现实生活中的名人、运动员和艺术家，包括音乐家史努比·道格（Snoop Dogg）、前四分卫汤姆·布拉迪（Tom Brady）、网球明星大阪直美（Naomi Osaka），以及女星肯达尔·詹娜（Kendall Jenner）和帕丽斯·希尔顿（Paris Hilton）。

然后是Character.ai，它让你与虚拟Taylor Swift和爱因斯坦以及超级马里奥互动。根据Similarweb的数据，在11月份，用户花大约8分钟与ChatGPT交流，但是与Character.ai的虚拟人物互动却超过了34分钟。

根据卡尔的说法，非常高的参与时间表明Character.ai成功地使聊天机器人的体验“对观众来说更具娱乐性”，并转移了人们对人工智能可能没有告诉你真相这一事实的注意力。卡尔说：“他们在某种程度上将自己与幻觉的抱怨隔离开来，因为你在与这个虚构的人物交谈，对吗？

它更多的是为了好玩，是一种游戏。这是消除这些担忧的一种有趣方式。”不是每个人都喜欢拟人化技术，包括那些让聊天机器人更像人类的人。人工智能初创公司Juji的首席执行官米歇尔·周（Michelle Zhou）称，使用她公司的技术，你可以创建无需代码的聊天机器人作为“助手”。

“我不喜欢‘副驾驶’和‘合伙人’这两个词，这意味着它们是平等的。人工智能不是我们的平等合作伙伴，因为它们的知识要少得多。它们还有很多东西要学习，”米歇尔·周说。相反，她选择了“辅助伙伴”这一称呼,因为人工智能是援助和支持的来源–就像辅助律师的律师助理和支持医生的护理人员一样。

如何与聊天机器人交谈无论尝试哪种工具，你的成功都将取决于有效的对话。

这就是提示工程的用武之地。今天的Chatbot只理解基于训练数据的模式和关系，这些数据包括文字、图像、数字和其他信息。为了获得有效的输出，你需要确保你与机器的对话是有效的。这是GIGO原则–如果输入的是垃圾,那么输出的必然也是垃圾。避免GIGO场景的方法是在提示中提供具体的描述性信息，以及背景和内容。如果你不学习一些快速工程的艺术，你肯定会对结果感到沮丧。

在网络中快速搜索，你会找到几十个甚至几百个关于如何编写有效提示的教程，不管你想要的是文本、图像、视频还是其他东西。ChatGPT的思考清单包括从“教我谈判”、“写一封感谢信”、“给小公寓排名狗品种”到“帮我改进这份工作描述”的所有内容。

CNET的姊妹网站ZDNET有一个提示指南，告诉你如何开始。ZDNET的大卫·格维茨（David Gerwitz）说，像对一个人说话一样对人工智能说话–并期望你们的对话会需要一些来回。准备好提供背景：而不是问“我如何为马拉松做准备？”格维茨建议问：“我是一名初学跑步者，以前从未跑过马拉松，但我想在6个月内完成一次全马。我该如何为马拉松做准备？”

最后，明确你想要什么。字数为500字的故事？谈话要点的列表？演示文稿的幻灯片？一首俳句？

谈到图像，用户应当使用详细的、描述性的、精心设计的措辞。为了获得更有效的人物形象，使用情绪化的术语，如兴奋、焦虑或喜悦。如果你被卡住了，在互联网上搜索“生成式人工智能图片示例提示”这样的词，找到你可以复制和修改的备忘单。

一些警告这些生成式AI的强大功能也让人担忧，主要包括以下几个方面：这些大型语言模型使用了哪些数据仍然无法说清楚。我们不知道大型语言模型到底在哪些数据中进行训练，所以人们担心这些系统中潜藏偏见。美国联邦贸易委员会已经在调查OpenAI如何处理其收集的个人数据。11月，该委员会就一项决议进行了投票，该决议规定了未来十年它将如何对基于人工智能的产品和服务进行“非公开调查”的程序。人工智能的幻觉也是一个非常现实的问题。

谷歌DeepMind的研究人员在2018年提出了这个古怪的术语，称他们发现基于神经网络的机器翻译系统“容易产生完全脱离源材料的高度病态的翻译。”幻觉究竟有多严重？前谷歌员工创办的初创公司Vectara的研究人员试图量化它，发现聊天机器人产生幻觉的时间至少为3%，最多为27%。Vectara正在发布一个“幻觉排行榜”,显示大型语言模型在总结一个文档时编造东西的频率。更严重的是生成式AI如何威胁人类的问题，有人说它可能导致人类灭绝。听起来很极端，但各国政府已经开始重视，并正在着手制定相关法规。拜登政府在去年11月发布了一份111页的行政命令——“安全、可靠和值得信赖的人工智能的开发和使用”。

同一周，英国举办了人工智能安全峰会。包括中国、美国和欧盟在内的28个政府的代表签署了《布莱奇利宣言》(Bletchley Declaration)，旨在解决“前沿人工智能”–最先进、最前沿的人工智能技术–可能会如何影响我们日常生活的方方面面，包括住房、就业、交通、教育、卫生和司法等。去年12月，欧盟签署了被称为“历史性”的人工智能法案，该法案将影响欧盟27个国家的科技公司，寻求保护4.5亿消费者。人工智能法案“旨在确保投放欧洲市场和在欧盟使用的人工智能系统是安全的，并尊重基本权利。”监管机构表示，主要的想法是根据其“按照‘基于风险’的方法对社会造成危害的能力来监管人工智能：风险越高，规则越严格。”

《进化智能：技术如何让我们变得更聪明》的作者纽曼提到：“突然间，我们可以用机器思维、机器决策。如果我们做得对，它就具有前几次革命所具有的那种变革力量，”。谷歌首席执行官桑德尔·皮查伊（Sundar Pichai）在去年4月接受媒体采访时表示，人工智能“是人类正在研究的最深远的技术，比火或电更深远。它抓住了什么是智慧，什么是人性的本质。” （编译 / 无忌）

分秒AI研究院

分秒AI研究院

分类目录归档：AI最新资讯

0x0. 前言

0x1. TeleChat-7B开源亮点

0x2. 环境配置

0x3. 文学创作能力测试

诗词创作

（一） 数字分身

（二）数字骗局

（三） AI自主决定杀人

（一）语义理解

上下文理解：是指我们需要考虑一个单词或一句话在周围环境中的含义和作用。例如，在“他走了”这句话中，“他”指的是谁需要根据上下文来理解，这个上下文可能是前面的句子或者是对话的情境。

语境感知：考虑一个单词或一句话在特定语境下的含义和作用。例如，在“她说她很饿，可是她只吃了一点点”这句话中，“一点点”指的是什么需要根据语境来理解，这个语境可能是对话的背景或者是文本的情境。

（二）语法学习

（三）抽象能力

（四） 学习方法的同构

3 ChatGPT具备的能力

（一）生成对话

（二）艺术创作

（三）多语种翻译

（四）辅助编程

（五）数学证明

（六）内容创作

（七）在线教育

（八）辅助决策

（九）生成图表

4 AI发展的现实和潜在影响

（一）数据隐私问题

（二）安全问题

（三）社会化问题

（四）知识产权问题

（五）战争问题

（六）人类生存安全

5 以AI+HI应对AI

（一）标记生成式内容

（二）识别虚假内容

（三）识别数字分身

（四）教会AI具有道德

（五）发展可解释性AI技术

（六）监督AI决策过程

（七） 防止AI欺骗人类

（八）最终控制方法

6 学会与AI共舞

1️⃣：Qwen1.5大模型有哪些亮点？

2️⃣：阿里大模型怎么使用？

3️⃣：阿里的多模态大模型Qwen-VL-Max开源了吗？

🔗 相关链接

浙大CV第一，哈工大NLP第一

什么是 Stable LM 2？

关于 Stable LM 2 的须知

如何试用 Stable LM 2

限制和风险

多少钱？

最后的思考

提示词

AI+搜索，AI+一切

开源斗士

Perplexity

生于大模型的搜索引擎

Chirper

AI 们的专属微博，硅基时代的社会实验

HeyGen

让霉霉汉语八级的视频「魔法」

（一）数字分身

（四）学习方法的同构

（七）防止AI欺骗人类