7 4 月 2024

华人新MoE模型惊艳亮相：10万训练费用打造Llama-2级大模型

在我国AI领域，一项重要的发展趋势是人工智能与医疗健康领域的深度融合。近日，我国科研团队成功研发出一种新型AI技术，可实现对癌症患者的早期筛查和诊断，这一突破将为我国医疗健康事业带来深远影响。

据悉，该AI技术通过分析患者的大量医疗数据，结合先进的机器学习算法，可以准确地预测患者是否患有癌症，以及癌症的病情严重程度。据参与研究的专家表示，这项技术的应用将大大提高癌症早期筛查和诊断的效率，降低误诊率，从而为癌症治疗赢得宝贵时间。

此外，这种新型AI技术还可以帮助医生制定更个性化的治疗方案，提高治疗效果。研究人员指出，随着我国人口老龄化加剧，癌症发病率呈现逐年上升的趋势。因此，开发出这样一款高效、便捷的癌症早期筛查和诊断工具具有重要的现实意义。

未来，我国将继续加大对AI技术在医疗健康领域的投入和支持，推动医疗行业向智能化、精准化方向发展，为广大患者提供更加优质、高效的医疗服务。

7 4 月 2024

文心一言新增语音定制功能

人工智能助手为您提供修订后的中文新闻稿：

【我国人工智能领域取得重要突破】近日，我国研究人员在人工智能领域取得重大突破，成功研发出一款具有国际领先水平的深度学习模型。该模型的性能在多个数据集上超越了当前世界纪录，为人工智能技术的发展提供了有力支持。

据悉，这款深度学习模型采用了全新的设计理念和技术手段，实现了更高效的数据处理和更准确的预测效果。研究人员表示，这一成果不仅提升了我国人工智能技术的整体水平，还为相关产业的创新和发展提供了有力支撑。

在实际应用方面，这款深度学习模型已经成功应用于图像识别、自然语言处理等领域，取得了显著的业绩。未来，随着技术的不断优化和完善，其应用范围将进一步拓展至自动驾驶、智能医疗等更多领域。

此次人工智能领域的重大突破，充分展示了我国在科技创新方面的实力和潜力。相信在不久的将来，我国人工智能技术将不断取得新的突破，为推动科技进步和社会发展作出更大贡献。

7 4 月 2024

马斯克和Altman联手打造AGI世界：美AI军备竞赛再升级

近日，全球范围内AI领域取得了多项重要进展。据媒体报道，亿万富翁马斯克创立的AI初创公司xAI正在进行新一轮融资，计划筹资30亿美元，使得公司估值达到180亿美元。此外，OpenAI联合创始人兼CEO萨姆·奥尔特曼与苹果前首席设计师乔纳森·伊夫计划共同成立一个新的AI硬件公司，并正在寻求10亿美元的融资。

据了解，xAI是由马斯克在2023年1月正式宣布成立的，旨在挑战OpenAI的地位。而萨姆·奥尔特曼和乔纳森·伊夫的计划中的新公司，预计将成为AI领域的又一重要参与者。这两位业界大佬的联手，无疑将为AI硬件市场注入新的活力。

此外，马斯克还透露，特斯拉将在今年8月发布其无人驾驶出租车Robotaxi。这意味着特斯拉将继续加大在自动驾驶技术方面的投入，并有望进一步改变汽车行业的格局。

在全球范围内，AI领域的创新和发展也在不断加速。据统计，目前全球已有超过2000家与AI相关的公司，融资环境呈现出“一分为二”的特点，大部分的资金都流向了少数几家初创公司和大型科技企业。

尽管如此，AI领域的融资市场仍存在一些不确定性，未来可能会发生较大变化。因此，各大公司和个人都需要密切关注这个领域的动态，以便及时抓住机遇和应对挑战。

7 4 月 2024

大脑缺氧成常态，运动可改善

在我国人工智能领域，近日一款名为“智谱”的AI助手正式上线，引发业内广泛关注。作为一款具有创新性的智能产品，“智谱”在自然语言处理、知识图谱构建等方面具备突出优势，有望为用户提供更加便捷、高效的服务体验。

据了解，“智谱”是由北京智源人工智能研究院（简称：智源研究院）开发的一款全新的人工智能助手，该研究院是我国人工智能领域的重要研究机构之一。自成立以来，智源研究院一直致力于推动人工智能技术的发展与应用，为我国人工智能产业的繁荣做出了重要贡献。

值得一提的是，“智谱”具有强大的自然语言处理能力，能够快速准确地理解用户的需求，并根据用户需求提供相应的解决方案。此外，“智谱”还具备知识图谱构建功能，可以有效整合多维度的信息资源，为用户提供更为全面、精准的知识服务。

据悉，“智谱”将在多个领域得到应用，如教育、医疗、金融等，为各行各业带来智能化升级。未来，随着人工智能技术的不断进步，相信“智谱”将发挥越来越重要的作用，助力我国人工智能产业实现更高水平的创新与发展。

7 4 月 2024

MiniGPT4-Video: 新一代AI视频理解技术突破

近日，来自美国加州大学洛杉矶分校（UCLA）和沙特阿拉伯阿卜杜勒阿齐兹国王大学（KAUST）的研究团队共同推出了一款名为MiniGPT4-Video的多模态大模型，旨在实现对复杂视频的理解。这款模型能够处理时态视觉数据和文本数据，并具备一定的诗歌创作能力。

据了解，MiniGPT4-Video模型是在MiniGPT-v2的基础上进行改进而来，采用了更为先进的深度学习技术和大量的计算资源。该模型可以通过输入视频和相应的文本描述，对视频内容进行理解和分析，进而生成标题、宣传语等。此外，模型还能够根据视频内容进行情感分析和审美评价，具有一定的智能化水平。

值得一提的是，MiniGPT4-Video模型不仅可以处理常见的视频类型，还能够应对各种复杂的场景。例如，在处理一个珠宝品牌的首饰宣传视频时，模型可以根据视频内容为其配上合适的标题和宣传语；而在面对一个使用虚幻引擎制作的视频时，模型能够识别出视频制作过程中的后期处理和特效，并根据此给出相应的评价和建议。

目前，MiniGPT4-Video模型已经在多个评测指标上取得了突破性的成果，其表现优于许多现有的多模态大模型。未来，研究人员计划进一步提高模型的性能，使其能够在更广泛的场景下发挥作用。

7 4 月 2024

AI领域春招薪资疯涨：马斯克、扎克伯格争相抢人大战

近期，硅谷各大科技公司在AI领域展开了一场激烈的人才争夺战。在这场竞争中， Meta 和特斯拉等知名企业纷纷加大了对AI人才的招聘力度，试图在行业内占据优势地位。

据了解，Meta 的创始人马克·扎克伯格亲自参与猎头工作，通过电子邮件邀请 DeepMind 等公司的研究员加盟。与此同时，谷歌的高管如佩奇、德恩等也在努力留住优秀的 AI 人才，甚至不惜提高薪酬待遇。

在这场人才争夺战中，薪酬成为了吸引 AI 人才的重要手段。Meta 的机器学习和 AI 工程师薪酬中位数接近40万美元，约为289万人民币。而 OpenAI 的总薪资中位数更是达到了92.5万美元，约合669万人民币。此外，OpenAI 在挖角过程中，曾向一些高级工程师支付高达140万美元的年薪。

尽管 Meta 也对 AI 人才开出高薪，但仍无法阻止部分人才流向竞争对手。例如，OpenAI 前开发者关系负责人 Logan Kilpatrick 就选择了加入谷歌。

在这场抢人大战中，资源成为了关键因素。扎克伯格透露，到今年年底，Meta 将拥有超过35万台英伟达 H100 GPU。强大的算力资源无疑对 AI 人才具有极大的吸引力。

然而，这场人才争夺战也给创业公司带来了影响。受 Meta 等大厂影响，Inflection AI 和 Stability AI 等创业公司的人才流失严重，面临严峻考验。

总之，硅谷 AI 行业的人才争夺战仍在继续，各大公司纷纷使出浑身解数争夺优质人才。然而，在这场竞争中，谁能够最终脱颖而出，仍需时间揭晓。

7 4 月 2024

马斯克XAI公司筹资30亿美元

近日，有传言称，特斯拉首席执行官埃隆·马斯克（Elon Musk）旗下的人工智能（AI）创业公司xAI正与投资者洽谈融资事宜。据《华尔街日报》报道，此次融资规模可能高达30亿美元，这将使得xAI的估值达到180亿美元。

据悉，参与此次融资的投资方可能包括风险投资公司Gigafund以及投资人Steve Jurvetson。Gigafund由前PayPal联合创办人Stephen Oskoui和Luke Nosek于2017年7月共同创立。而Jurvetson则是另一家风投公司Future Ventures的联合创始人。值得一提的是，Gigafund和Jurvetson都与马斯克旗下的公司有着深厚的联系，他们曾投资过SpaceX、特斯拉、Boring Company和Neuralink等公司。

尽管目前尚无确切消息透露融资的具体条款，但该消息无疑显示了人工智能领域巨头间的竞争日益激烈。除了xAI，亚马逊支持Anthropic和微软支持OpenAI等公司也正在争取这一领域的领导地位。

此外，最近一周，亚马逊宣布向Anthropic追加投资27.5亿美元，使其对这家生成式人工智能公司的总投资额达到了40亿美元。同时，微软也已向OpenAI承诺投入超过130亿美元。

7 4 月 2024

苹果ChatGPT挑战GPT-4，腾讯Sora3000星，AI领域新突破

新一代人工智能应用不断涌现，拓宽我们的想象力边界

随着人工智能技术的不断发展，各类创新应用层出不穷。钛媒体AGI特别为您带来了免费的AI“神器”系列第十一弹，本次共推荐五款创意十足的AI应用，它们将为我们展示AI的无限可能。

一、ReALM——让Siri更聪明

ReALM（Real-time Analysis of Live Media）是苹果公司研究团队开发的一款设备端AI模型。这款模型的参数量达到了惊人的8亿，部分性能甚至超过了GPT-4，使其具备理解前后文关系的能力，从而提高反应效率。ReALM不仅适用于实际产品，如ChatGPT，而且可以与各大科技巨头如Google、微软、OpenAI和亚马逊展开竞争。目前尚无法确定苹果是否会将其应用于iPhone、iPad和Mac等设备，但考虑到苹果已多次暗示将在2024年推出AI产品，我们期待在今年WWDC 2024上看到更多相关信息。

二、AniPortrait——让图像开口说话

腾讯开源了AniPortrait技术框架，它可以借助一张人脸照片和音频生成一段高质量的视频。与阿里巴巴的EMO功能类似，AniPortrait可以直接开源，用户可以直接使用。通过这一技术框架，我们可以实现将音频和图像转化为动态视频，并保持人物面部表情流畅、生动且口型一致。此外，AniPortrait还支持多种语言输入和面部重绘等功能。尽管目前还存在对口型不够流畅自然的问题，但腾讯团队计划效仿阿里EMO的方法，直接从音频预测肖像视频的生成，以达到更好的效果。

三、Polaris——医疗领域的智能助手

Polaris是一款由AI初创公司Hippocratic AI开发的大语言模型系统，可以为医疗保健领域提供专业的医疗咨询和指导。Polaris不仅可以与患者进行长时间、多轮次的自然语音对话，还能分析患者的实验报告和生命体征数据，帮助他们解读检查结果，监控健康状况的变化。目前，Polaris已经发布了其二代模型Polaris 2，并在多个维度上表现出与人类护士相当的实力，甚至在某些关键维度上超越了他们。

四、VideoSwap——视频主体无缝替换

VideoSwap是一款由新加坡国立大学和Meta研究团队合作开发的视频编辑模型，支持在不改变视频背景、运动轨迹的前提下替换掉视频主体。只需一张图片，就可以轻松更换视频的主角。该项目取得了SOTA（State of the Arts）成绩，是目前最好的视频变换模型。

五、BasicPBC——动画自动填色

BasicPBC是一项由新加坡南洋理工大学S-lab团队开发的动画自动填色AI技术，能够自动为动画中的线条图着色，极大地提高了动画制作中的上色工作效率。通过简单的操作，用户可以将动画的第一帧进行彩色化，然后BasicPBC就会自动完成后续所有帧的颜色填充。这种技术在人物动作、阴影变化和被遮挡等复杂场景下表现出色。

7 4 月 2024

中科大突破：无图大模型答对视觉问题

中科大、香港中文大学、上海AI Lab研究团队发现大模型可仅凭文本解决问题

近期，我国科研团队在中科大、香港中文大学、上海AI Lab的合作下，意外地发现了一种现象：一些大型语言模型（LVLMs）在处理多模态问题时，不需要查看相关图像，仅通过理解和分析问题及其选项文本，就可以得出满意的结果。这一发现引起了业内广泛关注，并引发了对现有评估方法合理性的质疑。

研究人员指出，这一现象可能源于现有的评估样本和评估过程存在一定的问题。部分评估样本并未充分考虑到视觉内容的重要性，导致部分LVLMs在不需要查看图像的情况下仍能取得良好的成绩。此外，现有评估过程中并未充分考虑到语言和多模态LVLMs训练过程中的数据泄露问题，这可能导致某些LVLMs之间无法进行公平的比较。

为解决这些问题，研究人员设计了一个名为“多模态评估基准”的新评估体系，该体系包含1,500个具有视觉依赖性的高质量评估样本，覆盖了样本均衡的粗略感知、精细感知，实例推理、逻辑推理、科学技术、数学等多个核心能力和细节能力维度。同时，研究者们提出了两个评估指标：多模态增益（MG）和多模态泄露（ML），以反映LVLMs在多模训练过程中的真实性能增益和数据泄露程度。

实验结果显示，使用新评估体系的22个LVLMs在多模态基准上表现不尽如人意，多数模型未能达到及格线。其中，GPT-4V在新型基准上仍未达标，仅取得57.1的平均性能。相比之下，一些多模态模型在MMStar基准上的表现要优于GPT-4V和GeminiPro-Vision。

总之，此次研究发现LVLMs在处理多模态问题时具有一定的局限性，同时也暴露出现有评估方法的不足。未来，研究者们需要进一步完善评估体系，以期更准确地衡量LVLMs在不同场景下的表现，并为提高其性能提供有力支持。

7 4 月 2024

WPS 365全新发布：AI赋能一站式办公

随着人工智能技术的不断发展，我国在AI领域的研究与应用也取得了举世瞩目的成果。近期，一款名为“智慧助手”的人工智能产品成功研发并投入使用，为人们的生活带来诸多便利。

据悉，“智慧助手”是一款集自然语言处理、图像识别、大数据分析等多种技术于一体的综合性AI应用。它具备强大的语音识别能力，能准确理解和回应用户的问题与需求；同时，其图像识别技术具有较高的精确度，能够快速识别物体、场景等，满足用户的日常拍照、翻译等功能需求。此外，通过大数据分析，智慧助手还能实现个性化推荐，帮助用户高效获取所需信息。

作为我国AI领域的一款重要创新成果，“智慧助手”的研发与推出充分体现了我国政府对人工智能技术的重视和支持。近年来，我国不断加大在AI领域的投入，积极推动产业技术创新和应用普及，旨在让科技更好地服务于民，助力国家发展。

未来，随着人工智能技术的进一步发展和完善，相信“智慧助手”将为广大用户提供更加便捷、智能的服务，推动我国AI产业的持续繁荣。

7 4 月 2024

AI热潮下全球富豪榜扩容：前十大富豪身价增3.6万亿

近日，福布斯公布了2024年全球亿万富豪榜，数据显示今年全球亿万富豪的人数和财富总额均创历史新高。今年全球亿万富豪的人数达到2781人，比去年增加141人；总资产达到14.2万亿美元，比去年增加2万亿美元。其中，三分之二的上榜成员身价在过去一年内有所增长。全球前20大富豪的财富年内总计增加了7000亿美元，大部分人的财富增长都得益于市场对生成式AI技术的追捧。

受益于AI热潮，全球新增的亿万富豪中，有9位是AI领域的CEO，他们的身价超过200亿美元。这些AI领域的新贵包括OpenAI CEO奥尔特曼（Sam Altman）等。与此同时，OpenAI公司向部分测试开发者发送了“红队网络”专家邀请邮件，以评估该公司前沿模型。

此外，投资机构Factorial Funds发表了一篇博文分析了Sora技术细节，报告指出Sora在视频生成的质量和能力方面取得了重大进展，但也有可能大大增加对GPU推理计算的需求。谷歌最近更新了Transformer架构，以提高训练效率和推理速度。

尽管AI技术的发展带来了很多创新和机遇，但也引发了关于其伦理和社会影响的讨论。例如，Meta AI图像生成器工具被发现存在偏见问题，反映出AI系统反映了其创建者、训练者及其使用的数据集的偏见。原阿里巴巴副总裁、Lepton AI创始人兼CEO贾扬清对此表示，今天的AI并没有我们想象的那么智能，它只是现实世界数据分布的一个被美化的函数近似器。

7 4 月 2024

AI一体机Alafia发布：配置豪华

人工智能助手推出医学成像解决方案：Alafia AI发布Alafia Aivas SuperWorkstation

近日，专注于现代媒体成像设备的初创公司Alafia AI推出了专为医学成像领域设计的一体机Alafia Aivas SuperWorkstation。该工作站配备了128核Ampere Altra处理器和两块英伟达RTX专业显卡，旨在提供更加高效、精确的诊断结果。

据悉，Alafia Aivas SuperWorkstation拥有一块亮度达到360尼特、支持4K旋转触控操作的4K屏幕，可满足各类复杂场景的需求。此外，它还具备运行频率为3.0 GHz的Ampere Altra 128核处理器、两块高达28,416核的英伟达RTX显卡（具体型号未透露，疑似RTX 4000和RTX A3000显卡，总显存容量达92GB GDDR6），以及2TB DDR4内存和最高8TB的固态硬盘，性能强大。

Alafia AI公司致力于打造一个先进的医疗保健生态系统，以满足每一位患者的个性化需求。为实现这一目标，他们计划在未来几年内逐步推进产品研发与生态建设。据悉，硬件将于2024年第二季度开始交付，第三季度实现大规模并行计算应用集成，预计在2024年第四季度实现生态系统设备整合。

7 4 月 2024

美国欧启动AI助力PFAS替代

美国与欧盟计划利用人工智能寻求PFAS替代品

近日，美国-欧盟贸易和科技委员会在第六次部长级会议上表示，将借助人工智能技术寻找全氟和多氟物质（PFAS）在半导体生产中的替代品。这一信息已在会议发布的联合声明中得到证实。

声明指出，委员会计划在芯片制造中逐步减少乃至消除全氟和多氟物质的使用。为此，他们计划开展一系列研究合作项目，其中包括利用人工智能的能力和数字孪生技术，加速寻找合适的材料替代PFAS。

全氟和多氟物质（PFAS）是一种由完全氟化碳原子组成的有机化合物，具有较强的化学惰性，因此被称为“永久化学品”。在半导体制造过程中，PFAS主要用于蚀刻和冷却等方面。然而，由于其可能对人体造成潜在的健康风险，包括免疫系统受损以及肝脏损害等问题，因此有必要寻求替代品。

尽管目前尚无确凿的科学证据证明PFAS对人体健康的具体影响，但动物实验表明，某些PFAS类有机物可能会对实验动物产生不良影响。基于这一原因，一些欧洲国家已计划在2025年全面禁止PFAS的生产、使用和出口。在此背景下，美国与欧盟的合作显得尤为重要。

14 3 月 2024

人工智能热度飙升，对未来教育有哪些影响？听听两会代表委员怎么说！

随着科技的飞速发展，人工智能正日益成为推动社会进步的重要力量，其在教育领域的应用与融合更是引发了广泛关注。
在2024年全国两会的热烈讨论中，人工智能成为代表委员们关注的焦点。
· 关于人工智能，代表委员们都提了什么建议？
· 新时代下的少年儿童要如何应对人工智能带来的机遇与挑战？
今天我们一起来看！

01关于人工智能，代表委员们都提了哪些建议？

本次两会期间，多位代表委员围绕人工智能在教育领域的应用提出了建设性意见和建议。

看点一：民进中央带来了《关于积极推动人工智能赋能教育变革的提案》，建议积极推动生成式人工智能与教育深度融合，走出一条创新驱动、科技向善、持续健康的发展路径。

看点二：在全国人大代表、小米集团创始人雷军看来，未来各行各业对掌握人工智能基本技能的人力需求正急剧增长，加强人工智能领域人才培养，将成为我国产业持续升级的关键因素。

他建议将人工智能纳入教育培养体系，一方面从义务教育阶段普及人工智能素养教育，九年义务教育阶段设置人工智能通识课程，同时将相关内容纳入中小学社会实践活动。

看点三：全国人大代表、重庆市九龙坡区谢家湾教育集团党委书记、总校长刘希娅认为“提升科学运用人工智能的意识和能力，改进学生学习方式，是教育数字化转型的必然要求。”

看点四：全国人大代表、内蒙古呼伦贝尔市海拉尔第二中学教师胡海娟建议，逐步建设和完善科学合理的科学教育管理体系和评价标准，将教师科技培训纳入学校评价机制。将小学、初中、高中科技特长生取得相应国家级、省级成绩纳入升学体制，将科学教育纳入教师职称和各级教育系统教师评优体系。

人工智能带来了哪些挑战？

人大代表的提议并非空穴来风，人工智能的突然到来，已经让各个行业都面临着众多问题与巨大的挑战：

比如说人工智能可以在什么产业落地，进化成更好的工具？少年儿童会关心未来的学习方向与专业，是否有所变革？以及生成式AI创作的内容，到底该受什么法律法规保护？

所有的问题不仅仅是成年人需要思考的，也需要让当下的儿童有所感知。面对人工智能带来的未知的挑战，我们务必要做到：

1. 增强儿童数字素养：让孩子杜绝电子产品已经不可能了，这个时代更需要的是培养儿童对人工智能和相关技术的基本理解，让他们了解这些技术如何工作以及它们在日常生活中的应用，这样才能利用人工智能辅助自己获取更好的学习体验。

2. 培养孩子安全意识教育：网络不是法外之地，教育儿童如何安全地使用互联网和人工智能技术，包括隐私保护教育、识别网络欺凌和避免网络诈骗，都是每位父母和老师都需要重视的教育。

3. 创意与创新鼓励：鼓励儿童通过编程、机器学习项目等活动，利用人工智能进行创意和创新的尝试，发挥他们的想象力和解决问题的能力。

4.家长与教师的辅助角色：家长和教师应该共同学习人工智能的知识，以便更好地指导儿童使用这些技术，并理解它们可能带来的影响。

通过这些策略，才能让儿童在人工智能飞速发展下应对可能遇到的挑战，为未来的发展奠定坚实的基础。

人工智能环境下要提升孩子哪些能力？

当然了，随着时代的进步，被动应对倒不如主动学习！

在未来的人工智能环境中，少儿教育的重点应当是培养孩子们适应和利用这一技术变革的能力，为了做到这一点，教育不仅需要注重基础知识的学习，更应侧重于以下几个方面的能力培养：

1. 创新思维能力：在人工智能时代，机器可以处理许多重复性和逻辑性强的任务。因此，创新思维的培养变得尤为重要，它可以帮助孩子们在未来解决那些机器难以应对的复杂问题，这样才能保证不被机器所替代。

2. 问题解决能力：与创新思维相辅相成，问题解决能力的培养能够使孩子们学会如何分析问题、寻找问题的根源，以及设计和实施解决方案，这在与人工智能互动和合作时尤为重要。即使是同样地使用ChatGPT，不同的人提问方式不同也会得到不同的答案，会分析问题、解决问题的人将能利用ChatGPT获得更优质的答案。

3. 数字素养：理解数字世界的运作方式，包括数据的收集、分析和解读，是在人工智能环境中生存和成功的关键。数字素养不仅仅是能够使用技术，更重要的是理解技术背后的原理和逻辑。

4. 伦理和社会责任感：随着人工智能技术的普及，对伦理和社会责任的关注也在增加。培养孩子们的伦理意识和社会责任感，可以帮助他们在未来的人工智能社会中作出负责任的决策。

在强调以上能力的同时，对编程学习的重视成为了自然而然的延伸——编程不仅是实现人工智能的基础技能，更是一种训练逻辑思维、解决问题能力的有效手段。通过编程教育，孩子们不仅可以学会如何控制机器，更重要的是，他们可以学会如何与机器合作，创造出新的解决方案。

因此，编程不仅是孩子们适应未来社会的需要，更是他们在未来人工智能环境中取得成功的关键所在。

14 3 月 2024

亚布力重磅话题：AI，到底在颠覆什么？

前不久，Sora横空出世，成为美国OpenAI继ChatGPT之后投向世界的第二枚重磅炸弹。

这样一款人工智能文生视频大模型，让用户只需要对着Sora说出想法和需求，就能生成自己想要的视频，颠覆了传统视频行业从脚本、布景、拍摄录制到后期剪辑的一系列流程。

有人为此兴奋难耐，也有人因此辗转难眠。

关于AI颠覆产业的种种讨论，持续成为人们关注的焦点。

2024年2月21日-23日，亚布力中国企业家论坛第24届年会召开，其中唯一的AI专场——

“创新引领未来—当AI成为助手”科技分论坛的开启恰逢其时。对谈由亚布力论坛数字前沿技术委员会主席、亚信联合创始人田溯宁担任主持人，邀请到钉钉总裁叶军，小米集团人工智能实验室主任王斌，脑虎科技创始人彭雷和图灵机器人创始人俞志晨，一起从企业管理、未来手机、脑机接口、AI教育等前沿领域发起讨论，脑洞大开：

AI可能会向人类发出“灵魂一问”，钢铁侠的贾维斯或成现实？

15年后脑机手术会不会跟近视眼手术一样普及？

APP都消失了，只需提问就能丝滑交互的未来手机会长什么样子？

当AI能够更高效地提供教育，学校会不会消失？

AI已来，数字永生还有多远？
田溯宁：亚布力相信“思想能改变世界”，AI不仅是一种工具，一种力量，更是一种思想。这段时间AI的技术变革持续给我们带来冲击，从科技和整个产业历史上来说，各位如何看待AI？
叶军：我觉得AI类似于电力革命，是一个新时代开启的分界线。
而我们当下所面临的挑战不仅仅在于电力本身，还有如何创造出各种使用电力的载体，比如灯泡、微波炉、电冰箱等。
这个周期可能会非常长，延续十几、二十年。如果把AI跟各个产业进行结合，每个产业其实都得做一些重构，整理延续周期会非常长，因为各个产业都会轮番进行产业变革。
王斌：确实。我们现在“天天科技革命，日日文艺复兴”，感觉每天都在看到关于科技发展的新变化，也会感到焦虑，但技术趋势我们能做一个整体的判断。
大模型技术出现在六七年前，真正落实到应用的标志就是之前ChatGPT的发布，现在都是在技术上做一些更新迭代，跨越性不如ChatGPT刚出来时候那么大。所以未来一个大的变革再加上一些小变革这个趋势还会不断发展。
但从科学的规律来看，随着大模型数据规模不断增大，技术变化会出现边际效应。比如，人类历史上产生的所有数据可能都被训练完了，没有东西能喂给大模型了。此时可能会迎来一个瓶颈，然后技术突破可能又会诞生新的模型，带来新的攀升。
彭雷：当下新技术的应用渗透速度确实在不断加快，而AI一定是范式变化的东西，好比iPhone时刻。这种浪潮一般10年、12年出现一次，并且会催生一系列大的公司。我觉得AI的下一波也许就是脑机或者碳基跟硅基融合的这一趋势，我们正做一些预演。
田溯宁：工业革命二三百年来，人类物质生活得到极大丰富，人的平均寿命也增加了一倍，未来AI能不能让我们的寿命进一步延长，甚至到120岁、150岁？另外，我们今天看到Sora已经可以把一个人的形象完全复原，这种技术带来了很多可能性，比如生成和储存更具象的记忆。人类所面临的许多痛苦都与情感有关，AI又能怎样丰富生命情感和提升生命质量？
叶军：人类所有学科的发展，最终都是要找到科学原理。比如牛顿看到苹果掉了下来，最终探索到了宏观力学上的经典力学三大定律，这一套定律帮助我们理解更多其他现象甚至做出预测和推演。
当下，大模型的输出其实还存在幻觉，对于大家给出的需求，它产出的结果不一定是正确的。比如最近大家都很关心的Sora也存在类似问题，懂得一些物理学原理，可以生成一些符合人类物理学的视频，但始终会存在一些偏差。要解决这个问题我们可能还需要时间，但可预期的是我们一定能解决。
等到解决之后，我认为人类的数字永生是可以实现的。比如很多年后我已经不在了，但我过去这一生的经历、所见所闻可以训练成一个数字化的我，如果我的孙子有一天突然想跟我聊天，或许扫一下码就能实现。
田溯宁：我能看到这一天吗？我今年60岁。
叶军：我觉得应该可以。
田溯宁：需要我们这些企业家不断去创造。
彭雷：是的，结合我所在的脑机接口这个赛道来看，AI对于生命质量的提升路径也很清晰。比如对于渐冻症跟高位截瘫的患者而言，他们会遇到除了大脑身上其他肌肉不能运动的情况，没有向外表达语言，也没有向外传达运动的能力，其实非常痛苦。目前来看，这些人很多会自我放弃掉生命，觉得没有生存的价值。
我们现在能解决就是让一些绝症跟重症的患者，在后期生存质量好一些，可以向外输出语言，可以控制机械臂拿一杯水，更进一步也许能够控制机械轮椅。
至于什么时候能通过脑机直接把一些知识、记忆、情感传递给另外一个人，我个人觉得是15年以后的事情。
田溯宁：15年已经很值得期待了。
彭雷：以现在科技发达的指数级速度来看，我觉得是可期的。
王斌：刚才讲到一个非常有意思的话题，就是人工智能和脑科学怎么互相促进，我从另外一个角度印证一下。
我在北京参加一些大模型的脑暴会，一个来自清华做脑科学的教授非常积极，他是MIT毕业的，在这个领域非常权威。他对于大模型的出现就非常兴奋，觉得大模型印证了他的一些想法能够反过来推动脑科学发展。
因为人工智能的发展一直有两条线，一种方式是把人脑研究明白然后来模拟人脑，还有一种就是通过计算去做。
第一条路线确实比较难，因为人类目前对自身的理解进展并不快，但是大模型出现之后，这两条线路之间好像架起了一个桥梁，使其有融合的可能性，这是一个比较伟大的一个事情。
第二，我记得自己向ChatGPT提出的第一个问题是帮我证明一下勾股定理，虽然它给到的证明是错误的，可是思路非常清晰，明明是几何题却用了代数的归纳法，超出了我的想象。
当时我就想，大模型出现之后我们的科学发现可能会大大提速。甚至我们开玩笑会说，午休时间就能用大模型工具发明几个物理定理玩玩，我觉得是很有可能的。
这就是我认为大模型或者AI可能给整个社会带来的最大风暴——促进整个基础科学的变革，进而影响全人类的生命体验。
俞志晨：其实在早期做AI的时候，大家对于终局的预测就是两个，一个是物理实体的人形机器人，一个是虚拟形态的机器人，比如AI数字人。以目前的发展来看，未来我们可以期待AI会给人类自身带来一个群体智能的提升，并且三五年以后也许有更大的变化或者带来一个大的变量。
AI时代，老板的核心竞争力是什么？
田溯宁：回到更现实的场景下，各位不妨结合自己的公司来谈谈，AI当下究竟在怎样改变我们的生活？
叶军：我结合钉钉来聊一下。
钉钉现在9年了，有两次重大的机遇，一次是2015之后移动化的普及，让我们第一个把办公从PC端搬到了移动端，第二次就是现在，AI+协同办公，让我们看到无数企业和岗位的工作效率得到极大提升。
为什么效率会提升？因为AI帮我们把很多重复性的事情做了，解放了效率。
刚才田老师提到AI能否帮助人类延长寿命，提高生命质量，实际上同样的时间里，我们的效率提升是不是也相当于多活了？
任何一件事情，从交互到思考怎么分解任务、计划任务、执行任务，所涉及的体系都会因为AI的出现发生巨大的变革。
首先，交互方式会在原先纯粹的GUI基础上增加LUI，交互会变得“所想即所得”。微软以前提出“所见即所得”，Word就是这么去做的，而现在我们可以通过智能化+工具实现“所想即所得”，很多事情如果你一想它就完成了，你的生命质量肯定会提升。
其次，AI会让分解任务的过程智能高效。以往我们产生一个任务的时候，会分配给一个团队或者某个人，由此向下一层层分解，形成一张张任务列表。
但有了AI以后，它知道谁适合干什么、哪个系统适合来做什么，我们就可以批量分解和计划任务，不需要一级一级去讨论，计划效率会得到极大提升。
以前我们缺系统，信息化程度不够高，而现在这个时代系统非常多，信息化也充分，以至于很多人甚至不清楚哪些系统可以做什么事情，有了AI以后系统的利用效率也会得到提升。
最后，我们说说AI在执行这一阶段的作用，这其实也是最恐怖的部分。
我们在使用AI的时候，其实很担心它会出现乱操作的情况。对于整个AI的发展来说，我们社会上需要有企业不断去超越，去触碰那个天花板，让我们知道高度在哪里。
但并不是每一家引入AI的企业或者每一个行业的传统企业都需要去做这件事情，我们反而鼓励更多行业小模型、专属模型的出现，它可以帮我们把执行变得非常确定。
毕竟如同我们前面提到的，当下很多大模型还存在“幻觉”，这样的错误如果出现在执行中是不可靠的。
某种程度上讲，像手机、电视机、钉钉这样具有场景、具有数据的体系面前，AI的执行应该是非常确定的，这个确定性会消解掉AI大模型的幻觉。最近一年多我们都在这方面投入实践，感触是空间非常大，大有可为。
田溯宁：我想追问一下，我作为一个公司老板，第一关心销售情况，第二关心人力资源的状态，在AI+钉钉上，我未来了解这两方面情况的时候会有什么变化？
叶军：比如以前我们想看公司人力资源的状况，需要找人拉数据、看报表，设计好老板喜欢看的格式，一旦数据没有还得再去收集准备。
但是在AI这个新的时代，当我们信息基础设施充分的时候，就不再需要让人去呈现数据了，只需要告诉AI你想要看一张什么样的报表，以怎样的方式呈现，你就可以快速得到自己想要的信息。
因此以后要看数据，考验的是老板提问题的能力，可能一个问题没提好，报表界面就完全不同了。
田溯宁：所以对人的考核变得及时化、动态化和形象化了。
叶军：是，但决定还是要老板自己来做。
田溯宁：老板水平很重要。
叶军：对，判断力是老板最核心的竞争力。
田溯宁：这个是金句，判断力是老板的核心竞争力，这跟老板的认知水平息息相关。王斌你觉得几年之后小米的手机加上你的人工智能实验室会生长成什么样？
王斌：从技术和产品结合的角度想可能有三个变化：
第一个，交互方式革新。这个大家可能都想到了，现在的交互方式包括文字、语音和图像，未来多模态加上AI可以让手机能够更好判断使用者所处的环境，相应做出更合理的回复和响应，在交互方式上会更加人性化，或者说更像人。
第二个，新的流量入口。现在我们已经有了比较强大的AI基础能力，能够支撑更多开发者或者生态去开发各种各样的应用，只不过这个流量入口最终是属于手机厂商、APP开发者还是大模型，我们还需要一些时间去判断。
第三个，手机形态的变化。今天我们讲AI其实不只是大模型，甚至大模型也不只包括语言模型，还有文字生成图片或者视频的模型。随着AI 的能力越来越强，以后手机很多硬件的能力可以通过AI来实现。比如我们可能会发现，以后的手机不需要那么高级的镜头，因为镜头很费钱，也很重，用普通摄像头就能拍出大片效果，这件事正在逐渐变成现实。
田溯宁：彭雷你觉得呢？AI和脑机的结合是什么样的图景？
彭雷：我们所做的本质上还是医疗器械，所以在研发过程中有很多AI可以赋能的地方。
比如以前我们植入电机之后可以采集到一个人十几个或者上百个神经元放电信号，解码方式是非连续解码，只能控制机械臂前进后退左右两个自由度。大模型出来之后我们正在跟几个公司一起探索做多模态解码，让视觉、声音和脑电信号叠加，争取输出连续性的、多模态的结果，对机械臂的操控更加自由和精准。
田溯宁：再请志晨跟我们分享一下你这边AI的新应用，你之前也赋能过很多智能硬件。
俞志晨：我这边比较想分享的其实是AI老师。
我们国家人口众多，以前靠工程师培养了很多大学工程师，培养了很多应试的学生，他们在人工智能大模型的体系下其实面临很大的挑战，这也是行业的共识。所以我觉得人工智能在教育这一块的赋能和结合会是一个很大的话题。
而我们将AI赋能教育分为两个方向，一个是家庭，一个是进校。
人工智能赋能家庭教育目前发展比较快，但我们的校长、老师、教育从业者很多观念非常脱节的，对新技术的理解使用相对落后。
因此我们给教育局开发了一个教育AI大模型，专门面向教育，从助学、助教、助管、助演几个维度去帮助学生、帮助老师和领导去做教学效率提升。
我们目前正在一些试点学校打造“双师”，一个是真正的老师，一个是AI助教。课上由传统的老师授课，AI配合着做记录分析和改进意见，课后AI也可以通过嵌入场景，让教育能够在学校和家庭端打通，提供全方位的助学和反馈。
田溯宁：从个人观念来讲，你觉得今天的AI多大程度上能把老师、教科书或者课程给重构？未来我们还需要这么多老师上课吗？还需要这么多课本吗？还需要考试吗？
俞志晨：我认为比较理想的是八二分这个比例，80%的教育通过AI来实现，20%由老师来进行辅导。
虽然目前AI在我国教育领域的应用率甚至不足10%，但我们也看到新技术出来之后，很多地方敢于去尝试，都在抓紧时间推广试点，也许再过三五年或者更多年后，我们在教育上的优势也会显现。
未来的脑机手术，相当于近视手术？
叶军：目前都是我们向AI提出一个问题，然后AI来回答，如果哪天AI主动觉得它可能需要跟我做一次沟通谈心，并主动向我提问的时候，这会是另外一个里程碑。
田溯宁：这不是挺吓人的吗？还是说AI所判断的谈心时刻也是由你定义的？
叶军：我没有定义，它有自主涌现智慧的新阶段，从技术上讲，我认为这个阶段一定会到来。
彭雷：就像钢铁侠的贾维斯一样的，很多时候不需要钢铁侠主动去问，贾维斯会根据自己的判断告诉钢铁侠哪里有危险，主动发起互动甚至提问。
田溯宁：王总怎么看待这个趋势？
王斌：主动智能确实也是大家努力的方向。不过严格来说主动智能这个形式本身早就有了，比如网页弹个推荐广告也算主动，它可能知道你想买这方面的东西。
但是要做到通过深入了解主动向人类发出灵魂一问，这个还需要时间，很多人也在往这个方向努力。
田溯宁：对于脑机接口我也很感兴趣，能给我们简单讲一下这个手术是怎么进行的吗？十年之后我们会看到一群人头戴天线坐在一起开会吗？这样的人比我们更聪明吗？
彭雷：我在美国见了五六个志愿者，他们在美国有一个叫脑机接口pioneer（先锋）的群，这些人都是自愿投身于此，想要率先成为脑机接口的尝试者。而且这些人并不都是患病者，有些就是健康人。包括这次马斯克要招一个受试者接受手术，但英雄帖一发就有1500人报名，其中很多是健康人。
手术过程需要去掉一块颅骨，然后将一个可埋在体内的电子设备植入进去，这个设备在医学上叫IPG。
设备有芯片、有电池，我们可以理解为埋了一个apple watch在脑袋里面，然后它上面有比头发丝还细十几倍的细丝，插入到大脑皮层3毫米左右，连接到神经元，神经元一放电设备就会知道，把信号通过无线传出来。
田溯宁：那会不会用着用着没电了？
彭雷：现在全植入的方式就是一天只能工作8个小时，晚上得放一个无线充电器，吸盘吸在脑袋上，隔着皮肤充电。
田溯宁：我们在座的各位都很有想象力，提到枕头也可以充电。
彭雷：这都是工程问题，以后能够不断解决。
田溯宁：那风险呢？
彭雷：严格意义上讲，脑机接口手术跟SpaceX发射载人飞船的风险其实差不多。对于医生来说，他们觉得开颅的小手术没什么，但我们的恐惧心理很难克服。
我相信随着技术发展，植入体手术的开口会逐步缩减，最后可能是微缝或者微孔，甚至更理想的方式就是变成做近视眼手术一样。
近视眼手术诞生40年，最初每年只能做几千个，人们都很恐慌。但是几十年过去了，大家发现随着技术成熟，半飞秒、全飞秒手术现在15分钟就能做完还没损伤，一年能做四百万例。
脑机其实也是一样，当它的手术难度降到跟激光矫正近视眼差不多，感受很好的时候，大家的接受度自然也会上来。
田溯宁：变革刚刚开始，总会有不同的声音。
但如果AI作为一种强大的推动力，真的能使得人类的生命得以延长，生命质量得以提高，这样的变革就是极富意义的，代表着文明和进步。
当然，很多担忧和质疑的声音也并非没有道理。我看过凯文·凯利的一本书叫《技术的力量》，他提到，每次技术创新都有恶和善的两面，就连石器时代，人类拿着石斧头可以去砍柴，捕捉野猪做食品，也可以做武器杀自己的同类。这个问题一直延续到原子弹发明都始终没变，但我们要相信人类文明进步之路上总是善比恶多。
另外，从历史规律发展来看，不管外部政治经济局势怎样变化，技术如何变革，人们对效率的追求、对平等的追求都是不变的，我们要时刻记住这一点。
无论作为投资者、企业家、创业者还是一个普通参与者，我觉得大家都应该积极去面对和拥抱AI。
换言之，要相信AI，就像我们相信电力给人带来光明，相信互联网一样。

14 3 月 2024

首个AI软件工程师震撼硅谷！手握10块IOI金牌，他们铁了心砸掉程序员饭碗

转自：量子位 | 公众号 QbitAI

一觉醒来，程序员怕是真要失业了。

首个AI软件工程师一亮相，直接引爆整个科技圈。只需一句指令，它可端到端地处理整个开发项目。

在SWE-bench基准测试中，它无需人类帮助，可解决13.86%的问题。

相比之下，GPT-4只能处理1.74%的问题，且都需要人类提示告知处理哪些文件。

可以说，它远远超过了此前所有AI大模型。

从零构建网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。

就是一些不熟悉的技术，给它看一篇博客文章。它也能立马搞定。

比如用ControlNet，生成带有隐藏文字的图像，Devin就是一点就通~

据介绍，它已经成功通过一家AI公司面试，并且在Upwork上完成了实际工作。

而这背后的公司Cognition，虽然是初创公司，但小而精悍。

在招人信息中明晃晃写着：我们有10个IOI金牌得主。

让同行们直呼：哦莫，疯了吧~

目前Devin尚未公测，不过已经有少部分人拿到了资格，开始实测了一波……

首个AI软件工程师亮相

Devin被介绍为世界首个完全自主的AI软件工程师。

它在长程推理和规划上面下了很大功夫，可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

在这之中，进行到任何一步它都可以回调所有相关的上下文信息，保证整体逻辑性，并方便随时校正错误。

既然是一个端到端AI，软件开发人员常用的工具，比如shell、代码编辑器和浏览器等等，Devin也都配备（沙盒计算环境中），主打一个全方位服务。

最终的Devin，让人类只需要发号施令，其他什么也不用做。

具体来看，其主要能力有以下六个：

1、端到端构建和部署程序

Devin可以帮我们解决的不只有是代码，还包括与之相关的整个工作流。

比如，当我们需要设计一个网页游戏时，Devin不仅能生成网页，还能直接完成服务端的部署，然后直接发布上线，省去了中间的人工操作。

只需要告诉Devin，我们想做一个个人网站，里面运行一个Devin定制版的生命游戏。

然后Devin表示自己会先搭建网站的基本架构，并询问了有没有更具体的需求。

在明确要求之后，Devin给出了这样一份任务清单：

创建React应用，安装UI模块等依赖
用React和UI模组搭建前端环境
部署服务器并确保其在私有IP下运行
通过CDN向首页添加p5.js库
在React中部署并验证游戏的功能和资源是否正确配置

最终完成全部工作之后，一个即点即玩的游戏链接就呈现在了我们面前。

2、自主查找并修复bug

不仅能一气呵成完成开发部署，Devin的debug能力也是一流。

开发者给Devin一个GitHub链接，让它先熟悉项目情况，然后一会儿要准备数据进行测试。

接着，Devin就会按部就班地编写测试用的程序并准备好有关数据，然后运行。

结果，在开发者已经发布的完整项目之中，Devin还真的找到了连开发者自己都没有发现的漏洞。

发现漏洞之后，Devin会回溯报错出现的位置及对应的数据，然后分析原因并给出解决方案。

最终经过调试，程序的bug被成功修复，完美通过了测试。

3、训练和微调自己的AI模型

除了这些一般的程序或项目，作为一个全能型AI助手，Devin还有能力帮助人类训练和微调其他AI。

对于一些常见的模型（比如示例中的Llama），用户只需要在promot中提及模型的名称，Devin就直接知道要训练哪个模型。

而在这个示例中，微调的具体方法（QLoRA）是以GitHub链接的形式输入给Devin的。

接到指令后，Devin还是像处理平常的程序一样边规划边执行，所需环境和依赖，还有模型本体，都会自动下载安装。

这些准备都完成之后，微调工作就会有条不紊地进行，而且其中的状态可以实时监控。

4、修复开源库

Devin的能力不仅在于开发者自己本身的项目，开源社区里的，它也能hold住。

比如我们只需要把GitHub项目的issue链接丢给Devin，它就能立即完成所需的所有配置，并自动收集上下文信息，然后开始解决问题。

当然，开源项目的功能请求（feature request）也没问题，和修问题的流程一样，自己搞好配置，收集上下文，然后就开始编码。

5、成熟的生产库也能做贡献

还没完，业已成熟的生产库，Devin也能给咱秀一把。

官方介绍，sympy Python代数系统中有一个对数计算的错误，就被Devin顺利解决：

配置环境、重现bug，自行编码并修复、测试，再次一气呵成。

6、不熟的技术，现学现卖

最后，遇到自己不会的技能，Devin可以直接现学，并迅速付诸应用。

把你新刷到的技术文章链接直接丢给Devin：

Hi Devin！我在这个博客文章中（附网址）发现，可以生成带有隐藏文本的图像。文中提到了一个脚本，你能配置好它，然后为我真的生成一些图片吗？

Devin接到请求后，首先询问了更为详细的需求，然后开始阅读博客文章，并像平常一样规划出了行动方案。

有了详细的行动方案后，它立刻就在数分钟内进行代码编写和调试。

同样的，在这里遇到bug也不用惊慌，Devin同样有能力直接进行修复。

完成工具的搭建后，Devin也没有劳烦人类自行配置使用，而是一气呵成，最终生成了咱们要的带隐藏文字的图像：

可以说表现相当令人惊艳。

而在具体测试中，Devin取得的成绩同样亮眼。

在评估Devin的表现时，团队没有使用常见的HumanEval，而是用了更具挑战性的SWE-bench。

这个数据集是由GitHub中的实际问题组成的，Devin不借助任何辅助，就取得了13.86%的最高解决率。

而同样在无辅助的条件下，GPT-4的问题解决率为零，此前的最佳水平是1.96%，加入辅助也才4.8%。

公司人均一块IOI金牌

如此炸天的新成果，背后却是一家名不见经传的初创公司。

但这种“名不见经传”背后，实际是一个10人员工的编程天才团队，IOI金牌就有10块…人均一块。

Devin背后公司名为Cognition AI，总部设在纽约和旧金山，定位是一家专注于推理的应用AI实验室。

此前这家公司一直秘密工作，于两个月前正式注册成立。

目前该团队规模仅有10人，但共揽获了10枚IOI金牌，创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。

据悉，Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。

联合创始人兼CEO Scott Wu，根据我们目前搜到的资料，Scott Wu曾就读于哈佛大学，曾是Lunchclub的联合创始人兼CTO。曾连续三年揽获IOI金牌：联合创始人兼CTO Steven Hao，毕业于MIT计算机专业，之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。也曾是IOI金牌得主：联合创始人兼CPO Walden，曾于哈佛大学攻读计算机科学和经济学相关专业，还曾从事MIT PRIMES密码学和机器学习方向的计算机科学研究，还是沃顿商学院高中投资大赛北美地区决赛入围者。

据X推文的转发顺藤摸瓜，还有一位创始成员被扒了出来。

Neal Wu，同样有哈佛大学教育经历，曾在tryramp、GoogleBrain工作过。

整个团队长期目标，意在通过解决推理问题，在广泛的学科领域解锁新的可能性，而“代码仅仅是开始”。

不过对于Devin，目前他们尚未透露是如何实现这一壮举的，包括到底是使用自己的专有模型还是第三方模型。

此外，Cognition AI目前已获得硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。

众所周知，彼得蒂尔以挖掘这种极具突破性的创新项目著称，而且哈佛背景的创业者更是和他渊源紧密。

上一个他早期投资中类似背景，最知名的是扎克伯格和Facebook。

“自动化软件工程与自动驾驶类似”

Devin一亮相，让不少工程师大惊失色：软件工程师…要失业了？？？

不过也有人依然乐观：终于有AI让我们从繁重的编程任务中解脱出来。

前特斯拉AI总监卡帕西倒是给了一颗定心丸。

自动化软件工程，目前看起来与自动化驾驶类似。

具体体现在发展进程上：首先人类手动编写代码，然后 GitHub Copilot 自动完成几行，再之后ChatGPT 编写代码块，现在就是Devin的出现。

接下来，他认为自动化软件工程会演变成为协调开发人员需要串联的许多工具一起编写代码：终端、浏览器、代码编辑器等。以及人类负责监督，逐渐转向更高级别工作。

结合卡帕西的经历和对自动驾驶的理解，他表达的更多是一种渐进式推进，即会有一段时间的人机共驾，然后在数据和迭代反馈后，才能实现完全无人驾驶。

自动化软件也类似，先低代码，然后零代码，最后完全不需要人写代码。

Perplexity AI CEO给出了个高度的肯定：这应该是任何Agent的第一个演示。

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

德扑AI之父、前FAIR（Meta）研究科学家、现已加入OpenAI的Noam Brown转发开麦：

2024年是AI激动人心的一年。
所以，程序员们做好被解放的准备了吗？

5 3 月 2024

太火了！最全AI手机产业链梳理

AI巨头都在抢

最近，在人工智能上，很多人都有大动作：苹果停止了自己持续多年的造车项目，并将探索重点也转向生成式 AI；谷歌在发布原生多模态大模型 Gemini 时宣布，未来大模型会整合至安卓系统中；而高通在 MWC 大会上推出的新一代 AI Hub，已支持超过 75 种主流 AI 模型在端侧的加速。现在，从手机厂商到科技公司，再到芯片公司，英雄所见略同。

我们可以预见，随着技术的进步与行业生态的构建，未来我们还会看到更加智能化的拍照、更快捷的人机交互、更加个性化的内容生成和更高效的任务处理。

使用生成式 AI，过去复杂的工作将会变得更简单。人们可以无需打开专业软件，仅发出口头指令就能让 AI 自动完成复杂的工作，大幅提升工作效率。

部署在端侧的生成式 AI，也可以让智能手机更加了解用户的习惯和所处位置。利用情境信息，数字助手将会更加个性化，带来更令人满意的答案，提供更主动的服务。

更进一步，随着 AI 生成能力逐步进入多模态领域，下一代 AI 渲染工具将能利用文本、语音、图像或视频等各种类型的提示生成 3D 物体和场景，最终创造出全新的沉浸式内容体验。

一句话，AI 手机将会为我们带来一场革命。

市场规模

根据Counterpoint预测，2024年生成式AI智能手机出货量将达到1亿台，到2027年出货达到5.22亿台，2023-2027年CAGR为83%，届时AI手机的渗透率将达到40%。

相较于纯自研大模型，三星与有大模型基础能力的Google合作，使用GeminiNano处理端侧任务，GeminiPro进行云端任务处理，使混合AI更好融入到手机，甚至改变手机使用习惯；

未来其他安卓开发者亦有望借助Google的AI基础设施，结合部分自研模型快速落地AI功能。

中国信通院数据显示，2024年1月，国内市场手机出货量3177.8万部，同比增长68.1%。今年AI手机出货量将达6000万部。

AI手机的概念也承接着人工智能技术普惠的使命变得愈发火热。

AI手机产业链剖析及龙头股梳理

AI手机产业链包含零部件、手机散热、手机数据、摄像头、屏幕等环节。零部件公司主要包括凯格精机、福蓉科技、力芯微、思泉新材、歌尔股份等；手机散热公司主要包括中石科技、中英科技、杰美特、福莱新材、道明光学等；手机数据公司主要包括每日互动；摄像头公司主要包括韦尔股份、思特威、奥比中光；屏幕公司主要包括京东方A、TCL科技、维信诺。

福蓉科技：国内领先的消费电子铝制关键零部件及精密深加工件的生产商，苹果等多家知名消费电子企业的主要供应商

福蓉科技创始于2011年4月26日，2019年5月23日在上海证券交易所上市，股票代码603327。公司主营业务为智能手机铝制中框结构件材料、平板电脑外壳材料和笔记本电脑盖板、底板、键盘材料以及穿戴产品、手机卡托、按键、铰链等铝制结构件材料的研发、生产和销售。

公司产品线涵盖铝合金材料等产品；产品广泛应用于消费电子、5G等领域。

欧菲光：光学光电行业龙头，市占率中国第一，指纹识别模组出货量稳居全球前列

欧菲光创始于2001年3月12日，2010年8月3日在深圳证券交易所上市，股票代码002456。公司主营业务为智能手机、智能汽车及新领域业务。

公司产品线涵盖光学影像模组、光学镜头、微电子产品等产品；产品广泛应用于智能手机、智能家居等为代表的消费电子和智能汽车领域。

精研科技：公司可穿戴设备用MIM产品终端客户涵盖了JAWBONE，华为等知名企业

精研科技创始于2004年11月29日，2017年10月19日在深圳证券交易所上市，股票代码300709。公司主营业务为传动、精密塑胶、散热、智能制造服务及电子制造板块业务。

公司产品线涵盖MIM零部件及组件、传动类组件及其他、散热类组件及其他、精密塑胶零部件及组件、终端产品等产品；产品广泛应用于消费电子、汽车、智能家居等领域。

近年来，公司业务结构、营业收入、归母净利润、毛利率与净利率情况如下：

光弘科技：国内EMS（电子制造服务）领先企业，制造能力和服务水平从本土EMS企业中脱颖而出

光弘科技创始于1995年3月24日，2017年12月29日在深圳证券交易所上市，股票代码300735。公司主营业务为消费电子类、网络通讯类、汽车电子类等电子产品的PCBA和成品组装，并提供制程技术研发、工艺设计、采购管理、生产控制、仓储物流等完整服务的电子制造服务（EMS）。

公司产品线涵盖消费电子类、网络通讯类、物联网、汽车电子类、智能穿戴类等产品；产品广泛应用于消费电子、EDR、储能、华为、小米、5G、智能穿戴、物联网等领域。

闻泰科技：公司在全球手机ODM（原始设计制造）行业中处于龙头地位

闻泰科技创始于1993年1月11日，1996年8月28日在上海证券交易所上市，股票代码600745。公司主营业务为从事移动通信、智能终端、半导体、电子元器件和材料等产品相关的技术研发。

公司产品线涵盖移动通信产品、半导体、新型电子元器件、移动互联网设备产品相关的技术研发等产品；产品广泛应用于电子设计、汽车电子、笔电、手机、平板、笔电、AIoT（人工智能物联网）、服务器、汽车电子等领域。

华勤技术：全球智能硬件ODM行业第一，智能手机、笔记本电脑、平板电脑出货量超全球的10%

华勤技术创始于2005年8月29日，在上海证券交易所上市，股票代码603296。公司主营业务为智能硬件产品的研发设计、生产制造和运营服务。

公司产品线涵盖智能手机、笔记本电脑、平板电脑、智能穿戴、AIoT产品等产品；产品广泛应用于消费电子手机及个人家庭数字终端行业市场、笔记本电脑行业市场、数据服务器行业市场、汽车电子行业市场等领域。

以上信息均为公开信息整理，不作为实际操作指导建议，仅供参考！

5 3 月 2024

世界最强AI大模型易主了？昨晚，Claude 3系列模型发布，GPT-4时代终结？

3 月 4 日，被称为 OpenAI 最强竞争对手的大模型公司 Anthropic 宣布推出 Claude3 系列模型，与 Gemini 类似，模型按照大小分为三个：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Opus 目前在官方发布的测试成绩中全方位超越 GPT-4 与 Gemini Ultra。

世界都在说，全球最强AI模型一夜易主。

用Anthropic的话说，Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面，都树立了新的行业基准！

值得注意的是，这次发布的 Claude 3 系列都支持了图像识别能力，以及 200K 的上下文窗口，特定场景还能提供 1M tokens 的长文本输入能力。Opus 和 Sonnet 现在已经可以在 Claude.ai 官网和现在 159 个国家的 Claude API 中使用。Haiku 很快也将上线。我们可以依据自己的需求选用适合的模型，在在智能水平、处理速度和成本之间，找到最佳平衡。

一、目前最强大模型
Opus，是Claude 3系列中最先进的模型。尤其是，Opus在处理复杂任务时，展现了几乎与人类相媲美的理解和表达能力，是AGI领域的领跑者。另外，在大多数 LLM 评估基准上胜过同行，包括 MMLU、GPQA、GSM8K 等。所有 Claude 3 模型在数据分析和预测、内容创作、代码生成以及用西班牙语、日语和法语等非英语语言交流方面显示出更强的能力。

1、更快的反应速度Claude Haiku 是目前市场上同类 LLM 中性价比最高且响应最快的。它能在短短不到三秒钟内，阅读并理解 arXiv 上一篇包含图表和图形的信息量和数据密集型研究论文（大约 10k Token）。在产品发布之后 Anthropic 将进一步提升它的性能表现

就绝大部分工作而言，Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍，且能力更高。在需要迅速回应的任务，如快速信息检索或销售自动化方面，它的表现尤其出色。Opus 的速度与 Claude 2 和 2.1 相当，但其智能程度要高得多。

2、强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的复杂视觉能力。

它们可以处理各种视觉格式，包括照片、图表、图形和技术图纸。

特别是对那些知识库中高达 50% 的内容以 PDF、流程图或演示文稿幻灯片等不同格式存在的客户而言，这将非常有价值。

3、更少幻觉、高准确性以及减少对用户拒绝

以往的Claude模型往往会不必要地拒绝回应，反映了其对上下文的理解有所欠缺。与之前的版本相比，Opus、Sonnet和Haiku在显著减少对可能触碰到系统安全界限的问题的拒绝反应上取得了进展。如下所示，Claude 3模型展现出了对请求的更细致理解，能够更准确地辨识出真正的风险，并在对安全无害的提示上减少了不必要的拒绝。

与 Claude 2.1 相比，Claude Opus 在困难的开放式问题上展示了两倍的准确性提升，并且减少了错误回答的比例。Anthropic的研究者针对模型已知弱点，进行了复杂实际问题的评估。

他们将模型的回应分为正确、错误、不确定三种。其中不确定是指模型表示不知道答案，而非给出错误答案。除了提供更可靠的答案外，Anthropic 宣布还将在 Claude 3 模型中启用引用（citations）功能，使其能够指向参考材料中的确切句子来核实它们的回答。

二、Claude 3 总结及价格介绍Claude 3 Opus

能力最强，在高度复杂的任务上表现出了市场上最好的性能。它能够轻松应对各种开放式提示和未知场景，并以出色的流畅度和人类般的理解能力完成任务。Opus 展示了生成式 AI 所能达到的极限。

Claude 3 Sonnet在能力和速度之间取得了理想的平衡—尤其适用于企业级工作负载。与其他同类产品相比，它在提供强大性能的同时成本更低，并且经过优化，能够在大规模 AI 部署中长时间稳定运行。

Claude 3 Haiku目前最快速、最轻便的模型，能够提供几乎即时的响应能力。它可以极快地解答简单的问题和响应请求。用户将能创建流畅的 AI 体验，仿佛是与真人互动一般。

三、Claude 3 模型使用方法方法一：Opus和Sonnet目前已在Anthropic的API中对外开放，开发者可进行注册并立即使用这些模型。Haiku也将在不久的将来推出。在Claude.ai的网站上，Sonnet已经提供了免费试用，而Opus则已经向Claude Pro的订阅用户开放。

方法二：

打开沃卡API网站：https://4.0.wokaai.com，注册后生成自定义key，参考调用OpenAI 模型的方法即可调用Claude 3系列模型。

官方透明计价！

5 3 月 2024

魅族21 PRO开放式AI终端发布，4999元起售

2月29日，星纪魅族集团正式发布魅族21 PRO开放式AI终端。该公司称，魅族21 PRO是面向AI时代全新打造的“明日设备”，该机型拥有星夜黑、耀夜黑、魅族白、冰川蓝、月桂绿五种配色，其中12GB + 256GB版本售价4999元、16GB + 512 GB版本售价5399元、16GB + 1TB版本售价5899元。

对所有大模型平台开放据魅族介绍，魅族21 PRO是魅族踏入全新AI时代的开端。该机型对所有的大模型平台进行开放，是一个“真正的开放式AI终端”，向开发者提供系统权限、API文档，并开放处理器的AI算力，让开发者拥有充分的自由度，从而实现更多创新功能和应用服务的制作。

为了吸引全球大模型团队参与AI生态的建设，魅族将邀请所有有兴趣的团队在开放平台上开发大模型应用。同时，魅族还针对月活跃用户数最高的大模型应用团队特别设立100万人民币的悬赏机制，激发全球大模型团队的创新活力。基于FlymeOS操作系统的AI能力，魅族21 PRO拥有包括AI灵动键、AI辅助输入、AI图库和AI语音在内的AI新功能。

搭载第三代骁龙8处理器魅族21 PRO拥有6.79英寸21:9比例“单手巨幕”和74mm极窄机身设计，正面采用2K+臻彩屏，512PPI的显示精度使得每个像素点都能展现出极致的细节。同时，该机型还配备120Hz LTPO刷新率和2160Hz PWM高频调光护眼技术，并通过SGS低蓝光无频闪护眼认证。

外观方面，魅族 21 PRO 采用双面灵动星弧设计，背板采用创新星垣工艺。全新打造的魅族泰坦玻璃2.0，使得魅族21 PRO的抗跌落能力比上代机型提升200%以上。

魅族21 PRO还承袭了此前备受业界认可的Aicy灵动环设计。性能方面，魅族21 PRO搭载第三代骁龙8处理器、LPDDR5X和UFS4.0旗舰性能“铁三角”。魅族21 PRO还配备4651m㎡超大面积VC液冷散热系统，同时还搭载智能思维引擎OneMind 10.5。

指纹交互体验方面，魅族21 PRO搭载高通最新一代的mTouch Max广域超声波指纹识别技术，解锁面积从 8mm*8mm提升至30mm*20mm，解锁面积比魅族21大出9倍。通过mTouch Max广域超声波指纹识别技术，魅族21 PRO支持一键无感录入。

同时，压感交互功能的加入，让每一次触摸都变得富有层次感和反馈力。此次魅族21 PRO还调校 mEngine Ultra旗舰横向线性马达，配合独立驱动IC。值得一提的是，魅族21 PRO还带来IP68级防尘防水功能。

将实现多项AI功能基于FlymeOS操作系统，魅族21 PRO将实现包括Aicy语音助手、AI图库在内的多项AI功能。用户通过Aicy助手，不仅可以进行通识问答和专业知识咨询，还可以根据自然语言需求生成文本或图片；AI图库支持使用自然语言搜索图片，并通过图片扩展、魔法消除以及有趣的AI写真功能。

接下来，魅族21 PRO还将迎来AI灵动键和AI辅助输入等全新功能。其中，AI灵动键是将AI融入Flyme用户熟悉的mBack设计当中，只需重按mBack就能随时唤醒系统 AI。

AI辅助输入可自主理解对话场景中的上下文。在生成文本时，AI 辅助输入不仅提供单一选择，更能一次性展示多个备选建议，以满足用户的不同需求。除了生成消息回复外，AI辅助输入还可根据用户需求自动进行长文创作。用户只需输入一句话，AI即可生成一篇完整的种草文案或旅行日记。根据规划，AI灵动键和AI辅助输入等功能将在今年上半年陆续推出。

支持Flyme Link手机域后置摄像头方面，魅族21 PRO采用5000万像素广角主摄像头，1300万像素超广角摄像头和1000万像素长焦摄像头组合。其中，广角主摄像头配备 1/1.3英寸OV50H超大感光影像传感器和f/1.9大光圈；超广角摄像头拥有122°的超广角视野；长焦摄像头支持3倍光学变焦、30倍数字变焦和OIS+EIS混合防抖模式。

此外，魅族21 PRO 3200万像素的超清前置摄像头和全新AI人像焕颜算法的结合，让每次自拍都成为一次美丽的绽放。配合硬件配置，魅族21 PRO在软件调教上也带来全新突破。通过智绘影调功能的引入，魅族21 PRO为摄影爱好者带来更多的创作体验，不仅支持多种滤镜效果和创意拍摄模式，还能根据用户的喜好和风格进行个性化设置。音质方面，魅族21 PRO采用第六代大师级“双”· 超线性扬声器。

通信方面，通过无界天线系统2.0和mSmart Net技术的加持，魅族21 PRO将为用户提供畅通无界的通信体验。在充电续航能力上，除了支持80W Super mCharge有线超充体验，魅族21 PRO还支持50W Super Wireless mCharge无线快充和10W无线反向充电功能，以及5050mAh高密度耐久电池。

魅族21 PRO还支持数字钥匙功能、Flyme Auto深度互联和Flyme Link手机域技术，实现从手机到汽车的无感交互。此外，魅族21 PRO与MYVU AR智能眼镜的声音、视频、导航界面皆可无缝接力，让用户轻松畅享无界流转的使用乐趣。

4 3 月 2024

苹果造车这回真“黄了”，转投AI还在盘算啥？

据悉，该项目的众多成员，将被调往人工智能部门，将专注于推动生成式人工智能项目，这已成为苹果日益重要的战略重心。

苹果大约从2014年开始研发汽车，目标是推出拥有类似豪华轿车内饰、具有语音导航功能的全自动电动汽车。

全球金融危机爆发，美国汽车产业遭受重挫，多方接洽乔布斯寻求合作机会，这为苹果造车梦碎埋下了引线。众人还是围观是苹果还是小米谁先造车成功的时候，苹果放弃了坚持十年的造车计划，“泰坦计划”破产，让很多国内的车企大佬唏嘘不已。

苹果突然宣布的这一决定，包括马斯克、雷军、李想、何小鹏、冯擎峰、卢放等车企高管，纷纷表达了震惊。特斯拉首席执行官埃隆·马斯克转发了苹果停止造车的消息，并配上了两个表情：致敬和香烟。

苹果这个时机选择退出，让转型中的汽车行业少了条“鲇鱼”。考虑到汽车开发时间更长、供应链管理更复杂、截然不同的销售和售后服务体系等等，欠缺造车经验的苹果公司就算要在 2025年以前发布Apple Car，非常艰难。秘密研发十年无果，苹果显然已经失去了电动汽车的入局资格。

苹果转投AI对车企来说并非好消息，在智能化决定车企胜负的下半场，苹果在全球的品牌号召力、在人工智能方面的技术储备，有可能会站上食物链顶端。虽然说坚持就是胜利，但是在恰当的时机进行退出，也是一个理性的选择。苹果是唯一一家还没有正式发布大模型产品的厂商，甚至都很少正面提及。苹果在AI方面似乎一直没有采取任何重大举措，在应用突破性技术中落后于其他科技巨头。

去年，ChatGPT点燃生成式AI热潮，几乎每家大型科技公司都在开发AI产品。生成式AI又有什么魅力，苹果又能在这个领域做出什么样的新突破呢？可以期待一下。

4 3 月 2024

快手发表Direct-a-Video，国产AI导演，自定义视频生成

近日，港城大、快手、天大联合发表Direct-a-Video，成功解耦AI生成视频中物体运动和摄像机运动，让视频生成的灵活性和可控性大大增强！

摘要

Direct-a-Video可以让用户独立指定一个或多个对象的运动和/或相机运动，就像导演一样。该系统提出了一种简单而有效的策略，以分离控制对象运动和相机运动。对象运动通过空间交叉注意力调制来控制，相机运动则通过新的时间交叉注意力层来解释定量相机运动参数。该系统可以独立操作，允许单独或组合控制，并且可以推广到开放领域场景。实验结果表明，该方法具有优越性和有效性。

简介

当前的文本到视频合成方法缺乏对用户定义和分离控制摄像机运动和物体运动的支持，这限制了视频运动控制的灵活性。视频中的物体和摄像机都展示了各自的运动，物体运动源于主体的活动，而摄像机运动影响帧之间的过渡。只有当摄像机运动和物体运动都确定时，整个视频运动才变得明确。因此，分离和独立控制摄像机运动和物体运动不仅提供了更多的灵活性，而且减少了视频生成过程中的歧义。然而，这方面的研究目前受到了限制。

Direct-a-Video可以让用户独立指定摄像机移动和一个或多个物体的运动，实现他们想要的运动模式，就像导演一部电影一样。为了实现这一目标，作者提出了一种策略，通过采用两种正交的控制机制来解耦摄像机移动和物体运动控制。在摄像机移动控制方面，作者通过自监督和轻量级训练方法学习帧之间的转换。在物体运动控制方面，作者利用T2V模型的内部先验知识，通过空间交叉注意力调节实现训练免费的方法。总之，这个框架可以让用户独立或同时控制摄像机移动和物体运动，提供了更大的灵活性。

相关工作

可控运动视频生成

视频生成与运动控制的研究已经引起了越来越多的关注。根据输入媒体的类型，可以将这个领域的工作分为三类：图像到视频、视频到视频和文本到视频。

图像到视频的方法主要是将静态图像转换为视频，其中一种常用的运动控制方法是通过关键点拖拽。然而，这种方法由于关键点的局部和稀疏性而存在一定的局限性。

视频到视频的方法主要是进行运动转移，通过学习源视频中的特定动作，并将其应用于目标视频。这些方法高度依赖于源视频中的运动先验，然而这些先验并不总是实际可用的。

文本生成视频的方法重点探讨了如何实现对视频中物体和相机运动的可控性。与现有方法相比，本文提出的方法不需要运动注释，可以实现对多个物体和相机运动方向的控制，具有更高的灵活性和可用性。与其他方法相比，本文的方法更加直观易用，可以有效地实现视频合成。

方法

概述

本文研究了用户指导下的文本到视频生成，包括用户指定的摄像机移动和物体运动。用户需要提供文本提示和物体词汇，以确定摄像机移动的比例和物体运动的起始和结束位置。系统通过插值生成一系列沿着轨迹的物体框来定义物体的时空旅程。最终，模型生成符合用户要求的视频，创造定制化和动态的视觉叙事。

整体流程：训练阶段学习相机运动，推理阶段实现物体运动。训练阶段使用静止相机拍摄的视频样本，并通过增强来模拟相机运动。增强后的视频作为U-Net的输入。相机参数也被编码并注入到可训练的时间交叉注意力层中，以调整相机运动。推理阶段，通过训练好的相机嵌入器和模块，用户可以指定相机参数来控制其运动。同时，我们以无需训练的方式引入物体运动控制：根据用户提示的物体词和相应的框，调整帧级和物体级的空间交叉注意力图，以重新定位物体的空间-时间大小和位置。值得注意的是，推理阶段的调整不涉及额外的优化，因此增加的时间和内存开销可以忽略不计。

摄像机运动控制

我们选择三种类型的相机运动：水平平移、垂直平移和变焦，参数化为c cam三元组作为相机运动的控制信号。这不仅允许定量控制，而且对用户友好，用户可以指定三元组，就像输入文本提示一样简单。

数据构造和增强。由于需要识别和过滤目标运动，从现有视频中提取摄像机运动信息的计算成本很高。本文提出一种使用c cam驱动的相机增强的自监督训练方法，从而绕过了对密集运动标注的需要。

首先，我们正式定义了相机运动参数。在实践中，对于给定的c cam，通过对用固定摄像机捕获的视频的裁剪窗口应用平移和缩放来模拟摄像机运动。这种数据增强利用了现成的数据集，如movishot。

相机嵌入。为了将c cam编码为相机嵌入，我们使用了一个相机嵌入器，其中包括一个傅里叶嵌入器和两个mlp。一个MLP联合编码平移运动，而另一个编码缩放运动。我们根据经验发现，对平移和缩放进行单独编码有助于模型有效区分这两种不同类型的相机移动。

相机模块。我们通过时间层注入相机控制信号。受空间交叉注意力解释文本信息方式的启发，本文引入了新的可训练的时间交叉注意力层，专门用于解释相机信息，称为相机模块，被添加到T2V模型的每个U-Net块中现有的时间自注意力层之后，如图2所示。与文本交叉注意力类似，在此模块中，查询从视觉框架特征F映射，我们分别映射来自平移嵌入e xy和缩放嵌入e z的键和值。通过时间交叉注意力，摄像机运动被注入到视觉特征中，然后作为门控残差添加回来。我们将这个过程表述如下:

为了在学习相机运动的同时保留模型的先验知识，冻结原始权重，只训练新添加的相机嵌入器和相机模块。这些是以摄像机运动c cam和视频字幕c txt为条件的。训练采用扩散噪声-预测损失函数：

物体运动控制

我们选择边界框作为物体运动的控制信号，是因为它在可用性和可访问性方面达到了有利的平衡。边界框比密集条件(例如草图)更有效，因为它们不需要绘图技能，并且它们提供了对象大小的说明，这是稀疏条件(例如关键点)缺乏的特征。

本文选择通过将扩散过程引导到我们想要的结果，来充分利用预训练T2V模型的固有先验。之前的T2I工作已经证明了通过编辑交叉注意力图来控制物体的空间位置的能力。同样，在T2V模型中采用空间交叉注意力调制来制作物体运动。

在交叉注意力层中，查询特征Q来自视觉标记，键K和值特征V从文本标记映射。我们将注意力图QK⊤修改如下：

注意力放大。考虑第k个框中的第n个物体，由边界框B kn包围，由于我们旨在增加该区域内物体存在的概率，我们可以放大B kn区域内相应的物体单词(在提示中为T n)的注意力值。根据DenseDiff的结论，这种放大的规模应该与bkn的面积成反比，即盒子面积越小，注意力增加的幅度越大。由于我们的注意力放大是在盒形区域上进行的，这与对象的自然轮廓不一致，因此将放大限制在早期阶段(对于时间步长t≥τ， τ是放大截止时间步长)，因为早期阶段主要专注于生成粗布局。对于t < τ，放松这种控制，使扩散过程能够逐渐细化形状和外观细节。

注意力抑制。为了减轻不相关单词对指定区域的影响，并防止对象特征意外分散到其他区域，抑制了不匹配的查询键标记对的注意力值(起始标记和结束标记除外，否则视频质量会受到影响)。与注意力放大不同，注意力抑制应用于整个采样过程，以防止相互语义干扰，在多目标生成场景中，一个目标的语义可能无意中渗透到另一个目标中。

我们对每一帧中的每个对象进行这种调制，从而可以确定完整的时空对象轨迹。请注意，尽管这种调制在每个帧中独立执行，但生成的视频保持连续，这是由于预训练的时间层保持了时间连续性。

实验

实验设置

实现细节。采用预ModelScopeT2V作为基础模型，集成所提出的可训练相机嵌入器和模块，以促进相机运动学习。

数据集。对于相机运动训练，我们使用movishot的一个子集。尽管训练样本的数量和类别有限，训练后的相机模块仍然能够适应一般场景。对于对象控制评估，收集了200个框-提示对的基准，包括不同的框大小、位置和轨迹，提示主要关注自然动物和物体。

评估指标。（1）为了评估视频生成质量，采用了FID-vid和FVD，参考集是来自MSRVTT的2048个视频，用于相机运动任务，参考集是来自AnimalKingdom的800个视频，用于物体运动任务。（2）为了测量目标框对齐，我们均匀地从每个视频样本中提取8帧，并仅在框区域内计算CLIP图像-文本相似度(CLIP-sim)。（3）为了评估摄像机和物体运动的对齐，引入了流误差。利用VideoFlow，从生成的视频中提取流图。然后将这些流与真实流(来自给定的摄像机运动和对象框)进行比较。在评价摄像机运动时，流误差在整帧上计算;在评价物体运动时，只计算框区域。

基线。包括AnimateDiff（用于相机运动）、Peekaboo（用于物体运动）和VideoComposer（关节控制）。

摄像机运动控制

与AnimateDiff相比，该方法可以支持混合摄像机运动，且更易于使用。与VideoComposer相比，该方法可以更轻松地控制摄像机速度，且不会影响前景物体的运动。该方法在视觉质量和摄像机控制精度方面表现更好。

物体运动控制

与现有的方法相比，该方法可以更好地控制物体的位置和运动，避免了语义混淆和缺失等问题。在定量比较中，该方法在生成质量和物体运动控制方面均优于VideoComposer。

摄像机运动和物体运动的联合控制

本方法支持同时控制摄像机移动和物体运动，通过图5展示了这种能力。给定相同的盒子序列，该方法可以生成具有不同前景-背景运动组合的视频。例如，图5(a)说明静止的盒子并不总是意味着物体静止不动，通过设置不同的摄像机移动，系统可以生成斑马静止不动、向右行走或向左行走的视频。同样，图5(b)表明移动的盒子并不一定意味着物体本身在运动，它可能在原地静止，而摄像机在移动。与现有方法只关注物体不同，该方法使用户能够明确指定摄像机移动和物体运动，提供了定义整体运动模式的灵活性。

消融分析

注意力放大。缺乏注意放大会导致模型失去其定位能力，即物体不会跟随框选框，如图6中的第一行所示。同时，这也会导致CLIP-sim分数下降和流错误增加。

注意力抑制。为了减轻多物体场景中意外的语义混合，特别是当物体具有相似特征时，引入了注意抑制。如果没有抑制，物体A的提示特征也会关注物体B的区域，导致语义重叠。通过启用注意抑制，可以解决这个问题。

相机嵌入设计。将平移（c x，c y）和缩放（c z）运动分别编码到相机控制中，与将它们合并编码的方法进行对比。结果表明，分别编码不同类型的相机运动可以更好地控制相机移动，流错误从0.46增加到1.68。这突显了分别编码不同类型的相机运动的优势。

限制

本方法可以对物体和相机运动进行分离控制，但输入信号之间可能存在冲突，需要合理的用户交互来解决。处理重叠的盒子时，一个物体的语义可能会干扰另一个物体，可以通过自适应自动分割区域来缓解这个问题。目前的数据增强方法限制了系统产生逼真的3D相机运动，未来可以采用更复杂的增强算法来解决这个问题。

总结

Direct-a-Video用于实现对摄像机运动和物体运动的独立和用户导向的控制。该方法通过集成自监督训练方案来解耦摄像机运动和物体运动，并使用无需训练的调制来控制物体运动。实验评估表明，该方法能够有效地实现摄像机运动和物体运动的分离和联合控制，使Direct-a-Video成为一种高效灵活的定制运动创作工具。

4 3 月 2024

成立仅 9 个月的 AI 初创公司挑战硅谷巨头

上周，AI 界的一件大事是：微软宣布与总部位于巴黎的法国初创公司 Mistral AI 建立合作伙伴关系。后者成立时间仅 9 个月，而公司 CEO 是年仅 31 岁的亚瑟.门施。需要注意的是：

微软将向 Mistral AI 投资 1630 万美元，以换取该公司的少量股份。而 Mistral AI 也将在微软云上提供自己的 LLM，以便开发人员可以通过微软云 Azure 购买。如，该公司上周发布的最新 AI 模型 Mistral Large，就将首先通过微软的云平台 Azure 提供。

第二，这笔交易也凸显了微软可能想要做一个平台的野心。考虑到之前微软与 OpenAI 的交易，微软可以让企业在自己平台上访问由多个不同供应商创建的 AI 模型。

第三，作为一家成立仅 9 个月的初创公司，Mistral AI 在 AI 领域实际上备受关注，被誉为是“欧洲版的 OpenAI”。根据三位联合创始人的说法，Mistral AI 成立的部分原因是，他们认为 AI 领域的很多钱都被浪费掉了：“我们希望成为 AI 领域资本效率最高的公司，这就是我们存在的原因。

”如该公司刚刚推出的新 AI 模型 Mistral Large。根据该公司 CEO 亚瑟.门施告诉《华尔街日报》的说法：该模型可以执行一些推理任务，可与 OpenAI 迄今为止最先进的语言模型 GPT-4 以及谷歌的新模型 Gemini Ultra 相媲美。但该新模型的训练成本不到 2000 万欧元（约 2200 万美元）。相比之下，奥特曼去年在 GPT-4 发布后表示，培训公司最大的模型成本“远远超过” 5000 万美元至 1 亿美元。

一，亚瑟.门施其人其事Mistral AI 由三位联合创始人成立，分别是：现年 31 岁的亚瑟.门施、32 岁的蒂莫西·拉克鲁瓦，以及 33 岁的纪尧姆·兰普尔。其中，CEO 亚瑟.门施来自谷歌旗下 DeepMind 的 Google AI 部门，他在团队中从事构建 LLM 的工作。后两位创始人，则在扎克伯格 Meta 的巴黎 AI 实验室工作。

根据我查阅的资料：Mistral AI 成立仅九个月，目前估值略高于 20 亿美元。在与微软公司合作前，其已经从硅谷顶级风投机构光速创投、A16z 等投资者那里筹集了 5 亿多美元。其中，光速创投是 Mistral AI 的种子轮领投者，而 A16z 则是 A 轮领投者。

该公司的 CEO 亚瑟.门施是备受关注的人物。根据《华尔街日报》的报道：31 岁的门施从学术界起步，一生中的大部分时间，都在研究如何提高 AI 以及机器学习系统的效率。长期以来，门施一直在学术追求与创业追求之间徘徊。他在巴黎西部的郊区长大，母亲是物理教师，父亲则经营一家小型科技企业。

之后，门施就读于法国一些顶尖的数学和机器学习学校。他说：“我确实喜欢新体验。我很快就会感到无聊。”门施身材高大，有一头浓密的黑发，他的外表和行为都不像科技极客的 CEO。作为一名运动员，他在 2018 年完成博士论文之前的几个月内，用了不到 3.5 小时的时间，完成了巴黎的马拉松比赛。

门施一直致力于让事情变得更高效。2022 年时，他已经是一篇关于新型 AI 模型 “Chinchilla” 论文的主要作者之一。该论文改变了对 AI 模型的规模、构建模型所使用的数据量以及模型性能之间关系的理解，即所谓的人工智能缩放定律。……

29 2 月 2024

苹果惊天一跃！放弃汽车梦，全力押注AI与Vision Pro，掀起科技圈新革命！

在科技圈，每一次变革都伴随着惊喜与意外。这不，就在周二，苹果突然宣布暂停了其备受瞩目的汽车项目，让人大跌眼镜！不过，别急着叹息，苹果这次可是要全力押注AI和Vision Pro，准备掀起一场科技圈的新革命！

说起来，苹果的汽车梦可谓是一波三折。想当年，苹果雄心勃勃地计划推出一款颠覆性的自动驾驶汽车，让所有人都为之侧目。可现实往往是残酷的，技术瓶颈、市场竞争，这些难题像一座座大山，挡在了苹果汽车梦的前面。

别小看自动驾驶汽车技术，这可是个烧钱的巨坑。不仅要有巨额的资金投入，还得有顶尖的技术人才。更别提，这领域里早已是强手如云，传统汽车制造商、新兴科技公司，大家都想分一杯羹。

苹果要想在这个领域里脱颖而出，难度可不是一般的大。而且，汽车市场也在悄然变化。电动汽车的崛起、共享出行模式的普及，这些都在改变着传统汽车市场的格局。苹果作为后来者，想要在这个变革中找准自己的位置，可不是那么容易的事。

不过，苹果可不是那种轻易放弃的公司。面对汽车项目的挑战，他们选择了转向AI和Vision Pro业务。这一转变，不仅展现了苹果对市场趋势的敏锐洞察，更显示了他们在技术创新上的决心和勇气。

AI，这可是当今科技圈最热门的话题。智能家居、医疗健康、金融服务，哪个领域都离不开它。苹果作为全球科技巨头，自然不会放过这个发展机遇。加大在AI领域的投入，不仅能让苹果在未来的科技竞争中占据更有利的位置，还能为消费者带来更多创新的产品和服务。

而Vision Pro，作为苹果近年来推出的一款重要产品，同样展现出了巨大的市场潜力。随着人们对智能家居和智能办公需求的不断增加，一款集成多种功能的智能设备，无疑能满足用户的多样化需求。苹果通过专注于Vision Pro的研发和推广，有望将其打造成为一款现象级的产品。

苹果的这一转变，无疑给整个硅谷带来了不小的震动。作为科技圈的领头羊之一，苹果的每一次动作都牵动着整个行业的神经。

如今，随着苹果将重心转向AI和Vision Pro业务，其他科技公司也不得不重新审视自己的发展战略和市场布局。对于其他科技公司来说，苹果的转变既是一个挑战也是一个机遇。他们需要密切关注苹果在AI和Vision Pro领域的动向，以便及时调整自己的战略和产品布局。同时，他们也可以从苹果的转变中汲取经验和教训，为自己的发展找到新的方向和动力。

苹果的这一转变，无疑为其未来的发展带来了新的挑战和机遇。在AI和Vision Pro领域，苹果能否延续其创新的基因并再创辉煌？这无疑是所有果粉和科技爱好者们最为关心的问题。

从目前的情况来看，苹果在AI和Vision Pro领域已经具备了一定的技术储备和市场基础。未来，只要苹果能够持续加大在这些领域的投入和研发力度，不断推出具有创新性和竞争力的产品，相信它一定能够在这些领域取得更加辉煌的成绩。总之，苹果的这一转变是一场科技圈的“地震”。

它不仅改变了苹果自身的发展方向和市场布局，也对整个科技行业产生了深远的影响。在未来的日子里，让我们拭目以待，看苹果能否在AI和Vision Pro领域再创辉煌！

29 2 月 2024

AI芯片又一跨国合作达成！

当地时间2月27日，加拿大AI芯片初创公司Tenstorrent宣布与日本尖端半导体技术中心（LSTC）达成多层次合作协议，双方将合作设计先进人工智能（AI）芯片。

值得一提的是，Tenstorrent将与日本半导体公司Rapidus合作开发最先进的逻辑半导体技术，其目标是实现世界上最好的周期时间缩短服务。Tenstorrent还将利用其Ascalon RISC-V CPU内核技术，为LSTC的新型边缘AI加速器共同开发RISC-V架构CPU芯片。

近年随着ChatGPT、Sora等大规模生成式AI应用爆发，云计算、AI服务器等市场对AI芯片需求大幅增长，业界对AI芯片的关注度持续上升。

在AI市场大热之下，除了企业相互合作加强研发外，近期业界消息还显示，AI芯片产能稀缺，AI所需的重要内存技术HBM售罄，高端AI服务器需求量上升…

AI芯片产能稀缺

AI芯片需求暴涨，其产能也引发业界关注。此前2月初，据媒体报道，英伟达与英特尔达成了代工合作意向，持续每月生产5000块晶圆。如果全部用于生产H100芯片，在理想情况下最多可以得到30万颗芯片。

2月下旬，英特尔向业界首推面向AI时代的系统级代工——英特尔代工（Intel Foundry），并拓展其路线图，以在接下来的几年内确立并巩固制程技术领先性。

对此晶圆代工龙头台积电创办人张忠谋在日本熊本厂JASM开幕仪式上表示，半导体产业未来一定会有更多需求，最近AI人士告诉他需要的不只是几万、几十万和几千万片产能，而是3间、5间甚至10间晶圆厂。

不过张忠谋认为，AI带给半导体产业的需求，在某种程度上取一个中间值，即从成千上万片产能到10间晶圆厂中间找寻到答案。

针对AI芯片供不应求的现象，富士康母公司鸿海精密董事长刘扬伟表示，鸿海今年AI服务器业务相当好，但目前整体AI服务器产业仍面临AI芯片大缺货的状况，即便下半年AI芯片供应舒缓一些，还是赶不上需求，必须等到上游新厂产能开出，才有办法解决产业链缺料问题。

HBM售罄

随着AI爆热，市场对高带宽内存（HBM）需求旺盛，存储大厂们瞄准HBM，积极扩产布局。其中，三星计划在今年第四季度之前，将HBM的最高产量提高到每月15万至17万件，该公司斥资105亿韩元收购了三星显示位于韩国天安市的工厂和设备，以扩大HBM产能，同时还计划投资7000亿至1万亿韩元新建封装线。

SK海力士和美光科技纷纷表示HBM订单约满。SK海力士副社长Kim Ki-tae表示，今年公司的HBM已经售罄，已开始为2025年做准备；美光科技CEO Sanjay Mehrotra透露，美光2024年的HBM产能预计已全部售罄。

高端AI服务器需求量将逾六成

据TrendForce集邦咨询最新预估，以2024年全球主要云端服务业者（CSP）对高端AI 服务器（包含搭载NVIDIA（英伟达）、AMD或其他高端ASIC芯片等）需求量观察，预估美系四大CSP业者包括Microsoft、Google、AWS、Meta各家占全球需求比重分别达20.2%、16.6%、16%及10.8%，合计将超过6成，居于全球领先位置。其中，又以搭载英伟达 GPU的AI服务器机种占大宗。

TrendForce集邦咨询指出，近期英伟达整体营收来源以数据中心业务为关键，主因其GPU服务器占整体AI市场比重高达6~7成，只是后续仍须留意三大状况，可能使英伟达发展受限。

TrendForce集邦咨询认为，其一，受国际形势变化影响，中国将更致力于AI芯片自主化。而英伟达推出的H20等中国特规方案，性价比可能不及既有的H100或H800等，中国客户采用度可能较先前保守，进一步影响英伟达市占率。

其二，在具规模及成本考量下，美系大型CSP业者除Google、AWS外，Microsoft、Meta等亦有逐年扩大采自研ASIC趋势。

其三，来自AMD的同业竞争，AMD采高性价比策略，对标英伟达同级品，AMD提供仅60~70%价格，甚至代表性或具规模客户能以更低价策略方式抢进市场，预期2024年尤以Microsoft为最积极采纳AMD高端GPU MI300方案业者。

27 2 月 2024

黄仁勋：以后不需要学习编程，交给AI就行了

这并不是技术高管第一次预测编程的消亡。

最近在迪拜举行的世界政府峰会上，英伟达首席执行官黄仁勋提出了违反直觉的做法，他认为这是科技公司首席执行官建议年轻人学习编程的悠久传统。黄认为，即使在人工智能（AI）革命的早期阶段，编程也不再是一项重要技能。Nvidia 负责人表示，通过人工智能处理编码，人类可以专注于更有价值的专业知识，如生物学、教育、制造或农业。

在上面的推文可以看到。在黄仁勋在社交媒体上分享的长达一分钟的演讲片段中，这位英伟达首席执行官表示，10-15年来，几乎每个坐在科技论坛舞台上的人都会坚持认为，年轻人学习计算机科学“至关重要” ，学习如何对计算机进行编程。“事实上，情况几乎完全相反，”黄有反直觉的感觉。

“我们的工作是创造计算技术，让任何人都不必编程。编程语言是人类的，”黄仁勋告诉峰会与会者。“现在世界上的每个人都是程序员。这就是人工智能的奇迹。”

在发表了违反直觉的宏大声明后，这位英伟达首席执行官推测，人们可以学习技能，成为更有用领域的专家。生物学、教育、制造、农业等领域的专家可以节省学习计算机编程的时间，以实现更富有成效的追求。因此，人们唯一需要的语言就是他们出生和长大的语言，并且已经是他们的专家。

然而，人们仍然需要知道如何以及何时应用人工智能编程。因此，黄在简短剪辑的结尾断言：“提高每个人的技能至关重要，我相信提升技能的过程将是令人愉快的、令人惊讶的。”

随着上述视频在社交媒体上广泛传播，科技行业分析师Patrick Moorhead激动地发表了评论。这位顶级分析师向他的 Twitter / X 关注者指出，“30 多年来，我一直听说‘XYZ 将杀死编程’，但我们仍然没有足够的程序员。” 穆尔黑德列出了几种编程语言和工具，他说这些语言和工具应该消除编码——但显然没有。

Moorhead 也将其与计算机 DTP 革命进行了比较。他表示，人工智能不会消灭编码，而是将其交到更多人手中。“就像桌面出版并没有扼杀‘创造力’，它只是扩展了它。” 虽然我同意 DTP 和其他数字艺术工具并没有扼杀创造力，但我不记得有人建议从手术刀、喷雾安装和纸片转向 DTP 实际上会阻碍创造力。

“

AI对就业市场的影响

只有时间才能证明未来几个月和几年内出现的人工智能应用浪潮的实际影响。然而， Bloomberry最近发表了一份关于ChatGPT推出以来可用的自由职业量的研究。这项研究表明，写作和翻译自由职业者受到人工智能竞争对手的打击最严重。与此同时，数据显示，自 ChatGPT 推出以来，软件开发职位增加了 6%。

27 2 月 2024

英伟达公开最快AI超级计算机Eos：集成了4608个H100！

近日，英伟达（NVIDIA）首度对外公开了其最新的面向企业的AI超级计算机Eos，这是专为数据中心规模的高阶AI开发所设计，也是英伟达目前速度最快的AI超级计算机。

据介绍，Eos配备了576个NVIDIA DGX H100系统，每个系统搭载8个H100 GPU，即共计拥有4,608个Nvidia H100 GPU，同时还配备了1,152个英特尔Xeon Platinum 8480C处理器（每个CPU有56个内核），使得Eos在HPC和AI的性能表现令人印象深刻。此外，Eos采用英伟达的Mellanox Quantum-2 InfiniBand技术，支持高达400 Gb/s数据传输速度，对训练大型AI模型和系统扩展至关重要。

根据英伟达公布的数据显示，在最新的Top500超级计算机当中，Eos的峰值性能达到了188.65 Peta FLOPS ，成为了全球第九大超级计算机。同时，Eos的FP64性能更是居于前列，达到了121.4 Peta FLOPS。Eos不仅供英伟达自身使用，其构架也为其他想打造面向企业的超级计算机的公司提供蓝本。英伟达在视频中表示：“EOS 每天都会迎接数千名英伟达内部开发人员进行人工智能研究的挑战，帮助他们解决以前无法解决的问题。”

英伟达表示，除强大硬件，Eos专为AI开发和部署设计的强大软件，包括协调和集群管理工具、加速运算存储和网络库，以及优化的操作系统。因此，Eos可应对从类似ChatGPT生成式AI到AI工厂等各种应用。

英伟达强调，Eos整合了其在AI领域的专业技术和经验，是先前DGX超级计算机知识的结晶，可以帮助企业处理最具挑战性的项目，并实现AI目标。

尽管Eos具体成本未公开，且Nvidia DGX H100系统定价是保密的，具体售价也取决于很多因素，但考虑到每个H100成本可能在3万至4万美元之间，因此整个系统成本可能非常高昂。

27 2 月 2024

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

生成式 AI 领域，又有重量级产品出现。
周一晚间，Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同，这次 Mistral AI 发布的版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。而新模型的出现，也伴随着公司大方向的一次转型。
随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat 的聊天助手（对标 ChatGPT），任何人都可以试试效果。

试用链接：https://chat.mistral.ai/
此前，Mistral AI 提出的 Mistral-Medium 因为强大的性能、「意外」的开源而名噪一时，目前很多大模型初创企业都已不再对标 Llama 2，而是将 Mistral AI 旗下模型作为直接竞争对手。此次 Mistral Large 的出现，自然迅速吸引了众人关注。
人们首先关注的是性能，尽管在参数数量上不及 GPT-4，Mistral-Large 在关键性能方面却能与 GPT-4 媲美，可以说是当前业内的前三：

Mistral Large 的推理准确性优于 Claude 2、Gemini 1.0 Pro、GPT-3.5，支持 32k token 的上下文窗口，支持精确指令，自带函数调用能力。
人们也发现 Mistral Large 的推理速度超过了 GPT-4 和 Gemini Pro。然而优点到此为止。
模型除了增加体量，也需要有相应的数据。在模型发布后，人们发现它生成的文本有一种 ChatGPT 的既视感。

如果说为了能赶上业内最先进的 GPT-4，使用 AI 生成的内容进行训练或许并不是什么大问题。但 Mistral Large 的出现也给 AI 社区的人们带来了危机感：它并不是一个开源大模型。

这次发布的大模型有跑分，有 API 和应用，就是不像往常一样有 GitHub 或是下载链接。
有网友发现，新模型发布后，Mistral AI 官网还悄悄把所有有关开源社区义务的内容全部撤掉了：

难道以开源起家的 Mistral AI，成立才不足一年，这就要转向了吗？
Mistral Large 目前已经能在 Mistral AI 自有平台 La Plateforme 和微软 Azure 上使用。除了 Mistral Large 之外，Mistral AI 还发布了新模型 Mistral Small，针对延迟和成本进行了优化。Mistral Small 的性能优于 Mixtral 8x7B，并且推理延迟得到了降低，提供了一种开放权重模型和旗舰模型之间的中间方案。
但模型的定价也引发了一些质疑。比如 Mistral Small 的低延迟相比于 Mixtral 8x7B 的提升微乎其微，但输入贵了 2.8 倍，输出贵了 8.5 倍：

如果以商业大模型的标准来看待，Mistral Large 的定价和 GPT-4 相比并不具备优势，这又该如何吸引客户呢？

这位业内人士表示：「如果它的价格是 GPT-4 Turbo 的一半，我会更理解。」

新的 Mistral AI「大杯」模型，表现如何？
在官方博客中，Mistral AI 详细介绍了 Mistral Large 的功能和优势：
Mistral Large 在多个常用基准测试中取得了优异的成绩，使其成为世界上排名第二的可通过 API 普遍使用的模型（仅次于 GPT-4）：

GPT-4、Mistral Large（预训练）、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较（测量大规模多任务语言理解）。

Mistral Large 的优势如下：

Mistral Large 的母语是流利的英语、法语、西班牙语、德语和意大利语，对语法和文化背景有细致入微的理解；
Mistral Large 的 32K Token 上下文窗口允许从大型文档中精确调用信息；
其精确的指令跟随能力使开发人员能够设计自己的审核策略 ——Mistral AI 以此来设置 le Chat 的系统级审核；
Mistral Large 本身就能够进行函数调用。这与在 la Plateforme 上实施的受限输出模式一起，实现了大规模应用程序开发和技术堆栈现代化。

关于基准测试结果对比，可以参考以下：
推理和知识
Mistral Large 展现出了强大的推理能力。下图报告了预训练模型在标准基准上的性能：

多语言能力
Mistral Large 具有原生的多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。

与微软合作，行 OpenAI 故事
在发布 Mistral Large 等模型的同时，Mistral AI 还宣布了一个消息：将与微软合作，在 Azure 上提供自己的模型。
此次合作使 Mistral AI 成为第二家在微软 Azure 云计算平台上提供商业语言模型的公司。这有助于 Mistral AI 将自己的模型推向市场，也让 Mistral AI 有机会使用 Azure 的尖端 AI 基础设施，以加速其下一代大型语言模型的开发和部署。

这家公司表示，「在 Mistral AI，我们的使命是让前沿人工智能无处不在。这就是我们今天宣布将自己的开放和商业模型引入 Azure 的原因。微软对我们模型的信任让我们前进了一步！」
这项为期多年的协议标志着微软正在其最大的赌注 OpenAI 之外，努力提供各种人工智能模型，为其 Azure 云服务吸引更多客户。去年 11 月，OpenAI 经历了 CEO Altman 被解雇（后又重返）的风波。而作为最大的股东，微软在消息公布前 5 到 10 分钟才从 OpenAI 那里得到消息。在这次动荡后，微软设法在控制 OpenAI 的非营利性董事会中获得了一个无投票权的观察员席位。这让他们对 OpenAI 的内部运作有了更多了解，但在重大决策上，微软依然没有投票权。
Mistral AI 对路透社表示，作为交易的一部分，微软将持有该公司少数股权，但未透露细节。
微软证实了对 Mistral AI 的投资，但表示不持有该公司的股权。这家科技巨头因向 OpenAI 提供巨额资金而受到欧洲和美国监管机构的审查。
根据公告，微软与 Mistral AI 的合作主要集中在三个核心领域：

超算基础设施：微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ，为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模；
市场推广：微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务（MaaS）向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外，模型目录还提供了多种开源和商业模型。
人工智能研发：微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。

除了微软，MistralAI 还一直在与亚马逊和谷歌合作，分销自己的模型。一位发言人表示，该公司计划在未来几个月内将 Mistral Large 应用于其他云平台。
Mistral AI 成立于 2023 年 5 月，由来自 Meta Platforms 和 Alphabet 的几位前研究人员 ——Arthur Mensch（现任 CEO）、Guillaume Lample 和 Timothee Lacroix 共同创立。成立不到四周，Mistral AI 就获得了 1.13 亿美元的种子轮融资，估值约为 2.6 亿美元。成立半年后，他们在 A 轮融资中筹集了 4.15 亿美元，估值飙升至 20 亿美元，涨了七倍多。而此时，他们仅有 22 名员工。

26 2 月 2024

押宝AI，OPPO能否掌握破局关键？

2024年的开年热点，再次被AI所支配。

新的一年刚刚开始，OpenAI就突然发布“文生视频”工具：Sora点燃了整个AI领域，可根据用户输入的简短文本指令，生成长达1分钟且足够真实的视频。没过多久，谷歌也发布了其大模型矩阵的最新力作：Gemini 1.5，将上下文窗口容量从Gemini 1.0最初的32,000个tokens，增加到1.5 Pro的100万个tokens。

另一方面，手机作为AI大模型最适合的落地领域，国产手机厂商也决定在战略上向AI全面倾斜。开工日当天，魅族发文表示公司将会All in AI，并停止传统智能手机新项目，迈入前景广阔的AI科技新浪潮。

无独有偶，当天OPPO CEO陈明永也发表内部信称：未来五年，AI手机将成为继功能机、智能手机之后，手机行业的第三阶段。OPPO已经做好充分准备，内部专门成立了AI中心，并表示资源将会向AI集中。

两则公告不难看出手机厂商打算“All in AI”的决心。

事实上，手机厂商对AI的探索要追溯到去年8月份，彼时华为、荣耀、小米、OPPO等 Top 级手机厂商都开始积极尝试大模型落地方案。一个有意思的观察是，随着时间推移，手机厂商对大模型的理解和优化在不断深入，并体现在规模和功能上。

最早小米MiLM轻量大模型发布时，在端侧只有13亿参数规模，功能上也仅是基于小爱同学进行文字交互。而在4个多月后，OPPO所发布的Find X7系列的端侧AI模型已经拥有 70 亿参数规模，并将其融入到操作系统之中，实现用户体验的二度升维。

如今时间到了现在，手机厂商的“All in AI”或许已经意味着手机AI技术已经成功渡过积累期，进入快速发展迭代阶段，足够支撑AI手机的未来发展。

只是，一个残酷的事实是，如今手机市场大盘仍在下跌。根据IDC发布的数据显示，2023年全球智能手机出货量同比下降3.2%，降至11.7亿部，各家存量竞争压力巨大。在这一节点，AI手机的想法和概念，能否支撑到手机行业复苏“第二春”？
01

OPPO如何定义“ AI手机”？

AI手机是手机厂商的未来愿景，但各家均有着各自的理解。

2月20日，OPPO举办了一场AI战略发布会，在发布会上分享了新一代 AI 手机的四大能力特征，展望由AI驱动的手机全栈革新和生态重构的趋势。值得一提的是，这场发布会中1+N智能体的概念贯穿了全局。

在OPPO的设想中，1+N智能体是满足AI 手机时代下新一代智慧服务体验的基础，其中“1”代表 OPPO AI 超级智能体，能基于庞大的知识图谱、文档数据以及搜索引擎，为用户提供强大的知识能力。

而“N”代表的，则是基于OPPO AI Pro 智能体开发平台所赋能的全新智能体生态。通过AI Pro智能体开发平台，普通用户无需掌握专业的编程技能，即可通过零代码的自然语言交互，快速生成专属于用户个人的个性化AI智能体。

在OPPO的构想中，这一智能体生态战略既能满足了用户体验的基础服务，同样也为未来AI手机的智能体生态划下了雏形。

另一方面，OPPO首席产品官刘作虎在发布会后接受媒体采访时也表示到，如今OPPO内部已经将公司所有AI相关的人员集中在一起成立了AI中心，内部的所有资源都会向AI所倾斜，将其称为OPPO未来的核心竞争力，并提出了投入不设上限的口号。

对于将“本分”刻在基因里的OPPO来说，AI中心的成立一定程度上代表了进军AI的决心，在OPPO看来，AI手机将成为手机行业的第三阶段，提前布局自然是重中之重。

基于对手机行业未来发展的研判，在OPPO对AI手机的定义中，AI手机要有以下四个特征：用户定义的开放服务生态、多模态融合的系统交互、OS内嵌的专属智能体，以及支持生成式AI的智能终端硬件平台。这些特征交织在一起，能够让AI手机具备高效利用计算资源、敏锐感知真实世界、自学习能力和强大的创作能力。

也正如OPPO所说：把复杂留给AI，把简单留给用户。

不过定义是一回事，而落实又是另一回事。手机厂商与上游企业不同，上游企业技术为先，而手机厂商需要考虑的不止是技术的发展，还要考虑到能力的实际落地，尤其是对于OPPO这种更专注于“用户体验为先”的企业，每一步都要经过深思熟虑。

以OPPO的视角来看，用户更需要的是AI能够带来什么样的价值，这才是提升用户体验的核心。此前刘作虎也表达过相似的观点：“做产品永远都要回归到‘你给用户的价值是什么’，技术的源头是要理解用户”。

而这恰恰是解决AI落地难题的关键所在——手机厂商基于对AI和用户的理解，为AI手机带来基于人工智能多模态融合的全新交互方式，为用户提供自在交互、智能随心、专属陪伴、安全可信的产品体验。

这也是AI普适化最佳的解题答案。

基于这一核心，如今OPPO所有的功能都是围绕着消费者所展开。在去年，OPPO就推出了安第斯大模型，并融入到小布助手之中。为了保证用户“千人千面”的个性化体验，OPPO引入了长时记忆机制，支持无限长度的上下文记忆，其中包括用户交互过程中产生的交互历史、个人数据，以及从中提取的结构化信息等。

比如OPPO所推送的AI通话摘要功能，就可以根据用户的通话内容生成核心重点，并将完成事项、会议时间等信息完美摘录出来，再加上“千人千面”的AI体验，意味着安第斯大模型能够凭借记忆，成为一个只属于用户自己的超级助理。

不过对于OPPO来说，“做消费者需要的AI”只是OPPO在AI思考中的一部分，如何普及同样是AI手机的重中之重。对此刘作虎也透露到，在未来OPPO还将会针对中低端芯片开发1B规模的模型，届时在海量用户数据的训练下，经过AI重构的手机产品将会得到进一步普及，从普及到开发形成支持发展的良性循环。

从这一角度来看，不难发现OPPO除了推动手机行业复苏之外，也在加速着AI手机发展的未来。
02

“拥抱AI”并非一蹴而就

OPPO在很早之前就在推动手机AI的发展，相较于其他企业还在初步阶段，春节期间OPPO就已经在加速AI的普适化。

据悉，在春节期间，OPPO为超千万用户推送了百余项AI使用功能，其中AI消除、AI通话摘要和新小布助手等功能获得了消费者的一致好评。尤其是AI消除功能，人均每天使用次数高达15次，这意味着OPPO正在逐渐改变用户的手机使用习惯。

推动普及的基础是OPPO在大模型领域的提前布局。在 2020 年，OPPO 就已启动预训练语言模型的探索与实践，自研了一亿、三亿和十亿参数量的大模型 OBERT，通过不断地技术积累，OBERT 曾一度跃居中文语言理解测评基准 CLUE1.1 总榜第一梯队，还获得了大规模知识图谱问答 KgCLUE1.0 排行榜第一的成绩。

此外，在2023年9月，安第斯大模型还参与了 SuperCLUE 的能力测评，在知识与百科方面获得了 98.33 的高分，位列 SuperCLUE 知识与百科能力排行榜中的全球第二、国内第一，尤其是通用问答与对话能力，极为出色。同年 10 月，安第斯大模型现身 C-Enal 全球中文榜单，并以 79.9 的高分登顶该榜榜首。

不过单一的云侧大模型只能做到部分场景的优秀表现，而在弱网环境、产品功耗、数据安全等层面仍存在局限性，因此，OPPO认为端云结合才是手机行业大模型的必然演进方向。

于是，首款落地端侧70亿参数大模型的手机：Find X7应运而生，凭借端云结合的强大能力，Find X7加入了基于自主训练的安第斯大模型生成式视觉模型，让 Find X7 拥有主体识别分割、图像语义理解、图像延展与生成的能力。

相较于其他云端模型，Find X7的安第斯大模型不仅支持超过 120 类主体的识别与分割，还可以实现发丝级的分割以及高达 6 个的多主体分离，以及超大面积图像的填充与自然生成，生成时间也只有同平台其他模型的 60%。以此作为底座，AI消除功能、AI通话摘要、AI超清合影等AI工具，成功让消费者对AI有了明显的感知。

某种程度上，参数决定了模型的智能和性能，参数越多，神经元越多，模型就越复杂，也越强大。端云结合后，在复杂计算场景下，安第斯大模型能够完整覆盖十亿至千亿以上多种不同参数规模的模型规格：AndesGPT-Tiny、AndesGPT-Turbo 和 AndesGPT-Titan，最高可达 1800 亿参数，能够实现更深度层次的推理任务。

同样，为了保证云端的算力，OPPO建立了企业首个自建超大型数据中心：OPPO AI滨海湾数据中心，通过了国际CQC A级数据中心认证，也是国内第五家、华南地区售价通过国际Uptime TIER III 设计认证与建造认证的数据中心，能够支持千亿级AI模型训练，与骨干网络之间的网络时延低于2毫秒，同时100%采用纯绿色能源，部署了超万台服务器，在安全性和可靠性上达到全球领先水平。

这些长年累月的技术堆叠，也成了OPPO区别于其他品牌，能够喊出“拥抱AI”的核心差别。

在大量人力物力投入的背后是用户体验上的升维，如今OPPO能够如此果断的选择AI，所围绕的正是多年来坚持的“对的路不怕远”的精神内核，回顾手机发展历史的多个节点，无论是OPPO所坚持的超级闪充与电池健康，还是依托潘塔纳尔系统所带来的万物互融，OPPO都选择了“难而正确”的决定。

如今在刻在骨子里的“长期主义”的影响下，OPPO再次踏上「体验为先」这条难而正确的道路，也正是这种将产品体验做到极致的追求，让OPPO在面对时代浪潮时，都选择出最正确的决定。
03

锚定AI

手机市场的下一个增长关键

解决了成本问题，还有一个最直接的问题是是否有足够的用户买单？

从产品发展的角度来看，手机与AI融合后的体验正逐渐被消费者所接受，这与早期消费者的“嗤之以鼻”形成了强烈的反差，这一切的根源来自于手机厂商对AI能力的不断探索与尝试。

根据IDC的预测，在2024年起，新一代AI手机销量将会大幅度增长，并带动新一轮换机潮，2027年AI手机出货量将达到1.5亿台，市场份额超过50%。同时Canalys也在中国AI市场趋势洞察报告中提到，防守市场份额并开发新的功能已经成为行业重点，而AI恰好是这一战略转变中的关键因素。

毫无疑问，2024年已经成为AI手机的元年，在AI的推动下，手机厂商将会在今年带来更多创造性的功能，不断推动手机行业进行下一波增长。

这其中的佼佼者：OPPO，无论是果断的产品转型还是对AI生态的布局，在此次AI浪潮面前明显有着非常清晰的判断。如今OPPO已经踏上了未来十年的新征程，如何做、怎么做，将成为OPPO未来下一次增长的关键所在。

26 2 月 2024

为什么谷歌Gemini无法绘制白人的图像？

生成带有刻板印象、偏见的结果，这是AI被批评的常见问题之一。

谷歌似乎想要解决这个问题，但是“政治正确”让它载了一个大跟头。

网上的右翼分子一直在刺激和测试谷歌的Gemini，最近他们发现了Gemini的一个重大缺陷——无法生成准确的白人形象。有人测试用Gemini生成美国的国父、维京人、教皇，均为有色人种，唯独没有白人。

在此之前，一位曾在谷歌工作过的AI工程师先发现了这个问题，他用Gemini分别去生成澳大利亚女人、美国女人、英国女人、德国女人，得到的结果都是有色人种。由此他说，“让Gemini承认白人的存在是非常困难的”。

似乎这只是Gemini的问题，其他AI并没有。例如Gab.ai可以生成白色人种。

为什么Gemini会出现严重偏离提示词的错误，它的回答是“提供更具包容性的表达”，简言之，符合美国社会倡导政治正确的惯性。

不只是种族问题，有人要求Gemini绘制“4张国家冰球联盟（NHL）运动员的代表性照片”，结果生成了一张有女性球员的照片，事实上NHL的球员都是男性。

Gemini生成不出白人的图像，谷歌已经承认这个问题，高级副总裁公开道歉并暂停了图片生成功能。

Gemini之所以出现这样的问题，除了道德责任上追求政治正确，训练数据集本身缺乏多样化也是原因之一。

解决问题的办法是重新调整模型的输出，使其不那么刻板。

OpenAI信任与安全主管戴夫·威尔纳认为，这种干预并不容易，需要非常多的细微差别的调整才能准确地描述历史和准确地描述现在。问题是可以解决的，但工作量很大。谷歌的工程师可能没有足够的资源在有限的时间内正确地完成这些工作。

资深科技记者凯西·牛顿提出了三个解决策略：

1、在更多的多样化的数据集上训练大模型。鉴于AI公司不太愿意为数据集付费，这个策略似乎不可行。

2、放松对大模型的道德与安全的限制，这在AI公司内部就会面临很大的挑战，它们也不太愿意承担任何输出带来的法律责任。

3、为用户提供更多个性化的对话机器人。虽然现在谷歌、OpenAI有一些用户的位置、性别或其他人口统计特征的信息，但这些信息不足以为用户提供特定的照片。这也是为什么最近OpenAI宣布正在测试ChatGPT的记忆功能。

26 2 月 2024

AI 视频新王者诞生！文生视频大模型 Sora 14 项功能盘点！

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。

今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。

一、60s 超长视频

之前优设已经推荐过 AI 视频工具，比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等，它们文生视频长度都在 3-7 秒之间（Aminatediff 和 Deforum 因形式不同，不列入此处的比较），而 Sora 直接将时长最高提升到 60s，是之前的 10 倍，这样的长度是放在之前大家可能觉得要好几年才能实现，但是 Sora 让其一夜之间成为现实。

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚，文本生成的视频效果最难控制，很容易出现画面扭曲、元素丢失情况，或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力，比如 Runway 的 Motion Brush 笔刷，通过在图像上涂抹指定区域添加动效；以及 Domo AI，可以将真实视频转为多种不同的风格，这些方式让 AI 视频更可控，因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知，不仅直接能通过文本生成各种风格的高清的视频，还支持多样化的视频时长、分辨率和画幅比，并且能始终保持画面主体位于视频中央，呈现出最佳构图。

三、连贯一致的视频内容

Sora 生成的视频中，随时长增加人物及场景元素依旧能保持自己原有原有的状态，不会扭曲变形，所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面，Sora 依旧能在后续准确呈现这一对象的相关特征。

这就解决了之前大家一直很关心的视频中人物一致性问题，也许之后我们就无需后期拼接，而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现，比如针对“下雪天的街道”主体，可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段，可以看到随着镜头旋转，新视角中无论是机器人还是背后环境的细节都能稳定呈现，如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123，一种可以生成多视角图像的 AI 模型，但效果远比不上在视频中的呈现，也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞，Sora 的动态都非常自然，就像我们在现实中看到的那样；相比之下 Runway 生成的动作总有一种 “慢放”的感觉，不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中，如果想实现镜头运动，需要使用额外的 –motion 参数，然后从平移、旋转、缩放中等选项中选一种。

而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动，比如提示词中是 “镜头跟在一辆白色复古越野车后面”，在长达 20s 的视频内，无论道路如何弯曲，镜头真的能始终跟随这汽车，让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示，Sora 也能主动地添加镜头动作，比如下面的视频，花盛开到快超出屏幕时，镜头会自动上移以展现完整的主体；以及镜头有聚焦在老人面部时，带着一种手持拍摄的抖动，这是用 motion 设置也无法得到的效果，让人感觉这是真的视频而非“会动的图片”。

七、准确的提示词理解

对于“船在咖啡杯里”、”用白炽灯做壳的寄居蟹” 这样比较复杂的概念，Sora 能准确理解并呈现出正确的视频，Runway、Pika、Morph 等目前则无法做到。

在 Sora 的研究报告中，官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明，然后发送给视频模型，以得到更好的生成效果。

八、图生视频

Sora 虽然自称是文生视频模型，但它也可以将图像转为动态视频，而且动态效果比其他 AI 视频都好，还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态，还能生成新的内容（比如为云彩字添加了一个弹出的动效）。

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑，对一个写画风视频加上 “rewrite the video in a pixel art style” 提示，可以将其变为像素飞哥，加上 ““make it go underwater”可以替换画面元素，而且新元素与整体融合自然然。

之前图像进行局部重绘都是有些困难的事，Sora 这是直接做到了对视频内容的完美局部重绘，模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容，并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的，所以结尾相同；而如果对一个视频同时操作向前和向后延伸，就能好得到一个完美的循环动画。

这项功能目前还没有其他能实现的 AI 工具，如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值，在主题和场景构图完全不同的视频之间创建无缝过渡，比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄，或者让一只蜥蜴慢慢变成一只鸟。

官方用的 “无缝过渡” 绝不是夸张，仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然，这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频，Sora 既然能生成高质量的视频，那生成高质量的图像自然也不在话下，并且支持多种尺寸，最高分辨率到达 2048*2048 px。

我用 Sora 官方给出的提示词，在 Midjourney 的 V6 模型中重新生成一遍，下面的效果对比，你觉得哪一个更好？

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态，比如画笔落下后画布上有对应的痕迹留下，并且持续保留；被咬了一个口的汉堡上会有一个缺口等。

不过这个功能并不稳定，处理复杂交互场景也会出错，或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后，除了视频会变成体素风格，Sora 还能通过基础策略控制玩家，并高保真地呈现世界及其动态，达到真假难辨的地步。这或许会改变视频游戏的制作及玩法，对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能，如果想了解为什么 Sora 能做到这么厉害，可以去阅读 OpenAI 官方的研究报告，里面有相关介绍。

Sora 模型技术报告：
https://openai.com/research/video-generation-models-as-world-simulators

22 2 月 2024

Reddit的IPO前夜，把20年用户内容卖给AI公司训练模型

据彭博社报道，上周Reddit签署了一份合同，允许一家未透露名称的AI公司对该网站的内容进行模型训练。

这一举动发生在这家社交媒体平台临近首次公开上市（IPO）之际，该公司的IPO可能最早在下个月进行。

据彭博社称，Reddit最初在2024年早些时候向计划IPO的潜在投资者披露了这项交易，据报道该交易价值为每年6000万美元。

彭博社的消息源推测，这份合同可能为今后Reddit与其他AI公司达成协议提供了一个范本。

AI公司在没有明确许可的情况下，利用AI训练数据的时代已经逐渐结束，一些科技公司最近开始寻求签署合作协议，训练类似于GPT-4的AI模型的内容将是经过授权的。

例如去年12月，OpenAI与德国出版商Axel Springer签署了一项协议，以获得其文章的访问权限。此前，OpenAI还与其他组织达成了协议，包括美联社，并正在与CNN、福克斯和时代等公司进行许可谈判。

2023年4月，Reddit创始人兼CEO Steve Huffman告诉《纽约时报》，Reddit计划向AI公司收费，获得近二十年来人类生成的内容。

如果报道的每年6000万美元的交易达成，那么很可能你曾在Reddit上发布过的内容，其中一些材料会被用于训练下一代能够生成文本、静态图片和视频的AI模型。

即使没有这笔交易，专家们发现Reddit也一直是大语言模型和AI图像生成器的重要数据来源。

虽然我们不知道OpenAI是否与Reddit签署协议，但彭博社推测，Reddit利用AI炒作来增加额外收入的能力，可能会提升其IPO的价值。

彭博社称，Reddit在2023年的收入超过8亿美元，比2022年增长了约20%。

22 2 月 2024

清华博士网红“AI课卖了5000万”？AI课程乱象调查

近日，自称清华博士的抖音网红“李一舟”通过售卖AI课收入高达5000万的相关信息刷屏网络，不少人质疑类似的课程是在“割韭菜”。

澎湃新闻记者发现，目前在抖音、知乎、B站等社交媒体上，类似李一舟的AI课程随处可见。除了李一舟外，知名AI类带客网红还包括“鹤老师”“张诗童”等，其中鹤老师粉丝数量超过777万，张诗童粉丝则超过10万。

截至21日16时，记者看到售价299元的张诗童AI课程显示“已被抢光”。在直播中，他表示，自己的课程在2小时里就能售出20万，催促大家赶紧抢购。

“AI培训课从去年3月开始兴起，今年年初，伴随OpenAI开发的Sora走红到达高潮。”另一名AI课程负责人向记者透露，“李一舟本人也是从去年下半年开始入局的，踩中了AI和直播的双重风口。”

“任何新生事物都有反对的声音，网上的吐槽者大多没有接触过课程，认为李一舟老师不是AI专业出身，但这恰恰证明他的能力。”2月21日，对于集中爆发的质疑声，名为“东东老师”的李一舟助教回应澎湃新闻，他还表示，学习不要看舆论，关键是看老师的责任心和真诚度，只有实践才能出真知。

不过，当记者询问更多细节时，这名助教没有回复。

据湖南大学设计艺术学院官网显示，自称清华大学博士毕业、三家科技公司创始人的李一舟，实际是清华美院博士，读的是设计类专业，本科和硕士就读于湖南大学设计艺术学院。

“不满意要退款，就把你踢出群”

对于走红出圈，李一舟本人也有所回应。

近日，有网友戏谑地给他留言称：“自打Sora火了，你是AI圈子里唯一一个可以和奥特曼平起平坐的华人大神”，李一舟回应：“我会继续努力的，国内做大模型和搞开发的大牛们，继续追赶奥特曼吧。”

不过，澎湃新闻记者联系到多位购买过李一舟AI课的网友，均对课程内容表示不满。

“特别后悔，我购买了199元课程，几乎没有有用东西，最让人气愤的是，直播第二天就要求学员升级到他的高阶课，需花费1980元，199课程啥都没教，就要升级，完全是骗子的套路。”一位学员告诉记者，“我在学习群发表观点，立即被拉黑踢岀群。”

“当时脑子一热就买了，后来发现网上好多免费的视频，都比他的课程要好。”另一位学员坦言，“看了十几节课，纯粹是浪费时间。课程内容太水，就像我已经学会高数了，你还在教我加减法。”

据飞瓜数据显示，2023年李一舟售卖的199元AI课《每个人的人工智能课》，一年内卖出约25万套，销售额约5000万。而一张网络流传的截图显示，李一舟本人通过AI课程，在3年内收入超亿元。

记者尝试购买了售价为199元的“每个人的人工智能课”，在课程介绍中提到，支付7日内，学习时长小于10分钟，即可申请全额退款。但在记者进行4分钟的学习后，申请退款时却失败了，记者尝试通过抖音的小程序平台“联系客服”功能时，留下的号码已暂停服务。

对于课程的具体内容，一位学员向记者描述，广告浓度很高，到处是进一步诱导付费的暗示：在前三节课程最后，都有意无意提到了充值；第6节课，借宣传ChatGPT进一步提到“买课很值得”；16、17节课中，李一舟找来一家服务电商的AI公司，长篇大论地介绍其技术和业务；第25节课时，邀请另一家做数字人的企业“又打了一波广告”。

多位购买过AI付费课程的学员告诉澎湃新闻，一旦发表负面言论就被踢出课程群是常态。一位参加“深度之眼AI课”的网友告诉记者，所谓的AI课程，就是付费进微信群，把网上已有的内容打包成几个视频文件播放给学员，宣传中提到的“助教”流动性很大，一个月内就换了两三次，而且很难起到实际效果。不过，一旦有人不满意要退款，或是在群里发表负面言论，就会被助教踢出群聊。

此外，在多家电商平台上，已有大量李一舟盗版课程在出售。记者查询某平台显示，李一舟的全套课程最低仅出售0.26元，线上发货，还同时赠送鹤老师的全套人工智能课程。数据显示，类似盗版课程最高月销量已超过500套。

“只要三周时间，就能帮助大家从小白变大神。”另一AI知识网红张诗童则在直播中如此宣传自己的课程，他表示，自己的每一种课程市面价格都超过2000元，但在直播间中，299元就能“全包”，“不需要任何基础，只要手机就可以学会。”

蹭AI热点，办年卡、付费会员套路深

能靠售卖AI课程收入超千万的李一舟，到底是什么背景？

清华大学官网显示，李一舟曾为创业者，创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中匙悟科技完成过3轮融资：2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年，匙悟科技完成过数百万美元的Pre-A轮，以及数百万人民币的天使轮融资。

天眼查APP显示，与李一舟关联企业有12家，其中6家处于存续状态。目前，李一舟仍担任北京匙悟科技、北京一舸科技两家公司的法定代表人。

澎湃新闻记者发现，此类AI课程并不仅仅是付费授课，有大量收费套路。以李一舟为例，除了课程要付费，还要交“算力单元”费。简单来说，算力费就是使用李一舟提供的大模型工具也要付费，文本大模型提问一次价格约为几十算力。图像、视频的价格昂贵许多，基本单价超过1万，有时制图一张要花费10万算力。

如果想要持续使用算力，就要充值购买会员，其中包括琥珀会员、黄金会员、铂金会员、钻石会员等多个等级，最低一个月也要39元。

一位张诗童的学员告诉记者，在299元的付费课程外，张诗童还推出价格为1980元的年卡，张诗童在2022年接受采访时提到，自己单场直播收入高达20-30万元。

值得注意的是，除了网红的年卡费、会员费等收费套路，还有数不胜数的AI类付费社群。澎湃新闻查询知识付费软件“知识星球”发现，有几百家AI付费社群，入群费价格从一年50到299元不等。某AI俱乐部宣称入群费为129元，承诺进群就享有ChatGPT账号、各种免费AI工具箱、常用提词器等素材，以及AIGC的内容创作技巧和变现方式分享等。

另一家名为“深度AIGC俱乐部”的入群费则高达398元，据称群内会提供与科技大佬交流的机会和解答问题，并提供培训课程。

在Sora走红后，有关Sora的社群也成为收费新热点。记者发现，一家名为“Sora-数字人-AI”的社区成员已高达5700多人，收费标准是一年269元，这也意味着一年纯靠社群收入就达到153万元。

AI类网课法律界限在哪？

伴随李一舟被推上舆论的风口浪尖，不少学员开始在社交平台上要求退款。有网友发布公告，要在“全网寻找买过李一舟AI课但想退款的朋友。”该网友表示，支持学员通过法律渠道维权。

“李一舟虽然赚了很多钱，但不一定意味着他在割韭菜。”某AI课程负责人“小远”向澎湃新闻记者介绍，他获利的原因，还是敏锐地抓住人们对于AI这样新技术崛起的恐慌感，利用了人们的心理需求。

“毕竟价格也就199元，不必对这个价位的课程有不切实际的期待。”小远表示，作为完全不了解AI知识的小白，如果能用一周时间科普一下，还是非常值得的。

在小远看来，未来AI培训将成为新的风口，“如果李一舟营收达到5000万元，以199元的课程单价来计算，最多卖了25万份，这个数量其实还很小。”小远坦言，AI内容将成为巨大缺口，保守估计，未来的潜在消费人群超过5000万人。

那么，类似李一舟这样的AI卖课网红，究竟是否涉嫌诈骗？多位法律界人士认为，仍需要更多证据。

华东政法大学竞争法研究中心执行主任翟巍告诉澎湃新闻记者，是否涉嫌诈骗还需要获得翔实信息才可判定，“不过可以确定的是，李一舟的AI课不仅涉嫌违反《广告法》和《反不正当竞争法》，构成虚假宣传的不正当竞争行为，而且涉嫌违反《消费者权益保护法》，侵犯消费者的知情权、公平交易权等。”

“AI相关的内容和课程的含义本身比较宽泛，所以只要用户付费后提供了约定的相关资料，就不能说诈骗。”上海申伦律师事务所律师夏海龙表示，至于这些资料是否符合用户的预期，属于合同履行的问题。只要用户付费后销售者提供了与宣传相一致的资料，就不能说诈骗。

对于知识付费类课程是否涉嫌诈骗，该如何界定？

翟巍告诉记者，知识付费类AI类网课本质上属于知识类产品，这类产品的个人购买者属于消费者。经营者在销售这种知识类产品时，应当全面、真实、客观地宣传产品内容与质量，不应隐瞒事实片面宣传、虚假宣传，不应欺骗或误导、诱导消费者购买产品，否则轻则会构成侵权违法行为，重则构成诈骗等刑事犯罪行为。

22 2 月 2024

谷歌开放轻量级大模型Gemma，全民AI时代要到了？

谷歌2月21日发布了新的人工智能“开放模型”Gemma，将大模型开源意味着外部开发者可以将其打造为自己的模型。谷歌也成为继Meta之后，又一家试图走开源大模型路径的主要科技公司，并加速全民AI时代的到来。

谷歌表示，Gemma是一系列“轻量级”先进的开放式模型，采用与创建Gemini模型相同的研究和技术而构建。开发者可以使用Gemma“开放模型”系列免费构建人工智能软件。

该公司表示，正在公开关键的技术数据，例如所谓的“模型权重”。谷歌CEO皮查伊（Sundar Pichai）表示：“Gemma展示了强大的性能，今天开始将在全球范围提供，可在笔记本电脑或者谷歌云上运行。

”市场分析认为，谷歌将大模型开源可能会吸引软件工程师在谷歌的技术基础上进行开发，并鼓励使用其新盈利的云部门。谷歌表示，这些模型还针对谷歌云进行了优化。不过Gemma也并不是完全“开源”，这意味着该公司仍可制定使用该模型的条款及所有权条款。

据介绍，相较于谷歌此前发布的Gemini模型，Gemma模型的参数可能更小，有20亿个或70亿个参数版本可供选择。谷歌尚未透露其最大的Gemini的参数尺寸。

谷歌表示：“Gemini是我们当今广泛使用的最大、功能最强大的AI模型。Gemma模型与Gemini共享技术和基础设施组件，Gemma模型能够直接在开发人员笔记本电脑或台式计算机上运行。”该公司还强调，Gemma在关键基准上超越了参数更大的模型，同时遵守安全和负责任输出的严格标准。此前开源的Meta的Llama 2模型参数最多可达700亿个。

相比之下，OpenAI的GPT-3模型拥有1750亿个参数。在谷歌发布的一份技术报告中，该公司将Gemma 70亿参数模型与Llama 2 70亿参数、Llama 2 130亿参数以及Mistral 70亿参数几个模型进行不同维度的比较，在问答、推理、数学/科学、代码等基准测试方面，Gemma的得分均胜出竞争对手。英伟达在Gemma大模型发布时表示，已与谷歌合作，确保Gemma模型在其芯片上顺利运行。

英伟达还称，很快将开发与Gemma配合使用的聊天机器人软件。将较小参数的AI模型开放出来也是谷歌的商业策略。此前，科大讯飞也选择将较小的参数尺寸模型进行开源。

科大讯飞董事长刘庆峰向第一财经记者解释称：“通用大模型关键是看谁的性能好，而大模型开源是为了建立生态，因此从技术水平来看，一般开源大模型都会略低于通用大模型。

”“我们也观察到，好像很多企业会藏着自己最大的那个模型，可能还是希望能够建立起壁垒好做商业化。”一位从事AI大模型研发的研究人员对第一财经记者表示。对于开源大模型目前也有不同的观点，一些专家认为，开源AI大模型可能会被滥用，而另一些专家则支持开源的方法，认为这可以推动技术发展，扩大受益人群。

21 2 月 2024

Sora背后团队被扒出：13人几乎每天不睡觉高强度工作一年，其中3人为华人

随着Sora的刷屏，其幕后主创团队也引人关注。据Open AI发布的Sora技术报告，Sora作者团队仅13人，Tim Brooks、Bill Peebles以及Connor Holmes等是核心成员。其中Tim 与Bill 师出同门，都于2019年8月进入伯克利深造，并受Alyosha Efros教授指导，2023年上半年两人一前一后在伯克利获得博士学位。另据了解，Sora团队还包括3名华人，其中一名为北大校友。值得注意的是，Bill 曾和现任纽约大学计算机科学助理教授谢赛宁一起发表过论文《Scalable Diffusion Models with Transformers》，该论文研究成果DiT模型被Sora引用。谢赛宁今日在朋友圈辟谣了自己是Sora作者之一的消息，据他透露，Sora是Bill他们在OpenAI的呕心沥血之作，“虽然不知道细节，但他们每天基本不睡觉高强度工作了一年”。

本文源自金融界AI电报

21 2 月 2024

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

今日GitHub热榜榜首，是最新的开源世界模型。

上下文窗口长度达到了100万token，持平了谷歌同时推出的王炸Gemini 1.5，伯克利出品。

强大的模型，命名也是简单粗暴——没有任何额外点缀，直接就叫LargeWorldModel（LWM）。

LWM支持处理多模态信息，能在100万token中准确找到目标文本，还能一口气看完1小时的视频。

网友看了不禁表示，这种大海捞针般的测试，LWM能完成的如此出色，而且还开源，实在是令人印象深刻。

那么，LWM的表现到底有多强呢？

百万上下文窗口，可看1小时视频

在测试过程中，研究人员用多段一个多小时的视频检验了LWM的长序列理解能力，这些视频由YouTube上不同的视频片段拼接而成。

他们将这些视频输入LWM，然后针对其中的细节进行提问，涉及的片段位于整个视频的不同位置，同时研究者还将LWM与GPT-4V等模型做了对比。

结果GPT-4V是一问一个不吱声，闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案，只有LWM回答对了。

在另一段视频的测试中，其他模型都说找不到有关信息，只有LWM找到了答案，而且完全正确。

不仅是理解细节，LWM也能把握视频的整体内容，做出归纳总结。

在理解的基础之上，LWM也可以结合自有知识进行推理，比如分析视频中不符合常理的地方。

Benchmark测试结果显示，LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。

LWM不仅能理解长短视频，在超长文本任务上的表现同样优异。

在1百万token窗口的“插针”检索测试中，LWM取得了单针检索全绿的成绩。

多针检索时，表现也同样优异：

语言任务数据集的测试结果表明，LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。

除了多模态信息理解，LWM还支持图像和视频的生成，至于效果，还是直接上图感受一下吧。

那么，研究人员又是怎样训练出这样一款世界模型的呢？

循序渐进，分而治之

LMW的训练过程，大致可分为两个阶段。

第一阶段的目标是建立一个能够处理长文本序列的语言模型，以理解复杂的文档和长文本内容。

为实现这一目的，研究人员采取了渐进式的训练方式，使用总计33B Token、由图书内容组成的Books3数据集，从32k开始训练，逐步将窗口扩增至1M。

而为了增强LWM的长文本处理能力，开发者应用了RingAttention机制。

RingAttention是该团队去年提出的一种窗口扩增方式，入选了ICLR 2024。

它运用了“分而治之”的思想，将长文本分成多个块，用多个计算设备做序列并行处理，然后再进行叠加，理论上允许模型扩展到无限长的上下文。

在LWM中，RingAttention还与FlashAttention结合使用，并通过Pallas框架进行优化，从而提高性能。

在文本能力的基础上，研究人员又用模型生成了部分QA数据，针对LWM的对话能力进行了优化。

第二阶段则是将视觉信息（如图像和视频）整合到模型中，以提高对多模态数据的理解能力。

在此阶段，研究人员对LWM-Text模型进行了架构修改，以支持视觉输入。

他们使用VQGAN将图像和视频帧转换为token，并与文本结合进行训练。

这一阶段同样采用循序渐进的训练方法， LWM首先在文本-图像数据集上进行训练，然后扩展到文本-视频数据集，且视频帧数逐步增多。

在训练过程中，模型还会随机交换文本和视觉数据的顺序，以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。

性能方面，研究人员在TPUv4-1024（大致相对于450块A100）上训练，批大小为8M、全精度（float32）的条件下，花费的时间如下表所示，其中1M窗口版本用了58个小时。

目前，LWM的代码、模型都已开源，其中多模态模型为Jax版本，纯文本模型有Jax和PyTorch两个版本，感兴趣的话可以到GitHub页面中了解详情。

论文地址：
https://arxiv.org/abs/2402.08268
GitHub：
https://github.com/LargeWorldModel/LWM

21 2 月 2024

潮汕90后，10个月干出一个AI独角兽

中国大模型创业公司首笔10亿美元级别的融资出现了。

2月19日消息，月之暗面已完成新一轮超10亿美金的融资，投资方包括红杉中国、小红书、美团、阿里等，上一轮的老股东继续跟投。这是自大模型创业潮兴起以来，中国大模型赛道金额最大的一笔单轮融资。本轮融资后月之暗面估值已达约25亿美金。

月之暗面2023年4月成立于北京，创始人杨植麟是毕业于清华大学的学霸。成立不到两个月，月之暗面就完成了近20亿元的天使轮融资，红杉中国、今日资本、真格基金、砺思资本等知名VC投资。

成立不到一年时间就融了近90亿元人民币，估值接近180亿元，月之暗面已经进入中国AI大模型的第一梯队。2023年6月份，The Information评选了五家最有可能成为中国OpenAI的公司，月之暗面位列其中。

三位清华同学创业

与光年之外、百川智能、零一万物的互联网大佬“二次创业”不同，月之暗面是中国AI大模型赛道不多见的“素人”创业。月之暗面一成立就能获得资本重金支持，创始人的履历必然不一般。

杨植麟是一位90后，高中毕业于广东汕头的百年名校金山中学。在中学时期，杨植麟被选拔进入信息学奥林匹克竞赛培训班，并拿到全国青少年信息学奥林匹克联赛中获得广东赛区一等奖，获得清华大学保送生资格。尽管已经保送，杨植麟在当年高考中还是拿下了667的高分，远超清华大学在广东的录取线。

进入清华大学后，杨植麟延续着学霸路线。杨植麟最初被清华大学热能工程系录取，但在大二杨植麟就转专业进入计算机系。

2015年，杨植麟以年级第一的成绩从清华大学毕业，随后远赴卡内基梅隆大学语言技术研究所，2019年获得博士学位。

在博士期间，杨植麟成了AI领域的风云人物，他与多位图灵奖得主合作发表过论文，在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇，研究成果累计Google Shcolar引用超过17000。除了学术成就之外，杨植麟还在Meta的人工智能研究院和谷歌大脑研究院工作。

2016年，博士在读的杨植麟首次创业，以联创身份参与创立了循环智能，方向是运用NLP、语音、多模态、大模型等AI技术打造“销售科技”方案。循环智能成立后已经完成了6轮融资，投资方包括红衫中国、博裕资本、金沙江创投、真格基金等。

2021年，循环智能与华为云合作开发了千亿级NLP大模型盘古大模型。

杨植麟虽然不过30岁出头，但在国内，他做AI大模型的资历几乎是无人能敌，国外的Google，国内的盘古NLP、悟道等大模型的研发他都有参与（悟道项目负责人、清华大学唐杰教授是杨植麟的老师）。有媒体更是直接给杨植麟冠上了中国大模型90后第一人的名号。

除了杨植麟之外，月之暗面的另外两位联创也都值得关注。

月之暗面的第二位联合创始人、算法负责人周昕宇是杨植麟在清华的本科同学和好朋友，两人在大学期间还一起组过摇滚乐队。

周昕宇在大学毕业后加入旷视，研究算法量产。第三位联合创始人吴育昕也是毕业于清华大学，以及卡内基梅隆大学，大学毕业后在Meta的人工智能研究院工作。

2023年大模型骤然爆火，VC们也纷纷试图寻找中国的OpenAI，但国内具备大模型相关经验的人才非常稀缺，真正从事过大模型研发、愿意创业又年轻的创业者屈指可数。月之暗面这一团队，称得上是中国大模型创业的“顶配”了，无怪乎被知名VC踏破门槛。

要做AI时代的“Super App”

2023年10月，月之暗面发布了创业之后的首个大模型moonshot，以及搭载该模型的智能助手产品Kimi Chat。一经发布，moonshot就以“最高支持20万个汉字输入”而引起了关注。要知道，GPT4仅仅支持最多2.5万字输入，moonshot是它的八倍。

月之暗面研究方向有两个关键词，首先是长文本，其次是to C。

关于长文本，月之暗面认为大模型的应用效果取决于两个因素，参数量决定了大模型能支持多复杂的“计算”，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的“内存”。

对长文本的支持给大模型的应用打开了新的空间。moonshot的发布会上，杨植麟演示了输入整本《三体》并让AI给出总结，还演示了一次输入50个文档并让大模型给出分析。

杨植麟分析道，“当我们去看计算机系统发展史，一个必然的趋势是，都是从最开始的很小内存的计算机服务，再到很大的内存的服务。所以我觉得大模型肯定也是会有一样的趋势，从现在很少内存的大模型，到以后的很大内存。”

月之暗面另外一个关键词是to C，杨植麟表示Moonshot AI现在最高优先级的任务是在C端找到产品、技术以及市场的方向。

定位to C，更是显示出月之暗面要做中国的Open AI的雄心壮志。杨植麟认为，大模型可能会分成to B和to C两个不同的阵营,而“To C是成为AI时代Super App的机会”，因此月之暗面坚定的加入to C阵营。

杨植麟谈到月之暗面愿景是“通过AI给个人提供更便捷、更强大、更个性化的普惠产品”，这种定位迥异于国内其他一些大模型头部玩家“赋能B端”的思路。月之暗面这只由90后组成的团队，展现出了与其他几家资深大佬领衔的大模型创业公司非常不一样的锐气。

To C的定位使得月之暗面更愿意专注在产品，也因此保持着一个相对更小而精干的团队。随着第二轮融资的落地，月之暗面的团队人数达到了80人。而国内其他几家估值相近的公司团队基本都超过了200人。

90后创业者涌现

很多人说上一轮硬科技创业主要是属于中年人的舞台，大量的新晋硬科技上市公司创始人都是70后甚至60后。但最近一段时间，90后创业者正悄然间来到舞台中心，成为中国新的创业生力军。

除了月之暗面的清华三人组之外，最近一年备受资本追捧的90后创业者还有非常多。

2023年，最火的中国90后创业者可能是Pika的郭文景。在Open AI发布sora之前，Pika是最热门的文生视频AI，它的融资名单几乎是集齐了硅谷的半壁江山。Pika创始人、CEO郭文景是一位被哈佛大学本科提前录取，然后从斯坦福大学博士辍学创业的95后天才少女。

2023年12月，人形机器人创业公司的智元机器人完成了超6亿元的A3轮融资，蓝驰创投、中科创星、鼎晖投资、长飞基金、C资本、高瓴创投、立景创新、三花控股集团、基石资本、临港新片区基金和银杏谷资本等众多机构入局。智元机器人的创始人是华为“天才少年”稚晖君，2023年2月创业，一年不到融资5轮。

2023年8月，AI制药创业公司深势科技宣布完成超7亿人民币的新一轮融资，投资方包括众源资本，和玉资本，正心谷资本，Evergreen Scitech Delta及多家产业资本。深势科技的创始人孙伟杰和张林峰是一对毕业于北京大学元培学院的90后。

最近一例是民营航天公司东方空间，其1月24日宣布完成了近6亿元人民币B轮融资，估值也来到60亿元左右，成为中国民营航天最新一只准独角兽。1月11日，东方空间自主研制的“引力一号”火箭在成功完成首飞，成为全球最大的现役固体火箭，也是中国民营航天公司迄今为止送入轨道的运力最大的一枚商业火箭。东方空间的联合创始人、联席CEO姚颂也是一位保送清华大学的90后。

不同于移动互联网时代的那一波90后创业者，当下的这些90后几乎是清一色的名校学霸，创业的方向都是当前技术创新的最前沿。长江后浪推前浪，他们是这个时代的“青年之光”。

18 2 月 2024

2024 AI 展望：OpenAI再打响指，我们还能期盼什么？

若将中国的AI发展看做是一本小说，你会发现，2023年用一页的篇幅，几近写完了曾经计算机视觉（CV）的三年：起风，落地，再到危机暗涌。2022年末，太平洋对岸的ChatGPT石破天惊，拉开了名为AI大模型的全球竞速——热钱和人才集中涌向这个赛道。这一年，中国模型层一共诞生了5家独角兽：智谱AI、MiniMax、百川智能、零一万物、月之暗面。无论是从头训，还是基于现成模型微调，国内约200个大模型加入“百模大战”，AI领域融资事件数比2022年增长了145%。AI的技术突破，也为这个赛道吸纳了不少顶尖人才：来自国内外最高学府的知名学者教授下海，互联网老兵出山，谷歌、微软等海外大厂出身的华人回国。但与热闹和振奋人心的技术突破相对的，是疲软的资本市场和紧缺的资源。美元基金的退出、英伟达芯片的禁运，倒逼AI企业内修功力、外寻新机：找场景快速落地，出海拓展商业机会。从锤炼技术，到快速的商业化落地，也将更为抽象的问题摆到AI厂商面前：如何找准落地场景？如何实现数据飞轮？从Copilot到AI Agent（智能体），热门概念和demo的不断涌现，让市场对AI的能力充满了想象。但较为残酷的现实是，囿于底层模型的能力，AI能落地的场景仍然有限。从模型层相关的多模态、幻觉问题，到硬件层面的NPU（神经元计算处理器），AI产业上下游要解决的技术难点还有很多。对于应用厂商而言，则要根据技术现状将落地场景加以细分，或者找到具有独特价值的落地场景。即便度过了机会和危机并存的2023，没人怀疑，2024年，AI依然会是舞台上的主角。开年的“王炸”，依然来自OpenAI——北京时间2024年2月16日，OpenAI推出了可以生成60秒连贯流畅、超逼真的高清视频的视频生成模型Sora。对于不少视频模型的创业公司而言，“灭霸”OpenAI的开年响指并不好受。但业内更多人认为，视频等多模态模型，将在2024年创造新的商机。而市场，也已经做好了迎接AI商业化的准备。经历三年疲软的消费市场，在2023年Q3终于复苏。在硬件层面，手机、PC等消费电子的销量回升有目共睹。在软件应用层面，根据移动市场分析平台data.ai的统计，2023年全球移动市场用户的支出同比增长了3%——截至2023年末，生成式AI应用的月用户支出也突破了1000万美元。2023年下半年以来，出海淘金，也成了不少AI厂商拓展商业机会的方式。无论是在新环境中寻求资本，还是寻找具有更高付费能力和意愿的客户，不少国内的AI厂商提起出海，都给予36氪同样的答复：“Why not？”

2024年，关于大模型的机会、应用落地的方向、做ToB还是ToC、本地化还是出海，36氪总结了6大趋势。

语言日渐拥挤，视听乘风起势

即便模型层短时间内诞生了5家独角兽，但企名Pro的数据显示，2023年AI领域的融资总额比2022年少了4.5%，甚至还不到2021年的一半。这意味着，热钱集中地涌向了少数团队背景和技术实力强大的公司。

从资源分配的角度而言，后来者想要再挤进模型层创业，空间已经不多。智谱AI CEO张鹏认为，从商业竞争的角度而言，2024年LLM赛道已经接近红海：“一，算力等资源紧张的问题还没有解决；

二，从市场空间的角度而言，不需要重复造轮子；三，模型能力很大程度上依赖先发优势，积累用户反馈、行程数据，从技术迭代的角度，后来者很难跟上主流的水平。”即便零一万物内部的模型训练研究显示，模型参数量还有很大的提高空间，在零一万物技术副总裁、Pretrain（预训练）负责人黄文灏看来，目前模型层的困难主要是在算力资源上：“从GPT3.5到GPT4有大量的技术挑战要解决，算力资源限制会减少迭代试错的机会，大家都会选择确定性较高的路径，就错过了一些创新的机会。

”红海中，永恒不变的只有顶级人才的号召力。远识资本董事Yuca对36氪表示，基金不会把鸡蛋放在同个篮子里，OpenAI、微软、谷歌这些顶级公司的华人专家，还存在撬动国内资源的可能。

LLM赛道日渐拥挤，但3D、视听等多模态模型仍是一片蓝海。月之暗面联合创始人周昕宇向36氪列举了不少模型有待突破的底层技术，其中不少与多模态有关，比如如何对多模态数据进行统一表示；如何用计算来突破数据的瓶颈；如何研发出更高效的多模态无损压缩神经网络架构。他认为，这些技术突破都可能成为2024年模型层公司的机会，但也可能需要更长时间才能取得突破。

多模态能力的突破，也将给大模型的整体能力带来超预期的提升。“由于大模型的泛化性，能力迭代往往是通用的、全面的提高，不会是单点的突破。”黄文灏告诉36氪，“无论是图片还是音频，多模态数据会和文字形成1+1>2的效果。

”不过，3D和视听生成技术在2023年的迭代速度之快，已让人瞥见2024年的商业化浪潮。以技术复杂的视频生成为例，2023年初，视频生成模型尚且只能将多个静止的图像拼接成几秒长的剪辑。但不到6个月，以Runway Gen2为代表的模型就能生成几秒长的电影级影片。

时间再来到同年11月，由4名华人创立的动画视频生成公司Pika，就释出了可以生成分钟级高质动画视频的产品。Pika的估值，也飙升至近2亿美元。而仅仅再过了3个月，2024年2月16日，“灭霸”OpenAI又杀死了视频生成的游戏，发布可以生成60秒连贯高清视频的文生视频模型Sora。这也意味着，视频生成模型距离商用，已经近在咫尺。

LLM解决的是最基本的交流问题，而3D、视听等多模态则能让AI模型拥有超人类的感官，应用创新和模式创新的机会远多于LLM。多模态技术能落地的场景，大致可以分成两类：一类是提供生产力工具，另一类则是提供新场景。在工作和生产场景下，模型服务的商业模式已经较为成熟，但这也意味着入局者众多，竞争压力更大。企业的核心竞争力在于能否建立全流程服务，满足用户的细分需求，同时形成数据飞轮。

随着多模态技术的提升，不少人在智舱、物联网、XR等场景中看到了新机会。对于新场景的创业者而言，跑通商业模式的先决条件，则是寻找到具有独特价值的细分场景。

模型“瘦身”，先场景后模型但通用基座的红海，并不意味着模型层已经失去入局的空间。

一个明显的趋势是，随着应用落地的加速，不少中小模型厂商开始“瞄准钉子挥锤子”，先找到能落地的细分场景，再针对性地训练模型。这一现象，与市场的反馈不无关系。应用落地的迫切性，让下游厂商比起更强大的通用性能，更关切模型调用的成本，以及在端侧部署的可能性。由于模型推理需要消耗的算力巨大，来自底层的成本压力会层层传导至下游。

以OpenAI为例，根据美国金融公司 Bernstein 的分析，如果ChatGPT的访问量达到谷歌浏览器的十分之一，OpenAI 初始需要的GPU价值高达481亿美元——这部分的成本也势必会分摊到下游的应用厂商。降本最直接的方式，是减少模型的参数量。

2023年下半年以来，不少拥有千亿级参数基座的模型厂商，都发布了十亿级参数的模型。比如百川智能发布了7B的语言模型，智谱AI和零一万物发布了6B的模型版本，用纯CPU就能将模型跑起来。但光“瘦身”，不足以成为模型厂商的竞争力。

其缘由在于，各家大模型的能力尚未产生明显差距。远识资本董事Yuca举了一个例子：在国外，所有应用厂商优先考虑的模型一定是GPT-4；但在国内，应用厂商挑不出一个出类拔萃的，一般会考虑把十几个主流模型都先试试。“现在谈大模型的竞争力还为时尚早。

”网易有道CEO周枫对36氪表示，“核心是要从应用中找到千亿级的市场机会，找到‘大模型原生’的产品形态是关键。”他以有道的长项翻译场景为例，虽然有道自研的百亿参数模型“子曰”整体对话能力不如千亿参数的ChatGPT，但通过基于向量数据库的训练，“子曰”能够5秒翻译67页长论文。

即便认为“现在谈大模型的竞争力还为时尚早”的判断还有待商榷，智谱AI CEO张鹏在模型落地层面，表达了类似的观点：“落地阶段最重要的是找对场景，培养用户，形成数据飞轮。”培养用户，越早越好。月之暗面联合创始人周昕宇告诉36氪，从新技术的扩散曲线来看，最早期的用户和开发者会带动更多的用户：“2023年可以吸取的经验教训是，应该更早点儿给用户去用，很多用户自己会探索大模型产品的边界，发现产品经理想不到的场景和应用。

2024年，AI落地的重点是如何与用户一起成长。”一个通过找对场景，顺利在模型层占有一席之地的典型案例，是估值达5.2亿美元的AI公司Perplexity。Perplexity通过将大模型和搜索引擎结合，开发出了类似于New Bing的对话式搜索引擎。不过，Perplexity的模型，最初是基于一些规模更小、推理更快的模型进行微调而来。直到最近，他们才开始训练自己的模型。对于前期“套壳”的决定，Perplexity CEO Aravind Srinivas在播客节目中锐评：“成为一个拥有十万用户的套壳产品，显然比拥有自有模型却没有用户更有价值。”

不过在未来，自训模型仍然会成为AI应用企业不可缺失的一环。“AI公司的核心竞争力会是模型、应用、infra‘三位一体’的能力。最大的应用公司必须掌握模型训练能力，模型的推理成本降低对应用是最大的提升。三者缺一不可。”零一万物技术副总裁、Pretrain（预训练）负责人黄文灏对36氪表示。

可穿戴，家居……AI托举细分硬件2024年，将是AI硬件元年——这一判断，已经出现在国内外不少厂商的年初展望中：高通总裁兼CEO Cristiano Amon在接受媒体采访时表示，2024年将成为全球AI手机元年；联想集团CEO杨元庆将2024年视为“AI PC出货元年”；OPPO高级副总裁刘作虎在发布会上直言：“2024 年，不布局大模型的手机企业未来没戏。”不少硬件厂商，将AI大模型视作消费电子低迷三年后的一根“救命稻草”。

但厂商们将AI从云端转移至终端设备，有着更为现实的考量——在大模型和终端的适配标准尚未建立之时，押注下一个入口型智能硬件，争先建立继IOS、安卓、Windows之后AI OS（操作系统）。

比如1月10日，荣耀发布了新一代AI系统MagicOS 8.0，用“端云协同”作为AI生态的卖点。在CES（国际电子消费展）上，联想透露预计在2024年内发布“智能终端AI OS（操作系统）”。

“Windows老家”微软，也宣布将AI助手Copilot键引入Windows 11 PC，并将其描述为“AI PC的第一步”。但无论是PC、手机，还是汽车，这些具有复杂软硬件生态的智能终端，与大模型的结合仍然差一口气。

其一，被赋予“高效率、低能耗”厚望的硬件“大脑”——NPU（神经网络处理器）芯片，仍处于研发初期。大模型接入智能终端后，能耗和运行效率问题依然难以解决。

其二，囿于大模型能力和硬件不统一的适配协议，AI在智能终端上能落地的场景仍然有限。面壁智能CTO曾国洋告诉36氪，终端标准协议的建立，是全球软硬件厂商之间的博弈，很难预判胜者是谁。

相对地，瞄准垂直场景的设备，在结合AI模型后反而迅速开辟了市场。

在作为“科技市场风向标”的北美，AI硬件迅速崛起的消费趋势已经证明了这一点。比如在CES 2024首秀的橙色盒子Rabbit R1，可以代理人类完成对手机的操作。发售首日，第一批的1万台机子就迅速售罄。在北美电子产品购物平台ebay上，甚至有人加价几百美元，靠拍卖Rabbit R1谋利。

事实证明，只要抓住用户的痛点，再垂直的场景都能带来巨大的财富。比如AI+戒指——售价349美元（约2507.31元）的AI戒指Gen3，主打健康检测，其母公司OuraRing估值高达25.5亿美元；AI+跑鞋——由AI驱动的跑鞋Moonwalker，能够在不改变正常步行方式的情况下将步行速度提高250%，即便预售价高达999美元（约7177.09元），在Kickstarter上也有570人参与众筹，募款额达到目标金额（9万美元）的近6倍；AI+徽章——得到微软和OpenAI投资的Humane，推出了一款内嵌GPT的AI别针AI Pin，主打通过手势交互调用通讯、搜索、播放音乐等不同功能，预定量已经超过450万台。

以北美为鉴，不少业内人士认为，健康监测、家庭陪伴等被北美市场验证的场景，在2024年会马上在国内被复制。而在具有中国特色的场景中，最被看好的则是学习和翻译。

回答的准确率，以及情绪价值的提供，一直是大众对AI教学、翻译能力的主要质疑点。但真金实银是最真实的市场反馈：接入“星火大模型”后，讯飞学习机、智能办公本、翻译机等产品在双十一全周期内销售额同比增长126%；网易有道首款搭载大模型功能的有道词典笔X6 pro，产品首发日销量超4万台，开学季销售额超1亿元。

在远识资本董事Yuca看来，在学习场景下，中国用户天然处于已经被教育好的状态：学习硬件的用户画像主要为中小学生群体，这一群体的特征是乐于接受AI科技等新鲜事物，且对授课方式敏感度不高。在知识类数据库（比如教材、真题）较为透明的情况下，AI的准确率也得以保证，甚至稳定性高于人类教师。而AI翻译产品可辐射的用户，比学生更广。

Yuca认为，随着旅游市场复苏、签证门槛放低，跨国交流成为刚需。随着AI能力的发展，耳机等不同形态的翻译设备也将率先走进口音/特定声音识别能力、同传速度这两个战场。

“个性化分析和指导、引导式学习、全学科知识整合。”谈及AI能给学习硬件带来的新机会，网易有道CEO周枫认为有三点。在教育场景中，这些功能的提升原被认为只有人才能做到，而随着多模态能力的提升、Agent的发展，大模型在细分场景中更具有“拟人”的能力。

留住用户，拼全流程服务2023年，不少AI应用快速起高楼，又迅速如昙花一现：提供文案、图片生成等AI营销工具的Jasper，在2022年底估值一度高达15亿美元，拥有100万总用户和7万付费用户。但仅过了半年，Jasper用户量锐减，面向员工的股票估值打了8折，并开启裁员；在国内红极一时的AI写真生成应用“妙鸭相机”，高峰期排队人数高达4000-5000人，等待时间要十几个小时。

但根据七麦数据，上线不到4个月，伴随着创始人的离职，妙鸭相机在IOS“社交”应用榜单上的排名，从榜首一路下滑到60开外。不少AI应用都难以逃脱“倒U型”用户量曲线的魔障。其核心原因有二：底层技术没有壁垒，同质化产品易复制；服务链条短，用户难以对工具生态产生依赖。

“像妙鸭一样的AI软件应用，可以通过巧妙的营销或者获客方式快速起量。但想要维持用户增长，超越美图、Photoshop这样的产品，核心在于妙鸭们能否将服务，快速迭代到全流程的水平。”远识资本董事Yuca向36氪举了个例子：妙鸭相机通过更精细的AI写生生成技术，快速聚集了一波用户。但妙鸭的服务链条仅限于照片生成，具有修图、编辑等需求的用户，又会回到美图和Photoshop的服务生态。AI应用的用户留存思路，本质上与任何产品的发展并无二致：

找到一个解决刚需的场景，完善全流程的服务链条，不断迭代更新IP，拓展使用场景。找场景和IP迭代，可以被视作产品不同发展阶段的流量入口。比如在《芭比》电影上映期间，AI写真小程序“45 AI”，靠首发芭比模板在两天内聚集了2万多用户，美图秀秀等老牌美图软件也紧随其后上线芭比模板。而春节将至，ChatMind、MiniMax等团队也快速在AI社交产品上，针对年轻人更新了亲戚拜年的闯关场景。

对不少产品来说，找到合适的流量入口不难，但用全流程服务和更广的场景承接流量并不简单。例如，线上服务，需要从满足单点功能，延伸到涵盖使用前、中、后的全流程，比如针对想要体验写真生成的用户，企业还要满足他们后续修图、美颜的需求。当线上服务场景已经涵盖全流程，就要考虑往线下场景延伸，比如将AI功能嵌入多形态的硬件设备中。

在用户留存层面，2023年能带给2024年的经验教训是：靠一个强大的AI功能并不能一劳永逸。毕竟，人类专业摄影师也难求一稿包过，根据用户的需求后期精修才是常态。

18 2 月 2024

知名厂商宣布：All in AI

2月18日，春节假期结束返工第一天，手机行业传来重磅消息！

许久未公开发声的OPPO掌门人陈明永致员工的一封信流出。他在内部信中表示，2024年是AI手机元年，OPPO致力成为AI手机的引领者和普及者，一大重要举措便是成立AI中心，加速资源向AI集中。

此外，魅族今日也宣布进行战略调整，决定“All in AI”，将停止传统智能手机新项目的开发。

OPPO创始人陈明永：

专门成立AI中心资源向AI集中

2月18日，OPPO创始人、首席执行官陈明永发表致全体员工的内部信。他表示，2024年是AI手机元年。未来五年，AI对手机行业的影响，完全可以比肩当年智能手机替代功能机。

这封内部信的主题为《开启AI手机新时代》。陈明永表示，从行业发展阶段来看，AI手机也将成为继功能机、智能手机之后，手机行业的第三阶段。

“这是我们对于手机行业的一个重大判断。”陈明永认为，通过AI，可以把手机的体验重新做一遍，帮助用户实现更高价值。显然，这轮由大模型支撑的AI技术，正在重构手机行业的未来。“我相信，站在两年后看2024年，会更加深入地理解这一判断的意义。”

陈明永认为，AI手机的全新时代正在加速到来。每一个人的工作、学习还有生活都将受到AI的深刻影响。OPPO在AI手机时代的战略方向是：既做AI手机的引领者，也做AI手机的普及者。

他在文中透露，OPPO为此已做好充分准备，并专门成立了AI中心，资源将向AI集中。

前不久的除夕夜，OPPO首席产品官、一加创始人刘作虎在央视举办史上最短的一次发布会。

他宣布，OPPO进入AI手机时代，为超千万用户提供领先不止一代的AI功能，正式开启AI手机的元年。

据了解，此次全新推送的AI软件版本，包括小布AI消除、小布AI通话摘要、AI超清合影等上百项相当科幻的AI功能。记者注意到，#OPPO AI手机#的话题下，不少网友对AI消除功能爱不释手。

魅族：All in AI

同一天，魅族也官宣重磅消息。据“魅族科技”官微消息，魅族今日决定，将All in AI，停止传统“智能手机”新项目，全力投入明日设备AI For New Generations。2024年魅族面向AI时代全新打造的手机端操作系统将进行系统更新。此外，魅族首款AI Device硬件产品也将在今年内正式发布。

魅族称，经过两年的团队磨合、资源配置、产品布局以及相关技术的充分预研，魅族目前已具备向AI领域全面转型的能力。作为一家全面发展的科技生态公司，魅族拥有完善的研发和供应链等硬件团队，同时还拥有体系化开发、设计、交互的软件团队，这将为魅族All in AI提供坚实的技术支持和服务保障。

在本次AI发布会上，魅族同时公布了AI战略规划的详细内容，包括打造AI Device产品、重构Flyme系统和建设AI生态。魅族将通过三年的生态布局和技术沉淀，逐步完成All in AI愿景。按照规划，2024年魅族面向AI时代全新打造的手机端操作系统将进行系统更新，构建起AI时代操作系统的基建能力；此外，魅族首款AI Device硬件产品也将在今年内正式发布，并与全球顶尖的AI Device厂商展开正面竞争。

考虑到新老用户的过渡需求，在魅族All In AI过渡期内，原魅族Flyme、Flyme Auto、Flyme AR、MYVU、PANDAER以及无界智行业务的用户体验及服务将不会受到影响。另外，现有在售的魅族手机产品将继续为用户提供正常的软硬件维护服务。已购买的魅族20系列、魅族21旗舰手机的用户，仍将享受原有的售后及相关服务保障。

手机业务遇挑战将推定制车业务

魅族在声明中提到，当前，随着全球手机市场换机周期延长、消费创新空间有限、行业恶性竞争加剧，手机行业正面临着前所未有的挑战。同时，手机产品单纯依赖硬件升级和参数竞争，已无法满足广大消费者多样化、全面化的使用需求和使用体验，行业亟需寻找新的可持续发展方向。

魅族前副总裁李楠在微博上评价称：“年前做了很多的工作，很欣慰魅族的决心是坚定的。不换赛道没有前途，那些做着手机扯AI的品牌，才明显是噱头。魅族手机，到了应该终结的时候了。就是缺一个比较盛大的句号。”

按照魅族的规划，将会在未来三年推出6款硬件产品，2024年1款：首款AI Device。2025年2款：全天候AI Device（XR形态）、AI Device迭代。2026年3款：全天候AI Device、AI Device迭代、AI Device PRO。

据《科创板日报》报道，IDC中国高级分析师郭天翔表示，国内手机大厂都在纷纷布局大模型。相比其他厂商，由于魅族主打一条产品线，所以可以称为all in AI。而其它厂商的中低端产品还没法支持AI。

此外，荣耀、OPPO、vivo等厂商都推出了搭载端测70亿训练参数大模型的手机。从体验上来看，最明显的改变是交互和应用上的创新，例如AI通话纪要功能、文生图功能等。

据星纪魅族集团董事长兼CEO沈子瑜介绍，魅族2024年还将推出定制车业务，不仅搭载自研的Flyme Auto智能座舱操作系统，还将从软件、设计、内饰等各个方面融合魅族过往的经验。定制车将只在星纪魅族集团渠道进行销售。

星纪魅族在汽车领域的客户还主要集中在吉利集团体系内，合作车型包括吉利银河E8、领克08、领克06 EM-P和领克09。

2023年6月，星纪魅族宣布与吉利系汽车品牌极星汽车达成合作。合资公司将为极星汽车打造面向中国市场的智能操作系统，并负责极星在中国的销售和服务。星纪魅族还将主导新车型的产品定义。

在人事安排上，吉利系老人陈思英也再度回归，将出任星纪魅族集团高级副总裁、汽车事业部总裁，负责汽车产品线经营管理。星纪魅族官宣的定制车项目计划，即将由陈思英负责。

2023年11月，星纪魅族完成A轮融资，2023年星纪魅族已累计融资20亿元，投后估值超100亿元人民币。

17 2 月 2024

许四清：Sora进一步拉大了中美AI差距

作者丨许四清

2月16日凌晨，OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑，扩散模型结合OpenAI大获成功的transformer，在视觉领域实现了与大语言模型类似的突破。毫无疑问，视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论：1.Sora是什么，怎么工作的，2.Sora引发的产业机会，3.是不是大树之下寸草不生，这个领域的创业公司都要“挂”了。

01 Sora是什么，怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准：

a.它将视频时长从当前的5-15秒，直接提升到了1分钟，这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看，如果需要，超过1分钟毫无任何悬念。

b.它可以生成多个镜头，并且各个镜头具有角色和视觉风格的一致性。

c.不仅可以用文字prompt生成视频，还支持视频到视频的编辑，当然也可以生成高质量的图片，Sora甚至还可以拼接完全不同的视频，使之合二为一、前后连贯。

d.它是扩散模型，更是扩散模+Transformer的视觉大模型，并且产生了涌现现象，对现实世界有了更深刻的理解和互动能力，具有了世界模型的雏形。

它能生成更真实，一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频，充分展示了Sora模型的强大能力。

人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，真实性与以往的AI生成视频是史诗级的提升，AI视频与现实的差距，更难辨认。

无人机视角的东京街头景色，让Sora在复杂场景展现，人物动作自然度等方面的优势展露无遗。

在山道上穿梭的复古SUV，可以看到真实性很高。

Sora可以在两个输入视频之间逐渐进行转场，在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer是如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感，对应大语言模型的文本数据表示tokens，它们将视觉数据分割成数据块，首先将视频压缩到较低维的隐式特征，然后分解为时空数据块，这些数据块的作用就相当于token在大语言模型中的作用，用于训练Sora。

讲中文，就是Sora是把图片/视频都token化了。

Sora是一个基于扩散模型（Diffusion Model）的视频模型，但是它是一个扩散 Transformer模型，Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过GPT的能力，使模型更加准确地遵循用户的文本指令生成视频。

所以，Sora是扩散模型+transformer的视觉大模型。

除了能根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现，进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是，尽管Sora在技术和性能表现上有了巨大的提升，它仍有不少的局限性，在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

还有在吹蜡烛之前和吹蜡烛之后，火苗没有丝毫变化。

它也搞反了人在跑步机上跑步的方向。

OpenAI只是提供了生成的视频展示，随着Sora的发布，同时还引发了人们对滥用视频生成技术的担忧。为此，公司并未向外正式开放Sora的使用，而是精心挑选了一批”受信任”的专业人士做测试。

首先，这是一个里程碑式的技术进步。

其次，在视频应用的场景中，能展示不等于能实用。如果说实现商业化需要做到100分（60分技术+40分场景），以往人工能做到90分，Sora的出现只解决了那60分，甚至到75分，还是有一段商业化的路径，需要靠人工或技术+商业创新完成。

第一，可控性。无论是商业场景还是创作场景，视频要按照人的意志或客观规律完成动作，这无疑是个巨大的挑战。

举个例子，有人提出物理模型，实际上目前的Sora能精美生成和炫技，但如果要能展示特定场景，比如一个皮球掉到地上反复弹起来，是要一个物理模型支撑的，目前diffusion+transformer还无法解决。

第二，prompt（提示词）的挑战本身仍然是个技术活儿，视觉领域，一般非专业人员很难用好视觉的生成，这既需要训练，更有待技术突破，让外行变内行。

所以，创作要面向实用场景，空间依旧很大。60分或75分之上，都是场景创新的机会。

场景创新的机会，属于懂场景、懂模型的创造者。

对于好莱坞，大家看过《繁花》就知道了。面对王家卫那样的大导演，科技创新的工具，目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

我们看到的可能不是AI让电影人失业，而是AI让电影人们创造更好的作品。

03 国内外一批创新公司要挂了吗？

首先，赢家未必通吃。美国的商业生态有个显著特点，就是一流公司做平台，二流公司做全线产品，三流公司搞客户。

OpenAI的Sora，是一个伟大的工程进步，有一点像工业界走在了国家拨款支持科研的前面（整个LLM的出现就是这样，搞得学者们很被动），只是这个突破在工业界而不是学界最先实现，距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位，突破技术，建立平台，也会做垂类应用，但更重视吸引广大开发者参与，而不是有点突破就摊大饼，把应用都做完。

所以，60分之上，仍有很大空间。这点，看看Salesforce上千家应用就清楚了。

其次，根据OpenAI的论文看，支持60秒视频的路径讲的很清楚，帮助很多创业公司节约了数以千万计的探索成本（向OpenAI致敬！），但同时也给创业者提供了很大的想象空间。

如果只要15秒，如果提高视频主体的高度可控性，如果需要控制主体在视频中的路径，会不会有其它的选择？Diffusion transformer是不是有更好的用法？还是那句话，模型能力决定了一个创业团队的高度，60分之上，模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里，跟跑的大公司喜欢选择通过兼并收购拉近差距，小团队跑得快，起跑快并进大公司价值高。

国内的兼并收购不那么活跃，大厂喜欢下场什么都做。但是OpenAI跑得这么快，这么大的赛道上机会层出不穷，大厂难免没别的想法，万一别的大厂抢了先呢。

还是那句话，这是一个让狮子和土狼一起奔向光明的大赛场。

当然，视频大模型的背后是训练和推理算力的超线性增长，楚河汉界的两边，需求量分别再次加大，算力、基础设施、工具层需求加大，分别给中美创业者提供了更多新机会。

17 2 月 2024

用AI聊5239个人并找到未婚妻！这位大佬厉害了

过年几天，每个回到家的游子总是难以避免遭到父母亲戚的相亲攻势，而俄罗斯一位AI研发人员亚历山大则用高科技找到了自己的终身伴侣。近日，他公开宣布他将在今年八月与其心仪的卡琳娜·伊凡诺夫娜女士结成夫妇。

亚历山大在寻找爱情伴侣的道路上，有着令人赞叹的特殊经历——他通过ChatGPT等先进的AI工具，历经Tinder平台上与5239位女性的深入交流，最终找到了如今这个令AI认可且心灵相通的完美情人。

用AI寻找伴侣

亚历山大在Tinder上寻找合适伴侣时，曾运用网络爬虫获取图像。初始状态下，他偏爱Tinder上拥有至少两张自拍的女性。随着筛选的深入，亚历山大连同其团队研发出一套图像相似度模型，用以识别出类似自己喜爱类型的女孩照片。

至于交流环节，GPT-3得到的指示信息如下：“作为男子初次与这位女士交谈，不可立刻或强行索求某事，真正目的在于邀请她共赴一场美好约会。”

据亚历山大告知，他在2021年与之前的恋人分手，随后经过几个月的调整期，开始步入新的约会阶段。然而，在Tinder上仅耗费短短几周的时间，他所建立的恋爱关系便出现了瓶颈。直到2022年3月，当他成功获取到GPT-3的API后，他开始着手将自己的系统进行升级改造；靠着ChatGPT首次对外开启的服务（即GPT-3.5版本），亚历山大的系统提升至“第二代”技术层次。

此套强大的AI系统，巧妙地融合了ChatGPT与图像识别软件技术，能够筛除那些在个人资料中展示过于暴露图片、星座或属相信息的潜在恋爱对象。在此基础之上，该系统在与Tinder平台中的潜在对象展开交流时，能够以亚历山大本人的谈吐方式进行模拟。

尽管如此，亚历山大强调，自己实际上只会把时间分配给四位潜在的恋爱对象,而最终只会与其中一位持续发展下去——这便是目前正与其生活在一起的卡琳娜女士。

得知卡琳娜后，亚历山大对系统进行了有针对性的改进，将其升级为第三代版本——该版本专门针对卡琳娜女士“量身打造”。然而，这项措施并非一成不变，只是作为长期未收到对方回复短信时而采取的临时替代策略。回溯至2023年11月，ChatGPT根据与卡琳娜的交谈内容，强烈建议亚历山大向她求婚，甚至还亲自协助他制定出在中国香港及澳门地区旅行期间的浪漫求婚方案。

炒作还是事实？

在他未婚之前，亚历山大凭借ChatGPT的协助，成功实现教育意义上的飞跃。他利用ChatGPT撰写论文，帮助他以23小时的时间整理摘要，并将其答案转化为俄文。最后，终于顺利获得学位证书。他坦诚地表示：”总的来说，使用ChatGPT撰写论文的体验相当不错，虽需使用者自行进行编辑，可是大多数内容均由系统自动生成。

在广受赞誉之际，亦引来了质疑之声。部分网民质疑该故事为”AI生成”，甚至有社区对此进行研究，指控亚历山大存在炒作嫌疑，因其曾运用ChatGPT编写毕业论文并成功取得学位，被视为深谙”炒作之道”。

亚历山大在社交平台分享寻求未婚妻历程的故事，引起热烈反响之余亦遭到了诸多非议。一些相信他故事真相的网友对其行为表示担忧和质疑，认为其做法欠妥，而持怀疑态度的网友则指责他编造虚假情节以吸引关注。随着故事热度不断攀升，更多参与讨论的人员开始发表观点，他们纷纷通过转载和评论表达对该事件真实性的质疑。

面对种种批评和质问，亚历山大表现得从容淡定，不为所动。他坚称，”每个人都有权根据自己的理解去诠释我的故事。然而，这终究是我的故事，如何解读应取决于听众自身。我不过是世界个例地提出一个新的恋爱思路罢了。”

此事件也引发了人们对人工智能在情感交际及交互中的影响和地位的深度思考。毫无疑问，AI的出现大大改善了我们生活品质，然而这是否代表真正的进步？

索菲亚认为，由于亚历山大的故事引发争议，解读人性化的人工智能如何塑造情感纽带和人际交往方式正成为热门话题。在技术飞速发展的时代背景下，我们如何在保持人类情感的真实性和享受到AI带来的便捷之间寻觅平衡，无疑是我们必须加倍思考的问题。

16 2 月 2024

美国再发禁令打压中国AI，国产算力底座勇敢“亮剑”

美国商务部长提议禁止中国客户使用美国数据中心来训练人工智能模型，这一消息引起了广泛关注。事实上，美国为了打压中国AI技术的发展，早已采取了多项限制措施。中国科大讯飞与华为联合打造的中国首个纯国产算力底座“飞星一号”却在训练AI大模型上取得了令人振奋的成果，多项指标超越或追上了GPT-4Turbo。

中国科大讯飞与华为的合作成果展示了国产算力底座在解决算力“卡脖子”难题方面的重要性。随着人工智能技术的快速发展，对算力的需求也越来越大。而目前市面上大部分的算力设备都是依赖进口的，这使得中国的AI发展面临着一定的困境。科大讯飞与华为联合研发的“飞星一号”却完全由国产技术构建而成，为中国AI技术的发展提供了强有力的支撑。

不仅如此，“飞星一号”训练的AI大模型在多个领域取得了令人瞩目的成果。在办公领域，通过机器学习和自然语言处理技术，可以实现智能办公助手的开发，提高工作效率。在教育领域，可以基于大数据分析学生的学习情况，制定个性化的学习计划，提高教学效果。在工业领域，可以通过AI技术实现智能制造，提高生产效率和产品质量。在汽车领域，可以实现自动驾驶技术的发展，提高交通安全。在民生领域，可以通过人脸识别等技术提升社会治理水平，提供更好的公共服务。

科大讯飞发布的基于“飞星一号”算力底座的开源大模型——星火开源-13B更是展示了中国国产算力的决心和能力。这一大模型的发布，为中国AI技术的发展注入了新的活力，也为全球AI领域的创新提供了更多的可能性。

尽管美国采取了多项限制措施打压中国AI技术的发展，但科大讯飞与华为的合作成果证明，中国国产算力底座在训练AI大模型方面具有举足轻重的地位。未来，随着中国国产算力技术的进一步发展，中国在人工智能领域的地位将不断提升，为世界带来更多创新和进步。

中国科大讯飞与华为合作开发的“飞星一号”算力底座的成功，是中国AI技术发展的重要里程碑。作为一个里程碑，它也是中国在人工智能领域取得的巨大成功之一。

通过在国内自主研发和生产算力底座，中国可以摆脱对进口算力设备的依赖，并且在国内市场上提供更具有竞争力的产品。这不仅能够满足国内AI应用的需求，同时也有望打开国际市场。

“飞星一号”算力底座不仅仅在训练AI大模型方面取得了成功，同时也在其他领域展示出了巨大的潜力。它的成功将为中国在智能办公、教育、工业、汽车和民生等领域的应用带来巨大的推动力。

不可否认，中国在AI技术发展方面还面临一些挑战，如算法研究、数据隐私保护等问题。中国科大讯飞与华为的合作成果证明，中国在解决算力问题上已经取得了重要突破。这将为中国AI技术的进一步发展提供坚实的基础。

未来，随着中国在自主研发和生产算力设备方面的持续投入和努力，中国在人工智能领域的地位将不断提升。中国还应继续加强与国际合作伙伴的交流与合作，共同推动人工智能技术的发展，并为全球带来更多的创新和变革。

16 2 月 2024

与微软竞争苹果开发AI工具帮助开发人员编写App代码

据彭博社报道，苹果正在开发Xcode的更新版本，其中包括用于生成代码的AI工具。AI工具将类似于Microsoft的GitHub Copilot，它可以根据自然语言请求生成代码，并将代码从一种编程语言转换为另一种编程语言。

报道称，Xcode AI工具将能够预测和完成代码块，使开发人员能够简化他们的应用程序创建过程。苹果现在正在内部测试该功能，并计划最早在今年将其发布给第三方软件开发人员。此外，苹果还在测试用于测试应用程序的人工智能生成代码，并要求一些工程师在内部试用这些功能。

据了解，添加到Xcode中的人工智能功能，将加入苹果计划添加到Siri和其他内置应用程序中的其他几项AI功能。一些新功能可能包括在Apple Music中生成播放列表，还能在Keynote中创建幻灯片的选项，苹果还致力于改进Spotlight搜索功能。搜索可以包含应用程序中的特定功能，也可以提供对复杂问题的回答，该功能使用大型语言模型构建。

据彭博社报道，苹果软件主管克雷格·费德里吉（Craig Federighi）已要求员工为iOS 18、iPadOS 18和macOS 15创建尽可能多的新AI功能。苹果计划推出一系列新的人工智能功能，iOS 18将作为iPhone自推出以来最大的更新之一进行推送。一些AI功能将出现在macOS上，但苹果计划采取渐进式AI开发方法，其中一些功能近几年内都不会出现。

16 2 月 2024

Open AI发布首款文生视频模型Sora

从目前官网公布案例看，【稳定性、一致性、连贯性】均突破！对此前Runway Gen 2、Pika等AI视频工具碾压。

1）视频时长最长达到#1分钟，案例中连贯视频普遍也在10s以上，此前连贯视频在4s左右。

2）实现多镜头切换，且保持角色和视觉风格#一致性，此前视频都是单镜头。

3）创造的角色表达情感更加丰富，可以同时绘制多个角色，背景和动作更加#精确。

#技术特征。根据官网，Sora通过让模型能够预见多帧内容，团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

尽管技术细节尚未公布，但可以明确sora将视频切分为小的patches，相当于GPT中的一个token，充分使用扩散transformer，覆盖了不同的持续时间、分辨率和纵横比。

#连贯视频生成一旦超过15s （单个电影镜头、游戏分镜长度，也是网页贴片广告长度），商业价值剧增。若后续实测效果达到Open AI官网水平，对电影、游戏、营销等行业都有巨大影响。

目前Sora暂时公开试用，今日可能披露技术文档。https://openai.com/research/video-generation-models-as-world-simulators

15 2 月 2024

Stability.ai开源全新文生图模型，性能超越Stable Diffusion！

2月13日，知名的大模型开源平台Stability AI在其官方网站上公布了一款全新的文本生成图像模型——Stable Cascade（简称“SC”）。

据报道，SC基于最新的Würstchen基础模型开发，显著降低了推理和训练过程中的算力需求。举例来说，尽管训练Würstchen模型仅需约25,000小时，其性能却优于Stable Diffusion 2.1，后者的训练时间高达约200,000小时。

因此，SC模型的部署极为方便，特别适合中小企业和个人开发者在如4090、4080、3090等消费级GPU上进行调整。目前，SC模型仅限于学术研究使用不可商业化，未来会逐步开放。开源地址：https://github.com/Stability-AI/StableCascade

自Stability AI推出Stable Diffusion系列的文生图模型以来，全球已有数十万开发者采用了其产品，其在Github上的项目获得了超过60,000个星标，使其成为开源扩散模型领域的佼佼者。

然而，Stable Diffusion的一个缺点是对AI算力资源的高需求，这对普通开发者进行模型微调来说是一大挑战。为了解决这一问题，在保证提升性能的同时，Stability AI推出了新一代的文生图模型SC。

Stable Cascade模型介绍SC模型是在Würstchen基础上开发的。AIGC未来岛将根据其发布的论文，为大家深入解读其技术原理和功能特性。

与之前的Stable Diffusion系列相比，SC模型采用了一种新颖的核心技术思路，即通过将文生图的过程细分为A、B、C三个阶段来完成。

这种方法的优势在于，它允许在不牺牲图像质量的前提下进行极限的图像分层压缩。通过利用高度压缩的潜在空间来优化图像输出，从而减轻了对传输、算力和存储的需求。

A阶段：利用VQGAN模型作为潜在图像解码器，解码出潜在的图像，并生成高分辨率的输出。

VQGAN包含一个编码器和一个解码器，编码器将原始图像转换为低分辨率但信息丰富的离散向量而解码器则能够根据这些向量重构出与原图非常相似的图像，实现了16倍的数据压缩。

B阶段：在A阶段得到的潜在表示基础上，结合语义压缩器的输出和文本嵌入进行条件生成。

在扩散过程中，重构了A阶段训练得到的潜在空间，并受到语义压缩器提供的详细语义信息的强烈引导，这种条件引导确保了生成的图像能精确反映文本提示，提升了模型对文本的语义理解能力。

C阶段：在B阶段生成的潜在图像和输入文本的基础上，生成更低维度的潜在表示。

通过在低维空间中训练和推理，进一步提升了扩散模型的训练和生成效率，显著降低了计算资源需求和时间成本。

因此，SC模型通过这三个相互关联的模块，训练了一个在低维潜在空间上的高效扩散模型。结合高度压缩的潜在表示和文本条件，以及向量量化的生成对抗网络（VQGAN），实现了高效且低消耗的文本到图像的合成过程。

Stable Cascade特色功能

除了文本生成图像的核心功能，Stable Cascade还支持图像变化和图像到图像的转换功能：

图像变化：在保持原始图像的颜色和基本结构不变的情况下，基于原图衍生出更多变化形态的图像。

其背后的技术原理是利用CLIP模型从给定图像中提取特征嵌入，然后将其反馈到模型中进行创新性的图像生成。

图像到图像生成：允许用户上传一张图像，并在此基础上生成具有相似形态但不同颜色或类型的图像。技术原理是向给定图像添加噪声，使其成为生成过程的起点。

Stable Cascade实验数据为了验证SC模型的性能，研究人员对其与SDXL、SDXL Turbo、Playground v2及Würstchen v2等主流扩散模型进行了全面的比较。

结果表明，Stable Cascade在即时对齐和图像质量方面均表现出色，且在推理步骤上较SDXL和Playground v2更为高效。

此外，在训练Würstchen基础模型时，尽管参数总量比SDXL多出14亿，但训练成本仅为其八分之一，突显了SC模型在性能和效率上的双重优势。

15 2 月 2024

生成式AI大爆发后，2024年人工智能行业有哪些新趋势

受聊天机器人ChatGPT于2022年11月推出加持，2023年成为了AI（人工智能）发展史的一个转折点，活跃的开源环境和多模态模型一同推动了AI研究的进步。

随着生成式AI持续从实验室走入现实，人们对这项技术的态度正在变得越来越成熟。对于2024年的AI发展趋势，行业专家们也给出了一些展望。在此澎湃新闻记者综合相关分析，总结出了AI在2024年中的五大发展趋势：

1. 生成式AI将继续快速发展

2022年下半年，AI文生图软件首先点燃了生成式AI的热度，而这股热潮随着ChatGPT的发布达到了巅峰。

生成式AI”的搜索量在2023年出现激增。来源：Exploding Topics

在生成式AI受到瞩目之前，大多数AI应用都使用了预测式AI。顾名思义，预测式AI会根据现有数据进行趋势的预测或提供见解，而不会生成全新的内容。相比之下，生成式AI会利用机器学习，从训练数据中学到“思考”的模式，以此创造具有原创性的输出。

生成式AI和Deepfake研究专家Henry Adjer指出：“我们仍处于这场生成式革命的初期阶段；未来，合成介质和内容将在日常生活中无处不在，并且实现民主化。这不仅仅是一个简单的新奇事物，而是将在娱乐、教育和供给方面推动突破性的进步。”

2. AI模型将从单一模式转向多模态

传统的AI模型专注于处理来自单一模态的信息。而现在，通过多模态深度学习，我们能够训练模型去发现不同类型模态之间的关系，意味着这些模型可以将文本“翻译”成图像，以及让图像变成视频、让文本变成音频等等。

多模态模型自去年以来受到了热烈的关注，让用户与AI的互动变得更高效。这也就是为何谷歌在去年12月发布的大模型Gemini的宣传片引起了轰动：在片中，Gemini似乎能够实时识别图片，还会生成音频和图片来辅助回答。

谷歌Gemini宣传片截图。

不过，谷歌在事后承认，该宣传片经过一些剪辑。但是，它至少向我们展示了多模态AI在未来可能会发展出的模样。

3. AI将进一步融入各行各业的工作

相信许多人在进行工作时，都已经会习惯性地打开ChatGPT等AI工具，让其作为“秘书”来随时辅助自己的工作。

ChatGPT正在成为最受欢迎的“办公伙伴”。

在今年一月的达沃斯论坛上，AI新锐巨头OpenAI的创始人CEO萨姆·奥特曼强调，AI带来的技术革命不同于以往，但AI不会像人们担心的那样取代掉许多工作，而是成为了一种“提高生产力的不可思议的工具”。

对于这样的未来，有一件事是肯定的：作为“打工人”，我们将需要适应并获取与AI相关的新技能。

4. AI将放大和增强个性化

近几年来，用户都感受到了“个性化推送”的魅力：从社交媒体到视频网站，越来越复杂的算法似乎总能知道用户想看什么，并在合适的时间展示合适的内容。AI正在加速让各类媒介从“大众化”转变为“小众化”，最终目标是真正实现一对一的互动。

AI初创企业Synthesia的首席执行官Victor Riparbelli表示：“我们预测：在不远的将来，大众传播将越来越成为过去式。合成媒介和内容将创造新的、个性化的通讯形式，而（传统的）媒体景观将彻底改变。”

5. AI监管问题将受到重视

最后，不出所料的是，2024年会成为AI监管的关键一年。逐渐变强的AI也为监管部门带来许多全新挑战，就如同漫威《蜘蛛侠》中的经典台词：“能力越大，责任越大。”

德勤（Deloitte）的风险咨询主管兼全球技术部门负责人Gillian Crossan认为，AI令“被遗忘的权利”再次受到重视：“当这些大模型利用大量数据进行学习时，你如何保证它们是可控的，以及自己的信息能够被它们遗忘？”

欧盟在AI监管方面可谓是取得了领先地位。据报道，欧洲议会和欧盟国家的谈判代表于去年12月已经就AI监管达成了协议。未来，AI系统将被划入不同的风险组：一个应用的潜在风险越高，对它的要求就应该越高。欧盟希望，这些规则会在全世界范围内得到复制。

15 2 月 2024

英伟达推出本地AI聊天机器人：Chat With RTX！速度飞快，文件安全有保障！

英伟达Chat With RTX：本地运行的AI聊天机器人

随着人工智能技术的不断发展，聊天机器人已经成为我们生活中的一部分。而英伟达近日推出的Chat With RTX，给这个领域注入了新的活力。与传统的网页或APP聊天机器人不同，Chat With RTX需要安装到个人电脑中，并且采用本地运行模式。这种创新不仅提高了运行效率，还可能意味着对聊天内容没有那么多限制。

借助开源LLM支持本地运行

Chat With RTX并非是英伟达自己搞了个大语言模型，而是基于两款开源LLM，即Mistral和Llama 2。这两款模型提供了强大的语言理解和生成能力，用户可以根据自己的喜好选择使用。

上传本地文件提问，支持视频回答

Chat With RTX的功能也相当丰富。用户可以上传本地文件提问，支持的文件类型包括txt，.pdf，.doc/.docx和.xml。而且，它还具备根据在线视频回答问题的能力。这些功能的实现得益于GPU加速，使得答案生成速度飞快。

功能强大，但也存在一些问题

然而，即使Chat With RTX功能强大，也并非没有短板。在处理大量文件时，它可能会出现崩溃的情况。而且，它似乎无法很好地记住上下文，导致后续问题不能基于前面的对话进行。

优异的本地文档搜索与文件安全性

尽管存在一些问题，但Chat With RTX在搜索本地文档方面表现优异。其速度和精准度让人印象深刻。此外，由于是本地运行，用户的文件安全性也得到了保障。

结语

总的来说，英伟达Chat With RTX的推出为聊天机器人领域带来了新的可能性。虽然存在一些问题，但其本地运行模式和强大的功能仍然值得期待。随着技术的不断进步，相信Chat With RTX在未来会有更加出色的表现。

14 2 月 2024

“评论罗伯特”到处发疯，月活6亿大厂的AI机器人为何也会失控？

评论罗伯特，已经在新浪微博上了两个多月的班了。

这是一个由大模型赋能的生成式AI自动回复机器人，能够生成个性化的对话内容。2023年7月，它曾以“评论哇噻机器人”的原名在微博进行“实习”。2023年12月7日，“评论哇噻机器人”迭代成为“评论罗伯特”，并在微博正式上线。根据评论罗伯特自述，微博投放它的初衷，是希望借助最新的生成式人工智能技术优化普通用户的发博体验，提升普通用户在平台内容生产中的活跃度。

然而当它以“不知疲倦的显眼包”姿态勇闯各大网友的评论区时，一条条“已读乱回”“四处发癫”的失控言论，却引发了不小的众怒，甚至于让广大网友成立了一个“罗伯特受害者联盟”。

AI机器人为何会生成各种阴阳怪气、胡言乱语的评论？当AI开始介入企业日常业务，如何确保AI落地始终利于人类用户？

01大模型黑箱的不可控“暗面”
评论罗伯特，本质是类似ChatGPT的智能问答机器人，开发者通过爬取微博用户发布的公开内容，形成有几千亿甚至几万亿字节存储量的中文数据集，进行大模型训练，包括预训练和微调两个阶段。
对于AI机器人来说，数据集是它在预训练阶段理解和生成人类语言的“学习教材”，如果提供的数据教材本身就质量不高，那么AI也无法摆脱这种低质量语言，并且会在不断地迭代中加深固化。
评论罗伯特的回复反应出了微博平台的数据质量——拥有着极高的数据密度，但也蕴含着大量抽象、不知所谓的低质量内容，而这些“人类的垃圾知识”也被大模型照单全收了。
此外，评论罗伯特之所以“你问天，它答地”地胡说八道，其实与大模型的上下文理解能力有关。
AI评论机器人能够回复网友的发言，是建立在理解上下文信息的基础上。但是，人类只能从生成内容的结果得知大模型是否真正理解了文本，这是由于大模型本身的运算过程是个“黑箱”，人类无法看透它的所思所想（可解释性差），且它还极易被欺骗犯错（鲁棒性差）。至今在大模型中无法彻底解决的“幻觉”问题就是由此产生，即使数据来源准确可靠，但大模型仍可能会“一本正经地胡说八道”。
为了让AI能够适应特定的落地场景和应用任务，在进行预训练后，开发者会使用带有提示词标签的任务数据对AI进行微调。比如评论罗伯特的自我定位是“一个天生的捧哏，一个有趣的灵魂，一个不知疲倦的显眼包”，因此针对它的语言风格的训练也是奔着搞怪、有趣的目标去的。
但矛盾的是，在很多场景下，评论罗伯特自动生成的诙谐梗评论并不那么合时宜。
去年11月，有网友在微博说“我爸收走了我的刀片和纹身针”，当时的“评论哇噻机器人”回应他，“没事，割腕用指甲刀就行了”。由于评论机器人本身的算法无法做出这句话是否得当的判定，平台在当时对这句话里的消极和恶意并无察觉。

作为月活用户超6亿、日活用户2.6亿的国民级社交应用，微博推出评论罗伯特的本意是优化用户体验、增长用户空间，但时至今日，却有不少用户都表示不希望罗伯特来评论自己的微博。
随着AI机器人广泛参与娱乐、时政、社会等话题，失控的评论罗伯特是否会制造更多话题以“引战”及激化矛盾冲突？尤其是当人机共生逐步成为互联网的基本生态，越来越多的AI机器人被广泛应用到教育、咨询、电商、金融等各行各业各领域，如果不加以规制，采取安全可控的解决措施，机器人也可能会传播虚假信息，骚扰人类用户，甚至对企业业务发展、社会经济稳定都造成一定的影响。

构建可控式数智化解决方案

实现AI自主学习自我迭代
希望用AI数字员工赋能业务发展的，远远不只有微博一家企业。目前，已有不少行业代表性企业将生成式AI视作加速数智化转型的重要选择之一，并在生产运营中部署应用。
例如大型时尚鞋服集团百丽时尚上线AI助理“货品数字员工”，有效解决商品流通环节的收发差异问题；电商巨头京东上线“言犀数字人主播”，主打闲时接力真人主播，深耕长尾流量价值，为闲时直播提升转化率达30%；雅戈尔集团利用AI盘活企业数据资产，降低数据分析工具使用门槛，提升调用结果的准确性……
为助力各行各业加快数智化进程，解决企业AI能力应用难题，波形智能推出了面向企业级客户的一站式定制化解决方案，依托自身在垂域大模型、AI Agent以及无限式长文本生成等方面的NLP核心技术能力，通过Agents框架为企业用户打造Agents平台，提供全球首个可控的数智化解决方案，确保AIGC服务更安全、可信、可靠、可用。

具备更强的上下文理解能力，提升生成结果的准确性

依托自研的RecurrentGPT——一个用大语言模型模拟递归神经网络（RNN）从而达到无限式交互长文本生成的技术，波形智能解决方案提供多轮沟通对话和连续记忆功能，用户能够与AI机器人持续进行对话、提问等互动。无论是特定行业知识、企业专业知识，还是多维度知识，AI机器人都能够精准理解并匹配适宜的回答；用户在任何时间，提出任何问题，它都能敏捷响应并提供顺畅无阻的问答互动；拥有长时记忆能力，能够联系上下文回答问题，避免“评论罗伯特”式的牛头不对马嘴以及胡说八道。

原生支持SOP和函数调用，更加精准匹配用户意图

基于原生支持SOP和函数调用的中文创作垂域大模型Weaver，波形智能解决方案实现了自主根据用户意图，自动理解、规划复杂指令，并能够处理文件处理、数据分析、图表绘制等各类复杂任务，大大增强任务拆解能力和可控性。方案支持企业根据自身需求自行部署，可针对不同业务场景灵活切换，通过录入问答知识库文档，1对1定制优化提示词，AI数字员工能够智能化地精准感知并理解获取用户意图及反馈，帮助企业建立起与用户之间更加紧密的联系，提升交互及心智渗透效率。

生成更像人类的文本内容，提供更好的用户体验

波形智能解决方案凭借全新自研的自动标注系统（instruction backtranslation）和对齐技术（constitutional DPO），让AI的语言风格更像真实人类。方案支持客户个性化配置AI的人设定位、岗位属性等多种参数，轻松定制符合企业形象、适配业务场景的数字员工，让AI更具真人感，可以更加逼真地模拟人与人之间的交流，为用户带来更灵动、自然的交互体验。

让AI学习不失控，确保符合人类道德规范标准

波形智能作为国内领先的AIGC解决方案服务商，率先推出全球首个可控的数智化解决方案Agents框架，首次实现了对AI Agent的细粒度控制，从而让其能够按照人类确认过的流程进行运作，比如要求其必须遵循社会和道德规范，确保其输出内容不会引发伦理或法律问题，进而减少AI失控带来的风险。这个框架的好处是能大大提高透明度和可解释性，让开发者能够理解和控制模型的运算过程，从而防止「不受人类控制」的AI出现。在此基础之上，波形智能持续打造Agents 2.0框架，促使AI Agent学会主动收集最适合自己的知识数据，并使用这些数据进行训练，提高自己的准确性、灵活性和性能，实现自我适应和迭代进化，从而在多行业、多场景、多渠道更好地为人类服务。

14 2 月 2024

苹果Ai大模型要来了：iOS 18预计将重塑Siri，带来前所未有的智能体验

今日话题聚焦苹果即将露出水面的iOS 18——它的到来似乎预示着技术界的一场地震。虽然还没正式亮相，讨论却如火如荼。

据业内权威人士Mark Gurman透露，这场更新在苹果的长河中，极可能是一块重要的基石。确实，”重大更新”这个词似乎已经不足以引起注意，但这次，似乎有些不同寻常的气息。

咱们不妨倒带回顾一下：你是否还记得iOS 15的专注模式，iOS 16创新的锁屏个性化，或是iOS 17的新颖待机界面？这些功能在用户群中可谓小有名气，但不能不说，iOS的新花样似乎有些寥寥无几。

因此，苹果这次将AI置于iOS 18的核心位置，这一转向无疑是战略性的。

当提及AI时，我们自然会想到Siri。还记得Siri2011年在iPhone 4S上的初次登场吗？那时候，用语音助手进行操作还是新鲜事。Siri一度成为热门话题，然而，随着时光的流转，2011年至今，Siri的变革似乎停滞不前，智能程度也不尽如人意。

但现在，iOS 18中的新Siri或将翻开新篇章，据报道，苹果已自2018年起组建了一支队伍，致力于提高Siri的智能水平，团队成员甚至还包括前谷歌工程师。

预计，升级后的Siri将能够自主完成更多任务，虽然受到知识版权的限制，Siri可能无法直接生成图片或文本，但它在摘要和内容整理方面的表现值得期待。

AI技术还将融入iOS 18的其他多个功能中，例如先前展现的图像抠图技能和自iPhone 11起就持续采用的计算摄影技术。

最激动人心的变化，或许是iOS与Android设备间多媒体信息传输的支持，这确实是个大跨步。Android设备将来可能也能便捷地使用iOS发的消息了。竞争是科技发展的不竭动力。

全球市场上，三星挑战着苹果的霸主地位。他们的Galaxy S24系列打破了预售纪录，在国内，小米、vivo、OPPO、荣耀等品牌也在AI领域取得了显著成就。苹果在iOS 18中的AI改革，看似是对AI时代的一种适应。

之前的信息传输争议也催生了新的变革。距WWDC2024尚有数月，iOS 18的征程上或许还会有更多惊喜等待被揭露。在这个变革迅猛的时代，苹果面临着前所未有的挑战。三星单pack 2024发布会聚焦AI，展示了令人印象深刻的新技术，并宣称Galaxy S24系列将是AI时代的先锋。

而这些大胆的举措，无疑为三星赢得了市场的青睐。尽管苹果以24%的份额稳坐2023年全球手机市场冠军宝座，但Reddit上的争议也显示出用户的不满，反映出iOS 17在电量、系统稳定性等方面的问题。

昔日流畅和安全的代名词似乎正在褪色。三星的One UI也遭遇过挑战，但通过不断的AI创新吸引了用户的目光。vivo、OPPO、荣耀等其他品牌凭借其大模型旗舰新品，也赢得了市场的喜爱。

系统体验和创新功能成为了消费者的新关注点，这些元素在很大程度上决定了一款手机的成败。所以，苹果要想继续领航全球，除了在硬件上持续创新，iOS 18上的变革也势在必行。

但对于苹果来说，融入AI只是一个新起点。让我们一起期待，看苹果如何在这波科技浪潮中乘风破浪。

14 2 月 2024

谷歌Gemini：重塑AI助手体验，引领智能科技新时代

在近日，谷歌宣布对其人工智能聊天机器人和助手Bard进行了重大品牌重塑，标志着谷歌在人工智能领域迈出了重要的一步。这一变革不仅体现在品牌名称的更改上，更体现在全新应用程序的推出和订阅选项的增设，为用户带来了前所未有的智能体验。
首先，Bard如今被赋予了新的名字——Gemini。这个名称与其AI模型套件同名，彰显了谷歌在人工智能领域的统一和整合。Gemini不仅仅是一个简单的名称变更，它代表着谷歌对于人工智能技术的深度挖掘和创新应用。

在用户界面方面，Gemini进行了全面的优化。通过减少视觉干扰、提高可读性和简化导航，Gemini的用户界面为用户提供了更加清晰、直观和友好的操作体验。无论是对于新手用户还是资深用户来说，这样的界面设计都能够让他们更加轻松地掌握和使用Gemini的各项功能。而Gemini Advanced付费计划的推出，更是为用户带来了强大的AI能力。通过订阅该计划，用户将获得访问Google最强大的AI模型Ultra 1.0的权限。Ultra 1.0模型具备出色的编程、逻辑推理和创造性协作等能力，可以帮助用户执行各种复杂任务。

无论是编程开发、数据分析还是创意设计，Gemini Advanced都能够为用户提供强大的支持和助力。除了强大的AI模型外，Gemini Advanced还引入了一系列新功能和独家特性。增强的多模态能力使得Gemini可以更好地理解和处理多种类型的信息输入，包括文本、语音和图片等。而编程特性的加入，则让Gemini成为了开发者们的得力助手，可以帮助他们更加高效地进行编程开发和代码调试。此外，用户还可以上传和深入分析文件，从而获取更多有价值的信息和洞察。值得一提的是，谷歌还推出了Gemini移动应用程序。

用户可以在手机上下载并使用Gemini来学习新知识、写信、规划活动等。这款应用程序与Google的其他应用（如Gmail、Maps和YouTube）进行了深度集成，支持文本、语音或图片交互方式，为用户提供了更加便捷和灵活的使用体验。无论是在家中、办公室还是外出旅行，用户都可以随时随地利用Gemini来提升自己的生活和工作效率。谷歌对于Gemini的推出和更新举措，旨在让更多人直接体验Google AI的强大功能。

通过将Bard更名为Gemini，并与Google的AI模型套件同名，谷歌进一步彰显了其在人工智能领域的领导地位和创新能力。而通过不断优化用户界面、引入新功能和独家特性以及推出移动应用程序等举措，谷歌更是为用户带来了更加全面、便捷和高效的人工智能助手体验。

随着人工智能技术的不断发展和普及，越来越多的企业和个人开始意识到其巨大的潜力和价值。而谷歌作为全球领先的科技企业之一，在人工智能领域的研究和应用方面一直处于前沿地位。通过推出Gemini这样的人工智能助手，谷歌不仅为用户提供了强大的智能支持和服务，更推动了人工智能技术的广泛应用和发展。

总的来说，谷歌Gemini的品牌重塑和一系列更新举措为用户带来了更加出色的人工智能助手体验。通过提供更友好、更强大、更灵活的功能和服务，Gemini将成为用户生活和工作中的得力助手，引领智能科技新时代的发展潮流。未来，随着谷歌在人工智能领域的不断创新和突破，我们有理由相信Gemini将会为用户带来更多惊喜和便利。

14 2 月 2024

继“AI假拜登”打电话误导选民之后，OpenAI、Meta等纷纷拥抱大模型水印

最近，我很高兴看到人工智能世界出现一些令人鼓舞的消息。在令人沮丧的泰勒·斯威夫特（Taylor Swift）深度伪造色情丑闻和政治深度伪造内容泛滥之后，科技公司正在加紧行动，采取措施更好地检测人工智能生成的内容。
毕竟我们已经看到，有语音机器人正在伪装成美国总统拜登（的声音），告诉选民待在家里，不要投票。
当地时间 2 月 6 日，Meta 表示将在Facebook、Instagram 和 Threads 三个社交媒体平台上标记人工智能生成的图像。
当有人使用 Meta 的人工智能工具创建图像时，该公司会在图像中添加可见的标记，以及“烙印”在图像文件中的肉眼不可见水印和元数据。
Meta 表示，其水印标准符合人工智能研究非营利组织Partnership on AI 制定的最佳实践。
大型科技公司也在大力支持一项有潜力的技术标准，该标准可以为图像、视频和音频添加一种“营养标签”。
它被称为 C2PA，是一种开源的互联网协议，依靠密码学来编码一段内容的来源（origins）细节，技术专家又将其称为“来源（provenance）”信息。
C2PA 的开发人员经常将该协议比作食品包装上的营养标签，但它会说明特定内容来自哪里，以及是由什么人或工具创建的。
当地时间 2 月 8 日，谷歌宣布将加入 C2PA 指导委员会，并将在其最新 Gemini 人工智能工具生成的所有图像中加入 SynthID 水印。该委员会的委员已包括微软和Adobe 等其他科技巨头。
Meta 表示它也参加了 C2PA。拥有一个全行业统一的标准使公司更容易检测到人工智能生成的内容，无论它是用哪个系统创建的。
OpenAI上周也宣布了新的内容来源标注措施。该公司表示，将在其人工智能工具 ChatGPT 和 DALL-E 3 生成的图像元数据中添加水印。
OpenAI 表示，现在它将在图像中添加可见标识，以表明它们是用人工智能创建的。
这些举措是一个好的开始，给了我们希望，但并非万无一失。元数据中的水印很容易通过截图来规避，而图片上的标识可以被裁剪或编辑掉。
像谷歌 SynthID 这样的隐形水印可能更有希望，它可以巧妙地改变图像中的像素，使计算机程序可以检测到水印，但人眼无法识别出来。这种水印更难篡改。
更重要的是，目前还没有可靠的方法来标记和检测人工智能生成的视频、音频和文本。
但创造这些“溯源”工具仍然有价值。几周前，当我采访生成式人工智能专家亨利·阿杰德（Henry Ajder）关于如何杜绝深度伪造色情内容时，他告诉我，重点是给别有用心的人创造一个“坎坷的过程”。
换句话说，给深度伪造内容的生成和传播途径增加障碍，以尽可能地减少这些有害内容的创建和分享。一些真正图谋不轨的人可能仍然会推翻这些障碍，但只要它变得稍微困难一点点，就会有所帮助。
科技公司还可以引入许多非技术性的修复措施，来预防深度伪造色情内容之类的问题。谷歌、亚马逊、微软和苹果等主要云服务提供商和应用商店可以禁用那些与创建深度伪造色情内容有关的应用。
水印应该在所有人工智能生成的内容中全面普及，即使是开发该技术的小型初创公司，也应该参与其中。
让我感到欣慰的是，除了这些自愿措施，我们也开始看到具有约束力的法规出台，如欧盟的《人工智能法案》和《数字服务法案》。这些法案要求科技公司披露人工智能生成的内容，并更快地删除有害内容。
美国立法者也对通过法规来约束深度伪造技术和内容重新产生了兴趣。
在人工智能生成的“冒牌拜登总统”出现，并以机器人语音电话的方式告诉选民不要投票之后，美国联邦通信委员会近日宣布，禁止在类似的语音电话中使用人工智能。

总的来说，我对自愿的指导方针和规则持怀疑态度，因为它们不具备真正的问责机制，公司可以随心所欲地改变这些规则。
科技行业在自我监管方面一向表现非常糟糕。在残酷的、增长驱动的科技世界里，像“负责任的人工智能（responsible AI）”这样的项目往往是第一个面临削减的。
尽管如此，这些新的溯源和水印举措还是非常受欢迎的。它们比维持现状好得多，因为现状几乎是一片空白。

分秒AI研究院