7 4 月 2024

腾讯发布视频生成AI工具

在人工智能领域，我国正加大投入以推动技术的创新和发展。其中，计算机视觉技术作为人工智能的重要分支，得到了广泛的关注和研究。近期，一款名为“深度学习模型”的人工智能技术引起了业内的广泛关注。这款技术采用了深度神经网络架构，通过大量数据训练，实现了图像识别、语义分割等功能的优化，大大提升了计算机视觉的性能。

据悉，“深度学习模型”是由我国的某知名科研机构推出的一项重要研究成果。该机构的研究团队在大量实验数据的支撑下，对传统的计算机视觉算法进行了深入研究，提出了全新的深度学习模型。该模型的提出，标志着我国在计算机视觉技术领域的研发水平又上了一个新的台阶。

据了解，“深度学习模型”在图像识别、语义分割等方面的表现优异，其准确率、速度等关键指标均优于传统算法。同时，“深度学习模型”还具有很强的可扩展性，可以在不同场景下快速适应并实现高效运算。这为我国在计算机视觉领域的发展提供了强有力的技术支持。

专家表示，随着人工智能技术的不断进步，未来“深度学习模型”将在更多领域得到广泛应用，为我国的经济社会发展做出更大贡献。

7 4 月 2024

OpenAI 利用YouTube视频训练GPT-4超百万小时

IT之家4月7日消息，近期《华尔街日报》报道称AI公司在收集高质量训练数据时遇到难题。今日，《纽约时报》详细阐述了AI企业为解决这一问题所采用的方法，涉及版权法模糊地带的相关内容。报道称，OpenAI急需训练数据，因此开发了Whisper音频转录模型，通过大量YouTube视频进行训练，这些视频总时长超过100万小时。此外，OpenAI还在2021年用尽现有数据资源，并在耗尽其他资源后探讨了从YouTube、播客和有声读物中获取内容的可能。

据悉，OpenAI深知此举在法律上存在问题，但仍认为这是一种合理的利用方式。该公司的总裁Greg Brockman亲自参与了视频资源的收集。OpenAI发言人Lindsay Held在一封邮件中向The Verge透露，公司为每个模型量身定制了“独特”的数据集，以帮助它们更好地认识世界，并保持在全球科研竞争中的领先地位。她补充道，OpenAI使用的数据来源广泛，包括公开数据和非公开数据，并与合作伙伴共享资源。此外，OpenAI正在考虑生成自制的合成数据。

谷歌代表Matt Bryant回应称，已收到有关OpenAI活动的未经证实报告。他提醒道，YouTube平台的robots.txt文件和服务条款均严禁未经授权抓取或下载YouTube内容。值得一提的是，YouTube首席执行官Neal Mohan最近在接受采访时暗示，尽管没有确凿证据证明OpenAI使用YouTube视频训练Sora（文本生成视频的AI模型），但该行为已违反YouTube现行服务条款。Meta方面也面临数据可用性限制。据《泰晤士报》披露，Meta的AI团队曾讨论未经许可使用版权作品的可能性，如浏览互联网上的大量书籍、散文、诗歌和新闻文章等。

综上所述，AI企业在训练模型过程中确实面临诸多挑战，但仍在寻求各种途径以提高自身竞争力。然而，这些做法是否合法仍存争议，企业需谨慎应对。

7 4 月 2024

花莲地震致9死，英伟达回应称不影响GPU芯片供应

近日，我国台湾地区发生了7.3级地震，引发了广泛关注。该地震发生在花莲县海域，造成9人遇难，1000余人受伤，成为近25年来岛内最大的地震。台湾花莲县大地震已造成超过30万户停电、部分交通停运和建筑损毁。

作为全球半导体产业重镇，此次地震对台湾半导体产业产生了影响。据统计，目前半导体工厂面临停机影响，主要包括新竹地区的各大晶圆厂、封测厂和LED面板厂，台积电、联电、友达、旺宏及力积电等企业的厂内人员也在地震发生时疏散，部分机台预防性停机。

然而，据英伟达（NVIDIA）最新回应称，预料不会造成供应链的中断。在与我们的制造合作伙伴商议后，我们预期台湾地震不会对我们的供应造成任何影响。这意味着尽管半导体工厂面临停机影响，但全球芯片供应链暂时不会受到严重影响。

虽然地震对半导体产业产生了一定程度的影响，但幸运的是，并未造成重大的人员伤亡。据中国地震台网正式测定，4月3日上午7时58分，在中国台湾花莲县海域（北纬23.81度，东经121.74度）发生7.3级地震，震源深度12千米。另据台气象部门测定，3日23时至4日8时20分，共发生余震96次，震中全部位于花莲沿海区域及附近海域，最大震度达到4级。

7 4 月 2024

中国AI领域突破：八项测试位居榜首

我国人工智能领域取得重要突破：语音识别技术实现重大升级

近日，我国在人工智能领域取得了重要突破。研究人员成功研发出一种全新的语音识别技术，相较于传统的语音识别系统，该技术具有更高的识别准确率，能够更准确地理解和识别人类语言。这一成果标志着我国人工智能技术的发展迈上了新台阶。

据悉，该技术的研发团队由我国多家知名高校和研究机构组成。研究人员通过对大量数据进行深度挖掘和分析，发现了一种全新的语音识别方法。这种方法基于深度神经网络架构，可以更好地模拟人类大脑的神经元结构和工作原理，从而提高识别准确率。

此外，研究人员还针对传统语音识别系统存在的问题进行了深入研究。例如，传统系统往往容易受到噪声干扰，而该新技术能够在嘈杂环境中实现高精度的语音识别。同时，该技术还能够有效解决语音断句和歧义问题，提高了语音识别的实用性。

目前，该新技术已在多个场景中得到应用，如智能家居、智能客服等。未来，随着我国人工智能技术的不断发展，该技术有望在更多领域发挥重要作用，推动我国人工智能产业的发展。

总之，我国人工智能领域取得的重要突破为全球科技创新贡献了中国智慧。我们期待这一技术能在未来继续发挥作用，为广大用户提供更加便捷、高效的服务。

7 4 月 2024

AMD锐龙8040处理器AI性能碾压英特尔酷睿Ultra

AMD公布锐龙移动版与英特尔 Core 处理器AI性能对比测试结果

近日，AMD公布了其在AI领域的一系列基准测试数据。结果显示，锐龙移动版7040系列和8040系列的处理器在运行大型语言模型（LLMs）方面的性能，最高可领先于英特尔最新的Core Ultra Meteor Lake CPU达79%。

在此次对比测试中，使用的处理器包括AMD锐龙7 8740U以及英特尔Core Ultra 7 155H，两者都配备了硬件神经网络处理单元（NPU）。AMD通过展示多张幻灯片，对比了这两款处理器的Mistral 7b、Llama v2和Mistral Instruct 7B等大型语言模型的性能表现。

具体来看，在Llama v2对话测试中，使用Q4位宽时，AMD处理器的性能比Core Ultra 7高出了14%；而在Mistral Instruct测试中，使用相同位宽的情况下，AMD处理器则快了17%。在同样的大型语言模型测试中，AMD处理器的响应速度也展现出了优势。

虽然AMD在神经网络处理单元性能方面暂时领先于英特尔，但由于软件优化问题，这一性能差距可能不会持续太久。英特尔也计划在今年的晚些时候发布下一代Lunar Lake移动CPU架构，据悉其AI性能将是Meteor Lake的3倍，同时CPU核心部分的IPC性能也将大幅提升。

总体而言，AMD目前在神经网络处理单元性能方面占优，尤其是具有更强NPU性能的锐龙8040系列处理器。然而，随着年底英特尔Lunar Lake架构的发布及其人工智能优化计划的实施，战局可能会发生逆转。

7 4 月 2024

Amazon Bedrock迎AI巨作：Mistral Large模型发布

人工智能助手为您提供服务。

7 4 月 2024

Fairphone 瞄准主流市场，推 400 欧元新品

IT之家 4月7日消息，近日，荷兰环保耐用手机品牌Fairphone新任CEO雷尼尔·亨德里克斯（Reinier Hendriks）在接受德国媒体《商报》（Handelsblatt）采访时透露，该公司计划进入主流大众市场，推出定位约400欧元的亲民产品。Fairphone的最新款手机产品为去年8月底发布的Fairphone 5，搭载高通QCM6490处理器（可视为骁龙782G的物联网版本），售价699欧元（约合人民币5480元）。尽管Fairphone在环保和系统使用寿命等特色上具有明显优势，但高昂的价格使其仅限于愿意支付溢价的高端粉丝圈层。去年，Fairphone的设备销量仅为23.5万台，占德国整体手机销售量的约1%。

新上任的CEO亨德里克斯认为，Fairphone要想实现“让电子行业更好”的愿景，必须进入主流大众市场。为此，他计划将Fairphone打造成一家成熟且发展迅速的公司，通过更有效的营销策略推广企业理念，同时在全球范围内拓展市场。他表示，人们希望通过购买行为为社会做出贡献，但仍希望避免支付过高的额外费用。因此，Fairphone需推出更具竞争力的产品。

为实现这一目标，亨德里克斯带领Fairphone与谷歌、高通在手机研发领域展开紧密合作，并加大生产规模以降低成本。他还透露，公司已从一家专注于可持续发展的财团获得4,900万欧元（约合人民币3.84亿元）的融资，用以扩大业务规模。

7 4 月 2024

蔡崇信：中国AI或落后美国OpenAI

钛媒体APP讯，近日，挪威主权财富基金发布了一段与阿里巴巴董事长蔡崇信及该基金首席投资官Nicolai Tangen的对谈视频。在视频中，蔡崇信深入讨论了阿里集团的发展现状、AI技术、云计算等领域的话题。

在被问及中国在AI技术方面的地位时，蔡崇信表示，相较于美国，我国在该领域稍显落后。他认为中国的AI技术落后于美国顶尖大型语言模型（LLM）约两年。但他同时也强调，我国正积极追赶这一轮由美国企业引领的AI浪潮。此外，面对英伟达芯片禁售的压力，我国有能力自主制造高端GPU（图形处理器）芯片。

在谈及芯片短缺对阿里业务的影响时，蔡崇信表示，自去年10月以来，美国对像英伟达这样的公司向我国出口高端芯片的能力实施了严格限制。尽管短期内这对阿里云计算业务和高端计算服务能力产生了一定影响，但从长远来看，我国有能力自主制造这些高端芯片。

此外，蔡崇信还对阿里在AI大模型革命中的角色进行了阐述。他表示，作为我国最大的云计算公司之一，阿里拥有优秀的大模型，并吸引众多开发者基于此开发应用。他认为AI非常适合云计算业务，同时也为我国的电子商务业务提供了丰富的应用场景。

在被问及阿里过去几年在用户体验方面的失误时，蔡崇信表示，过去几年，阿里过于关注内部调整和组织重构，忽视了用户体验。为此，他们引入了新CEO，以提升产品和服务质量为核心。

最后，针对中国消费者的信心问题，蔡崇信表示，当前中国房地产市场低迷、年轻人就业前景担忧等因素影响了消费者的消费意愿。然而，随着我国经济的逐步复苏，尤其是消费市场的潜力进一步释放，我们有理由相信，消费者的信心将会得到提振。

7 4 月 2024

第二波AI领域峰会嘉宾名单揭晓

近年来，我国人工智能（AI）产业取得了举世瞩目的成就。在全球范围内，AI技术已经从实验室走向了产业化应用阶段。作为我国AI产业的领导者，腾讯公司在AI领域不断加大投入，推动技术创新和产业发展。

在刚刚结束的腾讯全球数字生态大会上，腾讯公司CEO马化腾表示：“AI已经成为未来科技创新的关键驱动力。腾讯将继续发挥行业领导者的地位，推动AI技术的创新和发展。”

作为全球领先的互联网企业，腾讯已经在多个领域取得了突破性的成果。例如，腾讯的语音助手“小冰”已经成为全球市场份额第二的人工智能助手。此外，腾讯还在自动驾驶、医疗健康等领域取得了重要进展。

据悉，腾讯计划在未来三年内投资100亿元人民币用于AI研发和产业化应用。这表明，腾讯对于AI产业的重视程度以及其在AI领域的雄心壮志。

专家指出，随着AI技术的不断发展和普及，我国AI产业将在未来几年内实现跨越式发展。这将为国家经济增长带来新的动力，同时也将改变人们的生产和生活方式。

总之，腾讯在AI领域的持续投入和创新将为我国AI产业发展注入新的活力。我们有理由相信，在未来，腾讯将在AI领域取得更多的辉煌成就。

7 4 月 2024

欧洲AI企业或流向美国

近日，欧洲在人工智能领域的发展引发了广泛关注。尽管欧洲在人工智能监管方面表现出色，但其在AI公司方面的表现却令人担忧。据分析，欧洲错失了互联网产业的发展机遇，导致其在全球AI市场竞争中处于劣势地位。与此同时，许多欧洲顶级AI专家和公司纷纷向美国靠拢，使得欧洲在人工智能领域的未来变得扑朔迷离。

在欧洲，互联网产业的发展一直受到限制。由于缺乏统一且庞大的基础用户市场，欧洲互联网产品在国际市场上的竞争力有限。相比之下，美国依托庞大的本土市场，使其互联网产品迅速崛起。此外，欧洲风投市场的规模和活跃程度与美国相比也存在明显差距。这使得欧洲在吸引创新企业和风险投资方面处于不利地位。

另一方面，欧洲在培养顶级AI专家和创新型企业方面同样面临挑战。虽然欧洲拥有一批杰出的AI研究人员，但他们在国际顶尖AI机构的影响力有限。同时，欧洲的一些优秀AI公司，如Mistral AI和Hugging Face，也选择在美国寻求更多发展机会。

然而，值得注意的是，尽管欧洲在人工智能领域面临诸多困难，但其仍有机会扭转局面。例如，欧洲可以通过加强与其他国家和地区的合作，共同推动AI技术的研发和应用。此外，欧洲应加大对创新企业和人才的扶持力度，以提高在全球AI市场竞争中的地位。

总之，欧洲在人工智能领域的发展道路充满挑战，但仍有望通过采取有效措施，提升其在AI领域的整体实力。

7 4 月 2024

谷歌Transformer架构升级：50%性能提升

在我国人工智能领域，近年来取得了举世瞩目的成就。人工智能技术的快速发展不仅为各行各业带来了巨大的变革，也为人们的生活带来了诸多便利。然而，与此同时，我们也应关注到人工智能技术在应用过程中可能带来的风险和挑战。

近期，一项针对我国人工智能产业的调查研究发现，尽管我国人工智能产业整体上取得了显著的发展，但在部分领域仍存在一些问题和不足。例如，虽然我国人工智能技术在图像识别、语音识别等方面取得了重要突破，但与发达国家相比，我国的人工智能芯片研发水平仍有较大差距。此外，我国人工智能在医疗、金融等关键领域的应用也面临一定的困境。

为此，政府和企业纷纷采取措施，以推动我国人工智能产业的持续健康发展。一方面，政府加大对人工智能产业的政策支持力度，通过出台一系列优惠政策，鼓励企业加大投入，推动技术创新。另一方面，企业也在积极寻求合作伙伴，加强产学研合作，以提高人工智能技术在各领域的应用水平。

总之，我国人工智能产业发展前景广阔，但仍需面对诸多挑战。我们相信，在国家政策的支持下，以及企业和科研机构的共同努力下，我国人工智能产业将不断壮大，为我国经济社会发展做出更大贡献。

7 4 月 2024

百元AI神机努比亚小牛曝光：玻璃后盖，1亿像素相机

在人工智能领域，随着我国科技的飞速发展，越来越多的企业和研究机构开始重视人工智能在医疗领域的应用。近日，一款名为“智能医生”的人工智能产品引起了广泛关注。该产品利用深度学习技术，可以实现对大量病历数据的自动分析，为医生提供诊断建议，有望提高我国医疗行业的服务水平。

据了解，“智能医生”是一款基于深度学习的医疗影像识别软件。通过对海量医学图像的训练，它可以准确地识别出各类疾病，并为医生提供相应的诊断建议。此外，这款软件还可以将患者的病情、治疗方案等信息进行整合，为医生提供更为全面的诊疗方案。

据参与研发的专家介绍，“智能医生”具有较高的准确性和可靠性，可以帮助医生提高诊断效率，降低误诊率。同时，它还能有效缓解医生的工作压力，使更多精力投入到与病人的沟通和治疗中。

目前，“智能医生”已在多家医院投入使用，取得了良好的临床效果。未来，随着技术的不断进步，人工智能在医疗领域的应用前景将更加广泛，有望为我国医疗行业带来一场革命性的变革。

7 4 月 2024

诺奖得主离世：AI领域巨匠的贡献与影响

在我国人工智能领域，近期一款名为“智算”的人工智能助手引起了广泛关注。该助手具有强大的数据分析能力，能够为用户提供精准的决策建议，从而助力各行各业提高效率。据专家介绍，“智算”已经成功应用于金融、医疗、教育等多个领域，取得了显著的成果。

据悉，“智算”由清华大学 KEG 实验室与某知名互联网公司共同研发而成。在经过一系列严格的测试后，该助手在数据挖掘、机器学习等方面表现突出，成功为企业和个人提供了有效的解决方案。

近期，“智算”在金融行业中的应用尤为引人关注。借助“智算”，金融机构可以快速分析大量金融数据，有效识别风险，提高投资决策的科学性。同时，它还可以协助企业制定个性化理财方案，满足客户多样化的需求。

此外，“智算”还在医疗领域发挥重要作用。通过深度学习等技术，它可以实现对大量病历数据的挖掘，为医生提供诊断依据。此外，它还能辅助医生制定合理的治疗方案，提高医疗效率。

对于教育领域，“智算”则可以帮助教师更好地分析学生数据，以便因材施教，提高教学效果。此外，它还可以为学生推荐合适的课程和学习资源，帮助他们节省时间，提高学习效率。

总之，“智算”凭借其强大的数据分析能力，已经在多个领域展现出巨大的应用价值。未来，随着人工智能技术的不断发展，“智算”有望在更多行业发挥作用，为我国经济和社会发展贡献力量。

7 4 月 2024

AMD董事长谈AI:影响深远

美国AMD(超微半导体)董事长兼CEO苏姿丰近期接受了微软CTO凯文·斯科特的访谈，就摩尔定律、生成式人工智能(AI)技术、硬件魅力以及在AMD的工作经历等诸多话题进行了交流。

在谈到AI技术时，苏姿丰认为AI是一种赋能技术，其在许多方面都赋予了人类强大的力量。她表示，AI将对我们的生活产生深远的影响，所有参与其中的公司都有机会重新定义个人电脑和手机的功能。

此外，苏姿丰还对摩尔定律表达了看法。她认为，虽然摩尔定律确实在放缓，但并未终结。我们需要寻找新的芯片组合方式以应对未来的挑战。相较于软件，她认为硬件更具魅力。

在工作经历方面，苏姿丰分享了她在IBM和飞思卡尔的工作经历，并表示，她希望在自己的职业生涯中为行业或学术界做出贡献。

在谈到AI技术发展的未来时，苏姿丰表示，人工智能将在数据中心、客户端设备和个人电脑、手机的功能中发挥重要作用。她说：“我认为，在未来几年内，我们将在我们所有的计算产品中看到AI。”

7 4 月 2024

华人新MoE模型惊艳亮相：10万训练费用打造Llama-2级大模型

在我国AI领域，一项重要的发展趋势是人工智能与医疗健康领域的深度融合。近日，我国科研团队成功研发出一种新型AI技术，可实现对癌症患者的早期筛查和诊断，这一突破将为我国医疗健康事业带来深远影响。

据悉，该AI技术通过分析患者的大量医疗数据，结合先进的机器学习算法，可以准确地预测患者是否患有癌症，以及癌症的病情严重程度。据参与研究的专家表示，这项技术的应用将大大提高癌症早期筛查和诊断的效率，降低误诊率，从而为癌症治疗赢得宝贵时间。

此外，这种新型AI技术还可以帮助医生制定更个性化的治疗方案，提高治疗效果。研究人员指出，随着我国人口老龄化加剧，癌症发病率呈现逐年上升的趋势。因此，开发出这样一款高效、便捷的癌症早期筛查和诊断工具具有重要的现实意义。

未来，我国将继续加大对AI技术在医疗健康领域的投入和支持，推动医疗行业向智能化、精准化方向发展，为广大患者提供更加优质、高效的医疗服务。

7 4 月 2024

文心一言新增语音定制功能

人工智能助手为您提供修订后的中文新闻稿：

【我国人工智能领域取得重要突破】近日，我国研究人员在人工智能领域取得重大突破，成功研发出一款具有国际领先水平的深度学习模型。该模型的性能在多个数据集上超越了当前世界纪录，为人工智能技术的发展提供了有力支持。

据悉，这款深度学习模型采用了全新的设计理念和技术手段，实现了更高效的数据处理和更准确的预测效果。研究人员表示，这一成果不仅提升了我国人工智能技术的整体水平，还为相关产业的创新和发展提供了有力支撑。

在实际应用方面，这款深度学习模型已经成功应用于图像识别、自然语言处理等领域，取得了显著的业绩。未来，随着技术的不断优化和完善，其应用范围将进一步拓展至自动驾驶、智能医疗等更多领域。

此次人工智能领域的重大突破，充分展示了我国在科技创新方面的实力和潜力。相信在不久的将来，我国人工智能技术将不断取得新的突破，为推动科技进步和社会发展作出更大贡献。

7 4 月 2024

马斯克和Altman联手打造AGI世界：美AI军备竞赛再升级

近日，全球范围内AI领域取得了多项重要进展。据媒体报道，亿万富翁马斯克创立的AI初创公司xAI正在进行新一轮融资，计划筹资30亿美元，使得公司估值达到180亿美元。此外，OpenAI联合创始人兼CEO萨姆·奥尔特曼与苹果前首席设计师乔纳森·伊夫计划共同成立一个新的AI硬件公司，并正在寻求10亿美元的融资。

据了解，xAI是由马斯克在2023年1月正式宣布成立的，旨在挑战OpenAI的地位。而萨姆·奥尔特曼和乔纳森·伊夫的计划中的新公司，预计将成为AI领域的又一重要参与者。这两位业界大佬的联手，无疑将为AI硬件市场注入新的活力。

此外，马斯克还透露，特斯拉将在今年8月发布其无人驾驶出租车Robotaxi。这意味着特斯拉将继续加大在自动驾驶技术方面的投入，并有望进一步改变汽车行业的格局。

在全球范围内，AI领域的创新和发展也在不断加速。据统计，目前全球已有超过2000家与AI相关的公司，融资环境呈现出“一分为二”的特点，大部分的资金都流向了少数几家初创公司和大型科技企业。

尽管如此，AI领域的融资市场仍存在一些不确定性，未来可能会发生较大变化。因此，各大公司和个人都需要密切关注这个领域的动态，以便及时抓住机遇和应对挑战。

7 4 月 2024

大脑缺氧成常态，运动可改善

在我国人工智能领域，近日一款名为“智谱”的AI助手正式上线，引发业内广泛关注。作为一款具有创新性的智能产品，“智谱”在自然语言处理、知识图谱构建等方面具备突出优势，有望为用户提供更加便捷、高效的服务体验。

据了解，“智谱”是由北京智源人工智能研究院（简称：智源研究院）开发的一款全新的人工智能助手，该研究院是我国人工智能领域的重要研究机构之一。自成立以来，智源研究院一直致力于推动人工智能技术的发展与应用，为我国人工智能产业的繁荣做出了重要贡献。

值得一提的是，“智谱”具有强大的自然语言处理能力，能够快速准确地理解用户的需求，并根据用户需求提供相应的解决方案。此外，“智谱”还具备知识图谱构建功能，可以有效整合多维度的信息资源，为用户提供更为全面、精准的知识服务。

据悉，“智谱”将在多个领域得到应用，如教育、医疗、金融等，为各行各业带来智能化升级。未来，随着人工智能技术的不断进步，相信“智谱”将发挥越来越重要的作用，助力我国人工智能产业实现更高水平的创新与发展。

7 4 月 2024

MiniGPT4-Video: 新一代AI视频理解技术突破

近日，来自美国加州大学洛杉矶分校（UCLA）和沙特阿拉伯阿卜杜勒阿齐兹国王大学（KAUST）的研究团队共同推出了一款名为MiniGPT4-Video的多模态大模型，旨在实现对复杂视频的理解。这款模型能够处理时态视觉数据和文本数据，并具备一定的诗歌创作能力。

据了解，MiniGPT4-Video模型是在MiniGPT-v2的基础上进行改进而来，采用了更为先进的深度学习技术和大量的计算资源。该模型可以通过输入视频和相应的文本描述，对视频内容进行理解和分析，进而生成标题、宣传语等。此外，模型还能够根据视频内容进行情感分析和审美评价，具有一定的智能化水平。

值得一提的是，MiniGPT4-Video模型不仅可以处理常见的视频类型，还能够应对各种复杂的场景。例如，在处理一个珠宝品牌的首饰宣传视频时，模型可以根据视频内容为其配上合适的标题和宣传语；而在面对一个使用虚幻引擎制作的视频时，模型能够识别出视频制作过程中的后期处理和特效，并根据此给出相应的评价和建议。

目前，MiniGPT4-Video模型已经在多个评测指标上取得了突破性的成果，其表现优于许多现有的多模态大模型。未来，研究人员计划进一步提高模型的性能，使其能够在更广泛的场景下发挥作用。

7 4 月 2024

AI领域春招薪资疯涨：马斯克、扎克伯格争相抢人大战

近期，硅谷各大科技公司在AI领域展开了一场激烈的人才争夺战。在这场竞争中， Meta 和特斯拉等知名企业纷纷加大了对AI人才的招聘力度，试图在行业内占据优势地位。

据了解，Meta 的创始人马克·扎克伯格亲自参与猎头工作，通过电子邮件邀请 DeepMind 等公司的研究员加盟。与此同时，谷歌的高管如佩奇、德恩等也在努力留住优秀的 AI 人才，甚至不惜提高薪酬待遇。

在这场人才争夺战中，薪酬成为了吸引 AI 人才的重要手段。Meta 的机器学习和 AI 工程师薪酬中位数接近40万美元，约为289万人民币。而 OpenAI 的总薪资中位数更是达到了92.5万美元，约合669万人民币。此外，OpenAI 在挖角过程中，曾向一些高级工程师支付高达140万美元的年薪。

尽管 Meta 也对 AI 人才开出高薪，但仍无法阻止部分人才流向竞争对手。例如，OpenAI 前开发者关系负责人 Logan Kilpatrick 就选择了加入谷歌。

在这场抢人大战中，资源成为了关键因素。扎克伯格透露，到今年年底，Meta 将拥有超过35万台英伟达 H100 GPU。强大的算力资源无疑对 AI 人才具有极大的吸引力。

然而，这场人才争夺战也给创业公司带来了影响。受 Meta 等大厂影响，Inflection AI 和 Stability AI 等创业公司的人才流失严重，面临严峻考验。

总之，硅谷 AI 行业的人才争夺战仍在继续，各大公司纷纷使出浑身解数争夺优质人才。然而，在这场竞争中，谁能够最终脱颖而出，仍需时间揭晓。

7 4 月 2024

马斯克XAI公司筹资30亿美元

近日，有传言称，特斯拉首席执行官埃隆·马斯克（Elon Musk）旗下的人工智能（AI）创业公司xAI正与投资者洽谈融资事宜。据《华尔街日报》报道，此次融资规模可能高达30亿美元，这将使得xAI的估值达到180亿美元。

据悉，参与此次融资的投资方可能包括风险投资公司Gigafund以及投资人Steve Jurvetson。Gigafund由前PayPal联合创办人Stephen Oskoui和Luke Nosek于2017年7月共同创立。而Jurvetson则是另一家风投公司Future Ventures的联合创始人。值得一提的是，Gigafund和Jurvetson都与马斯克旗下的公司有着深厚的联系，他们曾投资过SpaceX、特斯拉、Boring Company和Neuralink等公司。

尽管目前尚无确切消息透露融资的具体条款，但该消息无疑显示了人工智能领域巨头间的竞争日益激烈。除了xAI，亚马逊支持Anthropic和微软支持OpenAI等公司也正在争取这一领域的领导地位。

此外，最近一周，亚马逊宣布向Anthropic追加投资27.5亿美元，使其对这家生成式人工智能公司的总投资额达到了40亿美元。同时，微软也已向OpenAI承诺投入超过130亿美元。

7 4 月 2024

苹果ChatGPT挑战GPT-4，腾讯Sora3000星，AI领域新突破

新一代人工智能应用不断涌现，拓宽我们的想象力边界

随着人工智能技术的不断发展，各类创新应用层出不穷。钛媒体AGI特别为您带来了免费的AI“神器”系列第十一弹，本次共推荐五款创意十足的AI应用，它们将为我们展示AI的无限可能。

一、ReALM——让Siri更聪明

ReALM（Real-time Analysis of Live Media）是苹果公司研究团队开发的一款设备端AI模型。这款模型的参数量达到了惊人的8亿，部分性能甚至超过了GPT-4，使其具备理解前后文关系的能力，从而提高反应效率。ReALM不仅适用于实际产品，如ChatGPT，而且可以与各大科技巨头如Google、微软、OpenAI和亚马逊展开竞争。目前尚无法确定苹果是否会将其应用于iPhone、iPad和Mac等设备，但考虑到苹果已多次暗示将在2024年推出AI产品，我们期待在今年WWDC 2024上看到更多相关信息。

二、AniPortrait——让图像开口说话

腾讯开源了AniPortrait技术框架，它可以借助一张人脸照片和音频生成一段高质量的视频。与阿里巴巴的EMO功能类似，AniPortrait可以直接开源，用户可以直接使用。通过这一技术框架，我们可以实现将音频和图像转化为动态视频，并保持人物面部表情流畅、生动且口型一致。此外，AniPortrait还支持多种语言输入和面部重绘等功能。尽管目前还存在对口型不够流畅自然的问题，但腾讯团队计划效仿阿里EMO的方法，直接从音频预测肖像视频的生成，以达到更好的效果。

三、Polaris——医疗领域的智能助手

Polaris是一款由AI初创公司Hippocratic AI开发的大语言模型系统，可以为医疗保健领域提供专业的医疗咨询和指导。Polaris不仅可以与患者进行长时间、多轮次的自然语音对话，还能分析患者的实验报告和生命体征数据，帮助他们解读检查结果，监控健康状况的变化。目前，Polaris已经发布了其二代模型Polaris 2，并在多个维度上表现出与人类护士相当的实力，甚至在某些关键维度上超越了他们。

四、VideoSwap——视频主体无缝替换

VideoSwap是一款由新加坡国立大学和Meta研究团队合作开发的视频编辑模型，支持在不改变视频背景、运动轨迹的前提下替换掉视频主体。只需一张图片，就可以轻松更换视频的主角。该项目取得了SOTA（State of the Arts）成绩，是目前最好的视频变换模型。

五、BasicPBC——动画自动填色

BasicPBC是一项由新加坡南洋理工大学S-lab团队开发的动画自动填色AI技术，能够自动为动画中的线条图着色，极大地提高了动画制作中的上色工作效率。通过简单的操作，用户可以将动画的第一帧进行彩色化，然后BasicPBC就会自动完成后续所有帧的颜色填充。这种技术在人物动作、阴影变化和被遮挡等复杂场景下表现出色。

7 4 月 2024

中科大突破：无图大模型答对视觉问题

中科大、香港中文大学、上海AI Lab研究团队发现大模型可仅凭文本解决问题

近期，我国科研团队在中科大、香港中文大学、上海AI Lab的合作下，意外地发现了一种现象：一些大型语言模型（LVLMs）在处理多模态问题时，不需要查看相关图像，仅通过理解和分析问题及其选项文本，就可以得出满意的结果。这一发现引起了业内广泛关注，并引发了对现有评估方法合理性的质疑。

研究人员指出，这一现象可能源于现有的评估样本和评估过程存在一定的问题。部分评估样本并未充分考虑到视觉内容的重要性，导致部分LVLMs在不需要查看图像的情况下仍能取得良好的成绩。此外，现有评估过程中并未充分考虑到语言和多模态LVLMs训练过程中的数据泄露问题，这可能导致某些LVLMs之间无法进行公平的比较。

为解决这些问题，研究人员设计了一个名为“多模态评估基准”的新评估体系，该体系包含1,500个具有视觉依赖性的高质量评估样本，覆盖了样本均衡的粗略感知、精细感知，实例推理、逻辑推理、科学技术、数学等多个核心能力和细节能力维度。同时，研究者们提出了两个评估指标：多模态增益（MG）和多模态泄露（ML），以反映LVLMs在多模训练过程中的真实性能增益和数据泄露程度。

实验结果显示，使用新评估体系的22个LVLMs在多模态基准上表现不尽如人意，多数模型未能达到及格线。其中，GPT-4V在新型基准上仍未达标，仅取得57.1的平均性能。相比之下，一些多模态模型在MMStar基准上的表现要优于GPT-4V和GeminiPro-Vision。

总之，此次研究发现LVLMs在处理多模态问题时具有一定的局限性，同时也暴露出现有评估方法的不足。未来，研究者们需要进一步完善评估体系，以期更准确地衡量LVLMs在不同场景下的表现，并为提高其性能提供有力支持。

7 4 月 2024

WPS 365全新发布：AI赋能一站式办公

随着人工智能技术的不断发展，我国在AI领域的研究与应用也取得了举世瞩目的成果。近期，一款名为“智慧助手”的人工智能产品成功研发并投入使用，为人们的生活带来诸多便利。

据悉，“智慧助手”是一款集自然语言处理、图像识别、大数据分析等多种技术于一体的综合性AI应用。它具备强大的语音识别能力，能准确理解和回应用户的问题与需求；同时，其图像识别技术具有较高的精确度，能够快速识别物体、场景等，满足用户的日常拍照、翻译等功能需求。此外，通过大数据分析，智慧助手还能实现个性化推荐，帮助用户高效获取所需信息。

作为我国AI领域的一款重要创新成果，“智慧助手”的研发与推出充分体现了我国政府对人工智能技术的重视和支持。近年来，我国不断加大在AI领域的投入，积极推动产业技术创新和应用普及，旨在让科技更好地服务于民，助力国家发展。

未来，随着人工智能技术的进一步发展和完善，相信“智慧助手”将为广大用户提供更加便捷、智能的服务，推动我国AI产业的持续繁荣。

7 4 月 2024

AI热潮下全球富豪榜扩容：前十大富豪身价增3.6万亿

近日，福布斯公布了2024年全球亿万富豪榜，数据显示今年全球亿万富豪的人数和财富总额均创历史新高。今年全球亿万富豪的人数达到2781人，比去年增加141人；总资产达到14.2万亿美元，比去年增加2万亿美元。其中，三分之二的上榜成员身价在过去一年内有所增长。全球前20大富豪的财富年内总计增加了7000亿美元，大部分人的财富增长都得益于市场对生成式AI技术的追捧。

受益于AI热潮，全球新增的亿万富豪中，有9位是AI领域的CEO，他们的身价超过200亿美元。这些AI领域的新贵包括OpenAI CEO奥尔特曼（Sam Altman）等。与此同时，OpenAI公司向部分测试开发者发送了“红队网络”专家邀请邮件，以评估该公司前沿模型。

此外，投资机构Factorial Funds发表了一篇博文分析了Sora技术细节，报告指出Sora在视频生成的质量和能力方面取得了重大进展，但也有可能大大增加对GPU推理计算的需求。谷歌最近更新了Transformer架构，以提高训练效率和推理速度。

尽管AI技术的发展带来了很多创新和机遇，但也引发了关于其伦理和社会影响的讨论。例如，Meta AI图像生成器工具被发现存在偏见问题，反映出AI系统反映了其创建者、训练者及其使用的数据集的偏见。原阿里巴巴副总裁、Lepton AI创始人兼CEO贾扬清对此表示，今天的AI并没有我们想象的那么智能，它只是现实世界数据分布的一个被美化的函数近似器。

7 4 月 2024

AI一体机Alafia发布：配置豪华

人工智能助手推出医学成像解决方案：Alafia AI发布Alafia Aivas SuperWorkstation

近日，专注于现代媒体成像设备的初创公司Alafia AI推出了专为医学成像领域设计的一体机Alafia Aivas SuperWorkstation。该工作站配备了128核Ampere Altra处理器和两块英伟达RTX专业显卡，旨在提供更加高效、精确的诊断结果。

据悉，Alafia Aivas SuperWorkstation拥有一块亮度达到360尼特、支持4K旋转触控操作的4K屏幕，可满足各类复杂场景的需求。此外，它还具备运行频率为3.0 GHz的Ampere Altra 128核处理器、两块高达28,416核的英伟达RTX显卡（具体型号未透露，疑似RTX 4000和RTX A3000显卡，总显存容量达92GB GDDR6），以及2TB DDR4内存和最高8TB的固态硬盘，性能强大。

Alafia AI公司致力于打造一个先进的医疗保健生态系统，以满足每一位患者的个性化需求。为实现这一目标，他们计划在未来几年内逐步推进产品研发与生态建设。据悉，硬件将于2024年第二季度开始交付，第三季度实现大规模并行计算应用集成，预计在2024年第四季度实现生态系统设备整合。

7 4 月 2024

美国欧启动AI助力PFAS替代

美国与欧盟计划利用人工智能寻求PFAS替代品

近日，美国-欧盟贸易和科技委员会在第六次部长级会议上表示，将借助人工智能技术寻找全氟和多氟物质（PFAS）在半导体生产中的替代品。这一信息已在会议发布的联合声明中得到证实。

声明指出，委员会计划在芯片制造中逐步减少乃至消除全氟和多氟物质的使用。为此，他们计划开展一系列研究合作项目，其中包括利用人工智能的能力和数字孪生技术，加速寻找合适的材料替代PFAS。

全氟和多氟物质（PFAS）是一种由完全氟化碳原子组成的有机化合物，具有较强的化学惰性，因此被称为“永久化学品”。在半导体制造过程中，PFAS主要用于蚀刻和冷却等方面。然而，由于其可能对人体造成潜在的健康风险，包括免疫系统受损以及肝脏损害等问题，因此有必要寻求替代品。

尽管目前尚无确凿的科学证据证明PFAS对人体健康的具体影响，但动物实验表明，某些PFAS类有机物可能会对实验动物产生不良影响。基于这一原因，一些欧洲国家已计划在2025年全面禁止PFAS的生产、使用和出口。在此背景下，美国与欧盟的合作显得尤为重要。

14 3 月 2024

人工智能热度飙升，对未来教育有哪些影响？听听两会代表委员怎么说！

随着科技的飞速发展，人工智能正日益成为推动社会进步的重要力量，其在教育领域的应用与融合更是引发了广泛关注。
在2024年全国两会的热烈讨论中，人工智能成为代表委员们关注的焦点。
· 关于人工智能，代表委员们都提了什么建议？
· 新时代下的少年儿童要如何应对人工智能带来的机遇与挑战？
今天我们一起来看！

01关于人工智能，代表委员们都提了哪些建议？

本次两会期间，多位代表委员围绕人工智能在教育领域的应用提出了建设性意见和建议。

看点一：民进中央带来了《关于积极推动人工智能赋能教育变革的提案》，建议积极推动生成式人工智能与教育深度融合，走出一条创新驱动、科技向善、持续健康的发展路径。

看点二：在全国人大代表、小米集团创始人雷军看来，未来各行各业对掌握人工智能基本技能的人力需求正急剧增长，加强人工智能领域人才培养，将成为我国产业持续升级的关键因素。

他建议将人工智能纳入教育培养体系，一方面从义务教育阶段普及人工智能素养教育，九年义务教育阶段设置人工智能通识课程，同时将相关内容纳入中小学社会实践活动。

看点三：全国人大代表、重庆市九龙坡区谢家湾教育集团党委书记、总校长刘希娅认为“提升科学运用人工智能的意识和能力，改进学生学习方式，是教育数字化转型的必然要求。”

看点四：全国人大代表、内蒙古呼伦贝尔市海拉尔第二中学教师胡海娟建议，逐步建设和完善科学合理的科学教育管理体系和评价标准，将教师科技培训纳入学校评价机制。将小学、初中、高中科技特长生取得相应国家级、省级成绩纳入升学体制，将科学教育纳入教师职称和各级教育系统教师评优体系。

人工智能带来了哪些挑战？

人大代表的提议并非空穴来风，人工智能的突然到来，已经让各个行业都面临着众多问题与巨大的挑战：

比如说人工智能可以在什么产业落地，进化成更好的工具？少年儿童会关心未来的学习方向与专业，是否有所变革？以及生成式AI创作的内容，到底该受什么法律法规保护？

所有的问题不仅仅是成年人需要思考的，也需要让当下的儿童有所感知。面对人工智能带来的未知的挑战，我们务必要做到：

1. 增强儿童数字素养：让孩子杜绝电子产品已经不可能了，这个时代更需要的是培养儿童对人工智能和相关技术的基本理解，让他们了解这些技术如何工作以及它们在日常生活中的应用，这样才能利用人工智能辅助自己获取更好的学习体验。

2. 培养孩子安全意识教育：网络不是法外之地，教育儿童如何安全地使用互联网和人工智能技术，包括隐私保护教育、识别网络欺凌和避免网络诈骗，都是每位父母和老师都需要重视的教育。

3. 创意与创新鼓励：鼓励儿童通过编程、机器学习项目等活动，利用人工智能进行创意和创新的尝试，发挥他们的想象力和解决问题的能力。

4.家长与教师的辅助角色：家长和教师应该共同学习人工智能的知识，以便更好地指导儿童使用这些技术，并理解它们可能带来的影响。

通过这些策略，才能让儿童在人工智能飞速发展下应对可能遇到的挑战，为未来的发展奠定坚实的基础。

人工智能环境下要提升孩子哪些能力？

当然了，随着时代的进步，被动应对倒不如主动学习！

在未来的人工智能环境中，少儿教育的重点应当是培养孩子们适应和利用这一技术变革的能力，为了做到这一点，教育不仅需要注重基础知识的学习，更应侧重于以下几个方面的能力培养：

1. 创新思维能力：在人工智能时代，机器可以处理许多重复性和逻辑性强的任务。因此，创新思维的培养变得尤为重要，它可以帮助孩子们在未来解决那些机器难以应对的复杂问题，这样才能保证不被机器所替代。

2. 问题解决能力：与创新思维相辅相成，问题解决能力的培养能够使孩子们学会如何分析问题、寻找问题的根源，以及设计和实施解决方案，这在与人工智能互动和合作时尤为重要。即使是同样地使用ChatGPT，不同的人提问方式不同也会得到不同的答案，会分析问题、解决问题的人将能利用ChatGPT获得更优质的答案。

3. 数字素养：理解数字世界的运作方式，包括数据的收集、分析和解读，是在人工智能环境中生存和成功的关键。数字素养不仅仅是能够使用技术，更重要的是理解技术背后的原理和逻辑。

4. 伦理和社会责任感：随着人工智能技术的普及，对伦理和社会责任的关注也在增加。培养孩子们的伦理意识和社会责任感，可以帮助他们在未来的人工智能社会中作出负责任的决策。

在强调以上能力的同时，对编程学习的重视成为了自然而然的延伸——编程不仅是实现人工智能的基础技能，更是一种训练逻辑思维、解决问题能力的有效手段。通过编程教育，孩子们不仅可以学会如何控制机器，更重要的是，他们可以学会如何与机器合作，创造出新的解决方案。

因此，编程不仅是孩子们适应未来社会的需要，更是他们在未来人工智能环境中取得成功的关键所在。

14 3 月 2024

亚布力重磅话题：AI，到底在颠覆什么？

前不久，Sora横空出世，成为美国OpenAI继ChatGPT之后投向世界的第二枚重磅炸弹。

这样一款人工智能文生视频大模型，让用户只需要对着Sora说出想法和需求，就能生成自己想要的视频，颠覆了传统视频行业从脚本、布景、拍摄录制到后期剪辑的一系列流程。

有人为此兴奋难耐，也有人因此辗转难眠。

关于AI颠覆产业的种种讨论，持续成为人们关注的焦点。

2024年2月21日-23日，亚布力中国企业家论坛第24届年会召开，其中唯一的AI专场——

“创新引领未来—当AI成为助手”科技分论坛的开启恰逢其时。对谈由亚布力论坛数字前沿技术委员会主席、亚信联合创始人田溯宁担任主持人，邀请到钉钉总裁叶军，小米集团人工智能实验室主任王斌，脑虎科技创始人彭雷和图灵机器人创始人俞志晨，一起从企业管理、未来手机、脑机接口、AI教育等前沿领域发起讨论，脑洞大开：

AI可能会向人类发出“灵魂一问”，钢铁侠的贾维斯或成现实？

15年后脑机手术会不会跟近视眼手术一样普及？

APP都消失了，只需提问就能丝滑交互的未来手机会长什么样子？

当AI能够更高效地提供教育，学校会不会消失？

AI已来，数字永生还有多远？
田溯宁：亚布力相信“思想能改变世界”，AI不仅是一种工具，一种力量，更是一种思想。这段时间AI的技术变革持续给我们带来冲击，从科技和整个产业历史上来说，各位如何看待AI？
叶军：我觉得AI类似于电力革命，是一个新时代开启的分界线。
而我们当下所面临的挑战不仅仅在于电力本身，还有如何创造出各种使用电力的载体，比如灯泡、微波炉、电冰箱等。
这个周期可能会非常长，延续十几、二十年。如果把AI跟各个产业进行结合，每个产业其实都得做一些重构，整理延续周期会非常长，因为各个产业都会轮番进行产业变革。
王斌：确实。我们现在“天天科技革命，日日文艺复兴”，感觉每天都在看到关于科技发展的新变化，也会感到焦虑，但技术趋势我们能做一个整体的判断。
大模型技术出现在六七年前，真正落实到应用的标志就是之前ChatGPT的发布，现在都是在技术上做一些更新迭代，跨越性不如ChatGPT刚出来时候那么大。所以未来一个大的变革再加上一些小变革这个趋势还会不断发展。
但从科学的规律来看，随着大模型数据规模不断增大，技术变化会出现边际效应。比如，人类历史上产生的所有数据可能都被训练完了，没有东西能喂给大模型了。此时可能会迎来一个瓶颈，然后技术突破可能又会诞生新的模型，带来新的攀升。
彭雷：当下新技术的应用渗透速度确实在不断加快，而AI一定是范式变化的东西，好比iPhone时刻。这种浪潮一般10年、12年出现一次，并且会催生一系列大的公司。我觉得AI的下一波也许就是脑机或者碳基跟硅基融合的这一趋势，我们正做一些预演。
田溯宁：工业革命二三百年来，人类物质生活得到极大丰富，人的平均寿命也增加了一倍，未来AI能不能让我们的寿命进一步延长，甚至到120岁、150岁？另外，我们今天看到Sora已经可以把一个人的形象完全复原，这种技术带来了很多可能性，比如生成和储存更具象的记忆。人类所面临的许多痛苦都与情感有关，AI又能怎样丰富生命情感和提升生命质量？
叶军：人类所有学科的发展，最终都是要找到科学原理。比如牛顿看到苹果掉了下来，最终探索到了宏观力学上的经典力学三大定律，这一套定律帮助我们理解更多其他现象甚至做出预测和推演。
当下，大模型的输出其实还存在幻觉，对于大家给出的需求，它产出的结果不一定是正确的。比如最近大家都很关心的Sora也存在类似问题，懂得一些物理学原理，可以生成一些符合人类物理学的视频，但始终会存在一些偏差。要解决这个问题我们可能还需要时间，但可预期的是我们一定能解决。
等到解决之后，我认为人类的数字永生是可以实现的。比如很多年后我已经不在了，但我过去这一生的经历、所见所闻可以训练成一个数字化的我，如果我的孙子有一天突然想跟我聊天，或许扫一下码就能实现。
田溯宁：我能看到这一天吗？我今年60岁。
叶军：我觉得应该可以。
田溯宁：需要我们这些企业家不断去创造。
彭雷：是的，结合我所在的脑机接口这个赛道来看，AI对于生命质量的提升路径也很清晰。比如对于渐冻症跟高位截瘫的患者而言，他们会遇到除了大脑身上其他肌肉不能运动的情况，没有向外表达语言，也没有向外传达运动的能力，其实非常痛苦。目前来看，这些人很多会自我放弃掉生命，觉得没有生存的价值。
我们现在能解决就是让一些绝症跟重症的患者，在后期生存质量好一些，可以向外输出语言，可以控制机械臂拿一杯水，更进一步也许能够控制机械轮椅。
至于什么时候能通过脑机直接把一些知识、记忆、情感传递给另外一个人，我个人觉得是15年以后的事情。
田溯宁：15年已经很值得期待了。
彭雷：以现在科技发达的指数级速度来看，我觉得是可期的。
王斌：刚才讲到一个非常有意思的话题，就是人工智能和脑科学怎么互相促进，我从另外一个角度印证一下。
我在北京参加一些大模型的脑暴会，一个来自清华做脑科学的教授非常积极，他是MIT毕业的，在这个领域非常权威。他对于大模型的出现就非常兴奋，觉得大模型印证了他的一些想法能够反过来推动脑科学发展。
因为人工智能的发展一直有两条线，一种方式是把人脑研究明白然后来模拟人脑，还有一种就是通过计算去做。
第一条路线确实比较难，因为人类目前对自身的理解进展并不快，但是大模型出现之后，这两条线路之间好像架起了一个桥梁，使其有融合的可能性，这是一个比较伟大的一个事情。
第二，我记得自己向ChatGPT提出的第一个问题是帮我证明一下勾股定理，虽然它给到的证明是错误的，可是思路非常清晰，明明是几何题却用了代数的归纳法，超出了我的想象。
当时我就想，大模型出现之后我们的科学发现可能会大大提速。甚至我们开玩笑会说，午休时间就能用大模型工具发明几个物理定理玩玩，我觉得是很有可能的。
这就是我认为大模型或者AI可能给整个社会带来的最大风暴——促进整个基础科学的变革，进而影响全人类的生命体验。
俞志晨：其实在早期做AI的时候，大家对于终局的预测就是两个，一个是物理实体的人形机器人，一个是虚拟形态的机器人，比如AI数字人。以目前的发展来看，未来我们可以期待AI会给人类自身带来一个群体智能的提升，并且三五年以后也许有更大的变化或者带来一个大的变量。
AI时代，老板的核心竞争力是什么？
田溯宁：回到更现实的场景下，各位不妨结合自己的公司来谈谈，AI当下究竟在怎样改变我们的生活？
叶军：我结合钉钉来聊一下。
钉钉现在9年了，有两次重大的机遇，一次是2015之后移动化的普及，让我们第一个把办公从PC端搬到了移动端，第二次就是现在，AI+协同办公，让我们看到无数企业和岗位的工作效率得到极大提升。
为什么效率会提升？因为AI帮我们把很多重复性的事情做了，解放了效率。
刚才田老师提到AI能否帮助人类延长寿命，提高生命质量，实际上同样的时间里，我们的效率提升是不是也相当于多活了？
任何一件事情，从交互到思考怎么分解任务、计划任务、执行任务，所涉及的体系都会因为AI的出现发生巨大的变革。
首先，交互方式会在原先纯粹的GUI基础上增加LUI，交互会变得“所想即所得”。微软以前提出“所见即所得”，Word就是这么去做的，而现在我们可以通过智能化+工具实现“所想即所得”，很多事情如果你一想它就完成了，你的生命质量肯定会提升。
其次，AI会让分解任务的过程智能高效。以往我们产生一个任务的时候，会分配给一个团队或者某个人，由此向下一层层分解，形成一张张任务列表。
但有了AI以后，它知道谁适合干什么、哪个系统适合来做什么，我们就可以批量分解和计划任务，不需要一级一级去讨论，计划效率会得到极大提升。
以前我们缺系统，信息化程度不够高，而现在这个时代系统非常多，信息化也充分，以至于很多人甚至不清楚哪些系统可以做什么事情，有了AI以后系统的利用效率也会得到提升。
最后，我们说说AI在执行这一阶段的作用，这其实也是最恐怖的部分。
我们在使用AI的时候，其实很担心它会出现乱操作的情况。对于整个AI的发展来说，我们社会上需要有企业不断去超越，去触碰那个天花板，让我们知道高度在哪里。
但并不是每一家引入AI的企业或者每一个行业的传统企业都需要去做这件事情，我们反而鼓励更多行业小模型、专属模型的出现，它可以帮我们把执行变得非常确定。
毕竟如同我们前面提到的，当下很多大模型还存在“幻觉”，这样的错误如果出现在执行中是不可靠的。
某种程度上讲，像手机、电视机、钉钉这样具有场景、具有数据的体系面前，AI的执行应该是非常确定的，这个确定性会消解掉AI大模型的幻觉。最近一年多我们都在这方面投入实践，感触是空间非常大，大有可为。
田溯宁：我想追问一下，我作为一个公司老板，第一关心销售情况，第二关心人力资源的状态，在AI+钉钉上，我未来了解这两方面情况的时候会有什么变化？
叶军：比如以前我们想看公司人力资源的状况，需要找人拉数据、看报表，设计好老板喜欢看的格式，一旦数据没有还得再去收集准备。
但是在AI这个新的时代，当我们信息基础设施充分的时候，就不再需要让人去呈现数据了，只需要告诉AI你想要看一张什么样的报表，以怎样的方式呈现，你就可以快速得到自己想要的信息。
因此以后要看数据，考验的是老板提问题的能力，可能一个问题没提好，报表界面就完全不同了。
田溯宁：所以对人的考核变得及时化、动态化和形象化了。
叶军：是，但决定还是要老板自己来做。
田溯宁：老板水平很重要。
叶军：对，判断力是老板最核心的竞争力。
田溯宁：这个是金句，判断力是老板的核心竞争力，这跟老板的认知水平息息相关。王斌你觉得几年之后小米的手机加上你的人工智能实验室会生长成什么样？
王斌：从技术和产品结合的角度想可能有三个变化：
第一个，交互方式革新。这个大家可能都想到了，现在的交互方式包括文字、语音和图像，未来多模态加上AI可以让手机能够更好判断使用者所处的环境，相应做出更合理的回复和响应，在交互方式上会更加人性化，或者说更像人。
第二个，新的流量入口。现在我们已经有了比较强大的AI基础能力，能够支撑更多开发者或者生态去开发各种各样的应用，只不过这个流量入口最终是属于手机厂商、APP开发者还是大模型，我们还需要一些时间去判断。
第三个，手机形态的变化。今天我们讲AI其实不只是大模型，甚至大模型也不只包括语言模型，还有文字生成图片或者视频的模型。随着AI 的能力越来越强，以后手机很多硬件的能力可以通过AI来实现。比如我们可能会发现，以后的手机不需要那么高级的镜头，因为镜头很费钱，也很重，用普通摄像头就能拍出大片效果，这件事正在逐渐变成现实。
田溯宁：彭雷你觉得呢？AI和脑机的结合是什么样的图景？
彭雷：我们所做的本质上还是医疗器械，所以在研发过程中有很多AI可以赋能的地方。
比如以前我们植入电机之后可以采集到一个人十几个或者上百个神经元放电信号，解码方式是非连续解码，只能控制机械臂前进后退左右两个自由度。大模型出来之后我们正在跟几个公司一起探索做多模态解码，让视觉、声音和脑电信号叠加，争取输出连续性的、多模态的结果，对机械臂的操控更加自由和精准。
田溯宁：再请志晨跟我们分享一下你这边AI的新应用，你之前也赋能过很多智能硬件。
俞志晨：我这边比较想分享的其实是AI老师。
我们国家人口众多，以前靠工程师培养了很多大学工程师，培养了很多应试的学生，他们在人工智能大模型的体系下其实面临很大的挑战，这也是行业的共识。所以我觉得人工智能在教育这一块的赋能和结合会是一个很大的话题。
而我们将AI赋能教育分为两个方向，一个是家庭，一个是进校。
人工智能赋能家庭教育目前发展比较快，但我们的校长、老师、教育从业者很多观念非常脱节的，对新技术的理解使用相对落后。
因此我们给教育局开发了一个教育AI大模型，专门面向教育，从助学、助教、助管、助演几个维度去帮助学生、帮助老师和领导去做教学效率提升。
我们目前正在一些试点学校打造“双师”，一个是真正的老师，一个是AI助教。课上由传统的老师授课，AI配合着做记录分析和改进意见，课后AI也可以通过嵌入场景，让教育能够在学校和家庭端打通，提供全方位的助学和反馈。
田溯宁：从个人观念来讲，你觉得今天的AI多大程度上能把老师、教科书或者课程给重构？未来我们还需要这么多老师上课吗？还需要这么多课本吗？还需要考试吗？
俞志晨：我认为比较理想的是八二分这个比例，80%的教育通过AI来实现，20%由老师来进行辅导。
虽然目前AI在我国教育领域的应用率甚至不足10%，但我们也看到新技术出来之后，很多地方敢于去尝试，都在抓紧时间推广试点，也许再过三五年或者更多年后，我们在教育上的优势也会显现。
未来的脑机手术，相当于近视手术？
叶军：目前都是我们向AI提出一个问题，然后AI来回答，如果哪天AI主动觉得它可能需要跟我做一次沟通谈心，并主动向我提问的时候，这会是另外一个里程碑。
田溯宁：这不是挺吓人的吗？还是说AI所判断的谈心时刻也是由你定义的？
叶军：我没有定义，它有自主涌现智慧的新阶段，从技术上讲，我认为这个阶段一定会到来。
彭雷：就像钢铁侠的贾维斯一样的，很多时候不需要钢铁侠主动去问，贾维斯会根据自己的判断告诉钢铁侠哪里有危险，主动发起互动甚至提问。
田溯宁：王总怎么看待这个趋势？
王斌：主动智能确实也是大家努力的方向。不过严格来说主动智能这个形式本身早就有了，比如网页弹个推荐广告也算主动，它可能知道你想买这方面的东西。
但是要做到通过深入了解主动向人类发出灵魂一问，这个还需要时间，很多人也在往这个方向努力。
田溯宁：对于脑机接口我也很感兴趣，能给我们简单讲一下这个手术是怎么进行的吗？十年之后我们会看到一群人头戴天线坐在一起开会吗？这样的人比我们更聪明吗？
彭雷：我在美国见了五六个志愿者，他们在美国有一个叫脑机接口pioneer（先锋）的群，这些人都是自愿投身于此，想要率先成为脑机接口的尝试者。而且这些人并不都是患病者，有些就是健康人。包括这次马斯克要招一个受试者接受手术，但英雄帖一发就有1500人报名，其中很多是健康人。
手术过程需要去掉一块颅骨，然后将一个可埋在体内的电子设备植入进去，这个设备在医学上叫IPG。
设备有芯片、有电池，我们可以理解为埋了一个apple watch在脑袋里面，然后它上面有比头发丝还细十几倍的细丝，插入到大脑皮层3毫米左右，连接到神经元，神经元一放电设备就会知道，把信号通过无线传出来。
田溯宁：那会不会用着用着没电了？
彭雷：现在全植入的方式就是一天只能工作8个小时，晚上得放一个无线充电器，吸盘吸在脑袋上，隔着皮肤充电。
田溯宁：我们在座的各位都很有想象力，提到枕头也可以充电。
彭雷：这都是工程问题，以后能够不断解决。
田溯宁：那风险呢？
彭雷：严格意义上讲，脑机接口手术跟SpaceX发射载人飞船的风险其实差不多。对于医生来说，他们觉得开颅的小手术没什么，但我们的恐惧心理很难克服。
我相信随着技术发展，植入体手术的开口会逐步缩减，最后可能是微缝或者微孔，甚至更理想的方式就是变成做近视眼手术一样。
近视眼手术诞生40年，最初每年只能做几千个，人们都很恐慌。但是几十年过去了，大家发现随着技术成熟，半飞秒、全飞秒手术现在15分钟就能做完还没损伤，一年能做四百万例。
脑机其实也是一样，当它的手术难度降到跟激光矫正近视眼差不多，感受很好的时候，大家的接受度自然也会上来。
田溯宁：变革刚刚开始，总会有不同的声音。
但如果AI作为一种强大的推动力，真的能使得人类的生命得以延长，生命质量得以提高，这样的变革就是极富意义的，代表着文明和进步。
当然，很多担忧和质疑的声音也并非没有道理。我看过凯文·凯利的一本书叫《技术的力量》，他提到，每次技术创新都有恶和善的两面，就连石器时代，人类拿着石斧头可以去砍柴，捕捉野猪做食品，也可以做武器杀自己的同类。这个问题一直延续到原子弹发明都始终没变，但我们要相信人类文明进步之路上总是善比恶多。
另外，从历史规律发展来看，不管外部政治经济局势怎样变化，技术如何变革，人们对效率的追求、对平等的追求都是不变的，我们要时刻记住这一点。
无论作为投资者、企业家、创业者还是一个普通参与者，我觉得大家都应该积极去面对和拥抱AI。
换言之，要相信AI，就像我们相信电力给人带来光明，相信互联网一样。

14 3 月 2024

首个AI软件工程师震撼硅谷！手握10块IOI金牌，他们铁了心砸掉程序员饭碗

转自：量子位 | 公众号 QbitAI

一觉醒来，程序员怕是真要失业了。

首个AI软件工程师一亮相，直接引爆整个科技圈。只需一句指令，它可端到端地处理整个开发项目。

在SWE-bench基准测试中，它无需人类帮助，可解决13.86%的问题。

相比之下，GPT-4只能处理1.74%的问题，且都需要人类提示告知处理哪些文件。

可以说，它远远超过了此前所有AI大模型。

从零构建网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。

就是一些不熟悉的技术，给它看一篇博客文章。它也能立马搞定。

比如用ControlNet，生成带有隐藏文字的图像，Devin就是一点就通~

据介绍，它已经成功通过一家AI公司面试，并且在Upwork上完成了实际工作。

而这背后的公司Cognition，虽然是初创公司，但小而精悍。

在招人信息中明晃晃写着：我们有10个IOI金牌得主。

让同行们直呼：哦莫，疯了吧~

目前Devin尚未公测，不过已经有少部分人拿到了资格，开始实测了一波……

首个AI软件工程师亮相

Devin被介绍为世界首个完全自主的AI软件工程师。

它在长程推理和规划上面下了很大功夫，可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

在这之中，进行到任何一步它都可以回调所有相关的上下文信息，保证整体逻辑性，并方便随时校正错误。

既然是一个端到端AI，软件开发人员常用的工具，比如shell、代码编辑器和浏览器等等，Devin也都配备（沙盒计算环境中），主打一个全方位服务。

最终的Devin，让人类只需要发号施令，其他什么也不用做。

具体来看，其主要能力有以下六个：

1、端到端构建和部署程序

Devin可以帮我们解决的不只有是代码，还包括与之相关的整个工作流。

比如，当我们需要设计一个网页游戏时，Devin不仅能生成网页，还能直接完成服务端的部署，然后直接发布上线，省去了中间的人工操作。

只需要告诉Devin，我们想做一个个人网站，里面运行一个Devin定制版的生命游戏。

然后Devin表示自己会先搭建网站的基本架构，并询问了有没有更具体的需求。

在明确要求之后，Devin给出了这样一份任务清单：

创建React应用，安装UI模块等依赖
用React和UI模组搭建前端环境
部署服务器并确保其在私有IP下运行
通过CDN向首页添加p5.js库
在React中部署并验证游戏的功能和资源是否正确配置

最终完成全部工作之后，一个即点即玩的游戏链接就呈现在了我们面前。

2、自主查找并修复bug

不仅能一气呵成完成开发部署，Devin的debug能力也是一流。

开发者给Devin一个GitHub链接，让它先熟悉项目情况，然后一会儿要准备数据进行测试。

接着，Devin就会按部就班地编写测试用的程序并准备好有关数据，然后运行。

结果，在开发者已经发布的完整项目之中，Devin还真的找到了连开发者自己都没有发现的漏洞。

发现漏洞之后，Devin会回溯报错出现的位置及对应的数据，然后分析原因并给出解决方案。

最终经过调试，程序的bug被成功修复，完美通过了测试。

3、训练和微调自己的AI模型

除了这些一般的程序或项目，作为一个全能型AI助手，Devin还有能力帮助人类训练和微调其他AI。

对于一些常见的模型（比如示例中的Llama），用户只需要在promot中提及模型的名称，Devin就直接知道要训练哪个模型。

而在这个示例中，微调的具体方法（QLoRA）是以GitHub链接的形式输入给Devin的。

接到指令后，Devin还是像处理平常的程序一样边规划边执行，所需环境和依赖，还有模型本体，都会自动下载安装。

这些准备都完成之后，微调工作就会有条不紊地进行，而且其中的状态可以实时监控。

4、修复开源库

Devin的能力不仅在于开发者自己本身的项目，开源社区里的，它也能hold住。

比如我们只需要把GitHub项目的issue链接丢给Devin，它就能立即完成所需的所有配置，并自动收集上下文信息，然后开始解决问题。

当然，开源项目的功能请求（feature request）也没问题，和修问题的流程一样，自己搞好配置，收集上下文，然后就开始编码。

5、成熟的生产库也能做贡献

还没完，业已成熟的生产库，Devin也能给咱秀一把。

官方介绍，sympy Python代数系统中有一个对数计算的错误，就被Devin顺利解决：

配置环境、重现bug，自行编码并修复、测试，再次一气呵成。

6、不熟的技术，现学现卖

最后，遇到自己不会的技能，Devin可以直接现学，并迅速付诸应用。

把你新刷到的技术文章链接直接丢给Devin：

Hi Devin！我在这个博客文章中（附网址）发现，可以生成带有隐藏文本的图像。文中提到了一个脚本，你能配置好它，然后为我真的生成一些图片吗？

Devin接到请求后，首先询问了更为详细的需求，然后开始阅读博客文章，并像平常一样规划出了行动方案。

有了详细的行动方案后，它立刻就在数分钟内进行代码编写和调试。

同样的，在这里遇到bug也不用惊慌，Devin同样有能力直接进行修复。

完成工具的搭建后，Devin也没有劳烦人类自行配置使用，而是一气呵成，最终生成了咱们要的带隐藏文字的图像：

可以说表现相当令人惊艳。

而在具体测试中，Devin取得的成绩同样亮眼。

在评估Devin的表现时，团队没有使用常见的HumanEval，而是用了更具挑战性的SWE-bench。

这个数据集是由GitHub中的实际问题组成的，Devin不借助任何辅助，就取得了13.86%的最高解决率。

而同样在无辅助的条件下，GPT-4的问题解决率为零，此前的最佳水平是1.96%，加入辅助也才4.8%。

公司人均一块IOI金牌

如此炸天的新成果，背后却是一家名不见经传的初创公司。

但这种“名不见经传”背后，实际是一个10人员工的编程天才团队，IOI金牌就有10块…人均一块。

Devin背后公司名为Cognition AI，总部设在纽约和旧金山，定位是一家专注于推理的应用AI实验室。

此前这家公司一直秘密工作，于两个月前正式注册成立。

目前该团队规模仅有10人，但共揽获了10枚IOI金牌，创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。

据悉，Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。

联合创始人兼CEO Scott Wu，根据我们目前搜到的资料，Scott Wu曾就读于哈佛大学，曾是Lunchclub的联合创始人兼CTO。曾连续三年揽获IOI金牌：联合创始人兼CTO Steven Hao，毕业于MIT计算机专业，之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。也曾是IOI金牌得主：联合创始人兼CPO Walden，曾于哈佛大学攻读计算机科学和经济学相关专业，还曾从事MIT PRIMES密码学和机器学习方向的计算机科学研究，还是沃顿商学院高中投资大赛北美地区决赛入围者。

据X推文的转发顺藤摸瓜，还有一位创始成员被扒了出来。

Neal Wu，同样有哈佛大学教育经历，曾在tryramp、GoogleBrain工作过。

整个团队长期目标，意在通过解决推理问题，在广泛的学科领域解锁新的可能性，而“代码仅仅是开始”。

不过对于Devin，目前他们尚未透露是如何实现这一壮举的，包括到底是使用自己的专有模型还是第三方模型。

此外，Cognition AI目前已获得硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。

众所周知，彼得蒂尔以挖掘这种极具突破性的创新项目著称，而且哈佛背景的创业者更是和他渊源紧密。

上一个他早期投资中类似背景，最知名的是扎克伯格和Facebook。

“自动化软件工程与自动驾驶类似”

Devin一亮相，让不少工程师大惊失色：软件工程师…要失业了？？？

不过也有人依然乐观：终于有AI让我们从繁重的编程任务中解脱出来。

前特斯拉AI总监卡帕西倒是给了一颗定心丸。

自动化软件工程，目前看起来与自动化驾驶类似。

具体体现在发展进程上：首先人类手动编写代码，然后 GitHub Copilot 自动完成几行，再之后ChatGPT 编写代码块，现在就是Devin的出现。

接下来，他认为自动化软件工程会演变成为协调开发人员需要串联的许多工具一起编写代码：终端、浏览器、代码编辑器等。以及人类负责监督，逐渐转向更高级别工作。

结合卡帕西的经历和对自动驾驶的理解，他表达的更多是一种渐进式推进，即会有一段时间的人机共驾，然后在数据和迭代反馈后，才能实现完全无人驾驶。

自动化软件也类似，先低代码，然后零代码，最后完全不需要人写代码。

Perplexity AI CEO给出了个高度的肯定：这应该是任何Agent的第一个演示。

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

德扑AI之父、前FAIR（Meta）研究科学家、现已加入OpenAI的Noam Brown转发开麦：

2024年是AI激动人心的一年。
所以，程序员们做好被解放的准备了吗？

5 3 月 2024

太火了！最全AI手机产业链梳理

AI巨头都在抢

最近，在人工智能上，很多人都有大动作：苹果停止了自己持续多年的造车项目，并将探索重点也转向生成式 AI；谷歌在发布原生多模态大模型 Gemini 时宣布，未来大模型会整合至安卓系统中；而高通在 MWC 大会上推出的新一代 AI Hub，已支持超过 75 种主流 AI 模型在端侧的加速。现在，从手机厂商到科技公司，再到芯片公司，英雄所见略同。

我们可以预见，随着技术的进步与行业生态的构建，未来我们还会看到更加智能化的拍照、更快捷的人机交互、更加个性化的内容生成和更高效的任务处理。

使用生成式 AI，过去复杂的工作将会变得更简单。人们可以无需打开专业软件，仅发出口头指令就能让 AI 自动完成复杂的工作，大幅提升工作效率。

部署在端侧的生成式 AI，也可以让智能手机更加了解用户的习惯和所处位置。利用情境信息，数字助手将会更加个性化，带来更令人满意的答案，提供更主动的服务。

更进一步，随着 AI 生成能力逐步进入多模态领域，下一代 AI 渲染工具将能利用文本、语音、图像或视频等各种类型的提示生成 3D 物体和场景，最终创造出全新的沉浸式内容体验。

一句话，AI 手机将会为我们带来一场革命。

市场规模

根据Counterpoint预测，2024年生成式AI智能手机出货量将达到1亿台，到2027年出货达到5.22亿台，2023-2027年CAGR为83%，届时AI手机的渗透率将达到40%。

相较于纯自研大模型，三星与有大模型基础能力的Google合作，使用GeminiNano处理端侧任务，GeminiPro进行云端任务处理，使混合AI更好融入到手机，甚至改变手机使用习惯；

未来其他安卓开发者亦有望借助Google的AI基础设施，结合部分自研模型快速落地AI功能。

中国信通院数据显示，2024年1月，国内市场手机出货量3177.8万部，同比增长68.1%。今年AI手机出货量将达6000万部。

AI手机的概念也承接着人工智能技术普惠的使命变得愈发火热。

AI手机产业链剖析及龙头股梳理

AI手机产业链包含零部件、手机散热、手机数据、摄像头、屏幕等环节。零部件公司主要包括凯格精机、福蓉科技、力芯微、思泉新材、歌尔股份等；手机散热公司主要包括中石科技、中英科技、杰美特、福莱新材、道明光学等；手机数据公司主要包括每日互动；摄像头公司主要包括韦尔股份、思特威、奥比中光；屏幕公司主要包括京东方A、TCL科技、维信诺。

福蓉科技：国内领先的消费电子铝制关键零部件及精密深加工件的生产商，苹果等多家知名消费电子企业的主要供应商

福蓉科技创始于2011年4月26日，2019年5月23日在上海证券交易所上市，股票代码603327。公司主营业务为智能手机铝制中框结构件材料、平板电脑外壳材料和笔记本电脑盖板、底板、键盘材料以及穿戴产品、手机卡托、按键、铰链等铝制结构件材料的研发、生产和销售。

公司产品线涵盖铝合金材料等产品；产品广泛应用于消费电子、5G等领域。

欧菲光：光学光电行业龙头，市占率中国第一，指纹识别模组出货量稳居全球前列

欧菲光创始于2001年3月12日，2010年8月3日在深圳证券交易所上市，股票代码002456。公司主营业务为智能手机、智能汽车及新领域业务。

公司产品线涵盖光学影像模组、光学镜头、微电子产品等产品；产品广泛应用于智能手机、智能家居等为代表的消费电子和智能汽车领域。

精研科技：公司可穿戴设备用MIM产品终端客户涵盖了JAWBONE，华为等知名企业

精研科技创始于2004年11月29日，2017年10月19日在深圳证券交易所上市，股票代码300709。公司主营业务为传动、精密塑胶、散热、智能制造服务及电子制造板块业务。

公司产品线涵盖MIM零部件及组件、传动类组件及其他、散热类组件及其他、精密塑胶零部件及组件、终端产品等产品；产品广泛应用于消费电子、汽车、智能家居等领域。

近年来，公司业务结构、营业收入、归母净利润、毛利率与净利率情况如下：

光弘科技：国内EMS（电子制造服务）领先企业，制造能力和服务水平从本土EMS企业中脱颖而出

光弘科技创始于1995年3月24日，2017年12月29日在深圳证券交易所上市，股票代码300735。公司主营业务为消费电子类、网络通讯类、汽车电子类等电子产品的PCBA和成品组装，并提供制程技术研发、工艺设计、采购管理、生产控制、仓储物流等完整服务的电子制造服务（EMS）。

公司产品线涵盖消费电子类、网络通讯类、物联网、汽车电子类、智能穿戴类等产品；产品广泛应用于消费电子、EDR、储能、华为、小米、5G、智能穿戴、物联网等领域。

闻泰科技：公司在全球手机ODM（原始设计制造）行业中处于龙头地位

闻泰科技创始于1993年1月11日，1996年8月28日在上海证券交易所上市，股票代码600745。公司主营业务为从事移动通信、智能终端、半导体、电子元器件和材料等产品相关的技术研发。

公司产品线涵盖移动通信产品、半导体、新型电子元器件、移动互联网设备产品相关的技术研发等产品；产品广泛应用于电子设计、汽车电子、笔电、手机、平板、笔电、AIoT（人工智能物联网）、服务器、汽车电子等领域。

华勤技术：全球智能硬件ODM行业第一，智能手机、笔记本电脑、平板电脑出货量超全球的10%

华勤技术创始于2005年8月29日，在上海证券交易所上市，股票代码603296。公司主营业务为智能硬件产品的研发设计、生产制造和运营服务。

公司产品线涵盖智能手机、笔记本电脑、平板电脑、智能穿戴、AIoT产品等产品；产品广泛应用于消费电子手机及个人家庭数字终端行业市场、笔记本电脑行业市场、数据服务器行业市场、汽车电子行业市场等领域。

以上信息均为公开信息整理，不作为实际操作指导建议，仅供参考！

5 3 月 2024

世界最强AI大模型易主了？昨晚，Claude 3系列模型发布，GPT-4时代终结？

3 月 4 日，被称为 OpenAI 最强竞争对手的大模型公司 Anthropic 宣布推出 Claude3 系列模型，与 Gemini 类似，模型按照大小分为三个：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Opus 目前在官方发布的测试成绩中全方位超越 GPT-4 与 Gemini Ultra。

世界都在说，全球最强AI模型一夜易主。

用Anthropic的话说，Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面，都树立了新的行业基准！

值得注意的是，这次发布的 Claude 3 系列都支持了图像识别能力，以及 200K 的上下文窗口，特定场景还能提供 1M tokens 的长文本输入能力。Opus 和 Sonnet 现在已经可以在 Claude.ai 官网和现在 159 个国家的 Claude API 中使用。Haiku 很快也将上线。我们可以依据自己的需求选用适合的模型，在在智能水平、处理速度和成本之间，找到最佳平衡。

一、目前最强大模型
Opus，是Claude 3系列中最先进的模型。尤其是，Opus在处理复杂任务时，展现了几乎与人类相媲美的理解和表达能力，是AGI领域的领跑者。另外，在大多数 LLM 评估基准上胜过同行，包括 MMLU、GPQA、GSM8K 等。所有 Claude 3 模型在数据分析和预测、内容创作、代码生成以及用西班牙语、日语和法语等非英语语言交流方面显示出更强的能力。

1、更快的反应速度Claude Haiku 是目前市场上同类 LLM 中性价比最高且响应最快的。它能在短短不到三秒钟内，阅读并理解 arXiv 上一篇包含图表和图形的信息量和数据密集型研究论文（大约 10k Token）。在产品发布之后 Anthropic 将进一步提升它的性能表现

就绝大部分工作而言，Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍，且能力更高。在需要迅速回应的任务，如快速信息检索或销售自动化方面，它的表现尤其出色。Opus 的速度与 Claude 2 和 2.1 相当，但其智能程度要高得多。

2、强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的复杂视觉能力。

它们可以处理各种视觉格式，包括照片、图表、图形和技术图纸。

特别是对那些知识库中高达 50% 的内容以 PDF、流程图或演示文稿幻灯片等不同格式存在的客户而言，这将非常有价值。

3、更少幻觉、高准确性以及减少对用户拒绝

以往的Claude模型往往会不必要地拒绝回应，反映了其对上下文的理解有所欠缺。与之前的版本相比，Opus、Sonnet和Haiku在显著减少对可能触碰到系统安全界限的问题的拒绝反应上取得了进展。如下所示，Claude 3模型展现出了对请求的更细致理解，能够更准确地辨识出真正的风险，并在对安全无害的提示上减少了不必要的拒绝。

与 Claude 2.1 相比，Claude Opus 在困难的开放式问题上展示了两倍的准确性提升，并且减少了错误回答的比例。Anthropic的研究者针对模型已知弱点，进行了复杂实际问题的评估。

他们将模型的回应分为正确、错误、不确定三种。其中不确定是指模型表示不知道答案，而非给出错误答案。除了提供更可靠的答案外，Anthropic 宣布还将在 Claude 3 模型中启用引用（citations）功能，使其能够指向参考材料中的确切句子来核实它们的回答。

二、Claude 3 总结及价格介绍Claude 3 Opus

能力最强，在高度复杂的任务上表现出了市场上最好的性能。它能够轻松应对各种开放式提示和未知场景，并以出色的流畅度和人类般的理解能力完成任务。Opus 展示了生成式 AI 所能达到的极限。

Claude 3 Sonnet在能力和速度之间取得了理想的平衡—尤其适用于企业级工作负载。与其他同类产品相比，它在提供强大性能的同时成本更低，并且经过优化，能够在大规模 AI 部署中长时间稳定运行。

Claude 3 Haiku目前最快速、最轻便的模型，能够提供几乎即时的响应能力。它可以极快地解答简单的问题和响应请求。用户将能创建流畅的 AI 体验，仿佛是与真人互动一般。

三、Claude 3 模型使用方法方法一：Opus和Sonnet目前已在Anthropic的API中对外开放，开发者可进行注册并立即使用这些模型。Haiku也将在不久的将来推出。在Claude.ai的网站上，Sonnet已经提供了免费试用，而Opus则已经向Claude Pro的订阅用户开放。

方法二：

打开沃卡API网站：https://4.0.wokaai.com，注册后生成自定义key，参考调用OpenAI 模型的方法即可调用Claude 3系列模型。

官方透明计价！

5 3 月 2024

魅族21 PRO开放式AI终端发布，4999元起售

2月29日，星纪魅族集团正式发布魅族21 PRO开放式AI终端。该公司称，魅族21 PRO是面向AI时代全新打造的“明日设备”，该机型拥有星夜黑、耀夜黑、魅族白、冰川蓝、月桂绿五种配色，其中12GB + 256GB版本售价4999元、16GB + 512 GB版本售价5399元、16GB + 1TB版本售价5899元。

对所有大模型平台开放据魅族介绍，魅族21 PRO是魅族踏入全新AI时代的开端。该机型对所有的大模型平台进行开放，是一个“真正的开放式AI终端”，向开发者提供系统权限、API文档，并开放处理器的AI算力，让开发者拥有充分的自由度，从而实现更多创新功能和应用服务的制作。

为了吸引全球大模型团队参与AI生态的建设，魅族将邀请所有有兴趣的团队在开放平台上开发大模型应用。同时，魅族还针对月活跃用户数最高的大模型应用团队特别设立100万人民币的悬赏机制，激发全球大模型团队的创新活力。基于FlymeOS操作系统的AI能力，魅族21 PRO拥有包括AI灵动键、AI辅助输入、AI图库和AI语音在内的AI新功能。

搭载第三代骁龙8处理器魅族21 PRO拥有6.79英寸21:9比例“单手巨幕”和74mm极窄机身设计，正面采用2K+臻彩屏，512PPI的显示精度使得每个像素点都能展现出极致的细节。同时，该机型还配备120Hz LTPO刷新率和2160Hz PWM高频调光护眼技术，并通过SGS低蓝光无频闪护眼认证。

外观方面，魅族 21 PRO 采用双面灵动星弧设计，背板采用创新星垣工艺。全新打造的魅族泰坦玻璃2.0，使得魅族21 PRO的抗跌落能力比上代机型提升200%以上。

魅族21 PRO还承袭了此前备受业界认可的Aicy灵动环设计。性能方面，魅族21 PRO搭载第三代骁龙8处理器、LPDDR5X和UFS4.0旗舰性能“铁三角”。魅族21 PRO还配备4651m㎡超大面积VC液冷散热系统，同时还搭载智能思维引擎OneMind 10.5。

指纹交互体验方面，魅族21 PRO搭载高通最新一代的mTouch Max广域超声波指纹识别技术，解锁面积从 8mm*8mm提升至30mm*20mm，解锁面积比魅族21大出9倍。通过mTouch Max广域超声波指纹识别技术，魅族21 PRO支持一键无感录入。

同时，压感交互功能的加入，让每一次触摸都变得富有层次感和反馈力。此次魅族21 PRO还调校 mEngine Ultra旗舰横向线性马达，配合独立驱动IC。值得一提的是，魅族21 PRO还带来IP68级防尘防水功能。

将实现多项AI功能基于FlymeOS操作系统，魅族21 PRO将实现包括Aicy语音助手、AI图库在内的多项AI功能。用户通过Aicy助手，不仅可以进行通识问答和专业知识咨询，还可以根据自然语言需求生成文本或图片；AI图库支持使用自然语言搜索图片，并通过图片扩展、魔法消除以及有趣的AI写真功能。

接下来，魅族21 PRO还将迎来AI灵动键和AI辅助输入等全新功能。其中，AI灵动键是将AI融入Flyme用户熟悉的mBack设计当中，只需重按mBack就能随时唤醒系统 AI。

AI辅助输入可自主理解对话场景中的上下文。在生成文本时，AI 辅助输入不仅提供单一选择，更能一次性展示多个备选建议，以满足用户的不同需求。除了生成消息回复外，AI辅助输入还可根据用户需求自动进行长文创作。用户只需输入一句话，AI即可生成一篇完整的种草文案或旅行日记。根据规划，AI灵动键和AI辅助输入等功能将在今年上半年陆续推出。

支持Flyme Link手机域后置摄像头方面，魅族21 PRO采用5000万像素广角主摄像头，1300万像素超广角摄像头和1000万像素长焦摄像头组合。其中，广角主摄像头配备 1/1.3英寸OV50H超大感光影像传感器和f/1.9大光圈；超广角摄像头拥有122°的超广角视野；长焦摄像头支持3倍光学变焦、30倍数字变焦和OIS+EIS混合防抖模式。

此外，魅族21 PRO 3200万像素的超清前置摄像头和全新AI人像焕颜算法的结合，让每次自拍都成为一次美丽的绽放。配合硬件配置，魅族21 PRO在软件调教上也带来全新突破。通过智绘影调功能的引入，魅族21 PRO为摄影爱好者带来更多的创作体验，不仅支持多种滤镜效果和创意拍摄模式，还能根据用户的喜好和风格进行个性化设置。音质方面，魅族21 PRO采用第六代大师级“双”· 超线性扬声器。

通信方面，通过无界天线系统2.0和mSmart Net技术的加持，魅族21 PRO将为用户提供畅通无界的通信体验。在充电续航能力上，除了支持80W Super mCharge有线超充体验，魅族21 PRO还支持50W Super Wireless mCharge无线快充和10W无线反向充电功能，以及5050mAh高密度耐久电池。

魅族21 PRO还支持数字钥匙功能、Flyme Auto深度互联和Flyme Link手机域技术，实现从手机到汽车的无感交互。此外，魅族21 PRO与MYVU AR智能眼镜的声音、视频、导航界面皆可无缝接力，让用户轻松畅享无界流转的使用乐趣。

4 3 月 2024

苹果造车这回真“黄了”，转投AI还在盘算啥？

据悉，该项目的众多成员，将被调往人工智能部门，将专注于推动生成式人工智能项目，这已成为苹果日益重要的战略重心。

苹果大约从2014年开始研发汽车，目标是推出拥有类似豪华轿车内饰、具有语音导航功能的全自动电动汽车。

全球金融危机爆发，美国汽车产业遭受重挫，多方接洽乔布斯寻求合作机会，这为苹果造车梦碎埋下了引线。众人还是围观是苹果还是小米谁先造车成功的时候，苹果放弃了坚持十年的造车计划，“泰坦计划”破产，让很多国内的车企大佬唏嘘不已。

苹果突然宣布的这一决定，包括马斯克、雷军、李想、何小鹏、冯擎峰、卢放等车企高管，纷纷表达了震惊。特斯拉首席执行官埃隆·马斯克转发了苹果停止造车的消息，并配上了两个表情：致敬和香烟。

苹果这个时机选择退出，让转型中的汽车行业少了条“鲇鱼”。考虑到汽车开发时间更长、供应链管理更复杂、截然不同的销售和售后服务体系等等，欠缺造车经验的苹果公司就算要在 2025年以前发布Apple Car，非常艰难。秘密研发十年无果，苹果显然已经失去了电动汽车的入局资格。

苹果转投AI对车企来说并非好消息，在智能化决定车企胜负的下半场，苹果在全球的品牌号召力、在人工智能方面的技术储备，有可能会站上食物链顶端。虽然说坚持就是胜利，但是在恰当的时机进行退出，也是一个理性的选择。苹果是唯一一家还没有正式发布大模型产品的厂商，甚至都很少正面提及。苹果在AI方面似乎一直没有采取任何重大举措，在应用突破性技术中落后于其他科技巨头。

去年，ChatGPT点燃生成式AI热潮，几乎每家大型科技公司都在开发AI产品。生成式AI又有什么魅力，苹果又能在这个领域做出什么样的新突破呢？可以期待一下。

4 3 月 2024

快手发表Direct-a-Video，国产AI导演，自定义视频生成

近日，港城大、快手、天大联合发表Direct-a-Video，成功解耦AI生成视频中物体运动和摄像机运动，让视频生成的灵活性和可控性大大增强！

摘要

Direct-a-Video可以让用户独立指定一个或多个对象的运动和/或相机运动，就像导演一样。该系统提出了一种简单而有效的策略，以分离控制对象运动和相机运动。对象运动通过空间交叉注意力调制来控制，相机运动则通过新的时间交叉注意力层来解释定量相机运动参数。该系统可以独立操作，允许单独或组合控制，并且可以推广到开放领域场景。实验结果表明，该方法具有优越性和有效性。

简介

当前的文本到视频合成方法缺乏对用户定义和分离控制摄像机运动和物体运动的支持，这限制了视频运动控制的灵活性。视频中的物体和摄像机都展示了各自的运动，物体运动源于主体的活动，而摄像机运动影响帧之间的过渡。只有当摄像机运动和物体运动都确定时，整个视频运动才变得明确。因此，分离和独立控制摄像机运动和物体运动不仅提供了更多的灵活性，而且减少了视频生成过程中的歧义。然而，这方面的研究目前受到了限制。

Direct-a-Video可以让用户独立指定摄像机移动和一个或多个物体的运动，实现他们想要的运动模式，就像导演一部电影一样。为了实现这一目标，作者提出了一种策略，通过采用两种正交的控制机制来解耦摄像机移动和物体运动控制。在摄像机移动控制方面，作者通过自监督和轻量级训练方法学习帧之间的转换。在物体运动控制方面，作者利用T2V模型的内部先验知识，通过空间交叉注意力调节实现训练免费的方法。总之，这个框架可以让用户独立或同时控制摄像机移动和物体运动，提供了更大的灵活性。

相关工作

可控运动视频生成

视频生成与运动控制的研究已经引起了越来越多的关注。根据输入媒体的类型，可以将这个领域的工作分为三类：图像到视频、视频到视频和文本到视频。

图像到视频的方法主要是将静态图像转换为视频，其中一种常用的运动控制方法是通过关键点拖拽。然而，这种方法由于关键点的局部和稀疏性而存在一定的局限性。

视频到视频的方法主要是进行运动转移，通过学习源视频中的特定动作，并将其应用于目标视频。这些方法高度依赖于源视频中的运动先验，然而这些先验并不总是实际可用的。

文本生成视频的方法重点探讨了如何实现对视频中物体和相机运动的可控性。与现有方法相比，本文提出的方法不需要运动注释，可以实现对多个物体和相机运动方向的控制，具有更高的灵活性和可用性。与其他方法相比，本文的方法更加直观易用，可以有效地实现视频合成。

方法

概述

本文研究了用户指导下的文本到视频生成，包括用户指定的摄像机移动和物体运动。用户需要提供文本提示和物体词汇，以确定摄像机移动的比例和物体运动的起始和结束位置。系统通过插值生成一系列沿着轨迹的物体框来定义物体的时空旅程。最终，模型生成符合用户要求的视频，创造定制化和动态的视觉叙事。

整体流程：训练阶段学习相机运动，推理阶段实现物体运动。训练阶段使用静止相机拍摄的视频样本，并通过增强来模拟相机运动。增强后的视频作为U-Net的输入。相机参数也被编码并注入到可训练的时间交叉注意力层中，以调整相机运动。推理阶段，通过训练好的相机嵌入器和模块，用户可以指定相机参数来控制其运动。同时，我们以无需训练的方式引入物体运动控制：根据用户提示的物体词和相应的框，调整帧级和物体级的空间交叉注意力图，以重新定位物体的空间-时间大小和位置。值得注意的是，推理阶段的调整不涉及额外的优化，因此增加的时间和内存开销可以忽略不计。

摄像机运动控制

我们选择三种类型的相机运动：水平平移、垂直平移和变焦，参数化为c cam三元组作为相机运动的控制信号。这不仅允许定量控制，而且对用户友好，用户可以指定三元组，就像输入文本提示一样简单。

数据构造和增强。由于需要识别和过滤目标运动，从现有视频中提取摄像机运动信息的计算成本很高。本文提出一种使用c cam驱动的相机增强的自监督训练方法，从而绕过了对密集运动标注的需要。

首先，我们正式定义了相机运动参数。在实践中，对于给定的c cam，通过对用固定摄像机捕获的视频的裁剪窗口应用平移和缩放来模拟摄像机运动。这种数据增强利用了现成的数据集，如movishot。

相机嵌入。为了将c cam编码为相机嵌入，我们使用了一个相机嵌入器，其中包括一个傅里叶嵌入器和两个mlp。一个MLP联合编码平移运动，而另一个编码缩放运动。我们根据经验发现，对平移和缩放进行单独编码有助于模型有效区分这两种不同类型的相机移动。

相机模块。我们通过时间层注入相机控制信号。受空间交叉注意力解释文本信息方式的启发，本文引入了新的可训练的时间交叉注意力层，专门用于解释相机信息，称为相机模块，被添加到T2V模型的每个U-Net块中现有的时间自注意力层之后，如图2所示。与文本交叉注意力类似，在此模块中，查询从视觉框架特征F映射，我们分别映射来自平移嵌入e xy和缩放嵌入e z的键和值。通过时间交叉注意力，摄像机运动被注入到视觉特征中，然后作为门控残差添加回来。我们将这个过程表述如下:

为了在学习相机运动的同时保留模型的先验知识，冻结原始权重，只训练新添加的相机嵌入器和相机模块。这些是以摄像机运动c cam和视频字幕c txt为条件的。训练采用扩散噪声-预测损失函数：

物体运动控制

我们选择边界框作为物体运动的控制信号，是因为它在可用性和可访问性方面达到了有利的平衡。边界框比密集条件(例如草图)更有效，因为它们不需要绘图技能，并且它们提供了对象大小的说明，这是稀疏条件(例如关键点)缺乏的特征。

本文选择通过将扩散过程引导到我们想要的结果，来充分利用预训练T2V模型的固有先验。之前的T2I工作已经证明了通过编辑交叉注意力图来控制物体的空间位置的能力。同样，在T2V模型中采用空间交叉注意力调制来制作物体运动。

在交叉注意力层中，查询特征Q来自视觉标记，键K和值特征V从文本标记映射。我们将注意力图QK⊤修改如下：

注意力放大。考虑第k个框中的第n个物体，由边界框B kn包围，由于我们旨在增加该区域内物体存在的概率，我们可以放大B kn区域内相应的物体单词(在提示中为T n)的注意力值。根据DenseDiff的结论，这种放大的规模应该与bkn的面积成反比，即盒子面积越小，注意力增加的幅度越大。由于我们的注意力放大是在盒形区域上进行的，这与对象的自然轮廓不一致，因此将放大限制在早期阶段(对于时间步长t≥τ， τ是放大截止时间步长)，因为早期阶段主要专注于生成粗布局。对于t < τ，放松这种控制，使扩散过程能够逐渐细化形状和外观细节。

注意力抑制。为了减轻不相关单词对指定区域的影响，并防止对象特征意外分散到其他区域，抑制了不匹配的查询键标记对的注意力值(起始标记和结束标记除外，否则视频质量会受到影响)。与注意力放大不同，注意力抑制应用于整个采样过程，以防止相互语义干扰，在多目标生成场景中，一个目标的语义可能无意中渗透到另一个目标中。

我们对每一帧中的每个对象进行这种调制，从而可以确定完整的时空对象轨迹。请注意，尽管这种调制在每个帧中独立执行，但生成的视频保持连续，这是由于预训练的时间层保持了时间连续性。

实验

实验设置

实现细节。采用预ModelScopeT2V作为基础模型，集成所提出的可训练相机嵌入器和模块，以促进相机运动学习。

数据集。对于相机运动训练，我们使用movishot的一个子集。尽管训练样本的数量和类别有限，训练后的相机模块仍然能够适应一般场景。对于对象控制评估，收集了200个框-提示对的基准，包括不同的框大小、位置和轨迹，提示主要关注自然动物和物体。

评估指标。（1）为了评估视频生成质量，采用了FID-vid和FVD，参考集是来自MSRVTT的2048个视频，用于相机运动任务，参考集是来自AnimalKingdom的800个视频，用于物体运动任务。（2）为了测量目标框对齐，我们均匀地从每个视频样本中提取8帧，并仅在框区域内计算CLIP图像-文本相似度(CLIP-sim)。（3）为了评估摄像机和物体运动的对齐，引入了流误差。利用VideoFlow，从生成的视频中提取流图。然后将这些流与真实流(来自给定的摄像机运动和对象框)进行比较。在评价摄像机运动时，流误差在整帧上计算;在评价物体运动时，只计算框区域。

基线。包括AnimateDiff（用于相机运动）、Peekaboo（用于物体运动）和VideoComposer（关节控制）。

摄像机运动控制

与AnimateDiff相比，该方法可以支持混合摄像机运动，且更易于使用。与VideoComposer相比，该方法可以更轻松地控制摄像机速度，且不会影响前景物体的运动。该方法在视觉质量和摄像机控制精度方面表现更好。

物体运动控制

与现有的方法相比，该方法可以更好地控制物体的位置和运动，避免了语义混淆和缺失等问题。在定量比较中，该方法在生成质量和物体运动控制方面均优于VideoComposer。

摄像机运动和物体运动的联合控制

本方法支持同时控制摄像机移动和物体运动，通过图5展示了这种能力。给定相同的盒子序列，该方法可以生成具有不同前景-背景运动组合的视频。例如，图5(a)说明静止的盒子并不总是意味着物体静止不动，通过设置不同的摄像机移动，系统可以生成斑马静止不动、向右行走或向左行走的视频。同样，图5(b)表明移动的盒子并不一定意味着物体本身在运动，它可能在原地静止，而摄像机在移动。与现有方法只关注物体不同，该方法使用户能够明确指定摄像机移动和物体运动，提供了定义整体运动模式的灵活性。

消融分析

注意力放大。缺乏注意放大会导致模型失去其定位能力，即物体不会跟随框选框，如图6中的第一行所示。同时，这也会导致CLIP-sim分数下降和流错误增加。

注意力抑制。为了减轻多物体场景中意外的语义混合，特别是当物体具有相似特征时，引入了注意抑制。如果没有抑制，物体A的提示特征也会关注物体B的区域，导致语义重叠。通过启用注意抑制，可以解决这个问题。

相机嵌入设计。将平移（c x，c y）和缩放（c z）运动分别编码到相机控制中，与将它们合并编码的方法进行对比。结果表明，分别编码不同类型的相机运动可以更好地控制相机移动，流错误从0.46增加到1.68。这突显了分别编码不同类型的相机运动的优势。

限制

本方法可以对物体和相机运动进行分离控制，但输入信号之间可能存在冲突，需要合理的用户交互来解决。处理重叠的盒子时，一个物体的语义可能会干扰另一个物体，可以通过自适应自动分割区域来缓解这个问题。目前的数据增强方法限制了系统产生逼真的3D相机运动，未来可以采用更复杂的增强算法来解决这个问题。

总结

Direct-a-Video用于实现对摄像机运动和物体运动的独立和用户导向的控制。该方法通过集成自监督训练方案来解耦摄像机运动和物体运动，并使用无需训练的调制来控制物体运动。实验评估表明，该方法能够有效地实现摄像机运动和物体运动的分离和联合控制，使Direct-a-Video成为一种高效灵活的定制运动创作工具。

4 3 月 2024

成立仅 9 个月的 AI 初创公司挑战硅谷巨头

上周，AI 界的一件大事是：微软宣布与总部位于巴黎的法国初创公司 Mistral AI 建立合作伙伴关系。后者成立时间仅 9 个月，而公司 CEO 是年仅 31 岁的亚瑟.门施。需要注意的是：

微软将向 Mistral AI 投资 1630 万美元，以换取该公司的少量股份。而 Mistral AI 也将在微软云上提供自己的 LLM，以便开发人员可以通过微软云 Azure 购买。如，该公司上周发布的最新 AI 模型 Mistral Large，就将首先通过微软的云平台 Azure 提供。

第二，这笔交易也凸显了微软可能想要做一个平台的野心。考虑到之前微软与 OpenAI 的交易，微软可以让企业在自己平台上访问由多个不同供应商创建的 AI 模型。

第三，作为一家成立仅 9 个月的初创公司，Mistral AI 在 AI 领域实际上备受关注，被誉为是“欧洲版的 OpenAI”。根据三位联合创始人的说法，Mistral AI 成立的部分原因是，他们认为 AI 领域的很多钱都被浪费掉了：“我们希望成为 AI 领域资本效率最高的公司，这就是我们存在的原因。

”如该公司刚刚推出的新 AI 模型 Mistral Large。根据该公司 CEO 亚瑟.门施告诉《华尔街日报》的说法：该模型可以执行一些推理任务，可与 OpenAI 迄今为止最先进的语言模型 GPT-4 以及谷歌的新模型 Gemini Ultra 相媲美。但该新模型的训练成本不到 2000 万欧元（约 2200 万美元）。相比之下，奥特曼去年在 GPT-4 发布后表示，培训公司最大的模型成本“远远超过” 5000 万美元至 1 亿美元。

一，亚瑟.门施其人其事Mistral AI 由三位联合创始人成立，分别是：现年 31 岁的亚瑟.门施、32 岁的蒂莫西·拉克鲁瓦，以及 33 岁的纪尧姆·兰普尔。其中，CEO 亚瑟.门施来自谷歌旗下 DeepMind 的 Google AI 部门，他在团队中从事构建 LLM 的工作。后两位创始人，则在扎克伯格 Meta 的巴黎 AI 实验室工作。

根据我查阅的资料：Mistral AI 成立仅九个月，目前估值略高于 20 亿美元。在与微软公司合作前，其已经从硅谷顶级风投机构光速创投、A16z 等投资者那里筹集了 5 亿多美元。其中，光速创投是 Mistral AI 的种子轮领投者，而 A16z 则是 A 轮领投者。

该公司的 CEO 亚瑟.门施是备受关注的人物。根据《华尔街日报》的报道：31 岁的门施从学术界起步，一生中的大部分时间，都在研究如何提高 AI 以及机器学习系统的效率。长期以来，门施一直在学术追求与创业追求之间徘徊。他在巴黎西部的郊区长大，母亲是物理教师，父亲则经营一家小型科技企业。

之后，门施就读于法国一些顶尖的数学和机器学习学校。他说：“我确实喜欢新体验。我很快就会感到无聊。”门施身材高大，有一头浓密的黑发，他的外表和行为都不像科技极客的 CEO。作为一名运动员，他在 2018 年完成博士论文之前的几个月内，用了不到 3.5 小时的时间，完成了巴黎的马拉松比赛。

门施一直致力于让事情变得更高效。2022 年时，他已经是一篇关于新型 AI 模型 “Chinchilla” 论文的主要作者之一。该论文改变了对 AI 模型的规模、构建模型所使用的数据量以及模型性能之间关系的理解，即所谓的人工智能缩放定律。……

29 2 月 2024

苹果惊天一跃！放弃汽车梦，全力押注AI与Vision Pro，掀起科技圈新革命！

在科技圈，每一次变革都伴随着惊喜与意外。这不，就在周二，苹果突然宣布暂停了其备受瞩目的汽车项目，让人大跌眼镜！不过，别急着叹息，苹果这次可是要全力押注AI和Vision Pro，准备掀起一场科技圈的新革命！

说起来，苹果的汽车梦可谓是一波三折。想当年，苹果雄心勃勃地计划推出一款颠覆性的自动驾驶汽车，让所有人都为之侧目。可现实往往是残酷的，技术瓶颈、市场竞争，这些难题像一座座大山，挡在了苹果汽车梦的前面。

别小看自动驾驶汽车技术，这可是个烧钱的巨坑。不仅要有巨额的资金投入，还得有顶尖的技术人才。更别提，这领域里早已是强手如云，传统汽车制造商、新兴科技公司，大家都想分一杯羹。

苹果要想在这个领域里脱颖而出，难度可不是一般的大。而且，汽车市场也在悄然变化。电动汽车的崛起、共享出行模式的普及，这些都在改变着传统汽车市场的格局。苹果作为后来者，想要在这个变革中找准自己的位置，可不是那么容易的事。

不过，苹果可不是那种轻易放弃的公司。面对汽车项目的挑战，他们选择了转向AI和Vision Pro业务。这一转变，不仅展现了苹果对市场趋势的敏锐洞察，更显示了他们在技术创新上的决心和勇气。

AI，这可是当今科技圈最热门的话题。智能家居、医疗健康、金融服务，哪个领域都离不开它。苹果作为全球科技巨头，自然不会放过这个发展机遇。加大在AI领域的投入，不仅能让苹果在未来的科技竞争中占据更有利的位置，还能为消费者带来更多创新的产品和服务。

而Vision Pro，作为苹果近年来推出的一款重要产品，同样展现出了巨大的市场潜力。随着人们对智能家居和智能办公需求的不断增加，一款集成多种功能的智能设备，无疑能满足用户的多样化需求。苹果通过专注于Vision Pro的研发和推广，有望将其打造成为一款现象级的产品。

苹果的这一转变，无疑给整个硅谷带来了不小的震动。作为科技圈的领头羊之一，苹果的每一次动作都牵动着整个行业的神经。

如今，随着苹果将重心转向AI和Vision Pro业务，其他科技公司也不得不重新审视自己的发展战略和市场布局。对于其他科技公司来说，苹果的转变既是一个挑战也是一个机遇。他们需要密切关注苹果在AI和Vision Pro领域的动向，以便及时调整自己的战略和产品布局。同时，他们也可以从苹果的转变中汲取经验和教训，为自己的发展找到新的方向和动力。

苹果的这一转变，无疑为其未来的发展带来了新的挑战和机遇。在AI和Vision Pro领域，苹果能否延续其创新的基因并再创辉煌？这无疑是所有果粉和科技爱好者们最为关心的问题。

从目前的情况来看，苹果在AI和Vision Pro领域已经具备了一定的技术储备和市场基础。未来，只要苹果能够持续加大在这些领域的投入和研发力度，不断推出具有创新性和竞争力的产品，相信它一定能够在这些领域取得更加辉煌的成绩。总之，苹果的这一转变是一场科技圈的“地震”。

它不仅改变了苹果自身的发展方向和市场布局，也对整个科技行业产生了深远的影响。在未来的日子里，让我们拭目以待，看苹果能否在AI和Vision Pro领域再创辉煌！

29 2 月 2024

AI芯片又一跨国合作达成！

当地时间2月27日，加拿大AI芯片初创公司Tenstorrent宣布与日本尖端半导体技术中心（LSTC）达成多层次合作协议，双方将合作设计先进人工智能（AI）芯片。

值得一提的是，Tenstorrent将与日本半导体公司Rapidus合作开发最先进的逻辑半导体技术，其目标是实现世界上最好的周期时间缩短服务。Tenstorrent还将利用其Ascalon RISC-V CPU内核技术，为LSTC的新型边缘AI加速器共同开发RISC-V架构CPU芯片。

近年随着ChatGPT、Sora等大规模生成式AI应用爆发，云计算、AI服务器等市场对AI芯片需求大幅增长，业界对AI芯片的关注度持续上升。

在AI市场大热之下，除了企业相互合作加强研发外，近期业界消息还显示，AI芯片产能稀缺，AI所需的重要内存技术HBM售罄，高端AI服务器需求量上升…

AI芯片产能稀缺

AI芯片需求暴涨，其产能也引发业界关注。此前2月初，据媒体报道，英伟达与英特尔达成了代工合作意向，持续每月生产5000块晶圆。如果全部用于生产H100芯片，在理想情况下最多可以得到30万颗芯片。

2月下旬，英特尔向业界首推面向AI时代的系统级代工——英特尔代工（Intel Foundry），并拓展其路线图，以在接下来的几年内确立并巩固制程技术领先性。

对此晶圆代工龙头台积电创办人张忠谋在日本熊本厂JASM开幕仪式上表示，半导体产业未来一定会有更多需求，最近AI人士告诉他需要的不只是几万、几十万和几千万片产能，而是3间、5间甚至10间晶圆厂。

不过张忠谋认为，AI带给半导体产业的需求，在某种程度上取一个中间值，即从成千上万片产能到10间晶圆厂中间找寻到答案。

针对AI芯片供不应求的现象，富士康母公司鸿海精密董事长刘扬伟表示，鸿海今年AI服务器业务相当好，但目前整体AI服务器产业仍面临AI芯片大缺货的状况，即便下半年AI芯片供应舒缓一些，还是赶不上需求，必须等到上游新厂产能开出，才有办法解决产业链缺料问题。

HBM售罄

随着AI爆热，市场对高带宽内存（HBM）需求旺盛，存储大厂们瞄准HBM，积极扩产布局。其中，三星计划在今年第四季度之前，将HBM的最高产量提高到每月15万至17万件，该公司斥资105亿韩元收购了三星显示位于韩国天安市的工厂和设备，以扩大HBM产能，同时还计划投资7000亿至1万亿韩元新建封装线。

SK海力士和美光科技纷纷表示HBM订单约满。SK海力士副社长Kim Ki-tae表示，今年公司的HBM已经售罄，已开始为2025年做准备；美光科技CEO Sanjay Mehrotra透露，美光2024年的HBM产能预计已全部售罄。

高端AI服务器需求量将逾六成

据TrendForce集邦咨询最新预估，以2024年全球主要云端服务业者（CSP）对高端AI 服务器（包含搭载NVIDIA（英伟达）、AMD或其他高端ASIC芯片等）需求量观察，预估美系四大CSP业者包括Microsoft、Google、AWS、Meta各家占全球需求比重分别达20.2%、16.6%、16%及10.8%，合计将超过6成，居于全球领先位置。其中，又以搭载英伟达 GPU的AI服务器机种占大宗。

TrendForce集邦咨询指出，近期英伟达整体营收来源以数据中心业务为关键，主因其GPU服务器占整体AI市场比重高达6~7成，只是后续仍须留意三大状况，可能使英伟达发展受限。

TrendForce集邦咨询认为，其一，受国际形势变化影响，中国将更致力于AI芯片自主化。而英伟达推出的H20等中国特规方案，性价比可能不及既有的H100或H800等，中国客户采用度可能较先前保守，进一步影响英伟达市占率。

其二，在具规模及成本考量下，美系大型CSP业者除Google、AWS外，Microsoft、Meta等亦有逐年扩大采自研ASIC趋势。

其三，来自AMD的同业竞争，AMD采高性价比策略，对标英伟达同级品，AMD提供仅60~70%价格，甚至代表性或具规模客户能以更低价策略方式抢进市场，预期2024年尤以Microsoft为最积极采纳AMD高端GPU MI300方案业者。

27 2 月 2024

黄仁勋：以后不需要学习编程，交给AI就行了

这并不是技术高管第一次预测编程的消亡。

最近在迪拜举行的世界政府峰会上，英伟达首席执行官黄仁勋提出了违反直觉的做法，他认为这是科技公司首席执行官建议年轻人学习编程的悠久传统。黄认为，即使在人工智能（AI）革命的早期阶段，编程也不再是一项重要技能。Nvidia 负责人表示，通过人工智能处理编码，人类可以专注于更有价值的专业知识，如生物学、教育、制造或农业。

在上面的推文可以看到。在黄仁勋在社交媒体上分享的长达一分钟的演讲片段中，这位英伟达首席执行官表示，10-15年来，几乎每个坐在科技论坛舞台上的人都会坚持认为，年轻人学习计算机科学“至关重要” ，学习如何对计算机进行编程。“事实上，情况几乎完全相反，”黄有反直觉的感觉。

“我们的工作是创造计算技术，让任何人都不必编程。编程语言是人类的，”黄仁勋告诉峰会与会者。“现在世界上的每个人都是程序员。这就是人工智能的奇迹。”

在发表了违反直觉的宏大声明后，这位英伟达首席执行官推测，人们可以学习技能，成为更有用领域的专家。生物学、教育、制造、农业等领域的专家可以节省学习计算机编程的时间，以实现更富有成效的追求。因此，人们唯一需要的语言就是他们出生和长大的语言，并且已经是他们的专家。

然而，人们仍然需要知道如何以及何时应用人工智能编程。因此，黄在简短剪辑的结尾断言：“提高每个人的技能至关重要，我相信提升技能的过程将是令人愉快的、令人惊讶的。”

随着上述视频在社交媒体上广泛传播，科技行业分析师Patrick Moorhead激动地发表了评论。这位顶级分析师向他的 Twitter / X 关注者指出，“30 多年来，我一直听说‘XYZ 将杀死编程’，但我们仍然没有足够的程序员。” 穆尔黑德列出了几种编程语言和工具，他说这些语言和工具应该消除编码——但显然没有。

Moorhead 也将其与计算机 DTP 革命进行了比较。他表示，人工智能不会消灭编码，而是将其交到更多人手中。“就像桌面出版并没有扼杀‘创造力’，它只是扩展了它。” 虽然我同意 DTP 和其他数字艺术工具并没有扼杀创造力，但我不记得有人建议从手术刀、喷雾安装和纸片转向 DTP 实际上会阻碍创造力。

“

AI对就业市场的影响

只有时间才能证明未来几个月和几年内出现的人工智能应用浪潮的实际影响。然而， Bloomberry最近发表了一份关于ChatGPT推出以来可用的自由职业量的研究。这项研究表明，写作和翻译自由职业者受到人工智能竞争对手的打击最严重。与此同时，数据显示，自 ChatGPT 推出以来，软件开发职位增加了 6%。

27 2 月 2024

英伟达公开最快AI超级计算机Eos：集成了4608个H100！

近日，英伟达（NVIDIA）首度对外公开了其最新的面向企业的AI超级计算机Eos，这是专为数据中心规模的高阶AI开发所设计，也是英伟达目前速度最快的AI超级计算机。

据介绍，Eos配备了576个NVIDIA DGX H100系统，每个系统搭载8个H100 GPU，即共计拥有4,608个Nvidia H100 GPU，同时还配备了1,152个英特尔Xeon Platinum 8480C处理器（每个CPU有56个内核），使得Eos在HPC和AI的性能表现令人印象深刻。此外，Eos采用英伟达的Mellanox Quantum-2 InfiniBand技术，支持高达400 Gb/s数据传输速度，对训练大型AI模型和系统扩展至关重要。

根据英伟达公布的数据显示，在最新的Top500超级计算机当中，Eos的峰值性能达到了188.65 Peta FLOPS ，成为了全球第九大超级计算机。同时，Eos的FP64性能更是居于前列，达到了121.4 Peta FLOPS。Eos不仅供英伟达自身使用，其构架也为其他想打造面向企业的超级计算机的公司提供蓝本。英伟达在视频中表示：“EOS 每天都会迎接数千名英伟达内部开发人员进行人工智能研究的挑战，帮助他们解决以前无法解决的问题。”

英伟达表示，除强大硬件，Eos专为AI开发和部署设计的强大软件，包括协调和集群管理工具、加速运算存储和网络库，以及优化的操作系统。因此，Eos可应对从类似ChatGPT生成式AI到AI工厂等各种应用。

英伟达强调，Eos整合了其在AI领域的专业技术和经验，是先前DGX超级计算机知识的结晶，可以帮助企业处理最具挑战性的项目，并实现AI目标。

尽管Eos具体成本未公开，且Nvidia DGX H100系统定价是保密的，具体售价也取决于很多因素，但考虑到每个H100成本可能在3万至4万美元之间，因此整个系统成本可能非常高昂。

27 2 月 2024

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

生成式 AI 领域，又有重量级产品出现。
周一晚间，Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同，这次 Mistral AI 发布的版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。而新模型的出现，也伴随着公司大方向的一次转型。
随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat 的聊天助手（对标 ChatGPT），任何人都可以试试效果。

试用链接：https://chat.mistral.ai/
此前，Mistral AI 提出的 Mistral-Medium 因为强大的性能、「意外」的开源而名噪一时，目前很多大模型初创企业都已不再对标 Llama 2，而是将 Mistral AI 旗下模型作为直接竞争对手。此次 Mistral Large 的出现，自然迅速吸引了众人关注。
人们首先关注的是性能，尽管在参数数量上不及 GPT-4，Mistral-Large 在关键性能方面却能与 GPT-4 媲美，可以说是当前业内的前三：

Mistral Large 的推理准确性优于 Claude 2、Gemini 1.0 Pro、GPT-3.5，支持 32k token 的上下文窗口，支持精确指令，自带函数调用能力。
人们也发现 Mistral Large 的推理速度超过了 GPT-4 和 Gemini Pro。然而优点到此为止。
模型除了增加体量，也需要有相应的数据。在模型发布后，人们发现它生成的文本有一种 ChatGPT 的既视感。

如果说为了能赶上业内最先进的 GPT-4，使用 AI 生成的内容进行训练或许并不是什么大问题。但 Mistral Large 的出现也给 AI 社区的人们带来了危机感：它并不是一个开源大模型。

这次发布的大模型有跑分，有 API 和应用，就是不像往常一样有 GitHub 或是下载链接。
有网友发现，新模型发布后，Mistral AI 官网还悄悄把所有有关开源社区义务的内容全部撤掉了：

难道以开源起家的 Mistral AI，成立才不足一年，这就要转向了吗？
Mistral Large 目前已经能在 Mistral AI 自有平台 La Plateforme 和微软 Azure 上使用。除了 Mistral Large 之外，Mistral AI 还发布了新模型 Mistral Small，针对延迟和成本进行了优化。Mistral Small 的性能优于 Mixtral 8x7B，并且推理延迟得到了降低，提供了一种开放权重模型和旗舰模型之间的中间方案。
但模型的定价也引发了一些质疑。比如 Mistral Small 的低延迟相比于 Mixtral 8x7B 的提升微乎其微，但输入贵了 2.8 倍，输出贵了 8.5 倍：

如果以商业大模型的标准来看待，Mistral Large 的定价和 GPT-4 相比并不具备优势，这又该如何吸引客户呢？

这位业内人士表示：「如果它的价格是 GPT-4 Turbo 的一半，我会更理解。」

新的 Mistral AI「大杯」模型，表现如何？
在官方博客中，Mistral AI 详细介绍了 Mistral Large 的功能和优势：
Mistral Large 在多个常用基准测试中取得了优异的成绩，使其成为世界上排名第二的可通过 API 普遍使用的模型（仅次于 GPT-4）：

GPT-4、Mistral Large（预训练）、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较（测量大规模多任务语言理解）。

Mistral Large 的优势如下：

Mistral Large 的母语是流利的英语、法语、西班牙语、德语和意大利语，对语法和文化背景有细致入微的理解；
Mistral Large 的 32K Token 上下文窗口允许从大型文档中精确调用信息；
其精确的指令跟随能力使开发人员能够设计自己的审核策略 ——Mistral AI 以此来设置 le Chat 的系统级审核；
Mistral Large 本身就能够进行函数调用。这与在 la Plateforme 上实施的受限输出模式一起，实现了大规模应用程序开发和技术堆栈现代化。

关于基准测试结果对比，可以参考以下：
推理和知识
Mistral Large 展现出了强大的推理能力。下图报告了预训练模型在标准基准上的性能：

多语言能力
Mistral Large 具有原生的多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。

与微软合作，行 OpenAI 故事
在发布 Mistral Large 等模型的同时，Mistral AI 还宣布了一个消息：将与微软合作，在 Azure 上提供自己的模型。
此次合作使 Mistral AI 成为第二家在微软 Azure 云计算平台上提供商业语言模型的公司。这有助于 Mistral AI 将自己的模型推向市场，也让 Mistral AI 有机会使用 Azure 的尖端 AI 基础设施，以加速其下一代大型语言模型的开发和部署。

这家公司表示，「在 Mistral AI，我们的使命是让前沿人工智能无处不在。这就是我们今天宣布将自己的开放和商业模型引入 Azure 的原因。微软对我们模型的信任让我们前进了一步！」
这项为期多年的协议标志着微软正在其最大的赌注 OpenAI 之外，努力提供各种人工智能模型，为其 Azure 云服务吸引更多客户。去年 11 月，OpenAI 经历了 CEO Altman 被解雇（后又重返）的风波。而作为最大的股东，微软在消息公布前 5 到 10 分钟才从 OpenAI 那里得到消息。在这次动荡后，微软设法在控制 OpenAI 的非营利性董事会中获得了一个无投票权的观察员席位。这让他们对 OpenAI 的内部运作有了更多了解，但在重大决策上，微软依然没有投票权。
Mistral AI 对路透社表示，作为交易的一部分，微软将持有该公司少数股权，但未透露细节。
微软证实了对 Mistral AI 的投资，但表示不持有该公司的股权。这家科技巨头因向 OpenAI 提供巨额资金而受到欧洲和美国监管机构的审查。
根据公告，微软与 Mistral AI 的合作主要集中在三个核心领域：

超算基础设施：微软将通过 Azure AI 超级计算基础设施支持 Mistral AI ，为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模；
市场推广：微软和 Mistral AI 将通过 Azure AI Studio 和 Azure 机器学习模型目录中的模型即服务（MaaS）向客户提供 Mistral AI 的高级模型。除 OpenAI 模型外，模型目录还提供了多种开源和商业模型。
人工智能研发：微软和 Mistral AI 将探索为特定客户训练特定目的模型的合作。

除了微软，MistralAI 还一直在与亚马逊和谷歌合作，分销自己的模型。一位发言人表示，该公司计划在未来几个月内将 Mistral Large 应用于其他云平台。
Mistral AI 成立于 2023 年 5 月，由来自 Meta Platforms 和 Alphabet 的几位前研究人员 ——Arthur Mensch（现任 CEO）、Guillaume Lample 和 Timothee Lacroix 共同创立。成立不到四周，Mistral AI 就获得了 1.13 亿美元的种子轮融资，估值约为 2.6 亿美元。成立半年后，他们在 A 轮融资中筹集了 4.15 亿美元，估值飙升至 20 亿美元，涨了七倍多。而此时，他们仅有 22 名员工。

26 2 月 2024

押宝AI，OPPO能否掌握破局关键？

2024年的开年热点，再次被AI所支配。

新的一年刚刚开始，OpenAI就突然发布“文生视频”工具：Sora点燃了整个AI领域，可根据用户输入的简短文本指令，生成长达1分钟且足够真实的视频。没过多久，谷歌也发布了其大模型矩阵的最新力作：Gemini 1.5，将上下文窗口容量从Gemini 1.0最初的32,000个tokens，增加到1.5 Pro的100万个tokens。

另一方面，手机作为AI大模型最适合的落地领域，国产手机厂商也决定在战略上向AI全面倾斜。开工日当天，魅族发文表示公司将会All in AI，并停止传统智能手机新项目，迈入前景广阔的AI科技新浪潮。

无独有偶，当天OPPO CEO陈明永也发表内部信称：未来五年，AI手机将成为继功能机、智能手机之后，手机行业的第三阶段。OPPO已经做好充分准备，内部专门成立了AI中心，并表示资源将会向AI集中。

两则公告不难看出手机厂商打算“All in AI”的决心。

事实上，手机厂商对AI的探索要追溯到去年8月份，彼时华为、荣耀、小米、OPPO等 Top 级手机厂商都开始积极尝试大模型落地方案。一个有意思的观察是，随着时间推移，手机厂商对大模型的理解和优化在不断深入，并体现在规模和功能上。

最早小米MiLM轻量大模型发布时，在端侧只有13亿参数规模，功能上也仅是基于小爱同学进行文字交互。而在4个多月后，OPPO所发布的Find X7系列的端侧AI模型已经拥有 70 亿参数规模，并将其融入到操作系统之中，实现用户体验的二度升维。

如今时间到了现在，手机厂商的“All in AI”或许已经意味着手机AI技术已经成功渡过积累期，进入快速发展迭代阶段，足够支撑AI手机的未来发展。

只是，一个残酷的事实是，如今手机市场大盘仍在下跌。根据IDC发布的数据显示，2023年全球智能手机出货量同比下降3.2%，降至11.7亿部，各家存量竞争压力巨大。在这一节点，AI手机的想法和概念，能否支撑到手机行业复苏“第二春”？
01

OPPO如何定义“ AI手机”？

AI手机是手机厂商的未来愿景，但各家均有着各自的理解。

2月20日，OPPO举办了一场AI战略发布会，在发布会上分享了新一代 AI 手机的四大能力特征，展望由AI驱动的手机全栈革新和生态重构的趋势。值得一提的是，这场发布会中1+N智能体的概念贯穿了全局。

在OPPO的设想中，1+N智能体是满足AI 手机时代下新一代智慧服务体验的基础，其中“1”代表 OPPO AI 超级智能体，能基于庞大的知识图谱、文档数据以及搜索引擎，为用户提供强大的知识能力。

而“N”代表的，则是基于OPPO AI Pro 智能体开发平台所赋能的全新智能体生态。通过AI Pro智能体开发平台，普通用户无需掌握专业的编程技能，即可通过零代码的自然语言交互，快速生成专属于用户个人的个性化AI智能体。

在OPPO的构想中，这一智能体生态战略既能满足了用户体验的基础服务，同样也为未来AI手机的智能体生态划下了雏形。

另一方面，OPPO首席产品官刘作虎在发布会后接受媒体采访时也表示到，如今OPPO内部已经将公司所有AI相关的人员集中在一起成立了AI中心，内部的所有资源都会向AI所倾斜，将其称为OPPO未来的核心竞争力，并提出了投入不设上限的口号。

对于将“本分”刻在基因里的OPPO来说，AI中心的成立一定程度上代表了进军AI的决心，在OPPO看来，AI手机将成为手机行业的第三阶段，提前布局自然是重中之重。

基于对手机行业未来发展的研判，在OPPO对AI手机的定义中，AI手机要有以下四个特征：用户定义的开放服务生态、多模态融合的系统交互、OS内嵌的专属智能体，以及支持生成式AI的智能终端硬件平台。这些特征交织在一起，能够让AI手机具备高效利用计算资源、敏锐感知真实世界、自学习能力和强大的创作能力。

也正如OPPO所说：把复杂留给AI，把简单留给用户。

不过定义是一回事，而落实又是另一回事。手机厂商与上游企业不同，上游企业技术为先，而手机厂商需要考虑的不止是技术的发展，还要考虑到能力的实际落地，尤其是对于OPPO这种更专注于“用户体验为先”的企业，每一步都要经过深思熟虑。

以OPPO的视角来看，用户更需要的是AI能够带来什么样的价值，这才是提升用户体验的核心。此前刘作虎也表达过相似的观点：“做产品永远都要回归到‘你给用户的价值是什么’，技术的源头是要理解用户”。

而这恰恰是解决AI落地难题的关键所在——手机厂商基于对AI和用户的理解，为AI手机带来基于人工智能多模态融合的全新交互方式，为用户提供自在交互、智能随心、专属陪伴、安全可信的产品体验。

这也是AI普适化最佳的解题答案。

基于这一核心，如今OPPO所有的功能都是围绕着消费者所展开。在去年，OPPO就推出了安第斯大模型，并融入到小布助手之中。为了保证用户“千人千面”的个性化体验，OPPO引入了长时记忆机制，支持无限长度的上下文记忆，其中包括用户交互过程中产生的交互历史、个人数据，以及从中提取的结构化信息等。

比如OPPO所推送的AI通话摘要功能，就可以根据用户的通话内容生成核心重点，并将完成事项、会议时间等信息完美摘录出来，再加上“千人千面”的AI体验，意味着安第斯大模型能够凭借记忆，成为一个只属于用户自己的超级助理。

不过对于OPPO来说，“做消费者需要的AI”只是OPPO在AI思考中的一部分，如何普及同样是AI手机的重中之重。对此刘作虎也透露到，在未来OPPO还将会针对中低端芯片开发1B规模的模型，届时在海量用户数据的训练下，经过AI重构的手机产品将会得到进一步普及，从普及到开发形成支持发展的良性循环。

从这一角度来看，不难发现OPPO除了推动手机行业复苏之外，也在加速着AI手机发展的未来。
02

“拥抱AI”并非一蹴而就

OPPO在很早之前就在推动手机AI的发展，相较于其他企业还在初步阶段，春节期间OPPO就已经在加速AI的普适化。

据悉，在春节期间，OPPO为超千万用户推送了百余项AI使用功能，其中AI消除、AI通话摘要和新小布助手等功能获得了消费者的一致好评。尤其是AI消除功能，人均每天使用次数高达15次，这意味着OPPO正在逐渐改变用户的手机使用习惯。

推动普及的基础是OPPO在大模型领域的提前布局。在 2020 年，OPPO 就已启动预训练语言模型的探索与实践，自研了一亿、三亿和十亿参数量的大模型 OBERT，通过不断地技术积累，OBERT 曾一度跃居中文语言理解测评基准 CLUE1.1 总榜第一梯队，还获得了大规模知识图谱问答 KgCLUE1.0 排行榜第一的成绩。

此外，在2023年9月，安第斯大模型还参与了 SuperCLUE 的能力测评，在知识与百科方面获得了 98.33 的高分，位列 SuperCLUE 知识与百科能力排行榜中的全球第二、国内第一，尤其是通用问答与对话能力，极为出色。同年 10 月，安第斯大模型现身 C-Enal 全球中文榜单，并以 79.9 的高分登顶该榜榜首。

不过单一的云侧大模型只能做到部分场景的优秀表现，而在弱网环境、产品功耗、数据安全等层面仍存在局限性，因此，OPPO认为端云结合才是手机行业大模型的必然演进方向。

于是，首款落地端侧70亿参数大模型的手机：Find X7应运而生，凭借端云结合的强大能力，Find X7加入了基于自主训练的安第斯大模型生成式视觉模型，让 Find X7 拥有主体识别分割、图像语义理解、图像延展与生成的能力。

相较于其他云端模型，Find X7的安第斯大模型不仅支持超过 120 类主体的识别与分割，还可以实现发丝级的分割以及高达 6 个的多主体分离，以及超大面积图像的填充与自然生成，生成时间也只有同平台其他模型的 60%。以此作为底座，AI消除功能、AI通话摘要、AI超清合影等AI工具，成功让消费者对AI有了明显的感知。

某种程度上，参数决定了模型的智能和性能，参数越多，神经元越多，模型就越复杂，也越强大。端云结合后，在复杂计算场景下，安第斯大模型能够完整覆盖十亿至千亿以上多种不同参数规模的模型规格：AndesGPT-Tiny、AndesGPT-Turbo 和 AndesGPT-Titan，最高可达 1800 亿参数，能够实现更深度层次的推理任务。

同样，为了保证云端的算力，OPPO建立了企业首个自建超大型数据中心：OPPO AI滨海湾数据中心，通过了国际CQC A级数据中心认证，也是国内第五家、华南地区售价通过国际Uptime TIER III 设计认证与建造认证的数据中心，能够支持千亿级AI模型训练，与骨干网络之间的网络时延低于2毫秒，同时100%采用纯绿色能源，部署了超万台服务器，在安全性和可靠性上达到全球领先水平。

这些长年累月的技术堆叠，也成了OPPO区别于其他品牌，能够喊出“拥抱AI”的核心差别。

在大量人力物力投入的背后是用户体验上的升维，如今OPPO能够如此果断的选择AI，所围绕的正是多年来坚持的“对的路不怕远”的精神内核，回顾手机发展历史的多个节点，无论是OPPO所坚持的超级闪充与电池健康，还是依托潘塔纳尔系统所带来的万物互融，OPPO都选择了“难而正确”的决定。

如今在刻在骨子里的“长期主义”的影响下，OPPO再次踏上「体验为先」这条难而正确的道路，也正是这种将产品体验做到极致的追求，让OPPO在面对时代浪潮时，都选择出最正确的决定。
03

锚定AI

手机市场的下一个增长关键

解决了成本问题，还有一个最直接的问题是是否有足够的用户买单？

从产品发展的角度来看，手机与AI融合后的体验正逐渐被消费者所接受，这与早期消费者的“嗤之以鼻”形成了强烈的反差，这一切的根源来自于手机厂商对AI能力的不断探索与尝试。

根据IDC的预测，在2024年起，新一代AI手机销量将会大幅度增长，并带动新一轮换机潮，2027年AI手机出货量将达到1.5亿台，市场份额超过50%。同时Canalys也在中国AI市场趋势洞察报告中提到，防守市场份额并开发新的功能已经成为行业重点，而AI恰好是这一战略转变中的关键因素。

毫无疑问，2024年已经成为AI手机的元年，在AI的推动下，手机厂商将会在今年带来更多创造性的功能，不断推动手机行业进行下一波增长。

这其中的佼佼者：OPPO，无论是果断的产品转型还是对AI生态的布局，在此次AI浪潮面前明显有着非常清晰的判断。如今OPPO已经踏上了未来十年的新征程，如何做、怎么做，将成为OPPO未来下一次增长的关键所在。

26 2 月 2024

为什么谷歌Gemini无法绘制白人的图像？

生成带有刻板印象、偏见的结果，这是AI被批评的常见问题之一。

谷歌似乎想要解决这个问题，但是“政治正确”让它载了一个大跟头。

网上的右翼分子一直在刺激和测试谷歌的Gemini，最近他们发现了Gemini的一个重大缺陷——无法生成准确的白人形象。有人测试用Gemini生成美国的国父、维京人、教皇，均为有色人种，唯独没有白人。

在此之前，一位曾在谷歌工作过的AI工程师先发现了这个问题，他用Gemini分别去生成澳大利亚女人、美国女人、英国女人、德国女人，得到的结果都是有色人种。由此他说，“让Gemini承认白人的存在是非常困难的”。

似乎这只是Gemini的问题，其他AI并没有。例如Gab.ai可以生成白色人种。

为什么Gemini会出现严重偏离提示词的错误，它的回答是“提供更具包容性的表达”，简言之，符合美国社会倡导政治正确的惯性。

不只是种族问题，有人要求Gemini绘制“4张国家冰球联盟（NHL）运动员的代表性照片”，结果生成了一张有女性球员的照片，事实上NHL的球员都是男性。

Gemini生成不出白人的图像，谷歌已经承认这个问题，高级副总裁公开道歉并暂停了图片生成功能。

Gemini之所以出现这样的问题，除了道德责任上追求政治正确，训练数据集本身缺乏多样化也是原因之一。

解决问题的办法是重新调整模型的输出，使其不那么刻板。

OpenAI信任与安全主管戴夫·威尔纳认为，这种干预并不容易，需要非常多的细微差别的调整才能准确地描述历史和准确地描述现在。问题是可以解决的，但工作量很大。谷歌的工程师可能没有足够的资源在有限的时间内正确地完成这些工作。

资深科技记者凯西·牛顿提出了三个解决策略：

1、在更多的多样化的数据集上训练大模型。鉴于AI公司不太愿意为数据集付费，这个策略似乎不可行。

2、放松对大模型的道德与安全的限制，这在AI公司内部就会面临很大的挑战，它们也不太愿意承担任何输出带来的法律责任。

3、为用户提供更多个性化的对话机器人。虽然现在谷歌、OpenAI有一些用户的位置、性别或其他人口统计特征的信息，但这些信息不足以为用户提供特定的照片。这也是为什么最近OpenAI宣布正在测试ChatGPT的记忆功能。

26 2 月 2024

AI 视频新王者诞生！文生视频大模型 Sora 14 项功能盘点！

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。

今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。

一、60s 超长视频

之前优设已经推荐过 AI 视频工具，比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等，它们文生视频长度都在 3-7 秒之间（Aminatediff 和 Deforum 因形式不同，不列入此处的比较），而 Sora 直接将时长最高提升到 60s，是之前的 10 倍，这样的长度是放在之前大家可能觉得要好几年才能实现，但是 Sora 让其一夜之间成为现实。

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚，文本生成的视频效果最难控制，很容易出现画面扭曲、元素丢失情况，或者视频根本看不出动态。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力，比如 Runway 的 Motion Brush 笔刷，通过在图像上涂抹指定区域添加动效；以及 Domo AI，可以将真实视频转为多种不同的风格，这些方式让 AI 视频更可控，因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知，不仅直接能通过文本生成各种风格的高清的视频，还支持多样化的视频时长、分辨率和画幅比，并且能始终保持画面主体位于视频中央，呈现出最佳构图。

三、连贯一致的视频内容

Sora 生成的视频中，随时长增加人物及场景元素依旧能保持自己原有原有的状态，不会扭曲变形，所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面，Sora 依旧能在后续准确呈现这一对象的相关特征。

这就解决了之前大家一直很关心的视频中人物一致性问题，也许之后我们就无需后期拼接，而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定呈现

Sora 能针对一个场景或者一个主题进行多视角呈现，比如针对“下雪天的街道”主体，可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

下面是从 Sora 视频中截取一段，可以看到随着镜头旋转，新视角中无论是机器人还是背后环境的细节都能稳定呈现，如同 CG 建模一样精准。之前为大家介绍过 Stable zero 123，一种可以生成多视角图像的 AI 模型，但效果远比不上在视频中的呈现，也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、自然流畅的动态

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的效果对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞，Sora 的动态都非常自然，就像我们在现实中看到的那样；相比之下 Runway 生成的动作总有一种 “慢放”的感觉，不够自然。

六、逼真的镜头运动

在 Runway、Pika 等工具中，如果想实现镜头运动，需要使用额外的 –motion 参数，然后从平移、旋转、缩放中等选项中选一种。

而 Sora 中可以直接列理解文本提示词中有关视频的镜头运动，比如提示词中是 “镜头跟在一辆白色复古越野车后面”，在长达 20s 的视频内，无论道路如何弯曲，镜头真的能始终跟随这汽车，让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提示，Sora 也能主动地添加镜头动作，比如下面的视频，花盛开到快超出屏幕时，镜头会自动上移以展现完整的主体；以及镜头有聚焦在老人面部时，带着一种手持拍摄的抖动，这是用 motion 设置也无法得到的效果，让人感觉这是真的视频而非“会动的图片”。

七、准确的提示词理解

对于“船在咖啡杯里”、”用白炽灯做壳的寄居蟹” 这样比较复杂的概念，Sora 能准确理解并呈现出正确的视频，Runway、Pika、Morph 等目前则无法做到。

在 Sora 的研究报告中，官方提到他们会利用 GPT 将用户的简短提示转换成更长的详细说明，然后发送给视频模型，以得到更好的生成效果。

八、图生视频

Sora 虽然自称是文生视频模型，但它也可以将图像转为动态视频，而且动态效果比其他 AI 视频都好，还不会出现转换后画质下降的情况。Sora 的图生视频功能并不是简单的为已有元素添加动态，还能生成新的内容（比如为云彩字添加了一个弹出的动效）。

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑，对一个写画风视频加上 “rewrite the video in a pixel art style” 提示，可以将其变为像素飞哥，加上 ““make it go underwater”可以替换画面元素，而且新元素与整体融合自然然。

之前图像进行局部重绘都是有些困难的事，Sora 这是直接做到了对视频内容的完美局部重绘，模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容，并且做到无缝衔接。下面 2 个视频是由同一段视频向前扩展得来的，所以结尾相同；而如果对一个视频同时操作向前和向后延伸，就能好得到一个完美的循环动画。

这项功能目前还没有其他能实现的 AI 工具，如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值，在主题和场景构图完全不同的视频之间创建无缝过渡，比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄，或者让一只蜥蜴慢慢变成一只鸟。

官方用的 “无缝过渡” 绝不是夸张，仔细看视频你会发现 sora 真的会自己找角度让视频转换更自然，这点在影视特效制作上应该也大有可为。

十二、文生图

图像就是单帧的视频，Sora 既然能生成高质量的视频，那生成高质量的图像自然也不在话下，并且支持多种尺寸，最高分辨率到达 2048*2048 px。

我用 Sora 官方给出的提示词，在 Midjourney 的 V6 模型中重新生成一遍，下面的效果对比，你觉得哪一个更好？

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态，比如画笔落下后画布上有对应的痕迹留下，并且持续保留；被咬了一个口的汉堡上会有一个缺口等。

不过这个功能并不稳定，处理复杂交互场景也会出错，或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提示词中加上 Minecraft 后，除了视频会变成体素风格，Sora 还能通过基础策略控制玩家，并高保真地呈现世界及其动态，达到真假难辨的地步。这或许会改变视频游戏的制作及玩法，对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为大家盘点的 AI 视频生成模型 Sora 的相关功能，如果想了解为什么 Sora 能做到这么厉害，可以去阅读 OpenAI 官方的研究报告，里面有相关介绍。

Sora 模型技术报告：
https://openai.com/research/video-generation-models-as-world-simulators

22 2 月 2024

Reddit的IPO前夜，把20年用户内容卖给AI公司训练模型

据彭博社报道，上周Reddit签署了一份合同，允许一家未透露名称的AI公司对该网站的内容进行模型训练。

这一举动发生在这家社交媒体平台临近首次公开上市（IPO）之际，该公司的IPO可能最早在下个月进行。

据彭博社称，Reddit最初在2024年早些时候向计划IPO的潜在投资者披露了这项交易，据报道该交易价值为每年6000万美元。

彭博社的消息源推测，这份合同可能为今后Reddit与其他AI公司达成协议提供了一个范本。

AI公司在没有明确许可的情况下，利用AI训练数据的时代已经逐渐结束，一些科技公司最近开始寻求签署合作协议，训练类似于GPT-4的AI模型的内容将是经过授权的。

例如去年12月，OpenAI与德国出版商Axel Springer签署了一项协议，以获得其文章的访问权限。此前，OpenAI还与其他组织达成了协议，包括美联社，并正在与CNN、福克斯和时代等公司进行许可谈判。

2023年4月，Reddit创始人兼CEO Steve Huffman告诉《纽约时报》，Reddit计划向AI公司收费，获得近二十年来人类生成的内容。

如果报道的每年6000万美元的交易达成，那么很可能你曾在Reddit上发布过的内容，其中一些材料会被用于训练下一代能够生成文本、静态图片和视频的AI模型。

即使没有这笔交易，专家们发现Reddit也一直是大语言模型和AI图像生成器的重要数据来源。

虽然我们不知道OpenAI是否与Reddit签署协议，但彭博社推测，Reddit利用AI炒作来增加额外收入的能力，可能会提升其IPO的价值。

彭博社称，Reddit在2023年的收入超过8亿美元，比2022年增长了约20%。

22 2 月 2024

清华博士网红“AI课卖了5000万”？AI课程乱象调查

近日，自称清华博士的抖音网红“李一舟”通过售卖AI课收入高达5000万的相关信息刷屏网络，不少人质疑类似的课程是在“割韭菜”。

澎湃新闻记者发现，目前在抖音、知乎、B站等社交媒体上，类似李一舟的AI课程随处可见。除了李一舟外，知名AI类带客网红还包括“鹤老师”“张诗童”等，其中鹤老师粉丝数量超过777万，张诗童粉丝则超过10万。

截至21日16时，记者看到售价299元的张诗童AI课程显示“已被抢光”。在直播中，他表示，自己的课程在2小时里就能售出20万，催促大家赶紧抢购。

“AI培训课从去年3月开始兴起，今年年初，伴随OpenAI开发的Sora走红到达高潮。”另一名AI课程负责人向记者透露，“李一舟本人也是从去年下半年开始入局的，踩中了AI和直播的双重风口。”

“任何新生事物都有反对的声音，网上的吐槽者大多没有接触过课程，认为李一舟老师不是AI专业出身，但这恰恰证明他的能力。”2月21日，对于集中爆发的质疑声，名为“东东老师”的李一舟助教回应澎湃新闻，他还表示，学习不要看舆论，关键是看老师的责任心和真诚度，只有实践才能出真知。

不过，当记者询问更多细节时，这名助教没有回复。

据湖南大学设计艺术学院官网显示，自称清华大学博士毕业、三家科技公司创始人的李一舟，实际是清华美院博士，读的是设计类专业，本科和硕士就读于湖南大学设计艺术学院。

“不满意要退款，就把你踢出群”

对于走红出圈，李一舟本人也有所回应。

近日，有网友戏谑地给他留言称：“自打Sora火了，你是AI圈子里唯一一个可以和奥特曼平起平坐的华人大神”，李一舟回应：“我会继续努力的，国内做大模型和搞开发的大牛们，继续追赶奥特曼吧。”

不过，澎湃新闻记者联系到多位购买过李一舟AI课的网友，均对课程内容表示不满。

“特别后悔，我购买了199元课程，几乎没有有用东西，最让人气愤的是，直播第二天就要求学员升级到他的高阶课，需花费1980元，199课程啥都没教，就要升级，完全是骗子的套路。”一位学员告诉记者，“我在学习群发表观点，立即被拉黑踢岀群。”

“当时脑子一热就买了，后来发现网上好多免费的视频，都比他的课程要好。”另一位学员坦言，“看了十几节课，纯粹是浪费时间。课程内容太水，就像我已经学会高数了，你还在教我加减法。”

据飞瓜数据显示，2023年李一舟售卖的199元AI课《每个人的人工智能课》，一年内卖出约25万套，销售额约5000万。而一张网络流传的截图显示，李一舟本人通过AI课程，在3年内收入超亿元。

记者尝试购买了售价为199元的“每个人的人工智能课”，在课程介绍中提到，支付7日内，学习时长小于10分钟，即可申请全额退款。但在记者进行4分钟的学习后，申请退款时却失败了，记者尝试通过抖音的小程序平台“联系客服”功能时，留下的号码已暂停服务。

对于课程的具体内容，一位学员向记者描述，广告浓度很高，到处是进一步诱导付费的暗示：在前三节课程最后，都有意无意提到了充值；第6节课，借宣传ChatGPT进一步提到“买课很值得”；16、17节课中，李一舟找来一家服务电商的AI公司，长篇大论地介绍其技术和业务；第25节课时，邀请另一家做数字人的企业“又打了一波广告”。

多位购买过AI付费课程的学员告诉澎湃新闻，一旦发表负面言论就被踢出课程群是常态。一位参加“深度之眼AI课”的网友告诉记者，所谓的AI课程，就是付费进微信群，把网上已有的内容打包成几个视频文件播放给学员，宣传中提到的“助教”流动性很大，一个月内就换了两三次，而且很难起到实际效果。不过，一旦有人不满意要退款，或是在群里发表负面言论，就会被助教踢出群聊。

此外，在多家电商平台上，已有大量李一舟盗版课程在出售。记者查询某平台显示，李一舟的全套课程最低仅出售0.26元，线上发货，还同时赠送鹤老师的全套人工智能课程。数据显示，类似盗版课程最高月销量已超过500套。

“只要三周时间，就能帮助大家从小白变大神。”另一AI知识网红张诗童则在直播中如此宣传自己的课程，他表示，自己的每一种课程市面价格都超过2000元，但在直播间中，299元就能“全包”，“不需要任何基础，只要手机就可以学会。”

蹭AI热点，办年卡、付费会员套路深

能靠售卖AI课程收入超千万的李一舟，到底是什么背景？

清华大学官网显示，李一舟曾为创业者，创业项目包括“魔镜”APP、“微蜜”APP和12sleep匙悟科技。其中匙悟科技完成过3轮融资：2016年启迪之星创投、知卓资本、夏鼎资本参与A轮融资。2014年-2015年，匙悟科技完成过数百万美元的Pre-A轮，以及数百万人民币的天使轮融资。

天眼查APP显示，与李一舟关联企业有12家，其中6家处于存续状态。目前，李一舟仍担任北京匙悟科技、北京一舸科技两家公司的法定代表人。

澎湃新闻记者发现，此类AI课程并不仅仅是付费授课，有大量收费套路。以李一舟为例，除了课程要付费，还要交“算力单元”费。简单来说，算力费就是使用李一舟提供的大模型工具也要付费，文本大模型提问一次价格约为几十算力。图像、视频的价格昂贵许多，基本单价超过1万，有时制图一张要花费10万算力。

如果想要持续使用算力，就要充值购买会员，其中包括琥珀会员、黄金会员、铂金会员、钻石会员等多个等级，最低一个月也要39元。

一位张诗童的学员告诉记者，在299元的付费课程外，张诗童还推出价格为1980元的年卡，张诗童在2022年接受采访时提到，自己单场直播收入高达20-30万元。

值得注意的是，除了网红的年卡费、会员费等收费套路，还有数不胜数的AI类付费社群。澎湃新闻查询知识付费软件“知识星球”发现，有几百家AI付费社群，入群费价格从一年50到299元不等。某AI俱乐部宣称入群费为129元，承诺进群就享有ChatGPT账号、各种免费AI工具箱、常用提词器等素材，以及AIGC的内容创作技巧和变现方式分享等。

另一家名为“深度AIGC俱乐部”的入群费则高达398元，据称群内会提供与科技大佬交流的机会和解答问题，并提供培训课程。

在Sora走红后，有关Sora的社群也成为收费新热点。记者发现，一家名为“Sora-数字人-AI”的社区成员已高达5700多人，收费标准是一年269元，这也意味着一年纯靠社群收入就达到153万元。

AI类网课法律界限在哪？

伴随李一舟被推上舆论的风口浪尖，不少学员开始在社交平台上要求退款。有网友发布公告，要在“全网寻找买过李一舟AI课但想退款的朋友。”该网友表示，支持学员通过法律渠道维权。

“李一舟虽然赚了很多钱，但不一定意味着他在割韭菜。”某AI课程负责人“小远”向澎湃新闻记者介绍，他获利的原因，还是敏锐地抓住人们对于AI这样新技术崛起的恐慌感，利用了人们的心理需求。

“毕竟价格也就199元，不必对这个价位的课程有不切实际的期待。”小远表示，作为完全不了解AI知识的小白，如果能用一周时间科普一下，还是非常值得的。

在小远看来，未来AI培训将成为新的风口，“如果李一舟营收达到5000万元，以199元的课程单价来计算，最多卖了25万份，这个数量其实还很小。”小远坦言，AI内容将成为巨大缺口，保守估计，未来的潜在消费人群超过5000万人。

那么，类似李一舟这样的AI卖课网红，究竟是否涉嫌诈骗？多位法律界人士认为，仍需要更多证据。

华东政法大学竞争法研究中心执行主任翟巍告诉澎湃新闻记者，是否涉嫌诈骗还需要获得翔实信息才可判定，“不过可以确定的是，李一舟的AI课不仅涉嫌违反《广告法》和《反不正当竞争法》，构成虚假宣传的不正当竞争行为，而且涉嫌违反《消费者权益保护法》，侵犯消费者的知情权、公平交易权等。”

“AI相关的内容和课程的含义本身比较宽泛，所以只要用户付费后提供了约定的相关资料，就不能说诈骗。”上海申伦律师事务所律师夏海龙表示，至于这些资料是否符合用户的预期，属于合同履行的问题。只要用户付费后销售者提供了与宣传相一致的资料，就不能说诈骗。

对于知识付费类课程是否涉嫌诈骗，该如何界定？

翟巍告诉记者，知识付费类AI类网课本质上属于知识类产品，这类产品的个人购买者属于消费者。经营者在销售这种知识类产品时，应当全面、真实、客观地宣传产品内容与质量，不应隐瞒事实片面宣传、虚假宣传，不应欺骗或误导、诱导消费者购买产品，否则轻则会构成侵权违法行为，重则构成诈骗等刑事犯罪行为。

22 2 月 2024

谷歌开放轻量级大模型Gemma，全民AI时代要到了？

谷歌2月21日发布了新的人工智能“开放模型”Gemma，将大模型开源意味着外部开发者可以将其打造为自己的模型。谷歌也成为继Meta之后，又一家试图走开源大模型路径的主要科技公司，并加速全民AI时代的到来。

谷歌表示，Gemma是一系列“轻量级”先进的开放式模型，采用与创建Gemini模型相同的研究和技术而构建。开发者可以使用Gemma“开放模型”系列免费构建人工智能软件。

该公司表示，正在公开关键的技术数据，例如所谓的“模型权重”。谷歌CEO皮查伊（Sundar Pichai）表示：“Gemma展示了强大的性能，今天开始将在全球范围提供，可在笔记本电脑或者谷歌云上运行。

”市场分析认为，谷歌将大模型开源可能会吸引软件工程师在谷歌的技术基础上进行开发，并鼓励使用其新盈利的云部门。谷歌表示，这些模型还针对谷歌云进行了优化。不过Gemma也并不是完全“开源”，这意味着该公司仍可制定使用该模型的条款及所有权条款。

据介绍，相较于谷歌此前发布的Gemini模型，Gemma模型的参数可能更小，有20亿个或70亿个参数版本可供选择。谷歌尚未透露其最大的Gemini的参数尺寸。

谷歌表示：“Gemini是我们当今广泛使用的最大、功能最强大的AI模型。Gemma模型与Gemini共享技术和基础设施组件，Gemma模型能够直接在开发人员笔记本电脑或台式计算机上运行。”该公司还强调，Gemma在关键基准上超越了参数更大的模型，同时遵守安全和负责任输出的严格标准。此前开源的Meta的Llama 2模型参数最多可达700亿个。

相比之下，OpenAI的GPT-3模型拥有1750亿个参数。在谷歌发布的一份技术报告中，该公司将Gemma 70亿参数模型与Llama 2 70亿参数、Llama 2 130亿参数以及Mistral 70亿参数几个模型进行不同维度的比较，在问答、推理、数学/科学、代码等基准测试方面，Gemma的得分均胜出竞争对手。英伟达在Gemma大模型发布时表示，已与谷歌合作，确保Gemma模型在其芯片上顺利运行。

英伟达还称，很快将开发与Gemma配合使用的聊天机器人软件。将较小参数的AI模型开放出来也是谷歌的商业策略。此前，科大讯飞也选择将较小的参数尺寸模型进行开源。

科大讯飞董事长刘庆峰向第一财经记者解释称：“通用大模型关键是看谁的性能好，而大模型开源是为了建立生态，因此从技术水平来看，一般开源大模型都会略低于通用大模型。

”“我们也观察到，好像很多企业会藏着自己最大的那个模型，可能还是希望能够建立起壁垒好做商业化。”一位从事AI大模型研发的研究人员对第一财经记者表示。对于开源大模型目前也有不同的观点，一些专家认为，开源AI大模型可能会被滥用，而另一些专家则支持开源的方法，认为这可以推动技术发展，扩大受益人群。

21 2 月 2024

Sora背后团队被扒出：13人几乎每天不睡觉高强度工作一年，其中3人为华人

随着Sora的刷屏，其幕后主创团队也引人关注。据Open AI发布的Sora技术报告，Sora作者团队仅13人，Tim Brooks、Bill Peebles以及Connor Holmes等是核心成员。其中Tim 与Bill 师出同门，都于2019年8月进入伯克利深造，并受Alyosha Efros教授指导，2023年上半年两人一前一后在伯克利获得博士学位。另据了解，Sora团队还包括3名华人，其中一名为北大校友。值得注意的是，Bill 曾和现任纽约大学计算机科学助理教授谢赛宁一起发表过论文《Scalable Diffusion Models with Transformers》，该论文研究成果DiT模型被Sora引用。谢赛宁今日在朋友圈辟谣了自己是Sora作者之一的消息，据他透露，Sora是Bill他们在OpenAI的呕心沥血之作，“虽然不知道细节，但他们每天基本不睡觉高强度工作了一年”。

本文源自金融界AI电报

21 2 月 2024

GitHub热榜第一：百万token上下文，还能生成视频，UC伯克利出品

今日GitHub热榜榜首，是最新的开源世界模型。

上下文窗口长度达到了100万token，持平了谷歌同时推出的王炸Gemini 1.5，伯克利出品。

强大的模型，命名也是简单粗暴——没有任何额外点缀，直接就叫LargeWorldModel（LWM）。

LWM支持处理多模态信息，能在100万token中准确找到目标文本，还能一口气看完1小时的视频。

网友看了不禁表示，这种大海捞针般的测试，LWM能完成的如此出色，而且还开源，实在是令人印象深刻。

那么，LWM的表现到底有多强呢？

百万上下文窗口，可看1小时视频

在测试过程中，研究人员用多段一个多小时的视频检验了LWM的长序列理解能力，这些视频由YouTube上不同的视频片段拼接而成。

他们将这些视频输入LWM，然后针对其中的细节进行提问，涉及的片段位于整个视频的不同位置，同时研究者还将LWM与GPT-4V等模型做了对比。

结果GPT-4V是一问一个不吱声，闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案，只有LWM回答对了。

在另一段视频的测试中，其他模型都说找不到有关信息，只有LWM找到了答案，而且完全正确。

不仅是理解细节，LWM也能把握视频的整体内容，做出归纳总结。

在理解的基础之上，LWM也可以结合自有知识进行推理，比如分析视频中不符合常理的地方。

Benchmark测试结果显示，LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。

LWM不仅能理解长短视频，在超长文本任务上的表现同样优异。

在1百万token窗口的“插针”检索测试中，LWM取得了单针检索全绿的成绩。

多针检索时，表现也同样优异：

语言任务数据集的测试结果表明，LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。

除了多模态信息理解，LWM还支持图像和视频的生成，至于效果，还是直接上图感受一下吧。

那么，研究人员又是怎样训练出这样一款世界模型的呢？

循序渐进，分而治之

LMW的训练过程，大致可分为两个阶段。

第一阶段的目标是建立一个能够处理长文本序列的语言模型，以理解复杂的文档和长文本内容。

为实现这一目的，研究人员采取了渐进式的训练方式，使用总计33B Token、由图书内容组成的Books3数据集，从32k开始训练，逐步将窗口扩增至1M。

而为了增强LWM的长文本处理能力，开发者应用了RingAttention机制。

RingAttention是该团队去年提出的一种窗口扩增方式，入选了ICLR 2024。

它运用了“分而治之”的思想，将长文本分成多个块，用多个计算设备做序列并行处理，然后再进行叠加，理论上允许模型扩展到无限长的上下文。

在LWM中，RingAttention还与FlashAttention结合使用，并通过Pallas框架进行优化，从而提高性能。

在文本能力的基础上，研究人员又用模型生成了部分QA数据，针对LWM的对话能力进行了优化。

第二阶段则是将视觉信息（如图像和视频）整合到模型中，以提高对多模态数据的理解能力。

在此阶段，研究人员对LWM-Text模型进行了架构修改，以支持视觉输入。

他们使用VQGAN将图像和视频帧转换为token，并与文本结合进行训练。

这一阶段同样采用循序渐进的训练方法， LWM首先在文本-图像数据集上进行训练，然后扩展到文本-视频数据集，且视频帧数逐步增多。

在训练过程中，模型还会随机交换文本和视觉数据的顺序，以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。

性能方面，研究人员在TPUv4-1024（大致相对于450块A100）上训练，批大小为8M、全精度（float32）的条件下，花费的时间如下表所示，其中1M窗口版本用了58个小时。

目前，LWM的代码、模型都已开源，其中多模态模型为Jax版本，纯文本模型有Jax和PyTorch两个版本，感兴趣的话可以到GitHub页面中了解详情。

论文地址：
https://arxiv.org/abs/2402.08268
GitHub：
https://github.com/LargeWorldModel/LWM

21 2 月 2024

潮汕90后，10个月干出一个AI独角兽

中国大模型创业公司首笔10亿美元级别的融资出现了。

2月19日消息，月之暗面已完成新一轮超10亿美金的融资，投资方包括红杉中国、小红书、美团、阿里等，上一轮的老股东继续跟投。这是自大模型创业潮兴起以来，中国大模型赛道金额最大的一笔单轮融资。本轮融资后月之暗面估值已达约25亿美金。

月之暗面2023年4月成立于北京，创始人杨植麟是毕业于清华大学的学霸。成立不到两个月，月之暗面就完成了近20亿元的天使轮融资，红杉中国、今日资本、真格基金、砺思资本等知名VC投资。

成立不到一年时间就融了近90亿元人民币，估值接近180亿元，月之暗面已经进入中国AI大模型的第一梯队。2023年6月份，The Information评选了五家最有可能成为中国OpenAI的公司，月之暗面位列其中。

三位清华同学创业

与光年之外、百川智能、零一万物的互联网大佬“二次创业”不同，月之暗面是中国AI大模型赛道不多见的“素人”创业。月之暗面一成立就能获得资本重金支持，创始人的履历必然不一般。

杨植麟是一位90后，高中毕业于广东汕头的百年名校金山中学。在中学时期，杨植麟被选拔进入信息学奥林匹克竞赛培训班，并拿到全国青少年信息学奥林匹克联赛中获得广东赛区一等奖，获得清华大学保送生资格。尽管已经保送，杨植麟在当年高考中还是拿下了667的高分，远超清华大学在广东的录取线。

进入清华大学后，杨植麟延续着学霸路线。杨植麟最初被清华大学热能工程系录取，但在大二杨植麟就转专业进入计算机系。

2015年，杨植麟以年级第一的成绩从清华大学毕业，随后远赴卡内基梅隆大学语言技术研究所，2019年获得博士学位。

在博士期间，杨植麟成了AI领域的风云人物，他与多位图灵奖得主合作发表过论文，在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇，研究成果累计Google Shcolar引用超过17000。除了学术成就之外，杨植麟还在Meta的人工智能研究院和谷歌大脑研究院工作。

2016年，博士在读的杨植麟首次创业，以联创身份参与创立了循环智能，方向是运用NLP、语音、多模态、大模型等AI技术打造“销售科技”方案。循环智能成立后已经完成了6轮融资，投资方包括红衫中国、博裕资本、金沙江创投、真格基金等。

2021年，循环智能与华为云合作开发了千亿级NLP大模型盘古大模型。

杨植麟虽然不过30岁出头，但在国内，他做AI大模型的资历几乎是无人能敌，国外的Google，国内的盘古NLP、悟道等大模型的研发他都有参与（悟道项目负责人、清华大学唐杰教授是杨植麟的老师）。有媒体更是直接给杨植麟冠上了中国大模型90后第一人的名号。

除了杨植麟之外，月之暗面的另外两位联创也都值得关注。

月之暗面的第二位联合创始人、算法负责人周昕宇是杨植麟在清华的本科同学和好朋友，两人在大学期间还一起组过摇滚乐队。

周昕宇在大学毕业后加入旷视，研究算法量产。第三位联合创始人吴育昕也是毕业于清华大学，以及卡内基梅隆大学，大学毕业后在Meta的人工智能研究院工作。

2023年大模型骤然爆火，VC们也纷纷试图寻找中国的OpenAI，但国内具备大模型相关经验的人才非常稀缺，真正从事过大模型研发、愿意创业又年轻的创业者屈指可数。月之暗面这一团队，称得上是中国大模型创业的“顶配”了，无怪乎被知名VC踏破门槛。

要做AI时代的“Super App”

2023年10月，月之暗面发布了创业之后的首个大模型moonshot，以及搭载该模型的智能助手产品Kimi Chat。一经发布，moonshot就以“最高支持20万个汉字输入”而引起了关注。要知道，GPT4仅仅支持最多2.5万字输入，moonshot是它的八倍。

月之暗面研究方向有两个关键词，首先是长文本，其次是to C。

关于长文本，月之暗面认为大模型的应用效果取决于两个因素，参数量决定了大模型能支持多复杂的“计算”，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的“内存”。

对长文本的支持给大模型的应用打开了新的空间。moonshot的发布会上，杨植麟演示了输入整本《三体》并让AI给出总结，还演示了一次输入50个文档并让大模型给出分析。

杨植麟分析道，“当我们去看计算机系统发展史，一个必然的趋势是，都是从最开始的很小内存的计算机服务，再到很大的内存的服务。所以我觉得大模型肯定也是会有一样的趋势，从现在很少内存的大模型，到以后的很大内存。”

月之暗面另外一个关键词是to C，杨植麟表示Moonshot AI现在最高优先级的任务是在C端找到产品、技术以及市场的方向。

定位to C，更是显示出月之暗面要做中国的Open AI的雄心壮志。杨植麟认为，大模型可能会分成to B和to C两个不同的阵营,而“To C是成为AI时代Super App的机会”，因此月之暗面坚定的加入to C阵营。

杨植麟谈到月之暗面愿景是“通过AI给个人提供更便捷、更强大、更个性化的普惠产品”，这种定位迥异于国内其他一些大模型头部玩家“赋能B端”的思路。月之暗面这只由90后组成的团队，展现出了与其他几家资深大佬领衔的大模型创业公司非常不一样的锐气。

To C的定位使得月之暗面更愿意专注在产品，也因此保持着一个相对更小而精干的团队。随着第二轮融资的落地，月之暗面的团队人数达到了80人。而国内其他几家估值相近的公司团队基本都超过了200人。

90后创业者涌现

很多人说上一轮硬科技创业主要是属于中年人的舞台，大量的新晋硬科技上市公司创始人都是70后甚至60后。但最近一段时间，90后创业者正悄然间来到舞台中心，成为中国新的创业生力军。

除了月之暗面的清华三人组之外，最近一年备受资本追捧的90后创业者还有非常多。

2023年，最火的中国90后创业者可能是Pika的郭文景。在Open AI发布sora之前，Pika是最热门的文生视频AI，它的融资名单几乎是集齐了硅谷的半壁江山。Pika创始人、CEO郭文景是一位被哈佛大学本科提前录取，然后从斯坦福大学博士辍学创业的95后天才少女。

2023年12月，人形机器人创业公司的智元机器人完成了超6亿元的A3轮融资，蓝驰创投、中科创星、鼎晖投资、长飞基金、C资本、高瓴创投、立景创新、三花控股集团、基石资本、临港新片区基金和银杏谷资本等众多机构入局。智元机器人的创始人是华为“天才少年”稚晖君，2023年2月创业，一年不到融资5轮。

2023年8月，AI制药创业公司深势科技宣布完成超7亿人民币的新一轮融资，投资方包括众源资本，和玉资本，正心谷资本，Evergreen Scitech Delta及多家产业资本。深势科技的创始人孙伟杰和张林峰是一对毕业于北京大学元培学院的90后。

最近一例是民营航天公司东方空间，其1月24日宣布完成了近6亿元人民币B轮融资，估值也来到60亿元左右，成为中国民营航天最新一只准独角兽。1月11日，东方空间自主研制的“引力一号”火箭在成功完成首飞，成为全球最大的现役固体火箭，也是中国民营航天公司迄今为止送入轨道的运力最大的一枚商业火箭。东方空间的联合创始人、联席CEO姚颂也是一位保送清华大学的90后。

不同于移动互联网时代的那一波90后创业者，当下的这些90后几乎是清一色的名校学霸，创业的方向都是当前技术创新的最前沿。长江后浪推前浪，他们是这个时代的“青年之光”。

分秒AI研究院