近日,中国人工智能(AI)产业在全球范围内引起了广泛关注。这一关注主要源于宇树(Unitree)公司推出的轮足式机器狗B2-W和开源MoE模型DeepSeek-V3。
宇树公司曾经是波士顿动力的追随者,产品形态基本照搬,商业定位也集中在低配替代市场,缺乏吸引力。然而,从B系列型号开始,宇树的机器狗在灵活性上已经可以与波士顿动力相媲美。B2-W的突破在于采用了运动性更高但平衡性也更难的动轮方案,并在一年内完成了户外环境的跋山涉水训练,让许多美国网友感叹这可能是CGI特效,不知是真串还是心态崩溃。
波士顿动力曾短暂使用过动轮方案,但作为行业先驱,其连保持一家美国公司的实体都感到困难。现代汽车在2020年以折扣价从软银手中购得波士顿动力,这正值软银账面巨亏需要回血。而软银当初又在2017年从谷歌手中购得波士顿动力,谷歌之所以出售,是因为认为其成本过高,难以承受。这一理由令人难以置信,因为美国的风险资本系统对亏损的容忍度是全球最高的。但对于前沿性研究,砸钱画饼是再寻常不过的事情。
事实上,美国科技行业普遍对制造业抱有厌恶情绪,这种情绪已成为一种本能。马克·安德森在2011年发表的那篇著名的“软件吞噬世界”一文,正是这一观点的体现。他认为,边际成本极低的软件公司注定会接管一切,而其他行业与之相比则显得不够看。然而,美国人的路径依赖最终导致一整代人丧失了制造能力。
深圳一家逆向海淘公司的例子进一步说明了这一点。该公司业务是将华强北的电子配件做成可索引的结构化目录,并提供从采购到验货再到发包的全流程服务。其最大的买方是美国DIY市场和高校学生,他们之所以选择从中国购买,是因为在美国本土找不到供应链。这些学生在读书时还有机会尝试制造某些东西,但进入大公司工作后,却没有人愿意“把手弄脏”。
软件终究不能脱离硬件运行。制造商如果想要提供全套解决方案,只取决于能否组建优秀的工程师团队。相反,如果制造订单长期外包,产业链配套就会回不来。因此,像多旋翼无人机和四足机器狗这类新兴科技的原型机一般都产自欧美,而中国则在“从一到十”的落地阶段和“从十到百”的量产阶段取得了显著成果。
波士顿动力的机器人最初在网上爆火时,谷歌X的负责人在内部备忘录中表示希望不要让视频与谷歌扯上太多关系。这令人疑惑,因为这样牛逼的事情,作为母公司,谷歌非但不高兴,还想躲起来。现在,我们明白了这种顾虑的来源:作为软件巨头,谷歌认为去从事制造活动太低贱了。
当然,美国还有像马斯克这样的建设者,但这样的人是极度稀缺的,且长期以来不受主流科技业界待见。马斯克之所以备受瞩目,正是因为他逆常识的成就——造汽车、造火箭、造隧道,这些都是硅谷避之不及的事情。
如果说宇树在硬件上引起了怀疑现实的热度,那么DeepSeek则在软件的原生地盘,硬控住了大模型厂商。在微软、Meta、谷歌都在追逐10万卡集群进行大模型训练时,DeepSeek在2000个GPU上,仅用不到600万美元和2个月的时间,就实现了对齐GPT-4o和Claude 3.5 Sonnet的测试结果。
DeepSeek-V2在半年前曾引发一波热议,但那时的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫。然而,V3则完全不同,它将成本降低了10倍以上,同时质量能与t1阵营相媲美,关键是它还是开源的。相关推文的评论区全是“中国人怎么做到的?”。
尽管后发的大模型可以通过知识蒸馏等手段实现性价比更高的训练,但匪夷所思的效率提升,很难用已知训练方法来归纳,这一定是在底层架构上进行了不同于其他巨头的创新。
另一个角度更有意思,如果针对中国的AI芯片禁售政策产生的后果是,让中国的大模型公司不得不在算力受限的约束下实现效率更高的解决方案,这种适得其反的剧情就太讽刺了。
DeepSeek的创始人梁文锋曾表示,公司差的从来都不是钱,而是高端芯片被禁运。因此,中国的大模型公司,如字节和阿里这样的大厂,拥有充足的资金,可以将年收入的1/10投入到AI领域。但对于初创公司来说,保持不下牌桌的唯一方法就是玩命创新。
李开复今年也一直强调,中国做AI的优势不是在不设预算上限的情况下进行突破性研究,而是在好、快、便宜和可靠性之间找出最优解。零一和DeepSeek都采用了MoE(混合专家)模式,相当于是在高质量数据集上进行特定训练。虽然跑分上可能存在水分,但只要质价比够高,就一定会有竞争力。
值得一提的是,DeepSeek并不缺乏算力。2021年,该公司就囤积了1万张英伟达A100显卡,那会儿ChatGPT还没影呢。DeepSeek囤积这么多显卡,是为了进行量化交易。
我最早对梁文锋有印象,是他在《西蒙斯传》中写的序言。西蒙斯是文艺复兴科技公司的创始人,也是用算法模型进行自动化投资的开创者。梁文锋当时管理着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。
交代这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并非是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换。投资的目的是预测市场,大模型的原理也是预测Token。
后来看过几次梁文锋的采访,对他的印象很好,他非常清醒和聪明。以下是他的一些观点:
“暗涌”:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
“暗涌”:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
“暗涌”:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
“暗涌”:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
“暗涌”:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
“暗涌”:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰。你可以说他们在过去是所谓的“小镇做题家”,但做题怎么了?参与世界未来的塑造,就是最有挑战性的题,喜欢解这样的题,才有乐趣啊。