美国 AI 创业公司的新难题:有钱,但是缺数据

随着时间的推移,美国人工智能产业的附加值重心,已经悄悄发生了转移。根据《华尔街日报》的最新报道:正在筹集数十亿美元的生成式 AI 创业公司,如果没办法获得正确的数据,那么它们可能已经走向失败
风投机构 Primary Venture Partners 的联合创始人兼普通合伙人布拉德.斯夫鲁加指出:

“我们已经看到很多公司可能正在寻求出色的 AI 应用,但他们无法访问能够让他们构建强大应用程序的数据,更加不用说可以帮助他们的专有数据了。”

换句话说:当市场上,构建实际的模型已经变得类似于可以购买的商品时,真正的价值变成了数据。拥有正确的数据,现在可能比任何时候都更加重要。
(一)这里的逻辑是:目前,许多 AI 创业公司都希望能在如金融或医疗保健等细分领域建立起小众的 AI 模型,但因为他们缺乏品牌认知度和社会认同,这些创业公司要获得垂直行业的培训数据集并不容易。

在这方面,大公司可能更具优势因为在如何处理数据方面,大公司已经赢得了大客户们的信任。例如根据《华尔街日报》的报道:安永全球有大量的交易数据,每天都有生成式 AI 创业公司找上门来。但安永全球担心:如果把自己的专有数据用于训练外部模型将会发生什么?“谁拥有这些数据?当我们训练模型时,我们对这个模型的访问权限是什么?其他人还能如何使用这个模型?数据是由我们带来的知识产权的一部分。” 安永全球指出。

要解决类似的 IP 问题,一种对策是:创业公司可以通过仅仅是根据每个客户的数据,来为每个客户训练不同的模型。例如 TermSheet 就是用这种策略来构建 Ethan 产品策略的。后者是一种生成式 AI 模型,可以为房地产开发商、经纪人和投资者回答行业的问题。但是 TermSheet 的 CEO 罗杰.史密斯也表示,即便客户同意这一点,他们也需要教育客户和一些说服力。  

此外,对网络安全的担忧,也是大客户公司不愿意选择创业公司的原因。如金融服务公司 Truist 的首席数据官特蕾西.丹尼尔斯就表示,在数据安全方面,他们信任更加大的供应商,因此只选择与大技术供应商而非创业公司一起探索生成式 AI 应用。

第三,甚至在某些情况下,垂直行业的大客户会要求生成式 AI 创业公司支付巨大的资金额或者是公司股权。如生成式 AI 公司 Veesual 可以生成人们试穿衣服的图像,他们最初利用互联网上的公共图像进行训练,但在努力让大零售商同意交出他们数据以增强模型时,就因为上述原因失败了。

第四种情况,则是在技术上很难实现。如 PatentPal 是一家帮助律师事务所起草专利申请的生成式 AI 初创公司,他们接受过公开专利申请方面的培训。他们有机会继续根据加密或匿名的实际客户反馈,来训练其模型,从而使他们的工具更加准确。但这种过程十分复杂,因为反馈必须与高度敏感和机密的数据(包括商业机密)分开。 

然而与此同时,生成式 AI 创业公司的竞争已经趋向白热化。

如果从资金注入规模看,根据《华尔街日报》引用 PitchBook 的数据:从去年 2022 年到今年的前五个月,生成式 AI 创业公司的风险投资资金规模已经从 48 亿美金增长到了 127 亿美元。因此,为了确保能够在某些利基市场中获得更多数据,生成式 AI 创业公司的压力已经越来越大。

Struck Capital 的创始人兼执行合伙人亚当.斯特拉克指出:一些初创公司正竞相相互竞争,以确保在某些利基市场内获得更多数据。“如果你相信有一个专有数据集,你就想在他们之前得到它,然后,协商排他性。从这个意义上说,这几乎变成了一场军备竞赛。”他说。


(二)

有意思的是,上述现状也不禁让我想到:似乎,市场上真的缺乏一个数据的公开交易市场。

实际上在 2018 年或者更早的 2017 年,我在美国流媒体公司 Netflix 的一位朋友就和我聊起过他的这个创业想法:做一个数据的公开交易市场。不过,始终没有合适的产品形态,包括如何让公司自愿交出自己的数据。

从这个角度讲,前两天的一个新闻——OpenAI 正在考虑推出一个交易市场——就非常值得关注。

需要注意的是:在 ChatGPT 的插件计划几乎失败之后,根据美媒的报道:

OpenAI 正在考虑推出一个交易市场,以让客户可以将他们根据自己需求定制的人工智能模型出售给其他公司。换句话说:这个交易市场将为企业提供一种访问前沿大语言模型的方法,并托管客户们构建的 OpenAI 模型的微调版本。

发表回复