OpenAI 利用YouTube视频训练GPT-4超百万小时

IT之家4月7日消息,近期《华尔街日报》报道称AI公司在收集高质量训练数据时遇到难题。今日,《纽约时报》详细阐述了AI企业为解决这一问题所采用的方法,涉及版权法模糊地带的相关内容。报道称,OpenAI急需训练数据,因此开发了Whisper音频转录模型,通过大量YouTube视频进行训练,这些视频总时长超过100万小时。此外,OpenAI还在2021年用尽现有数据资源,并在耗尽其他资源后探讨了从YouTube、播客和有声读物中获取内容的可能。

据悉,OpenAI深知此举在法律上存在问题,但仍认为这是一种合理的利用方式。该公司的总裁Greg Brockman亲自参与了视频资源的收集。OpenAI发言人Lindsay Held在一封邮件中向The Verge透露,公司为每个模型量身定制了“独特”的数据集,以帮助它们更好地认识世界,并保持在全球科研竞争中的领先地位。她补充道,OpenAI使用的数据来源广泛,包括公开数据和非公开数据,并与合作伙伴共享资源。此外,OpenAI正在考虑生成自制的合成数据。

谷歌代表Matt Bryant回应称,已收到有关OpenAI活动的未经证实报告。他提醒道,YouTube平台的robots.txt文件和服务条款均严禁未经授权抓取或下载YouTube内容。值得一提的是,YouTube首席执行官Neal Mohan最近在接受采访时暗示,尽管没有确凿证据证明OpenAI使用YouTube视频训练Sora(文本生成视频的AI模型),但该行为已违反YouTube现行服务条款。Meta方面也面临数据可用性限制。据《泰晤士报》披露,Meta的AI团队曾讨论未经许可使用版权作品的可能性,如浏览互联网上的大量书籍、散文、诗歌和新闻文章等。

综上所述,AI企业在训练模型过程中确实面临诸多挑战,但仍在寻求各种途径以提高自身竞争力。然而,这些做法是否合法仍存争议,企业需谨慎应对。

发表回复