人工智能效仿YouTube：苹果、英伟达、Anthropic深陷版权风波

近期，关于大型科技公司利用 YouTube 视频进行人工智能模型训练的消息引发广泛关注。这些公司利用视频内容中的对话、视觉信息和各类元素来提升其 AI 系统的性能。然而，这种做法也引发了关于版权、数据隐私和内容创作者权益的讨论。

他们是如何获取这些训练数据的？

据 Proof News 的调查，包括 Anthropic、苹果、谷歌和 Salesforce 在内的多家公司，都曾使用数量庞大的 YouTube 视频数据来训练其 AI 模型。据悉，他们利用超过 173 万个 YouTube 视频的转录文本进行 AI 训练。这些视频总时长超过 48000 小时，涵盖了 YouTube 平台上各种主题和风格的内容，为 AI 提供了丰富的学习素材。

这些公司主要通过抓取“YouTube Subtitles”来获取数据，其中包括来自 Khan Academy、麻省理工学院等教育机构的视频，以及 NPR 和 BBC 等新闻媒体的内容。甚至一些脱口秀节目，如《Stephen Colbert Show》、《John Oliver Tonight》和《Jimmy Kimmel Live》也未能幸免。

Proof News 指出，像 MrBeast、Marques Brownlee、Jacksepticeye 和 PewDiePie 这样在 YouTube 上拥有大量粉丝的知名创作者，他们的视频也成为了 AI 训练的素材。这些视频的文本内容被用于训练 AI，但并没有事先征得创作者的同意。

潜在的伦理问题

《David Pakman Show》的主持人 David Pakman 评论道：“他们未经许可就使用了这些数据。”他的频道拥有超过 200 万订阅者，总观看次数超过 2 亿次。据他估计，大约有 160 个他频道里的视频被用于 YouTube Subtitles 数据集。

Pakman 对此表示担忧，认为这种行为侵犯了内容创作者的权益。他指出，AI 技术的快速发展已经给内容创作领域带来了诸多挑战，未经授权的数据抓取行为更是加剧了这种不确定性。他呼吁大家关注 AI 训练的数据来源问题，并采取措施保护内容创作者的权益。

Nebula 的 CEO Dave Wiskus 简洁明了地表达了自己的看法：“这太糟糕了。”Nebula 是一个独立的流媒体平台，致力于为创作者提供更多控制权和收益，避免受制于 YouTube 等大型平台。

数据抓取的广泛影响

AI 模型训练需要大量的数据，这使得数据抓取行为变得越来越普遍。许多公司都在积极寻找获取数据的途径，而 YouTube 成为了一个重要的目标。《Hard Fork》节目曾报道过 YouTube 的数据抓取问题，并指出一些公司利用这些数据来提升 AI 模型的性能。这意味着，未经授权的数据抓取行为可能会对整个互联网生态系统产生深远的影响。

Proof News 的调查还显示，OpenAI 也参与了 YouTube 数据的抓取。这一发现进一步引发了人们对于 AI 公司数据获取行为的担忧。

版权与法律的挑战

YouTube Subtitles 和其他类似的数据集，其版权问题一直备受争议。一方面，未经授权的数据抓取行为可能侵犯内容创作者的版权；另一方面，AI 技术的进步也对现有的版权法律提出了新的挑战。因此，如何平衡技术发展与版权保护之间的关系，成为了一个亟待解决的问题。同时，这也引发了关于 AI 公司数据获取行为的法律责任的讨论。

Proof News 强调，重要的是要了解这些数据集背后隐藏的法律问题。对于内容创作者来说，了解自己的权利，并采取措施保护自己的作品至关重要。只有这样，才能确保他们的权益得到充分的尊重和保障。

未来的不确定性

目前尚不清楚这些数据抓取行为会对 YouTube 生态系统产生怎样的影响。一方面，AI 技术的进步可能会为内容创作带来新的机遇；另一方面，未经授权的数据抓取行为也可能损害内容创作者的利益。因此，我们需要密切关注事态的发展，并积极探索解决方案，以确保 YouTube 生态系统的健康发展。

一种可能的解决方案是，YouTuber 可以选择是否允许 AI 公司使用其内容进行训练，从而更好地保护自己的权益。这将使他们能够更好地控制自己的数据，并从 AI 技术的发展中获益。

《David Pakman Show》的主持人 Pakman 认为，这个问题可能会在 TikTok 上重演。他指出，如果 Tucker Carlson 在节目中使用了他的视频片段，他可能会采取法律行动。如果 Carlson 只是简单地引用了他的话，他可能会选择忽略。然而，将 Carlson 的观点与 Pakman 在 YouTube 频道上表达的观点进行对比，可能会产生意想不到的效果——这可能意味着 Carlson 正在利用 Pakman 的劳动成果。

Pakman 认为：“这是一个灰色地带。”他补充道：“如果你能够从中获得收益，那就另当别论了。”

EleutherAI 的研究员 Sid Black 在 GitHub 上分享了一个项目，该项目利用了 YouTube Subtitles 数据集。该项目旨在通过分析 YouTube 字幕数据，来研究 YouTube 视频的内容和主题。根据 GitHub 上的描述，Black 使用了 495 个不同的 YouTube 频道的数据，其中包括“争议性频道”、“阴谋论频道”、“极右翼频道”、“虚假信息频道”、“宣传频道”、“另类右翼频道”、“Ben Shapiro”、“媒体人物”、“评论区”、“政治漫画”和“所有频道”等。

YouTube 的数据集包含的频道类别非常广泛，从 GitHub 下载的数据显示，其中包含超过 2000 个与 GitHub 相关的代码片段。

“YouTube 现在拥有了大量有价值的数据，如果能合理利用，将会大有裨益。”GitHub 上的研究员 Jonas Depoix 在评论 Black 分享的 YouTube 数据集时写道。“这对我们来说都是一个好消息。”

此外，Depoix 还告诉 Proof News，他一直试图寻找一种更有效的方式来使用这些数据集，以便更好地了解 YouTube 社区的互动情况。他表示，数据分析可以帮助我们更好地理解 YouTube 生态系统。

谷歌的研究员 Jack Malon 也表达了类似的观点，他认为“训练数据和代码的质量至关重要”。他补充说，使用这些数据可以帮助我们更好地理解 AI 模型是如何学习和做出决策的。

AI 模型使用 YouTube 数据的一个例子是 Einstein Parrot，它使用了 146 个 YouTube 视频的数据，其中包括 1500 万个单词。人权律师 Marcia（她不喜欢透露自己的姓氏，因为担心 AI 技术会暴露她的个人信息）表示，她担心 AI 系统会模仿人权律师的辩护方式，从而造成侵权。

“我们如何保护人权律师的权益？”Marcia 问道。“在这种情况下，我既是原告又是被告。我既要保护我的人权，又要对 AI 系统提出质疑。”

目前，关于 AI 模型使用数据的问题，仍然存在许多“未知数”。Marcia 认为，有必要对 AI 模型的法律责任和伦理问题进行深入研究，以确保技术的发展不会损害个人和社会利益。