科技巨头苹果、英伟达被指未经授权，利用YouTube视频训练人工智能模型

摘要：

有关于“涌现”现象的研究，包括谷歌、Anthropic和Salesforce等公司所做的先进模型训练都试图理解 […]

科技巨头苹果、英伟达被指未经授权，利用YouTube视频训练人工智能模型的封面图

有关于“涌现”现象的研究，包括谷歌、Anthropic和Salesforce等公司所做的先进模型训练都试图理解和预测其出现，这对理解大型语言模型的运作方式至关重要。

研究人员正在探索，试图理解YouTube视频的数据，以训练AI模型来模拟人类行为。一个值得关注的例子是，研究者利用MKBHD、MrBeast和Jacksepticeye等知名YouTube博主的视频内容，涵盖了科技评论、娱乐视频、游戏实况以及其他各种主题，用以训练、评估和验证语言模型的性能，甚至包括美国国家公共电台NPR的内容。

这些研究项目中的一个例子是Eleuther AI，这是一个致力于开源AI研究的社区。他们利用名为“The Pile”的大规模数据集进行模型训练，该数据集包含了各种各样的文本和代码数据，旨在提升语言和推理能力。这些研究表明，大型语言模型在模拟现实世界方面具有巨大的潜力。

重要的是，谷歌已经开始利用YouTube的数据来训练这些模型，这与Eleuther AI的研究方向不谋而合。根据相关报告，YouTube使用的数据并非Eleuther AI所用的数据集，而是他们自己的训练数据。

这一系列研究揭示了AI模型学习内容的方式，以及人类创造内容的方式。通过分析大量用于训练AI模型的文本数据，研究人员可以深入了解其学习能力，并识别其中可能存在的偏见。这对于确保这些技术在不同应用场景中的公平性和可靠性至关重要。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/8khgnjaj