

Meta公司正面临着对其开放源代码人工智能模型进行训练时,是否使用了未经授权的版权作品的质疑,这与YouTube长期以来处理版权内容的方式形成了对比。一名自称为“Kadrey对Meta”的评论员指出,大型语言模型依赖于人工智能从大量文本数据中学习,这引发了关于训练数据来源的伦理和法律问题。
针对近期出现的关于大型语言模型训练数据来源的争议,有人指出,如果YouTube未经授权地使用了受版权保护的材料,那么YouTube也会面临类似的质疑。这位评论员表示:“如果他们未经许可地使用了YouTube上的内容进行训练,那么他们就很难对此提出异议。” 这位评论员同时指出,这个问题也同样适用于Meta公司利用LibGen上的资源来训练其人工智能模型的行为。
LibGen是一个知名的影子图书馆,提供大量书籍的免费下载,其中包括受Cengage Learning等出版商版权保护的材料。这些图书馆储存了大量的书籍扫描件,供那些无法通过其他途径获取资源的人使用。有评论指出,如果Meta的人工智能模型使用了LibGen的数据,那么该公司可能会面临严重的版权问题。
对此,该评论员评论道,Meta起诉LibGen似乎不太可能,因为如果YouTube长期以来都在未经授权的情况下使用受版权保护的内容,那么它将很难提出有力的诉讼。“我不认为他们会起诉那些正在做他们也在做的事情的人,如果他们正在使用版权材料进行训练的话。”他说。与此同时,Meta公司正在积极构建其人工智能基础设施。
鉴于上述情况,值得关注的是,Meta对LibGen上可用的训练数据的使用,是否会引发与涉及未经授权使用受版权保护的内容的类似法律挑战。与此同时,值得注意的是,Meta正在使用其开源的Llama模型来利用LibGen上的数据,从而扩大其在人工智能领域的影响力,这与依赖于影子图书馆Z-Library的其他人工智能项目形成了对比。
Z-Library是一个提供书籍和学术文章的平台,该平台在2022年因侵犯版权而受到美国联邦调查局的调查并被关闭。
关键要点:
📌 对Meta公司使用YouTube数据训练人工智能模型的行为,以及由此引发的版权问题进行了讨论。
🔎 探讨了Meta公司利用LibGen数据训练Llama模型所面临的潜在法律风险。
⚖️ 强调了Meta公司在版权问题上的立场,以及其可能面临的法律挑战。