

在大型语言模型的世界里,数据的获取一直是一个备受关注的话题,它涉及到训练模型所使用的大规模数据集的构建方法。麻省理工学院的研究人员正在探索一种更加注重伦理和透明度的数据收集方法,旨在应对人工智能领域的数据挑战,并为未来的负责任的人工智能发展奠定基础。
当前,用于训练大型语言模型的数据集,如C4、RefineWeb和Dolma等,通常包含大量未经明确许可的数据。然而,这种做法引发了关于人工智能伦理的担忧,尤其是在数据来源和使用方面缺乏透明度的情况下。
为了解决这个问题,麻省理工学院媒体实验室、卫斯理学院以及人工智能初创公司Raive的4位研究人员共同提出了“数据溯源计划”。他们的目标是构建一种负责任的数据获取方法,在尊重数据所有者意愿的前提下,确保语言模型训练数据的合法性和透明性。
该计划的核心在于明确定义并遵守网站的Robots Exclusion Protocol(REP)和使用条款(Terms of Service,ToS),以规范数据的抓取行为。研究人员认为,OpenAI等大型人工智能公司应该积极参与数据溯源,共同建立一个更加透明和负责任的数据生态系统。
借鉴SARIMA时间序列预测模型,该计划主张将robots.txt和ToS视为数据溯源的重要组成部分,从而更全面地了解数据的来源和使用限制。通过这种方式,可以避免在未经授权的情况下使用数据进行模型训练。
数据溯源计划旨在确保用于训练人工智能模型的数据在收集和使用过程中符合伦理标准,从而减少模型可能存在的偏见和不公平性。同时,该计划也有助于提高人工智能系统的可靠性和安全性,使其更好地服务于人类社会。
该计划还强调,在利用网络数据训练人工智能模型时,必须充分考虑数据所有者的权益,尊重其隐私和知识产权。只有这样,才能确保人工智能技术的健康发展,并避免潜在的法律和伦理风险。
更多信息请参考:https://www.dataprovenance.org/ConsentinCrisis.pdf
快讯中提到的AI工具

致力于创造对全人类有益的安全 AGI