"AI数据荒"雪上加霜,MIT:公开共享网页数据正在走向衰落
人工智能系统依靠足够高质量的培训数据来获得高性能。然而,MIT等机构最近的一项研究发现,免费提供的数据在许多方面变得越来越困难。
伴随着GenAI产品的研发与研究日益普及,培训数据的抓取许可也日益成为人们关注的话题。
最近,吴恩达在The网站上 在Batch中,提到了一项关于数据许可的研究,其结果似乎使本来就近的研究「AI数据荒」雪上加霜。
研究人员发现,C4、RefineWeb、Dolma等开源数据集抓取的各种网站正在迅速收紧他们的许可协议,以前触手可及的开放数据越来越难获取。
这样不但会影响商业AI模型的训练,还会阻碍学术界和非营利机构的研究。
这个项目的四位团队主管分别来自MIT Media Lab、Raive等机构,Wellesley学院,AI初创公司。
这项研究的主持人是非营利组织The Data Provenance Initiative,由来自世界各地的人工智能研究人员自愿参与组成。论文中涉及的所有数据标注和分析过程都在GitHub上公开,便于以后的研究和参考。
具体而言,论文主要包括以下几点:
对于AI信息共享空间的限制正在激增
2023.4~仅仅一年的2024.4,C4、RefineWeb、5%的Dolma数据集中 token总数,25% robots的关键网页.对txt进行了限制。
根据服务条款的结果,45%的C4数据集已经受到限制。这一趋势可以预测,无限开放网络数据将逐年减少。
不对称性和不一致性许可
与其它开发者相比,OpenAI爬虫更不受欢迎。不一致表现在,robots.txt和服务条款(Terms of Service, ToS)在这些工具中经常出现矛盾。这表明使用用于传递数据的工具存在效率低下的问题。
首尾内容的特点因网络抓取的公开训练语料而异。
这些语料材料包含相当高的用户生成内容、多模态内容和商业变现内容(俗称带货广告),敏感或露骨内容的比例只有一点点。
排名靠前的网站域名包括新闻、百科和社交媒体网站,其他组织架构官网、博客和电子商务网站形成长尾部分。
网络数据与对话AI常用用例不匹配。
相当一部分在网上爬行的数据与AI模型的训练目的不一致,会影响模型对齐、未来的数据采集实践和版权。
01 研究方法
一般而言,有两种措施可以限制网页爬虫:
- 机器人排除协议(Robots Exclusion Protocol, REP)
- 站点服务条款(Terms of Service, ToS)
在AI时代之前,REP的出现也可以追溯到1995年,这一协议要求在网站源文件中包含robots。.txt管理网络爬虫等机器人活动,例如用户代理(user agent)或者特定文件的访问限制。
robots在谷歌开发者网站上。.txt文档示例
你可以把robots.在健身房、酒吧或社区中心的墙壁上张贴txt的效果「行为规范」logo本身没有强制性,好的机器人会遵循标准,但是坏的机器人可以直接忽略。
本文对三个数据集的网站来源进行了调查,如表1所示。这些都是广为人知的开源数据集,下载量100k。~1M 不等。
每一个信息源,token总数排名前2k的网站域名,取并集,共整理出3.95k个网站域名,记录为HEADAll,其中仅来自C4数据集的记录为HEADC4,可视为AI培训信息源,规模最大,维护频率最高,关键领域最大。
随机采样10k个域名(RANDOM10k),其中随机选择2k个域名进行人工标注(RANDOM2k)。RANDOM10k单从三个数据集的域名交集中取样,这意味着它们更有可能是高质量的网页。
如表2所示,人工标注RANDOM2k包括许多方面,包括内容的各种属性和访问限制。为了在时间上进行垂直检查,作者向Wayback学习 Machine收录的网页历史数据。
研究所使用的人工标注内容已经公开,便于以后的研究再现。
02 结果简述
增加数据限制
论文除收集历史数据外,还采用SARIMA方法。(Seasonal Autoregressive Integrated Moving Average)预测未来趋势。
来自robots.根据txt的限制,在GPTBot出现(2023年中期)之后,网站的数量完全受到限制,但是服务条款的限制数量增加是比较稳定和平衡的,更加注重商业行为。
根据SARIMA模型的预测,不管是robots。.txt或ToS,这一限定增长趋势将持续下去。
下图计算了特定组织或企业在网站上有限的agent比例,可以看到OpenAI的机器人遥遥领先,其次是Anthropic。、Common谷歌和开源数据集 爬行动物Crawl。
类似的趋势也可以从token的数量来看。
AI许可证不一致且无效。
AI的不同组织 在各个网站上,agent的许可水平差别很大。
OpenAI、Anthropic和Common 在前三名中,Crawl的受限率已经达到80%以上,而网站所有者对Interneternet 在非AI领域,Archive或谷歌搜索这类爬虫通常比较宽容和开放。
robots.txt主要用于规范网页爬虫的行为,网站的服务条款是与用户的法律协议。前者机械化、结构化但可执行性高,后者可以表达更丰富、更小的策略。
两者应该是相辅相成的,但在实践中,robots.txt常常无法捕捉到服务条款的意图,甚至常常有相反的含义(图3)。
实际用例与网页数据的不匹配
本文将网页内容与WildChat数据集中的问题分布进行了比较,这是最近收集的ChatGPT用户数据,包括1M左右的对话。
从图4可以看出,两者的区别非常明显。网页数据中占比最大的新闻和百科在用户信息中几乎微不足道,网页中很难找到客户经常使用的虚构写作功能。
03 讨论与结论
最近,很多AI企业都被指责绕过robots。.txt捕捉网页数据。尽管难以确定,但AI系统似乎很难将用于训练的数据和推理阶段用于回答客户提问的数据进行分离。
REP协议的复杂性给网页创建者带来了巨大的压力,因为他们很难详细规定所有可能的agent及其下游用例,这导致了robots。.真实意图很难体现txt的具体内容。
我们需要对与用例相关的术语进行进一步的分类和规范,比如用于搜索引擎,或者非商业AI,或者只有在AI标明数据来源时才能使用。
总而言之,这一新协议需要更加灵活地反映网站所有者的想法,可以将许可和不允许的用例分开,更好地与服务条款同步。
最重要的是,从网站数据使用限制的激增中,我们不难看出数据创始人和AI科技公司之间的紧张关系,但非营利组织和学术研究人员躺在背后。
The 在复述这篇文章时,Batch表达了这样的愿望:
「希望AI开发者能利用开放网络上提供的数据进行实践。但愿未来法院的判决和立法能够确定这一点。」
参考资料:
https://www.deeplearning.ai/the-batch/issue-260/
https://www.dataprovenance.org/consent-in-crisis-paper
https://www.cloudflare.com/learning/bots/what-is-robots-txt/
本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com