研究:重复使用AI产生的内容来训练AI可以导致“模型崩溃”

09-06 12:28

IT 世家 9 月 5 每日新闻,当地时间 9 月 4 据《福布斯》报道,牛津大学的伊利亚・当生成式的时候,舒梅洛夫博士和他的团队发现 AI 软体仅仅依赖于理由 AI 在产生内容时,答案的质量开始恶化。这项研究已在《自然》杂志上发表。


经过最初的两次查询,答案逐渐显现。偏移准确性,到了第五次,质量明显下降,到了第九次持续查询的时候,答案已经完全下降。无意义的胡言乱语。研究者将这种生成形式 AI 过度使用内容的循环称为“模型崩溃",即 AI 经过不断污染自己的训练集,输出内容逐渐偏离现实,最终变得毫无价值。


舒梅洛夫说:“令人惊讶的是,模型崩溃发生得如此迅速,以至于很难察觉。起初,它会影响到它。少数数据 —— 这些缺乏代表性的数据。然后,影响多样化导出,导致差异性下降。有时候,你会观察到大部分数据的细微改善,但这种改善掩盖了少数数据表现的恶化。模型崩溃可能会带来严重的后果。"


研究人员通过一种方法确定了“模型崩溃”现象的存在:使用预训练 AI 驱动维基百科,然后让维基百科, AI 模型根据自己生成的内容进行更新。由于污染数据的影响,原来的训练集逐渐被腐蚀,输出信息也随之变化。无法理解。例如,在第九次查询循环之后,研究中的维基百科内容从关于维基百科的内容开始。 14 世纪英国教堂的尖形有趣的内容变成了一篇关于有关的文章各种颜色的短尾兔的论文。


据报道,据亚马逊网络服务报道,(Amazon Web Services)团队在 6 另外一项月度发布的研究,大概是 57% 所有的网络文本都通过了 AI 如人类在网络上生成数据,算法翻译。迅速被 AI 过滤器内容覆盖,而且舒梅洛夫的研究发现是真的, AI 也许是“自我毁灭”—— 并且“破坏”互联网。


研究得出结论,要实现 AI 唯一的办法就是保证其能够长期可持续发展。浏览现有的非 AI 生成内容,并且继续引进新的人工生成内容。


IT 家庭附属研究链接:


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com