号称超越 GPT-4 有多少大模型依赖于“抄袭”？

04-27 01:01

每个人都要互相舔羊毛，要用，但是要小心使用，一不小心就尴尬。

一位国产大模型算法工程师正在接受「甲子光年」采访中的吐槽，可以说是十分到位。

这是一个准确的讨论 AI 这个行业的每一个人「心照不宣」公开秘密。

每个人都知道，每个人都尽量不要。「直视」它，那便是「偷数据」。

近期，「The Information」戳破这层纱布，说出大模型「套壳」其中最糟糕的一种形式。而且它背后的数据对决，今年也得到了更多的关注。

使模型走向同质化「数据捷径」

假如每个人都使用相同的数据，你怎么会比别人好呢？

投资了 OpenAI 竞争者 Anthropic 的门罗风投（Menlo Ventures）总经理 Matt Murphy 评论道。

众所周知，数据在模型训练过程中尤为重要，而且在不同阶段的重点也有所不同。

练习底座模型时，数据追求的是「量」，对于计算率的要求也是极高的，它决定了大模型对事物的基本要求。「理解能力」。

很明显，并非所有的创业公司都能负担得起这笔费用和时间。所以许多创业公司都会跳过第一步，直接使用。 Meta 或 Mistral AI 使用开源模型。

在此基础上，创业公司需要根据自己的产品专注方向对模型进行微调。 —— 数据输入相对较少，但更有针对性和高质量，可以帮助模型成为特定领域。「专家」，做出商品差异。

这一阶段，开发者需要输入「问题」「回答」，试着建立一个特定的模型「联想」倾向。

这也是「偷数据」出现的环节。

由于 OpenAI、Anthropic 和 Google 这类大型企业有资源完善两个阶段的实践，因此其模型的输出结果质量也比较高。

创业公司缺乏自己的数据，会购买 GPT-4 这是一个最新的模型付费账户，然后根据自己的模型训练需要去哪里 GPT-4 提问，然后将答案和提问一起输入到模型训练中。

举例来说，主要推广编程细分领域模型的开发者可以直接输入一个代码，然后询问 GPT-4 这个代码有什么问题，这样就产生了一种数据材料。

理论上，大公司是不能这样做的。

不过，有消息说 OpenAI 的 Sam Altman 在去年的一次会议上，我告诉企业家，他们可以这样做。虽然这让现在的企业家感到安心，但是没有人能说哪一天。 Altman 决定把这个放在一边「特权」收回去。

Google 去年还有自己的「数据门」—— 不只是指用百度的文心一言产生的中文数据来训练。 Gemini，还有员工因 Google 用 ChatGPT 生成的数据训练自己的模型愤怒而离职。

在行业整体「默认」接下来，这种情况越来越普遍。

协助开发者研发对话式 AI 的 Unsloth AI 创始人 Daniel Han 表示，大约有一半的顾客会使用它。 GPT-4 或是 Anthropic 的 Claude 生成的数据可以优化自己的模型。

本来是用来分享乐趣的 ChatGPT 对话的工具 ShareGPT 就像很多公司直接扒数据的地方一样， OpenPipe 这类工具甚至可以提高整个过程的自动化水平。

因此，市场上提供相似模型的创业公司越来越多。这甚至导致了旧金山这样的模型。 Martian 一般而言，专门为需要使用 AI 寻找服务企业「平替」计划的创业公司。

但是投资者并不喜欢这种被骗的感觉。

正如最近一篇文章《纽约时报》所指出的那样， AI 由于行业缺乏标准和评价体系，人们很难对不同模型的表现差异或优势有一个统一的标准。

这样才能让投资者更加重视 AI 初创企业培训数据的来源。Radical Ventures 合作伙伴Rob Toews 强调说：

AI 在这些问题中，模型训练数据的质量和来源已成为最重要的焦点之一。没有人知道未来会发生什么，但是任何在信息来源上不谨慎或者没有策略的人 AI 初创企业都会落后。

在数据大战中，「沉默」变成了共鸣

假如说「缺芯」是 2023 年 AI 这个行业的共识，那「缺数据」则是 2024 年度新主题。不但缺少创业公司，大公司更缺乏。

无论规模大小，这些公司都开始在灰色地带徘徊，以获取数据。

早在 2021 年，OpenAI 面临着数据短缺的问题。

尽管有些员工提出了行为不当的担忧，但最终还是 OpenAI 或者写一个语音转文字工具？ Whisper 来将超出 100 万小时的 YouTube 把视频转换成文字，用来 GPT-4 训练。

在这次行动中，OpenAI 总裁 Greg Brockman 还亲自出马帮忙收集视频。

据知情人士透露，当 Google 发觉 OpenAI 在做了什么之后，它并没有透露训斥这些损害创作者版权的行为，因为，Google 还要做同样的事。

Google 发言人 Matt Bryant 回应说，公司是对的 OpenAI 不知情的行为，也禁止未经授权的数据捕获。

除了 YouTube 此外，三位知情人士表示，Google 还在盯着旗下的网上合作文档工具 Google Doc 数据，但其隐私政策限制了数据 Google 如何使用这些数据。

去年 7 月，Google 更新隐私政策，明确表示可以通过收集网络上的公共信息或者来自其他公共来源的信息来训练 AI 模型。

对在 AI 领域「一大早起床，却赶上了晚会。」的 Meta 尽管一些法律事务警告了版权问题，但最终还是决定跟随。 OpenAI 的「行业例子」使用版权保护书籍、文章等材料。

泄露的录音也显示，Meta 高管们一致同意，出了问题可以用。 2015 年度作家协会诉讼 Google 案件失败的先例是辩护。

看起来应该是这样 Meta 最大优势的 Facebook 和 Instagram，事实上，可用数据并不多，很多 Facebook 使用者删除了他们最初发布的内容，而社交媒体一般也不是每个人都喜欢发布长篇内容的地方。

这类巨人不愿言说的过去，形成了 AI 行业在训练数据上一致闪烁其词。

Adobe 在这些企业中，很少有大型企业积极讨论自己的模型培训数据。

近期，它也「塌房」了。

Adobe 一直标榜公司与创作者站在同一边，坚定地只使用自己获得授权的图库来训练模型，不会像 Midjourney、Dall-E 如此私人使用有版权保护的图像素材进行训练。

直至有人发现，Adobe 事实上，培训数据包含了培训数据 AI 生成图片，并生成 Adobe 同样是知情的。

尽管 Adobe 需要强调的是，模型训练数据只有 5% 上下图像是 AI 产生的，但无论如何，这些图像都是通过损害创作者的版权利益而制作的，所以并不完全是这样。「道德」。

这个月初，Adobe 高级副总裁 Ashley Still 仍然在一次公开活动中说：

我们在推出 Firefly 有时候，一些企业客户会来告诉我们：「你所做的事情，我们真的很感激你没有窃取我们在网上的知识产权。」

不清楚「塌房」这个企业客户在消息出来之后会有什么感受？

「榨干」因特网之后，下一步是什么？

以前我们认为是因特网「广阔无垠」，直到现在，大语言模型已经存在「吃不饱」。

两年前，科研机构 Epoch 的 Pablo Villalobos 指出，高质量的数据很有可能在 2024 2008年中期，需求超过供给。现在他们有点乐观，认为这种情况会发生。 2028 年才出现。

即便如此，OpenAI 也许现在也已经很忙了。

Epoch估算，GPT-4 使用的训练数据大约是 12 万亿 token，按规模定律（Scaling Law），要训练出被寄予厚望的人。 GPT-5 大概要 60-100 万亿 token。

按照这个标准，目前高质量的文字数据和图像数据的总体规模还不够，还不够。 10-20 万亿 token。

变化刻不容缓。

Sam Altman 以前也暗示过，OpenAI 寻找新的出路：

在我看来，那个追求庞大模型的时代即将结束。通过其它方法，我们可以让它们变得更好。

同时，消息人士表示， OpenAI 和 Google 我们都考虑做一个系统，可以测量特定数据对模型训练的贡献程度，这样可以为提供这些数据的人计算支付的费用，但是目前还没有进展。

在实现这些开拓数据和创新技术之前，有一件事。 AI 创业者现在有能力但不一定愿意做的事情。 —— 提高透明度，打破沉默。

要是这样做不到，我们怎么能相信这些公司能够对社会负责呢？ AI 商品？

本文来自微信微信官方账号“APPSO”（ID:appsolution），作者：方嘉文，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

早安·世界｜打赢防汛救灾硬仗，广州启动暴雨Ⅲ级应急响应

如何看待AI巨头集体崩盘？

向她致敬｜余苏：用法律为妇儿工作增添温暖

登革热多发期即将到来，五一假期出境需要提前做好准备。

推动大学毕业生高质量、充分就业的“三条专线”

项目推荐

梯影传媒

AI云印侠

数策智检