"大厂垄断大模型"，会不会被开源终结？

2023-05-24

在AI方面，谷歌和OpenAI的积累，最终真的会输给一群隐藏在民间的“草头侠”吗？

最近，每一个正在进行AI对决的大厂，一份被谷歌泄露的内部文件，打开了尴尬的一面。

泄露的内部文件声称：“我们没有‘环城河’，OpenAI 没有。在我们还在争吵的时候，第三方已经悄悄地抢走了我们的饭碗——开源。”

根据这份文件，一些开源模型一直在复制谷歌和微软的劳动收入，双方的差距正以惊人的速度缩小。开源模型更快，可定制性更强，更私密，功能性不落后。

举例来说，这些开源模型可以使用 100 美金外加 13B 参数，再加上几个星期就可以发布了，而像谷歌这样的大公司，要想训练大模型，就要面对几千万美元的成本和成本。 540B 参数，以及近几个月的训练周期。

那么，事实真的会像这份文件中提到的那样，谷歌和OpenAI在AI方面的积累，最终真的会输给一群隐藏在民间的“草头侠”吗？

所谓“大厂垄断大模式”的时代，真的要结束了吗？

要回答这个问题，首先要了解开源模型的生态，看看这些如雨后春笋般涌现的开源模型是如何一步步蚕食谷歌的“正规军”。

01 开源模型异军突起

事实上，最早的开源模式，其诞生完全是一场“意外”。

在大多数基准测试下，Meta发布了自己的大型语言模型LLaMA，参数从70亿到650亿不等，仅用130亿参数就超过了GPT-3。

但是没想到的是，LLaMA的模型文件在发布后不久就被泄露了。

此后，开源模型的浪潮就像决堤一样，变得一发不可收拾。

ChatGPT开源替代品，像八仙过海一样。——「羊驼家族」，接着粉墨出现了。

这种开源模型与ChatGPT相比，最显著的特点就是训练成本和时间都极其便宜。

就拿LlaMA衍化模型Alpaca来说，它的训练费用只有52k数据和600美元。

但是，如果开源只靠低成本，对谷歌这样的大厂商来说是不够的。重要的是，在极低的培训成本下，这些开源模型可以多次达到与GPT-3.5相当的性能。

谷歌和OpenAI现在并不平静。

对于GPT-3.5，斯坦福研究者（text-davinci-Alpacaca003 对比7B，发现这两个模型的性能非常相似。与GPT-3.5相比，Alpaca获胜频率为90对89。

重点来了：这些开源模型，到底是怎么做到的？

斯坦福团队的回答有两点：1、强大的预训练语言模型；2、高质量的指令遵循数据。

我们把强大的预训练语言模型(如LlaMA或GPT-3)比作一位知识和经验丰富的教师。

对于自然语言理解领域的任务，强大的预训练语言模型可以借助大规模的文本数据进行练习，学习自然语言的方式和规律，帮助指令遵循其他任务的模型更好地理解和生成文本，提高模型的表达和理解能力。

这相当于学生可以利用教师的知识和经验来提高语言能力，使用预训练语言模型的知识和经验来提高他们的表现。

开源模型的另一把“尖刀”，除了借助这位“老师”的知识，就是指令微调。

指令微调，或指令调优，是指当前大语言模型生成指令遵循数据后，进行数据优化的过程。

具体而言，指令微调是指在生成的指令信息中，对一些不合适或错误的指令进行调整，使其更适合实际应用领域。

指令优化是指在生成的指令信息中加重或重复一些重要、复杂或容易出错的指令，从而提高指令遵循模型对这些指令的理解和表达能力。

通过这种“微调”，人们可以生成更准确、更有针对性的指令来遵循数据，从而提高开源模型在特定任务中的表现能力。

因此，即使只使用少量的数据，开源社区也可以训练出与ChatGPT相匹配的新型号。

但是，另一个问题是:面对自己辛辛苦苦打下的国家，谷歌和OpenAI为什么没有以“四两拨千斤”的方式一步步被开源社区蚕食？

即使是以毒攻毒，推出同样快速迭代的小模型，也不失为一种破局之策啊。

02 进退两难

实际上，像谷歌这样的龙头企业，并非没有意识到开源的优势。

谷歌在泄露的文档中提到，几乎每个人都可以根据自己的想法微调模型，然后一天内的训练周期就会成为常态。以这样的速度，微调的积累效应将很快帮助小模型克服规模上的劣势。

但问题是，谷歌和OpenAI作为AI领域的巨头，既不能也不愿意完全放弃培训成本高的大参数模型。

在某种程度上，这是保证自己优势地位的重要途径。

谷歌和OpenAI作为AI领域的巨头，需要不断提升自己的技术实力和创新能力。传统的大参数训练模式是提供这种探索和创新的唯一途径。

AI领域的研究者和科学家需要对模型和算法的基本原理有更深入的了解，探索AI技术的局限性和发展方向，这需要大量的理论研究、实验验证和数据探索，而不仅仅是微调和优化。

例如，AI领域的科学家在练习大参数模型时，可以探索模型的泛化能力和鲁棒性，并在不同的数据和场景中评估模型的性能和效果。正是在这个过程中，谷歌的BERT模型不断得到加强。

与此同时，大参数模型的练习，也能帮助科学家探索模型的可解释性和可视性，

例如，Transformer模型对于今天的GPT至关重要，虽然在功能上表现出色，但其内部结构和工作原理却比较复杂，不利于理解和解释。

通过大参数模型的练习，人们可以可视化Transformer模型的内部结构和特点，从而更好地了解模型是如何编码和处理输入的，进一步提高模型的性能和应用效果。

所以，开源和微调的方法，虽然可以促进AI技术的不断发展和优化，但不足以取代对AI基本问题的深入研究和探索。

不过话说到这里，一个非常尖锐的分歧又出来了:一方面，谷歌和OpenAI不能放弃对大参数模型的研究，坚持对其技术保密。另一方面，免费优质的开源替代品使得谷歌等大公司的“烧钱”战略变得困难。

由于大模型消耗的巨大算率资源和信息，仅仅是在 2022 年，OpenAI 总费用已经达到 5.4 十亿美元，与之形成鲜明对比的是，它所产生的收入只有 2800 万美金。

同时，开源社区具有灵活性的优势，也让谷歌等大厂感到难以与之匹敌。

谷歌认为，在泄露的文件中，开源阵营的真正优势是“行为”。

与谷歌这样的大工厂相比，开源社区的参与者可以在不受任何限制和压力的情况下，随意探索和研究技术，从而有更多的机会发现新的技术目标和应用领域。

谷歌在研究和开发新技术时，必须考虑商品的商业可行性和市场竞争力。这在一定程度上限制了人才的研究方向。

另外，由于保密协议的出现，谷歌人才也很难像开源社区那样，与外界进行全面的沟通和共享技术研究的成果。

如果说低价灵活的开源模式最终会成为不可阻挡的趋势，那么当谷歌等大公司面对这片广阔的战场时，他们如何在新的时代生存下来呢？

03 另辟蹊径

如果谷歌这样的龙头企业最终在开源阵营的攻击下选择了“打不过就加入”的策略，那么如何在开源的情况下找到一条可行的商业路径就成了当务之急。

归根结底，在目前的市场认知下，开源几乎等于“人人都可以免费使用”。

之前，Stable 明星公司背后的Diffusion——Stability AI，由于开源后，找不到明确的收益方式，目前正面临着严重的财务危机，以致于即将破产。

然而，对于如何在开源的情况下实现盈利，业界并非完全没有例子可循。

例如，在此之前，谷歌开放了Android系统，这是一个经典案例。

最初，由谷歌主导开发和推广的安卓系统开源后，谷歌仍然通过各种渠道从安卓操作系统的设备制造商那里获得了收益。

具体而言，这些方法可以分为以下几种：

收取许可费：当设备制造商希望在其设备上预装Google 谷歌应用和服务，如Play商店，他们需要遵守谷歌的授权协议，并支付相应的授权费用。

推出定制设备：谷歌通过与设备制造商的合作，推出一些定制的Android设备，例如Google Googlel智能手机和Pixel Nexus平板电脑等。，并从中获益。这类定制设备通常具有更好的价值和更好的性能，并且可以预装谷歌的应用和服务。

销售应用：当设备用户在Google 谷歌在购买应用程序、游戏或媒体内容时，会从Play商店中提取一定的佣金。

虽然这些方法的好处可能不像谷歌的主营业务——搜索和广告那样赚很多钱，但谷歌仍然从中获得了各种“隐性好处”。

因为安卓roid 随着互联网的开放，谷歌可以通过吸引更多的人使用Android上的应用来收集用户的行为数据，并加工这些信息，从而避免了某个企业垄断移动平台的入口，从而使广告营销更加精准。

由此可见，开源方式并非与商业盈利模式完全矛盾，这对谷歌和开源社区的参与者来说是一件好事。

由于只有通过商业化的方式，不断地为自己“造血”，谷歌、OpenAI等大厂商，才能继续承担培训大型参数模型所需的高成本。

只有随着大参数模型的不断开发，各大开源社区才能继续基于高性能、高质量的预训练语言模型，对类型更多、应用领域更丰富的开源模型进行微调。

基于这种关系，开源模型与封闭的大模型之间，实际上不仅仅是对立和竞争，更是一种互助共生的生态。