真正成为鲶鱼的DeepSeek

02-14 11:30


行业普遍认为,DeepSeek已经卷入了两大“AI巨头”,开源胜利正在改变AI世界。


DeepSeek卷入了两大“AI巨头”


DeepSeek自爆红以来,由于成本优势不断震惊行业,为其开源生态的发展奠定了很好的基础。


过去,大型模型的闭源路线与成本密切相关。在预训练阶段,几乎所有的大型模型都选择了不惜任何代价投资,而DeepSeek则选择剑走偏锋,专注于岗位后的强化学习。通过反复高韧性的训练,我们迫使自己不断调整姿势,理解逻辑,反思自己,直到结果令人满意。


OpenAI,一直难产。 GPT-5个例子,估计显示,这个项目经过半年的训练,仅会计成本就高达约。 五亿美元。现在,这个项目已经开发了18个多月,成本很高,但是仍然没有得到预期的结果。


这给国内很多大型公司敲响了警钟,意味着他们想训练顶级模型。仅GPU的采购成本就高达几十亿,10万卡集群已经部署。 烧钱的水平更是难以想象。


相比之下,DeepSeek发现了一条低算率、高效率的道路,其训练费用仅为OpenAI相关模型的十分之一甚至几十分之一。


DeepSeek还严厉回应了所谓“开源是硅谷精神”的论调。它不仅开源了所有的模型和论文,供大家免费下载,还公开了训练方法,允许大家蒸馏数据,训练自己的模型。


这意味着世界上所有相关技术人员都可以在现有能力的基础上进行R&D和开发。到目前为止,新技术和新应用将在这个新生态中产生。


2025年1月20日,DeepSeek发布R1模型后,仅7天就增加了1亿新用户(包括网页端和应用端),成为历史上最快突破1亿的AI应用。直到2月1日,活跃用户日(DAU)突破3000万大关,超越豆包(1695万),直追ChatGPT5323万。


越来越多的企业正在努力拥抱从云服务商、通信运营商到大多数手机和汽车制造商。 DeepSeek。


这条鲶鱼很快也搅动了全球AI市场,两大“AI巨头”先后决定改变闭源态度,向公众免费放手。


首先,1月31日,OpenAI推出了一个新的推理模型o3。-mini,并且进一步发放了免费权限。OpenAI CEO Sam Altman首次承认开源错误,指出随后可能会发现不同的开源策略,有望拾起模型开源。



最新消息来自百度,它在2月13日宣布,从4月1日起,文心一言全面免费。与此同时,文心一言上线深度搜索功能;该功能也将于4月1日起免费开放使用。



要知道,李彦宏去年还是一个坚定的闭源粉丝。“今天,无论是在中国还是在美国,最强的基本模式都是闭源的。闭源有真正的商业模式,可以赚钱。只有当你能赚钱时,你才能汇集计算率和人才。”


不到一年过去了,情况开始逆转。


到底什么是开源的底气?


事实上,许多人仍然对DeepSeek如何计算得又快又好奇,其中最重要的一点就是它实现了芯片的底层升级。DeepSeek在其发表的技术论文中表示,DeepSeek使用PTX(Parallel Thread Execution)通过定制PTX,编程可以使DeepSeek的系统和模型更好地释放底部硬件的性能。


DeepSeek实际上是主动拥抱的优化,与外界盛传的算率限制使其寻找性价比方案相比,用PTX编程一些SM(GPU中负责计算的核),让它们负责数据传输,从而加快多个GPU之间的数据传输,处理大模型计算中的一大瓶颈;同时,它还利用PTX改进了包括计算梯度在内的其他计算,使同一个GPU发挥了10倍的效率,这在训练和推理过程中起着非常重要的作用。


DeepSeek除了提高芯片之外,还在训练方法上下了很大功夫。与传统的大模型训练方法不同,它选择了强化学习训练推理模型,直接跳过监管微调阶段,致力于通过规则驱动。



从DeepSeek开始 V3 从Base的预训练模式开始,监管微调阶段被完全省略。为了实现大规模的强化学习,研究团队采用了一种名为GRPO的方法(人群相对战略优化)。有些人在日常生活中生动地比较了这种数学原理的精妙之处,“通俗地说,就是一群学生正在解决一个问题。教师不再独立地给每一个学生打分,而是让他们自己比较答案。回答得更好的学生会受到鼓励,而其他人会从错误中吸取教训。随著时间的推移,整个团队将共同进步,变得更加准确和一致。


观察本土化模型DeepSeek的发展路径,芯片优化和GRPO,可以说是两大法宝,提供源源不断的光照和养分,但光有养分是不够的,好的土壤更重要。DeepSeek的全资公司幻方量化了AI的长期押注,也是中国为数不多的量化私募,既不缺钱也不需要融资。与国内大多数AI相比,DeepSeek在商业化方面可以说是完全佛性的,甚至没有在内部开设过多的营销和产品岗位。



与此同时,根据公开信息,DeepSeekR&D部门有 139人都是专注于当地的年轻团队,他们更清楚这片土地需要什么。因此,这些快速迭代和前沿实验结果都有了茁壮成长的土壤。


DeepSeek在工程上精雕细琢,技术上大刀阔斧地进行创新,爆红绝非偶然。事实上,这种布局在六年前就开始了。其总公司幻方量化早在2019年就花费了2亿打造萤火一号超算集群, ChatGPT是2022年默默存放的万张A100显卡。 3.5发布后,第一波少数拥有万卡门票的模型公司,积累了丰富的资源,增强了开疆拓土的信心。


到目前为止,他们已经完成了V3令人震惊的性价比,R1在推动性价比的同时也跑过了影响很大的新范式,一跃成为AI领域的新星,甚至有人认为,DeepSeek可以被称为ChatGPT时刻的中国AI大模型。就行业而言,DeepSeek的例子再次证明,垂直突破、开放合作和长期主义仍然是AI竞争的关键。


中国科技企业全球资本重估


DeepSeek掀起的人工智能革命浪潮也改变了中国科技企业的估值叙述。


截至2025年2月12日,恒生科技指数ETF近一周上涨7.67%。2月13日,恒生指数再次高开0.46%,恒生科技指数上涨0.77%。-W、网易-S、百度集团-SW、中芯等涨幅超过2%。


根据中国证券报的报道,高盛最近发表了一份报告,称中国人工智能(AI)企业深度追求(DeepSeek)投资者加快购买中国股票的热情正在出现。与此同时,高盛对明晟保持着热情。(MSCI)超配评级,中国指数估计今年将上涨14%。


此前,中国科技企业普遍被低估。大摩的一份报告指出,全球投资者对中国科技企业的估值体系仍然停留在传统的互联网思维中,未能充分体现其在前沿科技领域的突破。以腾讯和阿里为例,港股的市盈率只有19和15,远低于美股科技股的市盈率。


现在,DeepSeek真的变成了鲶鱼。


在美国关于DeepSeek的报道中,经常出现一个高频词:“Sputnik Moment”,又名斯普特尼克时刻(这个术语源于1957年10月4日苏联成功发射的 斯普特尼克 人造卫星1号。这是人类历史上第一颗人造地球卫星。它的成功发射使苏联在太空领域处于领先地位,使美国意识到自己在技术上的落后,尤其是在太空技术上,给美国带来了极大的危机感和危机感。


这一事件对当时的美国产生了很大的影响。随后,NASA于1958年成立,美国通过全国的努力完成了登月,再次回到了太空领域的领先地位,然后拔掉了这根刺。这一次,在美国核心的AI领域,DeepSeek又扎进了一根新的刺。


本文来自微信公众号“凤凰网科技”,作者:梁思琦,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com