DeepSeek V4正式发布:聚焦Agent能力,训练硬件成谜

1分钟前

备受瞩目的DeepSeek V4预览版于北京时间4月24日上午正式发布。此前,媒体与分析师曾多次预测其发布时间却均未成功,此次终于尘埃落定。由于发布时间尚短,第三方及客户评测仍在进行,目前有效信息有限,但通过技术文档与海外AI社区的初步讨论,我们仍能获取一些关键信息。


首先,V4的核心战略方向是提升Agent能力,这与OpenClaw推出后引发的行业趋势高度契合。“全民养龙虾”的热潮为MiniMax、Kimi、智谱等国产大模型厂商带来了显著的Token增量,然而最关键、最专业的增量却被Claude收入囊中。Agent能力与编程能力紧密相关,Claude Code至今仍是全球最强大的AI编程工具,GPT-Codex也难以撼动其地位。DeepSeek官方公告在开头便强调“Agent能力大幅提升”,但同时也承认“(据评测反馈)与Opus 4.6的思考模式仍存在一定差距”。


在海外AI社区,部分用户对DeepSeek V4充满期待,甚至希望它能成为“Claude杀手”——不过客观而言,这更多是一种美好愿望,毕竟不少人对Claude及其开发商Anthropic颇有不满,“天下苦Anthropic久矣”的说法也反映了这种情绪。从目前的测试数据来看,V4的Token性价比表现突出,但Agent Benchmark指标尚未超越Claude Opus-4.6和GPT-5.4。需要注意的是,Benchmark分数仅具参考意义,实际用户体验才是关键。Claude在许多Benchmark测试中并不优于GPT和Gemini,却在Agent领域几乎独占鳌头。因此,专业用户使用DeepSeek进行Agent操作的实际反馈值得重点关注。


上下文窗口扩展至1M是V4的重要升级,结合较低的Token定价,有望大幅提升生产力。不过,这仍需等待专业客户完成复杂任务后的实际反馈,预计还需几天时间。


关于发布时间延迟的原因,笔者猜测可能是为了打磨Agent能力。“龙虾”热潮带来的增量超出预期,与其发布一个无法满足现实Agentic Workflow需求的模型,不如多花几个月时间推出一个完全适配需求的版本。当然,这只是个人猜测,尚无实证支持。


其次,从最初的海外客户反馈来看,在执行“非深度推理、非数学、非代码”任务(如头脑风暴、文艺创作)时,V4的回答给人“太干”“过于正式”的感觉,落后于Claude和GPT的最新版本,甚至有人认为不如GPT-5.2。需要强调的是,这些零散的主观感受并不能代表整体情况,且文艺创作并非V4的主要发力方向。不过,这可能会对消费端用户的选择产生微妙影响,进而干扰当前互联网大厂在C端AI应用市场的竞争格局。


若V4的回答确实存在“太干”“过于正式”的问题,或许是为解决V3/R1版本幻觉率较高的问题而采取的调整。自由发挥往往会导致幻觉率上升,而限制幻觉率则难免让回答变得“更干”。当然,这也只是猜测,还需更多广泛的测试结果来验证。


第三,也是大家最关心的一点:DeepSeek V4的技术文件披露了诸多训练细节,但未提及训练硬件(显卡)。整份文件中,“华为”仅被提及一次,“英伟达”被提及三次(不含脚注);“GPU”被提及十四次(不含脚注),但均未说明具体型号,仅在一处提到“我们在NVIDIA GPU和华为NPU平台上验证了细粒度EP方案”——不过这仅指测试环境,并非训练场景(注:这也是唯一一次提到华为昇腾NPU)。


因此,我们仍不清楚DeepSeek V4究竟是在何种硬件上训练的。技术文件中虽几次提到CUDA,但不能据此断定完全基于英伟达架构。是否如部分分析师预期的“基于英伟达与华为昇腾混合架构训练”,或是“在后训练环节针对昇腾进行了专门优化”?遗憾的是,DeepSeek官方既未认可也未否认。相比之下,V3的技术文件在开头就明确表示是使用英伟达H800和A100训练的。



图片由Google Nano Banana Pro制作


有人根据DeepSeek公告中“预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调”的表述,得出“V4针对昇腾做了深度优化”甚至“从1月推迟发布是为了适配昇腾”的结论。虽然不能完全排除这种可能,但这种推断过于牵强。这只能说明DeepSeek官方会采购或租用昇腾算力,并对昇腾推理进行了一些优化(这是正常操作),至于优化程度深浅、是否因适配昇腾而推迟发布,目前均无实证支持。


不过,要间接验证或证伪这一点并不难。V4是开源的,从发布之日起,会有众多厂商用自己的算力进行推理测试。若它确实基于昇腾训练,或针对昇腾做了深度优化,那么其在昇腾硬件上的推理效率应高于或至少与英伟达等其他硬件相当,甚至昇腾硬件能让V4实现其他硬件无法达到的独特性能。只需关注相关新闻即可了解实际情况(若未看到相关新闻则可视为证伪)。


最后谈谈对产业界的影响。除了DeepSeek自身,最期待V4发布并引发轰动的或许是腾讯。昨日腾讯混元3.0大模型预览版刚发布,其光芒便被今日的DeepSeek V4完全掩盖。笔者尚未全面试用混元3.0,但考虑到腾讯此前在基座大模型领域的落后程度,仅靠一个版本就达到世界先进水平似乎不太现实。


因此,腾讯若想在AI业务上有所作为,无论是To B生意(尤其是卖Token的MaaS业务)还是To C生意,恐怕仍需依赖高质量的第三方开源大模型。国内水平最高、用户最多的开源大模型是Qwen,而它属于腾讯的老对手阿里,腾讯显然不愿使用。如此一来,腾讯只能依靠DeepSeek以及几天前刚发布新版本的Kimi。若DeepSeek开启融资,腾讯大概率会不惜代价参与投资。V4越成功,腾讯就能争取到更多时间——一边努力将自己打造成“国产开源生态”的聚合平台,另一边全力提升自研大模型的实力。


笔者认为,目前最期待V4在用户测试中传来捷报的,应该是腾讯的投资人和管理层。幸运的是,从初期反馈来看,海外社区的评价偏向积极。但这还不够,我们还需要更多信息,而且仅仅“偏向积极”远远不够,最好是“十分积极”——这恐怕还得等上一个星期才能确认。


本文来自微信公众号“互联网怪盗团”(ID:TMTphantom),作者:怪盗团团长裴培,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com