DeepSeek大模型API价格大降 技术升级与昇腾生态协同成关键

14分钟前
DeepSeek正重新划定大模型普惠的边界。4月26日,DeepSeek官方发布API价格调整公告,全系API输入缓存命中价格降至首发价的十分之一,V4-Pro更叠加限时2.5折优惠,百万Tokens输入缓存命中低至0.025元,创下全球大模型价格新低。


依据DeepSeek官方API定价页面的公示,此次降价覆盖V4系列所有模型,核心调整聚焦在输入缓存命中场景。其中,DeepSeek-V4-Flash输入缓存命中价格从0.2元/百万Tokens降至0.02元/百万Tokens。


面向企业级用户的DeepSeek-V4-Pro优惠力度更大,原价1元/百万Tokens的缓存输入降至0.1元,在2026年5月5日前叠加2.5折限时特惠,实际仅需0.025元/百万Tokens;缓存未命中输入从12元降至3元,输出则从24元降至6元。



DeepSeek方面表示,DeepSeek-Chat与DeepSeek-Reasoner两个模型名日后将被弃用。出于兼容考虑,二者分别对应DeepSeek-V4-Flash的非思考与思考模式。


对比调价前后可以发现,高频调用、长文本处理场景的成本降幅超过90%。像RAG知识库、智能客服、文档分析等缓存命中率高的应用,能直接实现商用成本的断崖式下跌,这有助于打破AI规模化落地的成本限制。


DeepSeek此次大幅降价,与DeepSeek-V4的技术升级以及和昇腾生态的深度协同密切相关。


4月24日,DeepSeek-V4预览版正式发布,同时开源了Pro与Flash两款模型,它们都支持100万token的超长上下文。自研的稀疏注意力架构使推理算力消耗大幅降低,Pro版单token算力仅为V3.2的27%,KV缓存降至10%,从底层实现了成本优化。


DeepSeek方面公布的参数显示,DeepSeek-V4-Pro激活参数为49B、预训练数据33T,定位是高性能旗舰;DeepSeek-V4-Flash激活参数13B、预训练数据32T,主打高速与低成本。


和前代模型相比,DeepSeek-V4-Pro的Agent能力有显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型的最佳水平,在其他Agent相关评测中表现也很出色。据悉,目前DeepSeek-V4已成为DeepSeek内部员工使用的Agentic Coding模型,评测反馈其使用体验优于Sonnet 4.5,交付质量接近Claude Opus 4.6非思考模式,但和Opus 4.6思考模式仍有一定差距。


在世界知识测评中,DeepSeek-V4-Pro大幅领先其他开源模型,略逊于顶尖闭源模型Gemini-Pro-3.1。而在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越了当前所有已公开评测的开源模型,可与世界顶级闭源模型比肩。


与DeepSeek-V4-Pro相比,DeepSeek-V4-Flash在世界知识储备方面稍显逊色,但推理能力与之接近。并且由于模型参数和激活更小,V4-Flash能提供更快捷、经济的API服务。


DeepSeek-V4还开创了一种新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,且相比传统方法大幅降低了对计算和显存的需求。


更值得关注的是,昇腾超节点全系列产品支持DeepSeek V4系列模型,这也表明DeepSeek释放出了更多国产化信号。


DeepSeek-V4在一份技术报告中提到:“在英伟达GPU和华为昇腾NPU两个平台上验证了细粒度EP(专家并行)方案,与强力的非融合(non-fused)基线相比,该方案在通用推理任务中实现了1.50 - 1.73倍加速;在对延迟敏感的场景(如强化学习(RL)rollout和高速Agent服务)中,最高可达1.96倍加速。”


DeepSeek强调,随着下半年昇腾超节点全系列产品批量上市,Pro版价格有望大幅下调。


DeepSeek-V4发布后,高盛发布分析报告指出,DeepSeek V4的核心意义在于以更低成本支持更复杂的智能体应用落地,从而打开AI应用规模化的新空间。对于纳入昇腾超节点,高盛认为DeepSeek的成本竞争力将进一步强化,为更广泛的应用落地创造条件。此外,在芯片持续收紧的背景下,中国顶尖AI模型向国产算力迁移的趋势得到了头部玩家的明确支持。


高盛报告还援引新闻报道称,腾讯和阿里正在洽谈以逾200亿美元估值投资DeepSeek,而智谱和MiniMax的最新市值分别约为530亿美元和310亿美元,这一潜在交易反映出巨头对稀缺顶层AI能力的争夺逻辑。


华泰证券则认为,市场容易将V4理解为“降本压低算力、存储需求”,但更重要的边际变化在于长上下文成本下降后,复杂Agent、多文档分析、长周期任务、在线学习等场景的可用性得到提升,推理调用量与存储访问频次有望增加。


本文来自微信公众号“界面新闻”,作者:宋佳楠,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com