DeepSeek V4发布前夕:这些关键问题需提前梳理

4分钟前
V4会是DeepSeek的发展分水岭吗?

4月10日,据多位知情人士向《创智记》透露,DeepSeek创始人梁文锋在内部沟通中首次明确了V4的发布安排——备受期待的新一代旗舰大模型DeepSeek V4计划于4月下旬正式与公众见面。



凤凰网科技就该消息向DeepSeek方面求证,截至发稿未获得回应。


此前,DeepSeek刚完成版本更新,首次在模式上进行分层,推出快速模式和专家模式。在点击开始的入口处,原本“体验DeepSeekV3.2”的字样也已消失。


“优等生”DeepSeek的困扰


DeepSeekV4的未知性,建立在复杂的背景之上。


2025年初,R1的发布曾是国内大模型创企难以摆脱的“阴影”。这些曾经的明星企业用了半年时间,才凭借新的旗舰模型重回公众视野,有的选择上市,有的开启新一轮融资。


在成名之前,梁文锋曾与少数VC有过会谈,但据当时接触过他的人士向凤凰网科技表示,梁文锋的本意并非融资,而是了解机构的风格。


《晚点LatePost》的报道也提到,梁文锋曾在会面中提出类似OpenAI与微软投资协议的回报上限条款,但没有机构接受,此后便再无投资人会面。


2025年成名后,DeepSeek变得更加内敛,一些原本在社交媒体更新的员工账号开始停更。


据《晚点LatePost》报道,DeepSeek没有加班文化,员工不打卡、没有明确的绩效考核,平日多数成员会在下午6点至7点左右离开公司。


但随着智谱、MiniMax等公司上市后市值大幅增长,DeepSeek的估值问题逐渐成为内部压力点。DeepSeek员工对手中未定价的期权产生了更多疑问,梁文锋近期也开始考虑公司估值的问题。


除此之外,从2025年秋天起,梁文锋开始更多提及“产品化和商业化”。在公开的招聘信息中,官方HR表示有产品、设计、数据百晓生等岗位开放。甚至职能岗也在扩充,早在2025年11月,DeepSeek还开放过行政招聘,据相关人士称“是因为团队规模扩大,需要更多行政人员”。


在这些变化之下,拖延数月的V4可能存在诸多变数,但其引发的关注热度不会消减。


OpenRouter平台数据显示,2026年2月,中国大模型在OpenRouter上的周调用量首次超过美国模型,这一趋势持续到3月。本周,排名前五的模型中,仍有三个来自中国,分别是排名第一的DeepSeekV3.2、排名第二的MiniMaxM2.7和第四的MiniMaxM2.5。


毫无疑问,DeepSeekV4的推出有望延续这一优势。


V4能否成为DeepSeek的分水岭?


将R1和V4放在一起分析,变化的脉络会更清晰。


R1的突破具有范式意义——它在学术层面开创了“纯强化学习激发推理能力”的新路径,相关论文登上Nature封面,以586万美元的成本实现了对标GPT-4的性能,彻底改变了全球对中国AI模型的认知。


Hugging Face在“DeepSeek时刻一周年”回顾中指出,R1“降低了技术与应用门槛,不仅是中国AI发展的转折点,更在全球范围内引发了开源模式的深刻变革”。


V4的战略意义则完全不同。它不再回答“中国能否做出世界级模型”,而是聚焦两个更具体的问题:“中国AI能否在算力封锁下持续进化”,以及“大模型能否成为可盈利的企业级产品”。


那么,V4能否成为DeepSeek的分水岭?


如果说R1是DeepSeek在“纯推理”路线上站稳脚跟、打响全球知名度的第一枪,那么V4就是DeepSeek证明自己不仅是“技术奇才”,还能在中国AI产业生态中找到不可替代位置的标志性产品。


R1的意义在于“完成了别人认为中国公司做不到的事”。V4的意义则在于“在被封锁的环境中,为自己铺就了一条可持续发展的道路”。


与此同时,学术界也出现了新的趋势。DeepSeek的使命曾是探索未知,追求通用人工智能(AGI)。


去年底,姚顺雨、林俊旸、杨植麟、唐杰等人在清华同台,探讨底层范式话题。在海外,Yann LeCun称大语言模型(LLM)是“死胡同”,Jim Fan表示“视觉是连接大脑、运动系统和物理世界的最高带宽通道”。甚至有观点认为,追求AGI的重任或许应落在世界模型身上。


敏感的VC最早察觉到市场风向的变化。巧合的是,代表世界模型阵营的李飞飞和杨立昆均刚完成10亿美元级别的新融资,国内代表企业生数科技也于4月10日官宣获得近20亿人民币的A++轮融资。



绘图|DeepSeek


从目前披露的信息来看,DeepSeek仍选择基于LLM架构进行优化和工程化落地。V4最核心的突破集中在三方面:万亿参数MoE架构、原生多模态能力和国产芯片适配。


对于DeepSeek而言,在算力和资金都有限的情况下,将资源投入架构效率提升和国产化适配,比追逐距离产品化尚远的范式革命更务实,也更符合其“少花钱办大事”的特点。


值得注意的是,DeepSeek并非完全没有多模态积累。此前开源的DeepSeek-OCR系列已展示了将视觉作为文本压缩媒介的探索,通过将文本以图片形式输入,大幅减少token消耗。


但这些探索的方向仍是“优化文本模型的效率和成本”,而非“构建对物理世界的理解和预测”。


若拉长时间线来看,DeepSeek的这条“分水岭”可能还有更深层的含义——它不是一条岔路,而是一道选择题:在中国AI产业的现实环境中,是追随“世界模型”的范式革命,还是在现有架构基础上把工程优化和自主可控做到极致?


当然,如果DeepSeek未来在视觉和空间推理上投入更多资源,凭借其架构创新能力,切入“轻量级世界模型”领域并非不可能。但就当下而言,V4的任务很明确:在中国AI产业最需要的方向上,交出一份有竞争力的答卷。


这个选择是否正确,无需等待太久。4月下旬V4正式发布后,市场反馈会给出最真实的答案。


本文来自微信公众号“凤凰网科技”,作者:凤凰网科技,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com