AI爆点转向多模态,揭示了怎样的行业趋势?

2025年,AI爆点正在发生转移。
自上半年DeepSeek R1引发行业关注后,“纯文本+推理”范式下的模型很少再出现重量级成果。进入下半年,话题焦点明显转向多模态领域。
Sora 2被封装成可交付应用,谷歌推出图像编辑能力更强的Nano Banana;AI Agent方面也是如此,在文本属性更突出的通用型产品Manus之后,达到相近热度的是主攻视觉创作场景的LoveArt。
这背后,文本模型的迭代进入了基线较高、小步提升的阶段,而多模态理解与生成能力在可用性上更接近“破圈”水平。
一位从事模型训练的研究人员向界面新闻记者指出,要理解这一现象,首先要明白文本和多模态两个方向的研究是并行而非串行的。
经过GPT - 3、GPT - 4、OpenAI o1等重要节点后,大模型的语言理解能力足以应用于C端(用户),后续优化集中在稳态工程,如对齐、降本、延迟优化、鲁棒性等,这些能进一步提升C端应用体验和B端(企业)商用价值,但用户的感知不再像GPT - 4出现时那样强烈。
DeepSeek - OCR就是一个典型例子。它在话题性上不够震撼,但有长期影响力。
DeepSeek - OCR于10月20日推出,旨在探索文本的视觉压缩能力(光学上下文压缩,Contexts Optical Compression)。简单来说,随着上下文输入增多,模型计算量呈平方级增长,但通过将长文本转化为图像识别,可以大幅减少token计算数量。这一思路得到验证后,若应用落地,将是一种很有前景的降本增效方式。
多模态则不同,其能力曲线仍在可被更多人感知的范围内。不过,上述受访者指出,从并行角度看,多模态模型还未实现架构层级的突破,更多是数据积累和训练技巧的提升。

就像他对Sora 2和Nano Banana的判断,除了OpenAI对多模态生成类产品的初步构想成型,以及谷歌对图像编辑器现阶段用户需求的把握(如锚定一个点进行针对性修改),两款产品在生成质量上并未实现飞跃。
而且,在很大程度上,以“文生图、文生视频”为代表的多模态生成领域,其表现优化是以文本模型性能提升为前提。阶跃星辰创始人兼CEO姜大昕此前接受界面新闻记者采访时表示,理解与生成的关系是,理解控制生成,生成监督理解。
一级市场也见证了这种关注点的转变。一位AI投资人对界面新闻记者表示,他感觉今年行业整体投资事件增多,但投资规模在减小,这是投资重点从模型层向应用层过渡后,应用层的市场规模和估值决定的。
其中,今年最引人注目的是应用层视觉创作领域的LiblibAI。10月23日,LiblibAI宣布完成1.3亿美元B轮融资,红杉中国、CMC资本等参与,这是今年国内资本市场AI应用赛道最大的一笔融资,意味着该团队的PMF(产品 - 市场匹配度)更受资本认可。
在未来很长一段时间里,业界有望看到的“爆点”或许更多会出自多模态领域。
姜大昕一直强调,仅有语言智能是不够的,多模态是大模型的必经之路。在这个领域,理解与生成的统一仍是现阶段的突破点。
多位受访者对界面新闻记者表示,从模型训练角度看,视觉模态比文本模态面临的挑战更大。单从数据上看,文本的表征可以在语义上自闭环,而视觉信息的表征需要先与文本对齐,不存在天然自闭环的数据,“可能需要几次像ChatGPT、强化学习范式这样的大技术变革才能解决。”一位受访者说。
有一种观点认为,基于更好的多模态模型,世界模型、具身智能、空间智能等才能得到长足发展,行业才能更接近AGI(通用人工智能)。
更实际的考虑是,模型决定应用能力上限,在文本模型专注于降本增效和缓慢提升性能时,多模态模型的突破有望为市场带来更多PMF机会,这对创业者和投资人来说是更具实际价值的关键变化。
本文来自“界面新闻”,记者:伍洋宇,编辑:文姝琪,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




