商汤林达华:破解图文交错思维链技术,商汤的“两步走”方案

2025-08-16
商汤发布多模态V6.5,突破图文交错思维链,推动AGI发展。


在2025世界人工智能大会上,商汤发布的日日新V6.5多模态模型,率先突破了“图文交错思维链”技术,成为国内首个拥有形象思维,实现图文交错思维的商业级大模型。


日前,商汤科技联合创始人、执行董事、首席科学家林达华特别撰写深度长文《迈向多模态通用智能:商汤的思考》,系统阐释了多模态智能的底层逻辑、技术路径,以及破解“图文交错思维链”技术的关键。以下摘自文章,在不改变原意的基础上有删减。



为什么多模态是通向AGI的必经之路?


人工智能的核心目标是通过计算来构建智能。智能的核心是与外界进行自主交互的能力。语言只是人类智能演进的产物,并非智能的本源;它是描述世界的工具,而非世界本身。所以,单靠语言模型无法构建真正的AGI。


大模型浪潮源于语言模型,得益于海量语料积累。这是迈向AGI的重要一步,但非最终目标。人工智能若要具备通用性,需像人类通过感官接收信息一样。因此,多模态信息感知与处理能力是AGI的核心要求,也是从语言模型迈向AGI的必由之路。


而且,在实际场景中,实现完整价值离不开对不同模态信息的有效处理、融合分析和判断。从商业应用角度看,多模态也是必然选择。


商汤沿着什么路径构建多模态智能?


从根本上说,人工智能的发展由数据驱动,其能力边界由数据定义。人工智能的每次跃迁,都源于数据边界的打破。


智能的演进是渐进过程,会经历四次破壁:Transformer实现长序列建模;语言和视觉会合实现多模态理解;逻辑思维和形象思维结合实现真正的多模态推理;最终,智能体突破数字与物理空间边界,实现与真实世界交互。


商汤依据智能阶段演进认知展开技术研发布局,推动对智能边界的探索。早在2023年初就推出我国最早的多模态模型,迈出多模态智能探索重要一步。2024年突破原生多模态融合训练技术,国内最早将语言模型和图文多模态模型融合为一个模型。最近,在多模态推理上取得重要进展,实现图文交错思维链,在此基础上训练的日日新6.5具备真正的多模态思考能力,综合推理性能显著提升。同时,展开开悟世界模型探索,打通数字与物理空间连接通道。


商汤为何选择做原生多模态?


多模态模型训练有两种典型方式:


1.适应训练:给定训练好的大语言模型和预训练的视觉编码器,后训练阶段微调视觉编码器和投影器,实现视觉和语言表征对齐。这是国内多模态大模型常用方式,能低成本快速获得多模态能力。


2.原生训练:预训练阶段融合多种模态数据训练,模型从“原生”就具备多模态能力,而非“后补”。Google和OpenAI等顶尖机构采用这种方式。


只经过适应训练的多模态模型,未深入掌握语言和视觉模态内在关联,只是僵硬遵循后训练范例模式。商汤开始思考是否应走原生多模态道路。但原生训练所需资源远超适应训练,还面临两个重要问题:有了原生多模态模型后,是否还需单独的语言模型?语言和其他模态应何时融合?


2024年,经过几个月实验,商汤得出明确结论,确定融合模型技术路径:预训练中段开始多模态融合训练,最终形成统一的原生多模态模型,不再生产单独的语言模型。


2024年第三季度完成融合训练的数据配方和训练超参验证,第四季度完成第一版千亿参数级别的融合多模态模型训练。该模型在国内两个权威第三方评测平台OpenCompass(司南)和SuperCLUE上位居国内模型之首,语言任务上和当时刚发布的DeepSeek V3并列。


从日日新6.0开始,包括今年世界人工智能大会发布的日日新6.5,都只有多模态模型,无单独语言模型。这与国内其他大模型厂商语言模型和图文模型分立布局有很大区别。


多模态推理有何挑战?如何构建图文交错思维链


大模型推理核心途径是“思维链”,主要通过算法自动构造,因人工构造成本高、难规模化。


到2025年,主要多模态模型有一定推理能力,但主流多模态模型推理思维链是纯文本的。通过多模态理解将输入图像转换为文本描述,再用语言推理模型推理。但人的思考是跨模态的,是逻辑思维和形象思维结合。从技术角度,形象思维能为逻辑思维提供互补路径,拓宽思路。


逻辑,思维和形象思维结合主要通过图文交错思维链实现。商汤选择两步走路径:第一步,通过调用工具进行图像编辑构建图文交错思维链,可高效精准实现构图目标,本质是构建“对内”智能体;第二步,基于多模态理解生成统一机制实现内生的图文混合思考。


模型设计有何思考?模型尺寸和架构未来如何演进?


模型架构设计核心是效率。好的模型架构能以更低代价实现数据到模型能力的转化。


商汤重新思考视觉编码器和MLLM主干功能定位,认为“眼睛”和“大脑”设计有本质区别,前者捕捉连续受分辨率影响的视觉信号,后者在离散的语言和语义层面计算。这决定了视觉感知和语言模型应有不同结构和学习方式。视觉编码器应聚焦感知功能,对视觉信号更敏感,专注视觉编码;涉及语义处理应及早与LLM主干融合。


架构更新后,日日新6.5模型能更快捷处理高分辨率大图和长视频;优化训练数据后,模型同样性能下效率提升超3倍。架构优化使性能成本曲线显著优化,实现比Gemini 2.5系列更优的效费比


从多模态走向具身智能会面临哪些挑战,商汤如何解决?


AI从数字空间走向物理空间与真实世界交互,首先要解决交互学习效率问题。


通过虚拟系统模拟现实世界交互,让智能体在系统中每个动作获合适接近真实的反馈。该虚拟系统核心是“世界模型”,交互效率远高于真实环境。


世界模型构建需海量数据支撑。商汤开悟世界模型基于多模态模型能力构建,该多模态模型压缩了世界海量数据。通过智能汽车业务获大量真实场景数据加强,世界模型具备强模拟和生成能力,可按指定路径生成不同视角视频。该模型为智能驾驶系统训练提供有效交互反馈,助其更高效训练。


商汤如何平衡技术突破和商业落地关系?


通向通用人工智能(AGI)是长跑,非一蹴而就的冲刺。商汤坚定追寻AGI,但技术理想需商业价值护航。


在商汤,不把技术和商业视为争夺资源双方,而是互为因果的两个环节。更关注两者如何实现有效正向循环。


基于此认知,确立“基础设施 - 模型 - 应用”三位一体总体战略。一方面,在大装置基础设施支撑下,打造业界领先的通用多模态大模型,融汇跨模态跨领域数据,持续技术创新,在感知、理解、推理、交互等能力维度不断突破;另一方面,应用聚焦生产力和交互,在真实场景牵引下,构建端到端产品技术竞争力。


在三位一体战略和技术与业务正向循环驱动下,过去一年取得很多进展。一方面,基础技术体系创新势头更强,业内率先取得原生融合训练、图文交错思维链、多模态融合强化学习、无限时长视频交互记忆、开悟世界模型等创新成果;另一方面,技术创新支撑下,商业化局面迅速打开,生产力AI性能领先,装机量从百万量级走向千万量级;交互AI广泛落地新型智能硬件和机器人,重塑用户与世界交互形态。商汤生成式AI板块业绩持续高速成长显示了这些成果的商业回报。


商汤对未来路径有自主思考和认知,战略上高度聚焦、长期坚持,技术路径和产品业务鼓励创新、敏捷迭代,逐渐建立技术 - 商业闭环。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com