WildVideo基准:系统性评测多模态模型视频问答幻觉问题

新智元报道
【导读】WildVideo基准聚焦多模态模型视频问答中的「幻觉」难题,首次系统划分9类幻觉任务,打造了覆盖双重视角、支持中英双语的大规模优质视频对话数据集,采用多轮开放问答形式,贴合真实交互场景,全方位评估模型能力。
近年来,大模型在多模态理解领域进步明显,已能处理开放世界里的图文乃至视频内容。
不过,「幻觉」这一普遍且严重的问题始终限制着其实际应用。
特别是在动态、连续的视觉场景中,模型可能生成与视频内容矛盾、违背常识或多轮对话前后不一致的回答。
当前主流评测基准多集中于单轮、单视角、选择题型,难以真实体现模型在开放、连续、交互式对话场景中的能力与不足。这种评测体系的局限,阻碍了我们对模型实际应用表现的理解与优化。
为填补这一空白,国防科技大学与中山大学的研究团队推出WildVideo,这是一个面向真实世界视频-语言交互的系统性多轮开放问答评测基准。

论文地址:https://ieeexplore.ieee.org/document/11097075
项目主页:https://chandler172857.github.io/WildVideo-leaderboard/
Github:https://github.com/yangsongyuan18/WildVideo
数据集:https://huggingface.co/datasets/yangsongyuan18/wildvideo
该研究首次从感知、认知与上下文理解三个层面系统定义了9类幻觉任务,构建了包含双重视角、支持中英双语的大规模高质量视频对话数据集,采用多轮开放问答形式,贴近真实交互场景,全面评估模型能力,且已被TPAMI 2025正式接收。
WildVideo的设计思路与核心价值
贴近真实交互的评测框架WildVideo的设计完全围绕「真实世界应用」展开,抛弃了传统的单选/判断题形式,采用开放问答,模拟真实对话中无预设选项的场景。
更关键的是,它引入多轮对话评测(最多5轮),要求模型具备连贯的上下文理解、信息关联与指代消解能力,这是此前视频评测中常缺失的部分。
细粒度、多维度的幻觉分类体系研究团队将模型在视频任务中可能出现的幻觉系统归纳为三大类、九小项:
感知幻觉:涵盖静态(物体属性识别)和动态(动作理解、视觉定位、跨帧一致性)两个维度,检验模型对视频内容的基础理解是否准确、稳定。
认知幻觉:分为常识认知(因果关系、跨模态指代)和世界知识认知,要求模型不仅能「看到」,还要基于常识和外部知识进行合理推断。
上下文理解幻觉:专为多轮对话设计,包括上下文省略(理解对话中的省略信息)和跨轮检索(关联历史对话中的关键信息),直接评估模型在连续对话中的核心能力。

丰富、高质量的数据集
基准包含1318段视频,既有来自Charades-EGO数据集的874段记录日常人类活动的第一人称与第三人称配对视频,模拟不同人类观察视角;还引入444段涵盖全球事件与文化现象的YouTube视频,丰富世界知识背景。
数据集最终有13704个单轮问答对与1585个多轮对话。数据构建融合了强大LLM的生成能力与多国PhD级别专家的多次人工审核与增强,保证了问题的挑战性、答案的精确性与对话的自然流畅性。


主要实验结果与深度分析
研究团队在WildVideo上对14个主流开源与商业模型(如GPT-4o、Claude-3.5-Sonnet、Gemini系列、LLaVA-Video、InternVL等)进行全面评估,得出若干关键发现:
整体表现凸显巨大挑战即便是当前最先进的模型,在WildVideo上也面临严峻挑战。
单轮任务中,表现最好的GPT-4o准确率仅为62.1%;扩展至多轮对话时,准确率进一步降至52.7%。这清楚表明,处理多轮交互的复杂度远高于单轮问答,现有模型能力存在明显短板。

能力结构不均衡
感知层面:模型在静态「物体」识别任务上表现最佳,在需要理解时序的「动作」识别和「视觉定位」任务上表现大幅下降,暴露了对动态信息处理的不足。
认知层面:涉及常识推理和跨模态指代的任务是所有模型的普遍难点,最低得分仅11.0%,说明模型在结合视觉与常识进行深层推理方面还有很长的路要走。
上下文层面:多轮特有的「上下文理解」任务(省略与检索)表现最不理想,最佳得分未超过51.4%,凸显了当前模型在维持长对话一致性、有效利用历史信息方面的瓶颈。

视角偏好与语言差异
视角偏好:几乎所有模型在第三人称(外视角)视频上的表现都系统性优于第一人称(自我视角)视频。研究者分析,这可能是因为第一人称视频有更多运动模糊、视角突变和遮挡,对模型动态感知要求更高。

中英双语评测:WildVideo提供完整的中文版评测集。实验显示,模型在中文任务上的表现普遍低于英文,最佳模型GPT-4o在中文多轮任务中也仅得54.0%,这为中文多模态模型优化提供了明确的诊断工具。
轻量版与性能版模型的平衡对比GPT-4o/GPT-4o mini和Gemini 1.5 Pro/Gemini 1.5 Flash发现,性能更强的版本在绝大多数任务上领先。
但有趣的是,轻量级的Gemini 1.5 Flash在多轮上下文理解任务中反超了其性能版,提示模型设计在效率与长上下文处理能力间可能有不同的优化路径。

意义与未来方向
WildVideo的发布,不仅为社区提供了新的、更严格的评测「标尺」,还为多模态大模型研究指明了重要演进方向:
推动评测范式升级:它促使视频理解评测从「静态快照问答」转向「动态连续对话」,从「客观选择」转向「开放生成」,更贴近最终应用。
精细化诊断模型缺陷:其细分的幻觉分类体系能帮助研究者精准定位模型失效的具体环节(是看不准、想不对,还是记不住),从而进行针对性改进。
促进多轮对话技术发展:基准明确揭示了当前模型在多轮交互中的脆弱性,将激励学术界和产业界在对话状态管理、长期记忆机制、指代消解等关键技术上投入更多。
支持跨语言与跨文化优化:中英双语并行设计,为开发更具全球适用性的多模态模型提供了重要评估基础。
WildVideo就像一个功能全面的「体检中心」,它告诉我们,当前看似强大的多模态模型,在走向真正实用的视频对话智能之路上,仍需在动态感知、深层推理和连贯交互等多个关键能力上实现突破。
这项工作已开源相关基准数据,期待它能持续推动视频语言交互领域向更可靠、更智能的方向发展。
参考资料:https://ieeexplore.ieee.org/document/11097075
本文来自微信公众号“新智元”,编辑:LRST,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




