[ICLR2026] NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models

less than 1 minute read

Published:

个人小结

现在的视频生成似乎又个问题是,我给一段prompt:比如 “一个人先跑步、再跳、再走、再跑起来”, 对于这种具有多个TNA的时间,应该怎么合理的安排视频时间和事件的对应关系呢?值得思考的问题~(已经有了一些类似的工作比如SwitchCraft,但是更promissing的感觉是加在自回归式的pipeline里面)。

摘要

随着基础视频生成技术的快速发展,长视频生成模型凭借更广阔的内容创作空间展现出良好的研究潜力,长视频生成的核心目标不仅是延长视频时长,更要在长时视频中精准表达更丰富的叙事内容。但目前针对长视频生成模型的评估仍依赖于VBench等仅含简单叙事提示的基准,缺乏专用的评测体系。为此,本文提出首个全方位评估长视频生成模型叙事表达能力的基准NarrLV。该工作受电影叙事理论启发,首先提出视频中保持连续视觉呈现的基本叙事单元——时间叙事原子(TNA),并以其数量量化叙事丰富度,同时基于影响TNA变化的三大电影叙事核心要素构建自动提示词生成流水线,可生成TNA数量灵活扩展的评测提示词;其次,依据叙事内容表达的三个递进层次,基于多模态大模型(MLLM)的问答框架设计了高效的评估指标;最后对现有长视频生成模型及基础生成模型开展了大量评测。实验结果表明,NarrLV提出的指标与人类主观判断高度契合,评测结果也清晰揭示了当前视频生成模型在叙事内容表达上的能力边界。

方法 / 内容主体

1. 问题定义

本研究聚焦长视频生成模型的评测难题,核心目标是解决现有评测基准适配性差、缺乏叙事针对性、评估指标单一的问题,构建一个全面、客观、与人类主观判断对齐的叙事中心式长视频生成评估体系,实现对长视频生成模型叙事丰富度、连贯性、表达准确性的量化评估,同时明确当前模型在叙事表达上的能力边界。

2. 解决思路 / 理论推导

受电影叙事理论启发,提出NarrLV评估基准,核心思路是从叙事单元定义、评测数据构建、评估指标设计三个维度,打造全方位的长视频叙事评估体系,整体设计围绕时间叙事原子(TNA) 这一核心概念展开,具体包括三部分:

  1. 定义时间叙事原子(Temporal Narrative Atom, TNA):将视频中保持连续视觉呈现的基本叙事单元定义为TNA,以TNA的数量作为长视频叙事丰富度的量化指标,为叙事评估提供可落地的基本单位;
  2. 构建TNA可控的自动提示词生成流水线:基于影响TNA变化的三大电影叙事核心要素设计提示词生成规则,可灵活生成不同TNA数量的评测提示词,满足对不同叙事丰富度要求的长视频评测需求;
  3. 设计MLLM驱动的递进式叙事评估指标:依据叙事内容表达的三个递进层次,搭建多模态大模型(MLLM)的自动问答评测框架,通过模型对长视频的叙事理解与问答反馈,实现对叙事连贯性、表达准确性的量化评估。

3. 实验设置 / 实现细节

  • 评测对象:选取当前主流的专用长视频生成模型与经典的基础视频生成模型作为评测对象,覆盖不同架构、不同训练范式的模型类型,保证评测结果的全面性;
  • 评测数据:使用自研的自动提示词生成流水线,生成包含不同TNA数量、不同叙事复杂度的长视频生成提示词集,作为统一的评测输入;
  • 评估维度:从叙事丰富度(TNA数量)、叙事连贯性叙事表达准确性三个核心维度开展评测,同时对比模型生成视频的视觉质量,实现多维度综合评估;
  • 验证方式:将NarrLV的自动评测结果与人类主观评测结果进行对比,验证指标的有效性与一致性;同时开展消融实验,验证TNA定义、MLLM问答框架对评测结果的影响。

4. 结果与分析

  1. 指标有效性:NarrLV提出的评估指标与人类主观判断高度契合,在叙事连贯性、表达准确性的评测上,自动评测结果与人类评分的相关性显著高于现有评测指标,验证了指标的科学性;
  2. 模型能力边界:评测结果清晰揭示了当前长视频生成模型的叙事表达短板——多数模型在低TNA数量的简单叙事场景表现良好,但在高TNA数量的复杂叙事场景中,易出现叙事断裂、逻辑混乱、内容遗漏等问题;
  3. 视觉与叙事的失衡:部分模型虽能保证生成视频的视觉质量,但在叙事表达上存在明显缺陷,证明了仅以视觉质量评估长视频生成模型的片面性;
  4. 基准的扩展性:NarrLV的自动提示词生成流水线支持TNA数量的灵活扩展,可适配不同叙事复杂度的评测需求,同时MLLM驱动的评估框架具备良好的通用性,可迁移到不同类型的视频生成模型评测中。

参考资料