Jasper (Jintao Chen)

[CVPR2026]AstraNav-Memory: Contexts Compression for Long Memory

2025-12-25T00:00:00+00:00

摘要

终身具身导航要求智能体能跨任务累积、保存并利用空间语义经验，从而在新环境中高效探索、在熟悉环境中快速抵达目标。现有以物体为中心的记忆框架虽具备可解释性，但依赖检测与重建流水线，鲁棒性和可扩展性受限。为此，本文提出AstraNav-Memory以图像为中心的记忆框架，通过高效的视觉上下文压缩模块与基于Qwen2.5-VL的导航策略端到端耦合，实现长时隐式记忆。该框架基于冻结DINOv3特征的ViT骨干网络，结合轻量级PixelUnshuffle+Conv块构建视觉tokenizer，支持可配置的压缩率——如16倍压缩设置下，每张图像仅编码为约30个token，将有效上下文容量从数十张图像扩展至数百张。在GOAT-Bench和HM3D-OVON基准上的实验结果表明，该方法取得了SOTA的导航性能，提升了陌生环境的探索效率，同时缩短了熟悉环境中的导航路径。消融实验进一步证明，适度的压缩率能在效率与精度间实现最优平衡。该研究证实，经压缩的以图像为中心的记忆框架可作为终身具身智能体的实用且可扩展的交互接口，使其能基于长时视觉历史进行推理，实现类人的高效导航。

引言 / 背景

终身具身导航是机器人学与具身智能领域的核心研究方向，其核心需求是让智能体在长期、连续的导航任务中，持续积累空间语义记忆并灵活复用，从而在未知环境中减少无效探索，在已知环境中优化导航路径，实现类人的高效自主导航。

现有具身导航记忆框架主要以物体为中心构建，通过检测环境中的物体并重建物体间的空间关系形成记忆，虽能直观解释导航决策过程，但存在显著缺陷：一方面，物体检测与重建流水线对环境噪声、遮挡等情况敏感，鲁棒性不足；另一方面，该方式对物体特征的存储开销大，难以扩展到长时、大规模的视觉上下文，限制了智能体的长时记忆能力。

与此同时，以图像为中心的记忆方式虽能保留更完整的环境视觉信息，却因原始图像的token数量过多，导致上下文容量受限，无法实现长时视觉历史的存储与推理。因此，如何在保留有效视觉信息的前提下，对图像上下文进行高效压缩，提升具身智能体的长时记忆容量，成为终身具身导航的关键问题。

本文面向机器人学、具身智能、计算机视觉领域的研究人员与工程师，提出AstraNav-Memory框架，通过轻量级可配置的视觉上下文压缩模块，解决以图像为中心的记忆框架容量受限问题，为终身具身导航提供了高效、鲁棒、可扩展的长时记忆解决方案。

方法 / 内容主体

1. 问题定义

本研究聚焦终身具身导航的长时记忆构建难题，核心目标是解决现有以物体为中心的记忆框架鲁棒性差、可扩展性低，以及以图像为中心的记忆框架视觉上下文容量受限的问题，构建一个高效、轻量、可配置的长时记忆框架，实现视觉上下文的有效压缩与长时存储，让具身智能体能基于数百张图像的长时视觉历史进行推理，提升在陌生环境的探索效率和熟悉环境的导航精度。

2. 解决思路 / 理论推导

提出AstraNav-Memory以图像为中心的长时记忆框架，核心思路是通过端到端耦合的视觉上下文压缩模块+导航策略，在保留环境关键空间语义信息的前提下，对图像视觉上下文进行高效压缩，扩展智能体的记忆容量，整体设计包括两大核心部分：

可配置的轻量级视觉上下文压缩模块：以冻结DINOv3特征的ViT为骨干网络，结合轻量级PixelUnshuffle+Conv卷积块构建视觉tokenizer，支持灵活配置压缩率，通过对图像的视觉特征进行精细化压缩，在减少token数量的同时保留导航所需的核心空间语义信息，实现从“单张图像数百token”到“约30token”的高效压缩；
与导航策略的端到端耦合：将视觉上下文压缩模块与基于Qwen2.5-VL的多模态导航策略端到端联合训练，让压缩后的视觉token能直接被导航策略理解与推理，无需额外的特征转换模块，保证记忆利用的高效性，同时实现长时压缩视觉记忆与导航决策的协同优化。

3. 实验设置 / 实现细节

实验基准：在终身具身导航主流基准GOAT-Bench和HM3D-OVON上开展实验，分别验证模型在陌生环境的探索能力和熟悉环境的路径优化能力；
评测指标：从导航成功率、探索效率（无效探索步数占比）、路径长度、记忆利用效率（压缩率与性能的平衡）四个核心维度评估模型性能；
对比实验：与当前SOTA的以物体为中心的记忆框架、无压缩的以图像为中心的记忆框架进行对比，验证压缩模块的有效性；
消融实验：测试不同压缩率（如8×、16×、32×）对导航性能的影响，探索效率与精度的最优平衡；同时验证PixelUnshuffle+Conv块、冻结DINOv3特征等核心设计的必要性。

4. 结果与分析

SOTA性能验证：AstraNav-Memory在GOAT-Bench和HM3D-OVON基准上均取得最优的导航性能，相较于对比方法，陌生环境的探索效率显著提升，熟悉环境的导航路径平均长度大幅缩短；
压缩模块的有效性：经16倍压缩后，单张图像仅编码为约30个token，智能体的有效上下文容量从数十张图像扩展至数百张，实现了长时视觉历史的存储与推理；
压缩率的最优平衡：消融实验表明，适度的压缩率（16×） 能在记忆效率与导航精度间实现最优平衡，压缩率过低则记忆容量受限，过高则会丢失关键视觉信息导致导航性能下降；
鲁棒性与可扩展性：相较于以物体为中心的记忆框架，AstraNav-Memory无需依赖物体检测与重建，对环境噪声、遮挡的鲁棒性更强，同时可灵活调整压缩率，适配不同的记忆容量需求，具备良好的可扩展性。

总结与展望

主要收获

提出AstraNav-Memory以图像为中心的长时记忆框架，首次将可配置的视觉上下文压缩与具身导航策略端到端耦合，解决了传统记忆框架鲁棒性差、容量受限的核心问题，为终身具身导航提供了全新的记忆构建范式；
设计了基于冻结DINOv3特征+PixelUnshuffle+Conv块的轻量级视觉tokenizer，支持灵活配置压缩率，在16倍压缩下实现单张图像30token的高效编码，将智能体的视觉上下文容量扩展至数百张图像；
在GOAT-Bench和HM3D-OVON基准上取得SOTA导航性能，证实了经压缩的以图像为中心的记忆框架在陌生环境探索和熟悉环境导航中的优势；
明确了适度压缩率是实现记忆效率与导航精度最优平衡的关键，为后续具身导航记忆框架的设计提供了重要的实验依据。

个人小结

长时记忆的核心并非无限制存储视觉信息，而是在“信息保留”与“存储效率”间找到最优解，以图像为中心的压缩记忆方式摆脱了物体检测的依赖，更贴合具身智能体的实际导航场景，而可配置的压缩率也让框架能适配不同的硬件与任务需求。

参考资料

AstraNav-World: World Model for Foresight Control and Consistency

2025-12-25T00:00:00+00:00

Note: this is the English version paired with the Chinese post AstraNav-World: World Model for Foresight Control and Consistency.

Abstract

We propose AstraNav-World, an end-to-end world model for embodied navigation in open and dynamic environments. The model unifies multi-step visual prediction and action sequence reasoning into a single probabilistic framework by combining diffusion-based video generation with a vision-language policy. A bidirectional constraint mechanism enforces both the executability of predicted futures and the physical consistency of actions, which largely mitigates error accumulation in the traditional “predict-then-plan” pipeline. Experiments on diverse navigation benchmarks show improved trajectory accuracy and task success rate, and the model exhibits strong zero-shot generalization in real-world tests.

Introduction

Here you can briefly motivate:

Why foresight control is crucial for embodied agents in open worlds;
Limitations of decoupled prediction and planning pipelines;
The target audience (CV / robotics / embodied AI researchers and engineers).

Method

1. Problem Definition

Clearly state the embodied navigation setting and evaluation protocol, and define what “foresight control” and “consistency” mean in this work.

2. Approach

Describe the AstraNav-World architecture:

multi-module design combining diffusion video generator and VL policy;
training objectives for action-conditioned visual prediction and policy learning;
bidirectional constraints that tie predicted futures to executable actions.

3. Experiments

Summarize:

benchmarks, metrics and baselines;
ablations on each key module and training objective;
zero-shot transfer from simulation to real-world environments.

4. Results and Analysis

Discuss:

trajectory and success-rate improvements;
what happens when coupling between vision and action is removed;
qualitative examples that illustrate better foresight and consistency.

Conclusion and Future Work

Highlight the main takeaways and outline:

deployment to real robots;
extension to interaction / manipulation tasks;
richer multi-modal inputs and better interpretability.

References

AstraNav-World: World Model for Foresight Control and Consistency

2025-12-25T00:00:00+00:00

个人小结

也是工作量极大的一篇工作，我其实比较惊喜的是在训练的时候仅用Lora就可以很快的学习来自VLA的planning特征，并且能够实现视觉预测和动作预测的高效统一。并且在结构上SkyReels-v4也有使用我们类似的MMFCA的方法，个人感觉在结构上，我们的模型还是比较超前的，并且里面也有非常多的小细节，后面可以细细描述一下。

另一个惊喜是泛化性能是真的挺好，绝对超过VLA！可以看论文里的proj页面。

摘要

针对开放动态环境下具身导航对世界演化和动作展开精准前瞻的需求，本文提出端到端世界模型 AstraNav-World，将未来视觉状态与动作序列推理融入统一概率框架。该模型融合扩散视频生成器与视觉语言策略，通过双向约束实现视觉预测的可执行性和决策的物理一致性，有效缓解解耦式流程的累积误差。实验表明，模型在各类具身导航基准中提升了轨迹精度和任务成功率，且在真实世界测试中展现出优异的零样本适配能力。

方法 / 内容主体

1. 问题定义

聚焦开放动态环境下的具身导航问题，目标是让具身智能体精准预测未来多步视觉状态，并生成与预测视觉匹配、物理可行的动作轨迹，实现前瞻控制与环境演化的一致性，解决传统解耦方法累积误差、泛化能力弱等问题。

2. 解决思路 / 理论推导

提出 AstraNav-World 端到端世界模型，核心思路：

多模块融合架构：整合扩散基视频生成器与视觉语言策略，支持预测场景和规划动作同步滚动更新；
双互补训练目标：
- 动作条件下的多步视觉预测
- 基于预测视觉推导可行动作轨迹
双向约束机制：使视觉预测具备可执行性，动作决策锚定在物理一致、与任务相关的未来场景，从根源缓解累积误差。

3. 实验设置

在多样化具身导航基准数据集上验证轨迹精度、任务成功率；
设计消融实验验证各核心模块必要性；
采用零样本设置：仅在仿真数据训练，不微调直接迁移到真实导航场景，测试泛化能力。

4. 结果与分析

基准实验：AstraNav-World 在各类具身导航基准中显著提升轨迹精度与任务成功率；
消融实验：移除视觉-动作耦合或统一训练框架后，视觉预测质量与策略可靠性明显下降；
真实世界零样本：模型无需真实世界微调即可适配未见场景，证明学到可迁移的空间理解与导航动态。

总结与展望

主要收获

提出 AstraNav-World 统一框架，实现前瞻视觉与动作控制深度耦合与同步推演；
设计双互补训练与双向约束，提升预测可执行性与决策物理一致性；
在仿真与真实世界零样本场景均取得优异性能，突破传统模型泛化瓶颈。

参考资料

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

2025-08-11T00:00:00+00:00

Note: this is the English version paired with the Chinese post Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation.

Abstract

Visual effects (VFX) are central to modern video and film production. Although recent video generation models enable low-cost VFX creation, they are typically trained with single-effect LoRA adapters and therefore cannot produce multiple effects at user-specified locations. To address cross-effect interference and the lack of spatial controllability in joint multi-VFX training, we propose Omni-Effects, the first unified framework for prompt-driven and spatially controllable composite VFX generation. The core design includes: 1) a LoRA-based Mixture-of-Experts (LoRA-MoE) module that integrates diverse effects in a single model while alleviating inter-task interference; and 2) a Spatial-Aware Prompt (SAP) module that injects spatial masks into text tokens for precise spatial control, equipped with an Independent-Information Flow (IIF) submodule to isolate control signals of different effects and avoid unwanted blending. We further construct the Omni-VFX dataset and a dedicated VFX evaluation protocol. Extensive experiments demonstrate that Omni-Effects achieves accurate spatial control and diverse, high-quality effects, supporting user-defined effect types and locations.

Introduction

Briefly introduce:

the role and cost of traditional VFX production;
limitations of single-effect LoRA-based methods for real-world workflows;
the need for unified, spatially-controllable multi-effect generation.

Method

1. Problem Definition

Formulate unified VFX generation with:

multiple effect types;
user-specified spatial regions;
quality, independence and controllability requirements.

2. Approach

Describe:

the LoRA-MoE module: expert design, routing / combination strategy and how it reduces cross-effect interference;
the SAP module: how spatial masks are embedded into prompts;
the IIF design: how information flow is separated across effects.

3. Data and Training

Summarize the Omni-VFX dataset construction pipeline and the training setup for the unified model.

4. Results and Analysis

Highlight:

single-effect quality vs. single-LoRA baselines;
spatial accuracy compared with existing editing / generation methods;
independence of multiple effects on the same frame.

Conclusion and Future Work

Summarize the contributions and outline:

extension to higher-resolution and production-grade VFX;
better temporal modeling for long videos;
interactive tools built on top of Omni-Effects.

References

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation (arXiv)

[AAAI2026]Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

2025-08-11T00:00:00+00:00

个人小结

做了很久，工作量有点大。。讲一下这个工作的心路历程吧，一开始是想简单的做一个统一的能同时生成多个特效的视频，但是后面发现有些特效其实比较难以兼容，并且有些特效是个体级别的（比如物体消失、爆炸），有些则是画面级别的（比如天降大雪、花花世界这种）。而且当时发现市面上还没有人做这种可控制的协同多特效合成的工作，所以就由着这条路继续走了，一开始当然是沿着ControlNet走的，但是确实会引入较大的计算量，后面发现了EasyConrtol，觉得这种在attention级别的mask实现会更好一些，但最后效果上个人感觉差异不是很大。

我觉得本工作算是第一个走通可控制的协同多特效合成的，但是更promissing的应该是视频运动clone（比如后面的VideoAsPrompt）。不仅仅包括特效，在具身领域也有比较强的应用，比如从人手运动迁移至机械臂运动。

摘要

视觉特效（VFX）是现代影视制作中核心的视觉增强手段，现有视频生成模型虽为VFX制作提供了低成本解决方案，但受限于单特效LoRA训练，仅能生成单一特效，无法实现指定位置的多特效协同生成。针对多VFX联合训练中存在的特效间干扰、空间可控性缺失等问题，本文提出首个支持提示词引导与空间可控复合特效生成的统一框架Omni-Effects。该框架包含两大核心创新：基于LoRA的混合专家模块（LoRA-MoE），在统一模型中融合多样特效并有效缓解跨任务干扰；空间感知提示词模块（SAP），将空间掩码信息融入文本令牌实现精准的空间控制，且其内置的独立信息流（IIF）模块能隔离各特效控制信号，避免非预期的特效融合。同时，本文构建了综合VFX数据集Omni-VFX，并设计了专用的VFX性能评估框架。大量实验表明，Omni-Effects可实现精准的空间控制与多样化的特效生成，支持用户自定义特效类别与生成位置。

方法 / 内容主体

1. 问题定义

本研究聚焦视觉特效（VFX）生成的核心痛点，解决现有方法仅能生成单一特效、多特效联合训练存在跨任务干扰、特效生成缺乏精准空间控制的问题，核心目标是构建一个统一的VFX生成框架，实现多类特效的融合生成与指定位置的空间可控合成，支持用户通过提示词自定义特效类别与生成区域，满足实际视觉内容制作的复合特效需求。

2. 解决思路 / 理论推导

提出Omni-Effects统一视觉特效生成框架，核心思路是通过模块化的架构设计，分别解决多特效融合的干扰问题与空间可控性问题，实现提示词引导的定制化复合VFX生成，框架的两大核心创新模块及关键设计如下：

LoRA-based Mixture of Experts（LoRA-MoE）：引入混合专家机制，构建一组针对不同特效的专家LoRA，将多样特效的特征表达整合到统一模型中，同时通过专家选择机制有效缓解不同特效间的跨任务干扰，保证单特效与多特效生成的质量；
Spatial-Aware Prompt（SAP）：将空间掩码信息融入文本提示词的令牌中，让模型捕捉特效生成的空间位置信息，实现特效的精准空间控制；同时SAP内置Independent-Information Flow (IIF) 模块，对不同特效的控制信号进行隔离，避免多特效合成时出现非预期的特征混合，保证各特效的独立性。

此外，为支撑该研究的实验与验证，设计了全新的数据收集流水线（融合图像编辑与首尾帧到视频FLF2V合成），构建了综合的VFX专用数据集Omni-VFX，并制定了专用的VFX性能评估框架，实现对模型特效生成质量、空间可控性、多样性的全面验证。

OmniEffcets整体框架

SAP&IIF

3. 实验设置 / 实现细节

实验数据集：基于自研的图像编辑+FLF2V合成流水线构建的专用VFX数据集Omni-VFX，覆盖多类常见视觉特效，包含精准的空间位置标注；
评价维度：从特效生成质量、空间控制精度、多特效合成的独立性、特效生成多样性四个核心维度对模型性能进行验证；
对比实验：与当前主流的单特效LoRA微调方法、通用视觉生成模型进行对比，验证Omni-Effects在多特效融合、空间可控性上的优势；
框架验证：通过针对性实验验证LoRA-MoE、SAP、IIF等核心模块的有效性，验证各模块对解决跨任务干扰、实现空间控制的关键作用。

4. 结果与分析

多特效生成能力：Omni-Effects成功在统一框架中融合了多类视觉特效的生成能力，且LoRA-MoE模块有效缓解了跨任务干扰，单特效生成质量与专用LoRA微调方法持平，多特效合成时无明显质量衰减；
空间控制精度：SAP模块将空间掩码与文本提示词融合，实现了特效在指定位置的精准生成，空间定位误差显著低于对比方法，满足定制化VFX制作的空间控制需求；
多特效合成独立性：IIF模块有效隔离了不同特效的控制信号，多特效在同一画面的指定位置合成时，未出现非预期的特效混合，各特效的视觉特征保持独立；
整体性能：大量实验表明，Omni-Effects在特效生成的多样性、质量、空间可控性上均表现优异，支持用户灵活指定特效的类别与生成位置，实现定制化的复合视觉特效生成。

参考资料

Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation (arXiv)

[CVPR]UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying

2025-08-05T00:00:00+00:00

个人小结

FlowEdit当时被我们发现之后，并在Wan等模型上做了复现，发现效果出奇的好。当时的一条思路是沿着FlowEdit做一些运动迁移的任务，有了一些效果但是FlowEdit有着明显的无法做形状差异过大的编辑：比如把大象变成一只小狗，或者删除某个物体。但是如果有个生成语义token而不是像素级Token的DiT，这些问题似乎就可以迎刃而解了，比如Blip-3里面的生成clip token的DiT以及RAE、ScaleRAE等工作。并且语义级token的好处是可以无缝接入一个understanding expert，自动化评判编辑强度。

摘要

统一视觉语言模型（VLM）可在单一框架内完成视觉理解与生成任务，OpenAI GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型-图像生成流水线，在冻结理解型VLM的同时仅训练生成相关模块，既保留了VLM强大的理解能力，又赋予其图像生成能力。但该流水线尚未探索如何便捷赋予统一VLM图像编辑能力，为此本文提出全新的无训练图像编辑框架UniEdit-I，通过理解、编辑、验证三步迭代流程，让统一VLM无需训练即可具备图像编辑能力。理解阶段通过结构化语义分析生成源提示词，并根据编辑指令完成最小化词汇替换得到目标提示词；编辑阶段引入时间自适应偏移量，实现去噪过程中从粗到细的连贯编辑；验证阶段校验目标提示词与中间编辑图像的对齐度，生成一致性评分与修正反馈并决定是否提前终止迭代。该迭代循环直至收敛，以无训练方式实现高保真的图像编辑效果。本文基于最新的BLIP3-o实现该方法，在GEdit-Bench基准测试中取得了SOTA性能。

方法 / 内容主体

1. 问题定义

本研究聚焦统一视觉语言模型（VLM）的图像编辑痛点，解决OpenAI GPT-4o提出的生成流水线无法便捷实现图像编辑、现有方法需训练且与该流水线不兼容的问题，核心目标是构建一个无训练的图像编辑框架，在不冻结、不微调统一VLM主体的前提下，赋予其高保真的图像编辑能力，实现编辑指令与编辑结果的精准对齐，同时保持与GPT-4o生成流水线的兼容性。

2. 解决思路 / 理论推导

提出UniEdit-I无训练图像编辑框架，核心思路是基于GPT-4o的生成流水线，设计理解、编辑、验证三步迭代循环，全程无需对VLM及生成相关模块进行额外训练，仅通过流程化的迭代优化实现高保真图像编辑，三大核心阶段的设计如下：

理解阶段（Understanding）：对源图像进行结构化语义分析，提取图像的关键语义信息并生成结构化的源提示词；根据用户的自然语言编辑指令，对源提示词进行最小化词汇替换，生成与编辑需求匹配的目标提示词，保证提示词与编辑意图的精准对齐，同时减少不必要的语义变更。
编辑阶段（Editing）：在扩散模型的去噪生成过程中，引入时间自适应偏移量，让模型在去噪的不同阶段实现从粗到细的连贯编辑——前期粗粒度匹配目标提示词的核心语义，后期细粒度优化图像的细节纹理，避免编辑过程中出现图像断裂、细节失真等问题。
验证阶段（Verifying）：将中间编辑图像与目标提示词进行语义与视觉的双重校验，自动计算图像-提示词一致性评分；若评分未达阈值，生成针对性的修正反馈并重新进入编辑阶段，若评分达标则提前终止迭代，实现编辑过程的自适应优化。

3. 实验设置 / 实现细节

模型基础：基于当前最新的统一视觉语言模型BLIP3-o搭建实验框架，遵循GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型流水线，冻结BLIP3-o的理解主体部分，不进行任何额外训练；
实验基准：在图像编辑领域的专用基准测试集GEdit-Bench上开展实验，验证模型的编辑性能；
评价维度：从编辑保真度、提示词-图像对齐度、图像细节完整性、编辑效率四个核心维度评估UniEdit-I的性能，同时与当前主流的有训练/无训练图像编辑方法进行对比；
核心验证：验证三步迭代流程的有效性，以及时间自适应偏移量、一致性评分机制对编辑效果的提升作用。

4. 结果与分析

SOTA性能验证：基于BLIP3-o实现的UniEdit-I在GEdit-Bench基准测试中取得了当前最优的性能，在编辑保真度、提示词-图像对齐度等核心指标上均显著优于对比方法；
无训练优势：UniEdit-I全程无需对VLM及生成模块进行微调训练，在实现高保真编辑的同时，完全保留了VLM原有的视觉理解能力，且大幅降低了模型部署与应用的成本；
迭代流程有效性：理解阶段的最小化词汇替换保证了编辑意图的精准传递，编辑阶段的时间自适应偏移量实现了从粗到细的连贯编辑，验证阶段的一致性评分机制有效提升了编辑效率，避免了无效迭代；
流水线兼容性：UniEdit-I完美兼容GPT-4o提出的统一VLM生成流水线，无需对原有流水线进行结构修改，仅通过流程化迭代即可赋予其图像编辑能力，具备极强的工程落地性。

参考资料

[ICLR2026] NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models

2025-07-15T00:00:00+00:00

个人小结

现在的视频生成似乎又个问题是，我给一段prompt：比如 “一个人先跑步、再跳、再走、再跑起来”，对于这种具有多个TNA的时间，应该怎么合理的安排视频时间和事件的对应关系呢？值得思考的问题～(已经有了一些类似的工作比如SwitchCraft，但是更promissing的感觉是加在自回归式的pipeline里面)。

摘要

随着基础视频生成技术的快速发展，长视频生成模型凭借更广阔的内容创作空间展现出良好的研究潜力，长视频生成的核心目标不仅是延长视频时长，更要在长时视频中精准表达更丰富的叙事内容。但目前针对长视频生成模型的评估仍依赖于VBench等仅含简单叙事提示的基准，缺乏专用的评测体系。为此，本文提出首个全方位评估长视频生成模型叙事表达能力的基准NarrLV。该工作受电影叙事理论启发，首先提出视频中保持连续视觉呈现的基本叙事单元——时间叙事原子（TNA），并以其数量量化叙事丰富度，同时基于影响TNA变化的三大电影叙事核心要素构建自动提示词生成流水线，可生成TNA数量灵活扩展的评测提示词；其次，依据叙事内容表达的三个递进层次，基于多模态大模型（MLLM）的问答框架设计了高效的评估指标；最后对现有长视频生成模型及基础生成模型开展了大量评测。实验结果表明，NarrLV提出的指标与人类主观判断高度契合，评测结果也清晰揭示了当前视频生成模型在叙事内容表达上的能力边界。

方法 / 内容主体

1. 问题定义

本研究聚焦长视频生成模型的评测难题，核心目标是解决现有评测基准适配性差、缺乏叙事针对性、评估指标单一的问题，构建一个全面、客观、与人类主观判断对齐的叙事中心式长视频生成评估体系，实现对长视频生成模型叙事丰富度、连贯性、表达准确性的量化评估，同时明确当前模型在叙事表达上的能力边界。

2. 解决思路 / 理论推导

受电影叙事理论启发，提出NarrLV评估基准，核心思路是从叙事单元定义、评测数据构建、评估指标设计三个维度，打造全方位的长视频叙事评估体系，整体设计围绕时间叙事原子（TNA） 这一核心概念展开，具体包括三部分：

定义时间叙事原子（Temporal Narrative Atom, TNA）：将视频中保持连续视觉呈现的基本叙事单元定义为TNA，以TNA的数量作为长视频叙事丰富度的量化指标，为叙事评估提供可落地的基本单位；
构建TNA可控的自动提示词生成流水线：基于影响TNA变化的三大电影叙事核心要素设计提示词生成规则，可灵活生成不同TNA数量的评测提示词，满足对不同叙事丰富度要求的长视频评测需求；
设计MLLM驱动的递进式叙事评估指标：依据叙事内容表达的三个递进层次，搭建多模态大模型（MLLM）的自动问答评测框架，通过模型对长视频的叙事理解与问答反馈，实现对叙事连贯性、表达准确性的量化评估。

3. 实验设置 / 实现细节

评测对象：选取当前主流的专用长视频生成模型与经典的基础视频生成模型作为评测对象，覆盖不同架构、不同训练范式的模型类型，保证评测结果的全面性；
评测数据：使用自研的自动提示词生成流水线，生成包含不同TNA数量、不同叙事复杂度的长视频生成提示词集，作为统一的评测输入；
评估维度：从叙事丰富度（TNA数量）、叙事连贯性、叙事表达准确性三个核心维度开展评测，同时对比模型生成视频的视觉质量，实现多维度综合评估；
验证方式：将NarrLV的自动评测结果与人类主观评测结果进行对比，验证指标的有效性与一致性；同时开展消融实验，验证TNA定义、MLLM问答框架对评测结果的影响。

4. 结果与分析

指标有效性：NarrLV提出的评估指标与人类主观判断高度契合，在叙事连贯性、表达准确性的评测上，自动评测结果与人类评分的相关性显著高于现有评测指标，验证了指标的科学性；
模型能力边界：评测结果清晰揭示了当前长视频生成模型的叙事表达短板——多数模型在低TNA数量的简单叙事场景表现良好，但在高TNA数量的复杂叙事场景中，易出现叙事断裂、逻辑混乱、内容遗漏等问题；
视觉与叙事的失衡：部分模型虽能保证生成视频的视觉质量，但在叙事表达上存在明显缺陷，证明了仅以视觉质量评估长视频生成模型的片面性；
基准的扩展性：NarrLV的自动提示词生成流水线支持TNA数量的灵活扩展，可适配不同叙事复杂度的评测需求，同时MLLM驱动的评估框架具备良好的通用性，可迁移到不同类型的视频生成模型评测中。

参考资料

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models (arXiv)

[CVPR2025]Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

2025-06-17T00:00:00+00:00

Abstract

Generative image compression leverages the generative capabilities of diffusion models to achieve excellent perceptual fidelity at extreme-low bitrates. However, existing methods overlook the non-uniform complexity of images, making it difficult to balance global perceptual quality with local texture consistency and to achieve efficient allocation of coding resources. To address this issue, this paper proposes the Map-guided Masked Realistic Image Diffusion Codec (MRIDC), which aims to optimize the trade-off between local distortion and global perceptual quality in extreme-low bitrate compression. MRIDC integrates a vector-quantized image encoder with a diffusion-based decoder. At the encoding stage, the Map-guided Latent Masking (MLM) module enables adaptive resource allocation based on image complexity. At the decoding stage, the Bidirectional Prediction Controllable Generation (BPCG) module completes masked latent variables and reconstructs images. Experimental results demonstrate that MRIDC achieves state-of-the-art (SOTA) perceptual compression quality at extreme-low bitrates, effectively preserving feature consistency in key regions, advancing the perceptual rate-distortion performance curve, and establishing a new benchmark for balancing compression efficiency and visual fidelity.

Introduction / Background

In scenarios such as the Internet of Things (IoT), edge computing, and real-time visual transmission, extreme-low bitrate image compression has become a core requirement. It not only needs to achieve high compression ratios to save transmission and storage resources but also ensure the perceptual quality of images and feature consistency in key regions. Generative diffusion models have brought new breakthroughs to extreme-low bitrate image compression, significantly improving the perceptual fidelity of compressed images. However, existing diffusion-based compression methods have a core flaw: treating images as uniform entities for encoding and reconstruction, ignoring the complexity differences in different regions of images.

This flaw leads to unbalanced allocation of coding resources—simple regions occupy excessive resources while complex key regions lack sufficient resources. Ultimately, this results in acceptable global perceptual quality but local texture distortion and loss of key features, making it difficult to meet the requirements of visual perception tasks for image details. Meanwhile, there is still room for optimization in the rate-distortion perception trade-off of existing methods, and the precise balance between compression efficiency and visual fidelity has not yet been achieved.

Targeting researchers, engineers, and practitioners in the fields of image compression, computer vision, and multimedia processing, this paper proposes a region-adaptive diffusion-based image compression framework to solve the problems of uneven resource allocation and local distortion in existing methods, providing a new solution for extreme-low bitrate perceptual image compression. This work is published at CVPR 2025, representing a top conference research achievement in the field of generative image compression.

Methodology / Main Content

1. Problem Definition

This research focuses on the perceptual image compression problem at extreme-low bitrates. The core objective is to address the issues of inefficient coding resource allocation, local texture distortion, and inconsistent key region features in existing diffusion-based generative compression methods caused by ignoring the non-uniform complexity of images. We aim to achieve triple optimization of global perceptual quality, local texture consistency, and compression efficiency, thereby improving the comprehensive perceptual rate-distortion performance.

2. Solution Approach / Theoretical Derivation

We propose the Map-guided Masked Realistic Image Diffusion Codec (MRIDC), whose core idea is to decouple distortion and perceptual quality in image compression through region-adaptive coding resource allocation and constrained diffusion reconstruction, achieving a precise trade-off between them. The overall architecture is a joint design of a vector-quantized encoder + diffusion-based decoder, with core modules including:

Map-guided Latent Masking (MLM) Module (Encoding Stage): Based on prior information of image complexity, selectively masks the latent space to retain more latent variable information for complex/key regions and mask more redundant information for simple regions, realizing adaptive allocation of coding resources and improving resource utilization efficiency;
Bidirectional Prediction Controllable Generation (BPCG) Module (Decoding Stage): Adds constraint guidance to the generation process of the diffusion model, bidirectionally predicts and completes masked latent variables based on unmasked latent variable information, achieves constrained image reconstruction, and ensures local texture consistency and fidelity of key features.

MRIDC整体框架

3. Experimental Setup / Implementation Details

Experimental Benchmarks: Experiments are conducted on mainstream public datasets for extreme-low bitrate image compression, comparing with current SOTA generative image compression methods and traditional compression methods;
Evaluation Metrics: Comprehensive evaluation from three dimensions: perceptual quality (e.g., LPIPS, SSIM, subjective MOS scores), rate-distortion performance (RD curves), and key region feature consistency;
Core Verification: Verify the region-adaptive resource allocation effect, local texture reconstruction capability, and generalization performance of MRIDC at different extreme-low bitrates.

4. Results and Analysis

SOTA Performance Verification: MRIDC achieves state-of-the-art perceptual compression quality at extreme-low bitrates, significantly outperforming comparison methods in objective metrics such as LPIPS, SSIM, and subjective MOS scores;
Key Region Fidelity: Through region-adaptive resource allocation and constrained reconstruction, the model effectively preserves feature consistency in key image regions, solving the problems of local texture distortion and feature loss in existing methods;
Rate-Distortion Perception Optimization: The model significantly advances the perceptual rate-distortion performance curve, achieving higher perceptual quality at the same bitrate and lower bitrate at the same perceptual quality, establishing a new industry benchmark for balancing compression efficiency and visual fidelity;
Module Effectiveness: Ablation experiments verify the necessity of the core modules MLM and BPCG. Removing either module leads to decreased resource allocation efficiency, reduced perceptual quality, and lower local consistency.

results

Conclusion and Outlook

Key Contributions

Proposed the Map-guided Masked Realistic Image Diffusion Codec (MRIDC), integrating region-adaptive resource allocation into diffusion-based generative image compression for the first time, decoupling distortion and perceptual quality in compression, and solving the core problem of uneven resource allocation in existing methods;
Designed dedicated modules MLM (encoding stage) and BPCG (decoding stage), realizing end-to-end optimization from latent variable masking to constrained reconstruction, ensuring dual improvement of global perceptual quality and local texture consistency at extreme-low bitrates;
Published at CVPR 2025, MRIDC achieves SOTA performance in extreme-low bitrate perceptual image compression, advancing the perceptual rate-distortion performance curve and establishing a new benchmark for balancing compression efficiency and visual fidelity.

Personal Notes

It was not noticed at that time that a series of subsequent visual tokenizers all adopted similar dual-encoder structures. Unfortunately, only compression and reconstruction were explored at that time, without investigating the generation aspect.

References

[CVPR2025]Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression

2025-06-17T00:00:00+00:00

个人小结

当时没注意到，后面一系列的visual tokenizer的自回归工作都用到了类似的双编码器结构，可惜当时只探究了压缩重建，没有探索生成的方面。

code base参考了PerCo、MaskGiT、ControlNet。

摘要

生成式图像压缩借助扩散模型的生成能力，在极低码率下已实现优异的感知保真度，但现有方法忽略了图像的非均匀复杂度，难以平衡全局感知质量与局部纹理一致性，也无法实现编码资源的高效分配。为此，本文提出地图引导掩码真实感图像扩散编解码器（MRIDC），旨在优化极低码率压缩中局部失真与全局感知质量的权衡关系。MRIDC整合了向量量化图像编码器与扩散基解码器，在编码端设计地图引导潜变量掩码（MLM）模块实现基于图像复杂度的自适应资源分配，解码端通过双向预测可控生成（BPCG）模块完成掩码潜变量的补全与图像重建。实验结果表明，MRIDC在极低码率下取得了 sota 级的感知压缩质量，有效保留了关键区域的特征一致性，推动了率失真感知性能曲线的提升，为平衡压缩效率与视觉保真度建立了新基准。

方法 / 内容主体

1. 问题定义

本研究聚焦极低码率下的感知图像压缩问题，核心目标是解决现有扩散基生成式压缩方法因忽略图像非均匀复杂度，导致的编码资源分配低效、局部纹理失真、关键区域特征不一致等问题，实现全局感知质量、局部纹理一致性与压缩效率的三重优化，提升率失真感知综合性能。

2. 解决思路 / 理论推导

提出地图引导掩码真实感图像扩散编解码器（MRIDC），核心思路是通过区域自适应的编码资源分配与约束性的扩散重建，解耦图像压缩中的失真与感知质量，实现二者的精准权衡，整体架构为向量量化编码器 + 扩散基解码器的联合设计，核心模块包括：

地图引导潜变量掩码（MLM）模块（编码端）：基于图像复杂度先验信息，对潜变量空间进行选择性掩码，为复杂/关键区域保留更多潜变量信息，为简单区域掩码更多冗余信息，实现编码资源的自适应分配，提升资源利用效率；
双向预测可控生成（BPCG）模块（解码端）：在扩散模型的生成过程中加入约束引导，基于未掩码的潜变量信息，双向预测补全掩码区域的潜变量，实现受约束的图像重建，保证局部纹理一致性与关键特征的保真度。

MRIDC整体框架

3. 实验设置 / 实现细节

实验基准：在极低码率图像压缩的主流公开数据集上开展实验，对比当前 sota 级的生成式图像压缩方法与传统压缩方法；
评价指标：从感知质量（如LPIPS、SSIM、MOS主观评分）、率失真性能（RD曲线）、关键区域特征一致性三个维度进行全面评估；
核心验证：验证MRIDC的区域自适应资源分配效果、局部纹理重建能力，以及在不同极低码率下的泛化性能。

4. 结果与分析

SOTA 性能验证：MRIDC在极低码率下取得了当前最优的感知压缩质量，在LPIPS、SSIM等客观指标及主观MOS评分上均显著优于对比方法；
关键区域保真性：通过区域自适应的资源分配与约束性重建，模型有效保留了图像关键区域的特征一致性，解决了现有方法局部纹理失真、特征丢失的问题；
率失真感知优化：模型显著推动了率失真感知性能曲线的提升，在相同码率下实现更高的感知质量，在相同感知质量下实现更低的码率，为平衡压缩效率与视觉保真度建立了新的行业基准；
模块有效性：消融实验验证了MLM与BPCG核心模块的必要性，移除任一模块均会导致资源分配效率下降、感知质量与局部一致性降低。

定量结果

不同的区域自适应MASK方法

消融定性结构

参考资料

Decouple Distortion from Perception (CVPR 2025 OpenAccess)