[CVPR]UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying

less than 1 minute read

Published: August 05, 2025

个人小结

FlowEdit当时被我们发现之后，并在Wan等模型上做了复现，发现效果出奇的好。当时的一条思路是沿着FlowEdit做一些运动迁移的任务，有了一些效果但是FlowEdit有着明显的无法做形状差异过大的编辑：比如把大象变成一只小狗，或者删除某个物体。但是如果有个生成语义token而不是像素级Token的DiT，这些问题似乎就可以迎刃而解了，比如Blip-3里面的生成clip token的DiT以及RAE、ScaleRAE等工作。并且语义级token的好处是可以无缝接入一个understanding expert，自动化评判编辑强度。

摘要

统一视觉语言模型（VLM）可在单一框架内完成视觉理解与生成任务，OpenAI GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型-图像生成流水线，在冻结理解型VLM的同时仅训练生成相关模块，既保留了VLM强大的理解能力，又赋予其图像生成能力。但该流水线尚未探索如何便捷赋予统一VLM图像编辑能力，为此本文提出全新的无训练图像编辑框架UniEdit-I，通过理解、编辑、验证三步迭代流程，让统一VLM无需训练即可具备图像编辑能力。理解阶段通过结构化语义分析生成源提示词，并根据编辑指令完成最小化词汇替换得到目标提示词；编辑阶段引入时间自适应偏移量，实现去噪过程中从粗到细的连贯编辑；验证阶段校验目标提示词与中间编辑图像的对齐度，生成一致性评分与修正反馈并决定是否提前终止迭代。该迭代循环直至收敛，以无训练方式实现高保真的图像编辑效果。本文基于最新的BLIP3-o实现该方法，在GEdit-Bench基准测试中取得了SOTA性能。

方法 / 内容主体

1. 问题定义

本研究聚焦统一视觉语言模型（VLM）的图像编辑痛点，解决OpenAI GPT-4o提出的生成流水线无法便捷实现图像编辑、现有方法需训练且与该流水线不兼容的问题，核心目标是构建一个无训练的图像编辑框架，在不冻结、不微调统一VLM主体的前提下，赋予其高保真的图像编辑能力，实现编辑指令与编辑结果的精准对齐，同时保持与GPT-4o生成流水线的兼容性。

2. 解决思路 / 理论推导

提出UniEdit-I无训练图像编辑框架，核心思路是基于GPT-4o的生成流水线，设计理解、编辑、验证三步迭代循环，全程无需对VLM及生成相关模块进行额外训练，仅通过流程化的迭代优化实现高保真图像编辑，三大核心阶段的设计如下：

理解阶段（Understanding）：对源图像进行结构化语义分析，提取图像的关键语义信息并生成结构化的源提示词；根据用户的自然语言编辑指令，对源提示词进行最小化词汇替换，生成与编辑需求匹配的目标提示词，保证提示词与编辑意图的精准对齐，同时减少不必要的语义变更。
编辑阶段（Editing）：在扩散模型的去噪生成过程中，引入时间自适应偏移量，让模型在去噪的不同阶段实现从粗到细的连贯编辑——前期粗粒度匹配目标提示词的核心语义，后期细粒度优化图像的细节纹理，避免编辑过程中出现图像断裂、细节失真等问题。
验证阶段（Verifying）：将中间编辑图像与目标提示词进行语义与视觉的双重校验，自动计算图像-提示词一致性评分；若评分未达阈值，生成针对性的修正反馈并重新进入编辑阶段，若评分达标则提前终止迭代，实现编辑过程的自适应优化。

3. 实验设置 / 实现细节

模型基础：基于当前最新的统一视觉语言模型BLIP3-o搭建实验框架，遵循GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型流水线，冻结BLIP3-o的理解主体部分，不进行任何额外训练；
实验基准：在图像编辑领域的专用基准测试集GEdit-Bench上开展实验，验证模型的编辑性能；
评价维度：从编辑保真度、提示词-图像对齐度、图像细节完整性、编辑效率四个核心维度评估UniEdit-I的性能，同时与当前主流的有训练/无训练图像编辑方法进行对比；
核心验证：验证三步迭代流程的有效性，以及时间自适应偏移量、一致性评分机制对编辑效果的提升作用。

4. 结果与分析

SOTA性能验证：基于BLIP3-o实现的UniEdit-I在GEdit-Bench基准测试中取得了当前最优的性能，在编辑保真度、提示词-图像对齐度等核心指标上均显著优于对比方法；
无训练优势：UniEdit-I全程无需对VLM及生成模块进行微调训练，在实现高保真编辑的同时，完全保留了VLM原有的视觉理解能力，且大幅降低了模型部署与应用的成本；
迭代流程有效性：理解阶段的最小化词汇替换保证了编辑意图的精准传递，编辑阶段的时间自适应偏移量实现了从粗到细的连贯编辑，验证阶段的一致性评分机制有效提升了编辑效率，避免了无效迭代；
流水线兼容性：UniEdit-I完美兼容GPT-4o提出的统一VLM生成流水线，无需对原有流水线进行结构修改，仅通过流程化迭代即可赋予其图像编辑能力，具备极强的工程落地性。

参考资料

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Jasper (Jintao Chen)

[CVPR]UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying

个人小结

摘要

方法 / 内容主体

1. 问题定义

2. 解决思路 / 理论推导

3. 实验设置 / 实现细节

4. 结果与分析

参考资料

Share on

You May Also Enjoy

AstraNav-World: World Model for Foresight Control and Consistency

个人小结

AstraNav-World: World Model for Foresight Control and Consistency

[CVPR2026]AstraNav-Memory: Contexts Compression for Long Memory

摘要

[AAAI2026]Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

个人小结