[CVPR]UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying
Published:
个人小结
FlowEdit当时被我们发现之后,并在Wan等模型上做了复现,发现效果出奇的好。当时的一条思路是沿着FlowEdit做一些运动迁移的任务,有了一些效果但是FlowEdit有着明显的无法做形状差异过大的编辑:比如把大象变成一只小狗,或者删除某个物体。但是如果有个生成语义token而不是像素级Token的DiT,这些问题似乎就可以迎刃而解了,比如Blip-3里面的生成clip token的DiT以及RAE、ScaleRAE等工作。并且语义级token的好处是可以无缝接入一个understanding expert,自动化评判编辑强度。
摘要
统一视觉语言模型(VLM)可在单一框架内完成视觉理解与生成任务,OpenAI GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型-图像生成流水线,在冻结理解型VLM的同时仅训练生成相关模块,既保留了VLM强大的理解能力,又赋予其图像生成能力。但该流水线尚未探索如何便捷赋予统一VLM图像编辑能力,为此本文提出全新的无训练图像编辑框架UniEdit-I,通过理解、编辑、验证三步迭代流程,让统一VLM无需训练即可具备图像编辑能力。理解阶段通过结构化语义分析生成源提示词,并根据编辑指令完成最小化词汇替换得到目标提示词;编辑阶段引入时间自适应偏移量,实现去噪过程中从粗到细的连贯编辑;验证阶段校验目标提示词与中间编辑图像的对齐度,生成一致性评分与修正反馈并决定是否提前终止迭代。该迭代循环直至收敛,以无训练方式实现高保真的图像编辑效果。本文基于最新的BLIP3-o实现该方法,在GEdit-Bench基准测试中取得了SOTA性能。
方法 / 内容主体
1. 问题定义
本研究聚焦统一视觉语言模型(VLM)的图像编辑痛点,解决OpenAI GPT-4o提出的生成流水线无法便捷实现图像编辑、现有方法需训练且与该流水线不兼容的问题,核心目标是构建一个无训练的图像编辑框架,在不冻结、不微调统一VLM主体的前提下,赋予其高保真的图像编辑能力,实现编辑指令与编辑结果的精准对齐,同时保持与GPT-4o生成流水线的兼容性。
2. 解决思路 / 理论推导
提出UniEdit-I无训练图像编辑框架,核心思路是基于GPT-4o的生成流水线,设计理解、编辑、验证三步迭代循环,全程无需对VLM及生成相关模块进行额外训练,仅通过流程化的迭代优化实现高保真图像编辑,三大核心阶段的设计如下:
- 理解阶段(Understanding):对源图像进行结构化语义分析,提取图像的关键语义信息并生成结构化的源提示词;根据用户的自然语言编辑指令,对源提示词进行最小化词汇替换,生成与编辑需求匹配的目标提示词,保证提示词与编辑意图的精准对齐,同时减少不必要的语义变更。
- 编辑阶段(Editing):在扩散模型的去噪生成过程中,引入时间自适应偏移量,让模型在去噪的不同阶段实现从粗到细的连贯编辑——前期粗粒度匹配目标提示词的核心语义,后期细粒度优化图像的细节纹理,避免编辑过程中出现图像断裂、细节失真等问题。
- 验证阶段(Verifying):将中间编辑图像与目标提示词进行语义与视觉的双重校验,自动计算图像-提示词一致性评分;若评分未达阈值,生成针对性的修正反馈并重新进入编辑阶段,若评分达标则提前终止迭代,实现编辑过程的自适应优化。
3. 实验设置 / 实现细节
- 模型基础:基于当前最新的统一视觉语言模型BLIP3-o搭建实验框架,遵循GPT-4o提出的理解型VLM-视觉特征-投影器-扩散模型流水线,冻结BLIP3-o的理解主体部分,不进行任何额外训练;
- 实验基准:在图像编辑领域的专用基准测试集GEdit-Bench上开展实验,验证模型的编辑性能;
- 评价维度:从编辑保真度、提示词-图像对齐度、图像细节完整性、编辑效率四个核心维度评估UniEdit-I的性能,同时与当前主流的有训练/无训练图像编辑方法进行对比;
- 核心验证:验证三步迭代流程的有效性,以及时间自适应偏移量、一致性评分机制对编辑效果的提升作用。
4. 结果与分析
- SOTA性能验证:基于BLIP3-o实现的UniEdit-I在GEdit-Bench基准测试中取得了当前最优的性能,在编辑保真度、提示词-图像对齐度等核心指标上均显著优于对比方法;
- 无训练优势:UniEdit-I全程无需对VLM及生成模块进行微调训练,在实现高保真编辑的同时,完全保留了VLM原有的视觉理解能力,且大幅降低了模型部署与应用的成本;
- 迭代流程有效性:理解阶段的最小化词汇替换保证了编辑意图的精准传递,编辑阶段的时间自适应偏移量实现了从粗到细的连贯编辑,验证阶段的一致性评分机制有效提升了编辑效率,避免了无效迭代;
- 流水线兼容性:UniEdit-I完美兼容GPT-4o提出的统一VLM生成流水线,无需对原有流水线进行结构修改,仅通过流程化迭代即可赋予其图像编辑能力,具备极强的工程落地性。
