[AAAI2026]Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation

语言: 中文 | English

less than 1 minute read

Published:

个人小结

做了很久,工作量有点大。。讲一下这个工作的心路历程吧,一开始是想简单的做一个统一的能同时生成多个特效的视频,但是后面发现有些特效其实比较难以兼容,并且有些特效是个体级别的(比如物体消失、爆炸),有些则是画面级别的(比如天降大雪、花花世界这种)。而且当时发现市面上还没有人做这种可控制的协同多特效合成的工作,所以就由着这条路继续走了,一开始当然是沿着ControlNet走的,但是确实会引入较大的计算量,后面发现了EasyConrtol,觉得这种在attention级别的mask实现会更好一些,但最后效果上个人感觉差异不是很大。

我觉得本工作算是第一个走通可控制的协同多特效合成的,但是更promissing的应该是视频运动clone(比如后面的VideoAsPrompt)。不仅仅包括特效,在具身领域也有比较强的应用,比如从人手运动迁移至机械臂运动。

摘要

视觉特效(VFX)是现代影视制作中核心的视觉增强手段,现有视频生成模型虽为VFX制作提供了低成本解决方案,但受限于单特效LoRA训练,仅能生成单一特效,无法实现指定位置的多特效协同生成。针对多VFX联合训练中存在的特效间干扰、空间可控性缺失等问题,本文提出首个支持提示词引导与空间可控复合特效生成的统一框架Omni-Effects。该框架包含两大核心创新:基于LoRA的混合专家模块(LoRA-MoE),在统一模型中融合多样特效并有效缓解跨任务干扰;空间感知提示词模块(SAP),将空间掩码信息融入文本令牌实现精准的空间控制,且其内置的独立信息流(IIF)模块能隔离各特效控制信号,避免非预期的特效融合。同时,本文构建了综合VFX数据集Omni-VFX,并设计了专用的VFX性能评估框架。大量实验表明,Omni-Effects可实现精准的空间控制与多样化的特效生成,支持用户自定义特效类别与生成位置。

方法 / 内容主体

1. 问题定义

本研究聚焦视觉特效(VFX)生成的核心痛点,解决现有方法仅能生成单一特效、多特效联合训练存在跨任务干扰、特效生成缺乏精准空间控制的问题,核心目标是构建一个统一的VFX生成框架,实现多类特效的融合生成指定位置的空间可控合成,支持用户通过提示词自定义特效类别与生成区域,满足实际视觉内容制作的复合特效需求。

2. 解决思路 / 理论推导

提出Omni-Effects统一视觉特效生成框架,核心思路是通过模块化的架构设计,分别解决多特效融合的干扰问题与空间可控性问题,实现提示词引导的定制化复合VFX生成,框架的两大核心创新模块及关键设计如下:

  1. LoRA-based Mixture of Experts(LoRA-MoE):引入混合专家机制,构建一组针对不同特效的专家LoRA,将多样特效的特征表达整合到统一模型中,同时通过专家选择机制有效缓解不同特效间的跨任务干扰,保证单特效与多特效生成的质量;
  2. Spatial-Aware Prompt(SAP):将空间掩码信息融入文本提示词的令牌中,让模型捕捉特效生成的空间位置信息,实现特效的精准空间控制;同时SAP内置Independent-Information Flow (IIF) 模块,对不同特效的控制信号进行隔离,避免多特效合成时出现非预期的特征混合,保证各特效的独立性。

此外,为支撑该研究的实验与验证,设计了全新的数据收集流水线(融合图像编辑与首尾帧到视频FLF2V合成),构建了综合的VFX专用数据集Omni-VFX,并制定了专用的VFX性能评估框架,实现对模型特效生成质量、空间可控性、多样性的全面验证。

简短说明
OmniEffcets整体框架
简短说明
SAP&IIF

3. 实验设置 / 实现细节

  • 实验数据集:基于自研的图像编辑+FLF2V合成流水线构建的专用VFX数据集Omni-VFX,覆盖多类常见视觉特效,包含精准的空间位置标注;
  • 评价维度:从特效生成质量空间控制精度多特效合成的独立性特效生成多样性四个核心维度对模型性能进行验证;
  • 对比实验:与当前主流的单特效LoRA微调方法、通用视觉生成模型进行对比,验证Omni-Effects在多特效融合、空间可控性上的优势;
  • 框架验证:通过针对性实验验证LoRA-MoE、SAP、IIF等核心模块的有效性,验证各模块对解决跨任务干扰、实现空间控制的关键作用。

4. 结果与分析

  1. 多特效生成能力:Omni-Effects成功在统一框架中融合了多类视觉特效的生成能力,且LoRA-MoE模块有效缓解了跨任务干扰,单特效生成质量与专用LoRA微调方法持平,多特效合成时无明显质量衰减;
  2. 空间控制精度:SAP模块将空间掩码与文本提示词融合,实现了特效在指定位置的精准生成,空间定位误差显著低于对比方法,满足定制化VFX制作的空间控制需求;
  3. 多特效合成独立性:IIF模块有效隔离了不同特效的控制信号,多特效在同一画面的指定位置合成时,未出现非预期的特效混合,各特效的视觉特征保持独立;
  4. 整体性能:大量实验表明,Omni-Effects在特效生成的多样性、质量、空间可控性上均表现优异,支持用户灵活指定特效的类别与生成位置,实现定制化的复合视觉特效生成。

参考资料