Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

#1 Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [PDF] [Copy] [Kimi] [REL]

Authors: Haojie Zheng, Shuchen Weng, Jingqi Liu, Siqi Yang, Boxin Shi, Xinlong Wang

Recent advancements in video generation highlight that realistic audio-visual synchronization is crucial for engaging content creation. However, existing video editing methods largely overlook audio-visual synchronization and lack the fine-grained spatial and temporal controllability required for precise instance-level edits. In this paper, we propose AVI-Edit, a framework for audio-sync video instance editing. We propose a granularity-aware mask refiner that iteratively refines coarse user-provided masks into precise instance-level regions. We further design a self-feedback audio agent to curate high-quality audio guidance, providing fine-grained temporal control. To facilitate this task, we additionally construct a large-scale dataset with instance-centric correspondence and comprehensive annotations. Extensive experiments demonstrate that AVI-Edit outperforms state-of-the-art methods in visual quality, condition following, and audio-visual synchronization. Project page: https://hjzheng.net/projects/AVI-Edit/.

Subject: Computer Vision and Pattern Recognition

Publish: 2025-12-11 11:58:53 UTC

2512.10571

#1 Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [PDF] [Copy] [Kimi] [REL]