JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space

#1 JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space [PDF³] [Copy] [Kimi²] [REL]

Authors: Xinnan Zhu, Ruijie Xu, Jiayu Ying, Daoguo Dong, Jiachen Xu, Yuan Xie, Xin Tan

Existing 3D scene editing methods typically rely on per-scene optimization over explicit 3D representations or cascaded edit-and-reconstruct pipelines, resulting in high test-time cost, limited 3D awareness, and structural inconsistencies. To couple appearance synthesis and geometry prediction during editing, we build on a unified RGB-geometry reconstruction-generation latent space and adapt it to feed-forward 3D scene editing. The resulting framework, \textbf{JointEdit3D}, performs asymmetric latent inpainting by observing only a single edited RGB reference latent and generating the remaining RGB views and edited geometry latent under source-scene anchoring. JointEdit3D introduces a dedicated SceneAnchor Branch to inject source-scene structure without forcing direct copying, and adopts edit/background-aware losses to balance edited-region fidelity with unedited-content preservation. To address the lack of paired resources for standardized 3D scene editing evaluation, we introduce SceneEdit3D-15K, a dataset with 15K paired editing samples and renderer-provided 3D annotations, together with SceneEdit3D-Bench, a curated 100-sample benchmark. Experiments show that JointEdit3D improves edited-region quality and 3D structural completeness over prior baselines while maintaining competitive background preservation.

Subject: Computer Vision and Pattern Recognition

Publish: 2026-06-11 13:35:23 UTC

2606.13345

#1 JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space [PDF3] [Copy] [Kimi2] [REL]

#1 JointEdit3D: Feed-Forward 3D Scene Editing in a Unified Latent Space [PDF³] [Copy] [Kimi²] [REL]