MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

#1 MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation [PDF⁸] [Copy] [Kimi¹¹] [REL]

Authors: Mingcheng Li, Xiaolu Hou, Ziyang Liu, Dingkang Yang, Ziyun Qian, Jiawei Chen, Jinjie Wei, Yue Jiang, Qingyao Xu, Lihua Zhang

Diffusion models have shown excellent performance in text-to-image generation. Nevertheless, existing methods often suffer from performance bottlenecks when handling complex prompts that involve multiple objects, characteristics, and relations. Therefore, we propose a Multi-agent Collaboration-based Compositional Diffusion (MCCD) for text-to-image generation for complex scenes. Specifically, we design a multi-agent collaboration-based scene parsing module that generates an agent system comprising multiple agents with distinct tasks, utilizing MLLMs to extract various scene elements effectively. In addition, Hierarchical Compositional diffusion utilizes a Gaussian mask and filtering to refine bounding box regions and enhance objects through region enhancement, resulting in the accurate and high-fidelity generation of complex scenes. Comprehensive experiments demonstrate that our MCCD significantly improves the performance of the baseline models in a training-free manner, providing a substantial advantage in complex scene generation.

Subject: Computer Vision and Pattern Recognition

Publish: 2025-05-05 13:50:03 UTC

2505.02648

#1 MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation [PDF8] [Copy] [Kimi11] [REL]

#1 MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation [PDF⁸] [Copy] [Kimi¹¹] [REL]