DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models

#1 DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models [PDF] [Copy] [Kimi¹] [REL]

Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/

Subject: Computer Vision and Pattern Recognition

Publish: 2025-12-01 13:51:41 UTC

2512.01686

#1 DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models [PDF] [Copy] [Kimi1] [REL]

#1 DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models [PDF] [Copy] [Kimi¹] [REL]