FlexiFilm: Long Video Generation with Flexible Conditions

#1 FlexiFilm: Long Video Generation with Flexible Conditions [PDF¹⁰] [Copy] [Kimi¹²] [REL]

Authors: Yichen Ouyang, jianhao Yuan, Hao Zhao, Gaoang Wang, Bo zhao

Generating long and consistent videos has emerged as a significant yet challenging problem. While most existing diffusion-based video generation models, derived from image generation models, demonstrate promising performance in generating short videos, their simple conditioning mechanism and sampling strategy-originally designed for image generation-cause severe performance degradation when adapted to long video generation. This results in prominent temporal inconsistency and overexposure. Thus, in this work, we introduce FlexiFilm, a new diffusion model tailored for long video generation. Our framework incorporates a temporal conditioner to establish a more consistent relationship between generation and multi-modal conditions, and a resampling strategy to tackle overexposure. Empirical results demonstrate FlexiFilm generates long and consistent videos, each over 30 seconds in length, outperforming competitors in qualitative and quantitative analyses. Project page: https://y-ichen.github.io/FlexiFilm-Page/

Subject: Computer Vision and Pattern Recognition

Publish: 2024-04-29 11:41:34 UTC

2404.18620

#1 FlexiFilm: Long Video Generation with Flexible Conditions [PDF10] [Copy] [Kimi12] [REL]

#1 FlexiFilm: Long Video Generation with Flexible Conditions [PDF¹⁰] [Copy] [Kimi¹²] [REL]