Direct Preference Optimization for Speech Autoregressive Diffusion Models

#1 Direct Preference Optimization for Speech Autoregressive Diffusion Models [PDF²] [Copy] [Kimi³] [REL]

Authors: Zhijun Liu, Dongya Jia, Xiaoqiang Wang, Chenpeng Du, Shuai Wang, Zhuo Chen, Haizhou Li

Autoregressive diffusion models (ARDMs) have recently been applied to speech generation, achieving state-of-the-art (SOTA) performance in zero-shot text-to-speech. By autoregressively generating continuous speech tokens with next-token diffusion, these models offer a promising alternative to next-token prediction, avoiding the technical complexities associated with discrete speech tokenization. As a relatively new paradigm, research on reinforcement learning (RL)-based fine-tuning of speech ARDMs remains limited. In this paper, we propose Autoregressive Diffusion-Direct Preference Optimization (ARDM-DPO) to advance this research. By fine-tuning the recently proposed zero-shot text-to-speech model DiTAR with DPO, we achieve significant improvements in terms of speech expressiveness and robustness for long texts.

Subject: Audio and Speech Processing

Publish: 2025-09-23 12:47:53 UTC

2509.18928

#1 Direct Preference Optimization for Speech Autoregressive Diffusion Models [PDF2] [Copy] [Kimi3] [REL]

#1 Direct Preference Optimization for Speech Autoregressive Diffusion Models [PDF²] [Copy] [Kimi³] [REL]