DORM: Preference Data Weights Optimization for Reward Modeling in LLM Alignment

#1 DORM: Preference Data Weights Optimization for Reward Modeling in LLM Alignment [PDF] [Copy] [Kimi] [REL]

Authors: Rongzhi Zhang, Chenwei Zhang, Xinyang Zhang, Liang Qiu, Haoming Jiang, Yuchen Zhuang, Qingru Zhang, Hyokun Yun, Xian Li, Bing Yin, Tuo Zhao, Chao Zhang

Aligning large language models (LLMs) with human preferences relies heavily on high-quality reward models. However, existing approaches struggle with two critical challenges: noisy preference labels and the varying importance of preference samples. We introduce DORM, a method that enhances reward modeling by learning to dynamically weigh preference data.DORM initializes data importance using a combination of model uncertainty and prediction disagreement, then iteratively refines them via bilevel optimization to maximize validation performance. Using only 50k samples, DORM trains a 12B reward model that achieves 90.5% accuracy on RewardBench, matching the performance of models trained on significantly larger datasets. Furthermore, downstream alignment tasks show that fine-tuned LLMs with DORM achieve a 61.2% win rate against baseline methods, highlighting its data efficiency and generalizability.

Subject: EMNLP.2025 - Findings

2025.findings-emnlp.1237@ACL

#1 DORM: Preference Data Weights Optimization for Reward Modeling in LLM Alignment [PDF] [Copy] [Kimi] [REL]