Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints

2507.16727

Total: 1

#1 Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints [PDF⁴] [Copy] [Kimi⁸] [REL]

Authors: Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang

Improving the reliability of large language models (LLMs) is critical for deploying them in real-world scenarios. In this paper, we propose \textbf{Deliberative Searcher}, the first framework to integrate certainty calibration with retrieval-based search for open-domain question answering. The agent performs multi-step reflection and verification over Wikipedia data and is trained with a reinforcement learning algorithm that optimizes for accuracy under a soft reliability constraint. Empirical results show that proposed method improves alignment between model confidence and correctness, leading to more trustworthy outputs. This paper will be continuously updated.

Subject: Artificial Intelligence

Publish: 2025-07-22 16:09:34 UTC

2507.16727

#1 Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints [PDF4] [Copy] [Kimi8] [REL]

#1 Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints [PDF⁴] [Copy] [Kimi⁸] [REL]