击壤而歌

Direct Preference Optimization

大语言模型原理之 DPO 算法

2023年5月，由Standford在论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 中提出。作为Reinforceme

2025-02-07 DPO ， RLHF ， LLM ， Direct Preference Optimization