大语言模型原理之 DPO 算法
2023年5月, 由Standford在论文 Direct Preference Optimization: Your Language Model is Secretly a Reward Model 中提出。 作为Reinforceme
2025-02-07
DPO
,
RLHF
,
LLM
,
Direct Preference Optimization