RLHF - Tags | Yun Shen

1 article tagged with RLHF

pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强
May 06, 2026
LLMDPORLHFEvaluation
接在 SFT v2 数据修复之后，完整拆解 DPO 算法、偏好数据构造、TRL 训练链路，以及 Pokemon DPO v1 为什么没有超过 SFT v2。