pokemon qwen 微调系列(四):DPO 偏好优化实战:为什么 v1 跑通了但没有变强May 06, 2026LLMDPORLHFEvaluation接在 SFT v2 数据修复之后,完整拆解 DPO 算法、偏好数据构造、TRL 训练链路,以及 Pokemon DPO v1 为什么没有超过 SFT v2。