pokemon qwen 微调系列(四):DPO 偏好优化实战:为什么 v1 跑通了但没有变强May 06, 2026LLMDPORLHFEvaluation接在 SFT v2 数据修复之后,完整拆解 DPO 算法、偏好数据构造、TRL 训练链路,以及 Pokemon DPO v1 为什么没有超过 SFT v2。
pokemon qwen 微调系列(三):SFT 评估复盘:从 v1 退化到 v2 修复April 28, 2026LLMSFTEvaluation用固定 30 题评测集定位 SFT v1 退化,再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。