pokemon qwen 微调系列(四):DPO 偏好优化实战:为什么 v1 跑通了但没有变强
接在 SFT v2 数据修复之后,完整拆解 DPO 算法、偏好数据构造、TRL 训练链路,以及 Pokemon DPO v1 为什么没有超过 SFT v2。
13 articles tagged with LLM
接在 SFT v2 数据修复之后,完整拆解 DPO 算法、偏好数据构造、TRL 训练链路,以及 Pokemon DPO v1 为什么没有超过 SFT v2。
用固定 30 题评测集定位 SFT v1 退化,再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。
基于 Pokemon-data 项目,完整拆解 SFT 数据链路:数据爬取、文本清洗、模板化转换、去重质检、确定性切分与数据卡产出。
进入 E:/Pokemon-data/SFT,完整拆解从 smoke 校验到正式训练、监控、产物回收与常见坑排查的实战流程。
LoRA 通过冻结预训练权重并注入低秩更新,在接近全量微调效果的同时显著降低可训练参数量、显存占用与部署成本。
从检索、分块、向量化到混合检索、重排和评估,系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
LSeg 论文精读:把语言语义空间引入像素级分割,让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。

系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统,并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。

Codex 论文精读:理解 GPT-3 如何专化为代码模型,以及 HumanEval 与 pass@k 如何重塑代码生成评估。

系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式,奠定现代大语言模型的发展路线,并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。

系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer,把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式,并结合代码实战理解 causal attention、Pre-LN 与自回归生成。

系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数,并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力,同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。

MoE 混合专家模型论文串讲:稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。
