LLM - Tags | Yun Shen

13 articles tagged with LLM

pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强
May 06, 2026
LLMDPORLHFEvaluation
接在 SFT v2 数据修复之后，完整拆解 DPO 算法、偏好数据构造、TRL 训练链路，以及 Pokemon DPO v1 为什么没有超过 SFT v2。
pokemon qwen 微调系列（三）：SFT 评估复盘：从 v1 退化到 v2 修复
April 28, 2026
LLMSFTEvaluation
用固定 30 题评测集定位 SFT v1 退化，再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。
pokemon qwen 微调系列（一）：SFT 数据工程实战：从爬取到可训练 JSONL
April 23, 2026
LLMSFT
基于 Pokemon-data 项目，完整拆解 SFT 数据链路：数据爬取、文本清洗、模板化转换、去重质检、确定性切分与数据卡产出。
pokemon qwen 微调系列（二）：SFT 训练实战：基于 QLoRA + Modal 训练 Qwen2.5-7B
April 23, 2026
LLMSFT
进入 E:/Pokemon-data/SFT，完整拆解从 smoke 校验到正式训练、监控、产物回收与常见坑排查的实战流程。
LoRA 论文精读：低秩适配如何让大模型微调更高效
April 22, 2026
LLMPEFTLoRAPaper Reading
LoRA 通过冻结预训练权重并注入低秩更新，在接近全量微调效果的同时显著降低可训练参数量、显存占用与部署成本。
RAG 原理、流程与关键设计
April 17, 2026
AILLMNLP
从检索、分块、向量化到混合检索、重排和评估，系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
LSeg：语言驱动的语义分割
April 06, 2026
PaperCVLLM
LSeg 论文精读：把语言语义空间引入像素级分割，让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。
AlphaCode 论文精读：用大规模代码生成攻克编程竞赛
April 05, 2026
PaperLLM
系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统，并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。
Codex 论文精读：评估在代码上训练的大型语言模型
April 04, 2026
PaperLLM
Codex 论文精读：理解 GPT-3 如何专化为代码模型，以及 HumanEval 与 pass@k 如何重塑代码生成评估。
GPT-1 论文精读：预训练-微调范式的起点
April 04, 2026
PaperLLMNLP
系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式，奠定现代大语言模型的发展路线，并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。
GPT-2 论文精读：从微调范式到 Prompt 范式
April 04, 2026
PaperLLMNLP
系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer，把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式，并结合代码实战理解 causal attention、Pre-LN 与自回归生成。
GPT-3 论文精读：少样本学习与规模的力量
April 04, 2026
PaperLLMNLP
系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数，并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力，同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。
MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE
April 02, 2026
PaperDLLLM
MoE 混合专家模型论文串讲：稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。