Blog | Yun Shen

Home

Blog

CS336 第十一讲 · 大模型数据工程：被低估的护城河
June 24, 2026
Deep LearningLLMData EngineeringTech Blog
都说"数据比模型结构更关键"，可数据工程到底在做什么？本文对应 Datawhale diy-llm 第十一章，把一条完整的数据流水线讲透：数据从哪来（三阶段训练的数据角色、Common Crawl/代码/书籍/数学，到 OLMo 2 与 Qwen3 的现代配方）→ 怎么洗（C4 启发式、CCNet 困惑度过滤）→ 怎么智能筛选（KenLM、FastText、DSIR 重要性重采样）→ 怎么去重（精确去重、Bloom Filter、LSH 的 k-shingling/MinHash/分桶与 S 型曲线）→ 怎么配比与合成（真实数据奠基、合成数据精调）→ 以及版权、数据投毒（250 份文档即可植入后门）、记忆与评估等风险。配以重绘的示意图与论文原图。
CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？
June 24, 2026
LLMEvaluationBenchmarkTech Blog
训练一个大模型很难，但说清"它到底好不好"同样难。本文按一条主线梳理大模型评估的全貌：先看现实中的四个评估视角与"想清楚四件事"的评估框架，再回到最古老的度量——困惑度（含 LAMBADA / HellaSwag 下游验证），然后系统过一遍基准测试的五大家族（知识 / 指令遵循 / 智能体 / 纯推理 / 安全），最后落到两个根本问题：真实性（考试分数 ≠ 真实世界好用）与有效性（测试集被污染、标注有噪声）。结论是当下评估正陷入"数据爆炸、信息贫困"的危机——榜单越来越多，可信的信号却越来越少。配以重绘示意图与原论文流程图。
CS336 第九讲 · LLM 推理优化：当瓶颈从"算力"变成"带宽"
June 23, 2026
Deep LearningLLMInferenceTech Blog
今天大模型的钱，大头不在训练而在推理——OpenAI 每天生成上千亿词，推理是 7×24 小时在烧。可推理慢有个反直觉的真相：多数时候 GPU 不是在算，而是在等数据。本文对应 Datawhale diy-llm 第十章，按一条主线重组：先讲清推理与训练"算力 vs 带宽"的瓶颈区别，再拆开 Prefill/Decode 两阶段与 KV Cache，用"算术强度"点破内存受限的本质与批处理的拼车效应，理清延迟与吞吐的矛盾，最后把线性注意力/扩散、推测解码/MTP、提示词压缩等五花八门的优化技术归到三条路线上，配以重绘的示意图与论文原图。
CS336 第八讲 · 缩放定律（Scaling Laws）：在炼丹之前，先把大模型的性能"算"出来
June 22, 2026
Deep LearningScaling LawsLLMTech Blog
训练一个千亿模型一次就要烧掉数百万美元，传统"多跑几组实验调参"的炼丹式做法彻底失效。缩放定律给出的解法是：在小规模上把"投入（参数 N / 数据 D / 算力 C）→ 损失 L"的关系拟合成一条幂律，再外推到大规模，在花钱之前就把结果算出来。本文按"为什么有效 → 单因素缩放 → 超参也能外推 → 联合缩放 → 训练最优 vs 推理最优 → 工程案例"的主线，把幂律的来源、内在维度、数据组成与重复、临界批量与 μP、Chinchilla 的 20:1、以及"为什么大家都在过度训练"讲清楚，配以重绘的示意图与论文原始实验图。
CS336 第七讲 · 分布式训练：数据、张量、流水线、序列并行全景
June 15, 2026
Deep LearningGPULLMDistributed TrainingTech Blog
前两讲都在单张卡上做文章——可当模型大到一张卡根本装不下，故事就变了。这一讲把战场搬到多卡多机：先看清新瓶颈不再是 HBM 访存，而是慢得多的"卡间通信"；再用一条恒等式（All-Reduce = Reduce-Scatter + All-Gather）讲透集合通信的成本；然后把数据、张量、流水线、序列四种并行统一到"一份负载、四种切法"的框架里，逐一拆解 ZeRO/FSDP 如何把单卡显存从 120GB 压到 1.9GB、张量并行为何只能关在节点内、流水线的气泡怎么挤掉；最后落到"先快后慢、由内向外"的组合法则。
CS336 第六讲 · GPU 高性能编程：基准测试、性能剖析与算子融合
June 14, 2026
Deep LearningGPULLMTritonTech Blog
上一讲讲清了 GPU 优化的靶心——减少访存、提高复用；这一讲是动手篇：你怎么知道自己打中了？答案只有一个——测量。全文沿一条工程闭环展开：先用基准测试"测得准"（绕开异步执行的计时陷阱），再用性能剖析"找得到"瓶颈 kernel，最后用算子融合"改得对"，并把 CUDA C++、Triton、torch.compile 三条落地路径放到同一个 GELU 上对比，最后给出"什么时候才值得亲自写 kernel"的决策框架。
CS336 第五讲 · GPU 与 GPU 优化：从硬件模型到 FlashAttention 与 PagedAttention
June 14, 2026
Deep LearningGPULLMTech Blog
一条主线贯穿全文——GPU 的瓶颈从来不在算力，而在访存。先看清 CPU 与 GPU 的设计哲学差异，再拆解 GPU 的执行模型与分层内存，用屋顶线模型确立"减少访存、提高复用"这一优化总纲；随后把低精度、算子融合、重计算、内存合并、分块五种技术统一到这条主线上，最后落到两个经典案例：训练/推理通用的 FlashAttention 与推理期 KV Cache 管理的 PagedAttention。
CS336 第四讲 · 混合专家模型（MoE）：用稀疏路由把参数与算力解耦
June 10, 2026
Deep LearningMoELLMTech Blog
从稠密 FFN 的算力瓶颈出发，讲清 MoE "容量大但计算稀疏"的核心思想：通用门控公式、三种路由方向（Token 选专家 TC / 专家选 Token EC / 哈希路由）的取舍、负载均衡如何改写训练目标（辅助损失 / Router z-loss / 无辅助损失偏置）与容量溢出机制，再串起 Switch Transformer、DeepSpeed-MoE、DeepSeekMoE 到 DeepSeek-V4 的演进主线，配以可运行的最小实现代码。
CS336 第三讲 · Transformer 架构与现代变体：从原始设计到 LLaMA 范式
June 08, 2026
Deep LearningTransformerLLMTech Blog
先回顾原始 Transformer 的五大组件，再沿归一化、前馈、激活、位置编码四条主线梳理现代变体为何收敛到 RMSNorm + SwiGLU + RoPE 的 LLaMA 范式，最后补上注意力效率变体（KV Cache、MQA/GQA/MLA、稀疏注意力）与训练稳定性技巧（z-loss、QK-Norm、软截断）。
CS336 第二讲 · PyTorch 与资源核算：训练大模型前要算清的两笔账
June 07, 2026
Deep LearningPyTorchLLMTech Blog
跟随斯坦福 CS336 第二讲，从“训练要多久”和“显存放得下多大模型”两个真实问题出发，系统讲解张量机制、浮点精度、FLOPs 估算与训练全流程的资源核算方法。
cs336-tokenizer
June 02, 2026
NLPTokenizerLLMBPETech Blog
从分词器在 LLM 中的定位出发，拆解其四步训练流程，对比词级 / 字符级 / 字节级三种粒度，逐一讲清 BPE、BBPE、WordPiece、Unigram 的核心准则与差异，并以 DeepSeek 分词器收尾。
PPO 从 Policy Gradient 到 Clipped Objective：为什么它能稳定训练
May 11, 2026
RLPPOPolicy GradientDeep Learning
系统拆解 Proximal Policy Optimization：从 Policy Gradient、折扣回报、baseline 与 advantage 开始，理解 on-policy 数据复用、TRPO 约束思想、PPO clipping 目标以及完整算法流程。
Pokemon Chat 狭义 RAG 主流程：Knowledge Base 从入库到回答
May 07, 2026
AIRAGPokemonChatEngineering
围绕 Pokemon Chat 的 Knowledge Base RAG，拆解从上传文件、解析切块、Embedding、写入 Milvus，到用户提问、向量召回、Rerank、拼接 Prompt、LLM 生成和返回 refs 的完整工程链路。
强化学习基础到推理预测过程
May 07, 2026
Reinforcement LearningPolicy GradientMDPDeep LearningTech Blog
按笔记顺序梳理强化学习基础、Policy Gradient、Actor-Critic / PPO / Q-learning 学到的内容，以及训练完成后的推理预测流程。
pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强
May 06, 2026
LLMDPORLHFEvaluation
接在 SFT v2 数据修复之后，完整拆解 DPO 算法、偏好数据构造、TRL 训练链路，以及 Pokemon DPO v1 为什么没有超过 SFT v2。
BPE 与 BBPE 详解：从字符 / 单词词表的弊端到字节级子词
May 03, 2026
NLPTokenizerBPEBBPETech Blog
从单词级和字符级词表的弊端出发，推导 BPE 如何用合并频次构造子词，再到 BBPE 把粒度下沉到字节，从结构上消除 OOV。
优化器演进笔记：从动量梯度下降到 AdamW
May 03, 2026
Deep LearningOptimizerAdamAdamWTech Blog
系统梳理深度学习优化器的演进路径：动量梯度下降抑制震荡、RMSProp 自适应步长、Adam 融合二者、AdamW 解耦权重衰减。
RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置
April 29, 2026
PaperDLNLPTransformerPaper Reading
RoPE 论文精读笔记：从绝对位置编码的交叉噪声出发，推导旋转矩阵如何让注意力点积天然只依赖相对距离。
pokemon qwen 微调系列（三）：SFT 评估复盘：从 v1 退化到 v2 修复
April 28, 2026
LLMSFTEvaluation
用固定 30 题评测集定位 SFT v1 退化，再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。
LangGraph 复习：从 0 到生产级 Agent
April 24, 2026
AIAgentLangGraphEngineering
一篇给工程同学的 LangGraph 复习文：10 分钟建模、1 个可运行最小范式、7 个企业高频问题，以及可直接背诵的分组面试题与答案。
pokemon agent runtime 系列（七）：LangGraph 工程化实战
April 23, 2026
AIAgentLangGraphEngineering
基于 pokemon agent 真实代码，系统拆解 LangGraph 的 tools 路由、runtime 执行、结构化 JSON 输出、memory 分层与上下文工程方法。
pokemon qwen 微调系列（一）：SFT 数据工程实战：从爬取到可训练 JSONL
April 23, 2026
LLMSFT
基于 Pokemon-data 项目，完整拆解 SFT 数据链路：数据爬取、文本清洗、模板化转换、去重质检、确定性切分与数据卡产出。
pokemon qwen 微调系列（二）：SFT 训练实战：基于 QLoRA + Modal 训练 Qwen2.5-7B
April 23, 2026
LLMSFT
进入 E:/Pokemon-data/SFT，完整拆解从 smoke 校验到正式训练、监控、产物回收与常见坑排查的实战流程。
LoRA 论文精读：低秩适配如何让大模型微调更高效
April 22, 2026
LLMPEFTLoRAPaper Reading
LoRA 通过冻结预训练权重并注入低秩更新，在接近全量微调效果的同时显著降低可训练参数量、显存占用与部署成本。
pokemon agent runtime 系列（一）：系统设计全景图
April 20, 2026
AIAgentRAGSystemDesign
系列入口篇：整体拆解 pokemon agent 的前端控制层、后端路由层、RAG 检索层、Agent 编排层、基础设施层与运行时配置层。
pokemon agent runtime 系列（二）：一次提问的完整调用链
April 20, 2026
AIAgentRAGCallChain
从前端组装 meta/history，到 FastAPI 分流、本地直答、RAG 检索增强、LangGraph Agent 调度，再到 NDJSON 流式回前端，系统拆解一次用户提问的完整生命周期。
pokemon agent runtime 系列（三）：本地直答、缓存与 RAG 主链
April 20, 2026
AIRAGRetrievalEngineering
围绕普通聊天模式，拆解本地事实直答、语义缓存、多源 Retriever、查询改写与最终生成链路，解释 pokemon agent 的 RAG 主链如何工作。
pokemon agent runtime 系列（四）：LangGraph Agent 编排
April 20, 2026
AIAgentLangGraphOrchestration
拆解 pokemon agent 的 Agent 模式：前端如何切到 supervisor_agent，LangGraph 如何用状态和工作流编排 supervisor、workers 与 finalizer。
pokemon agent runtime 系列（五）：配置热切换与运行时覆盖
April 20, 2026
AIConfigDevOpsRuntime
从 .env、ui_config.json、feature flag、/config PATCH、runtime reset 到 health/ready 探针，系统拆解 pokemon agent 的运行时配置热切换机制。
pokemon agent runtime 系列（六）：Docker Compose 架构与服务分层
April 20, 2026
AIDockerDevOpsInfrastructure
以 pokemon agent 为例，拆解一个多依赖 AI 系统如何用 Docker Compose 组织主干服务、能力服务与 profiles，并划分清晰的服务边界。
GroupViT 论文精读：从文本监督中涌现语义分割
April 19, 2026
PaperDLCV
GroupViT 通过 group tokens 与 grouping block，把图文对比学习转化为可迁移的区域分组能力，在没有像素级标注的前提下实现 zero-shot 语义分割。
ViLD 论文精读：基于视觉-语言知识蒸馏的开放词汇目标检测
April 19, 2026
PaperCV
本文系统解析 ViLD 如何将 CLIP 的视觉与文本知识蒸馏到两阶段检测器中，从而让模型在只见过基础类标注的前提下实现开放词汇目标检测。
YOLOv5 虫害检测优化解析：注意力、损失函数与多尺度上下文
April 18, 2026
CVDL
围绕复杂背景、小目标定位和尺度变化三类核心难点，系统解释在 YOLOv5 基线之上引入 CBAM、Alpha-IoU 与 ASPP 的设计动机、原理机制及其互补关系。
RAG 原理、流程与关键设计
April 17, 2026
AILLMNLP
从检索、分块、向量化到混合检索、重排和评估，系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
YOLOv4 详解：Bag of Freebies 与 Bag of Specials 如何把实时检测器推向工程峰值
April 17, 2026
PaperDLCV
从 YOLOv3 之后的检测演化出发，系统梳理 YOLOv4 在 CSPDarknet53、SPP + PAN、多重训练技巧与工程取舍上的关键设计，以及它为何成为经典实时检测器。
Diffusion Meets Flow Matching 论文精读
April 16, 2026
PaperGenAI
从同一条概率路径出发，系统理解 Diffusion 的噪声预测与 Flow Matching 的速度场预测为何本质等价，并结合最小代码实战串起理论与工程。
构建有效 Agents：方法、Workflow 与 Agent Loop
April 16, 2026
AIAgentTooling
从 Anthropic 的 Building effective agents 出发，系统梳理构建有效 Agent 的核心方法：何时该用 workflow、何时才该上 agent、五类 workflow 模式、agent loop 止损与工具接口设计。
GAIA Agent：从组件设计到评测闭环
April 16, 2026
AIAgentTooling
以 harness engineering 的视角解构一个面向 GAIA benchmark 的 Agent 系统：如何组织路由、Loop、工具层、RAG、答案提取与评测闭环，让智能体既能做事，也能被调试、被约束、被验证。
视频生成的数据引擎：视频模型真正学到什么，往往先由数据决定
April 16, 2026
AIGenAI
以 Movie Gen 与 Hunyuan Video 为例，系统拆解视频生成的数据引擎：为什么要做质量过滤、运动过滤、去重重采样、结构化字幕与镜头标注，以及这些设计如何直接影响模型的可控性与能力边界。
视频生成模型怎么工作：从 VAE 压缩、Patchify 到 Flow Matching
April 16, 2026
AIGenAI
以 Movie Gen 与 Hunyuan Video 为例，系统梳理视频生成模型的内部工作流：为什么必须先压缩到 latent 空间，patchify 与位置编码如何组织时空 token，文本条件与时间条件怎样进入 Transformer，以及 Flow Matching 在训练和推理时到底在学什么。
YOLOv1 详解：统一目标检测的起点
April 16, 2026
PaperDLCV
从检测范式演进出发，系统梳理 YOLOv1 的预测方式、网络结构、损失函数、后处理流程与核心局限。
YOLOv2 详解：Better, Faster, Stronger 的系统升级
April 16, 2026
PaperDLCV
从 YOLOv1 的结构性瓶颈出发，系统梳理 YOLOv2 在锚框、聚类先验框、多尺度训练、Darknet-19 与 YOLO9000 联合训练上的关键改进。
YOLOv3 详解：多尺度检测走向成熟
April 16, 2026
PaperDLCV
从 YOLOv2 的短板出发，系统梳理 YOLOv3 在多尺度预测、Darknet-53、逻辑回归分类头与检测头设计上的关键改进，以及它在实时检测史中的位置。
YOLOv5 详解：从检测器走向工程化框架
April 16, 2026
PaperDLCV
从 YOLOv4 之后的工程现实出发，系统梳理 YOLOv5 在 PyTorch 实现、CSP/C3 与 SPPF 结构、训练增强、模型缩放和部署生态上的关键特点，以及它在 YOLO 系列中的实际位置。
YOLOv8 详解：从工程工作流走向统一多任务框架
April 16, 2026
PaperDLCV
从 YOLOv5 之后的演化脉络出发，系统梳理 YOLOv8 在 C2f、anchor-free 解耦检测头、Task-Aligned Assigner、多任务支持与部署生态上的关键变化，以及它在 YOLO 系列中的实际位置。
Harness 设计：如何让 Claude 处理长时间自主开发
April 12, 2026
AIAgentTooling
从前端设计实验到全栈自主开发，梳理 Anthropic 如何用 harness design 处理长时间任务中的上下文退化、自评失真、任务交接、流程迭代与验证闭环。
DETR 论文精读：用 Transformer 实现端到端目标检测
April 06, 2026
PaperDLCV
DETR 把目标检测改写为集合预测问题，通过 object query、Transformer 编解码器与 Hungarian matching，去掉锚框与 NMS，实现真正端到端的检测框预测。
LSeg：语言驱动的语义分割
April 06, 2026
PaperCVLLM
LSeg 论文精读：把语言语义空间引入像素级分割，让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。
TimeSformer 论文精读：把 ViT 扩展到视频的时空自注意力
April 06, 2026
PaperDLCV
TimeSformer 系统比较五种视频自注意力方案，并提出拆分时空注意力，用 Transformer 在视频理解任务中兼顾全局建模能力、效率与可扩展性。
视频理解论文串讲：从 DeepVideo 到 Two-Stream，再到 Early Fusion
April 06, 2026
PaperDLCV
系统梳理视频理解早期经典路线：从 DeepVideo 的多帧融合尝试，到 Two-Stream 的外观/运动解耦，再到 Early Fusion 对融合方式、融合位置与时序建模的深入探索，并结合可运行代码实战理解这些方法如何落地成教学版与工程版实现。
ViLT：去掉卷积的视觉语言 Transformer
April 06, 2026
PaperCV
ViLT 用 Patch Projection 取代 CNN 和区域检测器，把视觉语言预训练的计算重心从视觉预处理拉回多模态交互。
AlphaCode 论文精读：用大规模代码生成攻克编程竞赛
April 05, 2026
PaperLLM
系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统，并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。
I3D 论文精读
April 05, 2026
PaperDLCV
I3D 通过将 ImageNet 上预训练的 2D CNN 膨胀为 3D ConvNet，并结合双流结构与 Kinetics 数据集，把视频动作识别推进到可迁移的时空建模阶段。
Non-Local 论文精读
April 05, 2026
PaperDLCV
Non-Local 将自注意力推广到视频时空特征图，让每个位置一次性聚合全局信息，成为视频理解中早期全局建模的关键模块。
R(2+1)D 论文精读：把 3D 卷积拆开，为什么反而更强
April 05, 2026
PaperDLCV
R(2+1)D 在统一的残差网络框架下系统比较多种时空卷积结构，并证明把 3D 卷积拆成空间 2D 与时间 1D，可以在近似相同参数量下更易优化、效果更强。
SlowFast：快慢双路径网络论文精读
April 05, 2026
PaperDLCV
SlowFast 论文精读：从 P/M 细胞启发出发，解析快慢双路径如何用不同时间尺度分别建模语义与运动，以及 Fast→Slow 横向连接为何有效。
TSN 论文精读
April 05, 2026
PaperDLCV
TSN 通过把长视频分成多个时间段并做 Segmental Consensus，在保留双流结构的同时显著提升了长时程视频分类的覆盖能力与训练稳定性。
Codex 论文精读：评估在代码上训练的大型语言模型
April 04, 2026
PaperLLM
Codex 论文精读：理解 GPT-3 如何专化为代码模型，以及 HumanEval 与 pass@k 如何重塑代码生成评估。
GPT-1 论文精读：预训练-微调范式的起点
April 04, 2026
PaperLLMNLP
系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式，奠定现代大语言模型的发展路线，并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。
GPT-2 论文精读：从微调范式到 Prompt 范式
April 04, 2026
PaperLLMNLP
系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer，把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式，并结合代码实战理解 causal attention、Pre-LN 与自回归生成。
GPT-3 论文精读：少样本学习与规模的力量
April 04, 2026
PaperLLMNLP
系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数，并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力，同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。
Two-Stream 双流卷积网络论文精读
April 04, 2026
PaperDLCV
从空间流与时间流分工出发，系统解析 Two-Stream ConvNet 如何用 RGB 外观与光流运动信息协同完成视频动作识别，并结合代码实战理解 late fusion、光流堆叠与训练技巧。
CLIP 论文精读：从图文对比学习到零样本分类
April 03, 2026
PaperDLCV
CLIP 论文精读笔记：理解 OpenAI 如何通过图文对比学习对齐视觉与语言表示，并实现强大的零样本图像分类能力。
MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE
April 02, 2026
PaperDLLLM
MoE 混合专家模型论文串讲：稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。
Ubuntu 24.04 VPS 代理配置：v2rayA + Xray 手动安装全流程
March 25, 2026
LinuxInfra
面向 Ubuntu 24.04 VPS 的 v2rayA + Xray 手动安装笔记：先跑通代理，再借这条链路给中国大陆 VPS 安装 Docker、配置 Docker daemon 代理，并继续拉取其他镜像。
AI for Math — 用 AI 引导人类直觉推动数学发展
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 提出 AI 辅助数学发现框架，通过监督学习和归因分析引导数学家直觉，在纽结理论和表示论中取得突破性成果。
$AI for Math — 用 AI 引导人类直觉推动数学发展$
AlphaFold2 论文精读
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 的 AlphaFold2 以原子级精度解决了蛋白质折叠问题，解析 Evoformer 编码器与 IPA 结构模块的核心设计。
Swin Transformer 论文精读
March 15, 2026
PaperDLCV
按原始笔记完整重构：从研究动机、复杂度推导、Patch Merging 到 Shifted Window 与 Mask 机制，系统拆解 Swin Transformer。
MoCo 论文精读
March 10, 2026
PaperDLCV
MoCo（动量对比学习）论文精读笔记，详解对比学习的字典查询视角、动态队列机制与动量编码器更新策略。
AI 科研术语扫盲：从 Baseline 到 SOTA，一文搞懂论文高频术语
March 09, 2026
AIPaper
面向 AI 科研新手的术语速查指南，涵盖 Baseline、Benchmark、SOTA、Ablation Study 等论文中最常见的专业术语。
Agent Skills 实战：从 Skill 设计方法到 latex-paper-skills 论文工作流
March 04, 2026
AIPaperTooling
从 Skill 设计方法讲到 latex-paper-skills 的完整实战：详解如何把论文写作拆成可复用的 Agent Skills，以及 Gate-Contract-Verify、双路径工作流、引用审计、多模型协作与编译交付。
Agent Skills 实战指南：从 SKILL.md 到可复用工作流设计
March 04, 2026
AIAgentTooling
一篇讲透 Agent Skills 的实战指南：从职责边界、触发条件、SKILL.md 结构到渐进式披露与资源分层，系统教你设计可复用、可维护、可跨平台迁移的 AI Agent Skills。
用 Anthropic 的方法构建有效 Agents：工程化笔记
March 04, 2026
AIAgentTooling
从 Anthropic 的 Building effective agents 出发，结合 GAIA Agent 完整实战，详解 Workflows vs Agents 选型、五种 Workflow 模式、工具三层架构、System Prompt 设计、Agent Loop 止损、RAG 短路、Python 沙箱与评测闭环。
MAE 论文精读
March 03, 2026
PaperDLCV
MAE 通过高掩码率的图像重建任务实现高效视觉自监督学习，采用非对称编码-解码架构，仅编码可见 Patch 以大幅降低计算量。
Vision Transformer (ViT) 论文精读
March 03, 2026
PaperDLCV
Vision Transformer (ViT) 论文精读笔记，详解 ViT 如何将 Transformer 应用于图像识别任务
BERT 论文精读
March 02, 2026
PaperDLNLP
BERT 预训练语言模型论文精读笔记：通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码，开创"预训练 + 微调"范式。
GAN 生成对抗网络论文精读
March 02, 2026
PaperDL
GAN 生成对抗网络论文精读笔记：通过生成器与判别器的对抗博弈隐式学习数据分布，解析价值函数、训练算法、理论证明与 PyTorch 代码实现。
GNN 论文精读：图神经网络从基础到经典模型
March 02, 2026
PaperDL
图神经网络（GNN）论文精读笔记：从图的基本表示、消息传递机制到 GCN、GAT、GIN 等经典模型，附 PyTorch 源代码实现与 PyG 简洁实现对比。
AlexNet 论文精读
February 28, 2026
PaperDLCV
AlexNet 论文精读笔记：首次在大规模图像分类中成功应用深度 CNN，解析 ReLU、Dropout、双 GPU 并行、数据增强等核心创新。
ResNet 论文精读
February 27, 2026
PaperDLCV
ResNet 深度残差学习论文精读笔记：残差连接如何解决深度网络退化问题，解析 BasicBlock、Bottleneck、梯度传播等核心设计。
Attention Is All You Need — Transformer 论文精读
February 13, 2026
PaperDLNLP
Transformer 模型论文精读笔记：完全基于注意力机制的 Encoder-Decoder 架构，解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。
Test Tags Feature
January 30, 2026
Tooling
This is a test article to verify the tags and thumbnail system works correctly.

CS336 第十一讲 · 大模型数据工程：被低估的护城河

CS336 第十讲 · LLM 评估与基准测试：榜单越来越多，我们到底在评估什么？

CS336 第九讲 · LLM 推理优化：当瓶颈从"算力"变成"带宽"

CS336 第八讲 · 缩放定律（Scaling Laws）：在炼丹之前，先把大模型的性能"算"出来

CS336 第七讲 · 分布式训练：数据、张量、流水线、序列并行全景

CS336 第六讲 · GPU 高性能编程：基准测试、性能剖析与算子融合

CS336 第五讲 · GPU 与 GPU 优化：从硬件模型到 FlashAttention 与 PagedAttention

CS336 第四讲 · 混合专家模型（MoE）：用稀疏路由把参数与算力解耦

CS336 第三讲 · Transformer 架构与现代变体：从原始设计到 LLaMA 范式

CS336 第二讲 · PyTorch 与资源核算：训练大模型前要算清的两笔账

cs336-tokenizer

PPO 从 Policy Gradient 到 Clipped Objective：为什么它能稳定训练

Pokemon Chat 狭义 RAG 主流程：Knowledge Base 从入库到回答

强化学习基础到推理预测过程

pokemon qwen 微调系列（四）：DPO 偏好优化实战：为什么 v1 跑通了但没有变强

BPE 与 BBPE 详解：从字符 / 单词词表的弊端到字节级子词

优化器演进笔记：从动量梯度下降到 AdamW

RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置

pokemon qwen 微调系列（三）：SFT 评估复盘：从 v1 退化到 v2 修复

LangGraph 复习：从 0 到生产级 Agent

pokemon agent runtime 系列（七）：LangGraph 工程化实战

pokemon qwen 微调系列（一）：SFT 数据工程实战：从爬取到可训练 JSONL

pokemon qwen 微调系列（二）：SFT 训练实战：基于 QLoRA + Modal 训练 Qwen2.5-7B

LoRA 论文精读：低秩适配如何让大模型微调更高效

pokemon agent runtime 系列（一）：系统设计全景图

pokemon agent runtime 系列（二）：一次提问的完整调用链

pokemon agent runtime 系列（三）：本地直答、缓存与 RAG 主链

pokemon agent runtime 系列（四）：LangGraph Agent 编排

pokemon agent runtime 系列（五）：配置热切换与运行时覆盖

pokemon agent runtime 系列（六）：Docker Compose 架构与服务分层

GroupViT 论文精读：从文本监督中涌现语义分割

ViLD 论文精读：基于视觉-语言知识蒸馏的开放词汇目标检测

YOLOv5 虫害检测优化解析：注意力、损失函数与多尺度上下文

RAG 原理、流程与关键设计

YOLOv4 详解：Bag of Freebies 与 Bag of Specials 如何把实时检测器推向工程峰值

Diffusion Meets Flow Matching 论文精读

构建有效 Agents：方法、Workflow 与 Agent Loop

GAIA Agent：从组件设计到评测闭环

视频生成的数据引擎：视频模型真正学到什么，往往先由数据决定

视频生成模型怎么工作：从 VAE 压缩、Patchify 到 Flow Matching

YOLOv1 详解：统一目标检测的起点

YOLOv2 详解：Better, Faster, Stronger 的系统升级

YOLOv3 详解：多尺度检测走向成熟

YOLOv5 详解：从检测器走向工程化框架

YOLOv8 详解：从工程工作流走向统一多任务框架

Harness 设计：如何让 Claude 处理长时间自主开发

DETR 论文精读：用 Transformer 实现端到端目标检测

LSeg：语言驱动的语义分割

TimeSformer 论文精读：把 ViT 扩展到视频的时空自注意力

视频理解论文串讲：从 DeepVideo 到 Two-Stream，再到 Early Fusion

ViLT：去掉卷积的视觉语言 Transformer

AlphaCode 论文精读：用大规模代码生成攻克编程竞赛

I3D 论文精读

Non-Local 论文精读

R(2+1)D 论文精读：把 3D 卷积拆开，为什么反而更强

SlowFast：快慢双路径网络论文精读

TSN 论文精读

Codex 论文精读：评估在代码上训练的大型语言模型

GPT-1 论文精读：预训练-微调范式的起点

GPT-2 论文精读：从微调范式到 Prompt 范式

GPT-3 论文精读：少样本学习与规模的力量

Two-Stream 双流卷积网络论文精读

CLIP 论文精读：从图文对比学习到零样本分类

MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE

Ubuntu 24.04 VPS 代理配置：v2rayA + Xray 手动安装全流程

AI for Math — 用 AI 引导人类直觉推动数学发展

AlphaFold2 论文精读

Swin Transformer 论文精读

MoCo 论文精读

AI 科研术语扫盲：从 Baseline 到 SOTA，一文搞懂论文高频术语

Agent Skills 实战：从 Skill 设计方法到 latex-paper-skills 论文工作流

Agent Skills 实战指南：从 SKILL.md 到可复用工作流设计

用 Anthropic 的方法构建有效 Agents：工程化笔记

MAE 论文精读

Vision Transformer (ViT) 论文精读

BERT 论文精读

GAN 生成对抗网络论文精读

GNN 论文精读：图神经网络从基础到经典模型

AlexNet 论文精读

ResNet 论文精读