PPO 从 Policy Gradient 到 Clipped Objective:为什么它能稳定训练
系统拆解 Proximal Policy Optimization:从 Policy Gradient、折扣回报、baseline 与 advantage 开始,理解 on-policy 数据复用、TRPO 约束思想、PPO clipping 目标以及完整算法流程。
系统拆解 Proximal Policy Optimization:从 Policy Gradient、折扣回报、baseline 与 advantage 开始,理解 on-policy 数据复用、TRPO 约束思想、PPO clipping 目标以及完整算法流程。
围绕 Pokemon Chat 的 Knowledge Base RAG,拆解从上传文件、解析切块、Embedding、写入 Milvus,到用户提问、向量召回、Rerank、拼接 Prompt、LLM 生成和返回 refs 的完整工程链路。
按笔记顺序梳理强化学习基础、Policy Gradient、Actor-Critic / PPO / Q-learning 学到的内容,以及训练完成后的推理预测流程。
接在 SFT v2 数据修复之后,完整拆解 DPO 算法、偏好数据构造、TRL 训练链路,以及 Pokemon DPO v1 为什么没有超过 SFT v2。
从单词级和字符级词表的弊端出发,推导 BPE 如何用合并频次构造子词,再到 BBPE 把粒度下沉到字节,从结构上消除 OOV。
系统梳理深度学习优化器的演进路径:动量梯度下降抑制震荡、RMSProp 自适应步长、Adam 融合二者、AdamW 解耦权重衰减。
RoPE 论文精读笔记:从绝对位置编码的交叉噪声出发,推导旋转矩阵如何让注意力点积天然只依赖相对距离。
用固定 30 题评测集定位 SFT v1 退化,再通过数据重建、质量门禁和同集复评验证 SFT v2 如何超过 base。
一篇给工程同学的 LangGraph 复习文:10 分钟建模、1 个可运行最小范式、7 个企业高频问题,以及可直接背诵的分组面试题与答案。
基于 pokemon agent 真实代码,系统拆解 LangGraph 的 tools 路由、runtime 执行、结构化 JSON 输出、memory 分层与上下文工程方法。
基于 Pokemon-data 项目,完整拆解 SFT 数据链路:数据爬取、文本清洗、模板化转换、去重质检、确定性切分与数据卡产出。
进入 E:/Pokemon-data/SFT,完整拆解从 smoke 校验到正式训练、监控、产物回收与常见坑排查的实战流程。
LoRA 通过冻结预训练权重并注入低秩更新,在接近全量微调效果的同时显著降低可训练参数量、显存占用与部署成本。
系列入口篇:整体拆解 pokemon agent 的前端控制层、后端路由层、RAG 检索层、Agent 编排层、基础设施层与运行时配置层。
从前端组装 meta/history,到 FastAPI 分流、本地直答、RAG 检索增强、LangGraph Agent 调度,再到 NDJSON 流式回前端,系统拆解一次用户提问的完整生命周期。
围绕普通聊天模式,拆解本地事实直答、语义缓存、多源 Retriever、查询改写与最终生成链路,解释 pokemon agent 的 RAG 主链如何工作。
拆解 pokemon agent 的 Agent 模式:前端如何切到 supervisor_agent,LangGraph 如何用状态和工作流编排 supervisor、workers 与 finalizer。
从 .env、ui_config.json、feature flag、/config PATCH、runtime reset 到 health/ready 探针,系统拆解 pokemon agent 的运行时配置热切换机制。
以 pokemon agent 为例,拆解一个多依赖 AI 系统如何用 Docker Compose 组织主干服务、能力服务与 profiles,并划分清晰的服务边界。
GroupViT 通过 group tokens 与 grouping block,把图文对比学习转化为可迁移的区域分组能力,在没有像素级标注的前提下实现 zero-shot 语义分割。

本文系统解析 ViLD 如何将 CLIP 的视觉与文本知识蒸馏到两阶段检测器中,从而让模型在只见过基础类标注的前提下实现开放词汇目标检测。

围绕复杂背景、小目标定位和尺度变化三类核心难点,系统解释在 YOLOv5 基线之上引入 CBAM、Alpha-IoU 与 ASPP 的设计动机、原理机制及其互补关系。
从检索、分块、向量化到混合检索、重排和评估,系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
从 YOLOv3 之后的检测演化出发,系统梳理 YOLOv4 在 CSPDarknet53、SPP + PAN、多重训练技巧与工程取舍上的关键设计,以及它为何成为经典实时检测器。
从同一条概率路径出发,系统理解 Diffusion 的噪声预测与 Flow Matching 的速度场预测为何本质等价,并结合最小代码实战串起理论与工程。
从 Anthropic 的 Building effective agents 出发,系统梳理构建有效 Agent 的核心方法:何时该用 workflow、何时才该上 agent、五类 workflow 模式、agent loop 止损与工具接口设计。
以 harness engineering 的视角解构一个面向 GAIA benchmark 的 Agent 系统:如何组织路由、Loop、工具层、RAG、答案提取与评测闭环,让智能体既能做事,也能被调试、被约束、被验证。
以 Movie Gen 与 Hunyuan Video 为例,系统拆解视频生成的数据引擎:为什么要做质量过滤、运动过滤、去重重采样、结构化字幕与镜头标注,以及这些设计如何直接影响模型的可控性与能力边界。
以 Movie Gen 与 Hunyuan Video 为例,系统梳理视频生成模型的内部工作流:为什么必须先压缩到 latent 空间,patchify 与位置编码如何组织时空 token,文本条件与时间条件怎样进入 Transformer,以及 Flow Matching 在训练和推理时到底在学什么。
从检测范式演进出发,系统梳理 YOLOv1 的预测方式、网络结构、损失函数、后处理流程与核心局限。

从 YOLOv1 的结构性瓶颈出发,系统梳理 YOLOv2 在锚框、聚类先验框、多尺度训练、Darknet-19 与 YOLO9000 联合训练上的关键改进。

从 YOLOv2 的短板出发,系统梳理 YOLOv3 在多尺度预测、Darknet-53、逻辑回归分类头与检测头设计上的关键改进,以及它在实时检测史中的位置。
从 YOLOv4 之后的工程现实出发,系统梳理 YOLOv5 在 PyTorch 实现、CSP/C3 与 SPPF 结构、训练增强、模型缩放和部署生态上的关键特点,以及它在 YOLO 系列中的实际位置。
从 YOLOv5 之后的演化脉络出发,系统梳理 YOLOv8 在 C2f、anchor-free 解耦检测头、Task-Aligned Assigner、多任务支持与部署生态上的关键变化,以及它在 YOLO 系列中的实际位置。
从前端设计实验到全栈自主开发,梳理 Anthropic 如何用 harness design 处理长时间任务中的上下文退化、自评失真、任务交接、流程迭代与验证闭环。
DETR 把目标检测改写为集合预测问题,通过 object query、Transformer 编解码器与 Hungarian matching,去掉锚框与 NMS,实现真正端到端的检测框预测。

LSeg 论文精读:把语言语义空间引入像素级分割,让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。

TimeSformer 系统比较五种视频自注意力方案,并提出拆分时空注意力,用 Transformer 在视频理解任务中兼顾全局建模能力、效率与可扩展性。

系统梳理视频理解早期经典路线:从 DeepVideo 的多帧融合尝试,到 Two-Stream 的外观/运动解耦,再到 Early Fusion 对融合方式、融合位置与时序建模的深入探索,并结合可运行代码实战理解这些方法如何落地成教学版与工程版实现。

ViLT 用 Patch Projection 取代 CNN 和区域检测器,把视觉语言预训练的计算重心从视觉预处理拉回多模态交互。

系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统,并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。

I3D 通过将 ImageNet 上预训练的 2D CNN 膨胀为 3D ConvNet,并结合双流结构与 Kinetics 数据集,把视频动作识别推进到可迁移的时空建模阶段。

Non-Local 将自注意力推广到视频时空特征图,让每个位置一次性聚合全局信息,成为视频理解中早期全局建模的关键模块。

R(2+1)D 在统一的残差网络框架下系统比较多种时空卷积结构,并证明把 3D 卷积拆成空间 2D 与时间 1D,可以在近似相同参数量下更易优化、效果更强。

SlowFast 论文精读:从 P/M 细胞启发出发,解析快慢双路径如何用不同时间尺度分别建模语义与运动,以及 Fast→Slow 横向连接为何有效。

TSN 通过把长视频分成多个时间段并做 Segmental Consensus,在保留双流结构的同时显著提升了长时程视频分类的覆盖能力与训练稳定性。

Codex 论文精读:理解 GPT-3 如何专化为代码模型,以及 HumanEval 与 pass@k 如何重塑代码生成评估。

系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式,奠定现代大语言模型的发展路线,并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。

系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer,把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式,并结合代码实战理解 causal attention、Pre-LN 与自回归生成。

系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数,并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力,同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。

从空间流与时间流分工出发,系统解析 Two-Stream ConvNet 如何用 RGB 外观与光流运动信息协同完成视频动作识别,并结合代码实战理解 late fusion、光流堆叠与训练技巧。

CLIP 论文精读笔记:理解 OpenAI 如何通过图文对比学习对齐视觉与语言表示,并实现强大的零样本图像分类能力。

MoE 混合专家模型论文串讲:稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。

面向 Ubuntu 24.04 VPS 的 v2rayA + Xray 手动安装笔记:先跑通代理,再借这条链路给中国大陆 VPS 安装 Docker、配置 Docker daemon 代理,并继续拉取其他镜像。
Nature 2021 论文精读:DeepMind 提出 AI 辅助数学发现框架,通过监督学习和归因分析引导数学家直觉,在纽结理论和表示论中取得突破性成果。

Nature 2021 论文精读:DeepMind 的 AlphaFold2 以原子级精度解决了蛋白质折叠问题,解析 Evoformer 编码器与 IPA 结构模块的核心设计。

按原始笔记完整重构:从研究动机、复杂度推导、Patch Merging 到 Shifted Window 与 Mask 机制,系统拆解 Swin Transformer。

MoCo(动量对比学习)论文精读笔记,详解对比学习的字典查询视角、动态队列机制与动量编码器更新策略。

面向 AI 科研新手的术语速查指南,涵盖 Baseline、Benchmark、SOTA、Ablation Study 等论文中最常见的专业术语。
从 Skill 设计方法讲到 latex-paper-skills 的完整实战:详解如何把论文写作拆成可复用的 Agent Skills,以及 Gate-Contract-Verify、双路径工作流、引用审计、多模型协作与编译交付。

一篇讲透 Agent Skills 的实战指南:从职责边界、触发条件、SKILL.md 结构到渐进式披露与资源分层,系统教你设计可复用、可维护、可跨平台迁移的 AI Agent Skills。
从 Anthropic 的 Building effective agents 出发,结合 GAIA Agent 完整实战,详解 Workflows vs Agents 选型、五种 Workflow 模式、工具三层架构、System Prompt 设计、Agent Loop 止损、RAG 短路、Python 沙箱与评测闭环。

MAE 通过高掩码率的图像重建任务实现高效视觉自监督学习,采用非对称编码-解码架构,仅编码可见 Patch 以大幅降低计算量。

Vision Transformer (ViT) 论文精读笔记,详解 ViT 如何将 Transformer 应用于图像识别任务

BERT 预训练语言模型论文精读笔记:通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码,开创"预训练 + 微调"范式。

GAN 生成对抗网络论文精读笔记:通过生成器与判别器的对抗博弈隐式学习数据分布,解析价值函数、训练算法、理论证明与 PyTorch 代码实现。
图神经网络(GNN)论文精读笔记:从图的基本表示、消息传递机制到 GCN、GAT、GIN 等经典模型,附 PyTorch 源代码实现与 PyG 简洁实现对比。
AlexNet 论文精读笔记:首次在大规模图像分类中成功应用深度 CNN,解析 ReLU、Dropout、双 GPU 并行、数据增强等核心创新。
ResNet 深度残差学习论文精读笔记:残差连接如何解决深度网络退化问题,解析 BasicBlock、Bottleneck、梯度传播等核心设计。

Transformer 模型论文精读笔记:完全基于注意力机制的 Encoder-Decoder 架构,解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。

This is a test article to verify the tags and thumbnail system works correctly.
