RoPE 论文精读:旋转位置编码如何把绝对位置转成相对位置
RoPE 论文精读笔记:从绝对位置编码的交叉噪声出发,推导旋转矩阵如何让注意力点积天然只依赖相对距离。
42 articles tagged with Paper
RoPE 论文精读笔记:从绝对位置编码的交叉噪声出发,推导旋转矩阵如何让注意力点积天然只依赖相对距离。
GroupViT 通过 group tokens 与 grouping block,把图文对比学习转化为可迁移的区域分组能力,在没有像素级标注的前提下实现 zero-shot 语义分割。

本文系统解析 ViLD 如何将 CLIP 的视觉与文本知识蒸馏到两阶段检测器中,从而让模型在只见过基础类标注的前提下实现开放词汇目标检测。

从 YOLOv3 之后的检测演化出发,系统梳理 YOLOv4 在 CSPDarknet53、SPP + PAN、多重训练技巧与工程取舍上的关键设计,以及它为何成为经典实时检测器。
从同一条概率路径出发,系统理解 Diffusion 的噪声预测与 Flow Matching 的速度场预测为何本质等价,并结合最小代码实战串起理论与工程。
从检测范式演进出发,系统梳理 YOLOv1 的预测方式、网络结构、损失函数、后处理流程与核心局限。

从 YOLOv1 的结构性瓶颈出发,系统梳理 YOLOv2 在锚框、聚类先验框、多尺度训练、Darknet-19 与 YOLO9000 联合训练上的关键改进。

从 YOLOv2 的短板出发,系统梳理 YOLOv3 在多尺度预测、Darknet-53、逻辑回归分类头与检测头设计上的关键改进,以及它在实时检测史中的位置。
从 YOLOv4 之后的工程现实出发,系统梳理 YOLOv5 在 PyTorch 实现、CSP/C3 与 SPPF 结构、训练增强、模型缩放和部署生态上的关键特点,以及它在 YOLO 系列中的实际位置。
从 YOLOv5 之后的演化脉络出发,系统梳理 YOLOv8 在 C2f、anchor-free 解耦检测头、Task-Aligned Assigner、多任务支持与部署生态上的关键变化,以及它在 YOLO 系列中的实际位置。
DETR 把目标检测改写为集合预测问题,通过 object query、Transformer 编解码器与 Hungarian matching,去掉锚框与 NMS,实现真正端到端的检测框预测。

LSeg 论文精读:把语言语义空间引入像素级分割,让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。

TimeSformer 系统比较五种视频自注意力方案,并提出拆分时空注意力,用 Transformer 在视频理解任务中兼顾全局建模能力、效率与可扩展性。

系统梳理视频理解早期经典路线:从 DeepVideo 的多帧融合尝试,到 Two-Stream 的外观/运动解耦,再到 Early Fusion 对融合方式、融合位置与时序建模的深入探索,并结合可运行代码实战理解这些方法如何落地成教学版与工程版实现。

ViLT 用 Patch Projection 取代 CNN 和区域检测器,把视觉语言预训练的计算重心从视觉预处理拉回多模态交互。

系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统,并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。

I3D 通过将 ImageNet 上预训练的 2D CNN 膨胀为 3D ConvNet,并结合双流结构与 Kinetics 数据集,把视频动作识别推进到可迁移的时空建模阶段。

Non-Local 将自注意力推广到视频时空特征图,让每个位置一次性聚合全局信息,成为视频理解中早期全局建模的关键模块。

R(2+1)D 在统一的残差网络框架下系统比较多种时空卷积结构,并证明把 3D 卷积拆成空间 2D 与时间 1D,可以在近似相同参数量下更易优化、效果更强。

SlowFast 论文精读:从 P/M 细胞启发出发,解析快慢双路径如何用不同时间尺度分别建模语义与运动,以及 Fast→Slow 横向连接为何有效。

TSN 通过把长视频分成多个时间段并做 Segmental Consensus,在保留双流结构的同时显著提升了长时程视频分类的覆盖能力与训练稳定性。

Codex 论文精读:理解 GPT-3 如何专化为代码模型,以及 HumanEval 与 pass@k 如何重塑代码生成评估。

系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式,奠定现代大语言模型的发展路线,并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。

系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer,把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式,并结合代码实战理解 causal attention、Pre-LN 与自回归生成。

系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数,并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力,同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。

从空间流与时间流分工出发,系统解析 Two-Stream ConvNet 如何用 RGB 外观与光流运动信息协同完成视频动作识别,并结合代码实战理解 late fusion、光流堆叠与训练技巧。

CLIP 论文精读笔记:理解 OpenAI 如何通过图文对比学习对齐视觉与语言表示,并实现强大的零样本图像分类能力。

MoE 混合专家模型论文串讲:稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。

Nature 2021 论文精读:DeepMind 提出 AI 辅助数学发现框架,通过监督学习和归因分析引导数学家直觉,在纽结理论和表示论中取得突破性成果。

Nature 2021 论文精读:DeepMind 的 AlphaFold2 以原子级精度解决了蛋白质折叠问题,解析 Evoformer 编码器与 IPA 结构模块的核心设计。

按原始笔记完整重构:从研究动机、复杂度推导、Patch Merging 到 Shifted Window 与 Mask 机制,系统拆解 Swin Transformer。

MoCo(动量对比学习)论文精读笔记,详解对比学习的字典查询视角、动态队列机制与动量编码器更新策略。

面向 AI 科研新手的术语速查指南,涵盖 Baseline、Benchmark、SOTA、Ablation Study 等论文中最常见的专业术语。
从 Skill 设计方法讲到 latex-paper-skills 的完整实战:详解如何把论文写作拆成可复用的 Agent Skills,以及 Gate-Contract-Verify、双路径工作流、引用审计、多模型协作与编译交付。

MAE 通过高掩码率的图像重建任务实现高效视觉自监督学习,采用非对称编码-解码架构,仅编码可见 Patch 以大幅降低计算量。

Vision Transformer (ViT) 论文精读笔记,详解 ViT 如何将 Transformer 应用于图像识别任务

BERT 预训练语言模型论文精读笔记:通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码,开创"预训练 + 微调"范式。

GAN 生成对抗网络论文精读笔记:通过生成器与判别器的对抗博弈隐式学习数据分布,解析价值函数、训练算法、理论证明与 PyTorch 代码实现。
图神经网络(GNN)论文精读笔记:从图的基本表示、消息传递机制到 GCN、GAT、GIN 等经典模型,附 PyTorch 源代码实现与 PyG 简洁实现对比。
AlexNet 论文精读笔记:首次在大规模图像分类中成功应用深度 CNN,解析 ReLU、Dropout、双 GPU 并行、数据增强等核心创新。
ResNet 深度残差学习论文精读笔记:残差连接如何解决深度网络退化问题,解析 BasicBlock、Bottleneck、梯度传播等核心设计。

Transformer 模型论文精读笔记:完全基于注意力机制的 Encoder-Decoder 架构,解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。
