Paper - Tags | Yun Shen

42 articles tagged with Paper

RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置
April 29, 2026
PaperDLNLPTransformerPaper Reading
RoPE 论文精读笔记：从绝对位置编码的交叉噪声出发，推导旋转矩阵如何让注意力点积天然只依赖相对距离。
GroupViT 论文精读：从文本监督中涌现语义分割
April 19, 2026
PaperDLCV
GroupViT 通过 group tokens 与 grouping block，把图文对比学习转化为可迁移的区域分组能力，在没有像素级标注的前提下实现 zero-shot 语义分割。
ViLD 论文精读：基于视觉-语言知识蒸馏的开放词汇目标检测
April 19, 2026
PaperCV
本文系统解析 ViLD 如何将 CLIP 的视觉与文本知识蒸馏到两阶段检测器中，从而让模型在只见过基础类标注的前提下实现开放词汇目标检测。
YOLOv4 详解：Bag of Freebies 与 Bag of Specials 如何把实时检测器推向工程峰值
April 17, 2026
PaperDLCV
从 YOLOv3 之后的检测演化出发，系统梳理 YOLOv4 在 CSPDarknet53、SPP + PAN、多重训练技巧与工程取舍上的关键设计，以及它为何成为经典实时检测器。
Diffusion Meets Flow Matching 论文精读
April 16, 2026
PaperGenAI
从同一条概率路径出发，系统理解 Diffusion 的噪声预测与 Flow Matching 的速度场预测为何本质等价，并结合最小代码实战串起理论与工程。
YOLOv1 详解：统一目标检测的起点
April 16, 2026
PaperDLCV
从检测范式演进出发，系统梳理 YOLOv1 的预测方式、网络结构、损失函数、后处理流程与核心局限。
YOLOv2 详解：Better, Faster, Stronger 的系统升级
April 16, 2026
PaperDLCV
从 YOLOv1 的结构性瓶颈出发，系统梳理 YOLOv2 在锚框、聚类先验框、多尺度训练、Darknet-19 与 YOLO9000 联合训练上的关键改进。
YOLOv3 详解：多尺度检测走向成熟
April 16, 2026
PaperDLCV
从 YOLOv2 的短板出发，系统梳理 YOLOv3 在多尺度预测、Darknet-53、逻辑回归分类头与检测头设计上的关键改进，以及它在实时检测史中的位置。
YOLOv5 详解：从检测器走向工程化框架
April 16, 2026
PaperDLCV
从 YOLOv4 之后的工程现实出发，系统梳理 YOLOv5 在 PyTorch 实现、CSP/C3 与 SPPF 结构、训练增强、模型缩放和部署生态上的关键特点，以及它在 YOLO 系列中的实际位置。
YOLOv8 详解：从工程工作流走向统一多任务框架
April 16, 2026
PaperDLCV
从 YOLOv5 之后的演化脉络出发，系统梳理 YOLOv8 在 C2f、anchor-free 解耦检测头、Task-Aligned Assigner、多任务支持与部署生态上的关键变化，以及它在 YOLO 系列中的实际位置。
DETR 论文精读：用 Transformer 实现端到端目标检测
April 06, 2026
PaperDLCV
DETR 把目标检测改写为集合预测问题，通过 object query、Transformer 编解码器与 Hungarian matching，去掉锚框与 NMS，实现真正端到端的检测框预测。
LSeg：语言驱动的语义分割
April 06, 2026
PaperCVLLM
LSeg 论文精读：把语言语义空间引入像素级分割，让语义分割从固定类别预测扩展到文本驱动的开放词汇分割。
TimeSformer 论文精读：把 ViT 扩展到视频的时空自注意力
April 06, 2026
PaperDLCV
TimeSformer 系统比较五种视频自注意力方案，并提出拆分时空注意力，用 Transformer 在视频理解任务中兼顾全局建模能力、效率与可扩展性。
视频理解论文串讲：从 DeepVideo 到 Two-Stream，再到 Early Fusion
April 06, 2026
PaperDLCV
系统梳理视频理解早期经典路线：从 DeepVideo 的多帧融合尝试，到 Two-Stream 的外观/运动解耦，再到 Early Fusion 对融合方式、融合位置与时序建模的深入探索，并结合可运行代码实战理解这些方法如何落地成教学版与工程版实现。
ViLT：去掉卷积的视觉语言 Transformer
April 06, 2026
PaperCV
ViLT 用 Patch Projection 取代 CNN 和区域检测器，把视觉语言预训练的计算重心从视觉预处理拉回多模态交互。
AlphaCode 论文精读：用大规模代码生成攻克编程竞赛
April 05, 2026
PaperLLM
系统解析 AlphaCode 如何把代码生成从单次补全推进为“生成、执行、筛选、聚类”的竞赛级系统，并理解 encoder-decoder、correctness signal 与 n@k 指标背后的设计逻辑。
I3D 论文精读
April 05, 2026
PaperDLCV
I3D 通过将 ImageNet 上预训练的 2D CNN 膨胀为 3D ConvNet，并结合双流结构与 Kinetics 数据集，把视频动作识别推进到可迁移的时空建模阶段。
Non-Local 论文精读
April 05, 2026
PaperDLCV
Non-Local 将自注意力推广到视频时空特征图，让每个位置一次性聚合全局信息，成为视频理解中早期全局建模的关键模块。
R(2+1)D 论文精读：把 3D 卷积拆开，为什么反而更强
April 05, 2026
PaperDLCV
R(2+1)D 在统一的残差网络框架下系统比较多种时空卷积结构，并证明把 3D 卷积拆成空间 2D 与时间 1D，可以在近似相同参数量下更易优化、效果更强。
SlowFast：快慢双路径网络论文精读
April 05, 2026
PaperDLCV
SlowFast 论文精读：从 P/M 细胞启发出发，解析快慢双路径如何用不同时间尺度分别建模语义与运动，以及 Fast→Slow 横向连接为何有效。
TSN 论文精读
April 05, 2026
PaperDLCV
TSN 通过把长视频分成多个时间段并做 Segmental Consensus，在保留双流结构的同时显著提升了长时程视频分类的覆盖能力与训练稳定性。
Codex 论文精读：评估在代码上训练的大型语言模型
April 04, 2026
PaperLLM
Codex 论文精读：理解 GPT-3 如何专化为代码模型，以及 HumanEval 与 pass@k 如何重塑代码生成评估。
GPT-1 论文精读：预训练-微调范式的起点
April 04, 2026
PaperLLMNLP
系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式，奠定现代大语言模型的发展路线，并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。
GPT-2 论文精读：从微调范式到 Prompt 范式
April 04, 2026
PaperLLMNLP
系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer，把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式，并结合代码实战理解 causal attention、Pre-LN 与自回归生成。
GPT-3 论文精读：少样本学习与规模的力量
April 04, 2026
PaperLLMNLP
系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数，并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力，同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。
Two-Stream 双流卷积网络论文精读
April 04, 2026
PaperDLCV
从空间流与时间流分工出发，系统解析 Two-Stream ConvNet 如何用 RGB 外观与光流运动信息协同完成视频动作识别，并结合代码实战理解 late fusion、光流堆叠与训练技巧。
CLIP 论文精读：从图文对比学习到零样本分类
April 03, 2026
PaperDLCV
CLIP 论文精读笔记：理解 OpenAI 如何通过图文对比学习对齐视觉与语言表示，并实现强大的零样本图像分类能力。
MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE
April 02, 2026
PaperDLLLM
MoE 混合专家模型论文串讲：稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。
AI for Math — 用 AI 引导人类直觉推动数学发展
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 提出 AI 辅助数学发现框架，通过监督学习和归因分析引导数学家直觉，在纽结理论和表示论中取得突破性成果。
$AI for Math — 用 AI 引导人类直觉推动数学发展$
AlphaFold2 论文精读
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 的 AlphaFold2 以原子级精度解决了蛋白质折叠问题，解析 Evoformer 编码器与 IPA 结构模块的核心设计。
Swin Transformer 论文精读
March 15, 2026
PaperDLCV
按原始笔记完整重构：从研究动机、复杂度推导、Patch Merging 到 Shifted Window 与 Mask 机制，系统拆解 Swin Transformer。
MoCo 论文精读
March 10, 2026
PaperDLCV
MoCo（动量对比学习）论文精读笔记，详解对比学习的字典查询视角、动态队列机制与动量编码器更新策略。
AI 科研术语扫盲：从 Baseline 到 SOTA，一文搞懂论文高频术语
March 09, 2026
AIPaper
面向 AI 科研新手的术语速查指南，涵盖 Baseline、Benchmark、SOTA、Ablation Study 等论文中最常见的专业术语。
Agent Skills 实战：从 Skill 设计方法到 latex-paper-skills 论文工作流
March 04, 2026
AIPaperTooling
从 Skill 设计方法讲到 latex-paper-skills 的完整实战：详解如何把论文写作拆成可复用的 Agent Skills，以及 Gate-Contract-Verify、双路径工作流、引用审计、多模型协作与编译交付。
MAE 论文精读
March 03, 2026
PaperDLCV
MAE 通过高掩码率的图像重建任务实现高效视觉自监督学习，采用非对称编码-解码架构，仅编码可见 Patch 以大幅降低计算量。
Vision Transformer (ViT) 论文精读
March 03, 2026
PaperDLCV
Vision Transformer (ViT) 论文精读笔记，详解 ViT 如何将 Transformer 应用于图像识别任务
BERT 论文精读
March 02, 2026
PaperDLNLP
BERT 预训练语言模型论文精读笔记：通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码，开创"预训练 + 微调"范式。
GAN 生成对抗网络论文精读
March 02, 2026
PaperDL
GAN 生成对抗网络论文精读笔记：通过生成器与判别器的对抗博弈隐式学习数据分布，解析价值函数、训练算法、理论证明与 PyTorch 代码实现。
GNN 论文精读：图神经网络从基础到经典模型
March 02, 2026
PaperDL
图神经网络（GNN）论文精读笔记：从图的基本表示、消息传递机制到 GCN、GAT、GIN 等经典模型，附 PyTorch 源代码实现与 PyG 简洁实现对比。
AlexNet 论文精读
February 28, 2026
PaperDLCV
AlexNet 论文精读笔记：首次在大规模图像分类中成功应用深度 CNN，解析 ReLU、Dropout、双 GPU 并行、数据增强等核心创新。
ResNet 论文精读
February 27, 2026
PaperDLCV
ResNet 深度残差学习论文精读笔记：残差连接如何解决深度网络退化问题，解析 BasicBlock、Bottleneck、梯度传播等核心设计。
Attention Is All You Need — Transformer 论文精读
February 13, 2026
PaperDLNLP
Transformer 模型论文精读笔记：完全基于注意力机制的 Encoder-Decoder 架构，解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。

RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置

GroupViT 论文精读：从文本监督中涌现语义分割

ViLD 论文精读：基于视觉-语言知识蒸馏的开放词汇目标检测

YOLOv4 详解：Bag of Freebies 与 Bag of Specials 如何把实时检测器推向工程峰值

Diffusion Meets Flow Matching 论文精读

YOLOv1 详解：统一目标检测的起点

YOLOv2 详解：Better, Faster, Stronger 的系统升级

YOLOv3 详解：多尺度检测走向成熟

YOLOv5 详解：从检测器走向工程化框架

YOLOv8 详解：从工程工作流走向统一多任务框架

DETR 论文精读：用 Transformer 实现端到端目标检测

LSeg：语言驱动的语义分割

TimeSformer 论文精读：把 ViT 扩展到视频的时空自注意力

视频理解论文串讲：从 DeepVideo 到 Two-Stream，再到 Early Fusion

ViLT：去掉卷积的视觉语言 Transformer

AlphaCode 论文精读：用大规模代码生成攻克编程竞赛

I3D 论文精读

Non-Local 论文精读

R(2+1)D 论文精读：把 3D 卷积拆开，为什么反而更强

SlowFast：快慢双路径网络论文精读

TSN 论文精读

Codex 论文精读：评估在代码上训练的大型语言模型

GPT-1 论文精读：预训练-微调范式的起点

GPT-2 论文精读：从微调范式到 Prompt 范式

GPT-3 论文精读：少样本学习与规模的力量

Two-Stream 双流卷积网络论文精读

CLIP 论文精读：从图文对比学习到零样本分类

MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE

AI for Math — 用 AI 引导人类直觉推动数学发展

AlphaFold2 论文精读

Swin Transformer 论文精读

MoCo 论文精读

AI 科研术语扫盲：从 Baseline 到 SOTA，一文搞懂论文高频术语

Agent Skills 实战：从 Skill 设计方法到 latex-paper-skills 论文工作流

MAE 论文精读

Vision Transformer (ViT) 论文精读

BERT 论文精读

GAN 生成对抗网络论文精读

GNN 论文精读：图神经网络从基础到经典模型

AlexNet 论文精读

ResNet 论文精读

Attention Is All You Need — Transformer 论文精读