DL - Tags | Yun Shen

32 articles tagged with DL

RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置
April 29, 2026
PaperDLNLPTransformerPaper Reading
RoPE 论文精读笔记：从绝对位置编码的交叉噪声出发，推导旋转矩阵如何让注意力点积天然只依赖相对距离。
GroupViT 论文精读：从文本监督中涌现语义分割
April 19, 2026
PaperDLCV
GroupViT 通过 group tokens 与 grouping block，把图文对比学习转化为可迁移的区域分组能力，在没有像素级标注的前提下实现 zero-shot 语义分割。
YOLOv5 虫害检测优化解析：注意力、损失函数与多尺度上下文
April 18, 2026
CVDL
围绕复杂背景、小目标定位和尺度变化三类核心难点，系统解释在 YOLOv5 基线之上引入 CBAM、Alpha-IoU 与 ASPP 的设计动机、原理机制及其互补关系。
YOLOv4 详解：Bag of Freebies 与 Bag of Specials 如何把实时检测器推向工程峰值
April 17, 2026
PaperDLCV
从 YOLOv3 之后的检测演化出发，系统梳理 YOLOv4 在 CSPDarknet53、SPP + PAN、多重训练技巧与工程取舍上的关键设计，以及它为何成为经典实时检测器。
YOLOv1 详解：统一目标检测的起点
April 16, 2026
PaperDLCV
从检测范式演进出发，系统梳理 YOLOv1 的预测方式、网络结构、损失函数、后处理流程与核心局限。
YOLOv2 详解：Better, Faster, Stronger 的系统升级
April 16, 2026
PaperDLCV
从 YOLOv1 的结构性瓶颈出发，系统梳理 YOLOv2 在锚框、聚类先验框、多尺度训练、Darknet-19 与 YOLO9000 联合训练上的关键改进。
YOLOv3 详解：多尺度检测走向成熟
April 16, 2026
PaperDLCV
从 YOLOv2 的短板出发，系统梳理 YOLOv3 在多尺度预测、Darknet-53、逻辑回归分类头与检测头设计上的关键改进，以及它在实时检测史中的位置。
YOLOv5 详解：从检测器走向工程化框架
April 16, 2026
PaperDLCV
从 YOLOv4 之后的工程现实出发，系统梳理 YOLOv5 在 PyTorch 实现、CSP/C3 与 SPPF 结构、训练增强、模型缩放和部署生态上的关键特点，以及它在 YOLO 系列中的实际位置。
YOLOv8 详解：从工程工作流走向统一多任务框架
April 16, 2026
PaperDLCV
从 YOLOv5 之后的演化脉络出发，系统梳理 YOLOv8 在 C2f、anchor-free 解耦检测头、Task-Aligned Assigner、多任务支持与部署生态上的关键变化，以及它在 YOLO 系列中的实际位置。
DETR 论文精读：用 Transformer 实现端到端目标检测
April 06, 2026
PaperDLCV
DETR 把目标检测改写为集合预测问题，通过 object query、Transformer 编解码器与 Hungarian matching，去掉锚框与 NMS，实现真正端到端的检测框预测。
TimeSformer 论文精读：把 ViT 扩展到视频的时空自注意力
April 06, 2026
PaperDLCV
TimeSformer 系统比较五种视频自注意力方案，并提出拆分时空注意力，用 Transformer 在视频理解任务中兼顾全局建模能力、效率与可扩展性。
视频理解论文串讲：从 DeepVideo 到 Two-Stream，再到 Early Fusion
April 06, 2026
PaperDLCV
系统梳理视频理解早期经典路线：从 DeepVideo 的多帧融合尝试，到 Two-Stream 的外观/运动解耦，再到 Early Fusion 对融合方式、融合位置与时序建模的深入探索，并结合可运行代码实战理解这些方法如何落地成教学版与工程版实现。
I3D 论文精读
April 05, 2026
PaperDLCV
I3D 通过将 ImageNet 上预训练的 2D CNN 膨胀为 3D ConvNet，并结合双流结构与 Kinetics 数据集，把视频动作识别推进到可迁移的时空建模阶段。
Non-Local 论文精读
April 05, 2026
PaperDLCV
Non-Local 将自注意力推广到视频时空特征图，让每个位置一次性聚合全局信息，成为视频理解中早期全局建模的关键模块。
R(2+1)D 论文精读：把 3D 卷积拆开，为什么反而更强
April 05, 2026
PaperDLCV
R(2+1)D 在统一的残差网络框架下系统比较多种时空卷积结构，并证明把 3D 卷积拆成空间 2D 与时间 1D，可以在近似相同参数量下更易优化、效果更强。
SlowFast：快慢双路径网络论文精读
April 05, 2026
PaperDLCV
SlowFast 论文精读：从 P/M 细胞启发出发，解析快慢双路径如何用不同时间尺度分别建模语义与运动，以及 Fast→Slow 横向连接为何有效。
TSN 论文精读
April 05, 2026
PaperDLCV
TSN 通过把长视频分成多个时间段并做 Segmental Consensus，在保留双流结构的同时显著提升了长时程视频分类的覆盖能力与训练稳定性。
Two-Stream 双流卷积网络论文精读
April 04, 2026
PaperDLCV
从空间流与时间流分工出发，系统解析 Two-Stream ConvNet 如何用 RGB 外观与光流运动信息协同完成视频动作识别，并结合代码实战理解 late fusion、光流堆叠与训练技巧。
CLIP 论文精读：从图文对比学习到零样本分类
April 03, 2026
PaperDLCV
CLIP 论文精读笔记：理解 OpenAI 如何通过图文对比学习对齐视觉与语言表示，并实现强大的零样本图像分类能力。
MoE 混合专家模型串讲：从 Switch Transformer 到 DeepSeekMoE
April 02, 2026
PaperDLLLM
MoE 混合专家模型论文串讲：稀疏门控机制、专家容量、负载均衡损失、细粒度专家分割与共享专家隔离。
AI for Math — 用 AI 引导人类直觉推动数学发展
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 提出 AI 辅助数学发现框架，通过监督学习和归因分析引导数学家直觉，在纽结理论和表示论中取得突破性成果。
$AI for Math — 用 AI 引导人类直觉推动数学发展$
AlphaFold2 论文精读
March 15, 2026
PaperDL
Nature 2021 论文精读：DeepMind 的 AlphaFold2 以原子级精度解决了蛋白质折叠问题，解析 Evoformer 编码器与 IPA 结构模块的核心设计。
Swin Transformer 论文精读
March 15, 2026
PaperDLCV
按原始笔记完整重构：从研究动机、复杂度推导、Patch Merging 到 Shifted Window 与 Mask 机制，系统拆解 Swin Transformer。
MoCo 论文精读
March 10, 2026
PaperDLCV
MoCo（动量对比学习）论文精读笔记，详解对比学习的字典查询视角、动态队列机制与动量编码器更新策略。
MAE 论文精读
March 03, 2026
PaperDLCV
MAE 通过高掩码率的图像重建任务实现高效视觉自监督学习，采用非对称编码-解码架构，仅编码可见 Patch 以大幅降低计算量。
Vision Transformer (ViT) 论文精读
March 03, 2026
PaperDLCV
Vision Transformer (ViT) 论文精读笔记，详解 ViT 如何将 Transformer 应用于图像识别任务
BERT 论文精读
March 02, 2026
PaperDLNLP
BERT 预训练语言模型论文精读笔记：通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码，开创"预训练 + 微调"范式。
GAN 生成对抗网络论文精读
March 02, 2026
PaperDL
GAN 生成对抗网络论文精读笔记：通过生成器与判别器的对抗博弈隐式学习数据分布，解析价值函数、训练算法、理论证明与 PyTorch 代码实现。
GNN 论文精读：图神经网络从基础到经典模型
March 02, 2026
PaperDL
图神经网络（GNN）论文精读笔记：从图的基本表示、消息传递机制到 GCN、GAT、GIN 等经典模型，附 PyTorch 源代码实现与 PyG 简洁实现对比。
AlexNet 论文精读
February 28, 2026
PaperDLCV
AlexNet 论文精读笔记：首次在大规模图像分类中成功应用深度 CNN，解析 ReLU、Dropout、双 GPU 并行、数据增强等核心创新。
ResNet 论文精读
February 27, 2026
PaperDLCV
ResNet 深度残差学习论文精读笔记：残差连接如何解决深度网络退化问题，解析 BasicBlock、Bottleneck、梯度传播等核心设计。
Attention Is All You Need — Transformer 论文精读
February 13, 2026
PaperDLNLP
Transformer 模型论文精读笔记：完全基于注意力机制的 Encoder-Decoder 架构，解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。