NLP - Tags | Yun Shen

8 articles tagged with NLP

BPE 与 BBPE 详解：从字符 / 单词词表的弊端到字节级子词
May 03, 2026
NLPTokenizerBPEBBPETech Blog
从单词级和字符级词表的弊端出发，推导 BPE 如何用合并频次构造子词，再到 BBPE 把粒度下沉到字节，从结构上消除 OOV。
RoPE 论文精读：旋转位置编码如何把绝对位置转成相对位置
April 29, 2026
PaperDLNLPTransformerPaper Reading
RoPE 论文精读笔记：从绝对位置编码的交叉噪声出发，推导旋转矩阵如何让注意力点积天然只依赖相对距离。
RAG 原理、流程与关键设计
April 17, 2026
AILLMNLP
从检索、分块、向量化到混合检索、重排和评估，系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
GPT-1 论文精读：预训练-微调范式的起点
April 04, 2026
PaperLLMNLP
系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式，奠定现代大语言模型的发展路线，并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。
GPT-2 论文精读：从微调范式到 Prompt 范式
April 04, 2026
PaperLLMNLP
系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer，把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式，并结合代码实战理解 causal attention、Pre-LN 与自回归生成。
GPT-3 论文精读：少样本学习与规模的力量
April 04, 2026
PaperLLMNLP
系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数，并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力，同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。
BERT 论文精读
March 02, 2026
PaperDLNLP
BERT 预训练语言模型论文精读笔记：通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码，开创"预训练 + 微调"范式。
Attention Is All You Need — Transformer 论文精读
February 13, 2026
PaperDLNLP
Transformer 模型论文精读笔记：完全基于注意力机制的 Encoder-Decoder 架构，解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。