BPE 与 BBPE 详解:从字符 / 单词词表的弊端到字节级子词
从单词级和字符级词表的弊端出发,推导 BPE 如何用合并频次构造子词,再到 BBPE 把粒度下沉到字节,从结构上消除 OOV。
8 articles tagged with NLP
从单词级和字符级词表的弊端出发,推导 BPE 如何用合并频次构造子词,再到 BBPE 把粒度下沉到字节,从结构上消除 OOV。
RoPE 论文精读笔记:从绝对位置编码的交叉噪声出发,推导旋转矩阵如何让注意力点积天然只依赖相对距离。
从检索、分块、向量化到混合检索、重排和评估,系统梳理 RAG 的核心机制、工程权衡与高频面试问题。
系统解析 GPT-1 如何以 Decoder-only Transformer 和无监督预训练 + 有监督微调范式,奠定现代大语言模型的发展路线,并结合代码实战理解 causal mask、Teacher Forcing 与自回归生成。

系统解析 GPT-2 如何借助 WebText 预训练与 decoder-only Transformer,把 NLP 从预训练 + 微调推进到 Prompt 驱动的零样本范式,并结合代码实战理解 causal attention、Pre-LN 与自回归生成。

系统解析 GPT-3 如何把 decoder-only Transformer 扩展到 1750 亿参数,并通过 zero-shot、one-shot 与 few-shot 实验验证情境学习能力,同时结合数据过滤、LSH 去重与污染检测理解大模型能力涌现的工程基础。

BERT 预训练语言模型论文精读笔记:通过 Masked Language Model 和 Next Sentence Prediction 实现深度双向 Transformer 编码,开创"预训练 + 微调"范式。

Transformer 模型论文精读笔记:完全基于注意力机制的 Encoder-Decoder 架构,解析 Self-Attention、Multi-Head Attention、Positional Encoding 等核心组件。
