cs336-tokenizerJune 02, 2026NLPTokenizerLLMBPETech Blog从分词器在 LLM 中的定位出发,拆解其四步训练流程,对比词级 / 字符级 / 字节级三种粒度,逐一讲清 BPE、BBPE、WordPiece、Unigram 的核心准则与差异,并以 DeepSeek 分词器收尾。
BPE 与 BBPE 详解:从字符 / 单词词表的弊端到字节级子词May 03, 2026NLPTokenizerBPEBBPETech Blog从单词级和字符级词表的弊端出发,推导 BPE 如何用合并频次构造子词,再到 BBPE 把粒度下沉到字节,从结构上消除 OOV。