株式会社オブライト
AI2026-05-17

BPE(Byte Pair Encoding)

別名: BPE / Byte Pair Encoding / バイトペアエンコーディング

頻出する文字ペアを繰り返しマージして語彙を構築するサブワードトークン化アルゴリズム。GPTシリーズを始め大多数のLLMで採用されているトークナイザーの基盤技術。


概要

BPE(Byte Pair Encoding)はもとデータ圧縮アルゴリズムで、NLP分野では2016年にSubword Regularization論文で採用されました。最頻出の文字ペアを繰り返しマージして語彙(vocabulary)を構築し、未知語を部分語に分解して処理できます。GPT-2以降のOpenAIモデル、LlamaなどほぼすべてのLLMがBPEをベースとしています。

SentencePiece・Unigram LMとの比較

GoogleはSentencePieceとUnigram LMを採用しており、T5やGemmaで使われています。BPEとUnigram LMはどちらもサブワード分割ですが、語彙構築のアルゴリズムが異なります。どちらも多言語対応と未知語処理に優れています。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ