株式会社オブライト
AI2026-05-17

Tokenization(トークン化)

別名: Tokenization / トークン化 / トークナイゼーション

テキストをLLMが処理可能なトークン(単語・部分語・記号の単位)に分割する前処理ステップ。どのように分割するかがモデルの性能・コスト・多言語対応に影響する。


概要

トークン化はテキストを数値列(トークンID)に変換する処理で、LLMへの入力の基本単位を決定します。英語では1トークン≒4文字ですが、日本語・中国語では1文字が複数トークンになることが多く、コンテキストウィンドウの実効容量や処理コストに直接影響します。主流のアルゴリズムはBPE(Byte Pair Encoding)です。

実務上の注意

APIの料金はトークン数で課金されるため、日本語コンテンツは英語に比べてトークン消費が多い傾向があります。長い日本語文書をRAGで扱う際は、チャンクサイズをトークン単位で設定することが重要です。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ