AI2026-05-17

Pre-training（事前学習）

別名: Pre-training / 事前学習 / プレトレーニング

LLMが膨大な量のテキストデータで次トークン予測などの汎用タスクを学習する最初の大規模学習フェーズ。後続のファインチューニングやアラインメントの基盤となる。

概要

事前学習はLLM開発の最初のフェーズで、数兆トークン規模のテキストデータ（Web・書籍・コード等）を使って次のトークンを予測する自己教師あり学習を行います。この段階でモデルは言語の構造・文法・世界知識・コーディング能力などを習得します。膨大なGPU時間と電力を必要とするため、ほぼすべての企業が事前学習済みモデルをベースに使います。

フロンティアモデルとオープンモデル

OpenAI・Anthropic・Googleは独自の大規模事前学習を行い、API提供しています。一方LlamaやQwenなどのオープンウェイトモデルは事前学習済みの重みを公開しており、企業がそれをベースにファインチューニングして使えます。

Pre-training（事前学習）

概要

フロンティアモデルとオープンモデル

関連コラム

関連用語