株式会社オブライト
AI2026-05-17

Pre-training(事前学習)

別名: Pre-training / 事前学習 / プレトレーニング

LLMが膨大な量のテキストデータで次トークン予測などの汎用タスクを学習する最初の大規模学習フェーズ。後続のファインチューニングやアラインメントの基盤となる。


概要

事前学習はLLM開発の最初のフェーズで、数兆トークン規模のテキストデータ(Web・書籍・コード等)を使って次のトークンを予測する自己教師あり学習を行います。この段階でモデルは言語の構造・文法・世界知識・コーディング能力などを習得します。膨大なGPU時間と電力を必要とするため、ほぼすべての企業が事前学習済みモデルをベースに使います。

フロンティアモデルとオープンモデル

OpenAI・Anthropic・Googleは独自の大規模事前学習を行い、API提供しています。一方LlamaやQwenなどのオープンウェイトモデルは事前学習済みの重みを公開しており、企業がそれをベースにファインチューニングして使えます。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ