株式会社オブライト
AI2026-05-17

Post-training(事後学習)

別名: Post-training / ポストトレーニング / 事後学習

事前学習後に行うすべての追加学習フェーズの総称。SFT(教師あり微調整)・RLHF・DPOなどのアラインメント学習を含み、モデルをより有用で安全なアシスタントに仕上げる。


概要

Post-trainingは事前学習済みの基盤モデルをユーザー向けのアシスタントに変換するための学習フェーズ群です。主な手順は、①SFT(Supervised Fine-Tuning)で指示追従能力を付与、②RLHF/DPO/Constitutional AIで有益性・安全性・誠実性を整合させる(アラインメント)という流れです。

重要性

事前学習済みの生モデルは次トークン予測に特化しており、そのままではユーザーの指示に従わず有害なコンテンツを生成することがあります。Post-trainingによってChatGPTやClaudeのような実用的なアシスタントが生まれます。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ