AI2026-05-17

RLHF（Reinforcement Learning from Human Feedback）

別名: RLHF / Reinforcement Learning from Human Feedback / 人間のフィードバックからの強化学習

人間の評価者が複数の回答を比較・評価し、その好みデータを用いて報酬モデルを学習、さらに強化学習でLLMを人間の意図に沿わせる手法。ChatGPTの品質向上に用いられた技術。

概要

RLHFは事前学習済みLLMを人間の意図や価値観に沿わせる（アラインメント）ための手法です。まず人間のアノテーターが複数の回答を比較評価し、その好みデータで報酬モデル（RM）を学習します。次にPPO（Proximal Policy Optimization）などの強化学習アルゴリズムで、報酬モデルのスコアを最大化するようにLLMを調整します。

課題と後継技術

人間のアノテーション収集コストが高く、PPO学習の不安定さが課題です。これを改善した手法としてDPO（Direct Preference Optimization）が提案されており、報酬モデルなしに直接好みデータからLLMを学習できます。

RLHF（Reinforcement Learning from Human Feedback）

概要

課題と後継技術

関連コラム

関連用語