株式会社オブライト
AI2026-05-17

RLHF(Reinforcement Learning from Human Feedback)

別名: RLHF / Reinforcement Learning from Human Feedback / 人間のフィードバックからの強化学習

人間の評価者が複数の回答を比較・評価し、その好みデータを用いて報酬モデルを学習、さらに強化学習でLLMを人間の意図に沿わせる手法。ChatGPTの品質向上に用いられた技術。


概要

RLHFは事前学習済みLLMを人間の意図や価値観に沿わせる(アラインメント)ための手法です。まず人間のアノテーターが複数の回答を比較評価し、その好みデータで報酬モデル(RM)を学習します。次にPPO(Proximal Policy Optimization)などの強化学習アルゴリズムで、報酬モデルのスコアを最大化するようにLLMを調整します。

課題と後継技術

人間のアノテーション収集コストが高く、PPO学習の不安定さが課題です。これを改善した手法としてDPO(Direct Preference Optimization)が提案されており、報酬モデルなしに直接好みデータからLLMを学習できます。

関連コラム

関連用語

お気軽にご相談ください

お問い合わせ