RLHF(Reinforcement Learning from Human Feedback)とは、人間のフィードバックを活用してLLMの出力品質を向上させる強化学習手法です。ChatGPTやClaudeなどの生成AIサービスが安全で有用な応答を生成できるようになった背景には、この技術が重要な役割を果たしています。
RLHFは3つの段階で実行されます。まず、大量のテキストデータで事前学習されたLLMに対して、人間の評価者が複数の応答候補を比較・評価します。この評価データを用いて報酬モデル(どの応答が良いかを判定するモデル)を構築し、最終的に強化学習によってLLMが高い報酬を得られるような応答を生成するよう最適化されます。このプロセスにより、単純な次の単語予測から、人間の価値観に沿った有用な応答生成へとモデルの行動が変化します。
企業でのAI活用において、RLHFは特に顧客対応や文書作成支援などの用途で重要です。ハルシネーション(事実と異なる内容の生成)を減らし、より信頼性の高いAIサービスを構築できるためです。ただし、人間の評価には主観性やバイアスが含まれる可能性があるため、評価基準の設計や多様な評価者の確保が課題となります。RLHFによって訓練されたモデルは、その後のファインチューニングでさらに特定業務に適応させることも可能です。