LoRA(Low-Rank Adaptation、ローランクアダプテーション)とは、大規模言語モデルなどのディープラーニングモデルを効率的にカスタマイズするためのファインチューニング手法です。元のモデルの全パラメータを更新する代わりに、低ランク(少ない次元数)の行列を追加して特定のタスクに適応させることで、計算資源を大幅に削減できます。
LoRAの仕組みは、既存の重み行列を分解して、より小さな2つの行列の積で近似表現することにあります。例えば、1000×1000の重み行列の場合、通常のファインチューニングでは100万個のパラメータを更新する必要がありますが、LoRAなら数千個程度の追加パラメータで済みます。この結果、GPUメモリ使用量や学習時間を大幅に削減しながら、元の性能に近い結果を得られます。
ビジネス現場では、生成AIやLLMを自社データでカスタマイズする際にLoRAが活用されています。例えば、汎用的なChatGPTベースのモデルを、特定業界の専門用語や社内文書の特徴に適応させる場合、全パラメータの再学習は膨大なコストがかかりますが、LoRAなら短時間・低コストで実現可能です。また、複数のタスク向けLoRAモジュールを作成し、必要に応じて切り替えて使用することで、一つのベースモデルから多様なアプリケーションを効率的に展開できます。