Gemini(ジェミナイ)とは、Google DeepMindが開発したマルチモーダルAIモデルです。テキスト、画像、音声、動画を統合的に処理・理解し、これらを組み合わせた複雑なタスクに対応できる生成AIとして設計されています。
Geminiの最大の特徴は、異なる形式のデータを同時に扱える点にあります。例えば、画像を見ながらそれに関する質問に答えたり、動画の内容を分析して詳細な説明を生成したりできます。トランスフォーマーアーキテクチャをベースとしたディープラーニング技術により、各モダリティ間の関連性を理解し、統合的な推論を実現しています。
Geminiは、Ultra、Pro、Nanoの3つのサイズで提供されており、Google検索、Google Workspace、チャットボットのBardなど、様々なGoogleサービスに統合されています。ビジネス現場では、文書作成支援、データ分析、コンピュータビジョンタスクなど幅広い用途で活用が進んでおり、APIとして提供されることで企業のシステムにも組み込み可能です。従来の単一モダリティのAIでは困難だった、複合的な情報理解と生成が求められる業務において、その威力を発揮しています。