インスタグラムやWhatsAppを運営するMetaが、2025年4月5日にAI「Llama 4」を無料公開した。
その直後、AIの実力を比べる評価サイト「LMSYSアリーナ」で、世界中の人々が予想しない結果を目にすることになる。
有料のAI「GPT-4o」——ChatGPTの高性能版——が、無料のAIに初めて追い抜かれた瞬間だった。
これはAIを使っている人に限らず、スマホでGoogle検索をしている人、会社でメールを書いている人、あらゆる人に関係する変化だ。「お金を払えば良いものが手に入る」という、デジタルの世界で当たり前だと思われていた常識が、静かに崩れ始めた。
本記事で紹介するLMSYSアリーナでの逆転は、あくまでGPT-4oモデルとの比較に基づく。GPT-4.5やo3といったOpenAIの最新モデルとの比較結果は記事内に含まれておらず、「OpenAI全体を超えた」という意味ではない。また、Metaが公表するベンチマーク数値には第三者機関による独立検証が済んでいないものも含まれる。これらを踏まえた上で読み進めてほしい。
GPT-4oを逆転——オープンAIが超えた瞬間に何が起きていたか
ELOスコア1417——LMSYSアリーナで何が評価されたか
LMSYSアリーナとは、AIの回答を人間がブラインドで比較評価する場所だ。
「これはどのAIの回答か」を隠した状態で、どちらが良いかを人間が選ぶ。販売会社が自社製品を褒めるPRとは違い、実際のユーザーが判断する仕組みだ。
その評価で、Llama 4のMaverick(中型モデル)はELOスコア1417を記録し、GPT-4oをランキング上で上回る位置に達した。
ELOスコアとはチェスや将棋でも使われる実力指標で、数字が大きいほど強い。LMSYSアリーナのランキングページでは、MaverickがGPT-4oより上位に表示されている。
ただし、ここで一点だけ記しておく。本記事で紹介するMetaのベンチマーク(性能測定の数値)には、第三者機関が独立して検証していないものも含まれる。LMSYSアリーナのランキングは人間の投票に基づくため、質問の傾向や評価者の属性によって変動し得る。それを踏まえても、「無料のAIが有料の最高峰と肩を並べる」という事実は、業界に明確な衝撃を与えた。
Scout・Maverick・Behemoth——3モデルの役割分担
Llama 4は1つのモデルではなく、用途別に3つのサイズで構成されている。
Scoutは軽量・小型モデルだ。処理が速く、スマートフォンや低スペックのサーバーでも動かしやすい。なお、Scoutの全体パラメータ数およびアクティブパラメータ数はMeta公式から現時点で明示されておらず、本記事では定性的な説明にとどめる。
Maverickが今回のランキングで話題になった中型モデルで、性能とコストのバランスが最も取れている。全体で4000億のパラメータ(AIの判断を決める数値の数)を持ちながら、実際に動かすときに使うのは170億だけ——わずか4%だ。「なぜそれで強いのか」は次のセクションで詳しく見る。
Behemothは現在開発中の大型モデルで、自社の発表によればGPT-4.5やGoogleのGeminiを上回るとされている。ただし第三者検証はまだ行われていない。
では、なぜ無料のAIが有料を上回れたのか。その鍵は、AIの脳の使い方そのものを変えた仕組みにある。
なぜ今回は違うのか——MoEが変えたコストと性能の方程式
答えは、性能を上げながら同時にコストを下げる——これまで「どちらかを取ればどちらかが犠牲になる」と思われていた矛盾を解決した設計にある。
4000億の回路のうち、使うのはたった170億だけ——MoEの仕組み
AIは「パラメータ」と呼ばれる膨大な数の回路を持っている。数が多いほど賢くなるが、動かすのに電力と計算コストがかかる。従来のAIはすべての回路を常時フル稼働させていた。家中の電気を、使っていない部屋も含めて24時間つけっぱなしにしている状態に近い。
Llama 4 Maverickは違う設計を採っている。「MoE(Mixture of Experts)」——専門家の混合、と訳される仕組みで、質問が届いたときに「今回の処理に必要な回路だけ」を選んで起動する。使う部屋の電気だけをつける、という発想だ。
Maverickの全体の回路数は4000億。だが1回の質問で実際に動かすのは170億だけだ。全体のわずか4%に相当する。
残りの96%は待機したまま、電力も計算資源も消費しない。それでいて、必要なときに必要な専門回路が的確に選ばれるため、回答の精度は落ちない。
公式ベンチマークが示す効率——Llama 3比3倍の数字の根拠
この設計が実際の数字にどう表れるか。第三者集計サイト「LLM Stats」のコスト比較データによると、同じ量の文章を処理するとき、Llama 4 MaverickはGPT-4oの約32分の1のコストで動かせるとされている。ただし、この数値は推論コスト(質問への回答生成コスト)のみを対象とした比較であり、ファインチューニングや運用コスト全体を含むものではない点に注意が必要だ。また、参照するモデルのバージョンや集計タイミングにより変動し得る。月に10万円かかっていた処理が約3000円で済む計算になるが、実際の削減幅は用途によって異なる。
同時に、前世代のLlama 3と比べたとき、同じ計算コストあたりの処理能力は約3倍に向上している。性能を上げながらコストは下げる——この両立がMoEによって初めて実現した。
コスト削減の恩恵は、企業にとって具体的な意味を持つ。AIの導入コストが下がり性能が上がるなら、中小企業でも本格的な活用を検討できる水準になる。
コストが下がり性能が上がっただけではない。Llama 4は「一度に扱える情報量」と「画像の理解力」でも従来のAIと次元が違う。
1000万トークンとネイティブ画像理解——業務で変わること
技術の話ではなく、業務で何が変わるかを見ていく。
Linuxカーネル全体を一度に読む——1000万トークンの実スケール
AIが一度に読める文章の量には上限がある。これを「コンテキストウィンドウ」と呼ぶ。上限を超えた分は切り捨てられ、AIはその部分を「読んでいない」状態で回答する。
長い資料を渡したいとき、これまでは自分で分割して何度も問い合わせるしかなかった。
Llama 4のScout(小型・軽量モデル)は、このコンテキストウィンドウが1000万トークンに達する。文庫本に換算すると、約100冊分を一度に放り込める量だ。
会社の社内規程、過去5年分の会議の議事録、取引先との契約書——これらをまとめて渡しても余裕がある。「あの契約書のどこかに書いてあったはず」という曖昧な記憶をAIに代わりに探させることが、ファイルを選別する手間なしに可能になる。
前世代のLlama 3と比べると、一度に処理できる量は約78倍に増えた。「AIに聞く前に資料を整理する」という作業そのものが、なくなりつつある。
画像とテキストを最初から一緒に考える——Early Fusionが業務に意味すること
まず、何が可能になったかを見てほしい。
製品の検品写真を撮り、仕様書のPDFと一緒にAIに渡す。「この写真の傷は仕様の許容範囲内か」と質問すると、画像と文書を照らし合わせた回答が返ってくる。図面と現場の写真を並べて「施工ミスはないか」と聞く。請求書の画像と社内の経費規程をまとめて投げて「この金額は承認可能か」を判断させる。
外部ツールは何も要らない。
これまでのAIは、画像を別のソフトで変換してからテキストに直し、その情報をAIに渡すという手順が必要だった。画像とテキストを同時に理解する能力は「後付け」で追加されたものだったからだ。
Llama 4が採用した「Early Fusion」という設計は、画像とテキストを最初から一緒に学ばせる仕組みだ。変換の手間が消えただけでなく、「絵を見ながら文章を読む」という自然な理解の精度が上がっている。
こうした能力は将来の話ではない。Metaはすでに自社サービスでLlama 4を動かしている。
Metaはすでに自社サービスに組み込んでいる
MetaはLlama 4をインスタグラム、WhatsApp、Messengerの3サービスに統合し、40か国以上で「Meta AI」として提供している。研究段階の技術デモではなく、数十億人が日常的に使うアプリの中で実際に稼働しているAIだ。
企業側でも早速評価が進んでいる。コンテンツ管理ソフトを手がけるBoxは、Maverickを自社サービスに組み込んで評価し、複雑なビジネス文書の処理において前世代のLlama 3を上回る精度を確認したと報告している。ただし、Boxの公式発表では具体的なタスク名・評価指標・改善率の詳細が開示されておらず、比較の条件については確認が取れていない。
インフラ面でも本気度は明確だ。Metaは2025年に最大10兆円規模をAIインフラに投じる計画を公表している。さらに、開発中の最大モデル「Behemoth」は予備テストの段階でGPT-4.5を上回る結果を出しているとされる。Llama 4で終わりではなく、次の一手がすでに動き始めている。
ただし、誰でもどこでも自由に使えるわけではない。Llama 4には知っておくべき制限がある。
使う前に知っておくべきこと——ライセンス条件とEU制限の現状
商用利用の条件——月間7億ユーザー超は要申請
Llama 4は無料で公開されており、個人や中小企業が自社のサービスや業務に使うことは基本的に可能だ。
ただし、月間アクティブユーザーが7億人を超える大規模なプラットフォームは、Metaに個別の利用許可を申請する必要がある。日本国内の一般企業であれば、この条件に引っかかるケースはまずない。「大企業なら申請が必要になることもある」程度に覚えておけば十分だ。
むしろ実感として効いてくるのは、応答の品質改善だ。前世代のLlama 3では、センシティブな質問などに対してAIが回答を拒否するケースが7%あった。Llama 4ではそれが2%未満に下がっている。つまり、100回質問したとき、7回だった「答えてもらえない」が2回以下になった。業務で使うとき、AIが途中で止まる頻度が下がることは、地味だが確実に効いてくる改善だ。
Boxがすでに評価を進めているように、「試せる環境」は今すぐある。日本国内での利用であれば、ライセンスの基本条件を確認した上で、実際に動かしてみることが現実的な選択肢になっている。
EUでの利用制限——規制対応の現状と制限の範囲
EU(ヨーロッパ連合)では話が違う。
EUはAIに関する厳格な規制法を持ち、その対応コストの問題を理由に、MetaはEU域内の企業や開発者にLlama 4の使用ライセンスを提供しない判断をした。なお、制限の正確なスコープについては報道ごとに差異があり、「マルチモーダル(画像認識)機能のみ制限」とする情報と「ライセンス全体を不提供」とする情報が混在している。現時点でMetaの公式発表では詳細が明確になっていないため、EU域内での利用を検討する場合は最新の公式情報を直接確認することを推奨する。
「オープンを掲げながら、使えない地域がある」という矛盾は、AI業界で初めて目立つ形で表れた「AIジオフェンシング(地域制限)」の事例として注目されている。日本の読者にとって、この制限は直接関係しない。ただ、「オープンなAI」が必ずしもどこでも自由に使えるとは限らないという現実は、頭の片隅に置いておく価値がある。特に海外展開を考えるビジネスであれば、利用地域のライセンス条件の確認は欠かせない。
無料で、強く、今すぐ使える——その3点は本物だ。ただしLlama 4はゴールではなく、Metaが「途中」と位置づけているシリーズの現時点での到達点に過ぎない。開発中の最大モデル「Behemoth」が完成したとき、オープンモデルとクローズドモデルの力関係が完全に塗り替えられるのか。それともOpenAIやGoogleが再び引き離すのか。その答えは、まだ誰も持っていない。
