OpenAIが新モデル「GPT-5.4」を公開した。最大の特徴は、PCの画面を見てマウスやキーボードを自ら操作し、複数の業務を連続して自律的にこなす「AIエージェント」機能を本格搭載した点にある。ChatGPTは「質問すると答えが返ってくるツール」から「指示すると業務を代行してくれるツール」へと姿を変えた。
GPT-5.4で具体的に何ができるようになったか
「競合他社の最新動向を調べて、表にまとめて、担当者にメールで送っておいて」——一度指示するだけで、AIが自分でブラウザを開き、複数サイトを巡回し、情報を整理し、メールを作成・送信するまでを自律的にこなす。これがGPT-5.4の最大の変化だ。
GPT-5.4はPCの画面を見てマウスやキーボードを自ら動かし、複数の手順をまたぐ業務を人間の代わりに実行する。専用のシステム連携は不要で、今使っているソフトをそのまま操作対象にできる。
すでに実際の業務システムへの組み込みも始まっている。Microsoft ExcelのアドインとしてGPT-5.4が採用され、金融モデリングなどの分析業務の自動化を支援している(ITmedia Enterpriseによる報道)。国内では株式会社SUPERNOVAが自社の企業向けAIサービスにGPT-5.4を導入し、業務精度の向上とハルシネーションの低減を実現したと発表している。ただし、削減工数・コスト削減額・精度改善の具体値は現時点で公表されていない。
提供形態・利用開始時期・対象ユーザー
GPT-5.4は2026年3月よりOpenAIのAPIおよびChatGPT有料プラン(Plus・Team)向けに提供が開始されている。企業が定型処理を大量にさばける低コスト版(mini・nano)もAPI経由で提供されており、詳細はOpenAI公式サイトで確認できる。
これまでのChatGPTと何が根本的に違うのか
これまでのChatGPTは「聞かれたら答える」ツールだった。ユーザーが1つ質問し、AIが1つ回答を返す——その繰り返しだ。
GPT-5.4は「ゴールを伝えたら、自分で段取りを考えて動く」。指示は一度だけ。あとはAIが必要な手順を組み立て、順番にこなしていく。こうした「代わりに動くAI」を業界では「エージェント」と呼んでいる。
AIが作業している途中経過は画面上で確認でき、人間がいつでも軌道修正できる設計になっている。「丸投げして暴走する」心配がない点を、OpenAI自身も強調している。
性能はどれだけ上がったのか——ベンチマーク数値
「動き方が変わった」だけでなく、実際の性能も大きく向上している。
AIがPCをどれだけうまく操作できるかを測るテスト「OSWorld」で、GPT-5.4は成功率75.0%を記録した(OpenAI公式発表。独立した第三者機関による検証は現時点で確認されていない)。人間の平均(72.4%)を初めて上回り、前モデルのGPT-5.2(47.3%)から大幅に改善された。AIが実際にPCを操作する能力が実用域に入ったことを示す数値だ。
AIが事実と異なる情報を生成する「ハルシネーション」も前モデル比33%減少した(OpenAI公式発表)。業務利用で最も懸念される「AIが嘘をつく」リスクが、具体的な数値として改善されている。
44種類の専門職タスクの精度を測る「GDPval」でも、83.0%で専門家と同等以上の精度を達成した(前モデルは70.9%)。
| ベンチマーク | GPT-5.2 | GPT-5.4 | 人間平均 |
|---|---|---|---|
| OSWorld(PC操作成功率) | 47.3% | 75.0% | 72.4% |
| GDPval(専門職タスク精度) | 70.9% | 83.0% | — |
| ハルシネーション発生率 | 基準値 | 前モデル比33%減 | — |
OSWorld・GDPvalとはどんな評価基準か
OSWorldは、上海交通大学・香港大学などの研究者グループが開発したベンチマーク。実際のデスクトップ環境(Windows/Mac/Linux)でAIがWebブラウザ・表計算・ファイル操作などを操作し、指定されたタスクを完了できるかを評価する。「タスクが正しく完了した」と判定する基準は環境ごとに定義されており、成功率として数値化される。
GDPvalは44種類の専門職タスク(法律・医療・財務・エンジニアリングなど)を対象に、AIの回答品質を専門家の解答と比較して精度を測る評価指標。策定元の機関・研究者については現時点で公式な情報が確認できておらず、OpenAIの公式発表以外の独立した評価報告は見当たらない。読者は数値の解釈に際してこの点を考慮されたい。
ただし、これらはいずれも限定条件下のベンチマーク数値であり、すべての業務で同じ精度が出るとは限らない。GDPvalでも残り17%は専門家水準に届いていない。
業務への影響——何が変わり始めるのか
数値が示す通り、GPT-5.4のPC操作能力は実用域に入った。では、実際の仕事にどう影響するのか。
情報収集・データ整理・定型資料の作成など「手順が決まった仕事」の一部が、AIに移り始める起点になるとみられる。従来のRPA(定型作業の自動化ツール)と異なり、事前にルールを細かく設定しなくても、自然な言葉で指示すれば動く点が大きな違いだ。
ただし「何でも任せられる万能AI」ではない。複雑な判断や創造的な仕事は引き続き人間の領域であり、今後は「何をAIに任せ、何を人間が判断するか」の線引きが企業の実務課題になる。
- AIに任せやすい業務:情報収集・データ整理・定型レポート作成・メール下書きなど、手順が明確で繰り返しのある作業
- 人間が判断すべき業務:複雑な意思決定・顧客との交渉・創造的な企画・倫理的判断を伴うタスク
- 当面の実務課題:AIの出力結果を人間がチェックする体制づくりと、役割分担の基準を社内で明文化すること
OpenAIがエージェントを前面に出した背景
この流れはOpenAIだけの動きではない。GoogleはGemini、AnthropicはClaudeといったAIアシスタントを、それぞれ「代わりに動くAI」へと進化させており、AI開発の主要各社が「エージェント化」を次の主戦場と位置づけている。
競争の焦点は「より賢いAIを作る」から「実際の業務に組み込まれ、日常的に使われるAIを作る」に移った。OpenAIがChatGPTをエージェント機能の統合プラットフォームとして位置づけたGPT-5.4のリリースは、その競争における一手だ。
OpenAIが「今このタイミング」でエージェントを前面に出した理由
OpenAIがエージェント機能を前面に出した背景には、複数の構造的な要因がある。
収益構造の変化:個人向けサブスクリプションの成長が頭打ちになりつつある中、企業向けAPI契約・エンタープライズプランへの移行が収益拡大の主軸となっている。「業務を代行できるAI」は企業の支払い意欲を高める明確な価値提案になる。
競合リリースへの対抗:GoogleのGeminiはGoogleワークスペースとの深い統合を、AnthropicのClaudeはエンタープライズ向けのAPIエコシステムを強化しており、OpenAIとしてエージェント領域での先行ポジションを確保する必要があった。
技術的な成熟:PC操作成功率がOSWorldで75%を超えたことで、「エージェントとして実際に使える」という技術的な閾値に達したタイミングとも重なる。ただし「なぜ今か」の直接の意思決定根拠はOpenAIから公式に説明されておらず、上記はあくまで業界の観測・分析に基づく解釈である。
