OpenAIがGPT-5.4発表、自律的に業務をこなすAIエージェントへ本格移行

2026年3月5日2026年4月6日

URLをコピーしました！

OpenAIが新モデル「GPT-5.4」を公開した。最大の特徴は、PCの画面を見てマウスやキーボードを自ら操作し、複数の業務を連続して自律的にこなす「AIエージェント」機能を本格搭載した点にある。ChatGPTは「質問すると答えが返ってくるツール」から「指示すると業務を代行してくれるツール」へと姿を変えた。

GPT-5.4で具体的に何ができるようになったか

「競合他社の最新動向を調べて、表にまとめて、担当者にメールで送っておいて」——一度指示するだけで、AIが自分でブラウザを開き、複数サイトを巡回し、情報を整理し、メールを作成・送信するまでを自律的にこなす。これがGPT-5.4の最大の変化だ。

GPT-5.4はPCの画面を見てマウスやキーボードを自ら動かし、複数の手順をまたぐ業務を人間の代わりに実行する。専用のシステム連携は不要で、今使っているソフトをそのまま操作対象にできる。

すでに実際の業務システムへの組み込みも始まっている。Microsoft ExcelのアドインとしてGPT-5.4が採用され、金融モデリングなどの分析業務の自動化を支援している（ITmedia Enterpriseによる報道）。国内では株式会社SUPERNOVAが自社の企業向けAIサービスにGPT-5.4を導入し、業務精度の向上とハルシネーションの低減を実現したと発表している。ただし、削減工数・コスト削減額・精度改善の具体値は現時点で公表されていない。

提供形態・利用開始時期・対象ユーザー

GPT-5.4は2026年3月よりOpenAIのAPIおよびChatGPT有料プラン（Plus・Team）向けに提供が開始されている。企業が定型処理を大量にさばける低コスト版（mini・nano）もAPI経由で提供されており、詳細はOpenAI公式サイトで確認できる。

これまでのChatGPTと何が根本的に違うのか

これまでのChatGPTは「聞かれたら答える」ツールだった。ユーザーが1つ質問し、AIが1つ回答を返す——その繰り返しだ。

GPT-5.4は「ゴールを伝えたら、自分で段取りを考えて動く」。指示は一度だけ。あとはAIが必要な手順を組み立て、順番にこなしていく。こうした「代わりに動くAI」を業界では「エージェント」と呼んでいる。

AIが作業している途中経過は画面上で確認でき、人間がいつでも軌道修正できる設計になっている。「丸投げして暴走する」心配がない点を、OpenAI自身も強調している。

性能はどれだけ上がったのか——ベンチマーク数値

「動き方が変わった」だけでなく、実際の性能も大きく向上している。

AIがPCをどれだけうまく操作できるかを測るテスト「OSWorld」で、GPT-5.4は成功率75.0%を記録した（OpenAI公式発表。独立した第三者機関による検証は現時点で確認されていない）。人間の平均（72.4%）を初めて上回り、前モデルのGPT-5.2（47.3%）から大幅に改善された。AIが実際にPCを操作する能力が実用域に入ったことを示す数値だ。

AIが事実と異なる情報を生成する「ハルシネーション」も前モデル比33%減少した（OpenAI公式発表）。業務利用で最も懸念される「AIが嘘をつく」リスクが、具体的な数値として改善されている。

44種類の専門職タスクの精度を測る「GDPval」でも、83.0%で専門家と同等以上の精度を達成した（前モデルは70.9%）。

ベンチマーク	GPT-5.2	GPT-5.4	人間平均
OSWorld（PC操作成功率）	47.3%	75.0%	72.4%
GDPval（専門職タスク精度）	70.9%	83.0%	—
ハルシネーション発生率	基準値	前モデル比33%減	—

出典：OpenAI公式発表。いずれも自社発表値であり、独立した第三者機関による検証は現時点で未確認。

OSWorld・GDPvalとはどんな評価基準か

OSWorldは、上海交通大学・香港大学などの研究者グループが開発したベンチマーク。実際のデスクトップ環境（Windows/Mac/Linux）でAIがWebブラウザ・表計算・ファイル操作などを操作し、指定されたタスクを完了できるかを評価する。「タスクが正しく完了した」と判定する基準は環境ごとに定義されており、成功率として数値化される。

GDPvalは44種類の専門職タスク（法律・医療・財務・エンジニアリングなど）を対象に、AIの回答品質を専門家の解答と比較して精度を測る評価指標。策定元の機関・研究者については現時点で公式な情報が確認できておらず、OpenAIの公式発表以外の独立した評価報告は見当たらない。読者は数値の解釈に際してこの点を考慮されたい。

ただし、これらはいずれも限定条件下のベンチマーク数値であり、すべての業務で同じ精度が出るとは限らない。GDPvalでも残り17%は専門家水準に届いていない。