OpenAIがGPT-5.5を公開、エージェントAIが実務水準に到達

2026年4月25日

OpenAIが新言語モデルGPT-5.5を公開し、エージェントAIが実務水準に到達した

URLをコピーしました！

OpenAIが4月23日に公開した新しいAI「GPT-5.5」について、まず一点だけ押さえてほしい。これまでのAIは問いに答えた。GPT-5.5は、仕事をやり切る。

数ヶ月の研究を18分に

アメリカの「ジャクソン・ゲノム医学研究所」は、ゲノム（遺伝情報）の解析にGPT-5.5を使った。約2万8000の遺伝子と62サンプルのデータを渡し、分析とレポート作成を任せた。専門家がこの規模の作業を手作業でこなすには、数ヶ月かかる。

GPT-5.5が終えるまでの時間は、18分だった。

研究者は逐一指示を出したわけではない。GPT-5.5はデータを受け取った後、何をどの順に処理すべきかを自分で判断しながら、一連の作業を完遂した。「AIが手伝った研究」ではなく、「AIがやり切った研究」——その差は小さくない。

ゲノムの解析は「一問一答」では終わらない作業だ。方向を決め、試行し、修正し、仕上げる——その連鎖をAIが自力でこなした。文書処理や調査といった、デスクワークの中核を担う業務と同じ構造だ。AIが「使う道具」から「仕事を持ち帰る働き手」に変わりつつあることを、この事例は示している。

業務完遂では圧倒、コード生成では劣後

AIの能力を比較するために業界が使う共通の実力テスト——「ベンチマーク」と呼ぶ——でも、GPT-5.5の得意・不得意はくっきりしている。

弁護士、医師、マーケターなど専門職が日常こなす作業をどれだけ正確にやり切れるかを測った「GDPval」というテストでは、GPT-5.5は84.9%のスコアで現時点で競合のAIを引き離している。パソコン操作を自律的にこなす能力の測定でも同様だ。「仕事を仕上げる能力」の指標では、頭ひとつ抜けた状態にある。

ところが、プログラムを書く能力の測定では話が変わる。実際の開発現場で出る課題を解かせる「SWE-Bench Pro」というテストでは、GPT-5.5のスコアは58.6%。約1週間前に発表されたAnthropicの「Claude Opus 4.7」は64.3%で、後から登場したにもかかわらず上回っている。コーディングの実力テストでは劣後した。

	GPT-5.5	Claude Opus 4.7
業務完遂（GDPval）	84.9%	—
コーディング（SWE-Bench Pro）	58.6%	64.3%

「全部これ一択」という状況ではない。事務作業やデータ分析の自動化ならGPT-5.5、プログラミングが主体の開発業務なら競合——現時点の評価はそういう使い分けを示している。万能の超AIが現れたわけではなく、得意・不得意がはっきりしている段階だ。

企業が使う料金は、実質2割増し

GPT-5.5をビジネスで使う場合、料金はどうなるのか。

企業がAIを自社のサービスや業務システムに組み込むとき、OpenAIのAPI——つまり「外部からAIを呼び出すための接続口」——を利用する。このAPIの料金は、前モデルのGPT-5.4と比べて約2倍に設定された。

ただし、「2倍」がそのまま請求額の2倍を意味するわけではない。AI調査会社のArtificial Analysisの分析によると、GPT-5.5は同じ仕事をこなすのに必要な処理量が約40%減っている。効率が上がった分、実際の運用コストの増加は約20%にとどまる計算だ。

カタログ価格は倍になった。だが財布への影響は2割増し——というのが現時点の見立てだ。

嘘の回答リスクはまだ残る

コストの現実が見えたところで、もう一点だけ正直に伝えておく必要がある。

AIが事実と異なる内容を、自信満々に答えてしまう問題が存在する。業界では「ハルシネーション」と呼ぶ——幻覚という意味の言葉で、AIが「知らない」と言う代わりに、存在しない情報を作り上げてしまう現象だ。GPT-5.5では、このハルシネーションの発生率が前モデルのGPT-5.4と比べて33%減った。ただし、OpenAIは発生率の絶対値を公表していない。GPT-5.4の時点でどの程度の頻度で起きていたのか——その出発点が不明なため、33%改善した後に残るリスクがどの程度の大きさかを、外部から判断することはできない。

33%の改善は前進だ。ただし、ゼロにはなっていない。

この問題が実害につながった事例は、すでにある。2026年初頭、弁護士がAIの生成した文書をもとに裁判資料を作成した。そこに含まれていた判例は、存在しないものだった。AIが「作り上げた」架空の判例をそのまま提出し、敗訴した。法廷という、事実の正確さが命取りになる場で起きた出来事だ。

「18分で研究を終わらせた」という能力と、「架空の判例を自信満々に提示する」というリスクは、同じAIの中に並存している。

現時点での正しい使い方

現時点では、AIが出した結果を人間が確認してから使う運用が前提になる。業務を委ねられる段階には来た。丸ごと信頼できる段階には、まだ来ていない。

自社業務への影響をどう見るか

そのリスクを知りながら、動いている企業がある。OpenAI自身がその一例だ。

同社の広報チームは、外部からの登壇依頼——カンファレンスへの出席要請を審査する業務——をGPT-5.5で自動化した。財務チームは7万ページを超える書類のレビューを任せ、数週間かかっていた作業時間を大幅に削減したとOpenAIは説明している。ただし短縮後の具体的な所要時間は公表されていない。ゲノム研究所ではなく、普通の会社の、普通のオフィスで起きていることだ。

どの業務が先に変わるか。今のところ見えているのは、「繰り返しが多く、大量の文書や数字を扱う仕事」だ。毎月同じフォーマットで作る報告書、数百件の書類を読んで分類する作業、データを集計してまとめる仕事——そういった領域が、今回の能力強化が直撃する場所になる。

ゲノムの解析、法務書類のチェック。今回、GPT-5.5の実力が示されたのは、いずれも専門知識が必要な「知識労働」の現場だった。研究機関だけの話と思っていたものが、財務部門で起きている。その距離は、今回の事例が縮めた。AI市場全体は2030年に120兆円規模へ向かうと予測されており、この流れの中で各企業がどう動くかが問われ始めている。