AIに仕事を「任せる」という感覚が、現実に近づいてきた。Anthropicは2026年4月16日、新モデル「Claude Opus 4.7」を正式公開した。コーディングの精度は業界最高水準に達し、価格は据え置き。そして今回、最も目を引くのは数字ではない。AIが自分の回答を自分で検査する「自己検証」という仕組みだ。
Claude Opus 4.7が4月16日に正式公開
2026年4月16日、AnthropicはClaude Opus 4.7を正式に公開した。Claude API、Amazon Bedrock、Google Cloud Vertex AIの3つのプラットフォームで当日から利用できる。Claude.aiのPro・Max・Team・Enterpriseプランを契約しているユーザーも、追加費用なしで即日アクセス可能だ。
価格は前バージョン「Opus 4.6」から据え置き。同じコストで、より高い性能が使えることになる。コーディング精度を測る業界標準の指標「SWE-bench Verified」(AIがどれだけ実際の開発課題を解けるかを測る試験)では87.6%——10件中9件近くを自力で解ける水準——を記録し、前モデルの80.8%から6.8ポイント上昇した。
ただ、今回の公開で最も注目されているのは精度の数字ではない。Anthropicが搭載した「自己検証」——AIが自分の答えを自ら検査するという新しい仕組みが、業界の目線を引きつけている。
自己検証がAIの信頼性を変える
AIが「できました」と返す前に、自分で答えを確かめる——Opus 4.7が持ち込んだのは、そういう仕組みだ。
回答前に内部チェックを走らせる仕組み
「自己検証(Self-Verification)」とは、AIが答えを返す前に自分でテストを走らせ、誤りを確認するプロセスのことだ。人間でいえば、レポートを提出する前に読み返す行為にあたる。その見直しを、AI自身が自動でやる。
これまでのAIは、作業が終わったと判断した時点で結果を返すだけだった。正しいかどうかの確認は、受け取った人間の側がやる必要があった。Opus 4.7は違う。完了を宣言する前に、テストコードを書いて実行し、論理チェックをかけ、自分の出力を自分で検査するプロセスを内側に持っている。「答えを出す」と「答えを確かめる」が、同じAIの中に収まっている。
ただし、この自己検証が有効なのは「答えが正しいかどうかを機械的に確かめられる作業」に限られる。コードのテスト、数値計算、定型的なデータ処理といった領域では効果を発揮するが、文章の質や創造的な判断のように「正解が一つではない作業」では、自己検証は機能しない。使える場面とそうでない場面がある、というのが現時点の実態だ。
構築から検証まで——自律実行の実例
コード開発ツールを提供するVercelは、Anthropicの公式発表ページ上のパートナーコメントとして、Opus 4.7の動作をこう報告した。「システムコードを書く前に、モデル自らが検証を行う動作を確認した。これまで人間の監視が必要だった高度なタスクを、信頼して任せられるようになった」。
Vercelがこれまで「使う」止まりだったのは、AIが間違いを見逃すリスクがあったからだ。自己検証によって、その壁が動き始めた。
Anthropicが同発表内で公開した内部テストの事例はさらに具体的だ。AIは音声読み上げソフトをRust(システム開発に使われるプログラミング言語)でゼロから構築し、完成後は別の音声認識ソフトをツールとして呼び出して自動テストを実施。エラーが見つかれば自分で修正するという一連の作業を、人間の介入なしに単独で完結させた。
「作る」「テストする」「直す」という3つのステップを、AIが自分の中で循環させた形だ。これまでこのサイクルには必ず人間が介在していた。
企業が「任せる」に動き始めた
「数週間」が「数分」になった現場
Vercelがいう「信頼して任せられる」という感覚は、他の現場でも数字として現れ始めている。
データ基盤サービスを手がけるSnowflakeは、Anthropicの発表に合わせてOpus 4.7を即日採用したと述べた。自然言語から本番環境向けのデータパイプライン(システム間のデータの流れを繋ぐ仕組み)を自動生成する際、これまで人手で数週間かかっていた「接着剤コード」(異なるシステムを繋ぐための調整コード)の記述が数分で終わるようになったという。かかる時間の桁が変わった。
AIコードエディタ「Cursor」を開発するAnysphereも、自社の評価指標でOpus 4.7の性能を計測し、前バージョンの58%から70%へと12ポイント上昇したと報告した。自己検証によって途中の誤りを自分で修正できるようになったことで、「作業を始める」だけでなく「作業を終える」確率が上がった——同社はそう分析している。
複数の企業が、同じ方向の変化を報告している。人間が確認に入るタイミングを後ろにずらせるようになった、というのが共通する実感だ。
長時間タスクの自律実行へ
自己検証の効果は、作業の長さにも影響する。
Anthropicは今回、長時間の作業を人間の監視なしに走らせる「Claude コンピュータ使用」(コンピュータを直接操作しながら複数のステップを自律的にこなす機能)の性能も強化したと明かしている。数時間にわたる作業を単独でこなす能力が上がった。
この長時間稼働が意味を持つのは、自己検証があるからだ。AIが途中でエラーを見逃したまま走り続けても、最終的に誤った結果を返すだけになる。逆に言えば、自分で誤りを検出・修正できるAIなら、人間が常時見張っていなくても長い作業を任せられる。自己検証と長時間自律実行は、セットで機能する。
ソフトウェア開発・文書処理・データ管理。業種も作業の種類も異なる現場で、「任せる」という判断が動き始めている。AIの自己検証が精度を押し上げた結果、企業担当者が「使う」から「任せる」に踏み込める条件が整い始めた——今回のOpus 4.7が示しているのは、そういう変化だ。ただ、自己検証をさらに誰が検証するのかという問いには、まだ答えが出ていない。
