ChatGPTが「間違える」ことは、これまで使う側が黙って受け入れてきた。医療の知識を尋ねれば存在しない薬が出てくる、法律の疑問を投げれば架空の判例が返ってくる——AIが自信たっぷりにウソをつく現象を、業界ではハルシネーションと呼ぶ。OpenAIは6月24日、その前提を数字で揺さぶる発表をした。
標準モデルを大型刷新、即日展開
ChatGPTのアプリを開くだけで、中のAIはすでに入れ替わっている。OpenAIは今年5月、ChatGPTで使われる標準のAI(デフォルトモデル)を最新版に切り替えた。ユーザーが設定を変える必要はない。スマートフォンでも、パソコンのブラウザでも、起動した瞬間から新しいAIが動いている。
切り替えは有料プランの利用者(Plus・Pro・Business・Enterprise)が先行し、翌月には無料ユーザーにも開放された。世界のChatGPTユーザー全員が、ほぼ同時に同じアップデートを受け取った形だ。
ただ、新しくなっただけなら毎回のアップデートと変わらない。今回が違うのは、企業がAIを本番業務で使えなかった最大の理由——医療・法律・金融での誤りの多さ——に正面から切り込んだ点だ。
専門領域の誤回答が半分以下に
処方薬の相互作用を間違える、存在しない判例を引用する、適用できない税制を正確な数字とともに説明する——こうした誤りをAIは堂々とやってのける。しかも謝らない。正しい情報と同じ口調で、間違いを語る。これが企業にとって「使いたいけど怖い」の正体だった。特に医療・法律・金融では、一つの誤りが患者の安全や企業の法的責任に直結する。
OpenAIの公式発表によると、今回の新モデルではこれらの重要領域でのハルシネーション発生率が、前モデル比で52.5%削減された。10回誤っていたとしたら、5回以下になった計算だ。さらに、過去にユーザーが「この回答は間違い」と報告した難しい質問でも、不正確な記述が37.3%減っている。
ただし、この数値はOpenAI自身による社内評価に基づくものだ。独立した第三者機関による検証は公表されておらず、測定手法の詳細も開示されていない。
三菱UFJ銀行(MUFG)はOpenAIと戦略的パートナーシップを結び、最新モデルを全行員3万5000人に展開した。稟議書の作成補助やコンプライアンス確認の迅速化が主な用途で、金融実務という誤りが許されない現場での全面採用だ。パナソニック コネクトはAI活用で年間44.8万時間の業務削減を実現している。
52.5%の削減は、裏から読めば「まだ約半分が誤る可能性がある」ということだ。しかもOpenAIは、残存するハルシネーションがどの領域・どの質問タイプに集中しているかを明らかにしていない。一般論として、AIの誤りは「珍しい薬の組み合わせ」「特定の国・地域の法解釈」「複数の分野をまたぐ複合質問」など、専門家でなければ気づきにくい際どい場面に残りやすい傾向がある。よく聞かれる標準的な質問では正解率が上がりやすく、専門性の高い局面では誤りが残りやすい。それを踏まえてもなお、実名の大企業が動き始めた事実が、今回の改善の重さを示している。
業務での使い勝手はどう変わるか
信頼できるかどうかと、使いやすいかどうかは別の問いだ。精度が上がっても、使う側の手間が変わらなければ、実務への定着は遠い。今回の刷新では、誤回答の削減と並んで、日常業務での使い勝手にも手が入った。
質問の意図を読む力が向上
今回のアップデートで変わったのが、複数の条件を一度に伝えたときの精度だ。「予算は3万円以内、国産品、翌日配送」——こうした複数条件の質問で、以前は一部の条件が読み飛ばされることがあった。それが改善された。あわせて、「他にお手伝いできることはありますか?」という定型的な締め文句も抑制され、回答が実務向きに引き締まった。
回答が30%短くなった
ビジネス+ITの報道によると、同じ情報量を維持したまま、単語数で30.2%、行数で29.2%短くなった。AIの回答が長すぎて、肝心な部分を探すのに時間がかかる——その手間が、設計レベルで解消されている。
参照元をユーザーが確認できる
実務利用という観点で、今回最も注目したい変化がある。「Memory Sources(メモリソース)」と呼ばれる新機能だ。AIが回答の根拠にした情報が、画面上で一覧として表示される。たとえばChatGPTが「先月の会話で話した予算の話」や「連携しているGmailに届いた見積もりメール」を参照して答えていたとしたら、それが項目として画面に表示される。不要だと思った情報は、そこから削除できる。
これまで、AIがなぜそう答えたのかは見えなかった。「正しいかもしれない、間違っているかもしれない」の間で、ユーザーは回答を信じるしかなかった。Memory Sourcesは、その不透明さに一定の答えを出す試みだ——AIの根拠を人間が確認できるようにすることで、「使う側が検証できるAI」に近づける。
OpenAIは公式ブログで、自社財務部門での活用事例も公開した。約2万5000件の税務申告書のレビューにAIを活用し、前年比で2週間分の作業を短縮したという。「回答の根拠を確認・削除できる」仕組みがあることで、責任の所在を意識する業務でも使いやすくなる。企業がAIを本番業務に踏み切るための条件の一つが、ここに来てようやく整い始めた。
