Apple、visionOS 3ベータ公開——視線だけでAIエージェントが動く新操作体系

2026年4月5日2026年4月9日

URLをコピーしました！

Appleが、ゴーグル型コンピュータ「Apple Vision Pro」向けの新しい基本ソフト「visionOS 3」のベータ版（開発者向けの試験版）を2026年4月に公開した。今回の目玉は、ユーザーが画面上の何かを「見る」だけで、AI（人工知能）がその意図を汲み取り、複数の手順を自動でこなす仕組みの追加だ。手を動かさなくても、視線だけで操作が完結する——コンピュータの「使い方」そのものが書き換わろうとしている。

Apple Vision Proはまだ一般家庭には広まっていない。しかし、アメリカの主要大企業500社の番付「Fortune 100」に入る企業のうち、50%以上がすでに業務検証用にApple Vision Proを購入しているとAppleは2024年の決算で明らかにしている。シーメンスやロウズといった製造業・小売業の大手も導入テストに参加しており、これは一部のガジェット好きだけが騒ぐ話ではない。

Appleが「見るだけでAIが動く」visionOS 3ベータを公開した

今回のリリースで何が追加されたか

visionOS 3のベータ版には、複数の新機能が含まれている。パフォーマンスの改善や新しいアプリへの対応といったアップデートに加え、今回とりわけ注目を集めているのが、AppleのAI基盤「Apple Intelligence」と視線追跡を組み合わせた新しい操作方式だ。

これまでのVision Proは、「目で選んで、指でピンチ（つまむジェスチャー）して確定する」という操作が基本だった。今回のアップデートで加わったのは、視線をAIへの命令として解釈させる仕組みだ。ユーザーが画面内のある要素を見続けると、AIエージェント（自律的に複数の作業を代行するAI）がその対象を把握し、「次に何をすべきか」を推測して実行する。

ただし、ただ眺めているだけで何でも動いてしまうわけではない。Appleはこの仕組みに「パッシブ（受動的な視線）」と「アクティブ（意図のある視線）」を区別する設計を組み込んでいる。視線の滞留のしかたや画面内での動き方、前後の文脈を組み合わせてAIが判断する仕組みだ。ただし、この識別の精度や誤作動率についてAppleは現時点で具体的なデータを公表していない。

さらに、外部のアプリ開発者がこの視線×AI連携を自分たちのアプリに組み込めるよう、「Gaze Intent API」（視線の意図を読み取るための開発者向け仕組み）も公開された。AppleのAI研究部門は画面上の要素を認識するモデル「ReALM」を開発・発表しており、ユーザーが見ている対象を特定する基盤技術として機能するとされている。これはApple社内だけの実験にとどまらず、Vision Pro向けのアプリ全体に波及しうる転換点になる。

どのデバイスが対象か

visionOS 3の対象デバイスは、Apple Vision Proのみだ。iPhoneやiPadには適用されない。

ベータ版は現在、開発者向けに公開されている段階であり、一般ユーザーが使える正式版については、Appleは具体的なリリース時期を発表していない。Appleは例年、6月の開発者向けイベント「WWDC」で新OSを発表し、秋に正式リリースするサイクルを取っている。今回のベータ公開がそのサイクルに沿ったものかどうか、Appleは明示していない。

では、そもそもなぜ「視線」なのか。その答えは、ゴーグル型デバイスが長年抱えてきた、ある身体的な問題にある。

「腕が疲れる」から「見るだけ」へ——何が根本から変わったか

Vision Proが抱えていた「ゴリラ腕」問題

VR（仮想現実）やAR（拡張現実）のゴーグル型デバイスには、長年解決できていない身体的な問題がある。「ゴリラ腕問題」と呼ばれるものだ。

空中に浮かんだ画面を操作するには、腕を目の高さまで上げ続けなければならない。最初の数分は快適でも、10分、20分と経つうちに肩が張り、腕が重くなる。人間の腕はそもそも、長時間水平に保つようにはできていない。ゴリラのように腕を前に突き出し続ける姿勢から、この問題はその名がついた。

Apple Vision Proも例外ではなかった。目で対象を選び、指でピンチ（親指と人差し指でつまむジェスチャー）して確定する——この操作の繰り返しは、慣れるほどに腕の疲労として蓄積した。「革新的なデバイスだが、長時間使うには向かない」という評価が発売直後から相次いだのは、この身体的な問題が原因の一つだった。

visionOS 3は、この問題への一つの答えを持ってきた。腕を動かす必要をなくす、という方向だ。

視線を「入力」ではなく「意図」として読む仕組み

これまでの操作は「目で狙って、手で撃つ」という二段構えだった。視線はあくまで照準を合わせるためのものであり、実際の命令は指のジェスチャーが担っていた。

visionOS 3が変えたのは、この構造の根本だ。視線を「ボタンを押す前の準備動作」ではなく、「あなたが何をしたいか」を読み取るヒントとしてAIに渡す仕組みに切り替えた。ユーザーが画面上のある要素を見ていると、AIエージェント（複数の作業を自律的に代行するAI）がその対象を認識し、「次に何をすべきか」を推測して動く。指は動かさなくていい。

この発想の転換は、単なる操作方法の改善ではない。「ボタンをもっと押しやすくする」のではなく、「ボタンを押すという行為そのものをなくす」方向へ踏み出している。操作という概念自体が消えかけている——そう言っても大げさではない変化だ。

この仕組みの技術的な基盤となっているのが、Appleが2024年に研究論文として発表したAIモデル「ReALM（Reference Resolution As Language Modeling）」だ。画面上に表示されているボタンやテキスト、アイコンといった要素を認識し、ユーザーが「どれを見ているか」を特定することに特化したモデルである。Appleの論文によれば、ReALMは画面上の要素特定という特定のタスクにおいて、GPT-4を上回る精度を示したとされている。ただし、この数値はAppleの研究論文上のベンチマーク比較であり、比較対象となったGPT-4のバージョン・タスクの具体的な定義・ベンチマーク名は論文内で特定する必要がある。実際の製品環境での性能は別途評価が必要だ。

ReALMとGaze Intent APIの技術的な補足

「Gaze Intent API」は、外部のアプリ開発者がAppleの視線×AI連携をアプリに組み込むための開発ツール（API）だ。ただし、現時点でAppleの公式開発者ドキュメントにおける具体的なフレームワーク名・SwiftUIまたはRealityKit上のAPI名称・ドキュメントURLは本記事執筆時点で確認されておらず、開発者が参照・検証するための詳細情報はApple Developer Documentation（developer.apple.com）での最新情報を直接確認されたい。

また、「視線データはオンデバイス処理でサーバーに送信されない」というAppleの説明についても、根拠となる公式プレスリリースや開発者向けドキュメントが現時点で特定されていない。Appleのプライバシー設計に関する公式情報はAppleのプライバシーページ（apple.com/privacy）および開発者向けドキュメントを参照してほしい。

誤操作を防ぐ——アクティブとパッシブの識別

「見るだけで動く」と聞いて、真っ先に浮かぶ不安がある。興味もなく目をやっただけで、意図しない操作が走ってしまうのではないか、という問題だ。

Appleはこの問題を認識した上で、「パッシブ（受動的な視線）」と「アクティブ（意図を持った視線）」を区別する設計を組み込んだ。たとえば、画面の一点に視線がある一定の時間とどまり、かつその前後の操作の文脈と合致している場合にアクティブと判断する、という形だ。ただし、具体的な滞留時間の閾値や識別アルゴリズムの詳細、誤作動率に関するデータについて、Appleは現時点で公表していない。

実際の場面で考えると、この区別の難しさがわかる。たとえばニュースを読みながら別のアプリのアイコンに視線が流れた場合、それは「切り替えたい」という意図なのか、単なる視線の迷いなのか。AIはその判断を、視線の動き方と前後の行動から瞬時に推測しなければならない。なお、視線追跡の識別精度という課題は業界共通のものであり、Meta Quest 3のアイトラッキングやTobiiといった専用視線追跡デバイスでも誤作動率の管理は継続的な技術課題として知られている。Appleが具体的なデータを公表していない点は、この課題の難しさを反映していると見ることもできる。

この識別が実用レベルで機能するかどうかは、visionOS 3の評価を左右するもっとも重要な問いだ。Appleはベータ版の段階でこの設計を公開しており、開発者コミュニティからの検証データが積み上がるのはこれからだ。「便利だけど暴走しない」を実現できるかどうかは、正式版リリースまでに見えてくる。

視線がAIへの命令になる——3つの実例

3つの実例が示す「視線AI」の拡張構造

仕組みを確認したところで、実際に何が起きるのか。具体的な場面で想像してみよう。以下の3つの実例は、視線AIの適用範囲が段階的に広がっていることを示している——画面の中のアプリ操作から、画面の端のUI操作へ、そして現実空間の認識へ。

レストランページを見て「予約して」と呟くだけで完了する

これまでの操作を思い出してほしい。食事の予約をするとき、まず検索アプリを開き、レストランのページに移動し、予約ボタンを探してタップし、日時を選んで、人数を入力して、確認画面を経て——早くて5回、場合によっては10回以上の操作が必要だった。Vision Proでも、目で照準を合わせながら指でピンチする操作を、その回数分こなす必要があった。

visionOS 3では、レストランのページを眺めながら「予約して」と声をかけるだけで完了する。AIエージェントが「ユーザーは今このレストランのページを見ている」という視線情報と、「予約して」という音声指示を組み合わせ、どの店を指しているかを特定する。そのうえで予約サイトへのアクセス、日時の選択、確認までを自律的に処理する。タップもピンチも、一度もいらない。

これを可能にしているのが、前のセクションで触れたAIモデル「ReALM」だ。画面上に表示されているボタン、テキスト、アイコンを認識し、ユーザーが「どれを見ているか」を特定することに特化している。精度に関する比較データはAppleの研究論文上のベンチマークに基づくものであり、比較対象のGPT-4のバージョンやタスク定義の詳細は論文を直接参照する必要がある点に留意されたい。

ウィンドウの端を見るとスクロールが始まる

大きな変化だけでなく、細かい操作レベルにも視線AIは入り込んでいる。

これまで、画面の中身を上下にスクロールするには、手を前に出してフリックするジェスチャーが必要だった。数秒の動作だが、長時間の作業で積み重なると、肩や腕の疲労に直結する。「ゴリラ腕問題」の本質はここにある——大きな操作だけでなく、こうした小さな動作の繰り返しが身体を消耗させる。

visionOS 3では、ウィンドウ（画面上の表示エリア）の上端か下端に視線を向けるだけで、スクロールが自動的に始まる。手は動かさない。視線がウィンドウの中央に戻ると止まる。「見ている場所がどこか」をAIが読み取り、「もっと先を見たい」という意図として解釈する。

ここで前のセクションで触れた設計上の工夫が効いてくる。「パッシブ（何となく目をやっている状態）」と「アクティブ（意図を持った視線）」の識別だ。ウィンドウの端に視線が止まった瞬間にすぐ動くのではなく、滞留の仕方や前後の文脈をAIが組み合わせて判断する設計になっている。Appleはこの識別の具体的な閾値や誤作動率について現時点で公表していないため、どの程度の精度かはベータ版での開発者による検証を待つ必要がある。

現実空間の看板や商品もAIが認識・処理する

ここまでの2つの実例は、Vision Proの画面の中で起きる話だった。3つ目は、現実空間に出る。

これまで、Vision Proで現実空間の情報を活用しようとすると、カメラで読み取るアプリを別途開き、対象を意識的に「スキャン」する操作が必要だった。QRコードを読むときのように、明示的に「読め」と命じなければ、カメラは情報を素通りしていた。

visionOS 3では、現実空間の看板や商品のラベルをVision Proのカメラが捉え、ユーザーがそれを「見ている」とAIが判断した瞬間に、情報の認識と処理が走る。街中の店の看板を眺めながら「ここの営業時間は？」と呟けば、AIが看板のテキストを読み取り、検索を実行して答えを返す。手元でスマートフォンを取り出す必要はない。

この方向性をすでに先取りしているのが、米国のホームセンター大手・ロウズ（Lowe’s）だ。同社は2024年2月、Apple Vision Pro向けの「Style Studio（スタイル・スタジオ）」を公開した。顧客がキッチンや室内の商品に視線を向けると、AIエージェントがその視線から好みを推測し、インテリアのデザイン提案をリアルタイムで行うサービスだ。「どの棚に目がとまったか」「どの素材を長く見ていたか」をAIが追跡することで、顧客が言葉にしていない好みを読み取る仕組みになっている。

ただし、ロウズのStyle Studioは旧バージョンのvisionOSをベースにした実装であり、現時点でvisionOS 3への対応が完了しているかどうかは確認されていない。今回のGaze Intent API公開によって、同様のサービスをより精緻に実装できるようになるという意味での延長線上にある、という位置づけだ。

ここまでの3つの実例を並べると、視線AIの適用範囲が段階的に広がっていることがわかる。画面の中のアプリ操作から、画面の端のUI操作へ、そして現実空間の認識へ。この拡張が意味するのは、「コンピュータを操作する」という概念の境界が、デバイスの外に出始めているということだ。そしてロウズのような小売業がすでに視線データを活用したサービスを動かしているという事実は、この技術が一企業の独自機能にとどまらず、プラットフォームとして開かれようとしている流れと重なる。

この変化は、ビジネスに何をもたらすか

ここまでは、視線AIが個人の操作体験をどう変えるかを見てきた。だが今回のvisionOS 3が持つ意味は、個人の使い勝手の改善にとどまらない。Appleが「Gaze Intent API」を外部に公開したことで、この技術は一企業の実験から、産業全体を動かすプラットフォームへと性格を変えつつある。

サードパーティアプリへの開放——Gaze Intent APIが意味すること

「Gaze Intent API」とは、外部のアプリ開発者がAppleの視線×AI連携の仕組みを自分たちのアプリに組み込めるようにするための開発ツール（API＝アプリ同士が機能を共有するための接続口）だ。これが公開されたことの意味は大きい。

これまでは、Appleが自社のアプリ内で「視線でAIが動く」体験を作るだけだった。しかしGaze Intent APIの公開により、Vision Pro向けのアプリを作っている開発者なら誰でも、この機能を自分たちのサービスに乗せられるようになる。地図アプリが「見ている場所」の情報を自動取得したり、医療用アプリが視線の動きから作業状態を把握したり——活用の形は開発者の数だけ生まれる。iPhoneにApp Storeが登場したとき、Appleだけでは思いもよらなかったアプリが次々と現れた構図と同じことが、空間コンピューティングの世界で始まろうとしている。

すでにその兆候は企業側にある。製造業の大手シーメンスは、Apple Vision Proを用いた空間エンジニアリングツール「NX AM」を業務に導入しており、AIエージェントが視覚情報を解析して設計プロセスの手動入力を削減する工程をすでに運用している。

シーメンスNX AMとvisionOS 3の統合状況について

現時点でシーメンスのNX AMがvisionOS 3およびGaze Intent APIと統合されているかどうかは確認されていない。「視線でAIへ指示する」仕組みが加わることで設計作業がさらに効率化される——というのは将来的な可能性の話だ。それでも、Vision Proが産業現場の実務に使われているという事実は、「Gaze Intent APIの公開先」がすでに存在することを意味する。研究室の外で待っている需要が、すでにそこにある。

「画面の外」に出たAIエージェントの次の一手

AIエージェントをめぐる競争は、これまでスマートフォンやパソコンの画面の中で繰り広げられてきた。どのアシスタントが賢いか、どのサービスが使いやすいか——戦場は「画面」だった。

visionOS 3が示したのは、その戦場が変わり始めたということだ。AIエージェントが「画面の中」から出て、ユーザーの身体に重なる空間全体へと拡張する。見ているものすべてが入力になる世界では、デバイスの外側とAIの境界が消える。

この方向性が向かう市場の規模は大きい。調査会社Grand View Researchの予測によれば、空間コンピューティング（AR・VRを含む、現実空間とデジタルを重ね合わせる技術全体）の世界市場は2032年までに約6,000億ドル規模に達するとされている。年平均で19〜25%の成長率だ。今のスマートフォン市場が約5,000億ドル規模であることを考えると、この数字の重みがわかる。ただし、この予測はGrand View Researchの単一ソースによるものであり、調査レポートの正式名称・発行年・調査方法論の詳細は公表されていない。IDCやGartnerなど複数の調査機関の予測との比較を経ていない点には留意が必要だ。

もちろん、この数字がそのまま実現するかどうかは誰にもわからない。しかし、Fortune 100企業の50%以上がすでにApple Vision Proを購入して業務検証を始めているという事実は、「普及するかどうか」ではなく「どう使うか」を企業が考え始めているフェーズに入ったことを示唆する。

ただし、残る問いは小さくない。「視線＝意図」という前提は本当に成り立つのか。人は興味もなく目をやることがある。仕事中に別の画面が視界に入っただけで、意図しない操作が走る可能性はゼロではない。パッシブとアクティブを区別する設計をAppleは組み込んでいるが、その識別精度についてAppleはまだ具体的なデータを公表していない。そして視線データという、これまでにない種類の個人情報が端末の内側でどう扱われるか——Appleはオンデバイス処理（データをサーバーに送らず端末内で完結させる処理）であると説明しているが、その根拠となる公式ドキュメントや発表資料は現時点で特定されておらず、独立した検証はこれからだ。

「操作する」という行為が消えていく先に何が来るのか。それを最初に形にしたのがAppleだとしても、その答えはまだ誰も持っていない。