Google Researchが、AIの推論時に必要なメモリを最大6分の1に圧縮し、処理速度を最大8倍に高速化する新アルゴリズム「TurboQuant」を発表した。AIの運用コストを大幅に下げる可能性があり、発表直後にはメモリ関連企業の株価が下落するなど市場にも波紋が広がっている。
何が発表されたか
Google Researchは2026年3月、AIが文章を生成する際に使うKVキャッシュ(会話の文脈を保持する作業メモリ)を最大6分の1に圧縮し、処理速度を最大8倍に高速化するアルゴリズム「TurboQuant」を発表した。精度をほぼ落とさずにこれを実現したとしており、2026年4月開催のAI研究の国際会議「ICLR 2026」での正式な論文発表が予定されている。
追加の学習や再トレーニングを一切必要とせず、既存のAIモデルにそのまま適用できる点も大きい。新技術の導入には通常、モデルの作り直しや大規模な調整が伴うが、TurboQuantはその手間なく使い始められるため、企業が実運用に踏み切るまでの障壁が低い。
では、そもそもなぜメモリの圧縮がそれほど重要なのか。
なぜメモリが問題だったのか
ChatGPTのような対話AIは、会話の文脈を記憶しながら返答を生成する。この記憶領域——「KVキャッシュ」と呼ばれる、AIが「これまで何を話したか」を保持するための作業メモリ——が、AIを動かすサーバーのメモリを大量に消費する。会話が長くなるほどKVキャッシュのデータは膨れ上がり、高価なGPUのメモリを圧迫して、運用コストの増大や同時処理数の制限に直結していた。
この壁を、TurboQuantはどう突破したのか。
どうやって6分の1を実現したのか
従来も、KVキャッシュを圧縮する量子化技術(INT8やINT4など、数値の精度を下げてデータ量を減らす手法)は存在した。しかし、大きく圧縮するほど回答の質が落ちるというトレードオフが長年の壁だった。原因のひとつは、量子化の際に生じる誤差を補正するために必要な「スケーリングファクター」などの付属データ自体がかさばり、圧縮の効果を打ち消してしまうことにあった。
TurboQuantはこの付属データをほぼゼロに近づける独自の符号化方式を採用することで、KVキャッシュを通常の約5分の1以下まで圧縮しながら回答の質をほぼ維持することに成功したとされる。
技術的な背景:既存手法との違い
INT8やINT4といった従来の量子化手法は、数値を低ビット精度に丸めることでデータ量を削減する。ただし、丸め誤差を補正するためのスケーリングファクターやゼロ点データを各テンソルに付随させる必要があり、圧縮率が高まるほどこの付属データの相対的なコストが増大する。
TurboQuantはKVキャッシュのデータ分布の特性を利用し、補正データをほぼ不要にする符号化アルゴリズムを導入した点が既存手法との主な差異とされる。ただし、具体的なアルゴリズムの詳細および精度検証の定量データ(ベンチマーク名・精度低下率など)はICLR 2026の正式論文で開示される予定であり、現時点では独立した第三者による検証は行われていない。
また、「メモリ消費6分の1、速度8倍」はNVIDIA H100上での検証における最大値であり、すべての環境で同じ数字が再現されるわけではない点にも留意が必要だ。
この発表は、即座に市場を動かした。
市場の反応——メモリ関連株が一時下落
TurboQuant発表後、データセンター向けのメモリ需要が減少するとの懸念から、Western Digitalを含むメモリ関連企業の株価が一時下落したと伝えられている。ただし、この報道については金融・テック専門メディアによる確認報道が現時点で確認できておらず、信頼性の高い続報を待つ必要がある。
下落の背景:AIが省メモリで動くようになれば、データセンターが購入するメモリの量が減るとの見方が売りにつながったとされる。
反論:コストが下がればAI導入企業が増え、トータルのメモリ需要はむしろ拡大するという見方も出ている。
現状:いずれの主張も、現時点では独立した報道機関による裏付けが取れていない未確認情報の段階にある。
今後の見通し
TurboQuantが実用化されれば、企業のAI運用コストが大幅に下がる可能性がある。同じ設備でより多くのユーザーにAIサービスを提供できるようになるほか、サーバー側の推論コストを下げることで、中小企業や新興企業がAIを活用しやすい環境が整う可能性もある。
ただし、現時点では研究発表の段階だ。2026年4月のICLR 2026で正式な論文が公開され、独立した研究者による検証が始まる。精度の定量的根拠(ベンチマーク名・精度低下率など)や技術的な詳細もそこで示される見通しであり、実用化の可否はこの検証を経て判断されることになる。
