ElevenLabs
「”声”から始めて、音のすべてを握る」
- 🤖 AIオーディオプラットフォーム
- 🇺🇸🇬🇧 ニューヨーク&ロンドン
- 🚀 Series D
評価額
約1.7兆円
ARR
495億円
対応言語
70以上
ElevenLabsとは?
音声復元技術の無償提供1,500億円相当
ALS(筋萎縮性側索硬化症)などで声を失うリスクのある人々に向けて、ElevenLabsは自社の音声クローン技術を無償で開放すると表明しています。
評価額1.7兆円の急成長企業が、なぜ”声を失う人”にここまでコミットするのか?その答えは、この企業の成り立ちそのものにあります。
Timeline
沿革
CEOのMati StaniszewskiとCTOのPiotr Dąbkowskiが共同創業。2人とも母国語のなまりに苦労した原体験が出発点です。
テキストを貼るだけでリアルな音声が生成できる手軽さが話題に。公開数週間で利用者が急増しました。
Nat Friedman、Daniel Gross らエンジェル投資家が参加。プロダクトの完成度が評価されました。
Andreessen Horowitzがリード。評価額が10億ドルを突破し、創業からわずか2年でユニコーン入りしました。
PDF・記事を自分好みの声で読み上げるリーダーアプリと、動画の多言語吹替機能を相次いで投入。「読む」から「聴く」への転換を加速させました。
ElevenAgentsとして、電話応対や接客を自律的にこなすAIエージェントの構築基盤をローンチ。B2B領域へ本格参入しました。
Iconiq GrowthやSequoia Capitalらが参加。1年前の約3倍という評価額の跳ね上がり方が業界を驚かせました。
MerlinやKobalt Music Groupとライセンス契約を締結し、ロイヤリティ50/50の権利者保護モデルで音楽生成市場に参入しました。
About
ElevenLabsを一言で
文字を打つだけで「本物の人間の声」が出てくる——そのAIを作っている会社
- 映画の吹替やナレーション制作に使われている音声AI
- 音楽生成・文字起こしまで「音」に関わる領域を丸ごとカバー
- 病気で声を失った人の声をAIで復元している
- 創業4年で評価額約1.7兆円
VS
何が違うのか?
業界の常識 vs ElevenLabs
1つの基盤モデルで70言語を突破する
言語ごとに専用モデルを開発し、対応言語を1つずつ増やす。
単一の基盤モデルで70以上の言語をカバーし、追加コストなく多言語展開する。
動画を作らずに動画市場の音声を押さえる
映像制作ツールを丸ごと提供し、音声はその一機能にすぎない。
動画は他社に任せ、吹替・ナレーション・効果音など”音だけ”をAPIで押さえる。
「正確に読む」から「人間らしく話す」へ競争軸を変えた
誤読の少なさや対応フォーマットの多さで差別化する。
感情の揺れや間合いまで再現し、「聴いて人間と区別がつかない」を勝負軸にした。
他社が「対応言語の数」で競っていた中、ElevenLabsは「本物の人間に聞こえるかどうか」で勝負した。
ポーランド育ちの「吹替への怒り」が、1.7兆円企業を生んだ
Leadership
経営陣
ポーランド育ちの「吹替への怒り」が、1.7兆円企業を生んだ
この2人の出発点は、シリコンバレーの起業家にありがちな「市場機会を見つけた」ではありません。母国ポーランドで観たハリウッド映画の吹替があまりにひどかった——その個人的な怒りです。
Mati Staniszewski
マティ・スタニシェフスキ
吹替への怒りを事業にした人
ポーランド出身 / Google元インターン / 大学時代から音声合成を研究
「ポーランド語の映画吹替がなぜこんなに不自然なのか」という素朴な疑問が、多言語音声AIという巨大市場への入口になりました。技術者でありながらビジョナリーで、「声は人間のアイデンティティそのものだ」という信念を一貫して語っています。
Piotr Dąbkowski
ピョートル・ドンブコフスキ
ビジョンを技術で形にする人
ポーランド出身 / 機械学習エンジニア / Staniszewskiの共同創業者
Staniszewskiのビジョンを技術的に実装する頭脳です。70以上の言語を単一の基盤モデルでカバーするElevenLabsのコアアーキテクチャ「Eleven v3」の設計を主導しました。
経歴
| 学歴 | 大学時代に音声合成・深層学習を研究 |
|---|---|
| 前職 | Googleでのインターンを経験 |
| 現職 | ElevenLabs 共同創業者 & CEO |
注目ポイント
Staniszewskiが繰り返し語るのは「ポーランドで育ったからこそ、言語の壁がどれほど深刻か肌でわかる」ということです。英語圏の創業者には見えにくい多言語の痛みを原体験として持っていることが、ElevenLabsのプロダクト思想の根幹になっています。ALS患者への音声クローン無償提供も、「声=アイデンティティ」という彼の信念から生まれた施策です。
経歴
| 学歴 | 機械学習・音声処理を専門的に研究 |
|---|---|
| 前職 | 機械学習エンジニアとしてのキャリア |
| 現職 | ElevenLabs 共同創業者 & CTO |
注目ポイント
Dąbkowskiの最大の功績は、言語ごとに個別モデルを作るという業界の常識を覆し、1つの多言語基盤モデルで70言語以上をカバーする設計を実現したことです。この技術的判断がElevenLabsのスケーラビリティを決定づけ、OpenAI TTSやMicrosoft Azure Speechといった巨大プラットフォームの音声機能とは異なるアプローチで差別化する土台になっています。
ひとこと補足
声を保存する技術
Hookで触れた「無償提供」——具体的に何をしているのか?
ALSなどの難病で声を失う患者に向けて、まだ声が出せるうちに音声データを保存し、失声後にAIで再現する「Voice Banking」という仕組みを無償提供しています。
ALS患者のDebbie Lopezさんは、YouTubeに残っていた過去の動画から自分の声を復元し、子どもに「お母さんの声」で絵本を読み聞かせています。
この技術は企業向けのナレーションや吹替に使われているものと同じ基盤です。本業の技術をそのまま患者支援に転用している——慈善活動ではなく、コア技術の応用先のひとつという位置づけです。
Product
プロダクト全体像
1つの基盤モデルから、音の入出力すべてをカバーするプロダクト群
ElevenLabsのプロダクトは「基盤モデルの上に用途別ツールが乗る」というレイヤー構造になっています。
土台にあるのがEleven v3という多言語音声基盤モデルで、その上に対話AI・音楽生成・文字起こしといった専門プロダクトが展開されています。
音声を「作る」だけでなく「聴く」「話す」「書き起こす」まで——音に関わるあらゆる入出力を1社で押さえにいく構図です。
70言語を1つのモデルでカバーする、ElevenLabsの心臓部
Eleven v3
全プロダクトの土台となる基盤モデル
言語ごとに個別モデルを開発するのが業界の常識だった中、Eleven v3は単一モデルで70以上の言語に対応しています。感情の揺れや息づかいまで再現する自然さが特徴で、OpenAI TTSやMicrosoft Azure Speechが「正確に読み上げる」ことに注力してきたのに対し、ElevenLabsは「人間と区別がつかない」を競争軸にしました。ALS患者の声を復元するProfessional Voice Cloneも、企業向けナレーションAPIも、すべてこのv3の上で動いています。
Fortune 500の75%以上が導入
毎日6万件のコールを捌く、音声AIの実戦部隊
ElevenAgents
電話応対・接客を自律的にこなすAIエージェント基盤
v3の音声品質をリアルタイム対話に応用したB2B向けプロダクトです。インド最大級の中古車プラットフォームCARS24では、ヒンディー語と英語で毎日60,000件以上の顧客コールを自動処理しています。住宅用太陽光発電のFreedom Foreverでは成約率を2倍に高め、営業コストを41%削減しました。2026年4月にはBCGとの戦略的パートナーシップも締結し、エンタープライズ領域への展開を本格化させています。
営業コスト41%削減
業界初のロイヤリティ50/50モデルで音楽市場に参入
ElevenMusic
権利者と利益を分け合うAI音楽生成
2026年4月に正式リリースされた音楽生成プロダクトです。SunoやUdioといった先行するAI音楽生成サービスが権利処理の曖昧さで批判を受けてきた中、ElevenLabsはMerlinやKobalt Music Groupとライセンス契約を締結し、生成された楽曲の収益をアーティスト側と50/50で分配するモデルを採用しました。「作る技術」だけでなく「権利の仕組み」ごとデザインしている点が、音楽業界からの信頼獲得につながっています。
ロイヤリティ50/50分配
音を作る会社が、音を文字に戻す側にも回った
Scribe v2
音声の「出力」だけでなく「入力」もカバーする文字起こし
音声合成で培った言語理解を逆方向——音声から文字への変換——に応用した文字起こしエンジンです。99言語に対応し、話者の識別やタイムスタンプ付与も自動で行います。ElevenLabsが「音声合成の会社」ではなく「音のプラットフォーム」を名乗る根拠がここにあります。音の出口(生成)と入口(書き起こし)の両方を押さえることで、競合のOpenAI WhisperやGoogle Speech-to-Textとは異なる「音の全方位カバー」というポジションを築いています。
話者識別・タイムスタンプ自動付与
ひとこと補足
AIが作った曲の「ドラムだけ変えたい」——ElevenMusicでようやくそれができるようになった
プロダクトセクションで登場したElevenMusic——その核心技術をやさしく解説します
従来のAI音楽生成(SunoやUdio)は、曲が丸ごと1つの完成品として出てくる方式でした。ドラムだけ控えめにしたい、ボーカルだけ変えたい——そういう部分調整ができず、気に入らなければ最初からやり直すしかなかった。
ElevenMusicは、生成した楽曲をドラム・ベース・ボーカルなどパーツごとに分離して出力します。Photoshopのレイヤーのように、各パーツを個別に差し替えたり調整できる。プロの制作現場で「使える素材」になる技術です。
Partnerships
パートナーシップ
動画AIの巨人たちが「音声だけはElevenLabsに任せる」という構図
ElevenLabsのパートナーシップを見ると、ひとつの興味深いパターンが浮かび上がります。
自社で音声技術を持っているはずの巨大企業が、わざわざElevenLabsと組んでいるという点です。
動画生成AI「Sora」の映像にElevenLabsの音声レイヤーを統合。自社TTSを持ちながら、多言語の自然さでElevenLabsを選んでいます。
動画生成AI「Veo」との統合。Google Cloud Speech-to-Textとは競合関係にありながら、動画音声では協業する形です。
AI領域で最も影響力のあるVCの一つ。2026年2月のSeries Dで約750億円の調達をリードしました。
2026年4月に提携を締結。BCG Xのソリューションに音声AIエージェントを統合し、エンタープライズ顧客への大規模展開を進めています。
日本・アジア市場展開の橋頭堡となる出資。70言語対応の強みをアジア圏で活かすための布石です。
なぜ巨人たちは自社開発せずElevenLabsに頼るのか
インサイト
OpenAIにはTTSがあります。GoogleにもCloud Speech系の音声技術があります。
それでも動画AIの音声レイヤーをElevenLabsに「外注」しているのは、音声合成の品質——とりわけ多言語での感情表現や間合いの自然さ——が、片手間で追いつけるレベルではないからです。
動画AIと音声AIの両方を内製するより、それぞれの専門家が分業した方が開発速度もクオリティも上がる。ElevenLabsは「音のレイヤーだけを握る」という戦略で、競合になりうる巨大プラットフォームをパートナーに変えています。
この構図が続く限り、動画AI市場が成長するほどElevenLabsの音声インフラとしての存在感も増していくことになります。
投資家・導入企業・開発者——それぞれの立場から見えるElevenLabsの実像
Voices
業界の声
投資家視点
ElevenLabsはシリーズDで5億ドルを調達し、企業価値は110億ドルに到達した。わずか1年前の33億ドルから3倍以上の急騰であり、音声AI市場におけるプラットフォームとしての地位が投資家に評価された形だ。
出典: EntrepreneurLoop – Voice AI Startup ElevenLabs Secures $500 Million
SaaS業界メディア
ElevenLabsはARRゼロから3年で3億ドルに到達した。24ヶ月間で1,100%成長という数字は、AI B2Bアプリの中でも突出しており、最も速く成長しているAIアプリケーションの一つである。
導入企業
住宅用太陽光発電の営業にElevenLabsの音声AIエージェントを導入した結果、成約率が2倍に向上し、オリジネーションコストを41%削減することに成功した。
戦略パートナー
2026年4月に戦略的パートナーシップを締結。BCG XのソリューションにElevenLabsの音声AIを統合し、自律型音声AIエージェントを大規模に展開することで、企業の顧客体験を変革する。
急成長の裏側にある、この企業だからこそ抱える4つのリスク
⚠ Risk Assessment
リスク評価
音声ディープフェイク・悪用リスク
声のクローン技術は詐欺・なりすまし・政治的悪用に直結します。実際に2023年、ElevenLabs自身の技術を使った悪用事例が報じられました。EU AI Actをはじめとする規制強化が進む中、音声クローン技術への法的制限が事業の根幹に直接影響する可能性があります。
音楽著作権訴訟リスク
AI音楽生成の先行サービスであるSunoとUdioは、2024年にレコード会社から著作権侵害で訴訟を起こされています。ElevenMusicはMerlinやKobaltとライセンス契約を結んで先手を打っていますが、学習データの透明性が問われる流れは避けられません。Music Marketplaceでの収益化モデルが権利問題にどこまで耐えられるか、まだ実戦で検証されていない段階です。
プラットフォームパートナーが競合に転じるリスク
SoraやVeoとの連携は現在の強みですが、OpenAIもGoogleも自社の音声技術を持っています。「音声だけはElevenLabsに任せる」という今の構図は、彼らが本気で音声品質を引き上げた瞬間に崩れる可能性があります。パートナーと競合の境界線が曖昧なまま、プラットフォーム依存が深まっている状態です。
急拡大に伴う品質・ブランド管理リスク
音声合成、音楽生成、動画吹替、AIエージェント、政府向け——わずか200名超の組織で全方位展開を進めています。各領域で求められる品質基準もコンプライアンス要件も異なる中、どこかで綻びが出れば「音のプラットフォーム」というブランドの一貫性が揺らぐリスクがあります。
最大のリスクは「自社技術が武器にも凶器にもなる」こと
インサイト
ElevenLabsのリスクを俯瞰すると、4つのうち上位2つ——ディープフェイク悪用と著作権問題——はどちらも「自社のコア技術が優秀すぎることから生まれるリスク」です。
声を完璧に再現できるからこそ詐欺に悪用される。音楽を高品質に生成できるからこそ著作権の壁にぶつかる。
技術力が事業の推進力であると同時に、規制や訴訟の標的にもなるという構造的なジレンマを抱えています。ElevenLabsがMerlin・Kobaltとのライセンスモデルや、音声クローンの本人認証プロセスなど「ガードレール」の構築に積極的なのは、この構造を自覚しているからこそでしょう。ただし、技術の進化が規制の整備を常に追い越すAI領域において、現時点のガードレールが十分かどうかは誰にもわかりません。
What’s Next
今後の展望
この先、ElevenLabsが狙っている4つの方向
ElevenLabsはすでに音声合成・音楽生成・AIエージェント・文字起こしと手を広げていますが、これはまだ序章です。
公表されている動きや戦略投資の方向性から、次の一手が見えてきます。
AI音楽を「売る場所」も自分で作る
ElevenMusicで楽曲を「作る」基盤は整いました。次はそれを「売る」場所を作ろうとしています。クリエイターがAI生成楽曲やステム素材を公開・販売でき、収益がロイヤリティ50/50モデルで権利者に還元されるマーケットプレイスの構想です。ElevenLabsはこれまで音声クローン提供者に対して1,100万ドル以上を支払ってきた実績があり、その「クリエイターに還元する」仕組みを音楽でも再現しようとしています。
政府・公共機関にも音声AIを展開する
政府・公共機関向けにセキュリティを強化した専用環境の展開を進めています。すでにウクライナ政府が多言語情報発信にElevenLabsを活用した実績があり、紛争地域や災害時の緊急コミュニケーションなど「70言語を即座に扱える」強みが公共領域でも需要を生んでいます。EU AI Actなど規制強化の流れがある中で、政府案件の実績は技術の信頼性を証明するカードにもなります。
東京・ソウルにチームを置いてアジアを攻める
NTT DOCOMO Venturesからの戦略投資を橋頭堡に、東京・ソウルへのローカルチーム配置を進めています。日本語・韓国語は音声合成の難度が高い言語ですが、Eleven v3の多言語基盤モデルなら言語追加のコストが低い。BCGとの戦略提携もアジア圏のエンタープライズ営業を加速させる布石です。AI音声生成市場が2034年に368億ドル規模へ拡大するとされる中、アジアはその成長の大きな部分を占めます。
動画AIの「音」を全部握りにいく
現在ベータ段階にあるImage & Video機能を正式版へ引き上げ、映像に音声・BGM・効果音を自動付与する「音声レイヤーのデファクト」を目指しています。OpenAIのSoraやGoogleのVeoとの連携がすでに始まっている通り、動画AI市場が成長するほどElevenLabsの音声インフラとしてのポジションが強化される構図です。映像は他社が作り、音はElevenLabsが担う——この分業モデルが定着すれば、動画AI市場の成長がそのままElevenLabsの成長に直結します。
目指しているのは「音のAWS」
インサイト
音声→音楽→動画音声という拡張パスを俯瞰すると、ElevenLabsが狙っているのは「AIが生成するあらゆるコンテンツの音響インフラ」というポジションです。
AWSがクラウドの裏側でほぼすべてのWebサービスを支えているように、ElevenLabsは自分でコンテンツを作らず、全員の裏側で音を支える存在になろうとしています。動画AIの会社も、ゲーム会社も、教育プラットフォームも、音声が必要になったらElevenLabsのAPIを叩く——そういう世界です。
現時点でFortune 500の75%以上が導入済みという数字は、このインフラ化がすでに始まっていることを示しています。問題はむしろ、リスクセクションで触れた通り、OpenAIやGoogleが「自前でやろう」と決めたときにこの構図が維持できるかどうか。4つの展望すべてに通底する最大の変数は、結局そこにあります。
「声のAI」という入口の狭さに、騙されてはいけません。
ElevenLabsがやっていることは、AIが生成するあらゆるコンテンツの「耳」を押さえにいくことです。
音声合成から始まり、音楽生成、動画の音声レイヤー、対話エージェント、文字起こし——「音」に関わる全領域を、Eleven v3という単一の基盤モデルで統合しようとしている。OpenAIやGoogleがそれぞれ個別に手がけている機能を、1社で、しかもより速く展開しているのが現状です。
評価額1.7兆円、ARR3億ドル超という数字は、その射程の広さへの賭けでしょう。
ただし、この記事で見てきた通り、ディープフェイクリスクと著作権問題という地雷は確実に存在します。自社技術が優秀すぎるがゆえに規制の標的になるという構造的ジレンマは、成長すればするほど深刻になる。
「音のAWS」になれるのか、規制の壁に阻まれるのか。
ElevenLabsは今、まさにその分岐点に立っています。
Takeaway
この記事のポイント
- ポーランド出身の2人が「吹替のひどさ」への怒りから創業し、わずか4年で評価額1.7兆円・ARR3億ドル超に到達した音声AIスタートアップ
- 単一の基盤モデル「Eleven v3」で70言語以上をカバーし、OpenAIやGoogleの動画AIが「音声レイヤーだけはElevenLabsに任せる」構図を作った
- 音声合成・音楽生成・AIエージェント・文字起こしまで「音の全領域」を1社で押さえにいく戦略で、Fortune 500の75%以上が導入済み
- MerlinやKobaltとロイヤリティ50/50のライセンス契約を結び、AI音楽生成の権利問題に業界で最初に正面から取り組んでいる
- 最大のリスクは「自社技術が優秀すぎるがゆえにディープフェイク悪用・著作権訴訟の標的になる」という構造的ジレンマ——成長と規制の分岐点にいる
— 読了お疲れさまでした。この企業の最新動向は、AI産業通信で随時更新します。
編集部コラム
ポーランド語吹替に怒った青年の話が、ずっと頭に残っている
評価額1.7兆円、ARR3億ドル超。数字だけ見ると天才起業家の物語に見えますが、出発点はポーランドで育った青年がハリウッド映画の吹替に腹を立てた、ただそれだけです。
一番印象に残っているのはDebbie Lopezさんの話です。ALSで声を失いつつある彼女が、YouTubeに残っていた過去の動画から自分の声を復元して、子どもに「お母さんの声」で絵本を読み聞かせている。
吹替への怒りから始まった技術が、誰かの声を守る道具になっている。この一本線が、この企業の一番強い部分だと思っています。
AI産業通信 編集部
Company Data
基本情報
| 正式名称 | ElevenLabs, Inc. |
|---|---|
| 設立 | 2022年1月 |
| 代表者 | Mati Staniszewski(CEO) |
| 本社 | ニューヨーク(米国)/ロンドン(英国) |
| 従業員数 | 約200名 |
| 累計調達額 | 約1,010億円 |
| 推定企業価値 | 約1.7兆円(110億ドル) |
| 主要投資家 | Iconiq Growth, Sequoia Capital, Andreessen Horowitz, NTT DOCOMO Ventures |
| 公式サイト | https://elevenlabs.io |