Whisper
OpenAIが開発した、98言語対応のオープンソース音声認識AI
音声認識
文字起こし
多言語対応
OSS / API従量課金
学習データ
68万時間
対応言語
98言語
開発元
OpenAI
最新モデル
large-v3-turbo
| 公式サイト | openai.com/index/whisper |
|---|---|
| 運営会社 | OpenAI(米国・サンフランシスコ) |
| 対応言語 | 98言語(日本語対応) |
| 対応デバイス | API(Web)/ OSS(自社サーバー) |
| ライセンス | MITライセンス(商用利用・再配布可) |
| API提供 | あり(OpenAI API / Azure OpenAI Service) |
この記事でわかること
Whisperは、OpenAIが開発した音声認識AI(音声をテキストに変換するツール)です。68万時間分の音声データで学習されており、98言語に対応。オープンソースで無料利用でき、API経由なら1分あたり約0.9円(為替レートにより変動)と低コスト。議事録作成やコールセンター分析での導入事例が増えていますが、リアルタイム処理や話者の区別には弱点があり、用途によってはDeepgramやAssemblyAIが優位な場面もあります。この記事では、導入前に知っておくべき実力・限界・コスト・競合比較を整理します。
- WhisperはAPIとOSSどちらで使うべき?自社の用途に合う選び方は?
- 実際の精度はどれくらい?日本語での精度はどう評価されている?
- リアルタイム文字起こしや話者分離はできる?
- コストはどれくらい?大量処理ならAPIとOSSどちらが安い?
- 企業導入時のセキュリティはどう考えればよい?データはどこに行く?
- Whisper large-v3-turboとは何か?どのモデルを選べばよい?
Overview
Whisperとは
Whisperは、OpenAIが開発した音声認識AI。しゃべった言葉を自動でテキストにしてくれます。
日本語を含む98言語に対応。MITライセンスのオープンソースとして公開されており、誰でも無料で使えます。
使い方は、手軽なAPI(1分あたり約0.9円)か、自社サーバーにインストールしてデータを外に出さない運用かの2択。
「自社サーバーで動かせる主要な音声認識AI」はWhisperだけです。
ポイント
Whisperの使い方は2択——手軽なAPI利用か、データを外に出さない自社サーバー運用か。MITライセンスにより商用利用・再配布が許可されているため、法務面のハードルは低い。この記事ではどちらが合うかの判断基準もお伝えします。
Features
主な機能
Whisperの概要がわかったところで、具体的に「何ができるのか」を見ていきましょう。
多言語対応
日本語・英語はもちろん、98の言語に対応。海外拠点とのミーティング音声や多言語の顧客インタビューも、言語を切り替える手間なくそのままテキスト化できます。
ノイズ耐性
会議室の空調音、カフェでの録音、電話越しの音声——雑音が混じった音声でも精度が大きく崩れにくいのは実用上の大きな強み。録音環境を選ばないので「きれいに録れなかったから文字起こしできない」というストレスが減ります。
翻訳機能
音声を文字にするだけでなく、そのまま英語への翻訳もこなします。別の翻訳ツールを立ち上げて貼り付けて……という手間が減るのは、地味ですが確実に効きます。
タイムスタンプ生成
「この発言は録音の何分何秒あたりか」を自動でテキストに付けてくれます。字幕制作や、長い会議録音の中から特定の発言箇所を探すときに重宝します。タイムスタンプ付きの文字起こしは、字幕制作や会議録の検索性を一気に上げてくれます。
OSSモデル公開(MITライセンス)
WhisperのモデルはMITライセンスで公開されており、自社サーバーにインストールして動かせます。商用利用・再配布ともに許可されているため、音声データを社外に出さずに運用できるのはWhisperならではの選択肢。
複数モデルサイズ(large-v3-turbo搭載)
tiny・base・small・medium・large・large-v3-turboと用途に応じてモデルを選択可能。large-v3-turboはlarge-v3と同等水準の精度を保ちつつ処理速度を大幅改善。商業導入では現時点での第一推奨モデルです。
Deep Dive
Whisperの実力と限界
機能だけ見ると「なんでもできそう」に見えますが、実際はそうでもありません。
Whisperには明確に得意な場面と、正直おすすめできない場面があります。ここでは、導入の判断に直結する「本当のところ」をお伝えします。
得意なこと:98言語を1モデルでカバーする汎用性
Whisperの精度の話をする前に、「正解率約92%」という数字の意味を正確に押さえておきましょう。
これはOpenAIが発表した多言語・多条件でのベンチマーク結果に基づく目安値であり、音声認識の業界標準指標であるWER(Word Error Rate:単語誤り率)ベースで見ると、英語の標準的なベンチマーク(LibriSpeechなど)では非常に優秀な数値が出ています。一方、日本語のWERは英語と比べて大きく異なることが知られており、同等の「92%」を日本語に当てはめるのは過信です。日本語の場合、発話スタイル・音声品質・専門用語の有無によって実用精度は大きく変動するため、自社の音声サンプルでの事前検証が必須です。
それでも、会議の内容をざっと把握したい、商談の要点を振り返りたい——といった一般的なビジネス用途なら十分に実用レベルとの評価が多く、しかもこれが98言語で同じモデルのまま使えるのは大きな強みです。
得意なこと:ノイズ混じりの音声でも崩れにくい
会議室の空調がうるさかった。カフェで録った。電話越しの音声だった。
そういう「録音環境がイマイチ」な音声でも、Whisperは精度が大きく崩れにくいです。
これは、68万時間分という膨大な音声データで鍛えられたおかげです。クリーンな音声だけでなく、雑音混じりの多様な音声を大量に学習しているので、現実の録音環境に強い。「きれいに録れなかったから文字起こしできない」というストレスが減るのは、現場では想像以上にありがたいポイントです。
苦手なこと:リアルタイム処理と長時間音声
ここからが正直に伝えたい部分です。Whisperは万能ではありません。
まず、リアルタイムの文字起こしには向いていません。
Whisperの基本的な使い方は「話し終わった録音を、後からまとめてテキストにする」というもの。会議中にリアルタイムで字幕を出したい、同時通訳のように使いたい——そういった用途には設計されていません。リアルタイム処理が必要なら、DeepgramやGoogle Speech-to-Textのほうが適しています。
また、1時間を超えるような長い録音をそのまま処理することもできません。あらかじめ音声ファイルを短く分割する前処理が必要で、この作業にはエンジニアの対応が必要です。API利用の場合、1ファイル25MBの上限もあります。
注意
Whisperはリアルタイム処理に非対応。会議中にリアルタイムで字幕を出したい場合は、DeepgramやGoogle Speech-to-Textを検討してください。また、長時間音声は事前に分割する必要があり、エンジニア対応が必要です。
苦手なこと:ハルシネーション(存在しない文章の生成)
最も注意すべきリスクがあります。
Whisperは無音の部分で、実際には誰も話していないのに「存在しない文章」を勝手に作り出してしまうことがあります。AI業界では「ハルシネーション」と呼ばれる現象です。
たとえば、録音の冒頭や末尾の無音区間に、まったく関係のない文章がテキストとして出力されるケースが報告されています。議事録に「言っていないこと」が記録されるわけですから、これは笑い事ではありません。
医療・法務に限らず、どんな用途でも「出力を鵜呑みにしない」という姿勢は必須です。
注意
無音部分でウソの文章が生成される「ハルシネーション」は、Whisper最大のリスク。医療・法律記録はもちろん、通常の議事録でも人間のチェックが不可欠です。large-v3-turboでもこのリスクは残るため、運用設計の段階で「人間のサンプルチェック」を必ず組み込んでください。
苦手なこと:話者分離(誰が話したかの区別)
「誰が話したか」を自動で区別する機能(話者分離)はWhisperに搭載されていません。
会議の議事録で「Aさんの発言」「Bさんの発言」と分けたいなら、別のツールと組み合わせるか、話者分離を標準搭載しているAssemblyAIなどの競合サービスを検討する必要があります。
議事録作成がメインの目的で導入を考えている方は、この点を事前に把握しておいてください。
Pricing
料金プラン
Whisperの実力と弱点がわかったところで、次に気になるのは「で、いくらかかるの?」ですよね。
結論から言うと、APIなら驚くほど安いです。ただし、大量に使うなら自社サーバー運用のほうがトータルで安くなる可能性があります。
$0/ソフト利用料
- MITライセンス・商用利用可
- 全モデルサイズ(tiny〜large-v3-turbo)
- データを社外に出さない運用が可能
- GPU搭載サーバーが別途必要
約0.9円/分($0.006、1ドル=150円換算)
- large-v3-turboモデルを利用
- 従量課金・使った分だけ
- 1ファイル25MB上限
- リアルタイム処理は非対応
要確認/従量課金
- エンタープライズ向けデータ保護
- SOC2・ISO27001等の認証環境
- ゼロデータ保持オプションあり
- Microsoft契約が必要
サーバー費用/月(API費用は$0)
- 月数百時間超ならAPIより安くなる傾向
- GPU代・電気代・人件費が別途発生
- データを一切外部に出さない
- エンジニア運用コストを考慮すること
結論:月数十時間ならWhisper API一択(手軽・低コスト)。月数百時間超なら自社サーバー運用でトータルコストが下がる可能性あり。データを社外に出せない場合はOSS運用が唯一の選択肢。なお、APIの料金は1ドル=150円換算の目安であり、為替レートにより変動します。最新レートはOpenAI公式の料金ページで確認してください。
ポイント
月20時間の会議録音→API費用は約1,080円($0.006×20h×60分、1ドル=150円換算)。月1万件×5分の通話処理→約45,000円($300相当)。まず自社の月間処理時間を算出して、この計算式に当てはめてみてください。なお為替レートにより変動するため、OpenAI公式の料金ページで現在の$表示を確認することを推奨します。
Real Usage
企業はWhisperをどう使っているか
コストと実力がわかったところで、実際に成果を出している企業の事例を見てみましょう。
会議・商談の議事録自動化
Whisperの導入効果がもっともわかりやすいのが、会議や商談の文字起こしです。
株式会社マインディアでは、オンライン定性調査の文字起こし時間が従来の約4分の1に短縮されました。人手で聞き返しながらタイピングしていた作業がそっくり置き換わり、さらに多言語対応まで実現しています。
海外拠点とのミーティングが多い企業にとっては、「言語ごとに別の業者に発注する」という手間がなくなるだけでも大きなインパクトです。
ただし、ひとつ重要な注意点があります。Whisperには「誰が話したか」を区別する機能(話者分離)がありません。つまり、出力されるテキストは「発言が時系列に並んだベタ打ち」になります。「Aさんの発言」「Bさんの発言」と分けた議事録を自動で作りたいなら、別のツールと組み合わせるか、話者分離を標準搭載しているAssemblyAIなどを検討する必要があります。
コールセンターの通話分析
コールセンターの通話をテキスト化し、問い合わせ傾向の分析やオペレーター教育に活用するパターンも増えています。
月1万件・1件5分の通話を処理してもAPI費用は約4万5千円($300相当、為替レートにより変動)ほど。従来の人手による書き起こしと比べると、コストは桁違いに安くなります。テキスト化された通話ログをキーワード検索できるようになるだけでも、「クレームが多い商品はどれか」「よくある質問は何か」といった分析が格段にスピードアップします。
なお、個人情報を含む通話データを扱う場合は、自社サーバー運用またはAzure OpenAI Service経由が選択肢に入ります。また、ハルシネーションのリスクがあるため、人間によるサンプルチェックとの併用は必須です。
多言語コンテンツの字幕生成
動画コンテンツに字幕をつける用途でも、Whisperは力を発揮します。
98言語に対応し、タイムスタンプも自動で付与されるので、字幕制作のワークフローにそのまま組み込みやすい設計です。
医療分野では、診察音声の自動テキスト化によりカルテ作成時間を削減し、医師が患者との対話に集中できるようになったという事例も報告されています。ただし、医療・法律など一字一句の正確性が求められる領域では、Whisperの出力をそのまま記録として使用することは推奨されません。必ず人間の目によるチェックを挟む運用を前提としてください。なお、医療機関での具体的な導入事例については、一次情報として各医療機関・ベンダーへの問い合わせを推奨します。
ポイント
字幕生成・医療記録・議事録——用途は広いが、どのケースでも「出力を鵜呑みにしない」という姿勢が必須。人間のチェックを前提に運用設計を組みましょう。医療・法律領域の導入事例は、信頼できる一次ソース(公式発表・学術論文)で必ず確認してください。
Comparison
競合AIとの比較
Whisperが自社の用途に合っていそうだと感じた方も、他の選択肢と比べてから判断しても遅くありません。音声認識AIはWhisperだけではなく、Google、Amazon、Deepgram、AssemblyAIなど有力なサービスがいくつもあります。
ここでは、導入検討で本当に差がつく4つの軸——料金・リアルタイム対応・話者分離・自社サーバー運用(オンプレ)の可否——に絞って比較します。
| Whisper(OpenAI) | Google Cloud STT | Amazon Transcribe | Deepgram | AssemblyAI | |
|---|---|---|---|---|---|
| 料金(1分あたり目安) | 約0.9円(API)/ OSS無料 | 約1.4円〜 | 約1.4円〜 | 約1.0円〜 | 約0.9円〜 |
| リアルタイム対応 | ✕ | ◎ | ○ | ◎ | ○ |
| 話者分離 | ✕(別ツール要) | ○ | ◎ | ○ | ◎ |
| カスタム辞書 | ✕ | ○ | ◎ | ○ | ○ |
| 自社サーバー運用 | ◎(唯一対応・MITライセンス) | ✕ | ✕ | ✕ | ✕ |
| 日本語品質 | ○ | ◎ | ○ | ○ | △ |
| 多言語対応 | ◎(98言語) | ◎ | ○ | ○ | ○ |
正直なところ、この表で一番もどかしいのがWhisperの「リアルタイム✕」です。録音後の処理では文句なしに優秀なのに、会議中にリアルタイムで字幕を出したい場面ではどうしても使えない。ここはDeepgramやGoogle Cloud STTに素直に軍配が上がります。話者分離も同じで、「誰が言ったか」まで自動で分けたいならAssemblyAIのほうがストレスなく使える。
でも、自社サーバーで動かせるOSSの音声認識AIはWhisperだけ。ここは他のどのサービスにも真似できないポイントで、セキュリティ要件が厳しい案件ではそもそもWhisper一択になります。コスパも圧倒的。万能ではないけれど、「これにしかできないこと」がある——それがWhisperの立ち位置だと感じています。
Security
企業で使っても大丈夫?
競合との比較で「Whisperがよさそうだ」と感じた方が最後に気になるのは、セキュリティの話でしょう。
結論から言うと、Whisperは使い方次第で企業利用に十分耐えます。ただし「API経由で使うか、自社サーバーで動かすか」によってデータの行き先がまったく違うので、この違いだけは押さえておいてください。
API利用 vs OSS自社運用——企業導入の判断フロー
OpenAIのAPIを使う場合、音声データはOpenAIのサーバーに送信されます。機密性の高い音声を扱うなら、この点は必ず社内の情報セキュリティ・法務部門と確認してください。
Azure OpenAI Service経由を選択すると、エンタープライズ向けのデータ保護ポリシーが適用されます。SOC2・ISO27001等の認証環境での処理、ゼロデータ保持オプションの利用が可能で、医療・金融・官公庁など厳格なコンプライアンス要件を持つ企業にとって現実的な選択肢です。なお、OpenAI APIの利用規約ではAPIを通じて送信されたデータはモデルの学習に使用されないとされていますが、規約は変更される可能性があるため、導入前に最新内容を確認することを推奨します。
一方、WhisperをOSSとして自社サーバーにインストールすれば、MITライセンスの下で音声データは一切外部に出ません。これは主要な音声認識AIの中でWhisperだけが持つ強みです。医療データや顧客の個人情報を含む音声など、社外送信が許されないケースでは、この選択肢があること自体が導入の決め手になります。
導入担当者へ
API利用=データはOpenAIのサーバーに送られる(学習利用なし・ただし規約確認必須)。Azure OpenAI Service経由=SOC2/ISO27001認証環境・ゼロデータ保持オプションあり・Microsoftのエンタープライズ保護が適用。OSS自社運用=データは一切外に出ない(MITライセンス、商用利用可)。
この3択のどれを選ぶかが、企業導入の最大の判断ポイントです。情報セキュリティ部門・法務と確認してから選定を進めてください。
Editor’s Verdict
編集部の評価
総合評価
4.0/5.0
「コストを抑えて音声をテキスト化したい」なら、まず試すべきはWhisper。ただし、過信は禁物。
コストを抑えつつ多言語の音声をテキスト化したい企業にとって、Whisperは第一候補として間違いありません。API利用なら1分あたり約0.9円($0.006/分、為替レートにより変動)。MITライセンスのオープンソースで自社サーバー運用もできるため、データを外に出せない企業にも道が開けます。主要な音声認識AIの中で、この両方の選択肢を持っているのはWhisperだけです。商業導入では、large-v3-turboがコストと精度のバランスの観点から現時点での第一推奨モデルです。
ただし、3つの弱点は冷静に見極めてください。リアルタイム処理には非対応、話者分離は標準搭載なし、そして無音部分でウソの文章を生成するハルシネーションのリスク。とくにハルシネーションは、医療・法律に限らず通常の議事録でも「言っていないこと」が記録される可能性がある深刻な問題であり、どんな用途でも人間のチェックを前提にした運用設計が不可欠です。また、日本語の認識精度は英語と条件が異なるため、自社の音声サンプルで事前検証することを強く推奨します。リアルタイム字幕が必要ならDeepgramやGoogle Cloud STT、話者分離が必要ならAssemblyAI——用途によってはWhisper以外が正解になる場面もあります。まずはAPIで小規模にテストしてみるのが、もっとも低リスクな第一歩です。
OpenAI公式サイトへ遷移します。
