2026年4月7日、動画AIの世界ランキングに、作った会社の名前がどこにも書かれていないモデルが現れた。それが既存のすべてのモデルを抑えて1位になるまで、5日もかからなかった。
ブラインドテストで世界1位、匿名で参戦した理由
「HappyHorse-1.0」という名前のAIが、動画AI評価サービス「Artificial Analysis」に登録されたのは2026年4月7日ごろだ。開発者の欄は空白。それでも結果は明確だった——テキストの文章から動画を生成するカテゴリでも、静止画から動画を作るカテゴリでも、既存のすべてのモデルを押しのけて1位を獲得した。
Artificial Analysisは2023年設立のAI評価サービスで、LLM(大規模言語モデル)から画像・動画生成AIまで複数カテゴリを網羅し、業界関係者がモデル選定の参考に使う評価指標の一つとして定着している。動画AIカテゴリには2026年4月時点で20以上のモデルが登録されており、評価はのべ数万件規模の投票データに基づく。
このランキングが採用するのは「ブラインドテスト」という方式だ。2本の動画を並べてユーザーに見せ、どちらのAIが作ったかは伏せた状態で「どちらが良いか」を投票で決める。結果はチェスの実力測定にも使われる「Eloスコア」という方式で集計される——勝ち続けるほど点数が上がり、負ければ下がる仕組みだ。HappyHorseが記録したのは1379点。2位のSeedance 2.0(バイトダンス製)を100ポイント以上引き離した。ブランドの知名度は、この評価には一切関係しない。
ランキングを見た業界関係者の間では「テンセントではないか」「個人開発者の可能性もある」といった憶測が飛び交った。答えが出たのは4月10日。アリババが「自社が開発したモデルだ」と正式に発表した。株式市場も反応し、発表直後に香港市場のアリババ株が上昇した。
なぜ名前を隠して参戦したのか。アリババは公式声明でその理由を詳しく説明していない。テック系メディアや業界アナリストの間では「アリババ製というブランドへの先入観を排除し、純粋な性能だけで評価されることを狙ったのではないか」という解釈が広がったが、これは推測の域を出ない。ただ、匿名で参戦し、1位を取ってから名乗り出るという手順には、ブランドではなく実力で選ばれることへの一貫した意図が読み取れることは確かだ。なお「HappyHorse(幸せな馬)」という命名には、アリババ創業者ジャック・マー(馬)氏の姓との掛け言葉という説もある。
アリババが新設した「ATH」と、開発を率いた人物
HappyHorseを生み出したのは「ATH(Alibaba Token Hub)」という組織だ。アリババが2026年3月に設立したばかりのAI戦略部門で、設立から1ヶ月余りで世界首位のモデルを世に出したことになる。
異例なのはその体制だ。ATHのトップに就いているのは、アリババのCEO(最高経営責任者)呉泳銘(エディ・ウー)その人だ。グループ全体を動かす経営トップが、特定の開発部門の長を兼任する形は珍しい。動画AI開発がアリババにとって、CEOが直轄で管理するほどの最重要領域に位置づけられているということだ。
そのATHに集められた顔ぶれが、この速さを説明している。中心人物の張迪氏は、現在世界3位の動画AI「Kling(可霊)」を作った実績を持つ。その本人が移籍してきて、数ヶ月で自分の前作を超えるモデルを完成させた。人の移動が、技術の序列を書き換えた。
音と映像を同時に生む、従来と何が違うか
ATHが集めた人材が作り上げたものは、具体的に何が違うのか。
普通の動画AIを使う場合、制作は2段階になる。まず映像を生成し、次にその映像に合わせた音声——ナレーションや効果音——を別のツールで作って貼り合わせる。このとき問題になるのが「口の動き」だ。映像の中で人が話している場合、後から音声を乗せると、動きと音のタイミングがわずかにズレやすい。作業者が手作業で調整する場面も生まれる。
HappyHorseはこの2工程を1つにまとめた。テキスト(文章)や画像を入力すると、映像と音声が最初からセットで生成される——「ネイティブ音声合成」と呼ばれる仕組みだ。制作後に口の動きと声を合わせる調整作業が、丸ごと不要になる。
もう一つの強みが「多言語リップシンク」だ。リップシンクとは「口の動きと音声を合わせること」で、映画の吹き替えや海外向けにローカライズされた動画で欠かせない技術だ。HappyHorseは日本語・英語・中国語・韓国語・フランス語・ドイツ語を含む7言語以上で、この口の動きと音声の同期を自動的に処理できる。
これが実務でどう効くか。たとえば企業が商品紹介動画を国際展開するとき、従来は各言語ごとに出演者を呼んで撮り直すか、映像を流用して音声だけを差し替えるかのどちらかだった。後者は口のズレという問題が残る。HappyHorseを使えば、1本のプロンプト(指示文)から複数言語版の動画を生成できる可能性がある。言語ごとに撮影を繰り返すコストが、原理的になくなる。
フルHD(縦横1920×1080ピクセルの高画質)の5秒動画を約38秒で出力できる。ただ、HappyHorseの強みはスピードだけではない。映像と音が最初から同時に作られるという設計そのものが、制作の工程を根本から変える。
OpenAIが退いた後、動画AI上位3社はすべて中国勢
HappyHorseが首位に立ったこの市場は、2ヶ月前まで別の顔をしていた。
2026年3月24日、OpenAIが動画生成AI「Sora」のサービス終了を突然発表した。2024年末に登場したSoraは、リアルな映像を生成する能力で世界的な話題を呼んだが、運営の内実は厳しかった。1日あたり約100万ドル(約1億5000万円)の運用損失を抱え、収益化が追いつかなかったことが撤退の主因とされる。Soraの終了により、ディズニーとの大型ライセンス契約(約1500億円規模)も白紙に戻った。
そこに残ったのが、現在の順位表だ。1位のHappyHorse、2位のSeedance 2.0、3位のKling 3.0——この3社の並びは偶然ではなく、米国勢の後退が作り出した空間に中国勢が入り込んだ結果だ。「企業が動画AIをどこから調達するか」という選択肢の地図が、数ヶ月で塗り替わった。
ただし、上位3社が同じ条件で走れているわけではない。2位のバイトダンスには制約がある。ウォルト・ディズニーを含む大手6社が、Seedance 2.0の学習データに著作権コンテンツ(制作者の許可なく使えない映像や音楽)が無断で使われているとして問題を提起した。ディズニー以外の5社の社名は現時点で公開されていない。バイトダンスは2026年3月、グローバル展開の一時凍結を余儀なくされた。性能ランキングでは2位でも、海外市場への扉は今のところ閉じている。
いつ、誰が使えるようになるのか
世界首位を取ったこの技術は、18日後に外部への扉を開く予定だ。
アリババは、HappyHorse-1.0のAPIをアリババクラウド経由で2026年4月30日に一般公開すると発表している。APIとは「接続口」のようなものだ。外部の開発者が自社のサービスやアプリにこの技術を組み込めるようにする仕組みで、これが開放されると映像制作ツールや広告プラットフォームなど、さまざまなサービスの裏側にHappyHorseの技術が入り始める可能性がある。アリババクラウドはグローバルにサービスを展開しており、日本を含む海外市場でのアクセスも視野に入る。ただし料金体系や国別の提供条件は、4月30日時点では未発表のままだ。広告制作・エンターテインメント業界での先行導入が見込まれている。
ただし今の時点では、アリババが選んだ一部の企業だけが試験的にアクセスできる段階だ。一般の人が使えるサービスは動いていない。4月30日はその範囲を広げる一歩であって、誰でもすぐ使えるようになる日ではない。
性能面での課題も見えている。Artificial Analysisの評価データを見ると、15秒を超える長い動画を生成する場合、登場人物の見た目や動きの一貫性——シーンをまたいでも同じキャラクターに見えるかどうか——の維持では、現ランキング3位のKling 3.0が上位を保っている。短い動画での強さは本物だが、物語を持つ長尺コンテンツになると差は縮まる。
| HappyHorse-1.0 | Kling 3.0 | |
|---|---|---|
| 短尺動画の精度 | 得意 | — |
| 15秒超・ストーリー一貫性 | 差が出る | 得意(上位を維持) |
| 多言語リップシンク | 7言語以上対応 | — |
今すぐ検索すると偽サイトが出る
正式発表から日が経たないうちに、「HappyHorse」を名乗る有料の動画生成サービスがいくつも現れた。料金を請求したり個人情報を入力させたりする偽サービスだ。アリババのHappyHorse公式Xアカウント(@HappyHorseATH)は「現時点で公式ウェブサイトは存在しない」と明記した警告を投稿している。HappyHorseに関する情報を確認したいなら、この公式Xアカウント以外を信用しないことが、現時点での唯一の防衛手段になる。