生成AIでMVを作る限界｜5人のAIパフォーマーを動かして学んだこと

2026年5月12日

はじめに：これは2026年5月時点の話です

AI動画生成の技術進化は驚くほど速いです。おそらく半年後には状況が大きく変わっているはずです。この記事に書いてあることは、あくまで2026年5月現在の話として読んでください。

まだまだ生成AIの挙動は不安定
AI動画生成の動きはまだまだ不完全で、特に来ている服やしっぽなどが大幅に変わってしまいます。
見る方は、そんな限界はご存じないので、
出来る限りきちんとしたものを作りたいのですが、
予算、時間の観点から、不完全な状況でアップしております。

なぜHiggsfieldを選んだのか

moftech5のMV制作にあたって、最大の課題は「5人のAIパフォーマーを同時に動かす」ことでした。1人の動画生成でさえ難しいのに、5人を一貫したキャラクターとして動かし続けるのは相当な負荷がかかることは最初から予想できました。

Higgsfieldを選んだ決め手はSoulIDの存在です。SoulIDはキャラクターの外見情報を1枚の参照画像として登録できる仕組みです。全身の特徴・服装・髪型・体型を1枚に集約して伝えられるため、複数キャラクターを扱う場合に非常に有効です。

Seedance2.0とSeedance2.0 Fastの使い分け

HiggsfieldではSeedance2.0とSeedance2.0 Fastの2種類が使えます。

Seedance2.0は優秀すぎて、アニメ調の画像を実写のようにしてしまう傾向があります。moftech5はアニメ調のキャラクターなので、実写化されると世界観が崩れてしまいます。

またコストの問題もあります。生成に失敗したときのショックは、予算が限られている中小企業には相当なものです。Seedance2.0 Fastはコストを抑えながらも十分な品質が得られるため、moftech5の制作ではSeedance2.0 Fastをメインに使っています。

Seedance2.0の参照画像は最大9枚

Seedance2.0では最大9枚の参照画像を指定できます。moftech5の5人全員が登場するシーンでは以下のように使っています。

メンバー5人のSoulID：5枚
背景画像：1枚
シーンの最初の画像：1枚
シーンの最後の画像：1枚
合計8枚

Telluは本来白ブラウス+ジャケットの2枚重ねの服装でしたが、服を2枚着せると生成負荷が急激に上がることがわかりました。そのためSoulIDでは2枚でしたが、実際の生成ではピンクシャツ1枚に変更し、その参照画像を追加して合計9枚で生成しています。

AI動画生成の「得意・不得意」を知る

AI動画生成には明確な得意・不得意があります。これを理解してシーン設計することが、クオリティを上げる最短経路です。

得意なこと

1人のシーン（特に顔のアップ）
シンプルな動き・ゆっくりした動き
上半身までの構図

不得意なこと

複数人が同時に登場するシーン
全身が映る構図
早い動き・激しいダンス
リップシンク（不可能ではないが負荷が高い）
7分丈など絶妙な長さの服装

1人のシーンは驚くほどイメージ通りの映像になります。動作を指示するプロンプトもほぼ的確に反映されます。一方で人数が増えるほど、全身になるほどクオリティが下がります。

服装設計のポイント

服装の複雑さは生成負荷に直結します。実際に体験して学んだポイントは以下の通りです。

重ね着は避ける。ジャケット+シャツのような2枚重ねの服装は生成負荷が上がります。できればシンプルな1枚の服装にまとめましょう。

絶妙な長さを避ける。7分丈のパンツ・5分袖など、中途半端な長さの服装は生成が難しくなります。長袖・半袖・ロングパンツ・ショートパンツなど、明確な長さにする方が安定します。

シンプルな服装ほど安定する。無地・シンプルなデザインの服の方が、柄物・複雑なデザインの服より安定した生成ができます。

「人数を減らす」テクニック

5人全員が登場するシーンを多用すると生成クオリティが下がります。いかに違和感なく人数を減らすかがMV制作のテクニックのひとつです。

moftech5では以下のような構成でシーンを設計しています。

ソロシーン（1人）：個人の魅力を引き出す・高クオリティを確保
デュエット・トリオ（2〜3人）：ユニット曲のシーン
全員シーン（5人）：サビなど重要なシーンに絞って使用

全員シーンを「ここぞ」というタイミングに絞ることで、生成コストを抑えながらインパクトのある映像を作れます。

実際にやってみて感じたこと

正直に言います。すごいと感じる部分と、まだまだと感じる部分が両方あります。

1人のシーンは本当に驚くほどイメージ通りの映像が生成されます。プロンプトで指示した動作もほぼ的確に反映されます。これは数年前には考えられなかったレベルです。

一方で5人全員のシーンはまだ課題が多いです。キャラクターの一貫性・服装の正確さ・動きの自然さ、全てにおいて妥協が必要な部分があります。

結局のところ、何度もやりなおし、2分43秒の動画を作るのに、おおよそ150時間程度要しました。今ならばもっと少ない時間で作れると思いますが、AIだからボタン一つと言うわけにはいきませんね。

ブログに戻る