「画像生成AIで複数キャラを描かせたら顔が崩れた…」
そんな悩みはありませんか?
AIが複数の対象を同時に描くのが苦手な理由と、プロンプトの「言葉の並べ方」を変えるだけで精度を劇的に上げる「4つのコツ」を、初心者の方にも分かりやすく解説いたします。
この記事は2025年11月9日時点の情報・AIモデルをもとに執筆しています。今後のアップデートにより、機能や生成結果が変わる可能性があります。
【閲覧にあたっての注意点】
- 画像の再現性と一貫性について: 本記事の画像は、実在しないAI生成イメージです。
- プロンプトについて: 紹介したプロンプトは、全く同一の画像の生成を保証するものではありません。ご参考までにお使いください。
なぜか画像が崩れる…その「悩み」には理由があります
画像生成AIを使い始めたばかりの方が、よくこんな壁にぶつかります。
「3人のキャラクターが楽しそうに話しているシーン」を頼んだら、顔が混ざったり、手足が変な方向を向いたりした…
「猫が3匹、それぞれ違うポーズで寝ている」とお願いしたら、どれも同じポーズになったり、顔が潰れてしまった…
これは、あなたの指示が悪いわけではありません。
画像生成AIが持つ「曖昧(あいまい)さへの弱さ」と「同時処理の難しさ」が原因です。
この記事では、「なぜ複数の対象を描かせると画像が荒れるのか」という理由と、それを解決する「プロンプト(指示文)の具体的なテクニック」を、猫の例を使って分かりやすく解説しましょう。
なぜAIは「複数・別々」の指示が苦手なのか?
AIは「なんとなく良い感じに」が一番苦手です。
私たちが「3匹の猫がそれぞれ違う寝方で」と指示したとき、AIは以下の処理を同時に行おうとして混乱してしまいます。
- 「3匹」という数を認識する
- 「猫」という対象を描く
- 「違う寝方」を3パターン考える
- 「それぞれ」に割り当てる
特に「それぞれ」「違う」といった言葉は、人間にとっては自然ですが、AIにとっては「じゃあ、具体的にどう違うの? どこに配置するの?」という情報が足りず、結果として以下のような失敗が起こりがちです。
- ディテールの崩壊
- 顔や手足の描写が雑になり、潰れたり混ざったりする(構成を優先して細部が後回しになるため)
- 情報の混同
- 「丸まった猫」と「伸びた猫」の特徴が混ざってしまう
- 配置の失敗
- 3匹が重なってしまったり、遠近感が不自然になったりする
生成AIに共通して言えること
曖昧な指示に弱い
「それぞれ」「違う寝方」「リラックス」などは人間には自然でも、AIには曖昧で解釈が分かれるため、初回生成で荒れやすいです。
「三匹の猫がそれぞれ違う寝方で…」のように抽象的だと、どのAIでも初回は構図が不安定になりやすいです。
複数要素の同時指定に弱い
猫のポーズ・数・環境・光源などを一度に指定すると、初回は「とりあえず全部入れる」方向に走り、細部が粗くなります
改善は“構造化”で安定する
順番・位置・色・光源などを具体的に書くと、どのAIでも精度が上がります。この後詳しく解説します
劇的改善!「曖昧な言葉」を「具体的な設計図」に変える
では、どうすればよかったのでしょうか?
ここで、冒頭の「猫が3匹いる画像」のプロンプトを例に、Before(改善前)とAfter(改善後)を比較してみましょう。
Before: 曖昧で「丸投げ」なプロンプト
「日当たりの良い窓辺で、三匹の子猫がそれぞれ違う寝方でリラックスして昼寝をしている。一匹は仰向け、一匹は丸まり、もう一匹は伸びて眠っている。リアル写真風、最高画質、横長」
これでも要素は入っていますが、「それぞれ」や「一匹は〜」という言葉は、AIにとって「設計図」としては不十分です。
このプロンプトで生成された画像がこちら。

子猫の描写が粗くなりました。特に、左の茶トラの子の毛並みや部位の粗さが目立ちます。
ChatGPTでも試してみました。

一見問題なさそうに見えますが、一番左のキジ白子猫の後ろ足が不自然に裏返ってしまってます。
なぜかこのプロンプトだと部位が破綻する確率が高まります。
After: 具体的で「構造化」されたプロンプト
「午後の柔らかい日差しが差し込む窓辺で、左から順に、茶トラの子猫がへそ天で、キジトラの子猫が丸まって、グレー白の子猫が伸びて眠っている。安心しきった表情だ。リアル写真風、最高画質、横長構図で」
言葉の表面だけ見ると少し長くなっただけですが、これだけでAIが受け取る情報の「精度」が上がります。
このプロンプトで生成された画像がこちら。

これでも荒さは見られるものの、初回生成の精度の差は明らかです。

なぜ「After」のプロンプトで精度が上がったのか
改善後のプロンプトは、AIが迷う「曖昧さ」を徹底的に排除し、誰が・どこで・何をしているかを「構造化」しています。
これが一発成功の最大のコツです。
1. 構図の固定(「どこに?」を明確に)
- Before: 「三匹の子猫がそれぞれ違う寝方で…」(どこにいるか不明)
- After: 「左から順にへそ天・丸まり・伸びの順で寝ている」
AIが最も迷う「配置」を固定しました。
これにより、AIは「どこに何があるか」明確に理解するため、猫同士が重なったり、空間が歪んだりするのを防げます。
2. 個体の具体化(「誰が?」を明確に)
- Before: 「三匹の子猫」(見分けがつかない)
- After: 「茶トラの子猫」「キジトラの子猫」「グレー白の子猫」
対象を具体的にすることで、AIは「3つの別々の個体」として認識しやすくなります。
これにより、顔や模様が混ざるのを防ぎ、「へそ天」というポーズは「茶トラ」にだけ割り当てられるようになります。
3. 環境と光の指定(「どんな場所?」を明確に)
- Before: 「日当たりの良い窓辺」(光の方向が不明)
- After: 「午後の柔らかい日差しが差し込む窓辺」(光の質と方向が安定)
光源を具体的にすることで、AIは影の付け方や毛並みの立体表現に迷わなくなります。
これが「リアル写真風」のクオリティを底上げします。
4. 雰囲気と感情の指定(「どんな様子?」を明確に)
- Before: 「リラックスして昼寝」
- After: 「安心しきった表情で気持ちよさそうに眠っている」
感情や雰囲気を添えることで、AIはポーズの「ニュアンス」を掴みやすくなります。
「安心しきった」という言葉が、「へそ天」や「伸び」といった無防備なポーズの説得力を高めます。
5. スタイルや品質の指定
「リアル写真風・最高画質・横長構図」など、スタイルを指定する
初心者でもOK!一発成功率を上げる「4つのコツ」
猫の例はあくまで一例ですが、このテクニックは複数のキャラクター、動物、アイテムを配置するあらゆるシーンで応用できます。
AIに「いい感じの画像」を一発で出させたい時、プロンプトに以下の「4つの柱」を意識して盛り込んでみてください。
- 「配置」を決める
左から順に、A、B、Cが並んでいる中央にAが立ち、その背景にBがいる手前にA、奥にB
- 「対象」を具体的にする
- (NG)
2人の女性→ (OK)赤いドレスの女性と、青いシャツの男性 - (NG)
犬と猫→ (OK)金色のレトリバーと、黒い猫
- (NG)
- 「環境・光」を指定する
夕暮れの逆光雨上がりの濡れたアスファルトネオンが反射する夜の街
- 「雰囲気・感情」を添える
楽しそうに笑いながら緊張した面持ちで見つめ合う静かで穏やかな雰囲気
プロンプト例の紹介
誰が・どこで・何をしているかを指定したプロンプト例をいくつかご紹介します。
リビングで3匹の子猫が遊んでいる。1匹は猫じゃらしに飛びかかっていて、1匹は仰向けでじゃれていて、もう1匹は顔を洗っている。楽しそうな雰囲気。リアル写真風、高画質。



窓辺に2匹の猫がいる。1匹は外を見ていて、もう1匹は毛づくろいをしている。曇りの日。リアル写真風。


曇り空の柔らかな光が差し込む窓辺。右側に白黒の猫が座り、真剣な表情で窓の外(右斜め前)を見ている。その左側、少し手前で、茶トラの猫が前足を舐めて毛づくろいをしている。窓には雨粒が少し残っている。リアル写真風、高画質。


まとめ
画像生成AIは「魔法の箱」ではなく、「入力された言葉(設計図)に忠実なアーティスト」です。
私たちが「曖昧な指示」を出せば、AIも「曖昧な結果」を返してきます。
しかし、私たちが「具体的で構造化された指示」を出すことができれば、AIは驚くべき精度で期待に応えてくれます。
顔や手足が崩れてしまうのは、AIが「どこに何を、どう描けばいいか」迷っているサイン。
ぜひ、あなたのプロンプトに「配置」「対象」「環境」「雰囲気」の4つの柱を加えて、AIの真価を引き出してあげてください。
この記事が、あなたの画像生成AIライフの一助となれば幸いです。
(参考)猫3匹が窓辺で寝る描写が崩れた理由
「日当たりの良い窓辺で、三匹の子猫がそれぞれ違う寝方でリラックスして昼寝をしている。一匹は仰向け、一匹は丸まり、もう一匹は伸びて眠っている。リアル写真風、最高画質、横長」
このプロンプトで、初回の描写が荒くなりやすい理由は、いくつかの技術的・構造的な要因が絡んでいます。
以下はCopilotでの事例を想定していますが、他の生成AIでも起こり得る事象です。
理由1:ポーズの多様性による構図の複雑化
「へそ天」「丸まり」「伸び」の3ポーズは、猫の骨格・重心・毛並みの表現が大きく異なります。
初回はそれぞれのポーズを正確に描こうとするあまり、空間配置や遠近感が破綻しやすくなります。
特に「へそ天」は腹部の毛の流れや脚の角度が難しく、他の2匹とのバランスが崩れがちです。
理由2:窓辺という環境の光表現が難しい
窓辺の描写は「日差しの方向、反射、影の落ち方」などが複雑で、初回は「光源の位置」と「猫の立体感」が噛み合わないことが多いです。
窓枠・外の景色・床面の質感なども描写対象になるため、単独描写よりも猫のディテールが犠牲になりがちです。
理由3:初回は「構成優先」でディテールが後回し
初回生成では「3匹がそれぞれ違うポーズで寝ている」という構成を優先され、毛並みや顔の表情が粗くなる傾向があります。
特にCopilotでは、初回は「空間配置とポーズの整合性」を重視するため、ディテールが後回しになりやすいです。細部の描写は次回以降に改善されることが多いです。
理由4:プロンプトの情報量が多く、初回は圧縮処理される
「横長」「リアル写真風」「最高画質」「3ポーズ」「窓辺」「昼寝」など、指示要素が多いと、初回はそれらを均等に処理しようとして描写が散漫になります。
2回目以降は、初回の失敗を踏まえて「どこを強調すべきか」が学習され、精度が上がります。
