画像生成AIで「複数のキャラ」が上手く描けない!顔が崩れる理由と一発成功の「言葉のコツ」

Four kittens are playfully tumbling on lush green grass, but some anatomical inconsistencies are present. One kitten’s front paw appears unnaturally elongated, and another has an open mouth rendered in a way that defies realistic jaw structure. While the scene conveys lively interaction and bright sunlight enhances the fur and grass, certain body parts exhibit visual inaccuracies that disrupt photorealistic coherence. 青々とした芝生の上で、4匹の子猫がじゃれ合っているが、一部の子猫の前足や口元に不自然な描写が見られる。前足が過剰に長く伸びていたり、口の開き方が実際の骨格構造に合わない形で描かれており、遊びの動作としては活気があるものの、身体の一部に破綻が生じている。明るい日差しが毛並みと芝生を鮮やかに照らしているが、全体としてはリアリズムに欠ける部分がある

「画像生成AIで複数キャラを描かせたら顔が崩れた…」

そんな悩みはありませんか?

AIが複数の対象を同時に描くのが苦手な理由と、プロンプトの「言葉の並べ方」を変えるだけで精度を劇的に上げる「4つのコツ」を、初心者の方にも分かりやすく解説いたします。

⚠️あらかじめご了承ください

この記事は2025年11月9日時点の情報・AIモデルをもとに執筆しています。今後のアップデートにより、機能や生成結果が変わる可能性があります。

【閲覧にあたっての注意点】

  • 画像の再現性と一貫性について: 本記事の画像は、実在しないAI生成イメージです。
  • プロンプトについて: 紹介したプロンプトは、全く同一の画像の生成を保証するものではありません。ご参考までにお使いください。
INDEX

なぜか画像が崩れる…その「悩み」には理由があります

画像生成AIを使い始めたばかりの方が、よくこんな壁にぶつかります。

「3人のキャラクターが楽しそうに話しているシーン」を頼んだら、顔が混ざったり、手足が変な方向を向いたりした…

「猫が3匹、それぞれ違うポーズで寝ている」とお願いしたら、どれも同じポーズになったり、顔が潰れてしまった…

これは、あなたの指示が悪いわけではありません。

画像生成AIが持つ「曖昧(あいまい)さへの弱さ」と「同時処理の難しさ」が原因です。

この記事では、「なぜ複数の対象を描かせると画像が荒れるのか」という理由と、それを解決する「プロンプト(指示文)の具体的なテクニック」を、猫の例を使って分かりやすく解説しましょう。

なぜAIは「複数・別々」の指示が苦手なのか?

AIは「なんとなく良い感じに」が一番苦手です。

私たちが「3匹の猫がそれぞれ違う寝方で」と指示したとき、AIは以下の処理を同時に行おうとして混乱してしまいます。

  1. 「3匹」という数を認識する
  2. 「猫」という対象を描く
  3. 「違う寝方」を3パターン考える
  4. 「それぞれ」に割り当てる

特に「それぞれ」「違う」といった言葉は、人間にとっては自然ですが、AIにとっては「じゃあ、具体的にどう違うの? どこに配置するの?」という情報が足りず、結果として以下のような失敗が起こりがちです。

  • ディテールの崩壊
    • 顔や手足の描写が雑になり、潰れたり混ざったりする(構成を優先して細部が後回しになるため)
  • 情報の混同
    • 「丸まった猫」と「伸びた猫」の特徴が混ざってしまう
  • 配置の失敗
    • 3匹が重なってしまったり、遠近感が不自然になったりする

生成AIに共通して言えること

曖昧な指示に弱い

「それぞれ」「違う寝方」「リラックス」などは人間には自然でも、AIには曖昧で解釈が分かれるため、初回生成で荒れやすいです。

「三匹の猫がそれぞれ違う寝方で…」のように抽象的だと、どのAIでも初回は構図が不安定になりやすいです。

複数要素の同時指定に弱い

猫のポーズ・数・環境・光源などを一度に指定すると、初回は「とりあえず全部入れる」方向に走り、細部が粗くなります

改善は“構造化”で安定する

順番・位置・色・光源などを具体的に書くと、どのAIでも精度が上がります。この後詳しく解説します

劇的改善!「曖昧な言葉」を「具体的な設計図」に変える

では、どうすればよかったのでしょうか?

ここで、冒頭の「猫が3匹いる画像」のプロンプトを例に、Before(改善前)とAfter(改善後)を比較してみましょう。

Before: 曖昧で「丸投げ」なプロンプト

「日当たりの良い窓辺で、三匹の子猫がそれぞれ違う寝方でリラックスして昼寝をしている。一匹は仰向け、一匹は丸まり、もう一匹は伸びて眠っている。リアル写真風、最高画質、横長」

これでも要素は入っていますが、「それぞれ」や「一匹は〜」という言葉は、AIにとって「設計図」としては不十分です。

このプロンプトで生成された画像がこちら。

Three kittens napping on a sunny windowsill: one lying belly-up, one curled in a ball, and one stretched out, bathed in warm afternoon light. The depiction of the kittens’ feet at both ends is rough, and the ginger tabby on the left shows additional coarseness in its fur and facial details. 日差しの差し込む窓辺で昼寝する3匹の子猫。1匹は仰向けでへそ天、1匹は丸まって、もう1匹は伸びて眠っている。両端の子猫の足の描写が荒く、左の茶トラは毛並みや顔の描写にも粗さが見られる
Copilotで生成

子猫の描写が粗くなりました。特に、左の茶トラの子の毛並みや部位の粗さが目立ちます。

ChatGPTでも試してみました。

「寝相も個性も三者三様。ぽかぽか窓辺は、子猫たちの最高の昼寝スポット🐾☀️」Three kittens napping by a sunny window, each sleeping in a different relaxed pose, photographed in a realistic style. 日当たりの良い窓辺で、三匹の子猫がそれぞれ違う寝方でリラックスして昼寝している様子
ChatGPT Images 1.5で生成

一見問題なさそうに見えますが、一番左のキジ白子猫の後ろ足が不自然に裏返ってしまってます。

なぜかこのプロンプトだと部位が破綻する確率が高まります。

After: 具体的で「構造化」されたプロンプト

午後の柔らかい日差しが差し込む窓辺で、左から順に茶トラの子猫がへそ天で、キジトラの子猫が丸まってグレー白の子猫が伸びて眠っている。安心しきった表情だ。リアル写真風、最高画質、横長構図で」

言葉の表面だけ見ると少し長くなっただけですが、これだけでAIが受け取る情報の「精度」が上がります。

このプロンプトで生成された画像がこちら。

Three kittens nap peacefully on a sunlit windowsill: an orange tabby lies belly-up, a brown tabby curls into a ball, and a gray-and-white kitten stretches out, all bathed in warm afternoon light. 午後の柔らかな日差しが差し込む窓辺で、茶トラはへそ天、キジトラは丸まり、グレー白は伸びのポーズで、安心しきった表情で昼寝している
Copilotで生成

これでも荒さは見られるものの、初回生成の精度の差は明らかです。

「午後の日差しを独り占め。へそ天、まるまり、のび〜。三者三様のしあわせ昼寝タイム🐾」Three kittens sleeping by a sunlit window in the afternoon: an orange tabby lying on its back, a brown tabby curled up, and a gray and white kitten stretched out, all looking peaceful. 午後の柔らかな日差しが差し込む窓辺で、茶トラ、キジトラ、グレー白の子猫がそれぞれ違う寝姿で安心して眠っている様子
ChatGPT Images 1.5で生成

なぜ「After」のプロンプトで精度が上がったのか

改善後のプロンプトは、AIが迷う「曖昧さ」を徹底的に排除し、誰が・どこで・何をしているかを「構造化」しています。

これが一発成功の最大のコツです。

1. 構図の固定(「どこに?」を明確に)

  • Before: 「三匹の子猫がそれぞれ違う寝方で…」(どこにいるか不明)
  • After:左から順にへそ天・丸まり・伸びの順で寝ている

AIが最も迷う「配置」を固定しました。

これにより、AIは「どこに何があるか」明確に理解するため、猫同士が重なったり、空間が歪んだりするのを防げます。

順番・位置・向きを明示すると空間配置が安定しやすい

2. 個体の具体化(「誰が?」を明確に)

  • Before: 「三匹の子猫」(見分けがつかない)
  • After:茶トラの子猫」「キジトラの子猫」「グレー白の子猫」

対象を具体的にすることで、AIは「3つの別々の個体」として認識しやすくなります。

これにより、顔や模様が混ざるのを防ぎ、「へそ天」というポーズは「茶トラ」にだけ割り当てられるようになります。

猫の種類や毛色・模様を明記することで個体識別がしやすくなり、模様や色の混同が減る

3. 環境と光の指定(「どんな場所?」を明確に)

  • Before: 「日当たりの良い窓辺」(光の方向が不明)
  • After:午後の柔らかい日差しが差し込む窓辺」(光の質と方向が安定)

光源を具体的にすることで、AIは影の付け方や毛並みの立体表現に迷わなくなります。

これが「リアル写真風」のクオリティを底上げします。

光源と時間帯の指定により、光の方向と質感が安定し、毛並みや影・立体感の描写が自然になる

4. 雰囲気と感情の指定(「どんな様子?」を明確に)

  • Before: 「リラックスして昼寝」
  • After:安心しきった表情で気持ちよさそうに眠っている

感情や雰囲気を添えることで、AIはポーズの「ニュアンス」を掴みやすくなります。

「安心しきった」という言葉が、「へそ天」や「伸び」といった無防備なポーズの説得力を高めます。

表情やポーズの自然さが向上し、感情的な共感を呼ぶ画像になりやすい

5. スタイルや品質の指定

「リアル写真風・最高画質・横長構図」など、スタイルを指定する

生成エンジンが迷わずスタイルを選べる

初心者でもOK!一発成功率を上げる「4つのコツ」

猫の例はあくまで一例ですが、このテクニックは複数のキャラクター、動物、アイテムを配置するあらゆるシーンで応用できます。

AIに「いい感じの画像」を一発で出させたい時、プロンプトに以下の「4つの柱」を意識して盛り込んでみてください。

  1. 「配置」を決める
    • 左から順に、A、B、Cが並んでいる
    • 中央にAが立ち、その背景にBがいる
    • 手前にA、奥にB
  2. 「対象」を具体的にする
    • (NG)2人の女性 → (OK)赤いドレスの女性と、青いシャツの男性
    • (NG)犬と猫 → (OK)金色のレトリバーと、黒い猫
  3. 「環境・光」を指定する
    • 夕暮れの逆光
    • 雨上がりの濡れたアスファルト
    • ネオンが反射する夜の街
  4. 「雰囲気・感情」を添える
    • 楽しそうに笑いながら
    • 緊張した面持ちで見つめ合う
    • 静かで穏やかな雰囲気

プロンプト例の紹介

誰が・どこで・何をしているかを指定したプロンプト例をいくつかご紹介します。

リビングで3匹の子猫が遊んでいる。1匹は猫じゃらしに飛びかかっていて、1匹は仰向けでじゃれていて、もう1匹は顔を洗っている。楽しそうな雰囲気。リアル写真風、高画質。

「驚異のジャンプ力!🚀 おもちゃに夢中な茶トラちゃんと、後ろで冷静に毛繕いするグレーちゃんの対比が最高😸✨」Wide shot of three kittens in a sunlit living room. A fluffy ginger kitten leaps into the air to catch a feather toy, while a calico kitten plays on its back and a grey kitten sits on the sofa washing its face. 日差しが入る明るいリビングで遊ぶ3匹の子猫。ふわふわの茶トラが猫じゃらしに向かって空中で大きくジャンプし、三毛猫は仰向けでじゃれ、グレーの子猫はソファの上でマイペースに顔を洗っている
Gemini (Nano Banana Pro) で生成
「「とったどー!」必死に手を伸ばすキジトラちゃん🐾 その横で「身だしなみ第一」な茶トラちゃんに癒やされる〜🥰🧡」Three kittens playing on a fluffy rug. A tabby kitten stands on its hind legs reaching for a colorful toy, a piebald kitten rolls on its back, and a ginger kitten sits aside, busy washing its face with its paw. ラグの上で遊ぶ3匹の子猫たち。キジトラが後ろ足で立ってカラフルな猫じゃらしに手を伸ばし、白キジは仰向けで転がり、茶トラは横で前足を使って熱心に顔を洗っている
ChatGPT Images 1.5で生成
Three playful kittens in a sunlit living room—one pounces on a feather toy, one rolls on its back, and one washes its face. 日差しの差し込むリビングで遊ぶ3匹の子猫。1匹は猫じゃらしに飛びかかり、1匹は仰向けでじゃれ、もう1匹は顔を洗っている
Copilotで生成

窓辺に2匹の猫がいる。1匹は外を見ていて、もう1匹は毛づくろいをしている。曇りの日。リアル写真風。

「曇りの日の特等席。外を見つめる子と、身だしなみ中の子。静かな時間も、猫は上手に楽しみます🐾」Two cats sitting on a windowsill on a cloudy day, one gazing outside while the other quietly grooming itself in soft natural light. 曇り空の窓辺で、外を眺める猫と毛づくろいをする猫が並んで座っている様子
ChatGPT Images 1.5で生成
Two tabby cats sit on a wooden windowsill on a cloudy day—one gazing outside, the other grooming its paw. 曇りの日の窓辺に座る2匹のトラ猫。1匹は外を見つめ、もう1匹は前足を毛づくろいしている
Copilotで生成

曇り空の柔らかな光が差し込む窓辺。右側に白黒の猫が座り、真剣な表情で窓の外(右斜め前)を見ている。その左側、少し手前で、茶トラの猫が前足を舐めて毛づくろいをしている。窓には雨粒が少し残っている。リアル写真風、高画質。

「雨上がりの窓辺で、それぞれの時間。見つめる猫と、身だしなみ中の猫☁️🐾」Two cats on a windowsill on a cloudy day, a black-and-white cat gazing outside while an orange tabby grooms its paw, with raindrops on the window. 曇り空の窓辺で、外を見つめる白黒猫と前足を舐めて毛づくろいする茶トラ猫。窓には雨粒が残っている
ChatGPT Images 1.5で生成
Two cats sit on a rainy windowsill: a black-and-white cat stares outside while an orange tabby grooms its paw. 雨粒の残る窓辺に座る2匹の猫。白黒の猫が外を見つめ、茶トラの猫が前足を舐めて毛づくろいしている
Copilotで生成

まとめ

画像生成AIは「魔法の箱」ではなく、入力された言葉(設計図)に忠実なアーティストです。

私たちが「曖昧な指示」を出せば、AIも「曖昧な結果」を返してきます。

しかし、私たちが「具体的で構造化された指示」を出すことができれば、AIは驚くべき精度で期待に応えてくれます。

顔や手足が崩れてしまうのは、AIが「どこに何を、どう描けばいいか」迷っているサイン。

ぜひ、あなたのプロンプトに「配置」「対象」「環境」「雰囲気」の4つの柱を加えて、AIの真価を引き出してあげてください。

この記事が、あなたの画像生成AIライフの一助となれば幸いです。

(参考)猫3匹が窓辺で寝る描写が崩れた理由

「日当たりの良い窓辺で、三匹の子猫がそれぞれ違う寝方でリラックスして昼寝をしている。一匹は仰向け、一匹は丸まり、もう一匹は伸びて眠っている。リアル写真風、最高画質、横長」

このプロンプトで、初回の描写が荒くなりやすい理由は、いくつかの技術的・構造的な要因が絡んでいます。

以下はCopilotでの事例を想定していますが、他の生成AIでも起こり得る事象です。

理由1:ポーズの多様性による構図の複雑化

「へそ天」「丸まり」「伸び」の3ポーズは、猫の骨格・重心・毛並みの表現が大きく異なります。

初回はそれぞれのポーズを正確に描こうとするあまり、空間配置や遠近感が破綻しやすくなります。

特に「へそ天」は腹部の毛の流れや脚の角度が難しく、他の2匹とのバランスが崩れがちです。

理由2:窓辺という環境の光表現が難しい

窓辺の描写は「日差しの方向、反射、影の落ち方」などが複雑で、初回は「光源の位置」と「猫の立体感」が噛み合わないことが多いです。

窓枠・外の景色・床面の質感なども描写対象になるため、単独描写よりも猫のディテールが犠牲になりがちです。

理由3:初回は「構成優先」でディテールが後回し

初回生成では「3匹がそれぞれ違うポーズで寝ている」という構成を優先され、毛並みや顔の表情が粗くなる傾向があります。

特にCopilotでは、初回は「空間配置とポーズの整合性」を重視するため、ディテールが後回しになりやすいです。細部の描写は次回以降に改善されることが多いです。

理由4:プロンプトの情報量が多く、初回は圧縮処理される

「横長」「リアル写真風」「最高画質」「3ポーズ」「窓辺」「昼寝」など、指示要素が多いと、初回はそれらを均等に処理しようとして描写が散漫になります。

2回目以降は、初回の失敗を踏まえて「どこを強調すべきか」が学習され、精度が上がります。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

猫好き・旅好きでAI画像生成に夢中。地方をICTでつなぐサイト「たかみかん」を運営中。日常の小さなきらめきをすくいあげています。気づけば「猫、みかん、ICT」この3つで暮らしが回っています。

INDEX