画像生成AIはプロンプトだけじゃない？『雑なラフスケッチ』は最強の指示書になるのか試してみる。

先日の記事で初めて画像生成AIを使ってみましたが、正直な感想は「便利で楽」でした。

今までこのブログではデジカメを使った実写のライティングや撮影だけを扱ってきました。

今後もその基本方針は変えていませんが、記事の説明画像やちょっとした挿絵画像にAIを利用するのはアリだなと意識が変わってきました。

今後は前向きにAIとも、うまく付き合いつつ、普段の撮影のクオリティ向上と、AIを教材にしてアートディレクションや撮影監督的なスキルも身につくような使い方を探ってみたいと考えています。

今日はその取り組みの手始めとして、画像のプロンプトやラフスケッチを使ったAIへの指示方法について深堀りしたいと思います。

まず、画像生成AIが得意なところ、不得意なところを理解する。
これを踏まえてGeminiに新しい画像を出力してもらいましょう
まずは、プロンプトのみで位置変更を試す。
ラフスケッチを投入！果たして結果は？
ここからプロンプトの迷路に…。
そうだ、英訳してみよう。
ここで今までの経緯を振り返ってみる。
最後のトライ！分割詳細プロンプト。
まとめ

まず、画像生成AIが得意なところ、不得意なところを理解する。

前回の記事で画像を作ってみて気づいたことがあります。

画像生成の際のプロンプトについては、撮影やカメラワーク、アートの用語など、かなり攻めた専門用語を使ってもAIはすんなりと理解してくれます。

しかし、例えば画面右側にキャッチコピースペースが欲しいから、被写体を左に寄せてといったような、構図や空間的な指示はうまく行かない印象がありました。

そこで、人との打ち合わせなどでカエルがよくやる、指示書として簡単なラフスケッチをGeminiにアップしたところ、ほぼ思い通りの画を出力してくれたんです。

実際あとでGeminiに聞いたところ、以下のような回答が返ってきました。

Gemini

『あなたがラフスケッチを提示してくださったことは、最終的なイメージにたどり着く上で、決定的に重要な役割を果たしました。それは単なる「参考」以上の、非常にパワフルな情報です。』

実際には以下のような感じで生成してもらいました。（Imagen2で生成）

PROMPT

最初のプロンプト-主役はフロストの日本酒ボトルです。-冷酒用のグラスにお酒が7分目くらい入っています。-暗い赤系のマットの上に和風料理と小鉢が載っています。

短いプロンプトでしたが、いい感じに生成してくれています。

カエル

和モダンっぽくしたかったので、ラフスケッチをアップ（雑すぎ😁）してみました。さらにプロンプトを追加。

PROMPT

2回めのプロンプト：全体の色調は明るく、テーブルは白木っぽく。料理の数を3点に減らす。背景にぼかしで和風の千代紙風額と南天のドライフラワー。でお願いします。

カエル

結果はこの通り、これは完璧にスケッチの指示を参考にしているとしか思えませんよね。

このことでわかったのは

●カメラワークや色のテイスト、物の形状や質感はプロンプトで十分伝わる。

●物の位置関係、構図などの空間認識は、プロンプトだけでは伝わりにくい。

ということです。

これを踏まえてGeminiに新しい画像を出力してもらいましょう

カエル

実写ぽい猫の画像を作ってもらうことにしました。

PROMPT

プロンプト：本棚で眠る猫、隣にコーヒーカップ

カエル

良すぎでしょう。

上のプロンプトのみで生成したのですが…参りました。最近の生成AI、あなどれませんね。

絵柄としては、ほぼ完璧でしょう。これはノープランで生成をお願いしたこちらの落ち度かも知れません。

特にこだわりがなければ、通常ならここで終了ということになりますが、ここは実験なので再度プロンプトを入力して画像に変更を加えることにします。

まずは、プロンプトのみで位置変更を試す。

猫とコーヒーカップの位置を入れ替えて猫の頭を左向きにする単純な指示です。

PROMPT

プロンプト: 本棚で眠る猫。猫を画面右に配置する。コーヒーカップを画面左に配置する。猫の頭は画面左側に向ける。猫の下にある本の位置関係も入れ替える。テイストは最初の画像と同じ雰囲気で。

うーん…。コーヒーカップが一つ増えて左に配置されましたが、猫の向きや本の配置もほぼ変わっていません。

プロンプトをよくよく読み返すと「コーヒーカップを画面左に配置する」は正しいことがわかりました。ここは「移動」という言葉を使うべきですね。

猫の頭は左側にしてくれませんでした。本の配置も若干変わっただけです。

だだ、これからラフスケッチでの指示を試すという意味では好都合だったかもしれません。

ラフスケッチを投入！果たして結果は？

修正の指示としては、プロンプトとラフスケッチの併用です。まずプロンプトは以下の通り

PROMPT

ラフスケッチはこちらをアップ

カエル

この後意外な結果に…。

結果はなんと、最初に生成した画に戻ってしまいました。

AIはどう解釈しているのでしょう？予想が付きません。

Geminiの見解は、「スケッチの意図は汲み取れているものの、レイアウトを厳密に反映させるロジックがまだ十分に理解できていないのかも」ということでした。

確かに猫、本棚、コーヒーカップという要素は指示通りに変更した形になっています。

もしかしたらミラー反転したみたいな絵柄に意味を感じていないのかも知れません。

ここからプロンプトの迷路に…。

ダメ押しでラフスケッチのみで指示してみます。「このスケッチの通りに修正して」ということです。

今度は2回目に出力した画に戻ってしまいました。AIに「えー？これじゃだめなの？」と言われてるみたいな感じです。

そうだ、英訳してみよう。

そういえば以前、何かの記事でAIは日本語のプロンプトより英語のほうが効果的と言っているのを思い出しました。

そこでGeminiに英語のプロンプトで再度、指示してもらうことにしました。

PROMPT

プロンプト (英語): – A cat sleeping on a bookshelf. – Swap the cat to the right and the coffee cup to the left. – The cat’s head should be positioned to the left. – Swap the books underneath the cat. – Maintain the cozy, soft lighting style of the previous images.

カエル

おお、大きく進展しました！

やはり、生成AIは日本語よりも英語を使ったほうが、より理解してくれると言うのは本当みたいです。

猫のポーズは変わりましたが、ほぼ指示通りの構図にしてくれました。

Geminiによると英語のSwapとかto the left/rightなどは指示として、より明確で直接的なのでAIが正しく解釈できた可能性があると言ってました。

ここで今までの経緯を振り返ってみる。

ここまでを振り返ると、ラフスケッチの効果はありそうだけど万能では無いみたいです。

あと、プロンプトは日本語より英語のほうが伝わりやすい。

ちょっと気になったのは、生成画像の出力が元に戻ったりすることです。なんか「さっき作ったこれではダメなの？」と言ってる感じ。

これはあくまでもカエルの推測ですが、まず最初に短く簡潔なプロンプトでAIが、指示に限りなく近い、最高品質の画像を叩き出すと、タスク完了とAIが思い込み、最初の成功体験が基準になってしまい、その後の細かい修正の優先順位が低くなるのではないかと考えてみました。

そうだとすると、発注する最初の段階でのプロンプトをシーンのパーツごとに分割し、切り分けて指示しておくと、AIも修正箇所を切り分けて考えられるので、細かい修正が可能になるかも知れません。

その旨Geminiに打診してみたら、やってみる価値が十分あると回答してくれました。

最後のトライ！分割詳細プロンプト。

考えられるシーンの描写を細かく分割して、プロンプトにしてみました。

Geminiに細かいチェックと英訳をしてもらいました。以下のとおりです。

PROMPT

Subject: A ginger tabby cat sleeping peacefully on a bookshelf with a coffee cup.

Composition:

The cat is the main subject, positioned on the middle shelf of a bookshelf.
A single white coffee cup is placed just to the left of the cat’s head.
The cat’s head is pointing to the left.

Camera & Lens:

Shot Angle: High angle shot, looking slightly down at the cat.
Lens Effect: Shallow depth of field, the background is softly blurred.

Background & Lighting:

Background: A vintage wooden bookshelf filled with old books. A bright, cozy room is visible behind it.
Lighting: Soft backlight coming from the room behind, creating a gentle rim light on the cat. The overall atmosphere is warm and serene.

Style: