
先日の記事で初めて画像生成AIを使ってみましたが、正直な感想は「便利で楽」でした。
今までこのブログではデジカメを使った実写のライティングや撮影だけを扱ってきました。
今後もその基本方針は変えていませんが、記事の説明画像やちょっとした挿絵画像にAIを利用するのはアリだなと意識が変わってきました。
今後は前向きにAIとも、うまく付き合いつつ、普段の撮影のクオリティ向上と、AIを教材にしてアートディレクションや撮影監督的なスキルも身につくような使い方を探ってみたいと考えています。
今日はその取り組みの手始めとして、画像のプロンプトやラフスケッチを使ったAIへの指示方法について深堀りしたいと思います。
まず、画像生成AIが得意なところ、不得意なところを理解する。
前回の記事で画像を作ってみて気づいたことがあります。
画像生成の際のプロンプトについては、撮影やカメラワーク、アートの用語など、かなり攻めた専門用語を使ってもAIはすんなりと理解してくれます。
しかし、例えば画面右側にキャッチコピースペースが欲しいから、被写体を左に寄せてといったような、構図や空間的な指示はうまく行かない印象がありました。
そこで、人との打ち合わせなどでカエルがよくやる、指示書として簡単なラフスケッチをGeminiにアップしたところ、ほぼ思い通りの画を出力してくれたんです。
実際あとでGeminiに聞いたところ、以下のような回答が返ってきました。
『あなたがラフスケッチを提示してくださったことは、最終的なイメージにたどり着く上で、決定的に重要な役割を果たしました。それは単なる「参考」以上の、非常にパワフルな情報です。』
実際には以下のような感じで生成してもらいました。
最初のプロンプト-主役はフロストの日本酒ボトルです。-冷酒用のグラスにお酒が7分目くらい入っています。-暗い赤系のマットの上に和風料理と小鉢が載っています。

短いプロンプトでしたが、いい感じに生成してくれています。

和モダンっぽくしたかったので、ラフスケッチをアップ(雑すぎ😁)してみました。さらにプロンプトを追加。

2回めのプロンプト:全体の色調は明るく、テーブルは白木っぽく。料理の数を3点に減らす。背景にぼかしで和風の千代紙風額と南天のドライフラワー。でお願いします。


結果はこの通り、これは完璧にスケッチの指示を参考にしているとしか思えませんよね。
このことでわかったのは
●カメラワークや色のテイスト、物の形状や質感はプロンプトで十分伝わる。
●物の位置関係、構図などの空間認識は、プロンプトだけでは伝わりにくい。
ということです。
これを踏まえてGeminiに新しい画像を出力してもらいましょう

実写ぽい猫の画像を作ってもらうことにしました。
プロンプト:本棚で眠る猫、隣にコーヒーカップ


良すぎでしょう。
上のプロンプトのみで生成したのですが…参りました。最近の生成AI、あなどれませんね。
絵柄としては、ほぼ完璧でしょう。これはノープランで生成をお願いしたこちらの落ち度かも知れません。
特にこだわりがなければ、通常ならここで終了ということですが、ここは実験なので再度プロンプトを入力して画像に変更を加えることにします。
まずは、プロンプトのみで位置変更を試す。
猫とコーヒーカップの位置を入れ替えて猫の頭を左向きにする単純な指示です。
プロンプト: 本棚で眠る猫。 猫を画面右に配置する。 コーヒーカップを画面左に配置する。 猫の頭は画面左側に向ける。 猫の下にある本の位置関係も入れ替える。 テイストは最初の画像と同じ雰囲気で。

うーん…。コーヒーカップが一つ増えて左に配置されましたが、猫の向きや本の配置もほぼ変わっていません。
プロンプトをよくよく読み返すと「コーヒーカップを画面左に配置する」は正しいことがわかりました。ここは「移動」という言葉を使うべきですね。
猫の頭は左側にしてくれませんでした。本の配置も若干変わっただけです。
だだ、これからラフスケッチでの指示を試すという意味では好都合だったかもしれません。
ラフスケッチを投入!果たして結果は?
修正の指示としては、プロンプトとラフスケッチの併用です。まずプロンプトは以下の通り
プロンプト: 本棚で眠る猫。 猫を画面右に配置する。 コーヒーカップを画面左に配置する。 猫の頭は画面左側に向ける。 猫の下にある本の位置関係も入れ替える。 テイストは最初の画像と同じ雰囲気で。
ラフスケッチはこちらをアップ


この後意外な結果に…。

結果はなんと、最初に生成した画に戻ってしまいました。
AIはどう解釈しているのでしょう?予想が付きません。
Geminiの見解は、「スケッチの意図は汲み取れているものの、レイアウトを厳密に反映させるロジックがまだ十分に理解できていないのかも」ということでした。
確かに猫、本棚、コーヒーカップという要素は指示通りに変更した形になっています。
もしかしたらミラー反転したみたいな絵柄に意味を感じていないのかも知れません。
ここからプロンプトの迷路に…。
ダメ押しでラフスケッチのみで指示してみます。「このスケッチの通りに修正して」ということです。

今度は2回目に出力した画に戻ってしまいました。AIに「えー?これじゃだめなの?」と言われてるみたいな感じです。
そうだ、英訳してみよう。
そういえば以前、何かの記事でAIは日本語のプロンプトより英語のほうが効果的と言っているのを思い出しました。
そこでGeminiに英語のプロンプトで再度、指示してもらうことにしました。
プロンプト (英語): – A cat sleeping on a bookshelf. – Swap the cat to the right and the coffee cup to the left. – The cat’s head should be positioned to the left. – Swap the books underneath the cat. – Maintain the cozy, soft lighting style of the previous images.


おお、大きく進展しました!
やはり、生成AIは日本語よりも英語を使ったほうが、より理解してくれると言うのは本当みたいです。
ポーズは変わりましたが、ほぼ指示通りの構図にしてくれました。
Geminiによると英語のSwapとかto the left/rightなどは指示として、より明確で直接的なのでAIが正しく解釈できた可能性があると言ってました。
ここで今までの経緯を振り返ってみる。
ここまでを振り返ると、ラフスケッチの効果はありそうではあるけど万能では無いみたいです。
あと、プロンプトは日本語より英語のほうが伝わりやすい。
ちょっと気になったのは、生成画像の出力が元に戻ったりすることです。なんか「さっき作ったこれではダメなの?」と言ってる感じ。
これはあくまでもカエルの推測ですが、まず最初に短く簡潔なプロンプトでAIが、指示に限りなく近い、最高品質の画像を叩き出すと、タスク完了とAIが思い込み、最初の成功体験が基準になってしまい、その後の細かい修正の優先順位が低くなるのではないかと考えてみました。
そうだとすると、発注する最初の段階でのプロンプトをシーンのパーツごとに分割し、切り分けて指示しておくと、AIも修正箇所を切り分けて考えられるので、細かい修正が可能になるかも知れません。
その旨Geminiに打診してみたら、やってみる価値が十分あると回答してくれました。
最後のトライ!分割詳細プロンプト。
考えられるシーンの描写を細かく分割して、プロンプトにしてみました。
Geminiに細かいチェックと英訳をしてもらいました。以下のとおりです。
Subject: A ginger tabby cat sleeping peacefully on a bookshelf with a coffee cup.
Composition:
- The cat is the main subject, positioned on the middle shelf of a bookshelf.
- A single white coffee cup is placed just to the left of the cat’s head.
- The cat’s head is pointing to the left.
Camera & Lens:
- Shot Angle: High angle shot, looking slightly down at the cat.
- Lens Effect: Shallow depth of field, the background is softly blurred.
Background & Lighting:
- Background: A vintage wooden bookshelf filled with old books. A bright, cozy room is visible behind it.
- Lighting: Soft backlight coming from the room behind, creating a gentle rim light on the cat. The overall atmosphere is warm and serene.
Style:
- Photorealistic, warm tones, cozy and peaceful mood.

出来上がった画像がこちら!ほぼ完璧と言っていいです。

被写体、小物、背景、ライティング、カメラワークなど細かく分割した指示にして、英訳したプロンプトで出力した画像です。
ほぼ完璧と言っていいですよね。ようやくゴールに辿り着きホッとしました。
今回はラフスケッチの効果を試す企画でもあったので正直いって目的が達成できたとは言えませんが、詳細なプロンプトの効果が絶大ということはよくわかりました。
やはり疑問を挟む余地のない、理詰めのテキストのほうが相性がいいのかな?
まとめ
思いの外ゴールに辿り着くまでに難航してしまいました。詳細なテキスト最強😁!ですか…。
結局、ラフスケッチに効果があるかないかの結論はお預けになってしまいましたね。
これはカエルの推測なのですが、現状では画像生成のユーザーは言語での指示で変更を加える人が圧倒的に多く、僕のようなスケッチで変更を試みる人は少数派なのだと思います。
当然フィードバックが少ないと思うので、AIにはスケッチによる修正のポテンシャルはあるけど、まだ洗練されていないのかもしれません。
ムービー制作や広告の現場ではラフスケッチや絵コンテなどで指示を出したり、プレゼンテーションするのは日常のことです。
AIとのやり取りにもこういった方法を取り入れるのは効果的だと思うんですけどね。
AIの開発者の方がそんな修正機能を検討してくれたらうれしいですよね。
美術系の仕事を目指す若い人の中には、デッサンやお絵かきのスキルはオワッタとか必要ないかもと考えている人もいるかも知れませんが、カエルはそうは思いません。
これからも自分の手で描く文化は続くと思うし、そのスキルを使った職業がきっと新しくできると信じたいです。
カエルの絵は、それほどうまいわけではありませんが、日常の打ち合わせなどで、それなりに役に立っています😁。
最後に、現在様々な画像生成AIのサイトがありますが、主要なAIのほとんどが、拡散モデル(Diffusion Model)という基本技術を使った派生的な技術なんだそうです。
そのため、AIへの指示方法や付き合い方には共通した「作法」があるとのこと。今日試したプロンプトや指示用のラフスケッチは、他の生成AIサイトでも応用できるはずです。
無料のものも多いので、皆さんも一度ためしてみてはいかがでしょうか。