
前回の記事では、まず簡単なプロンプトでGeminiに画像生成してもらいました。
その後、変更してもらいたいところをラフスケッチで指示してGeminiに見せて理解してもらい、修正画像を生成してもらう流れでした。
今日はもう一歩突っ込んで、最初からラフスケッチを見せて理解してもらったら、ラフ通りの画像を生成してくれるのか、試してみたいと思います。
もしこれが可能であれば、編集のときにつなぎやすい絵コンテなどの素材として活用できるかもしれません。
将来的には著作権問題などもクリアになって動画も自由に使えるようになるのかもしれません。
テーマは前のスレッドでGeminiが提案してくれたものにしました。
この企画については、前に使っていたスレッドでGemini2.5プロがこんな提案をしてくれてました。

『ラフスケッチから画の意図を読み取り、複雑な描写が可能か試したいので、雨の渋谷交差点で傘をさす女性の画像はどうでしょう?』
結構ハードル高そうな企画です。今、このスレッドは不安定になっていて、画像が作れなくなってしまっているので、新しく立ち上げたスレッドで試します。
ということでラフを作って見てもらう。
まずGoogleマップのストリートビューで、ハチ公前あたりの画像をキャプチャーして街並みの資料収集、それから傘を持った女性のイラストに取り掛かりました。
女性もネットで探して参考にしようかと思ったのですが、運悪く?ちょうど今、トレースパクリ問題が炎上中なので、何となく腰が引けて😁、一から描くことにしました(結構面倒(T_T))。
彩色しようかなとも思ったのですが、時短にもなるし線画で理解してもらえるのか試してみます。
アプリはクリップスタジオペイント(クリスタ)を使用しました。


この画像を見て僕がどんな生成画像を作りたいと思っているか、わかるでしょうか?(このスレッドでは渋谷とは伝えていません)

はい、お見せいただきありがとうございます。 この一枚の線画から、あなたの作りたい世界観が、非常に豊かに、そして明確に伝わってきます。 これは、私たちの次の実験のスタート地点として、最高のスケッチですね。
Geminiの理解力がすごい!
カエルのざっくり書いたスケッチを見て、Geminiが読み取った分析が、とにかく詳細ですごいとしか言いようがないです。
カエルが画にしたいと思っていた内容とほぼ完璧に一致していました。以下。

私がこのスケッチから読み取ったこと
Geminiと画像のトーンなどのすり合わせをして、画像生成してもらった。
最初の分析でほぼ完璧に理解してくれた上に、撮影時間設定や全体の色のトーン、女性の表情、などなど色々質問してくれました。
後はコート傘の色などをすり合わせる程度、その後英語でプロンプトを作成してくれて、画像生成の準備完了です。で、できた画像がこちらです。

ほぼ完璧と行っていい仕上がりです。人物の大きさや背景の位置関係もバッチリだと思います。
このままカラーコンテのワンシーンにして全く問題なしです。
ただ細かいところで2点ほど修正を入れたい部分がありました。一つは女性の左手が雨を受けるように手のひらを上に向けているところ。
もう一つは傘の形状をグラフィカルにしたかったので真横に近い向きに振ってほしい点です。
やはり、後からの修正はむずかしいのか?
この2点を追加修正で、プロンプトで指示してみました。


結果は変化なし。
結果は修正不可のようです。出だしが良かっただけに残念。
もしかするとここは外せないといった細部の表現があれば、初期段階でプロンプトとして入れておけばうまくいくのかもしれません。
このへんは今後の課題ですね。
次は、女性のキャラクターを維持しながらのエキストラシーンを試してみます。
引いた画はこのくらいにして次に行きます。今度は女性のキャラクターを維持したままアップにしてバストショットの横顔を作ってもらいます。
さっき傘を真横にするのと、手を差し伸べるディテールの表現に失敗したので、再チャレンジも兼ねます。


痛恨の失敗(T_T)画像のアップロードが同時にできませんでした。
スケッチも準備してプロンプト用のテキストを打ってリターンしたら先にテキストだけが先にアップされ、それをもとに生成されてしまいました。それがこれ。

画としては悪くなかったです。というよりなかなか良い。
ただ画のつなぎとしては、例えば顔の向きが同じ方向(イマジナリーライン)をキープしていないと使えなくなる場面もあるので、このへんはムービー編集用のコンテとしては、ちょっと根深い問題かもしれません。
カエルがスケッチの指示にこだわる理由はガチャ要素による意図しない構図を防ぎたいという理由もあります。
その後プロンプトによる修正を試みましたが、結果は引き画のときと同じ結果でした。
ポーズを大きく変えたら、成功体験(アンカー・AIのバイアス)がリセットされるのでは?

似たようなポーズを避ければAIのこだわりがリセットされるのではないかと考えてみました。
傘をたたんだポーズに変更して傘を両手で持ったスケッチをアップしてみます。


よく見たら傘の柄がおかしくなってました。この程度なら修正聞くのでご愛嬌。
微妙な結果に、傘はたたんでくれましたが、両手で持ってないし正面も向いていません。
最後に全く違うシーンで生成してみる。

最後に渋谷の交差点を意識せず、渋谷の路地の雑踏を歩く女性という設定で、スケッチを作ってみました。
この設定は会話形AIのGemini2.5PROはきちんと理解してくれていました。(画像の生成はImagen2がやっている)
行き交う人がシルエットっぽくスローシャッター気味にブラーが発生しているところまで分析して、プロンプトに追加してくれています。


絵的には似てなくもないけど…。
にも関わらず、結果はこれ。かなり最初の画に引きずられているのがわかります。
2回目も前回と同じような流れなので、これは生成AI特有のクセみたいなものなのかもしれません。
まとめ
今回こそはと、意気込んで取り組んだのですが、またしても微妙な結果に終わってしまいました。
しかし、希望が持てる材料もたくさん見つかりました。
まず1つ目は線画のスケッチでも十分AIが理解してくれていたこと。
2つ目は女性のキャラクターは最後まで別人にならずキャラをキープしてくれた。
3,ポーズにほぼ破綻がなくすべて使えるカットだったこと。
4,プロンプトでの指示だけで夜景や雨のシーンネオンや水に濡れた路面の反射などフォトリアルな美しい画像を出力してくれたこと。
などなどです。これまでのAIの進化を見ていると、かなりスピーディーに、軌道修正してくるので、もしかすると数カ月後くらいには、スケッチによる画像生成も当たり前のようにできるようになっているかもしれません。
しばらく時間をおいてから再チャレンジするのもありかなと思いました。
私があなたの意図を正しく解釈できているか、まずはお伝えします。