『ラフスケッチ』主導での画像生成に再チャレンジ。絵コンテ作成などで、使えそうか試してみました。

前回の記事では、まず簡単なプロンプトでGeminiに画像生成してもらいました。

その後、変更してもらいたいところをラフスケッチで指示してGeminiに見せて理解してもらい、修正画像を生成してもらう流れでした。

今日はもう一歩突っ込んで、最初からラフスケッチを見せて理解してもらったら、ラフ通りの画像を生成してくれるのか、試してみたいと思います。

もしこれが可能であれば、編集のときにつなぎやすい絵コンテなどの素材として活用できるかもしれません。

将来的には著作権問題などもクリアになって動画も自由に使えるようになるのかもしれませんね。

テーマは前のスレッドでGeminiが提案してくれたものにしました。
ということでラフを作って見てもらう。
Geminiの理解力がすごい！
Geminiと画像のトーンなどのすり合わせをして、画像生成してもらった。
やはり、後からの修正はむずかしいのか？
次は、女性のキャラクターを維持しながらのエキストラシーンを試してみます。
ポーズを大きく変えたら、AIの成功体験（アンカー・バイアス）がリセットされるのでは？
最後に全く違うシーンで生成してみる。
まとめ

テーマは前のスレッドでGeminiが提案してくれたものにしました。

この企画については、前に使っていたスレッドでGemini2.5プロがこんな提案をしてくれてました。

Gemini

『ラフスケッチから画の意図を読み取り、複雑な描写が可能か試したいので、雨の渋谷交差点で黄色い傘をさす女性の画像で検証する。はどうでしょう？』

結構ハードル高そうな絵柄の企画です。今、このスレッドは不安定になっていて、画像が作れなくなってしまっているので、新しく立ち上げたスレッドで試してみます。

ということでラフを作って見てもらう。

まずGoogleマップのストリートビューで、ハチ公前あたりから見た交差点の画像をキャプチャーして街並みの資料にしました。それから傘を持った女性のイラストに取り掛かりました。

女性ポーズもネットで探して参考にしようかと思ったのですが、運悪く？ちょうど今、イラストのトレースパクリ問題が炎上中なので、何となく腰が引けて😁、一から描くことにしました（結構面倒(T_T)）。

彩色してもよかったのですが、時短にもなるしモノクロの線画で理解してもらえるのか試してみます。

アプリはクリップスタジオペイント（クリスタ）を使用しました。

カエル

このラフスケッチを見て僕がどんな生成画像を作りたいと思っているか、わかるでしょうか？（このスレッドでは渋谷とは伝えていません）

Gemini

はい、お見せいただきありがとうございます。この一枚の線画から、あなたの作りたい世界観が、非常に豊かに、そして明確に伝わってきます。これは、私たちの次の実験のスタート地点として、最高のスケッチですね。

Geminiの理解力がすごい！

カエルのざっくり書いたスケッチを見て、Geminiが読み取った分析が、とにかく詳細で、すごいとしか言いようがないです。

カエルが画にしたいと思っていた内容とほぼ完璧に一致していました。想定したカメラ位置まで読み取っているのには、恐れ入りました。以下がGeminiのコメントです。

Gemini

私がこのスケッチから読み取ったこと

私があなたの意図を正しく解釈できているか、まずはお伝えします。

シーンの特定： これは、東京・渋谷のスクランブル交差点ですね。背景に見える「STARBUCKS」や「TSUTAYA」といった象徴的な看板、そして街の構造から、場所は間違いないと思います。
主役とテーマ： 主役は、雨の降る雑踏の中、透明なビニール傘を差して空を見上げる一人の女性。無数の人々が傘を差して行き交う中で、彼女だけがふと足を止め、何かを見上げている。都会の喧騒と、その中心にいる個人の**「静かな時間」や「内面」との対比**が、この絵の大きなテーマだと感じます。
構図とカメラワーク： カメラは、地面に近いローアングルから、少し見上げるように彼女を捉えています。これにより、彼女の存在感が際立つと同時に、背景のビル群の高さが強調され、都会のスケール感が表現されています。横断歩道の白い線が、鑑賞者の視線を自然と彼女へと導いていますね。
描きたい「瞬間」の推測： あなたが生成したいのは、単なる風景写真ではなく、映画のワンシーンのような、物語性を感じさせるフォトリアルな画像ではないでしょうか。雨音と街のノイズが少し遠くに聞こえ、彼女の周りだけ時間がゆっくり流れているような、そんな一瞬を切り取りたい、という意図を感じ取りました。