※当サイトは、アフィリエイト広告を利用しています。

『ラフスケッチ』主導での画像生成に再チャレンジ。絵コンテ作成で使えそうか試してみました。

前回の記事では、まず簡単なプロンプトでGeminiに画像生成してもらいました。

その後、変更してもらいたいところをラフスケッチで指示してGeminiに見せて理解してもらい、修正画像を生成してもらう流れでした。

今日はもう一歩突っ込んで、最初からラフスケッチを見せて理解してもらったら、ラフ通りの画像を生成してくれるのか、試してみたいと思います。

もしこれが可能であれば、編集のときにつなぎやすい絵コンテなどの素材として活用できるかもしれません。

将来的には著作権問題などもクリアになって動画も自由に使えるようになるのかもしれません。

テーマは前のスレッドでGeminiが提案してくれたものにしました。

この企画については、前に使っていたスレッドでGemini2.5プロがこんな提案をしてくれてました。

Gemini
Gemini

『ラフスケッチから画の意図を読み取り、複雑な描写が可能か試したいので、雨の渋谷交差点で傘をさす女性の画像はどうでしょう?』

結構ハードル高そうな企画です。今、このスレッドは不安定になっていて、画像が作れなくなってしまっているので、新しく立ち上げたスレッドで試します。

ということでラフを作って見てもらう。

まずGoogleマップのストリートビューで、ハチ公前あたりの画像をキャプチャーして街並みの資料収集、それから傘を持った女性のイラストに取り掛かりました。

女性もネットで探して参考にしようかと思ったのですが、運悪く?ちょうど今、トレースパクリ問題が炎上中なので、何となく腰が引けて😁、一から描くことにしました(結構面倒(T_T))。

彩色しようかなとも思ったのですが、時短にもなるし線画で理解してもらえるのか試してみます。

アプリはクリップスタジオペイント(クリスタ)を使用しました。

カエル
カエル

この画像を見て僕がどんな生成画像を作りたいと思っているか、わかるでしょうか?(このスレッドでは渋谷とは伝えていません)

Gemini
Gemini

はい、お見せいただきありがとうございます。 この一枚の線画から、あなたの作りたい世界観が、非常に豊かに、そして明確に伝わってきます。 これは、私たちの次の実験のスタート地点として、最高のスケッチですね。

Geminiの理解力がすごい!

カエルのざっくり書いたスケッチを見て、Geminiが読み取った分析が、とにかく詳細ですごいとしか言いようがないです。

カエルが画にしたいと思っていた内容とほぼ完璧に一致していました。以下。

Gemini
Gemini

私がこのスケッチから読み取ったこと

私があなたの意図を正しく解釈できているか、まずはお伝えします。

  1. シーンの特定: これは、東京・渋谷のスクランブル交差点ですね。背景に見える「STARBUCKS」や「TSUTAYA」といった象徴的な看板、そして街の構造から、場所は間違いないと思います。
  2. 主役とテーマ: 主役は、雨の降る雑踏の中、透明なビニール傘を差して空を見上げる一人の女性。無数の人々が傘を差して行き交う中で、彼女だけがふと足を止め、何かを見上げている。都会の喧騒と、その中心にいる個人の**「静かな時間」や「内面」との対比**が、この絵の大きなテーマだと感じます。
  3. 構図とカメラワーク: カメラは、地面に近いローアングルから、少し見上げるように彼女を捉えています。これにより、彼女の存在感が際立つと同時に、背景のビル群の高さが強調され、都会のスケール感が表現されています。横断歩道の白い線が、鑑賞者の視線を自然と彼女へと導いていますね。
  4. 描きたい「瞬間」の推測: あなたが生成したいのは、単なる風景写真ではなく、映画のワンシーンのような、物語性を感じさせるフォトリアルな画像ではないでしょうか。雨音と街のノイズが少し遠くに聞こえ、彼女の周りだけ時間がゆっくり流れているような、そんな一瞬を切り取りたい、という意図を感じ取りました。

Geminiと画像のトーンなどのすり合わせをして、画像生成してもらった。

最初の分析でほぼ完璧に理解してくれた上に、撮影時間設定や全体の色のトーン、女性の表情、などなど色々質問してくれました。

後はコート傘の色などをすり合わせる程度、その後英語でプロンプトを作成してくれて、画像生成の準備完了です。で、できた画像がこちらです。

ほぼ完璧と行っていい仕上がりです。人物の大きさや背景の位置関係もバッチリだと思います。

このままカラーコンテのワンシーンにして全く問題なしです。

ただ細かいところで2点ほど修正を入れたい部分がありました。一つは女性の左手が雨を受けるように手のひらを上に向けているところ。

もう一つは傘の形状をグラフィカルにしたかったので真横に近い向きに振ってほしい点です。

やはり、後からの修正はむずかしいのか?

この2点を追加修正で、プロンプトで指示してみました。

カエル
カエル

結果は変化なし。

結果は修正不可のようです。出だしが良かっただけに残念。

もしかするとここは外せないといった細部の表現があれば、初期段階でプロンプトとして入れておけばうまくいくのかもしれません。

このへんは今後の課題ですね。

次は、女性のキャラクターを維持しながらのエキストラシーンを試してみます。

引いた画はこのくらいにして次に行きます。今度は女性のキャラクターを維持したままアップにしてバストショットの横顔を作ってもらいます。

さっき傘を真横にするのと、手を差し伸べるディテールの表現に失敗したので、再チャレンジも兼ねます。

カエル
カエル

痛恨の失敗(T_T)画像のアップロードが同時にできませんでした。

スケッチも準備してプロンプト用のテキストを打ってリターンしたら先にテキストだけが先にアップされ、それをもとに生成されてしまいました。それがこれ。

画としては悪くなかったです。というよりなかなか良い。

ただ画のつなぎとしては、例えば顔の向きが同じ方向(イマジナリーライン)をキープしていないと使えなくなる場面もあるので、このへんはムービー編集用のコンテとしては、ちょっと根深い問題かもしれません。

カエルがスケッチの指示にこだわる理由はガチャ要素による意図しない構図を防ぎたいという理由もあります。

その後プロンプトによる修正を試みましたが、結果は引き画のときと同じ結果でした。

ポーズを大きく変えたら、成功体験(アンカー・AIのバイアス)がリセットされるのでは?

似たようなポーズを避ければAIのこだわりがリセットされるのではないかと考えてみました。

傘をたたんだポーズに変更して傘を両手で持ったスケッチをアップしてみます。

カエル
カエル

よく見たら傘の柄がおかしくなってました。この程度なら修正聞くのでご愛嬌。

微妙な結果に、傘はたたんでくれましたが、両手で持ってないし正面も向いていません。

最後に全く違うシーンで生成してみる。

最後に渋谷の交差点を意識せず、渋谷の路地の雑踏を歩く女性という設定で、スケッチを作ってみました。

この設定は会話形AIのGemini2.5PROはきちんと理解してくれていました。(画像の生成はImagen2がやっている)

行き交う人がシルエットっぽくスローシャッター気味にブラーが発生しているところまで分析して、プロンプトに追加してくれています。

カエル
カエル

絵的には似てなくもないけど…。

にも関わらず、結果はこれ。かなり最初の画に引きずられているのがわかります。

2回目も前回と同じような流れなので、これは生成AI特有のクセみたいなものなのかもしれません。

まとめ

今回こそはと、意気込んで取り組んだのですが、またしても微妙な結果に終わってしまいました。

しかし、希望が持てる材料もたくさん見つかりました。

まず1つ目は線画のスケッチでも十分AIが理解してくれていたこと。

2つ目は女性のキャラクターは最後まで別人にならずキャラをキープしてくれた。

3,ポーズにほぼ破綻がなくすべて使えるカットだったこと。

4,プロンプトでの指示だけで夜景や雨のシーンネオンや水に濡れた路面の反射などフォトリアルな美しい画像を出力してくれたこと。

などなどです。これまでのAIの進化を見ていると、かなりスピーディーに、軌道修正してくるので、もしかすると数カ月後くらいには、スケッチによる画像生成も当たり前のようにできるようになっているかもしれません。

しばらく時間をおいてから再チャレンジするのもありかなと思いました。

カエル

カエルです。名前は「かんたんライティング」の頭文字Ka.L.からとりました。本業はグラフィックデザイナーで必要なときに商品写真やイメージ素材写真を撮ることがあります。カエルがデザイナー目線で調べたり工夫したり、試してみたいことなど写真撮影の小ネタを紹介できたらと思っています。アイデアが写真の完成度を上げられますように。

カエルをフォローする
ライティングTIPS
シェアする
カエルをフォローする