Stable Diffusion

Stable Diffusionで生成された猫画像

▼使用プロンプト

Photo of a cat sleeping in a hammock with Grand Canyon in the background

▼プロンプトの意味・内容
グランドキャニオンをバックにハンモックで寝ている猫の写真

プロンプトをしっかり汲み取ってくれている描写で仕上がった生成例だと言えます。背景である「グランドキャニオン」がややぼかされていて、被写体である「ハンモックで寝ている猫」がより被写体として際立って見えますね。

数ある画像生成AIサービスにおいて、最も忠実にテキストプロンプトを汲み取ってくれるとされているStable Diffusionの特徴がよく表れた生成例かと思います。

ほかの生成例

▼使用プロンプト

masterpeace,high resolution,Cat dancing the samba

▼プロンプトの意味・内容
最高傑作,高解像度,サンバを踊る猫

↑の画像は、”サンバと言えるのか”というと微妙な感じではあります。ただ、「踊る猫」はしっかり描写されているかと思います。ほか細かな気になる箇所はありますが、面白みのある生成例ではないでしょうか。

ほかの生成例

▼使用プロンプト

masterpeace,high resolution,photogenic,Cat working at a construction site wearing a helmet

▼プロンプトの意味・内容
最高傑作,高解像度,フォトジェニック,ヘルメットを着用し工事現場で働く猫

↑プロンプトの反映具合としては求めるイメージに対してほぼ完璧かと思います。単に工事現場に迷い込んでしまった猫だったり、工事現場にいる猫の描写であれば失敗例でしたが、こちらはプロンプトに対して成功例だと言えます。ただ、実際にこんなヘルメットの被り方をしていては現場監督から怒られてしまうことでしょう。

ちなみに、Stable Diffusionはオープンソースで公開されています。自身のPCに環境構築(ローカル環境)することでモデルファイルを活用することができます。

モデルファイルを使用した生成例

▼使用プロンプト

masterpeace,high resolution,photogenic,Cat with sunglasses

▼プロンプトの意味・内容
最高傑作,高解像度,フォトジェニック,サングラスをかけた猫

使用モデルファイル:MeinaPastel(V6)
↑で使用したモデルは2次元アニメ美少女系に特化したモデルになりますが、猫のサイズ感だったり人が描かれていたり、突っ込みどころ満載の出力結果となってしまいました。同一プロンプトで何度か出力することで、求めるイメージに近い画像も出てくるかとは思いますが、こちらでは1度目の出力画像のみ掲載しています。

モデルファイルの一例として紹介していますが、Stable Diffusionで猫画像を生成するということであればモデルファイルを使わずとも、それなりの画像は生成可能かと思われます。

また、Stable Diffusionでのプロンプト入力は基本的には英語です。
日本語でのプロンプトに全く対応していないわけではありません。ただ、プロンプト自体がある程度長いものだったりすると、上手く反映されないケースがあります。

 

Stable Diffusionの料金体系

Stable Diffusionはオープンソースで公開されているため、無料で利用することができます。

また、Stable Diffusion自体は商用利用可能となっていますが、下線モデルファイルを使用する場合、そのモデルファイル毎に規約を確認するようにしないといけません。(モデルファイルによっては商用利用不可の場合もあり)

Stable Diffusionでの画像生成のやり方・手順などは、以下よりご参照下さい

Stable Diffusionでの画像生成詳細へ