【超入門】初めての画像生成AIを使ってみよう【前段編】

画像生成AIとは？
StableDiffusionWebUI
PCスペックはどれくらい必要？
終わりに

画像生成AIとは？

最初に、画像生成AIがどうやってイラストを出力しているかを簡単に説明します。

画像生成AIは、機械学習の手法「ディープラーニング（深層学習）」を用いた画像や映像などを加工したり、イラストやデザインの生成を行う技術のことを指します。

AIに「プロンプト（呪文）」と呼ばれる指示を入力することで、その指示内容に対応した画像を生成することができる技術です。

例えば「1girl, smile」とプロンプトを入力すると笑顔の少女が描かれたイラストを生成します。

この技術は、膨大な量の画像を元に学習を行い、新しい画像を生成する仕組みの人口知能（AI）です。AIにノイズを取り除く訓練（学習）を積ませ、その訓練の結果としてプロンプトの指示に従って新しい画像を生み出すようになります。

（細かく知りたい方は「ディープラーニング」や「深層学習」で調べてみてください。後述するStableDiffusionというAIはプログラム言語のPythonで動いています。）

画像生成AIはノイズを取り除く訓練を積ませた技術であることは次の画像から見ることができます。

AIはただのノイズ画像を生み出し、プロンプト「女の子、笑顔」という指示を確認します。その指示の傾向に沿った方向へノイズを取り除いていきます。

ノイズを取り除く工程を繰り返すことでノイズまみれの画像をブラッシュアップし「笑顔の女の子」を生成します。（この工程をステップと呼ぶ）

ちなみにこれは「text2image（t2i）」と呼ばれており、別手法の「image2image（i2i）」を用いれば元画像のコラージュのようなことができます。いつか別記事にてご紹介したいと考えています。

「画像生成AIは、様々なイラストや絵画を切り貼りしているだけだ！」と誤解されている方が一定数おりますが、これは不可能です。ノイズを取り除く訓練は数億～数十億の画像データを使用して行われています。訓練結果はモデルと呼ばれるデータですが、このデータは大きくても10GB弱程度しかありません。

仮にすべての画像データがこの数GBに保存されていた場合、とんでもない圧縮技術となってしまいます。（1枚あたり数バイトになります）

StableDiffusionWebUI

画像生成AIを使う方法は大きく分けて2つあります。

ローカル生成：自分のPCに画像生成AIをインストールして使う。
サービス利用：クラウド環境に用意された画像生成AIを使う。

それぞれにメリットデメリットがありますのでご自身に合ったものをご利用ください。

1.ローカル生成は比較的高スペックなパソコンが必要になりますが、パソコン本体代とパソコンの電気代以外は無料で時間の許す限り無限に画像を生成できます。

電気代については、筆者自身はそこまで高くなった感触はありませんでした。（月1,000～2,000円程度？）

2.サービス利用は月々の利用料金（数百円～数千円）を支払えば、自身のPCスペックに左右されずに生成を行えるのがメリットです。

ただ、生成枚数に制限があったり生成速度に難がある時間帯などあるようです。〇〇枚まで無料のプランがあるサービスもあるので、ローカルを考えている人も含めて、お試しで触ってみるのもいいと思います。

本ブログでは1.ローカル生成をメインにご紹介していきます。その中でもAUTOMATIC1111氏が配布している「StableDiffusionWebUI」を使っていきます。

ローカル勢と呼ばれる人の多くがこちらを使用してイラスト生成を行っています。多くの人が利用していることもあって、たくさんの拡張機能だったり性能が高いモデルの配布が行われています。

PCスペックはどれくらい必要？

StableDiffusionWebUIを使うために必要なスペックで1番重要なのが「グラフィックボード」です。

NVIDIA製GeForce RTX20シリーズ以降
VRAM（ビデオメモリ）容量が最低8GB、できれば12GBが望ましい。

8GBは基本的なイラスト生成だけを楽しむために必要なスペックであり、高画像化や追加学習機能を利用するためには12GB以上のものでないと厳しいです。

とはいえ多少の不便さはありながらもGTX1000番台でも画像生成ができないわけではないので、ここ数年で購入したゲーミングPCであれば生成自体は可能です。このクラスのグラボを搭載しているPCなら、よほどアンバランスなPC性能で無ければ他のスペックは気にする必要はありません。

強いて言うならば、SDD/HDDの容量は大きいほどよいです。StableDiffusionWebUIで使用する学習モデルは5GB程度あり、複数種類を保存し使い分けたりします。またLoRAと呼ばれる追加学習モデルも使用したりすると同じだけ増え、さらには生成されたイラストを保存するにもドライブを使用するため可能な限り容量を増やすことをおすすめします。

参考までに筆者は115GBほどの容量を使用していました。