stable-diffusion text-to-image

Picasso Diffusion 1.1 Model Card

eyecatch.jpg

Title: Welcome to Scientific Fact World.

English version is here.

はじめに

Picasso Diffusionは、約7000GPU時間をかけ開発したAIアートに特化した画像生成AIです。

ライセンスについて

ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加しただけです。 例外を除き商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。 営利企業にいる方は法務部にいる人と相談してください。 趣味で利用する方はあまり気にしなくても一般常識を守り、お使いください。

法律について

本モデルは日本にて作成されました。したがって、日本の法律が適用されます。 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。 また、本モデルの配布については、著作権法や刑法175条に照らしてみても、 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。 ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

使い方

手軽に楽しみたい方は、こちらのSpaceをお使いください。 モデルはsafetensors形式ckpt形式からダウンロードできます。

以下、一般的なモデルカードの日本語訳です。

モデル詳細

モデルの使用例

Stable Diffusion v2と同じ使い方です。 たくさんの方法がありますが、2つのパターンを提供します。

Web UIの場合

Stable Diffusion v2 の使い方と同じく、ckpt形式、またはsafetensor形式のモデルファイルとyaml形式の設定ファイルをモデルフォルダに入れてください。 詳しいインストール方法は、こちらの記事を参照してください。 なお、xformersをインストールし、--xformers --disable-nan-checkオプションをオンにすることをおすすめします。そうでない場合は--no-halfオプションをオンにしてください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "alfredplpl/picasso-diffusion-1-1"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")

注意:

想定される用途

想定されない用途

使用してはいけない用途や悪意のある用途

モデルの限界やバイアス

モデルの限界

バイアス

学習

学習データ

Danbooruなどの無断転載サイトを除く、国内法に準拠したデータとモデル。

学習プロセス

評価結果

第三者による評価を求めています。

環境への影響

参考文献

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

*このモデルカードは Stable Diffusion v2 に基づいて書かれました。