stable-diffusion text-to-image

Cool Japan Diffusion 2.1.1 Beta Model Card

アイキャッチ

注意事项。中国将对图像生成的人工智能实施法律限制。 (中国国内にいる人への警告)

English version is here.

はじめに

Cool Japan Diffusion (for learning) はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。なお、内閣府のクールジャパン戦略とは特に関係はありません。

ライセンスについて

ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加しただけです。 例外を除き商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。 この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。 ちなみに、元のライセンスの日本語訳はこちらになります。 営利企業にいる方は法務部にいる人と相談してください。 趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。 なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。

法律や倫理について

本モデルは日本にて作成されました。したがって、日本の法律が適用されます。 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。 また、本モデルの配布については、著作権法や刑法175条に照らしてみても、 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。 ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。

しかし、本モデルを配布する行為が倫理的に良くないとは作者は思っています。 これは学習する著作物に対して著作者の許可を得ていないためです。 ただし、学習するには著作者の許可は法律上必要もなく、検索エンジンと同様法律上は問題はありません。 したがって、法的な側面ではなく、倫理的な側面を調査する目的も本配布は兼ねていると考えてください。

使い方

手軽に楽しみたい方は、こちらのSpaceをお使いください。 詳しい本モデルの取り扱い方はこちらの取扱説明書にかかれています。 モデルはここからダウンロードできます。

以下、一般的なモデルカードの日本語訳です。

モデル詳細

モデルの使用例

Stable Diffusion v2と同じ使い方です。 たくさんの方法がありますが、2つのパターンを提供します。

Web UIの場合

こちらの取扱説明書に従って作成してください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/cool-japan-diffusion-2-1-1-beta"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)#,use_auth_token="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")
pipe = pipe.to("cuda")

prompt = "anime, a portrait of a girl with black short hair and red eyes, kimono, full color illustration, official art, 4k, detailed"
negative_prompt="(((deformed))), blurry, ((((bad anatomy)))), bad pupil, disfigured, poorly drawn face, mutation, mutated, (extra limb), (ugly), (poorly drawn hands), bad hands, fused fingers, messy drawing, broken legs censor, low quality, ((mutated hands and fingers:1.5), (long body :1.3), (mutation, poorly drawn :1.2), ((bad eyes)), ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 2d, 3d, cg, text"
image = pipe(prompt,negative_prompt=negative_prompt, width=512, height=512, num_inference_steps=20).images[0]
image.save("girl.png")


注意:

想定される用途

想定されない用途

使用してはいけない用途や悪意のある用途

モデルの限界やバイアス

モデルの限界

バイアス

Stable Diffusionと同じバイアスが掛かっています。 気をつけてください。

学習

学習データ

次のデータを主に使ってStable Diffusionをファインチューニングしています。

学習プロセス

Stable DiffusionのVAEとU-Netをファインチューニングしました。

評価結果

環境への影響

ほとんどありません。

参考文献

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

*このモデルカードは Stable Diffusion v2 に基づいて、Alfred Incrementがかきました。