Manga Diffusion PoC Model Card

はじめに

Manga Diffusion PoC (Proof-of-Concept) はAI Picasso社が作った漫画に特化した画像生成AIです。 Manga Diffusion PoC は　著作権者から許可された画像やパブリックドメインの画像、CC-0の画像だけで学習されています。

ライセンス

このモデルのライセンスは Mitsua Open RAIL-M License (More restrictive variant of CreativeML Open RAIL-M) です。このモデルは商用利用可能ですが、"生成された画像をAIが生成したものではないと誤魔化すことはできません"。

使い方

ここからモデルをダウンロードできます。 Diffusersを使ってモデルをダウンロードすることもできます。

以下、一般的なモデルカードの日本語訳です。

モデル詳細

モデルタイプ: 拡散モデルベースの text-to-image 生成モデル
言語: 日本語
ライセンス: Mitsua Open RAIL-M License
モデルの説明: このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/H です。
補足:

参考文献:

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

モデルの使用例

Stable Diffusion v2と同じ使い方です。たくさんの方法がありますが、２つのパターンを提供します。

Web UI
Diffusers

Web UIの場合

Stable Diffusion v2 の使い方と同じく、safetensor形式のモデルファイルをモデルフォルダに入れてください。詳しいインストール方法は、こちらの記事を参照してください。

Diffusersの場合

🤗's Diffusers library を使ってください。

まずは、以下のスクリプトを実行し、ライブラリをいれてください。

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

次のスクリプトを実行し、画像を生成してください。

from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/manga-diffusion-poc"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "monochrome, grayscale, tower"
images = pipe(prompt, num_inference_steps=30, height=512, width=768).images
images[0].save("tower.png")

注意:

xformers を使うと早くなります。
GPUを使う際にGPUのメモリが少ない人は pipe.enable_attention_slicing() を使ってください。

想定される用途

イラストや漫画、アニメの作画補助
- 商用・非商用は問わない
依頼の際のクリエイターとのコミュニケーション
画像生成サービスの商用提供
- 生成物の取り扱いには注意して使ってください。
自己表現
- このAIを使い、「あなた」らしさを発信すること
画像生成AIに関する報道
- 公共放送だけでなく、営利企業でも可能
  - 画像合成AIに関する情報を「知る権利」は創作業界に悪影響を及ぼさないと判断したためです。また、報道の自由などを尊重しました。
研究開発
- Discord上でのモデルの利用
  - プロンプトエンジニアリング
  - ファインチューニング（追加学習とも）
    - DreamBooth など
  - 他のモデルとのマージ
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください

想定されない用途

物事を事実として表現するようなこと
収益化されているYouTubeなどのコンテンツへの使用
商用のサービスとして直接提供すること
先生を困らせるようなこと
その他、創作業界に悪影響を及ぼすこと

使用してはいけない用途や悪意のある用途

デジタル贋作 (Digital Forgery) は公開しないでください（著作権法に違反するおそれ）
他人の作品を無断でImage-to-Imageしないでください（著作権法に違反するおそれ）
わいせつ物を頒布しないでください (刑法175条に違反するおそれ）
- いわゆる業界のマナーを守らないようなこと
事実に基づかないことを事実のように語らないようにしてください（威力業務妨害罪が適用されるおそれ）
- フェイクニュース

モデルの限界やバイアス

モデルの限界

拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、その限界は判明していない。

バイアス

拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、バイアスは判明していない。

学習

学習データ

学習プロセス

ハードウェア: A6000x2

評価結果

第三者による評価を求めています。

環境への影響

ハードウェアタイプ: A6000x2
使用時間（単位は時間）: 100
学習した場所: 日本

参考文献

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

*このモデルカードは Stable Diffusion v2 に基づいて書かれました。