Donut (base-sized model, fine-tuned on visual novel like synthetic dataset )

ビジュアルノベル風画像の合成データセットでnaver-clova-ix/donut-baseを訓練したモデルです。

使い方

サンプルノートブックsample_predictions_colab.ipynbを参照してください。

oshizo/donut-base-japanese-visual-novel

認識結果のサンプル

{'options': '', 'names': '結月', 'messages': 'この神社には古い言い伝えがあるの。神樹の下で誓いを立てると、その願いは必ず叶うという。心を開いて、自分の想いを信じてみて。'} <img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/sample_images/sample_01.png" width="600">


{'options': ['行こう!', '今回は見送る', '準備を整えるまで待って(会話から抜けます)', '旅の目的について詳しく教えてください'], 'names': 'リリアン', 'messages': '私たちの使命は、新たな発見と交流を通じて地球と宇宙の未来を築くこと。この壮大な旅に参加する準備はできているかしら?'} <img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/sample_images/sample_02.png" width="600">


{'options': ['全力で攻撃する!勝利をつかめ!', '堅実に守り、敵の隙を待とう。'], 'names': '', 'messages': '敵を誘い込んで、戦術を駆使せよ。'} <img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/sample_images/sample_03.png" width="600">


{'options': 'もちろん、手伝います!', 'names': '下尾崎 菊欠郎', 'messages': 'この書斎は重要な手がかりが隠されているかもしれない。君も協力してくれるか?'} <img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/sample_images/sample_04.png" width="600">


仕様

学習に含むレイアウト

以下のレイアウトと、それぞれのパターンが存在しないパターンが学習データに含まれます。

<img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/model_card_images/trained_patterns.png" width="600">

学習に含まないレイアウト

以下のようなパターンなど、学習データに含まれないパターンはうまく読み取れません。

<img src="https://raw.githubusercontent.com/oshizo/donut-base-japanese-visual-novel/main/model_card_images/not_trained_patterns.png" width="600">

その他の制約

学習方法

もう少し詳しい情報を以下のnote記事に記載しました。

end-to-endの文書画像認識モデルDonutをファインチューニングするメモ