<style> audio { width: 200px; height: 30px; } </style>
RVC okiba japanese-hubert-base version
RVC okiba のモデルと同じデータセットで ddpnさん版RVC WebUI で学習したモデルを置いておく場所です。
学習してチェックし次第順次ここにアルファベット順に追加していきます。
現在:モデルHまで
<details> <summary>学習詳細</summary>
- phone embeddingに japanese-hubert-base を使用、768次元40k。
- Augmentationを使用:nadareさんのRVC-WebUI-tuned-weights を参照のこと。(これをしないとjapanese-hubert-baseでは声質学習の質がかなり微妙になります)
データセットはRVC okibaの同じ名前のモデルと同じものを使っています。ただしエポック数は学習し直したのを確認して選んでいるので違うことがあります。
以下はRVC okibaと同じことを書いています。
- 学習データ: 高品質な日本語発話データ、歌は無し。1ファイルの長さは4秒以上~多くても10数秒程度、無音カットやらの前処理はしていません。
- データセット量: 1モデルにつき基本は合計60分弱、素材が足りなかったときは30分~
- エポック数: 100-300エポックあたりから良さそうなものを選んだもの </details>
注意事項
使用は自己責任でお願いします。
RVC本家とddpnさん版japanese-hubertとの違い
技術的なことなので こちら をご覧ください。
RVC okibaとの比較(男性の地声からのボイチェンサンプル)
- VC Clientを使用してリアルタイム録音した、各モデルのサンプル音声と本家版との比較です。
- jp-hubert版はindex 1、本家版はindex 0.5でのサンプル、チューンは同一です。
- セリフ:外郎売 の初め
- 「個人的な質」はjp-hubertバージョンの感想であり、RVC okibaバージョンとは異なる場合があります。また個人の感想です。
女性モデル
今のところの感想:
- 音の響き・聞こえの体感:jp-hubert版は本家よりとくに低めの音で籠もった感じがあり発音もちょっと籠もり(ア行がオ行っぽく聞こえたり)、本家はそれと比べてはっきりした音質に聞こえる。
- 学習元との比較:jp-hubert版はやっぱり別人が(とくに低音部で)混じっている感じ(index 0だと顕著)。本家は学習元のみで学習した感じがある。
- ただjp-hubertは本家より良くも悪くも別人が入って安定感がある感じがあるかもしれない(歯擦音等のノイズも少なくなる場合があったりなかったり)。index 1での発音の良さはjp-hubertのほうが勝る。
名 | jp-hubert版(ここの) | 本家版(rvc_okibaの) | ピッチ調整 | 個人的な質(1-5) | 本家との比較 |
---|---|---|---|---|---|
A | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/A-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/A-honke.mp3"> | +12 | 5 | こっちはちょっと低音で籠もる?歯擦音ノイズは少ないかも |
B | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/B-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/B-honke.mp3"> | +14 | 4 | Aと同じ感想。早く学習がそれなりになるかも? |
C | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/C-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/C-honke.mp3"> | +13 | 4 | やっぱちょい低音籠もる。出来は同程度? |
D | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/D-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/D-honke.mp3"> | +15 | 3 | ピッチ高めなのが原因か高音部がちょっと薄い印象あり |
E | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/E-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/E-honke.mp3"> | +15 | 3 | 同じ感想、本家のが良さそう |
F | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/F-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/F-honke.mp3"> | +13 | 2 | 本家ちょい微妙だったのでよくなるかと思ったが変わらず、本家のほうがよさげ。 |
G | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/G-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/G-honke.mp3"> | +15 | 1 | 微妙さは本家と変わらず、音の明瞭さは本家が上 |
H | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/H-jp.mp3"> | <audio controls preload="none" src="https://huggingface.co/litagin/rvc_okiba_jp_hubert/resolve/main/samples/H-honke.mp3"> | +14 | 3 | 本家が出来がよくよく響く良い声だったのが、こちらはやっぱりどこか籠もった音質で微妙感 |
男性モデル
TODO