日本語データセットで train した Tokenizer です.

単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.

Training script

train_jp_tokenizer.py を参照ください.

Trained tokenizer

TODO