A Chinese tokenizer trained by Byte-Pair Encoding (BPE) algorithm.

Training Data:

Vocabulary size: 50,000

Usage

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ikulan/tokenizer-zh-bpe")

text = "珍珠奶茶是1980年代起源於臺灣的茶類飲料,為臺灣泡沫紅茶、粉圓茶飲文化中的分支"
encodings = tokenizer(text)

encodings.tokens()

['珍珠', '奶', '茶', '是', '1980年代', '起源於', '臺灣的', '茶', '類', '飲料', ',', '為臺灣', '泡沫', '紅', '茶', '、', '粉', '圓', '茶', '飲', '文化', '中的', '分支']