A Chinese tokenizer trained by Byte-Pair Encoding (BPE) algorithm.
Training Data:
- Chinese Wikipedia (graelo/wikipedia)
- 50,000 rows
Vocabulary size: 50,000
Usage
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("ikulan/tokenizer-zh-bpe")
text = "珍珠奶茶是1980年代起源於臺灣的茶類飲料,為臺灣泡沫紅茶、粉圓茶飲文化中的分支"
encodings = tokenizer(text)
encodings.tokens()
['珍珠', '奶', '茶', '是', '1980年代', '起源於', '臺灣的', '茶', '類', '飲料', ',', '為臺灣', '泡沫', '紅', '茶', '、', '粉', '圓', '茶', '飲', '文化', '中的', '分支']