ikulan/tokenizer-zh-bpe - AI Model Zoo - BimAnt

A Chinese tokenizer trained by Byte-Pair Encoding (BPE) algorithm.

Training Data:

Chinese Wikipedia (graelo/wikipedia)
50,000 rows

Vocabulary size: 50,000

Usage

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ikulan/tokenizer-zh-bpe")

text = "珍珠奶茶是1980年代起源於臺灣的茶類飲料，為臺灣泡沫紅茶、粉圓茶飲文化中的分支"
encodings = tokenizer(text)

encodings.tokens()

['珍珠', '奶', '茶', '是', '1980年代', '起源於', '臺灣的', '茶', '類', '飲料', '，', '為臺灣', '泡沫', '紅', '茶', '、', '粉', '圓', '茶', '飲', '文化', '中的', '分支']

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.