lighttransport/japanese-tokenizer-cc100 - AI Model Zoo - BimAnt

日本語データセットで train した Tokenizer です.

単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.

Training script

train_jp_tokenizer.py を参照ください.

Trained tokenizer

tokenizer-cc100-ja.json cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.

TODO

[ ] Normalize した日本語テキストに対して train する
[ ] マージした Tokenizer をアップロードする

NSDT 3DConvert

Convert 30+ 3D formats online: GLTF, GLB, GBX, OBJ, DAE, IFC, STEP, STL...

UnrealSynth

Unreal engine based photo realistic synthetic data generator for YOLO.

DreamTexture.js

AI powered 3d texture generation and projection SDK for three.js.