marpa-tokenizer
A LlamaTokenizer with support to tokenize Tibetan text.
Example:
['▁རྒྱལ་ཡོངས་', '▁ཀྱི་', '▁དོ་ཁུར་', '▁དང་', '▁འཛམ་གླིང་', '▁ཡོངས་', '▁ཀྱི་', '▁དོ་སྣང་', '▁ཁྲོད', '▁།']
['▁我们', '认为', '下面', '这些', '真理', '是不', '言', '而', '喻', '的']
A LlamaTokenizer with support to tokenize Tibetan text.
Example:
['▁རྒྱལ་ཡོངས་', '▁ཀྱི་', '▁དོ་ཁུར་', '▁དང་', '▁འཛམ་གླིང་', '▁ཡོངས་', '▁ཀྱི་', '▁དོ་སྣང་', '▁ཁྲོད', '▁།']
['▁我们', '认为', '下面', '这些', '真理', '是不', '言', '而', '喻', '的']