transformers mit robert uzrobert uzbek cyrillic latin

<p><b>UzRoBerta model.</b>

Pre-prepared model in Uzbek (Cyrillic and latin script) to model the masked language and predict the next sentences.

<p><b>How to use.</b>

You can use this model directly with a pipeline for masked language modeling:

<pre><code class="language-python"> from transformers import pipeline

unmasker = pipeline('fill-mask', model='rifkat/uztext-3Gb-BPE-Roberta')

unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [mask], мутафаккири ва давлат арбоби бўлган.")

[{'score': 0.5902208685874939, 'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккири ва давлат арбоби бўлган.', 'token': 28809, 'token_str': ' шоири'}, {'score': 0.08303504437208176, 'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккири ва давлат арбоби бўлган.', 'token': 17484, 'token_str': ' устози'}, {'score': 0.035882771015167236, 'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг арбоби, мутафаккири ва давлат арбоби бўлган.', 'token': 34552, 'token_str': ' арбоби'}, {'score': 0.03447483479976654, 'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккири ва давлат арбоби бўлган.', 'token': 14034, 'token_str': ' асосчиси'}, {'score': 0.03044942207634449, 'sequence': 'Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг дўсти, мутафаккири ва давлат арбоби бўлган.', 'token': 28100, 'token_str': ' дўсти'}]

unmasker("Kuchli yomg‘irlar tufayli bir qator [mask] kuchli sel oqishi kuzatildi.")

[{'score': 0.410250186920166, 'sequence': 'Kuchli yomg‘irlar tufayli bir qator hududlarda kuchli sel oqishi kuzatildi.', 'token': 11009, 'token_str': ' hududlarda'}, {'score': 0.2023029774427414, 'sequence': 'Kuchli yomg‘irlar tufayli bir qator tumanlarda kuchli sel oqishi kuzatildi.', 'token': 35370, 'token_str': ' tumanlarda'}, {'score': 0.129830002784729, 'sequence': 'Kuchli yomg‘irlar tufayli bir qator viloyatlarda kuchli sel oqishi kuzatildi.', 'token': 33584, 'token_str': ' viloyatlarda'}, {'score': 0.04539087787270546, 'sequence': 'Kuchli yomg‘irlar tufayli bir qator mamlakatlarda kuchli sel oqishi kuzatildi.', 'token': 19315, 'token_str': ' mamlakatlarda'}, {'score': 0.0369882769882679, 'sequence': 'Kuchli yomg‘irlar tufayli bir qator joylarda kuchli sel oqishi kuzatildi.', 'token': 5853, 'token_str': ' joylarda'}] </code></pre>

<p><b>Training data.</b>

UzBERT model was pretrained on ≈2M news articles (≈3Gb).

<pre><code class="language-python"> @misc {rifkat_davronov_2022, author = { {Adilova Fatima,Rifkat Davronov, Samariddin Kushmuratov, Ruzmat Safarov} }, title = { uztext-3Gb-BPE-Roberta (Revision 0c87494) }, year = 2022, url = { https://huggingface.co/rifkat/uztext-3Gb-BPE-Roberta }, doi = { 10.57967/hf/0140 }, publisher = { Hugging Face } } </code></pre>