Modelo Flax do Pierre em Português para Reconhecimento de Fala (ASR)

Este repositório é um fork do repositório original criado por Pierre Guillou. Ele contém uma versão convertida do modelo Whisper da OpenAI, fine-tuned no conjunto de dados common_voice_11_0 para o idioma Português.

Resultados

O modelo atinge os seguintes resultados no conjunto de avaliação:

Perda (Loss): 0.2628
Taxa de Erro de Palavra (Word Error Rate - WER): 6.5987

Para obter mais informações sobre este modelo, consulte este post do autor no blog: Speech-to-Text & IA | Transcreva qualquer áudio para o português com o Whisper (OpenAI)... sem nenhum custo!.

Este modelo, batizado de "Portuguese Medium Whisper", é superior ao modelo original Whisper Medium da OpenAI na transcrição de áudios em português (e inclusive melhor que o modelo Whisper Large, que possui um WER de 7.1).

Treinamento

Training Loss	Epoch	Step	Validation Loss	Wer
0.0333	2.07	1500	0.2073	6.9770
0.0061	5.05	3000	0.2628	6.5987
0.0007	8.03	4500	0.2960	6.6979
0.0004	11.0	6000	0.3212	6.6794

Framework versions

Transformers 4.26.0.dev0
Pytorch 1.13.0+cu117
Datasets 2.7.1.dev0
Tokenizers 0.13.2

Modelo Flax do Pierre em Português para Reconhecimento de Fala (ASR)

Resultados

Treinamento

Framework versions

NSDT 3DConvert

UnrealSynth

DreamTexture.js