dgx1_distil_w2v2_base_mozilla_12_to_6_batch_16_epoch_20

This model is a fine-tuned version of on the None dataset. It achieves the following results on the evaluation set:

Loss: 26.8431
Wer: 0.3778

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 16
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 128
total_train_batch_size: 2048
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.2
num_epochs: 20
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Wer
465.0357	2.2	150	27.3961	0.4137
425.0158	4.41	300	27.1168	0.4018
388.6065	6.61	450	26.7368	0.3952
366.0589	8.82	600	26.3986	0.3879
353.06	11.03	750	26.5929	0.3836
339.4883	13.23	900	26.8030	0.3800
337.4981	15.44	1050	26.7429	0.3786
331.5542	17.64	1200	26.7569	0.3783
327.284	19.85	1350	26.8431	0.3778

Framework versions

Transformers 4.25.1
Pytorch 1.12.1
Datasets 2.8.0
Tokenizers 0.13.2

dgx1_distil_w2v2_base_mozilla_12_to_6_batch_16_epoch_20

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

NSDT 3DConvert

UnrealSynth

DreamTexture.js