dgx2_distil_w2v2_base_mozilla_12_to_6_batch_16_epoch_30

This model is a fine-tuned version of on the None dataset. It achieves the following results on the evaluation set:

Loss: 66.6618
Wer: 0.9801

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 8
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 128
total_train_batch_size: 1024
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.2
num_epochs: 20
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Wer
1685.0568	1.1	150	31.2699	0.9782
224.147	2.2	300	17.6511	0.7425
147.425	3.31	450	14.1351	0.5397
128.1261	4.41	600	13.4210	0.5068
119.1109	5.51	750	12.9610	0.4787
127.7067	6.61	900	15.1543	0.5724
289.179	7.72	1050	64.2107	0.9746
343.3656	8.82	1200	41.4259	0.9738
371.938	9.92	1350	59.4227	0.9766
482.1259	11.03	1500	66.6618	0.9801

Framework versions

Transformers 4.25.1
Pytorch 1.12.1
Datasets 2.8.0
Tokenizers 0.13.2

dgx2_distil_w2v2_base_mozilla_12_to_6_batch_16_epoch_30

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

NSDT 3DConvert

UnrealSynth

DreamTexture.js