wav2vec2-xls-r-300m-ja-cv-14_4

This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on the audiofolder dataset. It achieves the following results on the evaluation set:

Loss: 0.2072
Wer: 0.0564

Model description

More information needed

Usage

The model can be used directly (without a language model) as follows...

Using the HuggingSound library:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("pinot/wav2vec2-xls-r-300m-ja-cv-14_4")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 8
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 30

Training results

Training Loss	Epoch	Step	Validation Loss	Wer
8.3105	0.37	2000	1.9407	0.5234
1.6271	0.75	4000	1.1355	0.3500
1.1075	1.12	6000	0.8428	0.2740
0.8659	1.49	8000	0.7523	0.2491
0.7568	1.87	10000	0.6115	0.2097
0.6269	2.24	12000	0.5771	0.1973
0.5631	2.61	14000	0.5204	0.1713
0.5197	2.99	16000	0.4896	0.1635
0.4218	3.36	18000	0.4506	0.1554
0.4069	3.73	20000	0.4684	0.1579
0.3629	4.1	22000	0.4190	0.1408
0.324	4.48	24000	0.3981	0.1337
0.3168	4.85	26000	0.3947	0.1310
0.2845	5.22	28000	0.3974	0.1266
0.2714	5.6	30000	0.3703	0.1166
0.2626	5.97	32000	0.3711	0.1173
0.2274	6.34	34000	0.3991	0.1254
0.2251	6.72	36000	0.3844	0.1159
0.2132	7.09	38000	0.3480	0.1088
0.1867	7.46	40000	0.3330	0.1045
0.1929	7.84	42000	0.3320	0.1054
0.1663	8.21	44000	0.3492	0.1116
0.1668	8.58	46000	0.3580	0.1045
0.1641	8.96	48000	0.2957	0.0920
0.1494	9.33	50000	0.3281	0.0990
0.1495	9.7	52000	0.3155	0.0948
0.1454	10.07	54000	0.3297	0.0994
0.1323	10.45	56000	0.3151	0.0946
0.1321	10.82	58000	0.3073	0.0901
0.1263	11.19	60000	0.2979	0.0887
0.1165	11.57	62000	0.3122	0.0968
0.1179	11.94	64000	0.2941	0.0892
0.107	12.31	66000	0.2907	0.0847
0.1037	12.69	68000	0.2964	0.0851
0.105	13.06	70000	0.2777	0.0820
0.0942	13.43	72000	0.2758	0.0783
0.0977	13.81	74000	0.2706	0.0768
0.0931	14.18	76000	0.2638	0.0755
0.0881	14.55	78000	0.2835	0.0771
0.0861	14.93	80000	0.2704	0.0776
0.0834	15.3	82000	0.2619	0.0765
0.079	15.67	84000	0.2583	0.0759
0.0783	16.04	86000	0.2459	0.0724
0.0753	16.42	88000	0.2647	0.0793
0.0739	16.79	90000	0.2375	0.0696
0.0721	17.16	92000	0.2432	0.0702
0.0687	17.54	94000	0.2269	0.0675
0.0685	17.91	96000	0.2516	0.0724
0.066	18.28	98000	0.2372	0.0679
0.0631	18.66	100000	0.2417	0.0670
0.0626	19.03	102000	0.2416	0.0676
0.0583	19.4	104000	0.2491	0.0696
0.0575	19.78	106000	0.2445	0.0675
0.0545	20.15	108000	0.2320	0.0635
0.0517	20.52	110000	0.2312	0.0647
0.0514	20.9	112000	0.2511	0.0676
0.0499	21.27	114000	0.2299	0.0663
0.0486	21.64	116000	0.2400	0.0635
0.0467	22.01	118000	0.2318	0.0624
0.0441	22.39	120000	0.2221	0.0599
0.0441	22.76	122000	0.2359	0.0630
0.0427	23.13	124000	0.2220	0.0603
0.0412	23.51	126000	0.2345	0.0608
0.041	23.88	128000	0.2292	0.0598
0.0386	24.25	130000	0.2342	0.0615
0.0376	24.63	132000	0.2291	0.0612
0.0385	25.0	134000	0.2231	0.0631
0.0347	25.37	136000	0.2196	0.0616
0.035	25.75	138000	0.2147	0.0608
0.0328	26.12	140000	0.2216	0.0616
0.0318	26.49	142000	0.2195	0.0587
0.0315	26.87	144000	0.2216	0.0594
0.0303	27.24	146000	0.2126	0.0591
0.0292	27.61	148000	0.2126	0.0563
0.0291	27.99	150000	0.2134	0.0574
0.0275	28.36	152000	0.2187	0.0583
0.0281	28.73	154000	0.2098	0.0571
0.0257	29.1	156000	0.2086	0.0564
0.0261	29.48	158000	0.2071	0.0568
0.0247	29.85	160000	0.2072	0.0564

Reference	Prediction
木村さんはわたしに写真を見せてくれました	木村さんはわたしに写真を見せてくれました
田中さんの奥さんは大学の先生です	田中さんの奥さんは大学の先生です
わたしは松井さんが書いた作文を読みました	わたしは松井さんが書いた作文を読みました
木村さんに電話を貸してもらいました	木村さんに電話を貸してもらいました
森永のおいしい牛乳は濃い青色に牛乳瓶をあしらったデザインのパック牛乳である	森永のおいしい牛乳は濃い青色に牛乳瓶をあしらったデザインのパック牛乳である
きのうは八時間寝ました	きのうは八時間寝ました
田中さんの右に山田さんがいます	田中さんの右に山田さんがいます
日本人は決してユーモアと無縁な人種ではなかった	日本人は決してユーモアと無縁な人種ではなかった
ユーモアとは高慢このうえない解毒剤だ	ユーモアとは高慢このうえない解毒剤だ
わたしは静かできれいな所に住みたいです	わたしは静かできれいな所に住みたいです

Evaluation

The model can be evaluated as follows on the Japanese test data of Common Voice.

Test Result:

In the table below I report the Word Error Rate (WER) and the Character Error Rate (CER) of the model.

test data	WER	CER
Common Voice 8.0	5.7%	3.0%

Framework versions

Transformers 4.31.0
Pytorch 2.0.1+cu117
Datasets 2.14.3
Tokenizers 0.13.3

wav2vec2-xls-r-300m-ja-cv-14_4

Model description

Usage

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Evaluation

Framework versions

NSDT 3DConvert

UnrealSynth

DreamTexture.js