whisper-small-ko

해당 모델은 Whisper Small을 아래의 AI hub dataset에 대해 파인튜닝을 진행했습니다. 데이터셋의 크기가 큰 관계로 데이터셋을 랜덤하게 섞은 후 5개로 나누어 학습을 진행중입니다. 한 파트의 데이터셋 학습이 완료될 때마다 업데이트 하도록 하겠습니다.

Training results

Dataset	Training Loss	Epoch	Validation Loss	Wer
Dataset part1	0.1943	0.2	0.0853	9.48

dataset

해당 모델은 AI hub의 많은 데이터셋을 한번에 학습시킨 것이 특징입니다. ASR은 domain에 대한 의존도가 매우 큽니다. 이 때문에 하나의 데이터셋에 학습을 시키더라도 다른 데이터셋에 대해서 테스트를 진행하면 성능이 크게 떨어지게 됩니다. 이런 부분을 막기 위해 최대한 많은 데이터셋을 한 번에 학습시켰습니다. 추후 사투리나 어린아이, 노인의 음성은 adapter를 활용하면 좋은 성능을 얻을 수 있을 것입니다.

데이터셋 이름	데이터 샘플 수(train/test)
고객응대음성	2067668/21092
한국어 음성	620000/3000
한국인 대화 음성	2483570/142399
자유대화음성(일반남녀)	1886882/263371
복지 분야 콜센터 상담데이터	1096704/206470
차량내 대화 데이터	2624132/332787
명령어 음성(노인남여)	137467/237469
전체	10916423(13946시간)/1206588(1474시간)

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 32
eval_batch_size: 16
gradient_accumulation_steps: 2
warmup_ratio: 0.01,
num_train_epoch: 1

whisper-small-ko

Training results

dataset

Training procedure

Training hyperparameters

NSDT 3DConvert

UnrealSynth

DreamTexture.js