BEEP! 데이터셋으로 Epoch 10으로 파인튜닝하여 결과를 살펴보겠습니다.

Loss Acc Prec Rec F1
TRAIN 0.11 0.965 0.966 0.972 0.969
VAL 0.73 0.807 0.947 0.749 0.837

threshold 0.5 기준으로 구분하였을 때, dev 데이터셋에 대한 정확도는 0.85 입니다.

그리고 임베딩 결과물을 t-SNE로 시각화하여보았습니다.

https://v5.core.today/notebook/34XX0RYM4#KcELECTRA_base_beep.ipynb

model = Model.load_from_checkpoint(latest_ckpt);
def infer(x):
    return torch.softmax(
        model(**model.tokenizer(x, return_tensors='pt')
    ).logits, dim=-1)
infer('송중기 시대극은 믿고본다. 첫회 신선하고 좋았다.')
tensor([[0.7414, 0.2586]], grad_fn=<SoftmaxBackward>)
infer('유이 자연스러워진 연기')
tensor([[0.7627, 0.2373]], grad_fn=<SoftmaxBackward>)