KPF-BERT-CLS2

모델 소개

KPF-BERT-CLS

한국언론진흥재단이 개발한 kpf-BERT 모델을 기반으로 CLS(Classification) task를 수행할 수 있는 kpf-BERT-cls 모델을 설계 및 개발하였다.

학습데이터는 기사내용과 분류명을 넣어 제작하였다. 분류명은 아래의 분류체계를 따르며, 기사내용 + 대분류(지역제외) 데이터셋, 기사내용 + 세분류(지역제외) 데이터셋, 기사내용 + 지역세분류 데이터셋으로 나누어 학습을 진행했다.

img

한국언론진흥재단이 개발한 kpf-BERT를 기반으로 classification layer를 추가하여 kpf-BERT-cls 모델을 개발한다. kpf-BERT-cls 모델은 기사를 입력받아 kpf-BERT 토크나이저를 사용하여 해당 기사가 어느 클래스에 속하는지 예측한다. 기본 BERT 모델의 구조와 토크나이저는 아래의 그림과 같다.

img_2

img_3

BERT는 입력 길이의 제한으로 512 subword 이하의 값만 입력받을 수 있다. 기사의 특성상 인터뷰 등의 글은 512 subword보다 긴 것이 대부분이다. 이를 해결하기 위해 본 과제에서는 stride를 주어 독립적으로 문서의 조각들을 처리한다.

img_1

kpf-BERT-cls는 대분류 예측 모델, 세분류 예측 모델, 지역 세분류 예측 모델로 구성되어 있다. 대분류/세분류 예측 모델은 top-3 결과를 출력한다.

img_4