<!-- This model card has been generated automatically according to the information the Trainer had access to. You should probably proofread and complete it, then remove this comment. -->
KoBigBird-KoBart-News-Summarization
This model is a fine-tuned version of noahkim/KoBigBird-KoBart-News-Summarization on the daekeun-ml/naver-news-summarization-ko
Model description
<<20221110 Commit>>
<<KoBigBird-KoBart-News-Summarization 모델 설명>>
다중문서요약(Multi-Document-Summarization) Task를 위해서 KoBigBird 모델을 Encoder-Decoder모델을 만들어서 학습을 진행했습니다. KoBigBird를 Decoder로 쓰려고 했으나 오류가 생겨서 요약에 특화된 KoBART의 Decoder를 활용해서 모델을 생성했습니다.
프로젝트용으로 뉴스 요약 모델 특화된 모델을 만들기 위해 기존에 만들었던 KoBigBird-KoBart-News-Summarization 모델에 추가적으로 daekeun-ml님이 제공해주신 naver-news-summarization-ko 데이터셋으로 파인튜닝 했습니다.
현재 AI-HUB에서 제공하는 요약 데이터를 추가 학습 진행 예정입니다. 지속적으로 발전시켜 좋은 성능의 모델을 구현하겠습니다. 감사합니다.
실행환경
- Google Colab Pro
- CPU : Intel(R) Xeon(R) CPU @ 2.20GHz
- GPU : A100-SXM4-40GB
<pre><code>
Python Code
from transformers import AutoTokenizer from transformers import AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("noahkim/KoT5_news_summarization") model = AutoModelForSeq2SeqLM.from_pretrained("noahkim/KoT5_news_summarization") </pre></code>
The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 16
- eval_batch_size: 16
- seed: 42
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 4
- mixed_precision_training: Native AMP
Training results
Training Loss | Epoch | Step | Validation Loss |
---|---|---|---|
4.0748 | 1.0 | 1388 | 4.3067 |
3.8457 | 2.0 | 2776 | 4.2039 |
3.7459 | 3.0 | 4164 | 4.1433 |
3.6773 | 4.0 | 5552 | 4.1236 |
Framework versions
- Transformers 4.24.0
- Pytorch 1.12.1+cu113
- Datasets 2.6.1
- Tokenizers 0.13.2