2023 성균관대 하계집중 산학협력프로젝트 VAIV

Github : https://github.com/VAIV-2023/RLHF-Korean-Friendly-LLM

GPT 기반의 자연스럽고(Friendly) 윤리적인(Harmless) 일상 대화형 챗봇 모델

과제 목표

GPT-NEOX 기반 자연스럽고 윤리적인 한국어 기반 일상 대화형 챗봇 모델 구현

개발 내용

Task 1: 강화학습 단계별 데이터셋 구축
Task 2: SFT 모델 Fine-tuning (https://huggingface.co/Trofish/KULLM-SFT-v2)
Task 3: Reward 모델 ver1,2,3 구현
Task 4: RLHF와 DeepSpeedChat을 통한 최종 모델 구현 (https://huggingface.co/Trofish/KULLM-RLHF)

Task1. 강화학습 단계별 데이터셋 구축

image image

데이터셋 선정 시 고려 사항

Task2. SFT 모델 Fine-tuning

Baseline Model

- 고려대학교 NLP & AI 연구실과 HIAI 연구소가 개발한 한국어 LLM "KULLM" 사용

Datasets

image

SFT Model Finetuning

image

SFT Model Evaluation

image image

Final SFT Model

Task3-1. Reward Model ver1 구현

Baseline Model

Datasets

image

Reward v1 Model Finetuning

Reward v1 Model Evaluation

Task3-2. Reward Model ver2,3 구현

RewardModel ver1 Issues

Issue 해결방안 (Reward Model ver2,3)

Reward Model ver2,3 Evaluation

image

Task4. RLHF와 DeepSpeedChat을 통한 최종 모델 구현

Baseline Models

Training Options

image

RLHF Training

image

RLFH Model Evaluation

image image

Final RLHF Model

Contributors 🙌