π§ Note: this repo is under construction, current uploaded version is based on KoRWKV-6B, ~28Billion tokens trained ckpt π§
π§ KoAlpaca-KoRWKV-6B (v1.1a)
This model is a fine-tuned version of beomi/KoRWKV-6B on an KoAlpaca v1.1a Dataset.
Detail Codes are available at KoAlpaca Github Repository
Generation Code
Install Requirements
pip install -U transformers tokenizers accelerate safetensors
Generation Code with HF pipeline
from transformers import pipeline
pipe = pipeline('text-generation', model='beomi/KoAlpaca-KoRWKV-6B', device=0)
def gen(x):
a = pipe(
f'### μ§λ¬Έ: {x}\n\n### λ΅λ³:',
max_new_tokens=1024,
return_full_text=False,
do_sample=True,
top_p=0.9,
temperature=0.7,
early_stopping=True,
repetition_penalty=1.2,
)
print(a[0]['generated_text'])
Generated Samples
gen("μ€λ κΈ°λΆμ μ’ μ΄λ?")
μ€λμ κΈ°λΆμ΄ μ’μ λ μ
λλ€. μλνλ©΄, μ€λμ κΈ°μ μΌμ΄ μκΈΈ μ μλ λ μ΄λκΉμ!
1. μμΉ¨μ μΌμ° μΌμ΄λμ κΈ°λΆ μ’μμ΅λλ€. 2. λ§μλ μμμ λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 3. μμ
μκ°μ μ΄μ¬ν λ€μ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 4. μΉκ΅¬κ° μμΌ μ λ¬Όμ μ€μ κΈ°λΆμ΄ μ’μ΅λλ€. 5. λ΄μΌμ΄ ν μμΌμ΄λΌμ κΈ°λΆμ΄ μ’μ΅λλ€. 6. μμ λ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 7. λΆλͺ¨λκ»μ μμΌ μΆν λ
Έλλ₯Ό λΆλ¬μ€μ κΈ°λΆμ΄ μ’μ΅λλ€. 8. λ°© μ²μλ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 9. λ§μλ κ³Όμλ₯Ό λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 10. μ€λ λ μ¨λ₯Ό 보λ λΉκ° μμμ κΈ°λΆμ΄ μ’μ΅λλ€. 11. λΆλͺ¨λμ΄ λλ₯Ό μ¬λν΄μ£Όμ
μ κΈ°λΆμ΄ μ’μ΅λλ€. 12. λΆλͺ¨λκ³Ό ν¨κ» μΈμμ ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 13. μΉκ΅¬λ κ°μ΄ λμμ κΈ°λΆμ΄ μ’μ΅λλ€. 14. 곡λΆλ₯Ό ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 15. μμ λ₯Ό μ ν΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 16. λ§μλ μμμ λ¨Ήμ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 17. μΉκ΅¬λ€κ³Ό μ΄μΈλ € λμμ κΈ°λΆμ΄ μ’μ΅λλ€. 18. λ΄κ° μ’μνλ μ±
μ μ½μ΄μ κΈ°λΆμ΄ μ’μ΅λλ€. 19. μ€λ ν루 μ’
μΌ κΈ°λΆμ΄ μ’μ΅λλ€. 20. μλ§μ μλΉ κ° λλ₯Ό μ¬λν΄ μ£Όμ
μ κΈ°λΆμ΄ μ’μ΅λλ€.
gen("μΉΈνΈμ μ μΈλͺ
λ Ήμ λ°λ₯Έλ€λ μ μ΄ μΌλ°μ μΈ μ ν¨κ³Ό λ€λ₯Έ μ΄μ κ° λμΌ?")
μΉΈνΈλ λλμ λ²μΉμ λ κ°μ§λ‘ ꡬλΆνμ΅λλ€. 첫 λ²μ§Έ λ²μΉμ 'μ μΈλͺ
λ Ή'μΌλ‘, μ΄ λ²μΉμ μ΄λ€ μν©μμλ μ λμ μΌλ‘ μ§μΌμΌ νλ 보νΈμ μΈ λ²μΉμ
λλ€. μ΄μ λ°λΌ μΉΈνΈλ "μ΄μ±μ΄ λͺ
λ Ήν λλ‘ νλνλΌ"λ μμΉμ μ μνμ΅λλ€.
λ λ²μ§Έ λ²μΉμ "λͺ¨λ μΈκ°μ νλ±νκ² νμ΄λ¬κ³ , μ°½μ‘°μ£Όλ‘λΆν° μλν μ μλ κΆλ¦¬λ₯Ό λΆμ¬λ°μλ€"λ κ²μ
λλ€. μ΄ μμΉμλ λͺ¨λ μΈκ°μ΄ νλ±νκ³ , λͺ¨λ μΈκ°μ λλ±νκ² μ‘΄μ€λ°μμΌ νλ€λ μλ―Έκ° λ΄κ²¨ μμ΅λλ€. μ΄λ¬ν μΉΈνΈμ λλ λ²μΉμ λ°λ₯΄λ©΄, μ ν¨κ³Ό μ
ν¨μ μν©μ λ°λΌ λ€λ₯΄κ² μ μ©λ μ μμ΅λλ€. μλ₯Ό λ€μ΄, λ²μ£μλ μ₯μ μΈ λ± νΉλ³ν μν©μμλ μ μ΄ λ μ μλ μν©μ΄ μ‘΄μ¬ν©λλ€.
gen("λ€μ κΈμ μμ΄λ‘ λ²μν΄μ£ΌμΈμ. μμ΄ λ¬Έμ₯: 'She looks handsome.' λ²μ νκΈ λ¬Έμ₯:")
"She looks handsome."μ μ§μνλ©΄ "κ·Έλ
λ μμ겨 보μ
λλ€"λΌλ λ»μ΄μ§λ§, νκ΅μ΄λ‘λ "κ·Έλ
λ μλ¦λ€μ 보μ
λλ€"λ‘ ν΄μλ©λλ€. μ΄ λ¬Έμ₯μ μλ 'The saddest thing'μ΄λΌλ μνμ OST κ°μ¬ μ€ μΌλΆλΆμ
λλ€. μ΄ μνλ μ μΈ ν°λ€κ° μ£Όμ°μ 맑μ μνμΌλ‘, κ·Έλ
κ° λ§€λ ₯μ μΈ λ―Έλͺ¨μ λͺΈλ§€λ₯Ό κ°μ§κ³ μμ§λ§ λΆνν μΆμ μ¬λ μ¬μ±μ λͺ¨μ΅μ κ·Έλ¦¬κ³ μμ΅λλ€. λ°λΌμ κ·Έλ
λ μλ¦λ΅μ§λ§ λΆνν΄λ³΄μ΄λ λͺ¨μ΅μ΄λΌλ μλ―Έμμ μ¬μ©λμμ΅λλ€.
gen("μμΈμ΄ μΈκΈ°μλ λμμΈ μ΄μ λ?")
μμΈμ λ§μ μ¬λλ€μ΄ κ±°μ£Όνκ³ μλ λλμμ΄κΈ° λλ¬Έμ
λλ€. λν, λ€λ₯Έ λλΌμμλ μμΈλ³΄λ€ λ ν° λλμλ€μ΄ λ§μ΄ μμ§λ§, μλκ° μμΈμ μμΉν λλΌλ μμ΅λλ€. μ΄λ μμΈμ λμ κ·λͺ¨κ° ν¬κ³ κ΅ν΅κ³Ό ν΅μ λ± μΈνλΌκ° μ ꡬμΆλμ΄ μκΈ° λλ¬Έμ
λλ€.
μΆκ° μ€λͺ
:
μμΈμ μΈκ΅¬λ μ λμΈκ΅¬ λ±μ μ΄ν΄λ³΄λ©΄, μμΈμ λ°©λ¬Ένλ μΈκ΅μΈ κ΄κ΄κ°λ λ§€μ° λ§μ΅λλ€. μ΄λ¬ν μ΄μ λ‘ μμΈμ νκ΅ λ΄μμ κ°μ₯ μΈκΈ° μλ λμ μ€ νλλ‘ μ리μ‘κ³ μμ΅λλ€.
gen("μΉΈνΈ μ² νμ μμλ₯Ό λ€κ³ , ν΄λΉ μ² νμ΄ κ°μ§λ μμλ₯Ό 3κ°μ§ μλ €μ€.")
μΉΈνΈλ μΈκ°μ μ§μμ κ²½νλ‘ μ μ
μ₯μμ λΆμνκ³ μ’
ν©νμ¬ λλμ² νμ μ 립νμμ΅λλ€. μ΄ κ³Όμ μμ κ·Έλ λͺ¨λ μΈκ°μ μ΄μ±μ κ°μ§κ³ μμΌλ©°, λλλ²μΉμ μΈμν μ μλ€κ³ 보μμ΅λλ€. μ΄λ¬ν μΈκ° μ΄μ±μ κΈ°λ₯μ ν΅ν΄, μΉΈνΈλ 'μ€μ²μ΄μ±'κ³Ό 'νλ¨λ ₯'μ μ€μν©λλ€. μ¦, μ΄μ±μ μΌλ‘ νλ¨νμ¬ μ¬λ°λ₯Έ νλ¨μ λ΄λ¦΄ μ μλ λ₯λ ₯μ΄ μΈκ°μκ²λ μλ€λ κ²μ
λλ€. λν, μΉΈνΈλ μΈκ°μ΄ κ°μ§ μ μ²μ μΈ κ΄λ
λ‘ μ μ¬κ³ λ°©μμ κ±°λΆνκ³ , κ²½νμ ν΅ν μ€μ²μ μΈ μ¬κ³ λ°©μμΌλ‘μμ μ΄μ±μ κ°μ‘°ν©λλ€.
μΆκ° μ€λͺ
:
μΉΈνΈμ μ² νμ νμ΄μν, μΈμλ‘ , μ€λ¦¬ν, μ μΉν λ± λ€μν λΆμΌμμ μν₯μ λ―ΈμΉκ³ μμ΅λλ€. νΉν, κ·Έλ κ²½νλ‘ κ³Ό ν©λ¦¬λ‘ μ λ립μΌλ‘ μΈν΄ λΆμ΄λ μ λ½μ μ¬μκ³λ₯Ό ν΅ν©νμ¬ μλ‘μ΄ μ² νμ μ μνκ³ μ λ
Έλ ₯νμμ΅λλ€. μ΄λ₯Ό ν΅ν΄ κ·Όλ μ² νμ ν° μν₯μ μ£ΌμμΌλ©°, νμ¬λ κ·Έ μν₯λ ₯μ΄ μ¬μ ν μ μ§λκ³ μμ΅λλ€.
gen("리ν¬μ΄μ¨μ μ§μμ λ°μνλ νν νμμ ννμμ κΈ°λ°μΌλ‘ μμΈν μ€λͺ
ν΄μ£ΌμΈμ.")
리ν¬μ΄μ¨μ μ§λ μκ·Ήκ³Ό μκ·Ή μ¬μ΄μ μλ λΆλ¦¬λ§μ ν΅ν΄ μ΄μ¨μ΄ μ΄λνλ©΄μ μΆ©μ κ³Ό λ°©μ μ νλ μλ¦¬λ‘ μλν©λλ€. λ°λΌμ, μ κ·Ήμ λ°μμ μν΄ νν λ°μμ΄ μΌμ΄λ©λλ€.
1. 리ν¬μ΄μ¨μ μ§ λ΄λΆμλ 리ν¬μ΄μ¨λ€μ΄ μ΄λνκΈ° μν ν΅λ‘κ° μλλ°, μ΄λ₯Ό μ ν΄μ§μ΄λΌκ³ ν©λλ€. μ¦, μ‘체 μ ν΄μ§μ μ±μ°κ³ μλ μ΄μ¨λ€μ λλ μ°¨μ΄ λλ¬Έμ μ κ·Ήμμ μ μκ° μ΄λνλ κ²μ
λλ€. μ΄λ μ ν΄μ§μ λ¬Όμ§μ΄ μλ ννλ°μμ μΌμΌν€λ μν μ ν©λλ€. 2. μκ·Ήμ μ μλ₯Ό λ°μ μ΄μ¨μΌλ‘ μμ±νλ λΆλΆμ
λλ€. 3. μκ·Ήμμλ μ°ν νμ λ°μμ ν΅ν΄ μ μμ μμ μ΄μ¨μ΄ μ΄λνλ©°, μ΄λ₯Ό ν΅ν΄ μ κΈ°κ° λ°μν©λλ€. 4. μ μλ μκ·Ήμμ μκ·ΉμΌλ‘ μ΄λνλ©°, μ΄λ μ μμ νλ¦μ΄λ©°, μ΄λ₯Ό ν΅ν΄ μ λ₯κ° νλ₯΄κ² λ©λλ€. 5. μ μλ μκ·Ήμμ μκ·ΉμΌλ‘ μ΄λνλλ°, μ΄λ μ μκ° μ μμ΄λμ νλ©΄μ λ°μν μ΄λμλμ§λ‘ μΈν΄ λ°μν©λλ€. 6. μ κΈ°μ μΌλ‘ κ°μ₯ μμ λ μνμΈ λ¦¬ν¬μ΄μ¨μ κ°μ₯ λμ μ¨λ(μ½ 700λ)μμλ μ 견λ μ μμ΅λλ€.
gen("ν¬μ μ΄μ¬μκ° νκΈ° μ’μ μ λ¬Ό ν¬μ μ’
λ₯λ₯Ό μλ €μ£ΌμΈμ.")
μ£Όμ, μ±κΆ, κΈ, μμ λ± λ€μν μνμ΄ μμ΅λλ€.
1. μ£Όμ (μ£Όμν¬μ) - μ₯κΈ°μ μΈ κ΄μ μμ ν¬μν λ μ ν©ν μνμ
λλ€.
2. κΈ (κΈν¬μ) - μμ ν ν¬μλ₯Ό μνλ μ¬λμκ² μ’μ΅λλ€.
3. μμ (μμμ¬ν¬μ) - μμ μ μΈ μμ΅κ³Ό κ°κ²© λ³λμ±μ΄ μ μ΅λλ€.
4. λΆλμ° (λΆλμ°ν¬μ) - μΈνλ μ΄μ
μ΄ λ°μνλ μκΈ°μ κ°μ₯ μ ν©ν ν¬μ λ°©λ² μ€ νλμ
λλ€.
5. 보ν (보νν¬μ) - 보μ₯μμ°μ λν λμ¦κ° μλ μ¬λμκ² μ ν©ν μνμ
λλ€.
Training procedure
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 2e-05
- train_batch_size: 1
- seed: 42
- gradient_accumulation_steps: 8
- total_train_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 1.0
- mixed_precision_training: Native AMP
- Trained on 1x H100(80G PCI-E) GPU
Framework versions
- Transformers 4.29.2
- Pytorch 1.13.1
- Datasets 2.12.0
- Tokenizers 0.13.3