trocr-small-korean
Model Details
TrOCR은 Encoder-Decoder 모델로, 이미지 트랜스포머 인코더와 텍스트 트랜스포머 디코더로 이루어져 있습니다. 이미지 인코더는 DeiT 가중치로 초기화되었고, 텍스트 디코더는 자체적으로 학습한 RoBERTa 가중치로 초기화되었습니다.
이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다.
How to Get Started with the Model
import torch
from transformers import VisionEncoderDecoderModel
model = VisionEncoderDecoderModel.from_pretrained("team-lucid/trocr-small-korean")
pixel_values = torch.rand(1, 3, 384, 384)
generated_ids = model.generate(pixel_values)
Training Details
Training Data
해당 모델은 synthtiger로 합성된 6M개의 이미지로 학습되었습니다
Training Hyperparameters
Hyperparameter | Small |
---|---|
Warmup Steps | 4,000 |
Learning Rates | 1e-4 |
Batch Size | 512 |
Weight Decay | 0.01 |
Max Steps | 500,000 |
Learning Rate Decay | 0.1 |
\(Adam\beta_1\) | 0.9 |
\(Adam\beta_2\) | 0.98 |