3 epoch på norsk oscar corpus.
warmup_steps = 1000 learning_rate = 5e-3 block_size =512 per_device_train_batch_size = 64
cirka 1,5 time på TPU v3-8 per epoch
3 epoch på norsk oscar corpus.
warmup_steps = 1000 learning_rate = 5e-3 block_size =512 per_device_train_batch_size = 64
cirka 1,5 time på TPU v3-8 per epoch