3 epoch på norsk oscar corpus.

warmup_steps = 1000 learning_rate = 5e-3 block_size =512 per_device_train_batch_size = 64

cirka 1,5 time på TPU v3-8 per epoch