Если кто-то хочет разобраться с Cloud TPU + BERT, то вот хороший пост на Medium
https://towardsdatascience.com/pre-training-bert-from-scratch-with-cloud-tpu-6e2f71028379?sk=51c46354668b0fc4255fe8bb7e1e3035
https://towardsdatascience.com/pre-training-bert-from-scratch-with-cloud-tpu-6e2f71028379?sk=51c46354668b0fc4255fe8bb7e1e3035