ТГХаб
Каналы
DL in NLP
Более правильная ссылка на датасет для word2vec:
http://mattmahoney.net/dc/text8.zip
Чтобы не нужно было парсить XML