Более правильная ссылка на датасет для word2vec: http://mattmahoney.net/dc/text8.zip



Чтобы не нужно было парсить XML