Задачки на доп баллы machine translation workshop:
- сделать логирование лосса на train и valid в tensorboard / visdom
- сделать логирование BLEU на valid в tb/vis
- обучить ru_en модель (данные тут: https://translate.yandex.ru/corpus?lang=en)
- попробовать другие attention
- подобрать гиперпараметры (тип RNN (GRU/LSTM/QRNN/SRU), число слоёв, размер hidden, …)
- не использовать for в generate_sent_masks
- исправить косяки es_en датасета
- сделать не .split()-токенизацию, а что-нибудь более адекаватное (spacy, nltk)
- использовать BPE-токенизацию
- сделать char-embeddings
- обучить толстую модель с большим количеством данных (есть корпус чешский-английский на несколько Gb тут http://www.statmt.org/wmt16/translation-task.html)
- обучить модель с маленьким количеством данных (Wiki Headlines на том же сайте), попытаться заставить её работать хотя бы как-нибудь
- написать early-stopping
- заюзать superconvergence learning rate scheduling
- попробовать другой способ инициализации весов (kaiming / critical iticialisation из Dynamical Isometry and a Mean Field Theory of LSTMs and GRUs)
- …
Если сделаете что-нибудь из этого, пишите мне в лс
- сделать логирование лосса на train и valid в tensorboard / visdom
- сделать логирование BLEU на valid в tb/vis
- обучить ru_en модель (данные тут: https://translate.yandex.ru/corpus?lang=en)
- попробовать другие attention
- подобрать гиперпараметры (тип RNN (GRU/LSTM/QRNN/SRU), число слоёв, размер hidden, …)
- не использовать for в generate_sent_masks
- исправить косяки es_en датасета
- сделать не .split()-токенизацию, а что-нибудь более адекаватное (spacy, nltk)
- использовать BPE-токенизацию
- сделать char-embeddings
- обучить толстую модель с большим количеством данных (есть корпус чешский-английский на несколько Gb тут http://www.statmt.org/wmt16/translation-task.html)
- обучить модель с маленьким количеством данных (Wiki Headlines на том же сайте), попытаться заставить её работать хотя бы как-нибудь
- написать early-stopping
- заюзать superconvergence learning rate scheduling
- попробовать другой способ инициализации весов (kaiming / critical iticialisation из Dynamical Isometry and a Mean Field Theory of LSTMs and GRUs)
- …
Если сделаете что-нибудь из этого, пишите мне в лс