На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак.



Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Я попробовал, и примерно получилось.



Зачем это делать? Например, чтобы:

- переводить со 100 разных языков на русский;

- суммаризовать много похожих предложений одним;

- реалистично заменять фразы в составе предложений;

- менять смысл предложений.



Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – на Хабре.