Пора, наконец, написать и про что-то хорошее.
Пока я смотрела материалы для обзора литературы к статье коллеги, наткнулась на прикольный доклад про то, что же "слышит" слой нейросети, распознающей речь (ASR == Automatic Speech Recognition):
https://www.youtube.com/watch?v=6gtn7H-pWr8&t=2s&ab_channel=Hung-yiLee
Доклад сравнительно несложный (чтобы понять основной смысл, достаточно иметь какое-то представление о ML и DL, но не обязательно быть специалистом по речевым моделям), а главным его достоинством являются примеры генерации речи по представлениям с разных слоев. На этих примерах авторы демонстрируют, как с прохождением данных через каждый последующий LSTM-слой модель все больше абстрагируется от информации об индивидуальных особенностях спикера (поскольку она не нужна для решения конечной задачи - перевода речи в текст), и представления, соответствующие разным спикерам, становятся все более похожи друг на друга. Обезличенный роботический "голос" глубоких слоев звучит очень атмосферно.
Тем, кто хочет разобраться поглубже, можно почитать исходную статью https://ieeexplore.ieee.org/document/9054675 с полноценным анализом происходящего и объяснением того, как извлекалась информация из слоев.
К главному недостатку доклада и статьи можно отнести то, что рассмотрены только модели с LSTM-слоями. Было бы интересно увидеть аналогичное исследование для трансформеров.
#объяснения_статей
Пока я смотрела материалы для обзора литературы к статье коллеги, наткнулась на прикольный доклад про то, что же "слышит" слой нейросети, распознающей речь (ASR == Automatic Speech Recognition):
https://www.youtube.com/watch?v=6gtn7H-pWr8&t=2s&ab_channel=Hung-yiLee
Доклад сравнительно несложный (чтобы понять основной смысл, достаточно иметь какое-то представление о ML и DL, но не обязательно быть специалистом по речевым моделям), а главным его достоинством являются примеры генерации речи по представлениям с разных слоев. На этих примерах авторы демонстрируют, как с прохождением данных через каждый последующий LSTM-слой модель все больше абстрагируется от информации об индивидуальных особенностях спикера (поскольку она не нужна для решения конечной задачи - перевода речи в текст), и представления, соответствующие разным спикерам, становятся все более похожи друг на друга. Обезличенный роботический "голос" глубоких слоев звучит очень атмосферно.
Тем, кто хочет разобраться поглубже, можно почитать исходную статью https://ieeexplore.ieee.org/document/9054675 с полноценным анализом происходящего и объяснением того, как извлекалась информация из слоев.
К главному недостатку доклада и статьи можно отнести то, что рассмотрены только модели с LSTM-слоями. Было бы интересно увидеть аналогичное исследование для трансформеров.
#объяснения_статей