Семантический анализ коллекций текстовых документов



💬 «Это было очень больно читать» - честный отзыв научрука на мою бакалаврскую работу. Так случилось, что на тему «Суммаризация тем в вероятностных тематических моделях» никто не закупает трафик, поэтому вы сможете найти слайды с защиты по первой ссылке в гугле. Спасибо поисковику, что текст диплома не запомнил.



💬 «Это первая статья на Хабр, которую я прочитал от начала и до конца))) Спасибо, Эдик!» - честный отзыв на новую публикацию от Лаборатории на Хабре. В основе статьи лежит все тот же подход, разработанный более шести лет назад. Думаю, теперь этим можно смело поделиться, расскажу подробнее об этой работе.



🤔 Тематические модели на практике чаще всего используются для ответа на вопрос: «Какая информация содержится в этой коллекции документов?». В этом помогает модель, которая получает на вход множество документов, а на выходе выплевывает список тематик, по которому пользователю предлагается составить свое представление о семантике документов. В этот момент остро встает вопрос интерпретации результата.



🤔 Все пакеты тематического моделирования, по умолчанию, предлагают семантический анализ по топ-словам из тематик. Некоторые идут чуть дальше и строят модели на коллокациях. Этого недостаточно, судя по личному опыту. Разработчик и одновременно пользователь может очень сильно упороться переобучиться после пары дней попыток интерпретации результатов и начинать придумывать сложные правила, объединяющие топ-слова в семантические группы. Достаточно обременённые таким опытом, в этой работе мы пошли еще дальше и отобрали топ-предложений из документов для каждой из тематик и накинули поверх алгоритм выделения спектра для повышения репрезентативности результата. Метрика интерпретируемости тематик выросла в дипломной работе, но рабочая задача на этом не закончилась.



👨‍💼 «Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения» - название статьи точно передает бизнес-задачу. Сначала дата сайентист применял алгоритм тематической суммаризации самостоятельно в jupyter-ноутбуке. После пары десятков однотипных задач, его терпению пришел конец. Он написал сервис и научил аналитика им пользоваться. В результате, оба стали выполнять более интересную работу: аналитик – начал проводить семантический анализ в вэб-сервисе вместо чтения отзывов в эксельке, дата сайенстист - улучшать мозги сервиса. Так, например, недавно в сервис заехал BertTopic, который помог лучше с текстами, содержащими опечатки.



📈 Новые задачи по семантическому анализу текстов стали приводть к нам новых пользователей в сервис. Наш проект позволил избавится от рутины Альфе, ускорил поиск инсайтов и 🚀 попал в топ лучших проектов за 2021 год. Подробнее читайте на Хабре.



P.S. на Хабре все-таки есть ссылка на текст дипломной работы 😩



#публикации