Вообще с к*рсовой происходит ставший уже классическим для меня вид жопной боли – ты кучу времени въебывашь на то, чтоб какая-то тупая nlp моделька начала давать какие-то результаты, чтобы потом узнать, что это все умеет делать BERT, при чем с довольно неплохим качеством. Я так где-то месяц обучала Latent dirichlet allocation во всех возможных конфигурациях, он почти при любом раскладе выдавал хуйню (ну, кроме топиков типа abort_cells и pray_jesus), а BERTopic сделал что-то осмысленное почти с первого запуска.

Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.

Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души