Коллекция русского мата, классификатор токсичности и детоксификатор



Всё это недавно представили исследователи из Сколтеха совместно с МТС.



Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).



А вот детоксификатор иногда выдаёт странные перлы 🌚



P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁‍♂️



Статья, GitHub, маты, блог