
Коллекция русского мата, классификатор токсичности и детоксификатор
Всё это недавно представили исследователи из Сколтеха совместно с МТС.
Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).
А вот детоксификатор иногда выдаёт странные перлы 🌚
P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁♂️
Статья, GitHub, маты, блог
Всё это недавно представили исследователи из Сколтеха совместно с МТС.
Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).
А вот детоксификатор иногда выдаёт странные перлы 🌚
P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁♂️
Статья, GitHub, маты, блог