500 готово, ещё 3000 на подходе!
Решили мы немного доработать алгоритм предварительного обнаружения опасных стикеров. На какой основе?
Довольно часто встречаются целые сборники NSFW-материалов, которые именуются в формате
Алгоритм написан, запущен, и... Стражник за день изучил более 3000 стикер-паков по лолофд, а я молчу ещё за другие фд.
Причём большинство из них имели названия Lololowka\d{1,3} и Lololoshka\d{1,3}. Искали запрещённые материалы, а нашли тысячи паков по ФД. И вроде бы хорошо, но как владельцу канала @LoloSticker… больно.
Мораль басни
Алгоритм может быть мощным, но всегда нужно учитывать легитимную полезную нагрузку. И её может быть очень много. 😆
Решили мы немного доработать алгоритм предварительного обнаружения опасных стикеров. На какой основе?
Довольно часто встречаются целые сборники NSFW-материалов, которые именуются в формате
(?<name>.+)_?\d{1,3}
. Если мы обнаружили один стикер из такой «коллекции», почему бы не найти сразу все остальные? Это позволит системе заранее обработать их и при отправке выдавать ответ за считаные миллисекунды. Алгоритм написан, запущен, и... Стражник за день изучил более 3000 стикер-паков по лолофд, а я молчу ещё за другие фд.
Причём большинство из них имели названия Lololowka\d{1,3} и Lololoshka\d{1,3}. Искали запрещённые материалы, а нашли тысячи паков по ФД. И вроде бы хорошо, но как владельцу канала @LoloSticker… больно.
Мораль басни
Алгоритм может быть мощным, но всегда нужно учитывать легитимную полезную нагрузку. И её может быть очень много. 😆