500 готово, ещё 3000 на подходе!



Решили мы немного доработать алгоритм предварительного обнаружения опасных стикеров. На какой основе?



Довольно часто встречаются целые сборники NSFW-материалов, которые именуются в формате (?<name>.+)_?\d{1,3}. Если мы обнаружили один стикер из такой «коллекции», почему бы не найти сразу все остальные? Это позволит системе заранее обработать их и при отправке выдавать ответ за считаные миллисекунды.



Алгоритм написан, запущен, и... Стражник за день изучил более 3000 стикер-паков по лолофд, а я молчу ещё за другие фд.



Причём большинство из них имели названия Lololowka\d{1,3} и Lololoshka\d{1,3}. Искали запрещённые материалы, а нашли тысячи паков по ФД. И вроде бы хорошо, но как владельцу канала @LoloSticker… больно.



Мораль басни

Алгоритм может быть мощным, но всегда нужно учитывать легитимную полезную нагрузку. И её может быть очень много. 😆