Закончил размечать новые данные, в итоге вышло 1600 примеров, отправил их в стандартный пайплайн (оценка + темы + langid + регулярки).

С программкой для фильтрации было действительно проще, вот код. На скриншоте можно увидеть, как она в итоге выглядит.

Дальше буду ей же отбирать тест-сет.