Каждый раз, когда меня просят построить антифрод систему - мой бейзлайн это ошибка реконструкции автоэнкодера. Быстро, не нужны лейблы, достаточно иметь некоторое количество “хороших” транзакций и работает из коробки довольно неплохо.



Сегодня прочитал статью Credit Card Fraud Detection Using Sparse Autoencoder and Generative Adversarial Network



В который раз позавидовал способности людей расписывать что-то длинной в абзац на 10 страниц



Идея следующая



1. Берем хорошие транзакции, учим на них sparse autoencoder

2. Репрезентация (code после encoder) полученная от sparse autoencoder становится новыми фичами

3. Учим GAN, где реальные образцы - это репрезентация существующих хороших транзакций с пункта 2, а фейковые, понятное дело, шум

4. Снимаем с GAN дискриминатор и используем его теперь чтобы принять решение о транзакции (прогнанной сначала через sparse autoencoder) - фрод или нет



С чем бы я поэкспериментировал



1. Попробовать обычный AN и denoising AN

2. Попробовать добавлять небольшой шум на AN representation перед входом в GAN

3. Попробовать подмешать небольшой процент фрода в фейковые сэмплы



Идею - дарю

#ArticleReview