Анти-парсинг



Почти каждый вебсайт определяет: вы живой человек или школьник, который запрогал свой питон и хочет спарсить данные с сайта. И я говорю не только о капче!



Кстати, 1000 капч стоят меньше $1 - живые индусы доступны по API.



Кейс из реальной жизни: Я решил спарсить AngelList, а у них стоит защита от CloudFlare. Сайт в гугл хроме в режиме инкогнито открывается, а вот в Selenium нет (FYI это автоматизированный гугл хром для парсинга). Вопрос: почему, ведь и то, и то - браузер гугл хром.



Оказывается, что Selenium (а также другие headless browsers, такие как Puppyter и Splash) оставляют артефакты. И они легко могут детектироваться бекендом или CloudFlare. Аналогично, Андройд и Айфон симуляторы тоже оставляют некий свой след, поэтому как минимум "мамкиных хакеров" легко детектировать и банить.



Я нашел крутой вебсайт, который позволяет проверить свой браузер, является ли он "подозреваемым" в автоматизации. Конечно же это публичный и неполный список признаков:

bot.sannysoft.com