
Анти-парсинг
Почти каждый вебсайт определяет: вы живой человек или школьник, который запрогал свой питон и хочет спарсить данные с сайта. И я говорю не только о капче!
Кстати, 1000 капч стоят меньше $1 - живые индусы доступны по API.
Кейс из реальной жизни: Я решил спарсить AngelList, а у них стоит защита от CloudFlare. Сайт в гугл хроме в режиме инкогнито открывается, а вот в Selenium нет (FYI это автоматизированный гугл хром для парсинга). Вопрос: почему, ведь и то, и то - браузер гугл хром.
Оказывается, что Selenium (а также другие headless browsers, такие как Puppyter и Splash) оставляют артефакты. И они легко могут детектироваться бекендом или CloudFlare. Аналогично, Андройд и Айфон симуляторы тоже оставляют некий свой след, поэтому как минимум "мамкиных хакеров" легко детектировать и банить.
Я нашел крутой вебсайт, который позволяет проверить свой браузер, является ли он "подозреваемым" в автоматизации. Конечно же это публичный и неполный список признаков:
bot.sannysoft.com
Почти каждый вебсайт определяет: вы живой человек или школьник, который запрогал свой питон и хочет спарсить данные с сайта. И я говорю не только о капче!
Кстати, 1000 капч стоят меньше $1 - живые индусы доступны по API.
Кейс из реальной жизни: Я решил спарсить AngelList, а у них стоит защита от CloudFlare. Сайт в гугл хроме в режиме инкогнито открывается, а вот в Selenium нет (FYI это автоматизированный гугл хром для парсинга). Вопрос: почему, ведь и то, и то - браузер гугл хром.
Оказывается, что Selenium (а также другие headless browsers, такие как Puppyter и Splash) оставляют артефакты. И они легко могут детектироваться бекендом или CloudFlare. Аналогично, Андройд и Айфон симуляторы тоже оставляют некий свой след, поэтому как минимум "мамкиных хакеров" легко детектировать и банить.
Я нашел крутой вебсайт, который позволяет проверить свой браузер, является ли он "подозреваемым" в автоматизации. Конечно же это публичный и неполный список признаков:
bot.sannysoft.com