Dan Okhlopkov - канал

💡 Бот, который скрапит весь сайт и сохраняет отрендеренные странички в s3.

➡️ на входе: start_url + url_pattern, каким страницам давать приоритет

⬅️ на выходе: куча файликов .html

Зачем:

▪ Если нужно что-то парсить, то сначала нужно скачать страницы, а потом их разобрать.

▪ Бывает, что сохраняли не все данные, и нужно опять перепарсить весь сайт.

▪ Норм практика сохранять промежуточные результаты в data pipelines.

▪ Запустил скрапиться - страницы скачиваются - параллельно пишешь парсер.

Звучит как отличный open-source проект: микросервис, который просто бегает по сайту и складывает страницы в ваше хранилище. Enterprise plan: наше хранилище, наши парсеры и прокси, API.

- Remote Selenium

- Crontab batch parsing

- S3 / Disk

- Data retention

- Dev-friendly API

- Anti-parsing / ban detection (cloudflare)

- Events / webhooks

- Docker / Docker-compose (+бд, селениум)