💡 Бот, который скрапит весь сайт и сохраняет отрендеренные странички в s3.



➡️ на входе: start_url + url_pattern, каким страницам давать приоритет

⬅️ на выходе: куча файликов .html



Зачем:

Если нужно что-то парсить, то сначала нужно скачать страницы, а потом их разобрать.

Бывает, что сохраняли не все данные, и нужно опять перепарсить весь сайт.

Норм практика сохранять промежуточные результаты в data pipelines.

Запустил скрапиться - страницы скачиваются - параллельно пишешь парсер.



Звучит как отличный open-source проект: микросервис, который просто бегает по сайту и складывает страницы в ваше хранилище. Enterprise plan: наше хранилище, наши парсеры и прокси, API.



- Remote Selenium

- Crontab batch parsing

- S3 / Disk

- Data retention

- Dev-friendly API

- Anti-parsing / ban detection (cloudflare)

- Events / webhooks

- Docker / Docker-compose (+бд, селениум)