💡 Бот, который скрапит весь сайт и сохраняет отрендеренные странички в s3.
➡️ на входе: start_url + url_pattern, каким страницам давать приоритет
⬅️ на выходе: куча файликов .html
Зачем:
▪ Если нужно что-то парсить, то сначала нужно скачать страницы, а потом их разобрать.
▪ Бывает, что сохраняли не все данные, и нужно опять перепарсить весь сайт.
▪ Норм практика сохранять промежуточные результаты в data pipelines.
▪ Запустил скрапиться - страницы скачиваются - параллельно пишешь парсер.
Звучит как отличный open-source проект: микросервис, который просто бегает по сайту и складывает страницы в ваше хранилище. Enterprise plan: наше хранилище, наши парсеры и прокси, API.
- Remote Selenium
- Crontab batch parsing
- S3 / Disk
- Data retention
- Dev-friendly API
- Anti-parsing / ban detection (cloudflare)
- Events / webhooks
- Docker / Docker-compose (+бд, селениум)
➡️ на входе: start_url + url_pattern, каким страницам давать приоритет
⬅️ на выходе: куча файликов .html
Зачем:
▪ Если нужно что-то парсить, то сначала нужно скачать страницы, а потом их разобрать.
▪ Бывает, что сохраняли не все данные, и нужно опять перепарсить весь сайт.
▪ Норм практика сохранять промежуточные результаты в data pipelines.
▪ Запустил скрапиться - страницы скачиваются - параллельно пишешь парсер.
Звучит как отличный open-source проект: микросервис, который просто бегает по сайту и складывает страницы в ваше хранилище. Enterprise plan: наше хранилище, наши парсеры и прокси, API.
- Remote Selenium
- Crontab batch parsing
- S3 / Disk
- Data retention
- Dev-friendly API
- Anti-parsing / ban detection (cloudflare)
- Events / webhooks
- Docker / Docker-compose (+бд, селениум)