Dan Okhlopkov - канал

Сколько нужно часов для начала работы с Scrapy? ⏰

Захотел измерить, сколько времени я потратил на то, чтобы написать с нуля парсер Angellist и сбор данных в базу, по ходу изучив фреймворк Scrapy для всего этого.

Итак, день - потреченное время - что делал

🔹 1 декабря - 8 часов - знакомство с либой, браузерами, игра с защитой CloudFlare 🛡

🔹 16 дек - 7ч - поиск подходящего инструмента управление браузером, поиск беспалевного chromedriver. Начал сохранять не в файл, а в базу. Начал сохранять еще больше данных. 🤹🏻‍♂️

🔹 17 дек - 7ч - переписывал парсер на более масштабированную архитектуру с использованием scrapy.Item. Добавлял больше объектов для парсинга. 🎅

🔹 18 дек - 5ч - добавил парсинг пользователей Angellist и тестил. Первые баны. 👋

🔹 20 дек - 1ч - причесывание кода и тесты. 🔧

Итого вышло 28 часов (на изучение технологии и на парсинг сложного вебсайта). По моим ощущениям, 70% всего времени ушло не на изучение документации и не на тесты, а на извлечение из скаченной вебстраницы нужной инфы. Слишком эта получилась мышиная работа доставать более 50 полей через xpath, когда все CSS теги обфусцированы. Автоматизировать это может только AI Crawler, который сам догадывается, какие данные ценные, и сохраняет их в реляционную базу. Но в случае с обфускацией - это вряд ли поможет.