#python



Иногда нам нужно выгрузить данные из Интренета, обычно они бывают в формате HTML или XML. Сегодня встретил библиотеку Python (кстати для Data Engineering (интеграция и трансформация данных) я рассматриваю как основной язык, а R это для меня язык дла статистики больше, но с помощью R и Python часто можно решить одинаковые задачи.)



Библиотека Beautiful Soup - парсит данные HTML и XML. Например, мы можешь задать SearchUrl и скрипт должен будет выкачать данные из результата поиска, распарсить результат и сохранить в CSV. Так же возможно подключаться к API и тогда мы можем получить JSON.



Я приложил пример, который выгружает данные с сайта поиска работы Dice.com (скрипт может устарел, но идея ясна) https://www.crummy.com/software/BeautifulSoup/



Скрипт выгружает данные по этому запросу https://www.dice.com/jobs/q-tableau-limit-30-startPage-1-limit-30-jobs?searchid=9787308578379 и перебирает страницы поиска [1:30]