πŸ”₯ ΠŸΠΎΠ»Π΅Π·Π½Ρ‹Π΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ Python



Requests-HTML
β€” максимально простая ΠΈ ΠΈΠ½Ρ‚ΡƒΠΈΡ‚ΠΈΠ²Π½ΠΎ понятная Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° для парсинга html Π²ΠΊΠ»ΡŽΡ‡Π°Ρ асинхронный парсинг.



Установка:

$ pip install requests-html



ΠŸΡ€ΠΈΠΌΠ΅Ρ€ использования:



1️⃣

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://python.org/')




2️⃣

from requests_html import AsyncHTMLSession

asession = AsyncHTMLSession()

async def get_pythonorg():

r = await asession.get('https://python.org/')

return r



async def get_reddit():

r = await asession.get('https://reddit.com/')

return r



async def get_google():

r = await asession.get('https://google.com/')

return r



results = asession.run(get_pythonorg, get_reddit, get_google)

results # check the requests all returned a 200 (success) code

[<Response [200]>, <Response [200]>, <Response [200]>]



for result in results:

print(result.html.url)




Из ΠΊΠΎΡ€ΠΎΠ±ΠΊΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ сохранСниС cookie Ρ„Π°ΠΉΠ»ΠΎΠ², ΠΈΠΌΠΈΡ‚ΠΈΡ€ΡƒΠ΅Ρ‚ user-agent, асинхронныС запросы, JavaScript ΠΈ Π΄.Ρ€. плюшки.



βš™οΈ GitHub/Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ†ΠΈΡ



#python #github #soft