Size: a a a

2018 July 25

NK

ID:200200555 in Scrapy
Это типа эмуляция жски?
источник

B

Bulatbulat48 in Scrapy
генерирует js через chromium
источник

NK

ID:200200555 in Scrapy
Господи, какая же говнина
источник

B

Bulatbulat48 in Scrapy
а как ты будешь генерить JS?
источник

NK

ID:200200555 in Scrapy
Зачем?
источник

B

Bulatbulat48 in Scrapy
например токен генерится
источник

NK

ID:200200555 in Scrapy
А) Дебажить код на сайте
Б) Юзать хедлесс браузер
источник

NK

ID:200200555 in Scrapy
Всё что я там увидел - тупо парсинг
источник

B

Bulatbulat48 in Scrapy
для скрапи есть Splash
источник

B

Bulatbulat48 in Scrapy
ID:200200555
А) Дебажить код на сайте
Б) Юзать хедлесс браузер
ну да, тоже варианты. Но мы же хотим попроще
источник

EB

Elisei Badanin in Scrapy
а оно js может? вроде же обвертка над лхмл
источник

A

Artuchka in Scrapy
Bulatbulat48
освежим нашу беседу новым пакетом, только для python 3.6:
https://html.python-requests.org/
по факту тот же requests только умеет генерировать JS
прислано нашим анонимным читателем :)
Так погодите
Это же немного не дотягивает до того, чтобы bs4 был не нужен
Или я что-то не так понял?
источник

B

Bulatbulat48 in Scrapy
Elisei Badanin
а оно js может? вроде же обвертка над лхмл
JavaScript Support
Let’s grab some text that’s rendered by JavaScript:

>>> r = session.get('http://python-requests.org/')

>>> r.html.render()

>>> r.html.search('Python 2 will retire in only {months} months!')['months']
'<time>25</time>'
источник

B

Bulatbulat48 in Scrapy
или даже так:
источник

B

Bulatbulat48 in Scrapy
You can also use this library without Requests:

>>> from requests_html import HTML
>>> doc = """<a href='https://httpbin.org'>"""

>>> html = HTML(html=doc)
>>> html.links
{'https://httpbin.org'}
You can also render JavaScript pages without Requests:

# ^^ proceeding from above ^^
>>> script = """
       () => {
           return {
               width: document.documentElement.clientWidth,
               height: document.documentElement.clientHeight,
               deviceScaleFactor: window.devicePixelRatio,
           }
       }
   """
>>> val = html.render(script=script, reload=False)

>>> print(val)
{'width': 800, 'height': 600, 'deviceScaleFactor': 1}

>>> print(html.html)
<html><head></head><body><a href="https://httpbin.org"></a></body></html>
источник

B

Bulatbulat48 in Scrapy
Artuchka
Так погодите
Это же немного не дотягивает до того, чтобы bs4 был не нужен
Или я что-то не так понял?
я его вообще не юзаю когда есть lxml :)
источник

EB

Elisei Badanin in Scrapy
обертка над супом
источник

EB

Elisei Badanin in Scrapy
REQUIRED = [
   'requests', 'pyquery', 'fake-useragent', 'parse', 'bs4', 'w3lib', 'pyppeteer>=0.0.14'
]
источник

B

Bulatbulat48 in Scrapy
а в супе есть генерация JS?
источник

A

Artuchka in Scrapy
Bulatbulat48
я его вообще не юзаю когда есть lxml :)
Пхпхпх
Ну Оки доки
источник