Size: a a a

2019 August 20

К

Кирилл in Scrapy
лочит, чего там только нет
источник

К

Кирилл in Scrapy
можно не напрягаться и не искать, это ценная штука, скорее всего никто в общий доступ не выложит
источник

МС

Михаил Синегубов in Scrapy
тогда точно ротатор крутить надо :).
мляха/муха, тока написал кривенький ротатор для инсты, так какая то хрень с проксями произошла.

кстати, с FB же вообще танцы с бубном? там не просто "куку передать"?
сам не парсил, просто разговоры читал
источник

К

Кирилл in Scrapy
фб уже пару месяцев назад анонсировал смену фронта веб версии, так что сейчас этим не имеет смысла заниматься
источник

JW

John Wayne in Scrapy
Подскажите может быть какая то защита у js кнопки, чтобы луа скрипт её не мог кликнуть?
В консоли хрома это выполняется
document.querySelector("#contact_methods > li:nth-child(2) > div").click()
В луа скрипте нет
assert(splash:runjs('document.querySelector("#contact_methods > li:nth-child(2) > div").click()'))
Что это за шаманство и куда копать?
источник

i

ildar in Scrapy
Может js функция еще каких-то специфичных заголовков/полей ждет? Что network показывает после ее нажатия?
источник

К

Кирилл in Scrapy
John Wayne
Подскажите может быть какая то защита у js кнопки, чтобы луа скрипт её не мог кликнуть?
В консоли хрома это выполняется
document.querySelector("#contact_methods > li:nth-child(2) > div").click()
В луа скрипте нет
assert(splash:runjs('document.querySelector("#contact_methods > li:nth-child(2) > div").click()'))
Что это за шаманство и куда копать?
Постоянно такое бывает
источник

К

Кирилл in Scrapy
John Wayne
Подскажите может быть какая то защита у js кнопки, чтобы луа скрипт её не мог кликнуть?
В консоли хрома это выполняется
document.querySelector("#contact_methods > li:nth-child(2) > div").click()
В луа скрипте нет
assert(splash:runjs('document.querySelector("#contact_methods > li:nth-child(2) > div").click()'))
Что это за шаманство и куда копать?
Попробуй пройтись по элементам вверх и вниз, может быть всплытием нормально зацепит клик. Но обычно сложно найти причину, так что постарайся найти другой путь
источник

JW

John Wayne in Scrapy
ildar
Может js функция еще каких-то специфичных заголовков/полей ждет? Что network показывает после ее нажатия?
Ну там много чего, redot.js еще есть xgde.js. В сплеше я то я нетворк не посмотрю, в har много нет
источник

JW

John Wayne in Scrapy
Кирилл
Попробуй пройтись по элементам вверх и вниз, может быть всплытием нормально зацепит клик. Но обычно сложно найти причину, так что постарайся найти другой путь
Просто сплеш это и есть другой путь. юзать сплеш чтобы Js куки полутать, а потом реквест делать это прям оверкилл какой то. Но я понял, защита у кнопок есть, и порою фиг что сделаешь
источник

i

ildar in Scrapy
John Wayne
Подскажите может быть какая то защита у js кнопки, чтобы луа скрипт её не мог кликнуть?
В консоли хрома это выполняется
document.querySelector("#contact_methods > li:nth-child(2) > div").click()
В луа скрипте нет
assert(splash:runjs('document.querySelector("#contact_methods > li:nth-child(2) > div").click()'))
Что это за шаманство и куда копать?
Попробуй добавить wait
источник

i

ildar in Scrapy
Может там просто что-то прогрузиться не успевает
источник
2019 August 21

iz

izzz zzi in Scrapy
Во что может начать упираться производительность?
думал ротатор и прокси долго отвечают , отключил
16 CONCURRENT_REQUESTS 1.5к стр/мин
32 CONCURRENT_REQUESTS 1.5к стр/мин
источник

iz

izzz zzi in Scrapy
AUTOTHROTTLE_ENABLED = False в обоих случаях
источник

К

Кирилл in Scrapy
Запусти бэнчтест, возможно это и есть твой максимум
источник

iz

izzz zzi in Scrapy
scrapy bench ?
источник

iz

izzz zzi in Scrapy
он еррорит у меня)
и на всп тоже
Traceback (most recent call last):
 File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/site-packages/scrapy/core/downloader/middleware.py", line 44, in process_request
   defer.returnValue((yield download_func(request=request, spider=spider)))
источник

iz

izzz zzi in Scrapy
источник

К

Кирилл in Scrapy
Хм, сейчас не могу проверить, в 1.6 версии работало норм
источник

iz

izzz zzi in Scrapy
я обновился уже)
источник