Size: a a a

2021 April 01

K

Kayota in Scrapy
SoHard 🎄
от бана
разве можно получить бан на запрос?
источник

S

SoHard 🎄 in Scrapy
Kayota
разве можно получить бан на запрос?
А на что можно ещё?
источник

K

Kayota in Scrapy
SoHard 🎄
А на что можно ещё?
на ip
источник

K

Kayota in Scrapy
SoHard 🎄
А на что можно ещё?
и на время
источник

S

SoHard 🎄 in Scrapy
Ты бы посмотрел что он тебе в ответе пишет
источник

K

Kayota in Scrapy
INFO: Ignoring response <403 https://www.reebok.ru/krossovki-classic-leather-double/FY7264.html>: HTTP status code is not handled or not allowed
источник

S

SoHard 🎄 in Scrapy
это лог а не то что тебе сайт отдал, там скорее всего будет писать почему 403
источник

K

Kayota in Scrapy
а как мне это в scrapy узнать?
источник

S

SoHard 🎄 in Scrapy
Kayota
а как мне это в scrapy узнать?
записать в файл открыть в браузере / открыть в шелле
источник

K

Kayota in Scrapy
SoHard 🎄
записать в файл открыть в браузере / открыть в шелле
спасибо
источник

r

rink0 in Scrapy
обьясните мне тупому КАК ЭТО РАБОТАЕТ
Я хочу сохранять куки в файл.
У меня включен cookie debug, и в логах показывается какие куки отправляются. Я подумал - ну ок, всё просто смотрим в исходный код библиотеки, как там это делается и повторяем.
Посмотрел, используеться request.headers.getlist('Cookie')
Думаю супер - решено, пишу это в свой код, и решил для начала сделать просто print.
В итоге в логах почему то все куки показывается(csrf, token, phpssesid, identity)
А в принте
print(request.headers.getlist('Cookie'))

выводит только identity
источник

C

Come Back in Scrapy
Python

Нужно исправить ошибку в моем скрипте по парсингу данных из одного сайта

Код небольшой (примерно 100 строчек)

Цена: договорная

Пишите в лс, если кто-то заинтересован
источник

S

SoHard 🎄 in Scrapy
Come Back
Python

Нужно исправить ошибку в моем скрипте по парсингу данных из одного сайта

Код небольшой (примерно 100 строчек)

Цена: договорная

Пишите в лс, если кто-то заинтересован
1. http://t.me/scrapy_jobs
2. ошибка понятие растяжимое
источник

AV

Anatoli Valenda in Scrapy
Всем привет. Помогите. Нагуглить ответ не смог. Есть n категорий. В зависимости от категории формируется request и передаёт данные в callback функцию, где из response формируются items. Количество items заранее не известно. Как сообщить из callback функции, что данные в response закончились и что пора менять категорию в request? Паук тянет json через api.
источник

AV

Anatoli Valenda in Scrapy
Про что почитать хотя бы подскажите.
источник

К

Кирилл in Scrapy
Anatoli Valenda
Всем привет. Помогите. Нагуглить ответ не смог. Есть n категорий. В зависимости от категории формируется request и передаёт данные в callback функцию, где из response формируются items. Количество items заранее не известно. Как сообщить из callback функции, что данные в response закончились и что пора менять категорию в request? Паук тянет json через api.
Запрашивай сразу все категории
источник

AV

Anatoli Valenda in Scrapy
Кирилл
Запрашивай сразу все категории
Но я ведь не знаю количество запросов, которые мне нужно сформировать. Как мне передать команду, что нужно остановить формирование запросов т.к. данных большее нет?
источник

К

Кирилл in Scrapy
Anatoli Valenda
Но я ведь не знаю количество запросов, которые мне нужно сформировать. Как мне передать команду, что нужно остановить формирование запросов т.к. данных большее нет?
Ты сразу в цикле все запросы с категориями сформируй и иельдь их, не нужно из калбэков этим управлять
источник

К

Кирилл in Scrapy
Anatoli Valenda
Но я ведь не знаю количество запросов, которые мне нужно сформировать. Как мне передать команду, что нужно остановить формирование запросов т.к. данных большее нет?
Можешь ещё этот сигнал посмотреть, может быть это то что ты спрашивал https://docs.scrapy.org/en/latest/topics/signals.html?highlight=on_idle#std-signal-spider_idle

Но я думаю что он скорее всего не нужен тут
источник

AR

Andrey Rahmatullin in Scrapy
Anatoli Valenda
Но я ведь не знаю количество запросов, которые мне нужно сформировать. Как мне передать команду, что нужно остановить формирование запросов т.к. данных большее нет?
запрашивай следующую страницу из колбэка предыдущей, а не сразу все
источник