Size: a a a

2019 July 13

s

serhii in Scrapy
Jobs: pausing and resuming crawls — Scrapy 1.6.0 documentation
https://docs.scrapy.org/en/latest/topics/jobs.html
источник

DK

Dmytro Kuzmichov in Scrapy
Тут пишется за ручную остановку, а если это произойдет по какой либо другой причине?
источник

МС

Михаил Синегубов in Scrapy
Dmytro Kuzmichov
Тут пишется за ручную остановку, а если это произойдет по какой либо другой причине?
База или файл. Туда пишутся статусы по урлам. Придумываешь как стартануть паука с любого момента
источник

МС

Михаил Синегубов in Scrapy
Почти все надо писать самому, из коробки этого нет.
источник

МС

Михаил Синегубов in Scrapy
Вопрос - а надо ли? Если паук отрабатывает за несколько часов - проще перезапусьить
источник

DK

Dmytro Kuzmichov in Scrapy
Я могу себе после какого-то колличество итераций записывать это в файл, а при старте он не будет перезаписываться?
источник

DK

Dmytro Kuzmichov in Scrapy
Я думал если у меня, условно 1000 страниц, за одну итерацию брать 100 и если на середине произойдет остановка по какой либо причине, продолжить с этого места, при новом запуске
источник

DK

Dmytro Kuzmichov in Scrapy
Или так не стоит делать?
источник

AB

A B in Scrapy
почему бы нет, начнёшь отрабатывать с последней валидной позиции.
источник

DK

Dmytro Kuzmichov in Scrapy
Можно намекнуть как это сделать?)
источник

AB

A B in Scrapy
это очень интересный подход, и я сейчас сам смотрю как сделать что-то отдалённо подобное. скорей всего придётся переопределить метод start_requests твоего паука, как я понимаю, он возвращает iterable с запросами. вот там, как я думаю, и можно будет чекнуть, где был последний успешный запрос и продолжить с того момента.

но я совсем не волшебник, так что может быть ерунды сейчас написал. пусть благородные доны поделятся своими мыслями.
источник

DK

Dmytro Kuzmichov in Scrapy
Я сам два дня назад открыл для себя scrapy
источник

AB

A B in Scrapy
dito
источник

AB

A B in Scrapy
в чём плюсы использования Items?
источник

DJ

Dim Jong Un in Scrapy
Обработка none если элемент не найден не нужно эксепшены городить, ну и пре и постпроцессоры, иногда это удобно
источник

JW

John Wayne in Scrapy
А это работает, только при .add_xpath()?
load = ItemLoader(item=MyItem(), response=response)
load.add_xpath()-не нужны эксепшены?
item.add_value()-нужно городить?
Как вообще по лучшим практикам?
источник

s

serhii in Scrapy
Так эд валю и эд икспас две разные вещи. Если можешь напрямую икспас, то да.
А если например у тебя значение парсится и ты потом хочешь его изменить. То можно эд валю. Или икспас и в айтемсе все написать, что надо.
источник

JW

John Wayne in Scrapy
Ну да, получается красивее add_xpath, itemloader сам дропает None,+в items.py делаешь очистку и сервировку значений, а если add_value то логику и эксепшены приходится в пауке городить
источник

VP

Valera Pupkin in Scrapy
Dim Jong Un
Обработка none если элемент не найден не нужно эксепшены городить, ну и пре и постпроцессоры, иногда это удобно
Спасибо за хорошую мысль
источник

s

serhii in Scrapy
John Wayne
Ну да, получается красивее add_xpath, itemloader сам дропает None,+в items.py делаешь очистку и сервировку значений, а если add_value то логику и эксепшены приходится в пауке городить
Все верно 👍
источник