Size: a a a

2019 July 17

i

ildar in Scrapy
А если тебе нужен аля "инкрементальный" спайдер, вроде вот это кто-то юзал
источник

i

ildar in Scrapy
источник

i

ildar in Scrapy
Это точно оно если там берклидб внутри
источник

AB

A B in Scrapy
нет, не промышленно, но запускать буду каждый день. да и товаров там 70 тысяч примерно. так что надо это как-то ограничивать.
источник

i

ildar in Scrapy
Т. Е. Ты хочешь скрапить в несколько запусков? Аля за несколько дней?
источник

AB

A B in Scrapy
да, примерно так. а потом просто каждый день пополнять новыми, если добавили.
источник

i

ildar in Scrapy
ну тогда тебе вона этот дельтафетч надо заиспользовать. это прям оно. помнится кто-то уже пилил с ним
источник

i

ildar in Scrapy
там из всех трабл было эту берклидб поставить)
источник

RV

Roman V in Scrapy
Для самых простых кейсов - тоже рекомендую решение на базе scrapy-plugins/scrapy-deltafetch
В промышленных масшатабах - разбивать на несколько этапов, строить чейны джобов с помощью того же Celery.
источник

AB

A B in Scrapy
ещё я пока толком не разобрался со всеми этими мидлварями, оно всё увлекательно, но до конца я не разобрался, что иммено какая прослойка делает, и как какие-то свои кейсы реализовать через них, мне пока сложно придумать.
источник

i

ildar in Scrapy
ну в этой дельтафетчи смутно помнится 3 функции строк на 100, можешь поглядеть как пример ее как подобную мидлварю строить)
источник

RV

Roman V in Scrapy
Еще, как вариант - делать запрос на апишку, проверяя есть ли товар в базе. Запросы буду неблокирующими.
источник

i

ildar in Scrapy
она расширяет вот это: https://docs.scrapy.org/en/latest/topics/signals.html
источник

AB

A B in Scrapy
до сигналов в документации я ещё не добрался.
источник

i

ildar in Scrapy
ха, кстати помнится я как-то делал с либой dataset на sqlite, так кто-то из них плакал как раз про "эти твари все разом в меня пишут, ататат!")
источник

i

ildar in Scrapy
так-что прочесть-то не проблема, проблема может возникнуть за записать в базу "я здесь был вчера"
источник

i

ildar in Scrapy
наверное в берклидб есть неблокирующая запись. правда, настораживает, что этому коду 3 года
источник

RV

Roman V in Scrapy
70К - это немного и если важна скорость - можно просто по spider_opened загружать все идентификаторы в сет, тогда дубликаты будут отфильтровываться молниеносно. Универсального решения нет, нужно смотреть по конкретному кейсу.
источник

RV

Roman V in Scrapy
ildar
наверное в берклидб есть неблокирующая запись. правда, настораживает, что этому коду 3 года
Я бы его как есть не юзал, скорее как пример :)
источник

AB

A B in Scrapy
спасибо парни за дельные советы и пищу для размышлений. вообще уютно тут у вас, в каком-нибудь ява чатике меня бы уже давно нахуй послали и по айпи забанили бы.
источник