Телеграмм чат группы scrapy

сори, забыл отметить, у меня порядка 400-500 тыс запросов и это не один час.
И, в добавок, именно инкрементный сбор и использованием старых данных.... Без базы такое не очень удобно мутить

источник

10:51пожаловаться #5

МС

Михаил Синегубов... in Scrapy

это чистый бэк? не совсем то.
сейчас посматриваю одним глазиком на scrapydweb, но, пока, не взлетело на докере с пачкой нод :)

источник

10:53пожаловаться #6

Oleg Shleiko in Scrapy

Я поздно до него добрался, у меня все логи работы через графики и сообщения на кибане (эластик + логстэш)

источник

10:55пожаловаться #7

МС

Михаил Синегубов... in Scrapy

ну, когда овердохрена пауков под одну задачу, наверное, даже лучше кастомное решение...

источник

10:56пожаловаться #8

(

(o_O) in Scrapy

База у scrapinghub есть, но своя, через api. Есть и key-value хранилище. На платных тарифах (от $9) ограничения по времени нет. Альтернатива - инстанс за 5 баксов на do/linode/etc

источник

10:59пожаловаться #9

(

(o_O) in Scrapy

И на платных тарифах shub можно использовать встроенный щедулер

источник

11:00пожаловаться #10

(

(o_O) in Scrapy

Из плюсов - бд бездонная

источник

11:01пожаловаться #11

Stepan Smirnov in Scrapy

инкрементальный сбор можно сделать через deltafetch/scrapy-crawl-once

источник

11:02пожаловаться #12

Andy Top in Scrapy

Проблема Python Selenium.
Запускаю, выходит чистый лист в хроме,по ссылке не переходит.Почему так?В гугле нашел решение, нужно было посмотреть согласование версии браузера и webdrever'а, посмотрел, версии совпадают,но проблема осталась.

источник

11:18пожаловаться #13

Jax Neyon in Scrapy

как синхронизировать две базы данных с помощью API чтобы когда были изменения в одной базе они сразу же были видны и в другой и наоборот

источник

11:21пожаловаться #14

Jax Neyon in Scrapy

Я просто не понимаю как это сделать прошу помогите

источник

11:21пожаловаться #15

Jax Neyon in Scrapy

на ютубе 0 инфы

источник

11:23пожаловаться #16

МС

Михаил Синегубов... in Scrapy

Точно нужна синхронизация а не что то вроде зеркалирования средствами движка?
Или речь о двух разных базах?

источник

11:28пожаловаться #17

МС

Михаил Синегубов... in Scrapy

Тек, смотри, у меня собираются отзывы к товарам на озоне, сейчас поделено на три паука.
1. Собирает минимальную инфу по товарам в каталоге
2. Если у товара есть отзывы - собирается полная инфа
3. Если у товара есть новые отзывы, то они собираются со связью "многое-к-многим"

На выходе надо
Файл со всеми товарами и с краткой инфой по товарам
Файл с отзывами, и полной инфой по товарам, у которых есть отзывы.

Структура чуть чуть долбанутая, но у клиента бизнес процесс налажен под такие данные и он его менять не хочет

источник

11:33пожаловаться #18

МС

Михаил Синегубов... in Scrapy

Просто я не совсем понимаю как это все на скрапи Клауд организовать

источник

11:34пожаловаться #19

Stepan Smirnov in Scrapy

Я бы делал через что то похожее scrapy-crawl-once + S3 bucket для сохранения .scrapy между запусками
Но у одной проблемы есть много разных решений.

источник

12:40пожаловаться #20