Size: a a a

2021 May 31

МС

Михаил Синегубов... in Scrapy
Угу, у меня, примерно, так и есть сейчас...
Но, грозят всякие "свистелки/перделки" для клиента, вот и собираю инфу...
источник

SS

Stepan Smirnov in Scrapy
Scrapy Cloud для простых проектов подходит.
Там есть регулярный запуск, старт пауков через API.
источник

(

(o_O) in Scrapy
И ограничение 1 час на каждый запуск
источник

OS

Oleg Shleiko in Scrapy
у меня написан "запускатель" пауков, который по определённым параметрам запускает тот или иной паук. Его перезапускает супервизор в случае ошибки
источник

МС

Михаил Синегубов... in Scrapy
сори, забыл отметить, у меня порядка 400-500 тыс запросов и это не один час.
И, в добавок, именно инкрементный сбор и использованием старых данных.... Без базы такое не очень удобно мутить
источник

МС

Михаил Синегубов... in Scrapy
это чистый бэк? не совсем то.
сейчас посматриваю одним глазиком на scrapydweb, но, пока, не взлетело на докере с пачкой нод :)
источник

OS

Oleg Shleiko in Scrapy
Я поздно до него добрался, у меня все логи работы через графики и сообщения на кибане (эластик + логстэш)
источник

МС

Михаил Синегубов... in Scrapy
ну, когда овердохрена пауков под одну задачу, наверное, даже лучше кастомное решение...
источник

(

(o_O) in Scrapy
База у scrapinghub есть, но своя, через api. Есть и key-value хранилище. На платных тарифах (от $9) ограничения по времени нет. Альтернатива - инстанс за 5 баксов на do/linode/etc
источник

(

(o_O) in Scrapy
И на платных тарифах shub можно использовать встроенный щедулер
источник

(

(o_O) in Scrapy
Из плюсов - бд бездонная
источник

SS

Stepan Smirnov in Scrapy
инкрементальный сбор можно сделать через deltafetch/scrapy-crawl-once
источник

AT

Andy Top in Scrapy
Проблема Python Selenium.
Запускаю, выходит чистый лист в хроме,по ссылке не переходит.Почему так?В гугле нашел решение, нужно было посмотреть согласование версии браузера и webdrever'а, посмотрел, версии совпадают,но проблема осталась.
источник

JN

Jax Neyon in Scrapy
как синхронизировать две базы данных с помощью API чтобы когда были изменения в одной базе они сразу же были видны и в другой и наоборот
источник

JN

Jax Neyon in Scrapy
Я просто не понимаю как это сделать прошу помогите
источник

JN

Jax Neyon in Scrapy
на ютубе 0 инфы
источник

МС

Михаил Синегубов... in Scrapy
Точно нужна синхронизация а не что то вроде зеркалирования средствами движка?
Или речь о двух разных базах?
источник

МС

Михаил Синегубов... in Scrapy
Тек, смотри, у меня собираются отзывы к товарам на озоне, сейчас поделено на три паука.
1. Собирает минимальную инфу по товарам в каталоге
2. Если у товара есть отзывы - собирается полная инфа
3. Если у товара есть новые отзывы, то они собираются со связью "многое-к-многим"

На выходе надо
Файл со всеми товарами и с краткой инфой по товарам
Файл с отзывами, и полной инфой по товарам, у которых есть отзывы.

Структура чуть чуть долбанутая, но у клиента бизнес процесс налажен под такие данные и он его менять не хочет
источник

МС

Михаил Синегубов... in Scrapy
Просто я не совсем понимаю как это все на скрапи Клауд организовать
источник

SS

Stepan Smirnov in Scrapy
Я бы делал через что то похожее scrapy-crawl-once + S3 bucket для сохранения .scrapy между запусками
Но у одной проблемы есть много разных решений.
источник