Size: a a a

2020 November 11

S

SoHard 🎄 in Scrapy
Смотри что делает кнопка и делай это в скрапи
источник

SS

Sergey Sergey in Scrapy
Коллеги, а как вы контролируете свои парсеры при запуске по крону? По таймаутам, ожидаемым размерам выходных файлов, через телнет консоль, через периодический парсинг логов? У меня парсер работает нормально, но иногда зависает по причине глюка авторизации прокси. После перезапуска все нормально работает. Вот как бы это детектить и перезапускать скриптом. Поделитесь опытом.
источник

К

Кирилл in Scrapy
Sergey Sergey
Коллеги, а как вы контролируете свои парсеры при запуске по крону? По таймаутам, ожидаемым размерам выходных файлов, через телнет консоль, через периодический парсинг логов? У меня парсер работает нормально, но иногда зависает по причине глюка авторизации прокси. После перезапуска все нормально работает. Вот как бы это детектить и перезапускать скриптом. Поделитесь опытом.
Можешь ловить ошибки авторизации в самом коде и останавливать парсер. Можно докером, к примеру, через healthcheck проверять. Можно автозапуск/регулярный запуск через systemd настроить
источник

SS

Sergey Sergey in Scrapy
Кирилл
Можешь ловить ошибки авторизации в самом коде и останавливать парсер. Можно докером, к примеру, через healthcheck проверять. Можно автозапуск/регулярный запуск через systemd настроить
Спасибо
источник

A

Andrii in Scrapy
а как вьі запускаете в одном контейнере и логпарсер и скрапид ? nohup?
источник

SS

Stepan Smirnov in Scrapy
а можно использовать inline_requests в функции start_requests() ?
источник

AR

Andrey Rahmatullin in Scrapy
нет
источник

AR

Andrey Rahmatullin in Scrapy
не представляю зачем она там нужна
источник

SS

Stepan Smirnov in Scrapy
уточнить в POST запросе количество товаров для выдачи
источник

AR

Andrey Rahmatullin in Scrapy
ну так делай это в колбэке этого запроса
источник

A

Andrii in Scrapy
вообще что-то не удаеться запустить и лог парсер и скрейпид в одном контейнере
CMD ["tmux", "new-session", "-d", "-s", "my_session", "logparser"]
CMD ["scrapyd", "--pidfile="]
источник

К

Кирилл in Scrapy
не может быть двух CMD, оно не для этого
источник

A

Andrii in Scrapy
ага...а как ето сделать то?
источник

A

Andrii in Scrapy
just RUN ?
источник

К

Кирилл in Scrapy
или через баш скрипт, или скорее всего будет красивее сделать volume и туда второй контейнер присоеденить
источник

A

Andrii in Scrapy
но-но, я и так уже 16 часов на докер угробил) при том на етот СМД где-то уже 6
источник

A

Andrii in Scrapy
что б запустить вместе 😐
источник

К

Кирилл in Scrapy
Если нужно быстро, просто атачнись к контейнеру и запусти что нужно. Но конечно оно не будет работать между запусками
источник
2020 November 12

МС

Михаил Синегубов... in Scrapy
всем доброго, пните, плз, в верном направлении.
Паук собираем данные в базу (MySQL), должен быть контроль уникальности (товар несколько раз присутствует в каталоге)
В холостую (без записи в базу) - ~4000 страниц в минуту
в боевом режиме - ~3000 страниц в минуту
так то 25% падение производительности....
что подскажите насчет ускорения? есть пара мыслей:
1. писать "сырые" данные в ту же монгу, потом преносить уже в базу с контролем уникальности
2. бросать данные на "прокладку", что то вроде Redis. т.е с одной сторны паук бросает данные и не ждет как они обработаются, а с другой стороны они потихоньку обрабатываются... Но тут я нубятина, почти полная. Не знаю, правильно я мыслю или полная ерись.

Так что, накидайте идеек :)
источник

К

Кирилл in Scrapy
Михаил Синегубов
всем доброго, пните, плз, в верном направлении.
Паук собираем данные в базу (MySQL), должен быть контроль уникальности (товар несколько раз присутствует в каталоге)
В холостую (без записи в базу) - ~4000 страниц в минуту
в боевом режиме - ~3000 страниц в минуту
так то 25% падение производительности....
что подскажите насчет ускорения? есть пара мыслей:
1. писать "сырые" данные в ту же монгу, потом преносить уже в базу с контролем уникальности
2. бросать данные на "прокладку", что то вроде Redis. т.е с одной сторны паук бросает данные и не ждет как они обработаются, а с другой стороны они потихоньку обрабатываются... Но тут я нубятина, почти полная. Не знаю, правильно я мыслю или полная ерись.

Так что, накидайте идеек :)
Да, пихай в бд через селери или рэббит.
источник