Size: a a a

2019 October 10

МС

Михаил Синегубов in Scrapy
Кирилл
Полностью никак нельзя закрыться, чем лучше защита тем больше обычные пользователи страдают
хреновый хостинг на парсинг действует аки крест на нечисть 😂
уже отказывался от нескольких таких сайтов, когда говоришь клиенту, что скорось 1-5 страниц в минуту, так сразу нах....
источник

К

Кирилл in Scrapy
Михаил Синегубов
хреновый хостинг на парсинг действует аки крест на нечисть 😂
уже отказывался от нескольких таких сайтов, когда говоришь клиенту, что скорось 1-5 страниц в минуту, так сразу нах....
Акки с сайтом?
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Акки с сайтом?
не понял вопроса :)
источник

К

Кирилл in Scrapy
Михаил Синегубов
хреновый хостинг на парсинг действует аки крест на нечисть 😂
уже отказывался от нескольких таких сайтов, когда говоришь клиенту, что скорось 1-5 страниц в минуту, так сразу нах....
Аааа, это у тебя поговорка, я думал ты опечатался
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Аааа, это у тебя поговорка, я думал ты опечатался
ну и опечатался то же :)
источник

МС

Михаил Синегубов in Scrapy
у меня один сайт от 5 потоков уходил в даун, 100% защита, хрен спарсишь такой.
там инфы было на несколько сот. тыс. страниц....
источник

К

Кирилл in Scrapy
Ну да, и от этого сами пользователи страдали
источник

L

László in Scrapy
Господа, приветствую. Мы в работе используем django+scrapy+celery, это монолитный сервис который содержит в себе порядка двухста скраперов, которые стало невероятно трудно поддерживать. Вопрос такой возникла идея разбить скраперы на микросервисы, как это можно сделать? Наверняка кто-то здесь имеет представление о том как это сделать, буду рад услышать предложения
источник

К

Кирилл in Scrapy
László
Господа, приветствую. Мы в работе используем django+scrapy+celery, это монолитный сервис который содержит в себе порядка двухста скраперов, которые стало невероятно трудно поддерживать. Вопрос такой возникла идея разбить скраперы на микросервисы, как это можно сделать? Наверняка кто-то здесь имеет представление о том как это сделать, буду рад услышать предложения
Какие именно трудности с поддержкой? Celery это уже шаг от простого скрапи к микросервисам
источник

EB

Elisei Badanin in Scrapy
>django+scrapy+celery, это монолитный сервис
мазохисты
источник

EB

Elisei Badanin in Scrapy
вообще пауков в scrapyd, у всех стандартизируем интерфейс и дергаем из тогоже селари
источник

К

Кирилл in Scrapy
Elisei Badanin
вообще пауков в scrapyd, у всех стандартизируем интерфейс и дергаем из тогоже селари
И я о том же, интересно какие там трудности. Может быть неправильно реализовали?
источник

EB

Elisei Badanin in Scrapy
они с селери пауков пускают, как я понял, тогда там треш начнется, что-то зависло и все
источник

EB

Elisei Badanin in Scrapy
особенно на 200 пауков
источник

L

László in Scrapy
Кирилл
Какие именно трудности с поддержкой? Celery это уже шаг от простого скрапи к микросервисам
Один скрапер может забить воркер, логи храняться где-то в GAE, сами данные в GCS, на поиск проблемы и ее решение уходит до двух дней, под каждый скрапер приходится писать импортер который содержит примерно один и тот же код, за исключением вкраплений постпроцессинга
источник

EB

Elisei Badanin in Scrapy
ну логи та у гкгла хорошо работают, но вот из гае пускать пауков…там же дорого будет, тогда уже  какойнибудь скрапингхаб брать
источник

EB

Elisei Badanin in Scrapy
>под каждый скрапер приходится писать импортер который содержит примерно один и тот же код
имеет смысл нанять нормального программиста, который слышал про ооп
источник

К

Кирилл in Scrapy
пишите нормальные пайпы для обработки данных и экспорта, добавляйте тесты типа spidermon, и scrapyd
источник

EB

Elisei Badanin in Scrapy
а вообще, возможно имеет смысл смотреть в сторону какого-то airflow например
источник

B

Bulatbulat48 in Scrapy
переносите всех пауков в скрапингхаб 🙂
источник