Size: a a a

2019 July 27

К

Кирилл in Scrapy
скорее нет, чем да) есть portia и scrapyd
источник

MV

Maxim Vynogradov in Scrapy
Кирилл
скорее нет, чем да) есть portia и scrapyd
ок, спасибо - поресёрчу, если что найду - сброшу
источник

MV

Maxim Vynogradov in Scrapy
и ешё один вопрос - я хочу сделать два рула в кравл спайдере - один на товары, второй на пагинацию:
источник

MV

Maxim Vynogradov in Scrapy
есть ли способ сказать выбирать с пагинации только ещё не пройденые ссылки?
источник

MV

Maxim Vynogradov in Scrapy
что бы не скрапит 159 раз первую страницу
источник

К

Кирилл in Scrapy
скрапи сам уберёт дубли
источник

MV

Maxim Vynogradov in Scrapy
Кирилл
скрапи сам уберёт дубли
ни флагов, ничего не нужно?
источник

К

Кирилл in Scrapy
если ты дефолтные настройки не менял
источник

MV

Maxim Vynogradov in Scrapy
Кирилл
если ты дефолтные настройки не менял
не менял, думаю то потом
источник

К

Кирилл in Scrapy
может быть такой вариант, что у первой страницы будет две разные ссылки, тогда нужно будет её вручную в deny вносить, к примеру https://exaple.com/catalog и https://example.com/catalog?page=1
но опять же ссылки на товары дубли там отфильтруются, просто будет лишний запрос
источник

MV

Maxim Vynogradov in Scrapy
Кирилл
может быть такой вариант, что у первой страницы будет две разные ссылки, тогда нужно будет её вручную в deny вносить, к примеру https://exaple.com/catalog и https://example.com/catalog?page=1
но опять же ссылки на товары дубли там отфильтруются, просто будет лишний запрос
главное что бы их не было N^2
источник

К

Кирилл in Scrapy
не, с CrawlSpider не будет
источник

К

Кирилл in Scrapy
Maxim Vynogradov
тогда ещё два вопрос - пока тут есть кто-то)
как вы запускаете кравлеры в "продакшен моде" - грубо говоря где и как хостите?
вот мне нужно хотлайн для диплома скрапить - цены от туда собирать, ну допустим каждый день в течении месяца - двух
как и где мне его лучше по крону записать. Желательно фрии
и второй вопрос - как мне сделать скрапи мене палевным =)? допустим таймауты выставлять, хедеры подменять? что почитать? как самии делаете?
если за пару часов не забанят, то можешь не скрывать скрапи и не ставить таймауты
источник

MV

Maxim Vynogradov in Scrapy
Кирилл
если за пару часов не забанят, то можешь не скрывать скрапи и не ставить таймауты
предлагаешь дождатся этого момента)?
источник

К

Кирилл in Scrapy
желательно это спровоцировать
источник

К

Кирилл in Scrapy
если для себя делаешь, это не так важно, но если клиенту, тогда чтоб через пару дней не переделывать, лучше сразу узнать потолок
источник

К

Кирилл in Scrapy
Естественно это касается крупных сайтов, мелкие не нужно душить большим количество запросов
источник

MV

Maxim Vynogradov in Scrapy
источник
2019 July 28

MV

Maxim Vynogradov in Scrapy
приехали )
источник

MV

Maxim Vynogradov in Scrapy
источник