Size: a a a

2020 March 29

К

Кирилл in Scrapy
Там все просто
def start_requests(self):
   for url in self.start_urls:
       yield scrapy.Request(url, dont_filter=True)
источник

RG

Roman Gangal in Scrapy
Парни подскажите по CONCURRENT_REQUESTS  Сделал два эксперимента чтоб проверить скорость парсинга на разном количестве потоков. Первый раз запустил на 20 потоков. второй раз на 100 потоков. И результат по скорости парсинга примерно одинаков, даже на 100 потоках были периоды когда хуже парсило чем на 20. Прокси одни и те же, все точно рабочие. Железо даже на 100 потоков загружено проц на 30% оператива на 10%. В чем тогда прикол? Может вообще оставлять значение по умолчанию на 16 потоков и не парится? все равно нет особой разницы по скорости парсинга. А у вас как?
источник

RG

Roman Gangal in Scrapy
это на 20-ти потоках
источник

RG

Roman Gangal in Scrapy
это на 100 потоков
источник

К

Кирилл in Scrapy
Скорость парсинга обычно упирается в сеть и сервер, а не в твое железо
источник

К

Кирилл in Scrapy
Плюс, скрапи хоть и удобный, но не самый быстрый
источник

RG

Roman Gangal in Scrapy
Кирилл
Скорость парсинга обычно упирается в сеть и сервер, а не в твое железо
парсер пашет на хецнер облаке https://www.hetzner.com/cloud-ru   (2 vCPU 4ГБ RAM)
источник

RG

Roman Gangal in Scrapy
а у тебя вообще как, есть прямая зависимость скорость==количество потоков?
источник

К

Кирилл in Scrapy
Я не заморачиваюсь таким, на дэфолтных настройках работаю
источник

RG

Roman Gangal in Scrapy
Кирилл
Я не заморачиваюсь таким, на дэфолтных настройках работаю
то есть 16 потоков?
источник

К

Кирилл in Scrapy
Да
источник

AR

Andrey Rahmatullin in Scrapy
Roman Gangal
парсер пашет на хецнер облаке https://www.hetzner.com/cloud-ru   (2 vCPU 4ГБ RAM)
не твой сервер, а тот, который скрейпишь
источник

RG

Roman Gangal in Scrapy
Andrey Rahmatullin
не твой сервер, а тот, который скрейпишь
паршу prom.ua у них думаю сервера мощные)
источник

AR

Andrey Rahmatullin in Scrapy
ну тебе виднее
источник

AR

Andrey Rahmatullin in Scrapy
опять же прокси должен это всё успевать
источник

RG

Roman Gangal in Scrapy
Andrey Rahmatullin
ну тебе виднее
в пуле 2000 скоросных проксей
источник

К

Кирилл in Scrapy
Лол, пул
источник

RG

Roman Gangal in Scrapy
Подскажите из-за чего могут быть вот такие ошибки? <twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', 'ssl3_read_bytes', 'sslv3 alert handshake failure')]>
источник

AR

Andrey Rahmatullin in Scrapy
скорее всего слишком старый опенссл и/или питоньи опенссльные модуля
источник

S

Sergey in Scrapy
как узнать абслютный путь элемента в requests_html?
вот нашел элемент по айди, теперь хочу узнать его абсолютный путь
источник