Size: a a a

2020 October 21

МС

Михаил Синегубов... in Scrapy
но, я еще писал, что у меня был идеальный сайт. У меня брало 20, и, можно сказать, все 20 одновременно заканчивало. Прям замеров не делал.
источник

МС

Михаил Синегубов... in Scrapy
может и была разбежка, но не заметная
источник

S

SoHard 🎄 in Scrapy
Михаил Синегубов
но, я еще писал, что у меня был идеальный сайт. У меня брало 20, и, можно сказать, все 20 одновременно заканчивало. Прям замеров не делал.
аа, понял. А как оно реально/задумано?)
источник

МС

Михаил Синегубов... in Scrapy
ну, учитывая, что скорость более/менее всегда стабильная, то не думаю что оно прям ожидает окончание прям всего блока.

кстати, познавательно в телнете смотреть размер очереди. Я после этого понял что ничего не понял и не стоит лезть во все эти очереди и прочую хню :)
источник

МС

Михаил Синегубов... in Scrapy
собственно, из-за чего я полез в свое время в  эти дебри. Я был уверен что сначала обрабатываются все стартовые, потом те, которые отправили через йелд рексевт и так далее.
Так вот, после того, как я  стал ждать, примерно двадцатую стартовую ссылку, оно обработало несоколько десятков тысяч страниц... Вот тут я начал что то подозревать 😂
источник

i

i in Scrapy
Лев Гареев
я с пандасом дружу, в нем буду. Но я могу быть уверен, что он не пропустит ни одной ссылки? Тут скорее опасения в этом
Включи дисковый кэш, тогда ошибки вида "ой, я забыл добавить еще это поле в айтем" не будут сильно бить
источник

i

i in Scrapy
Andrii
кстати на люминати у тебя только дата центр айпи?
Я люминати не юзаю, это кто-то другой)
источник

AR

Andrey Rahmatullin in Scrapy
Andrii
кстати на люминати у тебя только дата центр айпи?
"World's largest proxy service with a residential proxy network of 72M IPs worldwide and proxy management interface for zero coding."
источник

i

i in Scrapy
Михаил Синегубов
собственно, из-за чего я полез в свое время в  эти дебри. Я был уверен что сначала обрабатываются все стартовые, потом те, которые отправили через йелд рексевт и так далее.
Так вот, после того, как я  стал ждать, примерно двадцатую стартовую ссылку, оно обработало несоколько десятков тысяч страниц... Вот тут я начал что то подозревать 😂
Там же можно вроде приоритет "в глубину" выставить
источник

ЛГ

Лев Гареев in Scrapy
i
Включи дисковый кэш, тогда ошибки вида "ой, я забыл добавить еще это поле в айтем" не будут сильно бить
спасибо
источник

i

i in Scrapy
Михаил Синегубов
собственно, из-за чего я полез в свое время в  эти дебри. Я был уверен что сначала обрабатываются все стартовые, потом те, которые отправили через йелд рексевт и так далее.
Так вот, после того, как я  стал ждать, примерно двадцатую стартовую ссылку, оно обработало несоколько десятков тысяч страниц... Вот тут я начал что то подозревать 😂
Типа этого, но это правда не всегда помогает, потому что человеческое понятие "вглубь" может отличаться от "машинного", парсер может прекрасно забуриться вглубь на полметра и потом долго и упорно через несколько тысяч ссылок всплывать вбок или на поверхность, изредка касаясь дна
источник

i

i in Scrapy
источник

МС

Михаил Синегубов... in Scrapy
i
Типа этого, но это правда не всегда помогает, потому что человеческое понятие "вглубь" может отличаться от "машинного", парсер может прекрасно забуриться вглубь на полметра и потом долго и упорно через несколько тысяч ссылок всплывать вбок или на поверхность, изредка касаясь дна
да я уже, примерно, понял о чем речь. Оно мне и не надо было. Просто когда столкнулся - полез смотреть из-за чего оно так :)
источник

i

i in Scrapy
я в свое время намучился с одним сайтом, как Герасим с Му-му, я эту тварь топлю, а она не тонет! Чиркает там в глубине пару тыщ полезных штук на 200 тыщ построения "корневой системы", выхлоп прямо скажем не очень) Еще и дуп-фильтер изкоробочный походу под конец уже захлебываться начинает.
источник

A

Andrii in Scrapy
а что будет если если ротейтор прокси на 2 разных пауках одновременно осуществит запрос с одной IP-адреса?
источник

МС

Михаил Синегубов... in Scrapy
Andrii
а что будет если если ротейтор прокси на 2 разных пауках одновременно осуществит запрос с одной IP-адреса?
вселенная коллапсирует....😂
тут надо знать начиная от того, как к этому относится сервис проксей, заканчивая пятнами на солнце :)

а если серьезно, пара одновременных - вообще не вижу никаких проблем
источник

ЛГ

Лев Гареев in Scrapy
Если запустить два паука одновременно, потянет ли он это и не будет ли проблем?
источник

ЛГ

Лев Гареев in Scrapy
Железо хорошее
источник

ЛГ

Лев Гареев in Scrapy
6ядерка, 32 гига оперативы, видяха тоже сильная
источник

AR

Andrey Rahmatullin in Scrapy
Паукам железо не нужно
источник