Size: a a a

2020 March 23

AR

Andrey Rahmatullin in Scrapy
"по всему списку allowed_domains" никто не бегает, конечно
источник

AR

Andrey Rahmatullin in Scrapy
а в start_urls больше десятка урлов класть не стоит в текущей версии, это правда
источник

РТ

Ренат Турсунбаев in Scrapy
тогда у меня будет ~20 пауков, у которых меняется только домен)) - это норм?)
источник

VB

Vladyslav Babych in Scrapy
Andrey Rahmatullin
а в start_urls больше десятка урлов класть не стоит в текущей версии, это правда
А как тогда лучше это делать?
источник

К

Кирилл in Scrapy
Ренат Турсунбаев
тогда у меня будет ~20 пауков, у которых меняется только домен)) - это норм?)
Тоже не норм
источник

МС

Михаил Синегубов in Scrapy
Andrey Rahmatullin
а в start_urls больше десятка урлов класть не стоит в текущей версии, это правда
😳, а вот нафига так сделали?
источник

AR

Andrey Rahmatullin in Scrapy
Михаил Синегубов
😳, а вот нафига так сделали?
источник

МС

Михаил Синегубов in Scrapy
Ренат Турсунбаев
тогда у меня будет ~20 пауков, у которых меняется только домен)) - это норм?)
ты можешь написать BasicSpider и остальные наследовать от него, ООП и все такое...
это может показаться "п...ц каким не удобным", но, это, в принципе, правильная логика. один домен = один паук.

Если так уж сильно хочется в один паук все совать, кури "priority" в scrapy.Request, но не уверен, что он тебя спасет. По крайней мере, меня не спас (но я не сильно старался)
источник

AR

Andrey Rahmatullin in Scrapy
не спасёт
источник

AR

Andrey Rahmatullin in Scrapy
вообще это ненормально когда много стартовых урлов прямо в пауке, обычно если их много, то их берут из внешнего источника
источник

МС

Михаил Синегубов in Scrapy
стоп, так "больше 20" это именно про start_urls? (у меня анкглийский херовый).
Пост о том что "узайте start_requests"&
источник

VB

Vladyslav Babych in Scrapy
А если в старт реквест они читаются с файла к примеру в self.start_url это норм?
источник

AR

Andrey Rahmatullin in Scrapy
Михаил Синегубов
стоп, так "больше 20" это именно про start_urls? (у меня анкглийский херовый).
Пост о том что "узайте start_requests"&
это про результат start_requests, неважно стандартного или своего
источник

AR

Andrey Rahmatullin in Scrapy
Vladyslav Babych
А если в старт реквест они читаются с файла к примеру в self.start_url это норм?
с точки зрения логики да, с точки зрения ограничения один хрен, если реквесты возвращаются из start_requests
источник

МС

Михаил Синегубов in Scrapy
хм, у меня как раз ситуация, что стартовых ссылок овердохрена....
один плюс - в базе хранятся статусы всех ссылок, так что не знаю даже, косячил скрапи или нет.
И да, на старте, потенциально, бывало более 200 тыс...
источник

🎅B

🎅 Austin Bluethy in Scrapy
Так вообще можно классы писать?
источник

AR

Andrey Rahmatullin in Scrapy
нет
источник

🎅B

🎅 Austin Bluethy in Scrapy
Хотя, наверное нет
источник

🎅B

🎅 Austin Bluethy in Scrapy
Как тогда написать этот класс? Через атрибут?
источник

AR

Andrey Rahmatullin in Scrapy
это три разных класса
источник