Size: a a a

2021 May 16

AR

Andrey Rahmatullin in Scrapy
(в scrapy-pyppeteer кстати нет мидлвари)
источник

П

Пастырь in Scrapy
Ребят, посоветуйте пожалуйста. Есть библиотека ProxyBroker, позволяет в асинхронном режиме парсить фри прокси листы, чекать их и отдавать с нужной фильтрацией. Так вот она протухла, разраб ее закинул. Есть ли аналоги ? Наткнулся на torproxy, но имхо это зашквар :D
источник

AV

Anatoli Valenda in Scrapy
вот я балбесина. Я для отладки отправлял одинаковые урлы, а заботливый скрапи видел, что я уже эти данные запрашивал(ну зачем лишние запросы делать?) и благополучно завершал работу.  😂😂😂
источник

OS

Oleg Shleiko in Scrapy
главное, что нашёл 👍
источник

AV

Anatoli Valenda in Scrapy
dont_filter=True в реквест добавлять надо, если кто будет отлаживать
источник

AR

Andrey Rahmatullin in Scrapy
я потому про лог и спросил
источник

МС

Михаил Синегубов... in Scrapy
ребят, чес слово, затрахали уже с флудом, если так хочется потрындеть, то, либо в личку, либо давайте флудилку делать.
источник

МС

Михаил Синегубов... in Scrapy
я не против флуда, но меру надо знать
источник

W

William in Scrapy
👍
источник

W

William in Scrapy
напиши тогда в правилах чата про флуд плз, я правила всегда читаю перед входом
источник

МС

Михаил Синегубов... in Scrapy
@iamadminch - не надо тут писать, в скрапи-джобс написал, кто захочет - ответит
источник

RL

Roman Levin in Scrapy
Окей) спс
источник
2021 May 17

NZ

Nikita Zhidkov in Scrapy
Привет, подскажите, пожалуйста allowed_domains работает при использовании SitemapSpider? В SitemapSpider есть sitemap_rules, но похоже это аналог рулов для краулер паука и логично что allowed_domains будет работать и для SitemapSpider
источник

МС

Михаил Синегубов... in Scrapy
вообще, должно работать.
Оно же работает чуть на другом уровне.
источник

NZ

Nikita Zhidkov in Scrapy
благодарю, и я правильно понимаю что не смотря на название он по сути делает поиск под строки в урле?
Тоесть допустим если урл  https://www.example.com/sec1/1.html и меня интересуют только страницы из sec1 я могу в allowed_domains писать  example.com/sec1/ (хоть я и понимаю что это можно вынести на rules)
источник

МС

Михаил Синегубов... in Scrapy
нет
источник

МС

Михаил Синегубов... in Scrapy
проверяются именно домены,   example.com/sec1/ - это совсем не домен
источник

NZ

Nikita Zhidkov in Scrapy
понял, спасибо
источник

МС

Михаил Синегубов... in Scrapy
    sitemap_rules = [
       ('/sec1/', 'parse_section1'),
   ]
источник

МС

Михаил Синегубов... in Scrapy
примерно это надо
источник