Телеграмм чат группы scrapy

Size: a a a

Scrapy

864 membersпожаловаться на группу

2021 May 16

Andrey Rahmatullin in Scrapy

(в scrapy-pyppeteer кстати нет мидлвари)

источник

15:20пожаловаться #1

Пастырь in Scrapy

Ребят, посоветуйте пожалуйста. Есть библиотека ProxyBroker, позволяет в асинхронном режиме парсить фри прокси листы, чекать их и отдавать с нужной фильтрацией. Так вот она протухла, разраб ее закинул. Есть ли аналоги ? Наткнулся на torproxy, но имхо это зашквар :D

источник

16:01пожаловаться #2

Anatoli Valenda in Scrapy

вот я балбесина. Я для отладки отправлял одинаковые урлы, а заботливый скрапи видел, что я уже эти данные запрашивал(ну зачем лишние запросы делать?) и благополучно завершал работу. 😂😂😂

источник

16:17пожаловаться #3

Oleg Shleiko in Scrapy

главное, что нашёл 👍

источник

16:17пожаловаться #4

Anatoli Valenda in Scrapy

dont_filter=True в реквест добавлять надо, если кто будет отлаживать

источник

16:17пожаловаться #5

Andrey Rahmatullin in Scrapy

я потому про лог и спросил

источник

16:34пожаловаться #6

МС

Михаил Синегубов... in Scrapy

ребят, чес слово, затрахали уже с флудом, если так хочется потрындеть, то, либо в личку, либо давайте флудилку делать.

источник

21:43пожаловаться #7

МС

Михаил Синегубов... in Scrapy

я не против флуда, но меру надо знать

источник

21:43пожаловаться #8

William in Scrapy

👍

источник

21:44пожаловаться #9

William in Scrapy

напиши тогда в правилах чата про флуд плз, я правила всегда читаю перед входом

источник

21:45пожаловаться #10

МС

Михаил Синегубов... in Scrapy

@iamadminch - не надо тут писать, в скрапи-джобс написал, кто захочет - ответит

источник

22:00пожаловаться #11

Roman Levin in Scrapy

Окей) спс

источник

22:01пожаловаться #12

2021 May 17

Nikita Zhidkov in Scrapy

Привет, подскажите, пожалуйста allowed_domains работает при использовании SitemapSpider? В SitemapSpider есть sitemap_rules, но похоже это аналог рулов для краулер паука и логично что allowed_domains будет работать и для SitemapSpider

источник

10:00пожаловаться #13

МС

Михаил Синегубов... in Scrapy

вообще, должно работать.
Оно же работает чуть на другом уровне.

источник

10:02пожаловаться #14

Nikita Zhidkov in Scrapy

благодарю, и я правильно понимаю что не смотря на название он по сути делает поиск под строки в урле?
Тоесть допустим если урл https://www.example.com/sec1/1.html и меня интересуют только страницы из sec1 я могу в allowed_domains писать example.com/sec1/ (хоть я и понимаю что это можно вынести на rules)

источник

10:05пожаловаться #15

МС

Михаил Синегубов... in Scrapy

нет

источник

10:05пожаловаться #16

МС

Михаил Синегубов... in Scrapy

проверяются именно домены, example.com/sec1/ - это совсем не домен

источник

10:06пожаловаться #17

Nikita Zhidkov in Scrapy

понял, спасибо

источник

10:06пожаловаться #18

МС

Михаил Синегубов... in Scrapy

    sitemap_rules = [
        ('/sec1/', 'parse_section1'),
    ]

источник

10:07пожаловаться #19

МС

Михаил Синегубов... in Scrapy

примерно это надо

источник

10:07пожаловаться #20