Телеграмм чат группы scrapy

Если в скрапи использовать https://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider-example crawlspider,
то не могу понять, как добавить https://doc.scrapy.org/en/latest/topics/spiders.html?highlight=arguments#spider-arguments аргументы,
чтобы считать то что ведет юзер и если он ввел один, то использовать тот рулс, что в иф, а если два, то тот что в елз.

class MySpider(CrawlSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).
        Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))),

        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),
    )

вот как это условие в класс добавить и как правильно прописать аргументы - не пойму.
в доке есть пирмеры для спайдера, там все понятно, а вот как это написать для CrawlSpider не знаю и не нагуглил нигде такого.

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MySpider(CrawlSpider):
    custom_settings = None

    def __init__(self, *a, **kw):
        self.rules = (
            Rule(LinkExtractor(allow=('en/latest/',), deny=(kw['rule1'],))),
            Rule(LinkExtractor(allow=('en/latest/topics/',)), callback='parse_item'),
        )
        super(CrawlSpider, self).__init__(*a, **kw)
        self._compile_rules()

    name = 'example'
    allowed_domains = ['doc.scrapy.org']
    start_urls = ['https://doc.scrapy.org']

    def parse_item(self, response):
        self.logger.info('Response %s', response.url)

источник

13:50пожаловаться #5

ID:507308625 in Scrapy

Bulatbulat48

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MySpider(CrawlSpider):
    custom_settings = None

    def __init__(self, *a, **kw):
        self.rules = (
            Rule(LinkExtractor(allow=('en/latest/',), deny=(kw['rule1'],))),
            Rule(LinkExtractor(allow=('en/latest/topics/',)), callback='parse_item'),
        )
        super(CrawlSpider, self).__init__(*a, **kw)
        self._compile_rules()

    name = 'example'
    allowed_domains = ['doc.scrapy.org']
    start_urls = ['https://doc.scrapy.org']

    def parse_item(self, response):
        self.logger.info('Response %s', response.url)

спасибо

источник

13:51пожаловаться #6

Bulatbulat48 in Scrapy

вызывать как: scrapy crawl example -a rule1=topics

источник

13:51пожаловаться #7

Bulatbulat48 in Scrapy

ID:507308625

спасибо

welcome )

источник

13:51пожаловаться #8

Bulatbulat48 in Scrapy

пришлось покапаться в CrawlSpider

источник

13:52пожаловаться #9

Bulatbulat48 in Scrapy

@Verz1Lka а вы часто юзаете Crawlspider?

источник

13:52пожаловаться #10

Evgen in Scrapy

нет

источник

13:52пожаловаться #11

Bulatbulat48 in Scrapy

на сколько не часто?) если не секрет

источник

13:53пожаловаться #12

Evgen in Scrapy

не могу сказать, я же не в курсе вообще всех проектов

источник

13:53пожаловаться #13

Bulatbulat48 in Scrapy

я вообще почти не юзаю, не особо удобно. Если только динамически что-то нужно

источник

13:53пожаловаться #14

Bulatbulat48 in Scrapy

Bulatbulat48

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MySpider(CrawlSpider):
    custom_settings = None

    def __init__(self, *a, **kw):
        self.rules = (
            Rule(LinkExtractor(allow=('en/latest/',), deny=(kw['rule1'],))),
            Rule(LinkExtractor(allow=('en/latest/topics/',)), callback='parse_item'),
        )
        super(CrawlSpider, self).__init__(*a, **kw)
        self._compile_rules()

    name = 'example'
    allowed_domains = ['doc.scrapy.org']
    start_urls = ['https://doc.scrapy.org']

    def parse_item(self, response):
        self.logger.info('Response %s', response.url)

@ebadanin посмотри плиз правильно наследние заюзал, или как-то все проще можно?

источник

13:54пожаловаться #15

Bulatbulat48 in Scrapy

CrawlSpider вообще получается почти тоже самое, что и Spider только self._compile_rules() юзает

источник

13:56пожаловаться #16

Danil Denysenko in Scrapy

а как правильно юзать скрапи с пост запросами? я пишу yield scrapy.Request(url, callback, methon='POST', body=И тут указываю тело запроса, как я понимаю". Но я делаю через обычные реквесты, а потом через скрапи(и в нем в принтую response.body) и результат вообще не то

источник

13:57пожаловаться #17

ID:507308625 in Scrapy

https://stackoverflow.com/questions/30342243/send-post-request-in-scrapy

Stack Overflow

Send Post Request in Scrapy

I am trying to crawl latest reviews from google play store but I need to make a post request to get the latest reviews.

With the Postman it works and I get desired response.
but a post request in

источник

13:58пожаловаться #18

Evgen in Scrapy

лучше использовать FormRequest

источник

13:58пожаловаться #19

ID:507308625 in Scrapy

а в пандасе кто-то разбирается? не могу понять, как сделать одну вещь.

источник

13:58пожаловаться #20