Size: a a a

2018 August 05

NK

ID:507308625 in Scrapy
В общем вопрос остается открытым.

    def __init__(self, tag=None):
       super(myclass, self).__init__()

       if tag:
           self.logger.info('Scraping only {}.'.format(tag))
       else:
           self.logger.info('Scraping all tags.')

Если в условия я кладу-ложу self.allowed_domains, self.start_urls, и self.rules - то код не работает, не отдает данные
источник

NK

ID:507308625 in Scrapy
Bulatbulat48
Что значит условия?
Если в скрапи использовать https://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider-example crawlspider,
то не могу понять, как добавить https://doc.scrapy.org/en/latest/topics/spiders.html?highlight=arguments#spider-arguments аргументы,
чтобы считать то что ведет юзер и если он ввел один, то использовать тот рулс, что в иф, а если два, то тот что в елз.
class MySpider(CrawlSpider):
   name = 'example.com'
   allowed_domains = ['example.com']
   start_urls = ['http://www.example.com']

   rules = (
       # Extract links matching 'category.php' (but not matching 'subsection.php')
       # and follow links from them (since no callback means follow=True by default).
       Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))),

       # Extract links matching 'item.php' and parse them with the spider's method parse_item
       Rule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),
   )

вот как это условие в класс добавить и как правильно прописать аргументы - не пойму.
в доке есть пирмеры для спайдера, там все понятно, а вот как это написать для CrawlSpider не знаю и не нагуглил нигде такого.
источник

DD

Danil Denysenko in Scrapy
Bulatbulat48
Как делаешь, надо давай с самого начала
я делаю какое-то изменение на сайте, свотрю этот запрос. Меня интересует то поле которое = 75(там для каждлого элемента из списка свой номер).
источник

DD

Danil Denysenko in Scrapy
потом я во вкладке "Заголовки" жму "изменить и снова отправить" наъхожу там тело запроса, меняю 75 на какой-то другой номер(который сещуствует), от мне предлагает обновить страницу - но ничего не меняется.
источник

DD

Danil Denysenko in Scrapy
потом я пытаюсь програмно отправить этот запрос и считываю хтмл до и после. Тоже ничего не меняется:
https://gist.github.com/D-Denysenko/8915253144435c120099a4e1171f8992
источник

B

Bulatbulat48 in Scrapy
Danil Denysenko
потом я пытаюсь програмно отправить этот запрос и считываю хтмл до и после. Тоже ничего не меняется:
https://gist.github.com/D-Denysenko/8915253144435c120099a4e1171f8992
Дойду до компа гляну
источник

DD

Danil Denysenko in Scrapy
благодарю
источник
2018 August 06

B

Bulatbulat48 in Scrapy
Danil Denysenko
потом я во вкладке "Заголовки" жму "изменить и снова отправить" наъхожу там тело запроса, меняю 75 на какой-то другой номер(который сещуствует), от мне предлагает обновить страницу - но ничего не меняется.
так.. ну во первых если у тебя твоем отладчике ничего не меняется, то и писать код смысла нет
источник

B

Bulatbulat48 in Scrapy
смотри куку, заголовки
источник

B

Bulatbulat48 in Scrapy
сделай два запроса, и посмотри чем они отличаются
источник

DD

Danil Denysenko in Scrapy
Bulatbulat48
так.. ну во первых если у тебя твоем отладчике ничего не меняется, то и писать код смысла нет
я смотрел, пытался. Единственный выход - это использоваьт юзерагента и селениюум
источник

B

Bulatbulat48 in Scrapy
Danil Denysenko
я смотрел, пытался. Единственный выход - это использоваьт юзерагента и селениюум
источник

B

Bulatbulat48 in Scrapy
ну и опять же, по твоему отладчику ничего не понятно
источник

B

Bulatbulat48 in Scrapy
что ты хочешь получить?
источник

DD

Danil Denysenko in Scrapy
я могу скинуть ссылку, сек
источник

DD

Danil Denysenko in Scrapy
источник

DD

Danil Denysenko in Scrapy
надо посмотреть все варианты и в конце заскрапить дату
источник

DD

Danil Denysenko in Scrapy
выбирать и жать "продолжить" и так дальше
источник

DD

Danil Denysenko in Scrapy
пост запросы которые я отправлял возвращают мне тот же хтмл
источник

B

Bulatbulat48 in Scrapy
Danil Denysenko
пост запросы которые я отправлял возвращают мне тот же хтмл
это правильно?
источник