Телеграмм чат группы scrapy

Size: a a a

Scrapy

860 membersпожаловаться на группу

2021 June 01

Marsel Ziatdinov in Scrapy

Я храню данные в обычном списке. Из него уже передаю в другой паук

источник

14:28пожаловаться #1

Georgiy in Scrapy

В ответе на мой вопрос @sm_sergei о проблемах с памятью ничего не упоминал. Поэтому я считаю, что подключение ProgressBar extension с другого пулл реквеста будет достаточно.

источник

14:29пожаловаться #2

МС

Михаил Синегубов... in Scrapy

Список физически где?
По идее, если он где то вне пауков, то можно последовательно выполнить.
Либо две процедуры в скрипте, из под которого запускаешь пауков. Одна запускает 9 пауков, вторая - последний обработчик.
Наверное, сработает

источник

14:45пожаловаться #3

МС

Михаил Синегубов... in Scrapy

А при чем тут проблемы с памятью?
Или ты про "всосать 10 гиг в память"?

источник

14:48пожаловаться #4

Georgiy in Scrapy

При скачивании единичного файла с размером 300Mb - scrapy понадобится дополнительно выделить x3 памяти (в данном случае +900Mb, а вовсе не 10гиг). Да это тоже много, но этого может быть явно недостаточно, что бы положить процесс.

источник

16:34пожаловаться #5

Anatoli Valenda in Scrapy

Всем ку. Немного туповатый вопрос. Как прервать функцию при определенном условии?
if a==b:
return 0
А если мы используем yield? То есть, при определенном условии мне айтем возвращать не нужно, а нужно делать следующий реквест.

источник

17:22пожаловаться #6

Andrey Rahmatullin in Scrapy

yield request
return

источник

17:22пожаловаться #7

Anatoli Valenda in Scrapy

просто не хочется делать кучу вложенных условий. Код будет нечитабельный и убогий

источник

17:23пожаловаться #8

Anatoli Valenda in Scrapy

ага, а если ничего yield-ить не нужно
yield None
return

источник

17:25пожаловаться #9

Anatoli Valenda in Scrapy

так?

источник

17:25пожаловаться #10

МС

Михаил Синегубов... in Scrapy

просто ретурн и все

источник

17:25пожаловаться #11

Andrey Rahmatullin in Scrapy

если ничего yield-ить не нужно то ничего и не yield-и

источник

17:25пожаловаться #12

Marsel Ziatdinov in Scrapy

Да, это понятно. Получается, что на каждой итерации мне надо запускать CrawlerProcess() или CrawlerRunner() 2 раза, но ни один ни другой не получается. Первый из-за twisted.internet.error.ReactorNotRestartable. Второй, непонятно что делать с реактором, так как пока его не закроешь, он не отдаст управление. А если закрыть, то потом не запустить ещё раз

источник

17:26пожаловаться #13

МС

Михаил Синегубов... in Scrapy

я утрировано говорил, именно про то, что файл в памяти размещается.
я не всматривался в ПР по скачиванию большого файла, но, для него надо response как то отключать/кастрировать. Прогресс - это вообще про другое, там экстеншен встраивается до респонса...

источник

17:26пожаловаться #14

МС

Михаил Синегубов... in Scrapy

тогда последовательно запусти :))

источник

17:26пожаловаться #15

МС

Михаил Синегубов... in Scrapy

сек

источник

17:26пожаловаться #16

Anatoli Valenda in Scrapy

я тут вспомнил, это в пайтоне, если ничего не возвращаешь, то функция автоматом return None делает?

источник

17:26пожаловаться #17

Andrey Rahmatullin in Scrapy

да

источник

17:27пожаловаться #18

Anatoli Valenda in Scrapy

все, я понял. Спасибо. Направление понятно, дальше сам разберусь. Всем спасибо

источник

17:27пожаловаться #19

МС

Михаил Синегубов... in Scrapy

    runner = CrawlerRunner(settings=settings)

    @defer.inlineCallbacks
    def crawl():
        for my_class in classes:
            if my_class.name in alloved_spiders:
                logger.info('{} - spider started'.format(my_class.name))
                yield runner.crawl(my_class, data_parse=data_parse)
                logger.info('{} - spider finished'.format(my_class.name))
        reactor.stop()
    if alloved_spiders:
        crawl()
        reactor.run()

выкусал из проекта, пауки один за другим работают

не скажу что прям все правильно, но всеж

источник

17:28пожаловаться #20