Size: a a a

2020 March 20

AR

Andrey Rahmatullin in Scrapy
это один документ 🤷‍♂️
источник

К

Кирилл in Scrapy
Почему это?
источник

К

Кирилл in Scrapy
Это нелегко, из-за закрытий/открытий скобок, но реально
источник

AR

Andrey Rahmatullin in Scrapy
потому что это один документ, как его разбить?
источник

К

Кирилл in Scrapy
А с jl вообще вообще вопросов не возникнет
источник

AR

Andrey Rahmatullin in Scrapy
это да
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Скорее всего, дело не в ос. Нельзя читать большие файлы целиком в память, нужно батчить
дело в оси. Убунта и винда на одной железке стоит. Под убунтой не получилочь загрузить, под виндой - получилось.
скорее всего, дело в т.н. файле подкачки (виндовый термин, не знаю как в убунте называется). Ибо памяти жрало больше физической.
Тут просто академический вопрос, что в таком случае делать
источник

К

Кирилл in Scrapy
Так же называется подкачка/swap
источник

К

Кирилл in Scrapy
Или подкачка, или у тебя может быть что-то еще висело в памяти от других процессов
источник

К

Кирилл in Scrapy
В самой убунту ничего такого с файлами нет. Таблица с дескрипторами на процесс, таблица с дескрипшенами систем вайд, и i-node тэйбл. И буффер чтения. Ей без разницы сколько ты загружаешь из файла в кучу процесса
источник

К

Кирилл in Scrapy
Насчет винды не знаю, может она там что-то хитрое делает
источник

РТ

Ренат Турсунбаев in Scrapy
быть может дело в линуксовой настройке кеширования vm.swappiness ?
источник

РТ

Ренат Турсунбаев in Scrapy
Если кому интересно, отвечу на один из своих предыдущих вопросов: " можно ли использовать единый файл requests.seen для нескольких пауков " - можно (условно), если использовать один и тот же путь  JOB_DIR.
requests.seen - файл, либо список в памяти, в который записываются хеши запросов (т.н. fingerprints). Записывает их RFPDupeFilter для фильтрации дубликатов перед тем, как отдать downloader'у.
Если в настройках указать JOB_DIR, то появляется данный файлик, и при каждом запуске все запросы, совпадающие с хешами из него игнорируются.
З.Ы: при использовании одного файла несколькими процессами мы естественно столкнемся с блокировками...
источник

МС

Михаил Синегубов in Scrapy
Ренат Турсунбаев
Если кому интересно, отвечу на один из своих предыдущих вопросов: " можно ли использовать единый файл requests.seen для нескольких пауков " - можно (условно), если использовать один и тот же путь  JOB_DIR.
requests.seen - файл, либо список в памяти, в который записываются хеши запросов (т.н. fingerprints). Записывает их RFPDupeFilter для фильтрации дубликатов перед тем, как отдать downloader'у.
Если в настройках указать JOB_DIR, то появляется данный файлик, и при каждом запуске все запросы, совпадающие с хешами из него игнорируются.
З.Ы: при использовании одного файла несколькими процессами мы естественно столкнемся с блокировками...
только вот вся соль в последнем предложении 😂
источник

К

Кирилл in Scrapy
Я бд использую 🤷
источник

РТ

Ренат Турсунбаев in Scrapy
на каком этапе вы проверяете/пишете в базу?
источник

М

Мак in Scrapy
Ренат Турсунбаев
Если кому интересно, отвечу на один из своих предыдущих вопросов: " можно ли использовать единый файл requests.seen для нескольких пауков " - можно (условно), если использовать один и тот же путь  JOB_DIR.
requests.seen - файл, либо список в памяти, в который записываются хеши запросов (т.н. fingerprints). Записывает их RFPDupeFilter для фильтрации дубликатов перед тем, как отдать downloader'у.
Если в настройках указать JOB_DIR, то появляется данный файлик, и при каждом запуске все запросы, совпадающие с хешами из него игнорируются.
З.Ы: при использовании одного файла несколькими процессами мы естественно столкнемся с блокировками...
вроде бы это в доке итак отмечено
источник

РТ

Ренат Турсунбаев in Scrapy
Мак
вроде бы это в доке итак отмечено
Я сам задал вопрос, сам - ответил)
источник

МС

Михаил Синегубов in Scrapy
Ренат Турсунбаев
на каком этапе вы проверяете/пишете в базу?
из базы забирать можно по sider_idle
писать (в т.ч. статусы) в пайпе чанками
источник

К

Кирилл in Scrapy
Тут 80% вопросов в доках написаны, так что это нормально
источник