Size: a a a

2020 March 01

EB

Evgeny Bukharev in Scrapy
Прокси пробую использовать бесплатные, поэтому по ним не за дашь персональный таймаут
источник

К

Кирилл in Scrapy
Не используй бесплатные
источник

EB

Evgeny Bukharev in Scrapy
Кирилл
Не используй бесплатные
Это вроде эксперимента, если не взлетит, то буду думать в сторону платных)
источник

М

Мак in Scrapy
как можно оптимальнее сделать проверку, есть ли определенный урл (например) уже в базе, чтоб при повторных включениях паука он на этот урл не шел? грузить весь список уже имеющихся урлов из базы перед запуском паука думаю совсем не оптимально
источник

М

Мак in Scrapy
Evgeny Bukharev
Это вроде эксперимента, если не взлетит, то буду думать в сторону платных)
напиши себе чекер прокси и поставьтаймаут в секунду. так из кучи более менее быстрые отберутся хотя бы
источник

К

Кирилл in Scrapy
Evgeny Bukharev
Это вроде эксперимента, если не взлетит, то буду думать в сторону платных)
Делюсь опытом, лучше платные, чем бесплатные
источник

М

Мак in Scrapy
Кирилл
Делюсь опытом, лучше платные, чем бесплатные
+ однозначно
источник

EB

Evgeny Bukharev in Scrapy
Кирилл
Делюсь опытом, лучше платные, чем бесплатные
Буду благодарен если поделитесь инфой где лучше покупать
источник

К

Кирилл in Scrapy
Сделай поиск по чату, уже много раз обсуждали, люди разные советовали
источник

EB

Evgeny Bukharev in Scrapy
Кирилл
Сделай поиск по чату, уже много раз обсуждали, люди разные советовали
Спс
источник

К

Кирилл in Scrapy
Я пользуюсь https://proxy6.net/
источник

AR

Andrey Rahmatullin in Scrapy
Мак
как можно оптимальнее сделать проверку, есть ли определенный урл (например) уже в базе, чтоб при повторных включениях паука он на этот урл не шел? грузить весь список уже имеющихся урлов из базы перед запуском паука думаю совсем не оптимально
ну тут два варианта, либо каждый раз ходить в базу, либо держать в памяти 🤷‍♂️
источник

AR

Andrey Rahmatullin in Scrapy
можно в общем-то держать в памяти отдельного процесса, мемкашед там какой-нибудь
источник

М

Мак in Scrapy
Andrey Rahmatullin
ну тут два варианта, либо каждый раз ходить в базу, либо держать в памяти 🤷‍♂️
а sqlite потянет такое одновременное чтение\запись?
источник

AR

Andrey Rahmatullin in Scrapy
а, ещё и обновлять в этот же проход?
источник

М

Мак in Scrapy
Andrey Rahmatullin
можно в общем-то держать в памяти отдельного процесса, мемкашед там какой-нибудь
редис советовали... но я его не пользовал
источник

М

Мак in Scrapy
Andrey Rahmatullin
а, ещё и обновлять в этот же проход?
ага
источник

AR

Andrey Rahmatullin in Scrapy
scrapy-crawl-once
источник

AR

Andrey Rahmatullin in Scrapy
внутри скулайт
источник

AR

Andrey Rahmatullin in Scrapy
плюсов - ничего писать не надо руками
источник