Size: a a a

2020 April 16

i

ildar in Scrapy
а с другой уже есть решение встроенное на dbm для кэша, если не охота юзать диск (условно - лям страниц надо закэшировать)
а для спарсенных данных кто во что горазд. Либо редис, либо монго, либо постгрес, это уже больше зависит от того что с ними потом делать, как встраивать в дальнейшую обработку
источник

i

ildar in Scrapy
эээээээ
источник

i

ildar in Scrapy
источник

G

Georg in Scrapy
Я ведь недавно в теме)
источник

G

Georg in Scrapy
Ага
источник

i

ildar in Scrapy
ну типа ты включаешь его- и скрапи когда первый раз парсит сайт, сохраняет все реквесты-респонсы на, допустим, диск. И может хранить их там какое-то время, типа пару дней. Чтобы если надо запустить скрапи на тех же данных - он уже будет обращаться не к сайту а на диск твой ходить, допустим, ты его отлаживаешь и что-то поломалось, или ты забыл какое-то поле добавить в айтемс, или клиент попросил еще что-то добавить
источник

i

ildar in Scrapy
и все это делается намного быстрее, когда скрапи бегает по кэшу, по уже скачанным данным. а может и 30 дней хранить, как задашь. вот чтобы сервак удаленный по несколько раз не насиловать и получить результат быстрее и включается кэш.
источник

G

Georg in Scrapy
Понятно
источник

G

Georg in Scrapy
Здорово, че)
источник

G

Georg in Scrapy
Я то дурак не знал
источник

i

ildar in Scrapy
ну это не всегда нужно. но иногда прям очень пригождается. типа как-то писал я парсер, на пол-ляма страниц, и бегало оно дня 3, т.к. сервак был не особо быстрый,  а потом клиент нашел скрытое поле, которое тоже надо бы было вытащить.
источник

i

ildar in Scrapy
и ладно я кэш врубил на всякий пожарный - по-итогу просто заново запустил его на кэше и там за какое-то адекватное время данные получил.
источник

i

ildar in Scrapy
надо будет вот эту штуку потестить для таких случаев: https://github.com/cuducos/scrapy-memcached-cache
источник

G

Georg in Scrapy
Сколько весит полляма страниц?
источник

i

ildar in Scrapy
зависит от страниц. плюс оно же еще архивируется на лету обычно. у меня гигов 60 весило
источник

G

Georg in Scrapy
Паук качает только страницу или статику тоже?
источник

i

ildar in Scrapy
не понял я вопрос, можешь тут примерно посмотреть чего можно выкачать и какие примерно объемы могут быть (но не обязательно именно это)
https://commoncrawl.org/2020/04/march-april-2020-crawl-archive-now-available/
источник

G

Georg in Scrapy
ildar
не понял я вопрос, можешь тут примерно посмотреть чего можно выкачать и какие примерно объемы могут быть (но не обязательно именно это)
https://commoncrawl.org/2020/04/march-april-2020-crawl-archive-now-available/
Ну в кэш сохраняется только html или картинки, css и другие файлики тоже?
источник

i

ildar in Scrapy
там сохраняется небольшая мета, реквест и респонс запроса, достаточные для того, чтобы твой скрапи пробегая на кэше отработал так же, как бы он отработал на сайте
источник

G

Georg in Scrapy
Понял, спасибо
источник