Телеграмм чат группы scrapy_python страница 1388

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

437 membersпожаловаться на группу

2020 April 16

i

ildar in Scrapy

а с другой уже есть решение встроенное на dbm для кэша, если не охота юзать диск (условно - лям страниц надо закэшировать)
а для спарсенных данных кто во что горазд. Либо редис, либо монго, либо постгрес, это уже больше зависит от того что с ними потом делать, как встраивать в дальнейшую обработку

источник

04:33пожаловаться #1

i

ildar in Scrapy

эээээээ

источник

04:33пожаловаться #2

i

ildar in Scrapy

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpcache

источник

04:34пожаловаться #3

G

Georg in Scrapy

Я ведь недавно в теме)

источник

04:34пожаловаться #4

G

Georg in Scrapy

Ага

источник

04:34пожаловаться #5

i

ildar in Scrapy

ну типа ты включаешь его- и скрапи когда первый раз парсит сайт, сохраняет все реквесты-респонсы на, допустим, диск. И может хранить их там какое-то время, типа пару дней. Чтобы если надо запустить скрапи на тех же данных - он уже будет обращаться не к сайту а на диск твой ходить, допустим, ты его отлаживаешь и что-то поломалось, или ты забыл какое-то поле добавить в айтемс, или клиент попросил еще что-то добавить

источник

04:35пожаловаться #6

i

ildar in Scrapy

и все это делается намного быстрее, когда скрапи бегает по кэшу, по уже скачанным данным. а может и 30 дней хранить, как задашь. вот чтобы сервак удаленный по несколько раз не насиловать и получить результат быстрее и включается кэш.

источник

04:37пожаловаться #7

G

Georg in Scrapy

Понятно

источник

04:38пожаловаться #8

G

Georg in Scrapy

Здорово, че)

источник

04:38пожаловаться #9

G

Georg in Scrapy

Я то дурак не знал

источник

04:38пожаловаться #10

i

ildar in Scrapy

ну это не всегда нужно. но иногда прям очень пригождается. типа как-то писал я парсер, на пол-ляма страниц, и бегало оно дня 3, т.к. сервак был не особо быстрый, а потом клиент нашел скрытое поле, которое тоже надо бы было вытащить.

источник

04:40пожаловаться #11

i

ildar in Scrapy

и ладно я кэш врубил на всякий пожарный - по-итогу просто заново запустил его на кэше и там за какое-то адекватное время данные получил.

источник

04:41пожаловаться #12

i

ildar in Scrapy

надо будет вот эту штуку потестить для таких случаев: https://github.com/cuducos/scrapy-memcached-cache

cuducos/scrapy-memcached-cache

🗂Memcached HTTP cache storage backend for Scrapy. Contribute to cuducos/scrapy-memcached-cache development by creating an account on GitHub.

источник

04:43пожаловаться #13

G

Georg in Scrapy

Сколько весит полляма страниц?

источник

04:47пожаловаться #14

i

ildar in Scrapy

зависит от страниц. плюс оно же еще архивируется на лету обычно. у меня гигов 60 весило

источник

04:48пожаловаться #15

G

Georg in Scrapy

Паук качает только страницу или статику тоже?

источник

04:51пожаловаться #16

i

ildar in Scrapy

не понял я вопрос, можешь тут примерно посмотреть чего можно выкачать и какие примерно объемы могут быть (но не обязательно именно это)
https://commoncrawl.org/2020/04/march-april-2020-crawl-archive-now-available/

источник

04:53пожаловаться #17

G

Georg in Scrapy

не понял я вопрос, можешь тут примерно посмотреть чего можно выкачать и какие примерно объемы могут быть (но не обязательно именно это)
https://commoncrawl.org/2020/04/march-april-2020-crawl-archive-now-available/

Ну в кэш сохраняется только html или картинки, css и другие файлики тоже?

источник

04:54пожаловаться #18

i

ildar in Scrapy

там сохраняется небольшая мета, реквест и респонс запроса, достаточные для того, чтобы твой скрапи пробегая на кэше отработал так же, как бы он отработал на сайте

источник

04:55пожаловаться #19

G

Georg in Scrapy

Понял, спасибо

источник

04:55пожаловаться #20