а с другой уже есть решение встроенное на dbm для кэша, если не охота юзать диск (условно - лям страниц надо закэшировать) а для спарсенных данных кто во что горазд. Либо редис, либо монго, либо постгрес, это уже больше зависит от того что с ними потом делать, как встраивать в дальнейшую обработку
ну типа ты включаешь его- и скрапи когда первый раз парсит сайт, сохраняет все реквесты-респонсы на, допустим, диск. И может хранить их там какое-то время, типа пару дней. Чтобы если надо запустить скрапи на тех же данных - он уже будет обращаться не к сайту а на диск твой ходить, допустим, ты его отлаживаешь и что-то поломалось, или ты забыл какое-то поле добавить в айтемс, или клиент попросил еще что-то добавить
и все это делается намного быстрее, когда скрапи бегает по кэшу, по уже скачанным данным. а может и 30 дней хранить, как задашь. вот чтобы сервак удаленный по несколько раз не насиловать и получить результат быстрее и включается кэш.
ну это не всегда нужно. но иногда прям очень пригождается. типа как-то писал я парсер, на пол-ляма страниц, и бегало оно дня 3, т.к. сервак был не особо быстрый, а потом клиент нашел скрытое поле, которое тоже надо бы было вытащить.
там сохраняется небольшая мета, реквест и респонс запроса, достаточные для того, чтобы твой скрапи пробегая на кэше отработал так же, как бы он отработал на сайте