вопрос по middleware, в какое место лучше всего вывести такую логику. паук в парсит ссылки товаров на странице со списком товаров, и в for loop переходит на товар для сбора детальной инфы по товару. если ссылка на товар уже есть в базе, то переходить по ней для дальнейшего изучения уже не нужно. пока у меня такая проверка происходит в самом теле паука. чую, что это не лучшая практика. куда лучше перенести код?
В скрапи же полно механизмов на предмет не скрапить дубликаты, там иногда наоборот надо задавать по логике, чтобы он несколько раз на одну и ту же страницу зашел,ты их точно используешь? Плюс всякие linkextractor. Или ты этот спайдер несколько раз запускаешь? Имхо, если это не промышленно, можно и в теле проверять, главное вне цикла for, либо засунуть в signal spider_opened особо по-скорости ты не выиграешь, архитектурно разве что.