алгоритм, который у меня успешно работает на многих пауках.
1. в базе уникальность по URL, отключаешь нафих фильтр дубликатов в скрапи, потому что их не будет
2. для ссылок есть еще поле статус, по умолчанию он "0"\
3. когда забираешь ссылки, ставишь для них статус "1"
4. после обработки меняешь статус, либо по коду ответа (200, 404 и т.д.), либо свои номера вводи. Я ошибки обычно отрицательными пишу
это не идеал, Женя правильно написал, паук будет дожидаться, когда последняя ссылка обработается. Но, если у тебя все ссылки (или практически все) рабочие, то и так все норм.
И да, конечно же, идеально заморочаться планировщиком, но, я, пока, не добрался до них :).
Ну и, код паука, который у меня обычно работает:
https://gist.github.com/Mifody/7e48f64417e4c7dbe1d5777b2aebdab7