Size: a a a

2021 April 21

МС

Михаил Синегубов... in Scrapy
Шедулер ничего не знает про уже отправленные запросы
источник

МС

Михаил Синегубов... in Scrapy
Ты фильтр дубликатов отключил?
источник

П

Пастырь in Scrapy
Пока нет, думаю как реализовать запуск
источник

П

Пастырь in Scrapy
Я думал кроном, но блин, может в задачу на парсинг попасть 5 урлов, а может 35
источник

МС

Михаил Синегубов... in Scrapy
Вопрос - почему нельзя терять инстанс?
источник

П

Пастырь in Scrapy
Да можно по идее
источник

МС

Михаил Синегубов... in Scrapy
Если ты будешь брать из базы, то начхать
Либо я условия не понял
источник

П

Пастырь in Scrapy
1. Запускается паук, лезет в базу и берет список урл, которые уже были обработаны
2. Лезет на страницу, собирает урл
3. Сравнивает, есть ли такие в базе
4. Если совпадение не найдено, отправляет парсить, если нет, пропускает
источник

П

Пастырь in Scrapy
И вот это все я хочу запустить с таймаутом, допустим в секунд 5-10
источник

МС

Михаил Синегубов... in Scrapy
Ну, такое и на кроне можно.
Только предусмотреть запрет двойного запуска
источник

МС

Михаил Синегубов... in Scrapy
5-10 секунд, скрапи не успеет,
источник

П

Пастырь in Scrapy
в том и проблема, что данных может быть 4, а может и 34. Авито такой непредсказуемый
источник

П

Пастырь in Scrapy
Поэтому я и подумал, что инстанс не успеет завестись
источник

МС

Михаил Синегубов... in Scrapy
Я щас пропаду... на пару часов
источник

МС

Михаил Синегубов... in Scrapy
Такое лучше на полном самописе по моему
источник

П

Пастырь in Scrapy
Не дорос я еще до асинхронного самописа
источник

МС

Михаил Синегубов... in Scrapy
Тогда на spider_idle
источник

МС

Михаил Синегубов... in Scrapy
Либо шедулер свой написать
источник

D•

Dan • Captain in Scrapy
зачем, если есть apscheduler
источник

E

Evgen in Scrapy
Можно просто чтоб крор проверял а не запущен ли скрапи
источник