Size: a a a

2021 June 04

A

Andrii in Scrapy
Да
источник

МС

Михаил Синегубов... in Scrapy
тогда убирай экранирование ошибок и посмотри, входит в пайп или нет
источник

A

Andrii in Scrapy
такс, еще вопрос - как ускорить ?)
2021-06-04 13:16:09 [scrapy.extensions.logstats] INFO: Crawled 71 pages (at 17 pages/min), scraped 1729 items (at 454 items/min)
источник

A

Andrii in Scrapy
ет очень медленно, нужно спарсить 3млн страниц (и ето я отключил рав, с ним еще медленее)
источник

МС

Михаил Синегубов... in Scrapy
если они режут частоту - то прокся, если дохлый сервак - то рыдать :)
источник

G

Georgiy in Scrapy
Если это из лога приложения, в котором используется pipelines (sqlalchemy) код которых был выложен в одном из предыдущих сообщений,
то вероятнее всего задержка идет именно оттуда.
источник

МС

Михаил Синегубов... in Scrapy
а, блин, точно...
1. алхимия в принципе тормознутая (по крайней мере, все тесты, которые я видел)
2. писать по одному айтему.... так себе идейка
3. не использовать SQL  инструкции, типа IGNORE/REPLACE то же не есть хорошо...
источник

(

(o_O) in Scrapy
Для начала, попробовать увеличить количество параллельных запросов, CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 200. Если дальше -- распределять по нескольким процессам, напр. с помощью scrapy-redis
источник

A

Andrii in Scrapy
Щас думаю как правильно на балк инсерт переписать
источник

(

(o_O) in Scrapy
Текущие 10 записей в секунду база должна держать даже с кодом написанным через жо
источник

(

(o_O) in Scrapy
Я по несколько сотен записей в секунду в мускул вставлял безо всякой оптимизации. Правда без алхимии
источник

(

(o_O) in Scrapy
Я бы для пробы скорости пайплайн бд отключил и посмотрел, есть ли разница
источник

A

Andrii in Scrapy
точно проблема в алхимику
2021-06-04 14:50:20 [scrapy.extensions.logstats] INFO: Crawled 198 pages (at 198 pages/min), scraped 5227 items (at 5227 items/min)
- ето запись в csv
источник

(

(o_O) in Scrapy
Тогда возьми с гитхаба пайплайн по свою бд
источник

МС

Михаил Синегубов... in Scrapy
кстати,  я не нашел там пайпов, что бы они батчами писали в SQL, а может хреново искал :))
я сначала полез свое писать, потом уже начал искать
источник

МС

Михаил Синегубов... in Scrapy
https://stackoverflow.com/questions/28264063/buffered-pipeline-using-scrapy

тут идейка записи после работы паука, легко перепиливается под запись по ХХХ айтемов
и попробуй заменить алхимию на пиво https://pypi.org/project/peewee/ оно, вроде, шустрее, по тестам
источник

(

(o_O) in Scrapy
У нормальных баз данных есть буфер перед записью, так что батчинг может нифига и не дать
источник

МС

Михаил Синегубов... in Scrapy
"нормальные" это какие? :)
источник

МС

Михаил Синегубов... in Scrapy
сколько не писал в базы, а bulk_insert всегда шустрее цикла 🙃
источник

(

(o_O) in Scrapy
да почти все популярные, mysql, postgres, sql server. За sqlite не ручаюсь, не смотрел
источник