Size: a a a

2019 July 01

Y

Yurii in Scrapy
ildar
он там на самом-то деле с bs4 сравнивает, ну и что, что bs юзает lxml унутре, все-равно он же медленный из-за оверхеда своего, вобщем, надо бы затестить по-сравнению со скрапиевским parsel
А скрапи на чем работает?
источник

i

ildar in Scrapy
на parsel, а тот на lxml
источник

Y

Yurii in Scrapy
Думаю разница небольшая от bs4
источник

N

Nikolay in Scrapy
Кто подскажет, если я в пауке пишу в файл - блокировка нужна, не может ли быть затирание данных?
источник

МС

Михаил Синегубов in Scrapy
Nikolay
Кто подскажет, если я в пауке пишу в файл - блокировка нужна, не может ли быть затирание данных?
пайп и метода парса однопоточный
источник

N

Nikolay in Scrapy
А если нужен многопоток?
источник

АН

Алексей Нагорский in Scrapy
А от чего content-length считать нужно? Кажется это одно из двух полей, которое я не даю сайту а он не дает мне файл (мразота такая)
источник

МС

Михаил Синегубов in Scrapy
Nikolay
А если нужен многопоток?
не, ты не понял. По сути
1. запросы идут асинхрон, в многопотоке
2. обработка - в одном

логика такая, что самое долгое - получить данные с сайта, а обработать и записать - это быстро
источник

МС

Михаил Синегубов in Scrapy
по крайне мере мне так объясняли
источник

МС

Михаил Синегубов in Scrapy
Алексей Нагорский
А от чего content-length считать нужно? Кажется это одно из двух полей, которое я не даю сайту а он не дает мне файл (мразота такая)
нахрена считать?
источник

АН

Алексей Нагорский in Scrapy
Михаил Синегубов
нахрена считать?
Он считает сам?
источник

МС

Михаил Синегубов in Scrapy
Yep
источник

АН

Алексей Нагорский in Scrapy
Тогда блиа, вот что еще этой мразоте надо
источник

N

Nikolay in Scrapy
Михаил Синегубов
не, ты не понял. По сути
1. запросы идут асинхрон, в многопотоке
2. обработка - в одном

логика такая, что самое долгое - получить данные с сайта, а обработать и записать - это быстро
А... Тогда норм. Спасибо. Я чет думал что и паук сам асинхроно весь, а если только запросы то вообще гуд
источник

МС

Михаил Синегубов in Scrapy
Nikolay
А... Тогда норм. Спасибо. Я чет думал что и паук сам асинхроно весь, а если только запросы то вообще гуд
вот у меня вопрос как пайп с классом парсера синхронизируется.....
источник

МС

Михаил Синегубов in Scrapy
но этого я сам пока не знаю
источник

N

Nikolay in Scrapy
Я не замечал пока чтобы целостность данных нарушалась. Но это не показатель конечно
источник

АП

Агент Печенька in Scrapy
Nikolay
Кто подскажет, если я в пауке пишу в файл - блокировка нужна, не может ли быть затирание данных?
Не пиши в файл.
источник

АП

Агент Печенька in Scrapy
Nikolay
А если нужен многопоток?
Зачем?
источник

АП

Агент Печенька in Scrapy
Алексей Нагорский
А от чего content-length считать нужно? Кажется это одно из двух полей, которое я не даю сайту а он не дает мне файл (мразота такая)
От длины контента.
источник