Size: a a a

2020 February 24

AB

Anton Bukreev in Scrapy
нужно спарсить по учебе одну страничку
источник

i

ildar in Scrapy
а просмотр полей в copy as curl с последующим преобразованием curl ->python не помогает?
источник

i

ildar in Scrapy
типа посмотреть все заголовки и поля
источник

i

ildar in Scrapy
чет там адок конечно по запросам творится. вангую без selenium не взлетит.
источник

S

Sergey in Scrapy
Anton Bukreev
Подскажите как обойти капчу кинописка? Юзаю requests с https прокси.
@python-captcha
источник
2020 February 25

O

Olegsey in Scrapy
ломаная ссылка
источник

iz

izzz zzi in Scrapy
источник

E

Evgen in Scrapy
Михаил Синегубов
человеки.
"https://ohio8.vchecks.me/share/....."
я таки понимаю, это одна из DDOS защит? есть лекарство, кроме браузера/сплеша?
Variti. Редкостная жопа
источник

МС

Михаил Синегубов in Scrapy
Evgen
Variti. Редкостная жопа
Ага, я уже копнул одним глазиком...
источник

AB

Anton Bukreev in Scrapy
Говорит нет такого телеграмм аккаунта
источник

AB

Anton Bukreev in Scrapy
ildar
а просмотр полей в copy as curl с последующим преобразованием curl ->python не помогает?
Заголовки и кукис тоже передал. Из кукис вырезал только свой id. Вечером попробую зарегать фейк на яндексе и передать его
источник

М

Мак in Scrapy
JOBDIR оперирует хешами урлов. То есть урлы пагинации он тоже отсекать будет при повторном проходе , если dont_filter=True на них не установлен?
источник

AR

Andrey Rahmatullin in Scrapy
ну если урлы пагинации одинаковые, то да
источник

AR

Andrey Rahmatullin in Scrapy
а вообще при чём тут JOBDIR, урлы с одинаковым хешем режет ещё дупфильтр
источник

М

Мак in Scrapy
нет нет, вопрос именно про ПОВТОРНЫЙ ПРОХОД
источник

AR

Andrey Rahmatullin in Scrapy
аа
источник

М

Мак in Scrapy
вроде всё однозначно, если один и тот же хеш - то урл отсечется... но хочу убедиться, правильно ли думаю. В итоге, при использовании JOBDIR надо видимо dont_filter=True ставить на все переходы, кроме непосредственно целевых итемов,  значит так что ли
источник

МС

Михаил Синегубов in Scrapy
ну, я бы отталскивался от кастомного HttpCacheMiddleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpcache
всеж, ИМХО, JOBDIR чуть для другого предназначен

dont_filter=True - грозит лишними запросами...
источник

МС

Михаил Синегубов in Scrapy
кстати, я тут обнаружил, что dupfilter еще и тело запроса хеширует (вне зависимости от типа запроса) :)
источник

М

Мак in Scrapy
Михаил Синегубов
ну, я бы отталскивался от кастомного HttpCacheMiddleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpcache
всеж, ИМХО, JOBDIR чуть для другого предназначен

dont_filter=True - грозит лишними запросами...
это ж для чего ж JOBDIR тогда?
источник