Телеграмм чат группы scrapy_python страница 1166

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

404 membersпожаловаться на группу

2020 February 24

AB

Anton Bukreev in Scrapy

нужно спарсить по учебе одну страничку

источник

23:08пожаловаться #1

i

ildar in Scrapy

а просмотр полей в copy as curl с последующим преобразованием curl ->python не помогает?

источник

23:24пожаловаться #2

i

ildar in Scrapy

типа посмотреть все заголовки и поля

источник

23:25пожаловаться #3

i

ildar in Scrapy

чет там адок конечно по запросам творится. вангую без selenium не взлетит.

источник

23:28пожаловаться #4

S

Sergey in Scrapy

Подскажите как обойти капчу кинописка? Юзаю requests с https прокси.

@python-captcha

источник

23:49пожаловаться #5

2020 February 25

O

Olegsey in Scrapy

@python-captcha

ломаная ссылка

источник

00:04пожаловаться #6

iz

izzz zzi in Scrapy

@python_captcha

источник

00:05пожаловаться #7

E

Evgen in Scrapy

Михаил Синегубов

человеки.
"https://ohio8.vchecks.me/share/....."
я таки понимаю, это одна из DDOS защит? есть лекарство, кроме браузера/сплеша?

Variti. Редкостная жопа

источник

00:13пожаловаться #8

МС

Михаил Синегубов in Scrapy

Variti. Редкостная жопа

Ага, я уже копнул одним глазиком...

источник

02:31пожаловаться #9

AB

Anton Bukreev in Scrapy

@python_captcha

Говорит нет такого телеграмм аккаунта

источник

07:18пожаловаться #10

AB

Anton Bukreev in Scrapy

а просмотр полей в copy as curl с последующим преобразованием curl ->python не помогает?

Заголовки и кукис тоже передал. Из кукис вырезал только свой id. Вечером попробую зарегать фейк на яндексе и передать его

источник

07:19пожаловаться #11

М

Мак in Scrapy

JOBDIR оперирует хешами урлов. То есть урлы пагинации он тоже отсекать будет при повторном проходе , если dont_filter=True на них не установлен?

источник

13:37пожаловаться #12

AR

Andrey Rahmatullin in Scrapy

ну если урлы пагинации одинаковые, то да

источник

13:37пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

а вообще при чём тут JOBDIR, урлы с одинаковым хешем режет ещё дупфильтр

источник

13:38пожаловаться #14

М

Мак in Scrapy

нет нет, вопрос именно про ПОВТОРНЫЙ ПРОХОД

источник

13:38пожаловаться #15

AR

Andrey Rahmatullin in Scrapy

аа

источник

13:39пожаловаться #16

М

Мак in Scrapy

вроде всё однозначно, если один и тот же хеш - то урл отсечется... но хочу убедиться, правильно ли думаю. В итоге, при использовании JOBDIR надо видимо dont_filter=True ставить на все переходы, кроме непосредственно целевых итемов, значит так что ли

источник

13:41пожаловаться #17

МС

Михаил Синегубов in Scrapy

ну, я бы отталскивался от кастомного HttpCacheMiddleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpcache
всеж, ИМХО, JOBDIR чуть для другого предназначен

dont_filter=True - грозит лишними запросами...

источник

14:05пожаловаться #18

МС

Михаил Синегубов in Scrapy

кстати, я тут обнаружил, что dupfilter еще и тело запроса хеширует (вне зависимости от типа запроса) :)

источник

14:06пожаловаться #19

М

Мак in Scrapy

Михаил Синегубов

ну, я бы отталскивался от кастомного HttpCacheMiddleware https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#module-scrapy.downloadermiddlewares.httpcache
всеж, ИМХО, JOBDIR чуть для другого предназначен

dont_filter=True - грозит лишними запросами...

это ж для чего ж JOBDIR тогда?

источник

14:22пожаловаться #20