Size: a a a

2021 March 31

AR

Andrey Rahmatullin in Scrapy
и куда его потом?
источник

МС

Михаил Синегубов... in Scrapy
через js на страницу занести
источник

A

Alex in Scrapy
Andrey Rahmatullin
ну или по времени
вот так более похоже
источник

AR

Andrey Rahmatullin in Scrapy
ну я ещё раз скажу, если сразу неясно было, что раз скрапи на первый запрос получает страницу, значит детектится не скрапи, а поведение
источник

AR

Andrey Rahmatullin in Scrapy
и надо с этим работать, а не пытаться капчу решить
источник

A

Alex in Scrapy
Andrey Rahmatullin
тоже так считаю
Нет. При простом ручном посещении и при использовании поиском по сайту производит проверку. Похоже, это не зависит от того кто или что делает запросы, эта фича захадкожена
источник

AR

Andrey Rahmatullin in Scrapy
потому что айпи тот же
источник

AR

Andrey Rahmatullin in Scrapy
а, правда срабатывает через какое-то время
источник

AR

Andrey Rahmatullin in Scrapy
ну значит прокси и куки чистить
источник

A

Alex in Scrapy
Andrey Rahmatullin
потому что айпи тот же
Ну, я, как и любой другой, перед парсингом изучает сайт в ручном режиме. И в ручном режиме без подозрительной активности эта особенность присутствовала с самого начала.
источник

A

Alex in Scrapy
Я вообще уже давно заметил особенность, что поголовно все сайты на тематику автозапчастей уж очень сильно берегут свой контент.
источник

AR

Andrey Rahmatullin in Scrapy
тогда уточни что ты хочешь узнать, как селениумом обойти проверку?
источник

МС

Михаил Синегубов... in Scrapy
Alex
Я вообще уже давно заметил особенность, что поголовно все сайты на тематику автозапчастей уж очень сильно берегут свой контент.
они не берегут сильно контент. Они просто затрахались получать нагрузку, из за того, что все кому не лень их кошмарят

и вообще, там точно силениум нужен? а то иногда бывает "детская" защита, которой, на самом деле нет
источник

AR

Andrey Rahmatullin in Scrapy
судя по cf_ кукам клаудфларь
источник

AR

Andrey Rahmatullin in Scrapy
но я б попробовал проксями и медленно
источник

A

Alex in Scrapy
Andrey Rahmatullin
тогда уточни что ты хочешь узнать, как селениумом обойти проверку?
Я бы с радостью вообще не использовал селениум, т.к. терпеть его не могу. Но тут вроде должен отработать JS, чтобы двигаться дальше. Хотя, смотрю, дальше таблички тоже генерятся js-ом, а явного АПИ не видно, все через токены/пароли и др. Селениум здесь все-таки нужен будет дальше, но чтобы пройти дальше, надо как-то обойти ту защиту. Не могу просто точно отловить, что именно он проверяет...
источник

AR

Andrey Rahmatullin in Scrapy
вручную обходить клаудфларь так себе идея
источник

AR

Andrey Rahmatullin in Scrapy
а селениум ловится по какому-то там джс атрибуту
источник

A

Alex in Scrapy
Михаил Синегубов
они не берегут сильно контент. Они просто затрахались получать нагрузку, из за того, что все кому не лень их кошмарят

и вообще, там точно силениум нужен? а то иногда бывает "детская" защита, которой, на самом деле нет
Сделали бы открытое АПИ, как некоторые и всем жить стало бы проще
источник

AR

Andrey Rahmatullin in Scrapy
хаха :)
источник