Size: a a a

2020 December 01

К

Кирилл in Scrapy
puppeteer еще посмотри, у него там вроде есть плагины чтоб фингерпринт правильный был
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Селениум мощнее сплэша
да я понимаю, что мощнее, но что может быть базовее, чем норм фингерпринтинг) или его специально по-умолчанию не включают, чтобы не прикрыли и его?
источник

DO

Daniil Okhlopkov in Scrapy
Andrey Rahmatullin
В хроме ты лично страницу юзаешь
поясните, пожалуйста, я не понял, что значит "лично"
источник

D

Dmitry in Scrapy
Andrey Rahmatullin
Почти нет таких кейсов же
Ну у меня всегда ощущение, что я супер-базовые задачки решаю и до меня миллион человек должен был на эти грабли наступить. По поводу сразу все реквесты сразу сгенерить - я как раз думал, что не нужно. Грубо говоря, engine скрапи, получая реквест с аргументом finally, увеличивает у себя каунтер на 1, а когда подреквест выполнился - уменьшает на 1. После этого, если каунтер стал равен нулю, он проверяет, завершился ли parent метод, из которого вызывались подреквесты. И если да, то запускает finally.
источник

К

Кирилл in Scrapy
Daniil Okhlopkov
да я понимаю, что мощнее, но что может быть базовее, чем норм фингерпринтинг) или его специально по-умолчанию не включают, чтобы не прикрыли и его?
Базовое, это исполнение js и рендер страницы для скриншотов) А борьба с системами безопасности, это уже не базовое
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Базовое, это исполнение js и рендер страницы для скриншотов) А борьба с системами безопасности, это уже не базовое
базовая борьба)
источник

D

Dmitry in Scrapy
Dmitry
Ну у меня всегда ощущение, что я супер-базовые задачки решаю и до меня миллион человек должен был на эти грабли наступить. По поводу сразу все реквесты сразу сгенерить - я как раз думал, что не нужно. Грубо говоря, engine скрапи, получая реквест с аргументом finally, увеличивает у себя каунтер на 1, а когда подреквест выполнился - уменьшает на 1. После этого, если каунтер стал равен нулю, он проверяет, завершился ли parent метод, из которого вызывались подреквесты. И если да, то запускает finally.
Можно просто написать, что я бред написал и так просто это работать не будет, а сложно это никому не нужно :)
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Селениум немного отличается от обычного браузера. Почекай в сервисах, вот к примеру посмотри https://bot.sannysoft.com/
ага, здраствуйте. Это я дефолтным chromedriver + selenium открыл
источник

DO

Daniil Okhlopkov in Scrapy
Если кто знает готовое решение / сниппеты, как можно из Selenium или чего другого сделать беспалевный браузер - скиньте, пожалуйста. Очень не хочется городить свои велосипеды, ведь задача это уже 100% пройдена десятками людей
источник

DO

Daniil Okhlopkov in Scrapy
просто где, как не в чате скрапи спрашивать такие вот инсайты)
источник

BL

Boris Litvyakov in Scrapy
Daniil Okhlopkov
Если кто знает готовое решение / сниппеты, как можно из Selenium или чего другого сделать беспалевный браузер - скиньте, пожалуйста. Очень не хочется городить свои велосипеды, ведь задача это уже 100% пройдена десятками людей
беспалевный понятие относительное, зависит от уровня защиты

у тебя задача конкретный сайт спарсить или создать супер беспалевный браузер? если первое то в большинстве случаев достаточно отследить запросы и можно их реквестами слать без селениума, контролируя юзер агент, авторизацию и айпи
источник

A

Andrii in Scrapy
Daniil Okhlopkov
базовая борьба)
Почитайте что клаудфлайр для енджел_ко нейронку учило отличать ботов от людей за много денег
источник

A

Andrii in Scrapy
И етот сайт не лучший для "познавания" скрейпинга
источник

A

Andrii in Scrapy
Но решаемо
источник

S

SoHard 🎄 in Scrapy
Daniil Okhlopkov
Если кто знает готовое решение / сниппеты, как можно из Selenium или чего другого сделать беспалевный браузер - скиньте, пожалуйста. Очень не хочется городить свои велосипеды, ведь задача это уже 100% пройдена десятками людей
источник

B

Bulatbulat48 in Scrapy
Dmitry
Ну у меня всегда ощущение, что я супер-базовые задачки решаю и до меня миллион человек должен был на эти грабли наступить. По поводу сразу все реквесты сразу сгенерить - я как раз думал, что не нужно. Грубо говоря, engine скрапи, получая реквест с аргументом finally, увеличивает у себя каунтер на 1, а когда подреквест выполнился - уменьшает на 1. После этого, если каунтер стал равен нулю, он проверяет, завершился ли parent метод, из которого вызывались подреквесты. И если да, то запускает finally.
как я понимаю тебе нужно будет еще остальной весь скрапинг останавливать и кэшировать пока не выолняется эти 100 реквестов? типо флагом, потом после того как отработают твои 100 реквестов вернуть флаг и продолжить парсить(вытащить из кэша)?
источник

B

Bulatbulat48 in Scrapy
либо прикрутить парсинг на spider_idle. Крутишь свои 100 реквестов и как оно отработало достаешь в spider_idle твой final реквест
источник

B

Bulatbulat48 in Scrapy
либо я не понял, что нужно 🙂
источник

DO

Daniil Okhlopkov in Scrapy
Спасибо!
источник

D

Dmitry in Scrapy
Bulatbulat48
либо прикрутить парсинг на spider_idle. Крутишь свои 100 реквестов и как оно отработало достаешь в spider_idle твой final реквест
Я внутренности не изучал, но это звучит наиболее похоже, потому что решает задачу и вроде бы не мешает остальным процессам - ничего останавливать не надо спецом.
источник