Size: a a a

2020 March 04

SS

Sergey Sergey in Scrapy
Так что парси скрейпи в 200 потоков с хедером «poshli nahui»
источник

М

Мак in Scrapy
Sergey Sergey
Тут недавно одному ютуберу от ютуба страйк прилетел за видео, в котором он парсит ХХ. Идиотизм блин. При этом они еще и суд проиграли, который разрешил всем желающим парсить ХХ
да кучу такой инфы я видел, пока ресурс изучал. где малейший намек на покушение на их базу - тут же юристы от хх бегут с требованием удалить контент
источник

М

Мак in Scrapy
Sergey Sergey
Так что парси скрейпи в 200 потоков с хедером «poshli nahui»
боюсь люди, которые оплатили аккаунт, не поймут)))
источник

SS

Sergey Sergey in Scrapy
Мак
боюсь люди, которые оплатили аккаунт, не поймут)))
Шучу конечно. Аккаунт лимитный? С ограничением на количество в день или анлим?
источник

М

Мак in Scrapy
1000 шт/сутки... самый дешевый, под разработку и тестирование
источник

М

Мак in Scrapy
но все равно денег стоит же...
источник

SS

Sergey Sergey in Scrapy
Ну, тогда селениум это действительно хороший выход. Скорость у него нормальная, но немного больше ресурсов жрет. Тебе же все равно на скорость. Ты ведь не будешь на платнике в многопоток парсить
источник

SS

Sergey Sergey in Scrapy
Если кому интересно почитать полную версию как ХХ нагнули, вот ссыль
https://br.fas.gov.ru/ca/upravlenie-regulirovaniya-svyazi-i-informatsionnyh-tehnologiy/8e4961ce-3f9c-4b37-9f4b-b2804deeec88/?query=ООО%20«Хэдхантер»
источник

МС

Михаил Синегубов in Scrapy
Sergey Sergey
Если кому интересно почитать полную версию как ХХ нагнули, вот ссыль
https://br.fas.gov.ru/ca/upravlenie-regulirovaniya-svyazi-i-informatsionnyh-tehnologiy/8e4961ce-3f9c-4b37-9f4b-b2804deeec88/?query=ООО%20«Хэдхантер»
ну, к сожалению, у нас не прецендентное судебное производство, так что, только в рамочку на стену повесить...
источник

МС

Михаил Синегубов in Scrapy
или к счастью.... хз
источник

i

ildar in Scrapy
Andrey Rahmatullin
оно не работает в 3.8
ну там я так понял kmike предложил заюзать Plyvel, но на тот момент с ним были траблы и 28 декабря кто-то психанул и вырезал leveldb за 2 дня 😞
а 22 января на гитхабе plyvel 1.2.0 уже нормально проходил CI на python 3.8 и были сгенерены wheels: https://github.com/wbolster/plyvel/issues/108
источник

i

ildar in Scrapy
источник

DO

Denis Olianiuk in Scrapy
Sergey Sergey
Ну, тогда селениум это действительно хороший выход. Скорость у него нормальная, но немного больше ресурсов жрет. Тебе же все равно на скорость. Ты ведь не будешь на платнике в многопоток парсить
Пробовал юзать селениум, но всеравно высекают:
1. Менял navigator.webdriver в браузере на null
2. В webdriver.exe заменял'$cdc_asdjflasutopfhvcZLmcfl_' на такую-же по длине строку но с другими символами.
(нашел вот тут https://stackoverflow.com/questions/33225947/can-a-website-detect-when-you-are-using-selenium-with-chromedriver?noredirect=1&lq=1)
3. Запускал с:
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
options.add_argument('--disable-useAutomationExtension')
И ничего не помогало, через пару перехдов по ссылкам прилетала капча. Хоть в нормальном браузере все работало хорошо.

Вопрос кто-то знает что еще может палить силениум?
Если кому интересно сайт https://www.wayfair.com
источник

SS

Sergey Sergey in Scrapy
Denis Olianiuk
Пробовал юзать селениум, но всеравно высекают:
1. Менял navigator.webdriver в браузере на null
2. В webdriver.exe заменял'$cdc_asdjflasutopfhvcZLmcfl_' на такую-же по длине строку но с другими символами.
(нашел вот тут https://stackoverflow.com/questions/33225947/can-a-website-detect-when-you-are-using-selenium-with-chromedriver?noredirect=1&lq=1)
3. Запускал с:
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)
options.add_argument('--disable-useAutomationExtension')
И ничего не помогало, через пару перехдов по ссылкам прилетала капча. Хоть в нормальном браузере все работало хорошо.

Вопрос кто-то знает что еще может палить силениум?
Если кому интересно сайт https://www.wayfair.com
А браузер какой?
источник

SS

Sergey Sergey in Scrapy
Таймауты ставил?
источник

DO

Denis Olianiuk in Scrapy
Sergey Sergey
А браузер какой?
Хром 79 версия
источник

SS

Sergey Sergey in Scrapy
Клики мышки эмулировал?
источник

SS

Sergey Sergey in Scrapy
Sergey Sergey
Клики мышки эмулировал?
кнопка вниз, пауза, кнопка вверх
источник

DO

Denis Olianiuk in Scrapy
Я запускал селениум и кодом заходил на страницу товара, после этого руками лазил по сайту и всеравно капча прилетает
источник

DO

Denis Olianiuk in Scrapy
Забыл добваить, даже добавил свой профиль из настоящего хрома
источник