Size: a a a

2020 December 01

D

Dmitry in Scrapy
Andrey Rahmatullin
(простейший вариант, как известно - лист с интом внутри)
О, спасибо, не знал. А зачем там мутабельность, если все thread-safe и один поток? Или это не так и тогда это где-то в доках должно быть прописано, что cb-kwargs не сейф?
источник

D

Dmitry in Scrapy
Ой. Мутабельность в смысле чтобы по ссылке передавался.
источник

AR

Andrey Rahmatullin in Scrapy
Да
источник

D

Dmitry in Scrapy
Сорри, херню сморозил
источник

D

Dmitry in Scrapy
Понял, спасибо
источник

DO

Daniil Okhlopkov in Scrapy
Всем привет! Я начал познавать scrapy с боевой задачки: спарсить angel.co.

Но там стоит cloudflare, поэтому ни requests, ни стоковый scrapy, ни Splash, ни Selenium не берут странички. Последние два возвращают ONE MORE STEP.

И вот вопрос. Но ведь у меня в браузере в гуглхроме в инкогнито все открывается - почему тогда даже в Selenium просит капчу? Я, скорее всего, что-то не то делаю, и нужно просто нужный параметр выставить (я надеюсь). Или я просто наивный мальчик и welcome to real world: нужно покупать индусов, чтобы мне капчу проходили?

Заранее спасибо за ответ, я новенький тут)
источник

D

Dmitry in Scrapy
Посмотри сниффером чем отличаются запросы от селениума и хрома. Сделай их одинаковыми. Начни с банального user-agent.
источник

DO

Daniil Okhlopkov in Scrapy
Dmitry
Посмотри сниффером чем отличаются запросы от селениума и хрома. Сделай их одинаковыми. Начни с банального user-agent.
спасибо) user-agent банально я уже скопировал, но не помогло.
источник

D

Dmitry in Scrapy
Но капча-решалку подключить довольно просто кстати. Если она не через раз возникает и не надо парсить гигабайтами, может это даже быстрее будет, чем дебаггить все это.
источник

К

Кирилл in Scrapy
Daniil Okhlopkov
Всем привет! Я начал познавать scrapy с боевой задачки: спарсить angel.co.

Но там стоит cloudflare, поэтому ни requests, ни стоковый scrapy, ни Splash, ни Selenium не берут странички. Последние два возвращают ONE MORE STEP.

И вот вопрос. Но ведь у меня в браузере в гуглхроме в инкогнито все открывается - почему тогда даже в Selenium просит капчу? Я, скорее всего, что-то не то делаю, и нужно просто нужный параметр выставить (я надеюсь). Или я просто наивный мальчик и welcome to real world: нужно покупать индусов, чтобы мне капчу проходили?

Заранее спасибо за ответ, я новенький тут)
Селениум немного отличается от обычного браузера. Почекай в сервисах, вот к примеру посмотри https://bot.sannysoft.com/
источник

D

Dmitry in Scrapy
А может можно это в стандартный функционал скрапи засунуть? Я даже вижу как это будет. Если в подреквест (внутри parse или производного) передается аргумент finally=finish(), то скрапи сам их считает, и когда эти подреквесты выполнятся, то в конце  вызывает finish(). Я думаю это добавило бы гибкости, чтобы решить 99% подобных edge-кейсов.
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Селениум немного отличается от обычного браузера. Почекай в сервисах, вот к примеру посмотри https://bot.sannysoft.com/
О! Спасибо. Теперь нужно просто спарсить эту страницу селениумом и посмотреть, что выдаст. Попробую...
источник

AR

Andrey Rahmatullin in Scrapy
Dmitry
А может можно это в стандартный функционал скрапи засунуть? Я даже вижу как это будет. Если в подреквест (внутри parse или производного) передается аргумент finally=finish(), то скрапи сам их считает, и когда эти подреквесты выполнятся, то в конце  вызывает finish(). Я думаю это добавило бы гибкости, чтобы решить 99% подобных edge-кейсов.
Почти нет таких кейсов же
источник

К

Кирилл in Scrapy
Daniil Okhlopkov
О! Спасибо. Теперь нужно просто спарсить эту страницу селениумом и посмотреть, что выдаст. Попробую...
Я давно им не пользовался, так что не знаю актуально ли показывает именно этот сервис
источник

AR

Andrey Rahmatullin in Scrapy
Надо ж чтобы сразу все реквесты можно было сгенерить, а это значит никакого пейджинга
источник

AR

Andrey Rahmatullin in Scrapy
Ну или я не понял
источник

DO

Daniil Okhlopkov in Scrapy
Кирилл
Я давно им не пользовался, так что не знаю актуально ли показывает именно этот сервис
А что насчет Splash? Я думал, что вы там для себя уже по кайфу все настроили, но он тоже из коробки наткнулся на Cloudflare
источник

К

Кирилл in Scrapy
Daniil Okhlopkov
А что насчет Splash? Я думал, что вы там для себя уже по кайфу все настроили, но он тоже из коробки наткнулся на Cloudflare
Селениум мощнее сплэша
источник

К

Кирилл in Scrapy
Сплэш для лайтовых случаев
источник

AR

Andrey Rahmatullin in Scrapy
Daniil Okhlopkov
Всем привет! Я начал познавать scrapy с боевой задачки: спарсить angel.co.

Но там стоит cloudflare, поэтому ни requests, ни стоковый scrapy, ни Splash, ни Selenium не берут странички. Последние два возвращают ONE MORE STEP.

И вот вопрос. Но ведь у меня в браузере в гуглхроме в инкогнито все открывается - почему тогда даже в Selenium просит капчу? Я, скорее всего, что-то не то делаю, и нужно просто нужный параметр выставить (я надеюсь). Или я просто наивный мальчик и welcome to real world: нужно покупать индусов, чтобы мне капчу проходили?

Заранее спасибо за ответ, я новенький тут)
В хроме ты лично страницу юзаешь
источник