Телеграмм чат группы scrapy

Size: a a a

Scrapy

380 membersпожаловаться на группу

2019 August 14

АН

Алексей Нагорский in Scrapy

По этому не вижу причин почему через скрейпи не взлетит

Я не логинился скрапи, я просто отключил джаваскрипт в хроме и получил то же самое, что и ты, потом просто в том же окне с отключенным жс открыл собственно наш dest и вот он я с кармой 2

Я не смог разобраться с js куками, тех что получает обычный скрепи оказалось недостаточно. Поэтому скрепи\сплеш, но и в нем при этом луа скрипте, такая фигня, как этот редирект то словить?

источник

19:54пожаловаться #2

АН

Алексей Нагорский in Scrapy

Какие js куки мэн

источник

19:56пожаловаться #3

АН

Алексей Нагорский in Scrapy

Нет никаких js кук, отключен js в табе, все куки в заголовках приезжают

источник

19:57пожаловаться #4

АН

Алексей Нагорский in Scrapy

Если ждет, ща я употреблю ужин и попробую что-нибудь набодяжить

Если ждет, ща я употреблю ужин и попробую что-нибудь набодяжить

Ждет конечно, очень было бы любопытно глянуть на логин на редите, через просто скрепи.
А это в свою очередь, максимально интересно, поскольку на olx.ua, показ телефона, тоже не выходил, ибо когда делаешь curl to python запроса, там есть куки которых нет в скрепи. Из за этого сплеш и понадобился

источник

20:02пожаловаться #6

АН

Алексей Нагорский in Scrapy

Скорее всего я просто что-то не знаю, но я встречал ситуации когда set-cookie есть, а их в следующем реквесте нет

источник

20:05пожаловаться #7

АН

Алексей Нагорский in Scrapy

Пока нет объяснения надо просто достать и поставить их самим

Пока нет объяснения надо просто достать и поставить их самим

Да, curl to python запроса там куча всего, а в скрепи или скажем постмане, лишь часть кук. Как заставить отдать все куки я так и не понял.

источник

20:12пожаловаться #9

АН

Алексей Нагорский in Scrapy

>>> fetch('https://www.reddit.com/login')
2019-08-14 20:19:33 [scrapy.core.engine] INFO: Spider opened
2019-08-14 20:19:34 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.reddit.com/login/> from <GET https://www.reddit.com/login>
2019-08-14 20:19:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.reddit.com/login/> (referer: None)
>>> response.headers.getlist('Set-cookie')
[b'token=; Domain=.reddit.com; Max-Age=0; Path=/; expires=Fri, 09-Aug-2019 17:19:36 GMT', b'session=e56026e570beab55bd7b249548fc98abc302e141gAJKqEJUXUdB11UQqhetxX1xAVUHX2NzcmZ0X3ECWCgAAAAyNTI3NzM1YjJmN2JkM2EwODFmNTJjYjc4MDQ3MzZjMjI4NjE1MDllcQNzh3EELg==; Path=/; secure; HttpOnly']

reddit.com: Log in

Don’t worry, we won’t tell anyone your username. Log in to your Reddit account.

источник

20:20пожаловаться #10

АН

Алексей Нагорский in Scrapy

Вон тебе какая-то печенька даже без попытки залогиниться

источник

20:21пожаловаться #11

АН

Алексей Нагорский in Scrapy

Да, если не передавать session, то не залогинится, так что она ключевая

источник

20:36пожаловаться #12

Evgen in Scrapy

https://scrapinghub.com/autoextract

Scrapinghub

Automatic Extraction API - Get information you need automatically

Scrapinghub's Automatic Extraction API allows you extract the information you need automatically.

источник

20:43пожаловаться #13

John Wayne in Scrapy

Алексей Нагорский

Да, если не передавать session, то не залогинится, так что она ключевая

Реквестами я тоже доходил до
<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{"dest": "https://www.reddit.com"}</pre></body></html>
Вопрос, с учетом простоты сплеша, как попасть дальше?

reddit: the front page of the internet

Reddit gives you the best of the internet in one place. Get a constantly updating feed of breaking news, fun stories, pics, memes, and videos just for you. Passionate about something niche? Reddit has thousands of vibrant communities with people that share your interests. Alternatively, find out what’s trending across all of Reddit on r/popular. Reddit is also anonymous so you can be yourself, with your Reddit profile and persona disconnected from your real-world identity.

источник

21:21пожаловаться #14

АН

Алексей Нагорский in Scrapy

В смысле как попасть дальше? Реквест на reddit.com может?

источник

21:23пожаловаться #15

On in Scrapy

Что я делаю не так

yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})

источник

21:32пожаловаться #16

On in Scrapy

Почему js не рендериться и все равно выдает это

<html><title>You are being redirected...</title>
<noscript>Javascript is required. Please enable javascript before you are allowed to see this page.</noscript>
<script>var s={},u,c,U,r,i,l=0,a,e=eval,w=String.fromCharCode,sucuri_cloudproxy_js='',S='az0iM3YiLmNoYXJBdCgwKSArICJiIiArICAnJyArJycrJ1dqVjEnLnN1YnN0cigzLCAxKSArICcnICsiMCIuc2xpY2UoMCwxKSArICdiJyArICAgJycgKyAKImMiLnNsaWNlKDAsMSkgKyAiMiIuc2xpY2UoMCwxKSArICI3eiIuY2hhckF0KDApIC</script></html>

источник

21:33пожаловаться #17

John Wayne in Scrapy

Алексей Нагорский

В смысле как попасть дальше? Реквест на reddit.com может?

Я о луа скрипте, что там изменить чтобы сплешом логиниться?

источник

21:36пожаловаться #18

Кирилл in Scrapy

Что я делаю не так

yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})

выглядит правильно

источник

21:37пожаловаться #19

Кирилл in Scrapy

Что я делаю не так

yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})

ищи ошибки в другом месте

источник

21:37пожаловаться #20