Size: a a a

2019 August 14

АН

Алексей Нагорский in Scrapy
По этому не вижу причин почему через скрейпи не взлетит
источник

JW

John Wayne in Scrapy
Алексей Нагорский
Я не логинился скрапи, я просто отключил джаваскрипт в хроме и получил то же самое, что и ты, потом просто в том же окне с отключенным жс открыл собственно наш dest и вот он я с кармой 2
Я не смог разобраться с js куками, тех что получает обычный скрепи оказалось недостаточно. Поэтому скрепи\сплеш, но и в нем при этом луа скрипте, такая фигня, как этот редирект то словить?
источник

АН

Алексей Нагорский in Scrapy
Какие js куки мэн
источник

АН

Алексей Нагорский in Scrapy
Нет никаких js кук, отключен js в табе, все куки в заголовках приезжают
источник

АН

Алексей Нагорский in Scrapy
Если ждет, ща я употреблю ужин и попробую что-нибудь набодяжить
источник

JW

John Wayne in Scrapy
Алексей Нагорский
Если ждет, ща я употреблю ужин и попробую что-нибудь набодяжить
Ждет конечно, очень было бы любопытно глянуть на логин на редите, через просто скрепи.
А это в свою очередь, максимально интересно, поскольку на olx.ua, показ телефона, тоже не выходил, ибо когда делаешь curl to python запроса, там есть куки которых нет в скрепи. Из за этого сплеш и понадобился
источник

АН

Алексей Нагорский in Scrapy
Скорее всего я просто что-то не знаю, но я встречал ситуации когда set-cookie есть, а их в следующем реквесте нет
источник

АН

Алексей Нагорский in Scrapy
Пока нет объяснения надо просто достать и поставить их самим
источник

JW

John Wayne in Scrapy
Алексей Нагорский
Пока нет объяснения надо просто достать и поставить их самим
Да, curl to python запроса там куча всего, а в скрепи или скажем постмане, лишь часть кук. Как заставить отдать все куки я так и не понял.
источник

АН

Алексей Нагорский in Scrapy
>>> fetch('https://www.reddit.com/login')
2019-08-14 20:19:33 [scrapy.core.engine] INFO: Spider opened
2019-08-14 20:19:34 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.reddit.com/login/> from <GET https://www.reddit.com/login>
2019-08-14 20:19:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.reddit.com/login/> (referer: None)
>>> response.headers.getlist('Set-cookie')
[b'token=; Domain=.reddit.com; Max-Age=0; Path=/; expires=Fri, 09-Aug-2019 17:19:36 GMT', b'session=e56026e570beab55bd7b249548fc98abc302e141gAJKqEJUXUdB11UQqhetxX1xAVUHX2NzcmZ0X3ECWCgAAAAyNTI3NzM1YjJmN2JkM2EwODFmNTJjYjc4MDQ3MzZjMjI4NjE1MDllcQNzh3EELg==; Path=/; secure; HttpOnly']
источник

АН

Алексей Нагорский in Scrapy
Вон тебе какая-то печенька даже без попытки залогиниться
источник

АН

Алексей Нагорский in Scrapy
Да, если не передавать session, то не залогинится, так что она ключевая
источник

E

Evgen in Scrapy
источник

JW

John Wayne in Scrapy
Алексей Нагорский
Да, если не передавать session, то не залогинится, так что она ключевая
Реквестами я тоже доходил до
<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{"dest": "https://www.reddit.com"}</pre></body></html>
Вопрос, с учетом простоты сплеша, как попасть дальше?
источник

АН

Алексей Нагорский in Scrapy
В смысле как попасть дальше? Реквест на reddit.com может?
источник

O

On in Scrapy
Что я делаю не так
yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})
источник

O

On in Scrapy
Почему js не рендериться и все равно выдает это
<html><title>You are being redirected...</title>
<noscript>Javascript is required. Please enable javascript before you are allowed to see this page.</noscript>
<script>var s={},u,c,U,r,i,l=0,a,e=eval,w=String.fromCharCode,sucuri_cloudproxy_js='',S='az0iM3YiLmNoYXJBdCgwKSArICJiIiArICAnJyArJycrJ1dqVjEnLnN1YnN0cigzLCAxKSArICcnICsiMCIuc2xpY2UoMCwxKSArICdiJyArICAgJycgKyAKImMiLnNsaWNlKDAsMSkgKyAiMiIuc2xpY2UoMCwxKSArICI3eiIuY2hhckF0KDApIC</script></html>
источник

JW

John Wayne in Scrapy
Алексей Нагорский
В смысле как попасть дальше? Реквест на reddit.com может?
Я о луа скрипте, что там изменить чтобы сплешом логиниться?
источник

К

Кирилл in Scrapy
On
Что я делаю не так
yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})
выглядит правильно
источник

К

Кирилл in Scrapy
On
Что я делаю не так
yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait': 5, 'html': 1})
ищи ошибки в другом месте
источник