Size: a a a

2020 April 01

СТ

Семён Трояновский in Scrapy
Andrey Rahmatullin
Гугл upsert
спасибо, погуглю )
источник

CT

C T in Scrapy
Helllo
источник

CT

C T in Scrapy
I have tried to crawl this url https://www.forexfactory.com. It returned no response. I also used scrapy shell command: scrapy shell https://www.forexfactory.com. It is still no luck. Is there something on this website prevent from crawling? Anyone can help? Thanks.
источник

AC

Alexander Chaptykov in Scrapy
Всем привет! Может подскажите хотя бы в каком направлении думать. 2 контейнера -
1-й со airflow и scrapy
2-й splash (splash_cont).
делаю из первого конта curl http://splash_cont:8050/ - работает ок
но когда scrapy пытается идти по тому же адресу - scrapy shell http://splash_cont:8050
не получается выдает invalid hostname: splash_cont
источник

AC

Alexander Chaptykov in Scrapy
ну и соответственно рендеринг через splash тоже не получается
источник

К

Кирилл in Scrapy
Должно работать, если curl видит. На крайний случай, можешь убрать изоляцию и поставить host network
источник

AC

Alexander Chaptykov in Scrapy
а это что такое? network_mode?
источник

К

Кирилл in Scrapy
источник

AC

Alexander Chaptykov in Scrapy
а если в компоузе несколько контейнеров? всем ставить network_mode: host
источник

AC

Alexander Chaptykov in Scrapy
?
источник

AC

Alexander Chaptykov in Scrapy
я делал так что ставил всем контам network_mode: crawler-network
тогда scrapy видел splash но другая проблема возникала - airflow переставал видеть постгре
источник

К

Кирилл in Scrapy
Это тип сети
источник

К

Кирилл in Scrapy
Сама сеть через network задается
источник

AR

Andrey Rahmatullin in Scrapy
C T
I have tried to crawl this url https://www.forexfactory.com. It returned no response. I also used scrapy shell command: scrapy shell https://www.forexfactory.com. It is still no luck. Is there something on this website prevent from crawling? Anyone can help? Thanks.
interesting, it works only with HTTP/2, I wonder how are they going to support older browsers
источник

AR

Andrey Rahmatullin in Scrapy
curl --http1.1 fails in the same way
источник

AR

Andrey Rahmatullin in Scrapy
unfortunately, Scrapy doesn't yet support HTTP/2
источник

CT

C T in Scrapy
Thanks!
источник

AR

Andrey Rahmatullin in Scrapy
or maybe it's actually something else, for example something TLS-related, that gets disabled when disabling HTTP/2, I don;t know
источник

AC

Alexander Chaptykov in Scrapy
Кирилл
Сама сеть через network задается
но все равно интересно почему curl видит а скрапи нет
источник

AC

Alexander Chaptykov in Scrapy
и requests видит
источник