Size: a a a

2020 October 27

AR

Andrey Rahmatullin in Scrapy
в туториале нет сайтмапа никакого
источник

AR

Andrey Rahmatullin in Scrapy
источник

СК

Семён Кашин... in Scrapy
Господа! Подскажите, пожалуйста, никто не парсил avito? Я пробую парсить их с использование прокси-серверов. Подставил user-agent. Но все равно авито отвечает мне 403 кодом. При это если я использую этот же прокси-сервер с запросом через браузер - запрос проходит нормально
источник

СК

Семён Кашин... in Scrapy
может кто сталкивался?
источник

СК

Семён Кашин... in Scrapy
как они определяют, что их парсят?
источник

AR

Andrey Rahmatullin in Scrapy
Последнюю неделю тут только его и парсят
источник

СК

Семён Кашин... in Scrapy
так... И если не секрет, то какие на текущий момент выводы? Если в кратце и если не сложно объяснить
источник

К

Кирилл in Scrapy
Перечитай чат, там все есть
источник

AR

Andrey Rahmatullin in Scrapy
Что-то там про тлс 😀
источник

СК

Семён Кашин... in Scrapy
Спасибо
источник

i

i in Scrapy
"На небе только и разговоров, что о море"
источник

i

i in Scrapy
Переслано от i
ну а так да, шифры отправлять не надо, достаточно
scrapy shell https://www.avito.ru -s DOWNLOADER_CLIENT_TLS_METHOD='TLSv1.2'
источник

i

i in Scrapy
Семён Кашин
Спасибо
Этого достаточно. А то там обсуждения на пол вечера)
источник
2020 October 28

СК

Семён Кашин... in Scrapy
i
Этого достаточно. А то там обсуждения на пол вечера)
Да. Я нашел вчера
источник

🎱

🎱 in Scrapy
подскажите, мне нужно взять все урлы из первого div class="col-lg-4"
их тут 3. Мне нужно урлы только с 1.
Нужно как-то заюзать nth-child?

response.css('li.nav-item > div.container > div.row ul li a::attr(href)').getall()
источник

К

Кирилл in Scrapy
🎱
подскажите, мне нужно взять все урлы из первого div class="col-lg-4"
их тут 3. Мне нужно урлы только с 1.
Нужно как-то заюзать nth-child?

response.css('li.nav-item > div.container > div.row ul li a::attr(href)').getall()
Да
источник

D

Dr. Bot in Scrapy
вместо getall , просто get() будет брать первый . разве нет?
источник

🎱

🎱 in Scrapy
response.css('li.nav-item > div.container > div.row:nth-child(1) ul li a::attr(href)').getall()

пробую так. Видимо неправильный запрос
источник

🎱

🎱 in Scrapy
Dr. Bot
вместо getall , просто get() будет брать первый . разве нет?
просто гет будет возвращать самый первый урл. А мне нужны все которые внутри этого первого див блока
источник

ЛГ

Лев Гареев in Scrapy
всегда казалось, что xpath удобнее
источник