Телеграмм чат группы scrapy

в туториале нет сайтмапа никакого

15:17пожаловаться #1

https://docs.scrapy.org/en/latest/intro/tutorial.html#following-links

15:17пожаловаться #2

СК

Господа! Подскажите, пожалуйста, никто не парсил avito? Я пробую парсить их с использование прокси-серверов. Подставил user-agent. Но все равно авито отвечает мне 403 кодом. При это если я использую этот же прокси-сервер с запросом через браузер - запрос проходит нормально

17:15пожаловаться #3

СК

может кто сталкивался?

17:15пожаловаться #4

СК

как они определяют, что их парсят?

17:15пожаловаться #5

Последнюю неделю тут только его и парсят

17:15пожаловаться #6

СК

так... И если не секрет, то какие на текущий момент выводы? Если в кратце и если не сложно объяснить

17:16пожаловаться #7

Кирилл in Scrapy

Перечитай чат, там все есть

17:17пожаловаться #8

Что-то там про тлс 😀

17:17пожаловаться #9

СК

Спасибо

19:21пожаловаться #10

i in Scrapy

"На небе только и разговоров, что о море"

Авито — объявления в России — Объявления на сайте Авито

23:43пожаловаться #11

i in Scrapy

Переслано от i

ну а так да, шифры отправлять не надо, достаточно
scrapy shell https://www.avito.ru -s DOWNLOADER_CLIENT_TLS_METHOD='TLSv1.2'

www.avito.ru

Выгодно покупайте и продавайте авто, недвижимость и вещи в России. Находите надёжных исполнителей и работу. Самый популярный сервис объявлений в России.

23:44пожаловаться #12

i in Scrapy

Семён Кашин

Спасибо

Этого достаточно. А то там обсуждения на пол вечера)

23:44пожаловаться #13

2020 October 28

СК

Этого достаточно. А то там обсуждения на пол вечера)

Да. Я нашел вчера

07:52пожаловаться #14

🎱

🎱 in Scrapy

подскажите, мне нужно взять все урлы из первого

div class="col-lg-4"

их тут 3. Мне нужно урлы только с 1.
Нужно как-то заюзать nth-child?

response.css('li.nav-item > div.container > div.row ul li a::attr(href)').getall()

15:20пожаловаться #15

Кирилл in Scrapy

🎱

подскажите, мне нужно взять все урлы из первого

div class="col-lg-4"

их тут 3. Мне нужно урлы только с 1.
Нужно как-то заюзать nth-child?

response.css('li.nav-item > div.container > div.row ul li a::attr(href)').getall()

Да

15:20пожаловаться #16

Dr. Bot in Scrapy

вместо getall , просто get() будет брать первый . разве нет?

15:21пожаловаться #17

🎱

🎱 in Scrapy

Кирилл

Да

response.css('li.nav-item > div.container > div.row:nth-child(1) ul li a::attr(href)').getall()

пробую так. Видимо неправильный запрос

15:21пожаловаться #18

🎱

🎱 in Scrapy

Dr. Bot

вместо getall , просто get() будет брать первый . разве нет?

просто гет будет возвращать самый первый урл. А мне нужны все которые внутри этого первого див блока

15:22пожаловаться #19

ЛГ

Лев Гареев in Scrapy

всегда казалось, что xpath удобнее