Size: a a a

2020 November 04

A

AstralRomance in Scrapy
SoHard 🎄
Вытащи текст и запихни в словарь
extract() же сразу все, что внутри лежит, списком возвращает. Мне get нужен, а дальше просто итерироваться сверху вниз?
источник

A

AstralRomance in Scrapy
В смысле, итерироваться по class=a, а внутри таскать нужные мне штуки из тегов?
источник

S

SoHard 🎄 in Scrapy
AstralRomance
extract() же сразу все, что внутри лежит, списком возвращает. Мне get нужен, а дальше просто итерироваться сверху вниз?
extract_first и get это одно и тоже
источник

AR

Andrey Rahmatullin in Scrapy
AstralRomance
В смысле, итерироваться по class=a, а внутри таскать нужные мне штуки из тегов?
да
источник

A

Andrii in Scrapy
Extract_first* = get, extract = getall
источник

A

AstralRomance in Scrapy
Что я здесь делаю не так?  Получаю пустое значение по ключу. Оно даже в цикл не входит,
for frame in response.xpath('//div[@class=schedule__talk]'):
           authors_and_reports['report'] = frame.xpath('//a[@class="link schedule__link"]/text()').extract()
источник

МС

Михаил Синегубов... in Scrapy
Как минимум, использовать относительный xpath
Должно начинаться с точки.
Остальное - без самой страницы ничего не скажешь
источник

A

AstralRomance in Scrapy
Михаил Синегубов
Как минимум, использовать относительный xpath
Должно начинаться с точки.
Остальное - без самой страницы ничего не скажешь
Точно могу сказать, что link schedule__link лежит внутри schedule__talk.
Но у меня почему-то даже если пытаться schedule__talk доставать, получается пустой список.
источник

МС

Михаил Синегубов... in Scrapy
Ай, составной класс, нафуй xpath.
К слову, там доп пробел может быть
источник

A

AstralRomance in Scrapy
Михаил Синегубов
Ай, составной класс, нафуй xpath.
К слову, там доп пробел может быть
Не, я пробовал сам link schedule__talk доставать, он доставался.
Мне хочется из одной "ячейки" со страницы доставать название + авторов. Авторов может быть несколько, и если доставать раздельно, при первой же ситуации с двумя авторами, все закономерно едет.
Поэтому я хочу итерироваться по контейнерам, под которыми лежат нужные мне штуки, после чего из каждой ячейки вытягивать нужное.
источник

A

Andrii in Scrapy
Скобки где в значении класа? for frame in response.xpath('//div[@class====> schedule__talk <==]')
источник

A

Andrii in Scrapy
Короче, много ошибок
источник

A

AstralRomance in Scrapy
Andrii
Скобки где в значении класа? for frame in response.xpath('//div[@class====> schedule__talk <==]')
А ведь. Спасибо.
источник
2020 November 05

TL

Taras Lito in Scrapy
Привет! Подскажите пожалуйста, мне некогда не доводилось раньше скрапить в больших объемах. Сейчас надо поскрапить пару десятков тисяч страниц из сайта и повторять эту операцию раз на день-два. Задумался о прокси, чтобы не улететь в баню. Поресерчил, нагуглил
scrapy-rotating-proxies
. С парочки реп в гите слизал несколько тысяч свободных проксей. Скрапи у меня на стандартных сетингах, только со
scrapy-user-agents
. Без проксей скрапит страниц 50 секунд за 5-10 на взгляд на моей тачанке в дебаге. С проксями может минут по пять тупить чтобы просто одну проксю перекинуть с
unchecked
в
good, dead, reanimated
. Оставлял на пару часов, в результате соскрапил страниц 50.

Вопросы следующие:
- как это дело разогнать?
- до каких скоростей можно разогнать?
- и за счет чего?

Сетниги проксей у меня такие если что:
 'rotating_proxies.middlewares.RotatingProxyMiddleware': 560,
   'rotating_proxies.middlewares.BanDetectionMiddleware': 570


Низко кланяюсь всем, кто поделится опытом, советами, подсказаками.
источник

AR

Andrey Rahmatullin in Scrapy
Свободные прокси работать не обязаны
источник

AR

Andrey Rahmatullin in Scrapy
Разогнать, купив прокси
источник

TL

Taras Lito in Scrapy
Есть провереные мерчанты?
источник

МС

Михаил Синегубов... in Scrapy
Taras Lito
Есть провереные мерчанты?
1. учим использование поиска по чатику
2. пару десятков тыс это не "большие объемы". Точно нужны прокси?
источник

TL

Taras Lito in Scrapy
ну как бы прикол в том что повторять эту операцию раз на день-два... я думаю с такой то периодичностью можно засечь и забанить, если все запросы с одного айпи лететь будут каждый день?
источник

AR

Andrey Rahmatullin in Scrapy
Можно, но не все будут
источник