Size: a a a

2020 April 04

К

Кирилл in Scrapy
Какое исключение?
источник

И

Илья in Scrapy
Кирилл
Убрать [0]
бывает что есть несколько ссылок, мне нужна только первая. Мне гдето попадалось методами xpath выбрать роследний элемент, а вот первый нет
источник

И

Илья in Scrapy
лист аут оф индекс
источник

AR

Andrey Rahmatullin in Scrapy
get() и так только первую возвращает, алоэ
источник

AR

Andrey Rahmatullin in Scrapy
методами xpath выбрать первый элемент это, натурально, [1]
источник

И

Илья in Scrapy
Andrey Rahmatullin
get() и так только первую возвращает, алоэ
отаноче, спасибо
источник

RG

Roman Gangal in Scrapy
Вот такая ошибка вылезла KeyError: <weakref at 0x7f50a136f138; to 'method' at 0x7f50a0f960c8 (parse_item)>     Кто в курсе, в чем может быть проблема?
источник

AR

Andrey Rahmatullin in Scrapy
Что-то специфическое делаешь
источник

RG

Roman Gangal in Scrapy
Andrey Rahmatullin
Что-то специфическое делаешь
да нет, очень простой парсер. Все эти глюки наблюдаю после переезда на хецнер облако. Походу буду менять на что-то другое. Но вот сейчас обновил openssl до версии 1.1.1 и пока подобных ошибок не наблюдаю
источник

RG

Roman Gangal in Scrapy
Подскажите, есть ли готовые скрипты чтоб сделать свой отдельный ротатор проксей по типу как у Crawlera? Чтоб указывать в парсере только один адрес типа http://proxy.crawlera.com:8010 и при каждом запросе дергалась рандомная прокся. У меня есть список своих проксей, пробовал брать с файла и с базы, но вот удаленный ротатор это то что нужно, и очень удобно. Хотя бы посоветуйте в какую сторону копать?
источник

R

Roma in Scrapy
Переслано от Михаил Синегубов
https://github.com/TeamHG-Memex/scrapy-rotating-proxies/blob/master/rotating_proxies/middlewares.py
строки

посмотри как тут логи прикручены. Он каждый 30 сек плюет INFO в лог
источник

К

Кирилл in Scrapy
самих ротаторов не встречал, но если что-то простенькое, то несложно и написать
источник

iz

izzz zzi in Scrapy
Roman Gangal
Подскажите, есть ли готовые скрипты чтоб сделать свой отдельный ротатор проксей по типу как у Crawlera? Чтоб указывать в парсере только один адрес типа http://proxy.crawlera.com:8010 и при каждом запросе дергалась рандомная прокся. У меня есть список своих проксей, пробовал брать с файла и с базы, но вот удаленный ротатор это то что нужно, и очень удобно. Хотя бы посоветуйте в какую сторону копать?
Что бы на вход была одна прокся тебе нужно понять все это
источник

R

Roma in Scrapy
А разве этот scrapy-rotating-proxies - работает не по этому принципу?
источник

К

Кирилл in Scrapy
по этому, взять принцип, и вынести в отдельный сервис с api
источник

R

Roma in Scrapy
Да я им не пользуюсь - очень уж медленный
источник

R

Roma in Scrapy
свое написано
источник

К

Кирилл in Scrapy
там рандом забит, поэтому медленный, только с низким числом прокси будет норм
источник

RG

Roman Gangal in Scrapy
В чем может быть причина такой ошибки [scrapy.core.downloader.handlers.http11] WARNING: Got data loss in https://site.com. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = False -- This message won't be shown in further requests

Хотя урл при тестах нормально открывается
источник

AR

Andrey Rahmatullin in Scrapy
соединение оборвалось при передаче страницы
источник