Size: a a a

2020 December 03

i

i in Scrapy
Ruslan aka DUDE
я кстати перешел на scrapy не потомучто он круче
а потомучто bs4 подвел
он съедает данные (исчезают блоки тегов) если страница немного не валидная
тогда как хром нормально справляется с ней
на самом деле ты мог просто другой парсер подключить в bs5, например html5lib, но вообще молодец, что на скрапи ушел, все-равно css/xpath лучше в качестве селекторов)
источник

Ra

Ruslan aka DUDE in Scrapy
i
на самом деле ты мог просто другой парсер подключить в bs5, например html5lib, но вообще молодец, что на скрапи ушел, все-равно css/xpath лучше в качестве селекторов)
Ха! не знал что можно другой парсер подключить
благодарю, буду знать

для мелких задач bs хорошо подходит
но благодаря тому что в srapy можно импортировать только сам селектор (не городить классы) - bs под вопросом)))
источник

РТ

Ренат Турсунбаев... in Scrapy
Для мелких задач requests + lxml 🤘.
источник

D

Dmitry in Scrapy
Спасибо, увлекательное чтиво на 15 минут, как issue тянется с 2014 года, все высказывают крайне умные мысли (включая представителей из Уругвая :), предлагают решения, а воз и ныне там. Поставил лайк на фичу, приятно что я не один такой косой оказывается! Пока самым продуктивным решением мне все еще кажется тупо воткнуть asyncio sleep в колбэк.
источник

МС

Михаил Синегубов... in Scrapy
у тебя прокси жестко назначены запросам и их сменить нельзя?
источник

D

Dmitry in Scrapy
У меня прокси - это сервис. Я кидаю им по апи запрос на смену, если он оказывается в бане. Намного удобней, чем в скрапи вручную все эти ротации менеджить
источник

МС

Михаил Синегубов... in Scrapy
с твоей стороны один адрес а снаружи сервиса уже смена?
источник

D

Dmitry in Scrapy
Ага
источник

МС

Михаил Синегубов... in Scrapy
тогда я не пойму, в чем проблема послать сигнал, когда понял что попал под бан...
те запросы что улетели - один хрен улетели
те запросы что новые - пойдут с новыми IP
источник

A

Andrii in Scrapy
🤷‍♂
источник

D

Dmitry in Scrapy
Фишка в том, что после отправки запроса на смену прокси, надо подождать минуту
источник

МС

Михаил Синегубов... in Scrapy
😐, ох... и чем же но лучше ротатора...
ну, Ок, это уж как хочешь
источник

МС

Михаил Синегубов... in Scrapy
хотя, я бы проста влепил блокирующую паузу, один фиг все что ушло, улетит на помойку 😂
источник

A

Andrii in Scrapy
Ждать на новую проксю 1м ето круто
источник

D

Dmitry in Scrapy
Andrii
Ждать на новую проксю 1м ето круто
Условно минуту - там несколько секунд пауза
источник

D

Dmitry in Scrapy
Михаил Синегубов
хотя, я бы проста влепил блокирующую паузу, один фиг все что ушло, улетит на помойку 😂
Ну вот я и спросил, блокинг слип там ничего не поломает в этих реакторах ваших. А так да, "не отлично, но и не ужасно" :)
источник

К

Кирилл in Scrapy
Почему бы он должен поломать?
источник

МС

Михаил Синегубов... in Scrapy
Dmitry
Ну вот я и спросил, блокинг слип там ничего не поломает в этих реакторах ваших. А так да, "не отлично, но и не ужасно" :)
хз, я как кто ставил тупейший слип, вроде работало, прям ничего ужасного вреде не увидел, кроме дичайшего падения скорости. Так что тогда забил и купил прокси 😆
источник

A

Andrii in Scrapy
Кстати по люминати ничего не понимаю, то пол проксяк в бане, а последнюю неделю ну прям все в вайт листе
источник

К

Кирилл in Scrapy
Сложно там что-то понять, на то это и пул, кто и как его юзает ты не узнаешь
источник