я кстати перешел на scrapy не потомучто он круче а потомучто bs4 подвел он съедает данные (исчезают блоки тегов) если страница немного не валидная тогда как хром нормально справляется с ней
на самом деле ты мог просто другой парсер подключить в bs5, например html5lib, но вообще молодец, что на скрапи ушел, все-равно css/xpath лучше в качестве селекторов)
на самом деле ты мог просто другой парсер подключить в bs5, например html5lib, но вообще молодец, что на скрапи ушел, все-равно css/xpath лучше в качестве селекторов)
Ха! не знал что можно другой парсер подключить благодарю, буду знать
для мелких задач bs хорошо подходит но благодаря тому что в srapy можно импортировать только сам селектор (не городить классы) - bs под вопросом)))
Спасибо, увлекательное чтиво на 15 минут, как issue тянется с 2014 года, все высказывают крайне умные мысли (включая представителей из Уругвая :), предлагают решения, а воз и ныне там. Поставил лайк на фичу, приятно что я не один такой косой оказывается! Пока самым продуктивным решением мне все еще кажется тупо воткнуть asyncio sleep в колбэк.
У меня прокси - это сервис. Я кидаю им по апи запрос на смену, если он оказывается в бане. Намного удобней, чем в скрапи вручную все эти ротации менеджить
тогда я не пойму, в чем проблема послать сигнал, когда понял что попал под бан... те запросы что улетели - один хрен улетели те запросы что новые - пойдут с новыми IP
Ну вот я и спросил, блокинг слип там ничего не поломает в этих реакторах ваших. А так да, "не отлично, но и не ужасно" :)
хз, я как кто ставил тупейший слип, вроде работало, прям ничего ужасного вреде не увидел, кроме дичайшего падения скорости. Так что тогда забил и купил прокси 😆