Size: a a a

2020 November 09

S

SoHard 🎄 in Scrapy
AstralRomance
Это, в целом, имеет смысл и даже решает проблему, но, как говорится "почему так"?
Потому что сайт так запрограммирован
источник

A

AstralRomance in Scrapy
И ведь не поспоришь.
источник

A

Andrii in Scrapy
Ну наверное ето не пейдж, а директори
источник

К

Кирилл in Scrapy
Не нужно в этом искать смысл, просто бывают делают окончание со слешом, а бывает без. Особенно тупые миксуют эти два варианта
источник

AR

Andrey Rahmatullin in Scrapy
AstralRomance
В питоне рядом проверил, ссылки только наличием слеша отличаются.
DEBUG: Redirecting (301) to <GET https://2019.jokerconf.com/2019/talks/3cesz7vgx6oybg3mn3lsf/> from <GET https://2019.jokerconf.com/2019/talks/3cesz7vgx6oybg3mn3lsf>
в браузере тоже редиректит
источник

AR

Andrey Rahmatullin in Scrapy
проблема высосана из пальца
источник

OS

Oleg Shleiko in Scrapy
Всем привет. А подскажите плз есть ли способ запуская паука через скрапид подкинуть ему урлы на парсинг?
источник

S

SoHard 🎄 in Scrapy
Oleg Shleiko
Всем привет. А подскажите плз есть ли способ запуская паука через скрапид подкинуть ему урлы на парсинг?
Из базы брать?
источник

A

Andrii in Scrapy
Передавать урл с файла
источник

OS

Oleg Shleiko in Scrapy
SoHard 🎄
Из базы брать?
не, у меня воркер который запускает эти урлы из очередей будет брать
источник

AR

Andrey Rahmatullin in Scrapy
Ну раз через аргументы будет громоздко, а бд нет, пиши в файлы
источник

OS

Oleg Shleiko in Scrapy
Andrey Rahmatullin
Ну раз через аргументы будет громоздко, а бд нет, пиши в файлы
у аргументов фиксированная длина?
источник

AR

Andrey Rahmatullin in Scrapy
Зависит от ОС,  но если там полтора урла на джоб, то конечно можно не париться
источник

OS

Oleg Shleiko in Scrapy
Andrey Rahmatullin
Зависит от ОС,  но если там полтора урла на джоб, то конечно можно не париться
понял, спасибо
источник

АМ

Антон Магурский... in Scrapy
Товарищи, подскажите, плиз: для экономии прокси трафика какие инструменты можете посоветовать? Я пока поставил триальную версию NetBalancer-a для контроля трафика, думаю можно и беЗплатные аналоги найти. Но как бы так сделать, чтоб мой браузер не закачивал тонны картинок с портала, а читал только текст? Может как-то кеширование организовать можно, зайдя заранее этим же браузером на страницу и загрузив основной контент?
источник

A

Andrii in Scrapy
Ем? Тебе для парсинга или серфинга?
источник

АМ

Антон Магурский... in Scrapy
Наверно для парсинга. Просто ещё сам процесс Парсинга не ковырял, не хочу соврать. У меня есть туториал по парсингу, никак не доберусь. Пока селениум изучаю. Короче мне надо зайти на портал, потратив самое минимальное количество трафика, и там залогиниться, может создать тему на форуме или написать отзыв о товаре, такого плана.
источник

К

Кирилл in Scrapy
Антон Магурский
Наверно для парсинга. Просто ещё сам процесс Парсинга не ковырял, не хочу соврать. У меня есть туториал по парсингу, никак не доберусь. Пока селениум изучаю. Короче мне надо зайти на портал, потратив самое минимальное количество трафика, и там залогиниться, может создать тему на форуме или написать отзыв о товаре, такого плана.
Отключи загрузку изображений в селениуме
источник

АМ

Антон Магурский... in Scrapy
Тут вопрос в том, что селениум управляет браузером. А вот как браузеру сказать чтоб он не загружал изображения, я и пытаюсь разобраться. Я могу селениумом «найти css локатор», нажать на кнопку. Но как сделать так, чтоб браузер открыл страницу, не загружая картинки оттуда - пока не нашёл.
источник

АМ

Антон Магурский... in Scrapy
Нашёл вот статью про отложенную загрузку изображений, но чё-то сложновато пока идёт материал. Такое впечатление что надо неск дней лопатить ресурсы прежде чем что-то попадётся толковое. Вот и решил спросить вдруг есть у кого уже проверенные способы.
источник