Size: a a a

2019 July 16

B

Bulatbulat48 in Scrapy
ildar
как понять синхронно? чего это дает? что все вызовы произойдут до выхода из функции что-ли?
да
источник

B

Bulatbulat48 in Scrapy
тоже самое что ты и requests подключишь(но так не надо). Попробуй, я не часто юзаю могу что-то упустить.
источник

i

ildar in Scrapy
ок спасибо, надо будет попробовать на каком-нибудь новом проекте разок
источник

B

Bulatbulat48 in Scrapy
лучше прокинуть в мете
источник

B

Bulatbulat48 in Scrapy
если уже никак не получится, то подключать инлайн_реквесты
источник

AB

A B in Scrapy
в общем заборол я проблему, и всё получилось. если кому интересно, то во втором методе переопределил селектор лодера, и всё стало хорошо: https://pastebin.com/qFYnDLnm
источник

AB

A B in Scrapy
прокидывать в мете я не стал, так как пока не вижу причин делать это. передаю аргументом
источник

M

Morfeus in Scrapy
Всем привет, друзья!

Кто парсер на заказ несложный может написать? ТЗ есть, готов в личку прислать прм сейчас

#нужен_парсер #срочно #help
источник

L

László in Scrapy
Ребят, парсил с Scrapy с авторизацией. Такой вопрос, подключая Splash нужно ли прокидывать авторизацию снова или он подхватывает аторизацию Scrapy?
источник

s

serhii in Scrapy
Morfeus
Всем привет, друзья!

Кто парсер на заказ несложный может написать? ТЗ есть, готов в личку прислать прм сейчас

#нужен_парсер #срочно #help
источник

Ӽ

ӼŝέĽèńԷ in Scrapy
Всем привет. Ребят с хедлесс не работал, так-что сильно не пинайте
источник

Ӽ

ӼŝέĽèńԷ in Scrapy
Хедлесс работает только с селениум?
источник

i

ildar in Scrapy
ӼŝέĽèńԷ
Хедлесс работает только с селениум?
Селениум это драйвер, управляющий браузером. Браузер  может быть в режиме хедлесс. Начиная от устаревшего phantomjs и заканчивая обычным хромом в режиме хедлесс. Или фаерфоксом.  Ну да селениумом можно перевести браузер в этот режим. И селениум самый популярный. А чего сделать то охота?
источник

i

ildar in Scrapy
László
Ребят, парсил с Scrapy с авторизацией. Такой вопрос, подключая Splash нужно ли прокидывать авторизацию снова или он подхватывает аторизацию Scrapy?
По-умолчанию нет, но легко настраивается https://github.com/scrapy-plugins/scrapy-splash/blob/master/README.rst#session-handling
источник

L

László in Scrapy
О, спасибо огромное!
источник

Ӽ

ӼŝέĽèńԷ in Scrapy
ildar
Селениум это драйвер, управляющий браузером. Браузер  может быть в режиме хедлесс. Начиная от устаревшего phantomjs и заканчивая обычным хромом в режиме хедлесс. Или фаерфоксом.  Ну да селениумом можно перевести браузер в этот режим. И селениум самый популярный. А чего сделать то охота?
Хочу написать бота для постинга в facebook  в фоновом режиме, чтоб небыло окон никаких мешающие пользователю.
источник

L

László in Scrapy
ӼŝέĽèńԷ
Хочу написать бота для постинга в facebook  в фоновом режиме, чтоб небыло окон никаких мешающие пользователю.
Апи не позволяет делать постинг?
источник

Ӽ

ӼŝέĽèńԷ in Scrapy
László
Апи не позволяет делать постинг?
Вот честно в сторону API не смотрел
источник
2019 July 17

AB

A B in Scrapy
вопрос по middleware, в какое место лучше всего вывести такую логику. паук в парсит ссылки товаров на странице со списком товаров, и в for loop переходит на товар для сбора детальной инфы по товару. если ссылка на товар уже есть в базе, то переходить по ней для дальнейшего изучения уже не нужно. пока у меня такая проверка происходит в самом теле паука. чую, что это не лучшая практика. куда лучше перенести код?
источник

i

ildar in Scrapy
A B
вопрос по middleware, в какое место лучше всего вывести такую логику. паук в парсит ссылки товаров на странице со списком товаров, и в for loop переходит на товар для сбора детальной инфы по товару. если ссылка на товар уже есть в базе, то переходить по ней для дальнейшего изучения уже не нужно. пока у меня такая проверка происходит в самом теле паука. чую, что это не лучшая практика. куда лучше перенести код?
В скрапи же полно механизмов на предмет не скрапить дубликаты, там иногда наоборот надо задавать по логике, чтобы он несколько раз на одну и ту же страницу зашел,ты их точно используешь? Плюс всякие linkextractor.  Или ты этот спайдер несколько раз запускаешь? Имхо, если это не промышленно, можно и в теле проверять, главное вне цикла for, либо засунуть в signal spider_opened особо по-скорости ты не выиграешь, архитектурно разве что.
источник