Size: a a a

2018 June 20

B

Bulatbulat48 in Scrapy
Nazar
как с помощью селектора вытащить только див с классом "code" игнорируя див с blabla
источник

B

Bulatbulat48 in Scrapy
div > p
источник

B

Bulatbulat48 in Scrapy
наверное
источник

B

Bulatbulat48 in Scrapy
не пользуюсь селекторами
источник

N

Nazar in Scrapy
хорошая ссылка, спасибо
источник

MS

Misha Smirnov in Scrapy
Добрый вечер! Вопрос может слегка странный, но, есть ли здесь люди кто пробовал написать, аналог portia, только с более мощным функционалом, например как у dexi.io или может кто знает есть ли репозиторий где можно глянуть такое?
источник

N

Nazar in Scrapy
Misha Smirnov
Добрый вечер! Вопрос может слегка странный, но, есть ли здесь люди кто пробовал написать, аналог portia, только с более мощным функционалом, например как у dexi.io или может кто знает есть ли репозиторий где можно глянуть такое?
судя по демке, крутой сервис
источник

MS

Misha Smirnov in Scrapy
Nazar
судя по демке, крутой сервис
Да аналогов много, интересуют какие-то наработки или хоть что-то, как это сделано у умельцев, глядев на код portia примерно идея понятна, но может есть ещё что-то)
источник

B

Bulatbulat48 in Scrapy
@ebadanin не знаешь что-то похожее?
источник
2018 June 21

EB

Elisei Badanin in Scrapy
ну это все для комерческого использования пишется, кто будет выкладывать?
источник

EB

Elisei Badanin in Scrapy
ну у скрапинг хаба есть либа, которой скармливается несколько стираниц и она вытаскивает данные
источник

EB

Elisei Badanin in Scrapy
типа несколько товаров засунули на выходе она находит шаблоны и отдает только данные(цена/название)
источник

B

Bulatbulat48 in Scrapy
Misha принимай ответ)))
источник

DD

Danil Denysenko in Scrapy
Кстати да. Скрапихаб это что?)
источник

DD

Danil Denysenko in Scrapy
Разве это не создатели "скрапи"?
источник

NK

ID:507308625 in Scrapy
Всем привет.

Я не понимаю, как работает CrawlSpider, Rule и LinkExtractor в Скрапи.

Посмотрим, на примере интернет магазина.
Это просто первый сайт, который нашел в поисковике, можете объяснить на любом другом, суть не важна.

Главная ссылка - https://www.abercrombie.com/shop/wd/mens
Идем в категорию - https://www.abercrombie.com/shop/wd/mens-new-arrivals
И здесь еще есть подкатегории - https://www.abercrombie.com/shop/wd/mens-tops-new-arrivals -
наконец-то одежда наша.
rules = ( 
Rule(LinkExtractor(
restrict_xpaths='//div[@class="grid-nav__items-list"]//@href')),
Rule(LinkExtractor(
restrict_xpaths='//*[@class="product-grid__col--major"]//@href'
), callback='parse'),
)

Если я правильно понимаю документацию(но мне кажется, что нет, так как не работает ничего =))
restrict_xpaths показывает нам урлы с главной страницы, затем идет по этим категориям, икспас нам ссылки на урлы на категории дает и к подкатегориям, я правильно понимаю, что это правило икспас, в общем скрапи будет идти в глубь и в глубь, пока может, а затем вернется второй restrict_xpaths, где есть и колбэк и отдаст нам данные функция парс.

Правильно? Или нет? В общем надеюсь на вашу помощь.
Всем спасибо.
источник

B

Bulatbulat48 in Scrapy
Rule(LinkExtractor(
restrict_xpaths='//*[@class="product-grid__col--major"]//@href'
), callback='parse'),

по-идеи Scrapy отдаст в parse эти страницы
источник

B

Bulatbulat48 in Scrapy
источник

B

Bulatbulat48 in Scrapy
и лучше не указывать callback на parse, callback='parse_item'
источник

NK

ID:507308625 in Scrapy
Bulatbulat48
Rule(LinkExtractor(
restrict_xpaths='//*[@class="product-grid__col--major"]//@href'
), callback='parse'),

по-идеи Scrapy отдаст в parse эти страницы
а с первым restrict что будет?
источник