Всем привет.
Я не понимаю, как работает CrawlSpider, Rule и LinkExtractor в Скрапи.
Посмотрим, на примере интернет магазина.
Это просто первый сайт, который нашел в поисковике, можете объяснить на любом другом, суть не важна.
Главная ссылка -
https://www.abercrombie.com/shop/wd/mensИдем в категорию -
https://www.abercrombie.com/shop/wd/mens-new-arrivalsИ здесь еще есть подкатегории -
https://www.abercrombie.com/shop/wd/mens-tops-new-arrivals -
наконец-то одежда наша.
rules = (
Rule(LinkExtractor(
restrict_xpaths='//div[@class="grid-nav__items-list"]//@href')),
Rule(LinkExtractor(
restrict_xpaths='//*[@class="product-grid__col--major"]//@href'
), callback='parse'),
)
Если я правильно понимаю документацию(но мне кажется, что нет, так как не работает ничего =))
restrict_xpaths показывает нам урлы с главной страницы, затем идет по этим категориям, икспас нам ссылки на урлы на категории дает и к подкатегориям, я правильно понимаю, что это правило икспас, в общем скрапи будет идти в глубь и в глубь, пока может, а затем вернется второй restrict_xpaths, где есть и колбэк и отдаст нам данные функция парс.
Правильно? Или нет? В общем надеюсь на вашу помощь.
Всем спасибо.