Size: a a a

2018 June 21

B

Bulatbulat48 in Scrapy
Пройдет по урлам  //div[@class="grid-nav__items-list"]//@href
источник

B

Bulatbulat48 in Scrapy
Danil Denysenko
Разве это не создатели "скрапи"?
Вроде они
источник

C

Cyberdine Engineering🐤 in Scrapy
Bulatbulat48
и лучше не указывать callback на parse, callback='parse_item'
Почему?
источник

B

Bulatbulat48 in Scrapy
вообще я не уверен, надо доку читнуть, но оно обычно юзается как дефолтная функция
источник

MS

Misha Smirnov in Scrapy
Bulatbulat48
Misha принимай ответ)))
Да, я понимаю, что это все коммерческое но мало ли, раз уж scrappinghub так добры может есть ещё энтузиасты))
источник

NK

ID:507308625 in Scrapy
Bulatbulat48
Пройдет по урлам  //div[@class="grid-nav__items-list"]//@href
и что дальше?
источник

B

Bulatbulat48 in Scrapy
И закинет в твою функцию эти страницы
источник

B

Bulatbulat48 in Scrapy
parse
источник

NK

ID:507308625 in Scrapy
Bulatbulat48
И закинет в твою функцию эти страницы
не думаю, там ведь колбэк не указан)
источник
2018 June 22

B

Bulatbulat48 in Scrapy
Bulatbulat48
Rule(LinkExtractor(
restrict_xpaths='//*[@class="product-grid__col--major"]//@href'
), callback='parse'),

по-идеи Scrapy отдаст в parse эти страницы
Вот же указан
источник

NK

ID:507308625 in Scrapy
👍
источник

DD

Danil Denysenko in Scrapy
Подскажите, пожалуйста. Есть несколько вопросов:
1. В чем преимущество Xpath против того же bs4?
2. Вместо selenium'a кто-то использовал  nightmare? Есть преимущества какие-то?
3. Какую БД лучше использовать, если нужно хранить данные?
4. Я обычно писал отдельные пауки. Если нужно делать целый проект, где будет множество сайтов, и соответственно пауков. Как это делается?
источник

DD

Danil Denysenko in Scrapy
Спасибо:)
источник

NK

ID:507308625 in Scrapy
Danil Denysenko
Подскажите, пожалуйста. Есть несколько вопросов:
1. В чем преимущество Xpath против того же bs4?
2. Вместо selenium'a кто-то использовал  nightmare? Есть преимущества какие-то?
3. Какую БД лучше использовать, если нужно хранить данные?
4. Я обычно писал отдельные пауки. Если нужно делать целый проект, где будет множество сайтов, и соответственно пауков. Как это делается?
1. никаких, кому как удобнее. по крайней мере не нужно лишний раз пип инсталл делать) а так разницы нет.
источник

NK

ID:507308625 in Scrapy
2. нет, думаю, что преимуществ и нет как таковых. но погуглю ради любопытства
источник

MS

Misha Smirnov in Scrapy
ID:507308625
2. нет, думаю, что преимуществ и нет как таковых. но погуглю ради любопытства
малость перебил, извиняюсь, надеюсь сразу поправишь))
источник

MS

Misha Smirnov in Scrapy
Danil Denysenko
Подскажите, пожалуйста. Есть несколько вопросов:
1. В чем преимущество Xpath против того же bs4?
2. Вместо selenium'a кто-то использовал  nightmare? Есть преимущества какие-то?
3. Какую БД лучше использовать, если нужно хранить данные?
4. Я обычно писал отдельные пауки. Если нужно делать целый проект, где будет множество сайтов, и соответственно пауков. Как это делается?
Может отвечу несовсем корректно, надеюсь если что поправят..
1)xpath-язык запросов к xml (ну и следовательно к html) bs4(не использовал) - написано что библиотека для получения данных из html и xml, то есть не совсем понимаю как их можно сравнить))
2)не использовал не могу сказать
3)зависит от данных, если просто каталог и связей нет, то nosql (в случае со скрапи там есть модуль с mongodb) если есть отношения между данными то любую реляционную, однако в сами бд я не силен, есть еще разновидности (например колоночные) тут нужно более конкретно поставить вопрос
4)я точно не уверен, но слышал есть связка с django и видос на ютубе где чел показывает что-то типо окружения (scrapy django item вроде называется)
источник
2018 June 23

N

Nazar in Scrapy
Коллеги, всем привет!(простите!)
источник

N

Nazar in Scrapy
Подскажите пожалуйста, чядн
источник

N

Nazar in Scrapy
Есть xpath запрос //div[@class='paginator']/*/a[position()>last()-2] который возвращает результат в виде чисел, то бишь текс в ссылке.
scrapy же response.xpath("//div[@class='paginator']/*/a[position()>last()-2]") возвращает сами линки и не ясно, как добраться до текста
источник