Size: a a a

2018 June 11

DD

Danil Denysenko in Scrapy
а у тебя сколько будет?)
источник

B

Bulatbulat48 in Scrapy
хз
источник

B

Bulatbulat48 in Scrapy
может сразу буду спецов искать
источник

B

Bulatbulat48 in Scrapy
пока не понятно
источник

DD

Danil Denysenko in Scrapy
Понял. Пиши , если что
источник

B

Bulatbulat48 in Scrapy
ок
источник

C

Cyberdine Engineering🐤 in Scrapy
Bulatbulat48
а где ГО вообще используется?
В высоконагружденных серверных решениях где нужно задействовать все мощности железа
источник

C

Cyberdine Engineering🐤 in Scrapy
Короче хай лоад
источник

C

Cyberdine Engineering🐤 in Scrapy
Bulatbulat48
у меня возможно скоро стажировки по скрапи будут
Есть вакансии конкретно под скрепи?)
источник

B

Bulatbulat48 in Scrapy
Cyberdine Engineering🐤
Есть вакансии конкретно под скрепи?)
возможно скоро будут
источник

C

Cyberdine Engineering🐤 in Scrapy
Bulatbulat48
возможно скоро будут
А я как раз вчера подумал о создании опен сорса , - сайт, который принимает ссылку на другой сайт и парсит его
источник

C

Cyberdine Engineering🐤 in Scrapy
Находит все теги. Ты простогалочки ставишь что тебе нужно спарсить
источник

B

Bulatbulat48 in Scrapy
а так да под скрепи
источник

N

Nazar in Scrapy
Коллеги, есть небольшой вопрос.
Есть сайт с примерно такой структурой:

site.ru
site.ru/catalog/ - список разделов
site.ru/catalog/12345 (страница раздела)
site.ru/catalog/12345/?PAGEN_1=2 (пагинация)
site.ru/catalog/12345/12345 - товар.

Я написал спайдер, спарсил категории и понял(возможно ошибаюсь), что достучаться до товара можно  и без предварительного парсинга каталога с помощью
rules = (
       Rule(LinkExtractor(allow=('',)), callback='parse_page'),
   )
Но не могу понять как именно.

Пример того, что написал:
https://gist.github.com/wavedocs/ee02500a61234f50055a931d7329e66e
источник

B

Bulatbulat48 in Scrapy
Nazar
Коллеги, есть небольшой вопрос.
Есть сайт с примерно такой структурой:

site.ru
site.ru/catalog/ - список разделов
site.ru/catalog/12345 (страница раздела)
site.ru/catalog/12345/?PAGEN_1=2 (пагинация)
site.ru/catalog/12345/12345 - товар.

Я написал спайдер, спарсил категории и понял(возможно ошибаюсь), что достучаться до товара можно  и без предварительного парсинга каталога с помощью
rules = (
       Rule(LinkExtractor(allow=('',)), callback='parse_page'),
   )
Но не могу понять как именно.

Пример того, что написал:
https://gist.github.com/wavedocs/ee02500a61234f50055a931d7329e66e
Это crawlspider, по allow - разрешает парсить, у тебя вроде все можно
источник

B

Bulatbulat48 in Scrapy
И callback в функцию отправляет
источник

N

Nazar in Scrapy
Bulatbulat48
Это crawlspider, по allow - разрешает парсить, у тебя вроде все можно
Тут мне не понятен момент, как по ссылкам ходить.
источник

B

Bulatbulat48 in Scrapy
В allow ставишь куда ходит
источник

B

Bulatbulat48 in Scrapy
Рядом disallow куда не ходит
источник

B

Bulatbulat48 in Scrapy
Пример кину попозже
источник