Телеграмм чат группы scrapy

смотри текст либо через Ctrl+U либо через scrapy shell

21:20пожаловаться #1

A

Спасибо.

21:20пожаловаться #2

A

Не очень понимаю, как мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:

{
"mainpage_info":<str>
"reports":
["report1":<str>
 "speaker":
  {
    "speaker_1":<str>
    "speaker_n":<str>
  },
 'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...

21:58пожаловаться #3

A

Andrii in Scrapy

Не очень понимаю, как мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:

{
"mainpage_info":<str>
"reports":
["report1":<str>
 "speaker":
  {
    "speaker_1":<str>
    "speaker_n":<str>
  },
 'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...

Для начала рекомендую прочитать про хпатч или цсс

22:01пожаловаться #4

AR

Не очень понимаю, как мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:

{
"mainpage_info":<str>
"reports":
["report1":<str>
 "speaker":
  {
    "speaker_1":<str>
    "speaker_n":<str>
  },
 'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...

а что именно непоятно?

22:07пожаловаться #5

A

Andrey Rahmatullin

а что именно непоятно?

Я понял как закинуть вопрос в гугл и разобрался как обходить разные страницы.
А вот как мне все это в итемы сложить? У меня ведь будут постоянно перезаписываться данные, которые я соберу?
То есть, вот пришел я на страницу с докладами, вытащил там первый линк, записал в условный report['report_link'] = response.xpath(<>).get(), пошел на следующую страницу вглубь, собрал там данные, тоже их как-то записал. Вернулся обратно, снова взял ссылку, она же у меня перезапишется по тому же ключу?

22:12пожаловаться #6

AR

скрапи вообще не так работает

22:13пожаловаться #7

AR

ты туториал читал?

22:13пожаловаться #8

A

Было дело. Видимо, надо внимательнее.

22:14пожаловаться #9

МС

Было дело. Видимо, надо внимательнее.

угу, это да
время жизни айтема в классе паука должно ограничивается методом "parse" (я сейчас про общий случай)

22:15пожаловаться #10

A

Михаил Синегубов

угу, это да
время жизни айтема в классе паука должно ограничивается методом "parse" (я сейчас про общий случай)

Ага, то есть, мне надо это дело где-то рядом сохранять на каждой итерации.

22:16пожаловаться #11

МС

бляяяяя🙊,

22:17пожаловаться #12

AR

нет, достаточно передавать между реквестами

22:17пожаловаться #13

A

Михаил Синегубов

бляяяяя🙊,

Все, перестал писать, пошел читать.

22:17пожаловаться #14

МС

@wrar42 не помнишь. где на скрапингхабе туторы были, там пошагово практически

22:18пожаловаться #15

AR

не знаю

22:18пожаловаться #16

МС

Все, перестал писать, пошел читать.

не кидайся сделать все сразу
1. у тебя есть данные, которые ты можешь получить без доп запросов - научись вытаскивать и сохранять эти данные.
2. дальше - тебе понадобилось выдернуть расширенные данные доп запросом. Теперь уже разбирайся как тебе пропросить айтем в реквесте

и да, не надо хранить данные внутри паука. Для начала прими за аксиому -айтем живет в пределах метода, в конце метода yeld item и все, в классе паука айтем здох

22:31пожаловаться #17

МС

у тебя, чую, больше проблема в том, что бы кинулся делать все сразу, не зная скрапи и не особо ориентируясь вообще в парсинге - чудес не бывает, начинай с меньшего

22:32пожаловаться #18

A

Спасибо. В целом, не без этого, но проясняется, вроде бы.

22:50пожаловаться #19

2020 November 06

И

Илья in Scrapy

Всем привет