Size: a a a

2020 November 05

МС

Михаил Синегубов... in Scrapy
смотри текст либо через Ctrl+U либо через scrapy shell
источник

A

AstralRomance in Scrapy
Спасибо.
источник

A

AstralRomance in Scrapy
Не очень понимаю, как  мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:
{
"mainpage_info":<str>
"reports":
["report1":<str>
"speaker":
 {
   "speaker_1":<str>
   "speaker_n":<str>
 },
'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...
источник

A

Andrii in Scrapy
AstralRomance
Не очень понимаю, как  мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:
{
"mainpage_info":<str>
"reports":
["report1":<str>
"speaker":
 {
   "speaker_1":<str>
   "speaker_n":<str>
 },
'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...
Для начала рекомендую прочитать про хпатч или цсс
источник

AR

Andrey Rahmatullin in Scrapy
AstralRomance
Не очень понимаю, как  мне лучше поступить. Вот есть сайт Джокера. Мне нужно спарсить инфу сначала с главной страницы. Потом перейти на jokerconf.com/schedule/, вытянуть оттуда ссылки на доклады + еще инфу (типа тегов), после чего пойти по ссылке, которую я достал на второй странице, и получить информацию про авторов. В итоге я хочу получить жсон типа:
{
"mainpage_info":<str>
"reports":
["report1":<str>
"speaker":
 {
   "speaker_1":<str>
   "speaker_n":<str>
 },
'report2':<str>
...
]
}

Как мне подобное сделать? Все, что нашел, парсит по сути одинаковые страницы...
а что именно непоятно?
источник

A

AstralRomance in Scrapy
Andrey Rahmatullin
а что именно непоятно?
Я понял как закинуть вопрос в гугл и разобрался как обходить разные страницы.
А вот как мне все это в итемы сложить? У меня ведь будут постоянно перезаписываться данные, которые я соберу?
То есть, вот пришел я на страницу с докладами, вытащил там первый линк, записал в условный report['report_link'] = response.xpath(<>).get(), пошел на следующую страницу вглубь, собрал там данные, тоже их как-то записал. Вернулся обратно, снова взял ссылку, она же у меня перезапишется по тому же ключу?
источник

AR

Andrey Rahmatullin in Scrapy
скрапи вообще не так работает
источник

AR

Andrey Rahmatullin in Scrapy
ты туториал читал?
источник

A

AstralRomance in Scrapy
Было дело. Видимо, надо внимательнее.
источник

МС

Михаил Синегубов... in Scrapy
AstralRomance
Было дело. Видимо, надо внимательнее.
угу, это да
время жизни айтема в классе паука должно ограничивается методом "parse" (я сейчас про общий случай)
источник

A

AstralRomance in Scrapy
Михаил Синегубов
угу, это да
время жизни айтема в классе паука должно ограничивается методом "parse" (я сейчас про общий случай)
Ага, то есть, мне надо это дело где-то рядом сохранять на каждой итерации.
источник

МС

Михаил Синегубов... in Scrapy
бляяяяя🙊,
источник

AR

Andrey Rahmatullin in Scrapy
нет, достаточно передавать между реквестами
источник

A

AstralRomance in Scrapy
Все, перестал писать, пошел читать.
источник

МС

Михаил Синегубов... in Scrapy
@wrar42 не помнишь. где на скрапингхабе туторы были, там пошагово практически
источник

AR

Andrey Rahmatullin in Scrapy
не знаю
источник

МС

Михаил Синегубов... in Scrapy
AstralRomance
Все, перестал писать, пошел читать.
не кидайся сделать все сразу
1. у тебя есть данные, которые ты можешь получить без доп запросов - научись вытаскивать и сохранять эти данные.
2. дальше - тебе понадобилось выдернуть расширенные данные доп запросом. Теперь уже разбирайся как тебе пропросить айтем в реквесте

и да, не надо хранить данные внутри паука. Для начала прими за аксиому -айтем живет в пределах метода, в конце метода yeld item и все, в классе паука айтем здох
источник

МС

Михаил Синегубов... in Scrapy
у тебя, чую, больше проблема в том, что бы кинулся делать все сразу, не зная скрапи и не особо ориентируясь вообще в парсинге - чудес не бывает, начинай с меньшего
источник

A

AstralRomance in Scrapy
Спасибо. В целом, не без этого, но проясняется, вроде бы.
источник
2020 November 06

И

Илья in Scrapy
Всем привет
источник