Телеграмм чат группы scrapy

//span[contains(@class, 'subheader')]

Михаил Синегубов... in Scrapy

18:17пожаловаться #1

МС

Кирилл

//span[contains(@class, 'subheader')]

не успель 😞

К

ага) я ключевое слово contains тоже нагуглил, но так и не смог высказать точного заклинания. Читал инстуркцию эту https://docs.scrapy.org/en/latest/intro/tutorial.html

вот есть примеры разные https://devhints.io/xpath

Devhints.io cheatsheets

Xpath cheatsheet

$x('//div//p//*') == $('div p *'), $x('//[@id="item"]') == $('#item'), and many other Xpath examples. · One-page guide to Xpath

18:18пожаловаться #3

DO

Daniil Okhlopkov in Scrapy

спасибо всем за помощь)

18:18пожаловаться #4

Ra

Ruslan aka DUDE in Scrapy

Михаил Синегубов

ээээ, а теперь выдохни, сосчитай до 10 и объясни русским языком, что за костыль и нахрена он нужен?

провел тесты и понял что костыль бесполезный, я не учел что scrapy.Selector всё заворачивает в <html><body>...</html></body>

19:06пожаловаться #5

Ra

Ruslan aka DUDE in Scrapy

Михаил Синегубов

и, "костыль", как я понимаю, сооружал прям тут? ибо оно работать не будет.

да там опечатка x

19:07пожаловаться #6

М

Мур in Scrapy

Джентльмены, может вы поможете сориентироваться куда копать, в документации я чёт запутался.
Суть проблемы в том, что пока пишу паука с авторизацией, через FormRequest.from_response, занимаюсь отладкой и каждый раз после того как паук заканчивает работу сессия разрывается и при следующем запуске происходит вход вновь, соответственно все это подозрительно для целевого сайта, постоянная авторизация и разлог. Пытаюсь найти как подставлять куки для того что бы пройдя авторизацию один раз, дальше, просто аутентифицироваться, используя куки с предыдущего входа

19:30пожаловаться #7

К

Мур

Джентльмены, может вы поможете сориентироваться куда копать, в документации я чёт запутался.
Суть проблемы в том, что пока пишу паука с авторизацией, через FormRequest.from_response, занимаюсь отладкой и каждый раз после того как паук заканчивает работу сессия разрывается и при следующем запуске происходит вход вновь, соответственно все это подозрительно для целевого сайта, постоянная авторизация и разлог. Пытаюсь найти как подставлять куки для того что бы пройдя авторизацию один раз, дальше, просто аутентифицироваться, используя куки с предыдущего входа

Тебе нужно сохранять сессию при закрытии паука, а потом при открытии загружать сохраненные кукисы

19:35пожаловаться #8

М

Мур in Scrapy

Кирилл

Тебе нужно сохранять сессию при закрытии паука, а потом при открытии загружать сохраненные кукисы

Понял, сейчас начну копать в этом направлении, спасибо!

19:37пожаловаться #9

К

Если сайт тебя не банит за такое поведение, то не стоит париться

19:38пожаловаться #10

Ra

Ruslan aka DUDE in Scrapy

есть пример

<aaa>
    <b>text in b1</b>
    <aaa>111</aaa>
</aaa>
<aaa>
    <aaa>222</aaa>
    <b>text in b2</b>
</aaa>

делаю

x = selector.xpath('/html/body')

получаю тожесамое но без тега html
делаю x = x.xpath('/body/aaa') - ничего
делаю x = x.xpath('/body/aaa') - ничего

ЧЯДНТ

зато x = x.xpath('aaa') почемуто выдает два вхождения (те что в корне body)

19:39пожаловаться #11

М

Мур in Scrapy

Кирилл

Если сайт тебя не банит за такое поведение, то не стоит париться

Раз на раз не приходится лучше пересираховаться

19:44пожаловаться #12

К

Ruslan aka DUDE

есть пример

<aaa>
    <b>text in b1</b>
    <aaa>111</aaa>
</aaa>
<aaa>
    <aaa>222</aaa>
    <b>text in b2</b>
</aaa>

делаю

x = selector.xpath('/html/body')

получаю тожесамое но без тега html
делаю x = x.xpath('/body/aaa') - ничего
делаю x = x.xpath('/body/aaa') - ничего

ЧЯДНТ

зато x = x.xpath('aaa') почемуто выдает два вхождения (те что в корне body)

Почитай про xpath https://docs.scrapy.org/en/latest/topics/selectors.html#working-with-relative-xpaths

19:45пожаловаться #13

DO

Daniil Okhlopkov in Scrapy

а есть какой-нибудь простой способ скачать данные в виде словаря из последовательности тегов dd,dt, dd,dt ... ?

19:58пожаловаться #14

S

SoHard 🎄 in Scrapy

а есть какой-нибудь простой способ скачать данные в виде словаря из последовательности тегов dd,dt, dd,dt ... ?

да, написать селекторы и записать данные в словарь

19:58пожаловаться #15

DO

Daniil Okhlopkov in Scrapy

SoHard 🎄

да, написать селекторы и записать данные в словарь

да, я понимаю, но это какой-то ненадежный способ: придется каждый нечетный элемент считать за key, а четный - за value.

20:01пожаловаться #16

К

а есть какой-нибудь простой способ скачать данные в виде словаря из последовательности тегов dd,dt, dd,dt ... ?

Какая-то корявая верстка. В dt должны быть тайтлы, а в dd описание

20:05пожаловаться #17

К

да, я понимаю, но это какой-то ненадежный способ: придется каждый нечетный элемент считать за key, а четный - за value.

Каждый dd считать за key и следующий dt за значение. Хоть не факт что на 1 dd приходится только один dt

20:08пожаловаться #18

A

Andrii in Scrapy

Нужно еще один канал xpath for beginners

20:09пожаловаться #19

G

Georgiy in Scrapy

а есть какой-нибудь простой способ скачать данные в виде словаря из последовательности тегов dd,dt, dd,dt ... ?

Примерно так (предполагая, что dt - titles, dd - descriptions):

        dl_data = {}
        active_key = ""
        for tag in response.css("dl dt, dl dd"):
            if tag.root.tag == "dt":
                active_key = tag.css("::text").get()
            elif tag.root.tag == "dd":
                dl_data[active_key] = tag.css("::text").get()