Телеграмм чат группы scrapy

21:41пожаловаться #1

🎱

Andrey Rahmatullin

ну там хедер

а как тогда можно было бы, только нужные классы взять?
в моем случае, gridRow и gridAltRow

22:13пожаловаться #2

разные есть способы, один в общем-то сразу предложили

22:19пожаловаться #3

🎱

да, но там gridHeader и gridPager. В принципе наверное можно слайсом воспользоваться и начать итерироваться со 2 элемента

22:22пожаловаться #4

а, эти тоже матчатся, ну да

22:22пожаловаться #5

ну можно просто два селектора через запятую

22:22пожаловаться #6

🎱

Andrey Rahmatullin

ну можно просто два селектора через запятую

а как это выглядит, можно по подробнее ?
в SO такой вариант нашел

article['title'] = response.css("p.title ::text").extract() + \
                   response.css("span.newstitle ::text").extract()

22:26пожаловаться #7

лол

22:27пожаловаться #8

ну как, как обычно выглядит цсс селектор для двух вариантов

22:27пожаловаться #9

.foo, .bar

22:27пожаловаться #10

🎱

Andrey Rahmatullin

ну как, как обычно выглядит цсс селектор для двух вариантов

а понял)

Well organized and easy to understand Web building tutorials with lots of examples of how to use HTML, CSS, JavaScript, SQL, PHP, Python, Bootstrap, Java and XML.

22:28пожаловаться #11

ildar in Scrapy

🎱

а как это выглядит, можно по подробнее ?
в SO такой вариант нашел

article['title'] = response.css("p.title ::text").extract() + \
                   response.css("span.newstitle ::text").extract()

начни лучше с этого, а потом уже SO: https://www.w3schools.com/cssref/css_selectors.asp

W3Schools

CSS Selectors Reference

23:12пожаловаться #12

🎱

а как правильно извлекать данные с td элемента если нет класса?

23:13пожаловаться #13

🎱

Well organized and easy to understand Web building tutorials with lots of examples of how to use HTML, CSS, JavaScript, SQL, PHP, Python, Bootstrap, Java and XML.

ildar

начни лучше с этого, а потом уже SO: https://www.w3schools.com/cssref/css_selectors.asp

W3Schools

CSS Selectors Reference

спс за ссылку,

response.css('tr[class*="grid"]:not([class*="gridHeader"]):not([class*="gridPager"])')

нашел такой вариант

23:13пожаловаться #14

🎱

Well organized and easy to understand Web building tutorials with lots of examples of how to use HTML, CSS, JavaScript, SQL, PHP, Python, Bootstrap, Java and XML.

ildar

начни лучше с этого, а потом уже SO: https://www.w3schools.com/cssref/css_selectors.asp

W3Schools

CSS Selectors Reference

полезно, буду изучать

23:14пожаловаться #15

🎱

🎱

а как правильно извлекать данные с td элемента если нет класса?

пока в голову пришел вариант, с помощью индекса извлекать

city = grid.css('td::text').getall()[3]
date =  grid.css('td::text').getall()[4]

хз насколько правильно так делать

23:19пожаловаться #16

ildar in Scrapy

ну либо ты где-то сверху-снизу находишь что-то и "закрепившись" об него уже идешь по td (находишь класс а дальше уже td в цикле перебираешь), или сам td определяешь по параметрам, типа:
response.css('.supplement-facts-container').css('td:contains("онтейнере")::text,td:contains("ontainer")::text').get()
Почитай еще в faq еще про selectorgadget - очень полезная штука - я прям иногда офигевал с того, шо он там выдумывает как какой-нибудь элемент получить и про html_text, тоже иной раз помогает, особенно если frozen set переопределить по одинарным и двойным переносам как тебе надо, иногда можно почти идеально-отформатированный текст вытащить

23:24пожаловаться #17

🎱

а как правильно извлекать данные с td элемента если нет класса?

по номеру, если один и тот же

23:55пожаловаться #18

:nth-child

23:55пожаловаться #19

2020 April 08

quavo in Scrapy

Здравствуйте. Хотел уточнить по lxml и xpath
у меня есть блок, в котором лежат необходимые данные в нескольких блоках
как мне лучше их доставать? циклами? Т.е. из элемента html получаю циклом все основные блоки, а дальше внутри этого цикла прохожусь по элементам блока?

Можно ли как-то распаковкой получить все элементы из блока, чтобы сделать все в один цикл?