Size: a a a

2020 April 07

i

ildar in Scrapy
Похоже нашли))
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
ну там хедер
а как тогда можно было бы,  только нужные классы взять?
в моем случае, gridRow и gridAltRow
источник

AR

Andrey Rahmatullin in Scrapy
разные есть способы, один в общем-то сразу предложили
источник

🎱

🎱 in Scrapy
да, но там gridHeader и gridPager. В принципе наверное можно слайсом воспользоваться и начать итерироваться со 2 элемента
источник

AR

Andrey Rahmatullin in Scrapy
а, эти тоже матчатся, ну да
источник

AR

Andrey Rahmatullin in Scrapy
ну можно просто два селектора через запятую
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
ну можно просто два селектора через запятую
а как это выглядит, можно по подробнее ?
в SO такой вариант нашел
article['title'] = response.css("p.title ::text").extract() + \
                  response.css("span.newstitle ::text").extract()
источник

AR

Andrey Rahmatullin in Scrapy
лол
источник

AR

Andrey Rahmatullin in Scrapy
ну как, как обычно выглядит цсс селектор для двух вариантов
источник

AR

Andrey Rahmatullin in Scrapy
.foo, .bar
источник

🎱

🎱 in Scrapy
Andrey Rahmatullin
ну как, как обычно выглядит цсс селектор для двух вариантов
а понял)
источник

i

ildar in Scrapy
🎱
а как это выглядит, можно по подробнее ?
в SO такой вариант нашел
article['title'] = response.css("p.title ::text").extract() + \
                  response.css("span.newstitle ::text").extract()
начни лучше с этого, а потом уже SO: https://www.w3schools.com/cssref/css_selectors.asp
источник

🎱

🎱 in Scrapy
а как правильно извлекать данные с  td элемента если нет класса?
источник

🎱

🎱 in Scrapy
спс за ссылку,
response.css('tr[class*="grid"]:not([class*="gridHeader"]):not([class*="gridPager"])')

нашел такой вариант
источник

🎱

🎱 in Scrapy
полезно, буду изучать
источник

🎱

🎱 in Scrapy
🎱
а как правильно извлекать данные с  td элемента если нет класса?
пока в голову пришел вариант, с помощью индекса извлекать
city = grid.css('td::text').getall()[3]
date =  grid.css('td::text').getall()[4]
хз насколько правильно так делать
источник

i

ildar in Scrapy
ну либо ты где-то сверху-снизу находишь что-то и "закрепившись" об него уже идешь по td (находишь класс а дальше уже td в цикле перебираешь), или сам td определяешь по параметрам, типа:
response.css('.supplement-facts-container').css('td:contains("онтейнере")::text,td:contains("ontainer")::text').get()
Почитай еще в  faq еще про selectorgadget - очень полезная штука - я прям иногда офигевал с того, шо он там выдумывает как какой-нибудь элемент получить и про html_text, тоже иной раз помогает, особенно если frozen set  переопределить по одинарным и двойным переносам как тебе надо, иногда можно почти идеально-отформатированный текст вытащить
источник

AR

Andrey Rahmatullin in Scrapy
🎱
а как правильно извлекать данные с  td элемента если нет класса?
по номеру, если один и тот же
источник

AR

Andrey Rahmatullin in Scrapy
:nth-child
источник
2020 April 08

q

quavo in Scrapy
Здравствуйте. Хотел уточнить по lxml и xpath
у меня есть блок, в котором лежат необходимые данные в нескольких блоках
как мне лучше их доставать? циклами? Т.е. из элемента html получаю циклом все основные блоки, а дальше внутри этого цикла прохожусь по элементам блока?


Можно ли как-то распаковкой получить все элементы из блока, чтобы сделать все в один цикл?
источник