Size: a a a

2021 April 07

Р

Ромаша in Scrapy
без 50
источник

i

i in Scrapy
ты getall() делаешь?
источник

МС

Михаил Синегубов... in Scrapy
угу, мозг у мну уже решил пойти погулять...
источник

Р

Ромаша in Scrapy
нет
источник

i

i in Scrapy
ну ты же со скрапи работаешь? попробуй вместо get() поставить getall()
источник

Р

Ромаша in Scrapy
нет, я сильно зеленый и только учусь. Разбираю почастям пока, пока с регулярками и xpath. Просто подумал, что здесь смогут помочь, поэтому сюда написал, т.к. люди знающие сидят
источник

Р

Ромаша in Scrapy
а то гугл чтот не может :(
источник

МС

Михаил Синегубов... in Scrapy
тебе и сказали что сделать
get() - отдает первый наденный элемент
getall() - отдает все элементы
источник

Р

Ромаша in Scrapy
ок, спасибо
источник

i

i in Scrapy
ну если немного развернуть - суть в том, что get() и getall(), это если ты подключишь селектор из парселя=скормишь этот свой html как-то так ему (вроде), про xpath лично я не уверен никада, я люблю css-селекторы:
from parsel import Selector
sel = Selector(your_html)
your_result = sel.xpath('your_xpath').getall()
joined_result = 'separator'.join(your_result)
источник

i

i in Scrapy
или если будешь использовать тупо scrapy, и там у тебя будет response, для которого ты сможешь написать lalal = response.css(и так далее
источник

МС

Михаил Синегубов... in Scrapy
еще тримнуть результаты надо, а то часто куча какашек в виде пробелов
источник

Р

Ромаша in Scrapy
👍🏻
источник

i

i in Scrapy
источник

i

i in Scrapy
А если не хошь прям угорать сразу по-хардкору, можешь заюзать либу https://github.com/TeamHG-Memex/html-text, ей тоже надо скармливать либо parsel'евый селектор, либо со скрапи респонс (шо по-факту тоже парселем в глубине обрабатывается)
источник

Р

Ромаша in Scrapy
круто, спасибо
источник

i

i in Scrapy
вчера кстати такой же вопрос был, поищи вверх по html-text, там так-же примерно объяснялось, тока со стороны css-селектора.
источник

i

i in Scrapy
откуда-то отсюда
источник

i

i in Scrapy
Переслано от Андрей Баштовой...
Можно ли как-то из объекта, который возвращает функция .css(), получить только текст, который внутри тегов?

Например, из такого кода получить "IMDb: 7.7 (41)":

<span class="b-post__info_rates imdb">
<a href="/help/aHR0cHMlM0ElMkYlMkZ3d3cuaW1kYi5jb20lMkZ0aXRsZSUyRnR0MDA5NzYwMiUyRg==/" target="_blank" rel="nofollow">IMDb</a>: <span class="bold">7.7</span> <i>(41)</i>
</span>
источник

i

i in Scrapy
хм, чото не получилось кинуть линк на место чато вверх, вобщем, ищи поиском
источник