Телеграмм чат группы scrapy

нет, я сильно зеленый и только учусь. Разбираю почастям пока, пока с регулярками и xpath. Просто подумал, что здесь смогут помочь, поэтому сюда написал, т.к. люди знающие сидят

источник

23:26пожаловаться #6

Ромаша in Scrapy

а то гугл чтот не может :(

источник

23:28пожаловаться #7

МС

Михаил Синегубов... in Scrapy

тебе и сказали что сделать
get() - отдает первый наденный элемент
getall() - отдает все элементы

ок, спасибо

i in Scrapy

ну если немного развернуть - суть в том, что get() и getall(), это если ты подключишь селектор из парселя=скормишь этот свой html как-то так ему (вроде), про xpath лично я не уверен никада, я люблю css-селекторы:

from parsel import Selector
sel = Selector(your_html)
your_result = sel.xpath('your_xpath').getall()
joined_result = 'separator'.join(your_result)

источник

23:32пожаловаться #10

i in Scrapy

или если будешь использовать тупо scrapy, и там у тебя будет response, для которого ты сможешь написать lalal = response.css(и так далее

источник

23:33пожаловаться #11

МС

Михаил Синегубов... in Scrapy

еще тримнуть результаты надо, а то часто куча какашек в виде пробелов

источник

23:34пожаловаться #12

Ромаша in Scrapy

👍🏻

источник

23:34пожаловаться #13

i in Scrapy

Да, а ваще читай https://docs.scrapy.org/en/latest/intro/tutorial.html

источник

23:34пожаловаться #14

i in Scrapy

А если не хошь прям угорать сразу по-хардкору, можешь заюзать либу https://github.com/TeamHG-Memex/html-text, ей тоже надо скармливать либо parsel'евый селектор, либо со скрапи респонс (шо по-факту тоже парселем в глубине обрабатывается)

GitHub

TeamHG-Memex/html-text

Extract text from HTML. Contribute to TeamHG-Memex/html-text development by creating an account on GitHub.

источник

23:35пожаловаться #15

Ромаша in Scrapy

круто, спасибо

источник

23:37пожаловаться #16

i in Scrapy

вчера кстати такой же вопрос был, поищи вверх по html-text, там так-же примерно объяснялось, тока со стороны css-селектора.

источник

23:38пожаловаться #17

i in Scrapy

откуда-то отсюда

источник

23:38пожаловаться #18

i in Scrapy

Переслано от Андрей Баштовой...

Можно ли как-то из объекта, который возвращает функция .css(), получить только текст, который внутри тегов?

Например, из такого кода получить "IMDb: 7.7 (41)":


<a href="/help/aHR0cHMlM0ElMkYlMkZ3d3cuaW1kYi5jb20lMkZ0aXRsZSUyRnR0MDA5NzYwMiUyRg==/" target="_blank" rel="nofollow">IMDb</a>: 7.7 (41)

источник

23:38пожаловаться #19

i in Scrapy

хм, чото не получилось кинуть линк на место чато вверх, вобщем, ищи поиском

источник

23:39пожаловаться #20