Телеграмм чат группы scrapy

2020 October 19

AR

разумеется один, потому что условие в ифе всегда тру

К

у тебя if всегда тру, потому что ты не меняешь урл на что у тебя там в условии. Поэтому тут что есть иф, что нет, одинаково

источник

12:31пожаловаться #2

AR

Andrey Rahmatullin in Scrapy

если не хочешь дебажить дебаггером, учись дебажить глазами

источник

12:32пожаловаться #3

A

AstralRomance in Scrapy

Как мне вытащить текст, который лежит в <a>

<div1>
<div2>
<...>
<div class="ap_col_wrap">
  <a href="link"> text </a>

Пробую так (из шелла):

response.css('.ap_col_wrap a.tag::text').getall()

Паук полностью цепочку div'ов хочет?
Получаю пустой список в ответ.

S

Как мне вытащить текст, который лежит в <a>

<div1>
<div2>
<...>
<div class="ap_col_wrap">
  <a href="link"> text </a>

Пробую так (из шелла):

response.css('.ap_col_wrap a.tag::text').getall()

Паук полностью цепочку div'ов хочет?
Получаю пустой список в ответ.

Что такое a.tag?

источник

20:50пожаловаться #5

A

AstralRomance in Scrapy

SoHard 🎄

Что такое a.tag?

По моим надеждам: <a href="link"> text </a>

S

По моим надеждам: <a href="link"> text </a>

a.tag это a с классом tag

источник

20:51пожаловаться #7

G

Georgiy in Scrapy

попробуй a::text (без .tag)

источник

20:51пожаловаться #8

A

AstralRomance in Scrapy

О, так работает, спасибо большое.

источник

20:52пожаловаться #9

2020 October 20

V

Vitaly in Scrapy

https://github.com/cyluxx/robula-plus
Там еще были публикации/проекты на эту тему. Гуглится по Robust xpath locators. Вполне рабочая история, я юзал.

GitHub

cyluxx/robula-plus

An algorithm for generating robust XPath locators for web testing. - cyluxx/robula-plus

источник

00:09пожаловаться #10

V

Vitaly in Scrapy

Переслано от Alexey Lemeshevski

тут задача немного другая ) я автоматически определяю нужные блоки на странице, но нужно запомнить путь до этих блоков ) если запоминать абсолютный путь - это плохая история, т.к. верстка может чуть отличаться от страницы к странице. Если запоминать только текущий класс - классы бывают не уникальные. Самое простое, что приходит в голову, примерный алгоритм:
- берем название класса
- проверяем, уникальный ли он
- если уникальный - оставляем
- если не уникальный - двигаемся вверх по дереву, пока не найдем первый уникальный в пределах страницы класс

и т.п. )

но, наверняка же кто-то это уже сделал и в виде библиотеки на github/pip выложил )

источник

00:09пожаловаться #11

i

i in Scrapy

Vitaly

Переслано от Alexey Lemeshevski

тут задача немного другая ) я автоматически определяю нужные блоки на странице, но нужно запомнить путь до этих блоков ) если запоминать абсолютный путь - это плохая история, т.к. верстка может чуть отличаться от страницы к странице. Если запоминать только текущий класс - классы бывают не уникальные. Самое простое, что приходит в голову, примерный алгоритм:
- берем название класса
- проверяем, уникальный ли он
- если уникальный - оставляем
- если не уникальный - двигаемся вверх по дереву, пока не найдем первый уникальный в пределах страницы класс

и т.п. )

но, наверняка же кто-то это уже сделал и в виде библиотеки на github/pip выложил )

что-то типа https://selectorgadget.com/ ?

источник

03:11пожаловаться #12

ЛГ

Лев Гареев in Scrapy

Вопрос, иногда емейлы защищены js скриптом, как это решить на уровне scrapy?

источник

12:41пожаловаться #13

AR

Andrey Rahmatullin in Scrapy

Сделать то, что делает скрипт

источник