Size: a a a

2020 October 19

AR

Andrey Rahmatullin in Scrapy
разумеется один, потому что условие в ифе всегда тру
источник

К

Кирилл in Scrapy
у тебя if всегда тру, потому что ты не меняешь урл на что у тебя там в условии. Поэтому тут что есть иф, что нет, одинаково
источник

AR

Andrey Rahmatullin in Scrapy
если не хочешь дебажить дебаггером, учись дебажить глазами
источник

A

AstralRomance in Scrapy
Как мне вытащить текст, который лежит в  <a>
<div1>
<div2>
<...>
<div class="ap_col_wrap">
 <a href="link"> text </a>
Пробую так (из шелла):
response.css('.ap_col_wrap a.tag::text').getall()
Паук полностью цепочку div'ов хочет?
Получаю пустой список в ответ.
источник

S

SoHard 🎄 in Scrapy
AstralRomance
Как мне вытащить текст, который лежит в  <a>
<div1>
<div2>
<...>
<div class="ap_col_wrap">
 <a href="link"> text </a>
Пробую так (из шелла):
response.css('.ap_col_wrap a.tag::text').getall()
Паук полностью цепочку div'ов хочет?
Получаю пустой список в ответ.
Что такое a.tag?
источник

A

AstralRomance in Scrapy
SoHard 🎄
Что такое a.tag?
По моим надеждам: <a href="link"> text </a>
источник

S

SoHard 🎄 in Scrapy
AstralRomance
По моим надеждам: <a href="link"> text </a>
a.tag это a с классом tag
источник

G

Georgiy in Scrapy
попробуй a::text (без .tag)
источник

A

AstralRomance in Scrapy
О, так работает, спасибо большое.
источник
2020 October 20

V

Vitaly in Scrapy
https://github.com/cyluxx/robula-plus
Там еще были публикации/проекты на эту тему. Гуглится по Robust xpath locators. Вполне рабочая история, я юзал.
источник

V

Vitaly in Scrapy
Переслано от Alexey Lemeshevski
тут задача немного другая ) я автоматически определяю нужные блоки на странице, но нужно запомнить путь до этих блоков ) если запоминать абсолютный путь - это плохая история, т.к. верстка может чуть отличаться от страницы к странице. Если запоминать только текущий класс - классы бывают не уникальные. Самое простое, что приходит в голову, примерный алгоритм:
- берем название класса
- проверяем, уникальный ли он
- если уникальный - оставляем
- если не уникальный - двигаемся вверх по дереву, пока не найдем первый уникальный в пределах страницы класс

и т.п. )

но, наверняка же кто-то это уже сделал и в виде библиотеки на github/pip выложил )
источник

i

i in Scrapy
Vitaly
Переслано от Alexey Lemeshevski
тут задача немного другая ) я автоматически определяю нужные блоки на странице, но нужно запомнить путь до этих блоков ) если запоминать абсолютный путь - это плохая история, т.к. верстка может чуть отличаться от страницы к странице. Если запоминать только текущий класс - классы бывают не уникальные. Самое простое, что приходит в голову, примерный алгоритм:
- берем название класса
- проверяем, уникальный ли он
- если уникальный - оставляем
- если не уникальный - двигаемся вверх по дереву, пока не найдем первый уникальный в пределах страницы класс

и т.п. )

но, наверняка же кто-то это уже сделал и в виде библиотеки на github/pip выложил )
что-то типа https://selectorgadget.com/ ?
источник

ЛГ

Лев Гареев in Scrapy
Вопрос, иногда емейлы защищены js скриптом,  как это решить на уровне scrapy?
источник

AR

Andrey Rahmatullin in Scrapy
Сделать то, что делает скрипт
источник

AR

Andrey Rahmatullin in Scrapy
Зачастую там несложный шифр, и код можно воспроизвести на питоне
источник

AR

Andrey Rahmatullin in Scrapy
Ну или аякс просто
источник

ЛГ

Лев Гареев in Scrapy
Andrey Rahmatullin
Зачастую там несложный шифр, и код можно воспроизвести на питоне
я почитал, про трехэтапку, просто пока учусь и пытаюсь понять, как реализовать в коде, спасибо за ответ!
источник

AR

Andrey Rahmatullin in Scrapy
Что это?
источник

ЛГ

Лев Гареев in Scrapy
Andrey Rahmatullin
Что это?
мог неправильно выразиться, как я почитал кодируется в 3 этапа просто.
источник

AR

Andrey Rahmatullin in Scrapy
Да вроде не в три, но ок
источник