Телеграмм чат группы scrapy

Size: a a a

Scrapy

433 membersпожаловаться на группу

2020 March 29

Sergey in Scrapy

вот разместил страницу http://35.226.158.178:8000/tmp.html

источник

20:07пожаловаться #1

Sergey in Scrapy

xpath запрос в хроме для элемента который я хочу вытащить на этой странице

//*[@id="r7471_187_3ZI4pyb87hNVAKxGwBhv"]

источник

20:09пожаловаться #2

Sergey in Scrapy

мне бы хотя б предположение в чем проблема..

источник

20:13пожаловаться #3

Кирилл in Scrapy

Проблема в том, что ты не понимаешь, как работает xpath

источник

20:14пожаловаться #4

Кирилл in Scrapy

Попробуй какой-то туториал пройти

источник

20:15пожаловаться #5

Sergey in Scrapy

Кирилл

Проблема в том, что ты не понимаешь, как работает xpath

//*[contains(text(),"3-я четв.:")]/../td[7]//a/@id

в хроме работает

источник

20:15пожаловаться #6

Sergey in Scrapy

я писал запросы уже, вроде понимаю, тут какая-то проблема в либе или что

источник

20:15пожаловаться #7

Кирилл in Scrapy

Открой исходный html код страницы, а не в браузере

источник

20:16пожаловаться #8

Кирилл in Scrapy

html может отличаться от dom

источник

20:16пожаловаться #9

Sergey in Scrapy

Кирилл

Открой исходный html код страницы, а не в браузере

открыл, там тег td не закрывается
что делать, хм

источник

20:19пожаловаться #10

Sergey in Scrapy

посмотреть бы дерево, которое строится либой
только как?

источник

20:19пожаловаться #11

Кирилл in Scrapy

Вот варианты https://stackoverflow.com/questions/293482/how-do-i-fix-wrongly-nested-unclosed-html-tags

Stack Overflow

How do I fix wrongly nested / unclosed HTML tags?

I need to sanitize HTML submitted by the user by closing any open tags with correct nesting order. I have been looking for an algorithm or Python code to do this but haven't found anything except s...

источник

20:25пожаловаться #12

Andrey Rahmatullin in Scrapy

Sergey

посмотреть бы дерево, которое строится либой
только как?

tostring() и глазами, например

источник

21:34пожаловаться #13

Кирилл in Scrapy

Там вроде bs умеет фиксить html

источник

21:37пожаловаться #14

Кирилл in Scrapy

Если там только td поломаны, то можно и пройтись по html как по строке и позакрывать, хотя это не слишком элегантно будет

источник

21:38пожаловаться #15

Sergey in Scrapy

lxml фиксит документ. requests_html использует lxml, но почему-то не фиксит его
хм в чем проблема может быть 🤔

источник

22:34пожаловаться #16

Sergey in Scrapy

ладно, придется переписывать кусок кода меняя на requests + lxml.
хотя и так все работало, только эти проблемные странички не парсились им

источник

22:36пожаловаться #17

Sergey in Scrapy

а вдруг есть какой-то параметр типа fix_document=True, ограничился бы строчкой кода просто, ладно

источник

22:37пожаловаться #18

Кирилл in Scrapy

Вот еще можешь посмотреть, там для XML есть опция для recover https://stackoverflow.com/questions/19118238/how-to-parse-broken-html-with-lxml

Stack Overflow

How to parse broken HTML with LXML

I'm trying to parse a broken HTML with LXML parser on python 2.5 and 2.7

Unlike in LXML documentation (http://lxml.de/parsing.html#parsing-html) parsing a broken HTML does not work:

from lxml imp...

источник

22:39пожаловаться #19

Sergey in Scrapy

спасибо!

источник

22:57пожаловаться #20