Size: a a a

2020 March 29

S

Sergey in Scrapy
вот разместил страницу http://35.226.158.178:8000/tmp.html
источник

S

Sergey in Scrapy
xpath запрос в хроме для элемента который я хочу вытащить на этой странице
//*[@id="r7471_187_3ZI4pyb87hNVAKxGwBhv"]
источник

S

Sergey in Scrapy
мне бы хотя б предположение в чем проблема..
источник

К

Кирилл in Scrapy
Проблема в том, что ты не понимаешь, как работает xpath
источник

К

Кирилл in Scrapy
Попробуй какой-то туториал пройти
источник

S

Sergey in Scrapy
Кирилл
Проблема в том, что ты не понимаешь, как работает xpath
//*[contains(text(),"3-я четв.:")]/../td[7]//a/@id
в хроме работает
источник

S

Sergey in Scrapy
я писал запросы уже, вроде понимаю, тут какая-то проблема в либе или что
источник

К

Кирилл in Scrapy
Открой исходный html код страницы, а не в браузере
источник

К

Кирилл in Scrapy
html может отличаться от dom
источник

S

Sergey in Scrapy
Кирилл
Открой исходный html код страницы, а не в браузере
открыл, там тег td не закрывается
что делать, хм
источник

S

Sergey in Scrapy
посмотреть бы дерево, которое строится либой
только как?
источник

К

Кирилл in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
Sergey
посмотреть бы дерево, которое строится либой
только как?
tostring() и глазами, например
источник

К

Кирилл in Scrapy
Там вроде bs умеет фиксить html
источник

К

Кирилл in Scrapy
Если там только td поломаны, то можно и пройтись по html как по строке и позакрывать, хотя это не слишком элегантно будет
источник

S

Sergey in Scrapy
lxml фиксит документ. requests_html использует lxml, но почему-то не фиксит его
хм в чем проблема может быть 🤔
источник

S

Sergey in Scrapy
ладно, придется переписывать кусок кода меняя на requests + lxml.
хотя и так все работало, только эти проблемные странички не парсились им
источник

S

Sergey in Scrapy
а вдруг есть какой-то параметр типа fix_document=True, ограничился бы строчкой кода просто, ладно
источник

К

Кирилл in Scrapy
Вот еще можешь посмотреть, там для XML есть опция для recover https://stackoverflow.com/questions/19118238/how-to-parse-broken-html-with-lxml
источник

S

Sergey in Scrapy
спасибо!
источник