Size: a a a

2020 March 19

AS

Alexandr Step in Scrapy
Народ подскажите примерные лимиты по Яшке? Через сколько банит время/количество и т.д.
источник

К

Кирилл in Scrapy
кто может прокси поделиться? ничего парсить не буду, нужно для теста приложения инсты
источник

К

Кирилл in Scrapy
Кирилл
кто может прокси поделиться? ничего парсить не буду, нужно для теста приложения инсты
одной штукой
источник

AR

Andrey Rahmatullin in Scrapy
подними на амазоне микро, потом удалишь
источник

S

Snoop Duck in Scrapy
Evgen
и т.к. он другой, то вот и ошибка
Ааа, понятно. Спасибо)
Получается, они даже не пытаются что-то сделать с капчей, а просто отдают страницу как есть, если я правильно понял
источник

AR

Andrey Rahmatullin in Scrapy
лол
источник

К

Кирилл in Scrapy
Кирилл
кто может прокси поделиться? ничего парсить не буду, нужно для теста приложения инсты
Всем спасибо, уже есть)
источник

МС

Михаил Синегубов in Scrapy
ребят, есть кто нить кто с docx работал плотненько, в плане именно парсинга?

вопрос такой, в тексте идет
[марка]
[таблица с характеристиками]

как, млять, умязать марку с таблицей???? в доке произвольное количество этих блоков. Постоянно только то, что они идут один за другим.

либу пока нашел "python-docx" там отдельно список с таблицами и с параграфами....
источник

МС

Михаил Синегубов in Scrapy
источник

МС

Михаил Синегубов in Scrapy
от такая дока
источник

A

Andrii in Scrapy
Как со стринги сделать json для дальнейшей обробки ?) https://pastebin.com/CC732YyQ
источник

К

Кирилл in Scrapy
у тебя переопределение
источник

К

Кирилл in Scrapy
назови строку с json, как json_string
источник

К

Кирилл in Scrapy
Михаил Синегубов
ребят, есть кто нить кто с docx работал плотненько, в плане именно парсинга?

вопрос такой, в тексте идет
[марка]
[таблица с характеристиками]

как, млять, умязать марку с таблицей???? в доке произвольное количество этих блоков. Постоянно только то, что они идут один за другим.

либу пока нашел "python-docx" там отдельно список с таблицами и с параграфами....
источник

AR

Andrey Rahmatullin in Scrapy
СТ_ТЫ
источник

S

Snoop Duck in Scrapy
Михаил Синегубов
ребят, есть кто нить кто с docx работал плотненько, в плане именно парсинга?

вопрос такой, в тексте идет
[марка]
[таблица с характеристиками]

как, млять, умязать марку с таблицей???? в доке произвольное количество этих блоков. Постоянно только то, что они идут один за другим.

либу пока нашел "python-docx" там отдельно список с таблицами и с параграфами....
docx файлы под капотом являются xml документами по стандарту Office Open XML (в ворде Файл-Сохранить как-XML) с различными тегами для параграфов, таблиц и т.д.
python_docx может считать документ как xml-дерево и потом можно вытаскивать содержимое через xpath:
doc = Document('path_to_docx')
tree = doc.element.getroottree()
root = tree.getroot()
paragraphs = root.xpath('//w:p')
Может это как-то поможет
источник

МС

Михаил Синегубов in Scrapy
Snoop Duck
docx файлы под капотом являются xml документами по стандарту Office Open XML (в ворде Файл-Сохранить как-XML) с различными тегами для параграфов, таблиц и т.д.
python_docx может считать документ как xml-дерево и потом можно вытаскивать содержимое через xpath:
doc = Document('path_to_docx')
tree = doc.element.getroottree()
root = tree.getroot()
paragraphs = root.xpath('//w:p')
Может это как-то поможет
угу, но это еще тот секас....
я уже глянул это, там полная ж...па.
Ща с перебором ковыряюсь, что Кирилл дал
источник

К

Кирилл in Scrapy
А, сек там ошибка
источник

МС

Михаил Синегубов in Scrapy
Кирилл
А, сек там ошибка
угу, уже секасом занимаюсь с ней (или не с ней, но занимаюсь) 😂
источник

VB

Vladyslav Babych in Scrapy
Можно как-то отловить в мидлварях запросы которые ни разу не  прошли удачно, тобишь все 3 раза допустим 500 ошибку поймал
источник