Size: a a a

2021 June 17

(

(o_O) in Scrapy
Так не бывает, либо http метод не тот (например, нужен post), либо заголовки не все
источник

AL

Alexey Lemeshevski in Scrapy
Мне иногда проще рег.выражениями (извиняюсь, но из головы могу их только в Perl-стиле писать):

1) удаляем скрипты и комментарии, типа:
r#<script.*?</script>##ig
r#<!--.*?--># #

2) удаляем все тэги
r#<[^>]+># #g

или все, кроме нужных:
r#</?(?!(?:h1|h2|...|strong))[^>]*?># #ig

П.с. я обычно еще перед этим собирал все в одну строку, и применял выражения с модификатором s ...а после - колдовал над пробелами.

П.с.с.
Если вы потом в nlp текст отдаете - там есть моменты с тем, что списки, например, могут не содержать точки в конце, и слепляя их в единый текст без пробелов - теряется понимание "конца предложения".
источник

(

(o_O) in Scrapy
Простите, не удержался
https://stackoverflow.com/a/1732454
источник

AR

Andrey Rahmatullin in Scrapy
обязательная ссылка
источник

AL

Alexey Lemeshevski in Scrapy
Смотря какие условия задачи) если только тэги убрать ...и сэкономить процессорное время - то это работает) ...по ссылке речь идет о парсинге, а вопрос был про "удалить тэги")

Кстати, загляните в source функции remove_tags библиотеки w3lib - которую вы выше советовали. Там почти такое же рег.выражение для удаления, какое я выше написал :)

https://w3lib.readthedocs.io/en/latest/_modules/w3lib/html.html#remove_tags
источник

(

(o_O) in Scrapy
Не будьте таким серьезным! Я тоже регекспами иногда паршу...
источник

AL

Alexey Lemeshevski in Scrapy
:)
источник

TK

Tatiana Kondratevich in Scrapy
Кто работает с ротацией proxy подскажите какие-то доверенные варианты ресурсов где их можно купить/получить. (можно в лс)

Интересует смена proxy под конкретную страну.
источник

AR

Andrey Rahmatullin in Scrapy
под конкретную страну это люминати какой-нибудь
источник

TK

Tatiana Kondratevich in Scrapy
Задача состоит в привязке прокси к конкретному юзеру и использованию его при начале сессии. По возможности с длительным периодом времени(что бы он не умирал в течении пары дней хотя бы)
источник

TK

Tatiana Kondratevich in Scrapy
есть примеры?
источник

AR

Andrey Rahmatullin in Scrapy
примеры чего? люминати это провайдер
источник

AR

Andrey Rahmatullin in Scrapy
не знаю обещает ли кто-нибудь "что бы он не умирал в течении пары дней хотя бы" впрочем
источник

TK

Tatiana Kondratevich in Scrapy
Поняла, спасибо
источник

(

(o_O) in Scrapy
Еще oxylabs географию умеет
источник

TK

Tatiana Kondratevich in Scrapy
А есть какие-то +- более бюджетные варианты с тарифами за количество, а не за месячную подписку. Может знает кто?
источник

S

SoHard 🎄 in Scrapy
источник

S

SoHard 🎄 in Scrapy
вотета капча
источник

S

SoHard 🎄 in Scrapy
"какие из штанов ближе по длине"
источник

(

(o_O) in Scrapy
Размечают датасет для fashion ai
источник