Телеграмм чат группы scrapy_python страница 818

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

380 membersпожаловаться на группу

2019 August 25

DD

Danil Denysenko in Scrapy

если так серьезно заботит производительность, то http://go-colly.org/

Scraping Framework for Golang

Scraping framework for extracting the data you need from websites, used for a wide range of applications, like data mining, data processing or archiving

та меня интересует в данный момент питоновский скрапи) просто есть один паук, который парсит достаточно много инфы. Возможно ли его распределить на несколько ядер?

источник

16:29пожаловаться #1

DD

Danil Denysenko in Scrapy

но за ссылку - спасибо

источник

16:29пожаловаться #2

К

Кирилл in Scrapy

На вопрос ответить не могу, но могу посоветовать не заморачиваться с этим

источник

16:29пожаловаться #3

AS

Alexander Serebrov in Scrapy

Danil Denysenko

та меня интересует в данный момент питоновский скрапи) просто есть один паук, который парсит достаточно много инфы. Возможно ли его распределить на несколько ядер?

По опыту гораздо чаще все упирается в «сеть» - время на реквест/респонз, прокси и тд, а в процессор может упереться если у вас там какие-то серьёзные вычисления происходят, но и в этом случае скорее всего сначала не хватит памяти

источник

17:21пожаловаться #4

DD

Danil Denysenko in Scrapy

Понял, спс

источник

17:31пожаловаться #5

VP

Vladislav Perelomov in Scrapy

кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:

<div>
   <p>1</p>
   <p>2</p>
   <div>
        <p>3</p>
    </div>
</div>

и она бы мне рекурсивно доставала вот так

<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>

я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D

источник

22:06пожаловаться #6

iz

izzz zzi in Scrapy

Vladislav Perelomov

кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:

<div>
   <p>1</p>
   <p>2</p>
   <div>
        <p>3</p>
    </div>
</div>

и она бы мне рекурсивно доставала вот так

<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>

я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D

html2markdown?

источник

22:08пожаловаться #7

UN

User Name in Scrapy

Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?

источник

22:09пожаловаться #8

К

Кирилл in Scrapy

Vladislav Perelomov

кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:

<div>
   <p>1</p>
   <p>2</p>
   <div>
        <p>3</p>
    </div>
</div>

и она бы мне рекурсивно доставала вот так

<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>

я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D

Умеют если ты умеешь ими пользоваться) попробуй xpath, находишь p а дальше идешь вверх

источник

22:17пожаловаться #9

К

Кирилл in Scrapy

Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?

Какая-то конкретная страница? Что в логах селениума?

источник

22:19пожаловаться #10

2019 August 26

UN

User Name in Scrapy

Какая-то конкретная страница? Что в логах селениума?

Нет, есть разные страницы которые почти идентичны, лишь разные данные на них, в логах ничегг

источник

07:38пожаловаться #11

UN

User Name in Scrapy

Он просто стоит

источник

07:38пожаловаться #12

UN

User Name in Scrapy

Будто не может прогрузить

источник

07:38пожаловаться #13

s

serhii in Scrapy

Попробуй другой браузер

источник

08:16пожаловаться #14

i

ildar in Scrapy

Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?

гугли про expected conditions, там добавляешь проверки и эту часть перезагружаешь. А вообще еще сам хром может иногда падать, тогда проще перегрузить его, да)
а просто стоит когда - там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"?

источник

08:36пожаловаться #15

UN

User Name in Scrapy

гугли про expected conditions, там добавляешь проверки и эту часть перезагружаешь. А вообще еще сам хром может иногда падать, тогда проще перегрузить его, да)
а просто стоит когда - там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"?

я пользуюсь файрфоксом,

там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"? - нет, страница просто не грузится. И так стоит если не перезапустишь скрипт.
Как бы селениум переходит по ссылке, но не грузит страницу

источник

09:11пожаловаться #16

АН

Алексей Нагорский in Scrapy

Ребят, а кто-то юзает например kdiff что бы сравнить запросы?

источник

10:59пожаловаться #17

B

Bulatbulat48 in Scrapy

Алексей Нагорский

Ребят, а кто-то юзает например kdiff что бы сравнить запросы?

Что за запросы?

источник

11:06пожаловаться #18

АН

Алексей Нагорский in Scrapy

Что за запросы?

Вообще предполагаются взаимосвязанные на один урл, в моем случае это злоебучий aspx

источник

11:07пожаловаться #19

АН

Алексей Нагорский in Scrapy

кидаю в curl.trillworks и словарик в kdiff

источник

11:09пожаловаться #20