Size: a a a

2019 August 25

DD

Danil Denysenko in Scrapy
та меня интересует в данный момент питоновский скрапи) просто есть один паук, который парсит достаточно много инфы. Возможно ли его распределить на несколько ядер?
источник

DD

Danil Denysenko in Scrapy
но за ссылку - спасибо
источник

К

Кирилл in Scrapy
На вопрос ответить не могу, но могу посоветовать не заморачиваться с этим
источник

AS

Alexander Serebrov in Scrapy
Danil Denysenko
та меня интересует в данный момент питоновский скрапи) просто есть один паук, который парсит достаточно много инфы. Возможно ли его распределить на несколько ядер?
По опыту гораздо чаще все упирается в «сеть» - время на реквест/респонз, прокси и тд, а в процессор может упереться если у вас там какие-то серьёзные вычисления происходят, но и в этом случае скорее всего сначала не хватит памяти
источник

DD

Danil Denysenko in Scrapy
Понял, спс
источник

VP

Vladislav Perelomov in Scrapy
кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:
<div>
  <p>1</p>
  <p>2</p>
  <div>
       <p>3</p>
   </div>
</div>
и она бы мне рекурсивно доставала вот так
<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>
я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D
источник

iz

izzz zzi in Scrapy
Vladislav Perelomov
кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:
<div>
  <p>1</p>
  <p>2</p>
  <div>
       <p>3</p>
   </div>
</div>
и она бы мне рекурсивно доставала вот так
<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>
я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D
html2markdown?
источник

UN

User Name in Scrapy
Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?
источник

К

Кирилл in Scrapy
Vladislav Perelomov
кто знает есть ли в библиотеках таких как bs4 или lxml вещь которая делала бы мне такое:
на входе:
<div>
  <p>1</p>
  <p>2</p>
  <div>
       <p>3</p>
   </div>
</div>
и она бы мне рекурсивно доставала вот так
<div><p>1</p></div>
<div><p>2</p></div>
<div><div><p>3</p></div></div>
я надеюсь доступно обьяснил - просто даже не знаю как гуглить:D
Умеют если ты умеешь ими пользоваться) попробуй xpath, находишь p а дальше идешь вверх
источник

К

Кирилл in Scrapy
User Name
Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?
Какая-то конкретная страница?  Что в логах селениума?
источник
2019 August 26

UN

User Name in Scrapy
Кирилл
Какая-то конкретная страница?  Что в логах селениума?
Нет, есть разные страницы которые почти идентичны, лишь разные данные на них, в логах ничегг
источник

UN

User Name in Scrapy
Он просто стоит
источник

UN

User Name in Scrapy
Будто не может прогрузить
источник

s

serhii in Scrapy
Попробуй другой браузер
источник

i

ildar in Scrapy
User Name
Парни, селениум в одном браузере работает довольно долго(переходит по ссылкам итп) и на какой то ссылке просто застывает и перестает работать(будто бы не может прогрузить стр). Думал после опреденного кол-во итераций перезагружать браузер, у вас есть решения?
гугли про expected conditions, там добавляешь проверки и эту часть перезагружаешь. А вообще еще сам хром может иногда падать, тогда проще перегрузить его, да)
а просто стоит когда - там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"?
источник

UN

User Name in Scrapy
ildar
гугли про expected conditions, там добавляешь проверки и эту часть перезагружаешь. А вообще еще сам хром может иногда падать, тогда проще перегрузить его, да)
а просто стоит когда - там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"?
я пользуюсь файрфоксом,

там страница при этом загружена? и не отваливается по таймауту с причиной типа "не смог найти элемент"? -  нет, страница просто не грузится. И так стоит если не перезапустишь скрипт.
Как бы селениум переходит по ссылке, но не грузит страницу
источник

АН

Алексей Нагорский in Scrapy
Ребят, а кто-то юзает например kdiff что бы сравнить запросы?
источник

B

Bulatbulat48 in Scrapy
Алексей Нагорский
Ребят, а кто-то юзает например kdiff что бы сравнить запросы?
Что за запросы?
источник

АН

Алексей Нагорский in Scrapy
Bulatbulat48
Что за запросы?
Вообще предполагаются взаимосвязанные на один урл, в моем случае это злоебучий aspx
источник

АН

Алексей Нагорский in Scrapy
кидаю в curl.trillworks и словарик в kdiff
источник