Size: a a a

2020 April 05

К

Кирилл in Scrapy
Roman Gangal
Столкнулся с такой ситуацией что Scrapy в конце работы не выводит общую статистику по логу. Вернее иногда выводит, а иногда просто обрывается без  записи в лог.  Я просто этот сайт регулярно паршу, и знаю примерно на скольки реквестах и за какое время он будет спаршен. И вот именно в самом конце работы идет этот обрыв. Может в самом конце Scrapy нужно больше оперативки чтоб чекнуть ввесь лог и вывести общий отчет? И когда наступает этот пик с выводом отчета, скрипт из-за нехватки оперативки тупо падает. Может быть такой вариант?
Маловероятно
источник

RG

Roman Gangal in Scrapy
Кирилл
Маловероятно
У меня точто такая же ошибка как тут https://github.com/scrapy/scrapy/issues/1929 Там в конце чел пишет что думает это проблемы с памятью. Вот и я подумал может именно в конце Скрепи нужно больше оперативки
источник

К

Кирилл in Scrapy
Там особого пика в конце нет.  У тебя ошибка process died?
источник

AB

Alexander B in Scrapy
Roman Gangal
Столкнулся с такой ситуацией что Scrapy в конце работы не выводит общую статистику по логу. Вернее иногда выводит, а иногда просто обрывается без  записи в лог.  Я просто этот сайт регулярно паршу, и знаю примерно на скольки реквестах и за какое время он будет спаршен. И вот именно в самом конце работы идет этот обрыв. Может в самом конце Scrapy нужно больше оперативки чтоб чекнуть ввесь лог и вывести общий отчет? И когда наступает этот пик с выводом отчета, скрипт из-за нехватки оперативки тупо падает. Может быть такой вариант?
У меня такое было когда писал много в файл, перешёл на бд и проблема ушла
источник

AB

Alexander B in Scrapy
Ну у меня по памяти килялся процесс
источник

RG

Roman Gangal in Scrapy
Кирилл
Там особого пика в конце нет.  У тебя ошибка process died?
да, это видно из логов scrapyd. В логах самого Scrapy записи об ошибке или причине остановки нет
источник

RG

Roman Gangal in Scrapy
Alexander B
У меня такое было когда писал много в файл, перешёл на бд и проблема ушла
Например писал спаршенные items в csv? оперативки не хватало? у меня просто в ходе работы всегда висит 1gb свободной оперативы, и вот думаю может еще докупить. А ты в какую базу пишешь? Используешь для записи в БД какую-то готовую мидлвару?
источник

AB

Alexander B in Scrapy
Сейчас пишу в mongo, в пайплайне 10 строк кода всего
источник

iz

izzz zzi in Scrapy
Roman Gangal
Например писал спаршенные items в csv? оперативки не хватало? у меня просто в ходе работы всегда висит 1gb свободной оперативы, и вот думаю может еще докупить. А ты в какую базу пишешь? Используешь для записи в БД какую-то готовую мидлвару?
а ты уники считаешь?
в пайпе лист/сет есть?
источник

ША

Шу Ан in Scrapy
Добрый вечер! Пишу парсер. Получаю ссылки со страницы, пытаюсь сохранить в список list.. Далее отправляю на print этот список, в результате получаю https://pastebin.com/nxuWTMhE
источник

ША

Шу Ан in Scrapy
в результате получаю посимвольный список, как можно сделать список с целой ссылкой?
источник

AS

Alexander Serebrov in Scrapy
надо питон подучить)
links = []
for row in table.find_all('a', rel='bookmark'):
       if row.has_attr('href'):
          links.append(row.get('href'))
print(links)
источник

AS

Alexander Serebrov in Scrapy
Шу Ан
Добрый вечер! Пишу парсер. Получаю ссылки со страницы, пытаюсь сохранить в список list.. Далее отправляю на print этот список, в результате получаю https://pastebin.com/nxuWTMhE
у тебя там преобразование идет просто str -> list, поэтому строка превращается в список с символами
источник

ША

Шу Ан in Scrapy
Alexander Serebrov
надо питон подучить)
links = []
for row in table.find_all('a', rel='bookmark'):
       if row.has_attr('href'):
          links.append(row.get('href'))
print(links)
Надо конечно, я только начинаю.. Спасибо.
источник

AS

Alexander Serebrov in Scrapy
и лучше BeautifulSoup выкинуть и использовать функционал скрапи)
источник

AS

Alexander Serebrov in Scrapy
response.css('.some.css.class').getall()
источник

ША

Шу Ан in Scrapy
Делаю на примере из Ютьюба. В дальнейшем сделаю на СКРАПИ.
источник

AS

Alexander Serebrov in Scrapy
так удобнее и быстрее (в плане производительности), да и в плане написания кода тоже)
источник

ША

Шу Ан in Scrapy
Alexander Serebrov
надо питон подучить)
links = []
for row in table.find_all('a', rel='bookmark'):
       if row.has_attr('href'):
          links.append(row.get('href'))
print(links)
по данному коду у меня получилось 10 списков, в каждом по 10 ссылок.. простое изменение links на link результата не дало..
источник

AS

Alexander Serebrov in Scrapy
ну я не понимаю что должно быть в итоге)
источник