Size: a a a

2020 November 03

t

t̸i̸n̶y̵P̸i̴c̸k̴... in Scrapy
• • •
Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент  в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)


Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)
источник

МС

Михаил Синегубов... in Scrapy
Ок
но, зачем человеку башевый скрипт (ага, ему еще и баш курить), если он хочет написать свое на питоне? причем, судя по вопросам, он и питон то  не особо знает
источник

t

t̸i̸n̶y̵P̸i̴c̸k̴... in Scrapy
Михаил Синегубов
Ок
но, зачем человеку башевый скрипт (ага, ему еще и баш курить), если он хочет написать свое на питоне? причем, судя по вопросам, он и питон то  не особо знает
зачем что то писать если уже есть
источник

МС

Михаил Синегубов... in Scrapy
а кто сказал, что ему нужно готовое? на вскидку, почему надо писать свое:
1. надо встроить в другой свой проект
2. хочется чуток другого функционала, а то что есть - хз как его исправлять
3. хочется научится на живом примере
источник

• • • in Scrapy
Практичная штука, спасибо)

Тем не менее покопаюсь как-нибудь самостоятельно в уже предложенном фреймворке, очень интересно самому спарсить что-нибудь =)
источник

A

Anton in Scrapy
Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json
источник

S

SoHard 🎄 in Scrapy
Anton
Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json
он вроде и не должен перезаписываться
источник

S

SoHard 🎄 in Scrapy
дописывает всегда
источник

ЛГ

Лев Гареев in Scrapy
он всегда пишется поверх, как и цсв вроде
источник

ЛГ

Лев Гареев in Scrapy
да
источник

ЛГ

Лев Гареев in Scrapy
тип дописывает
источник

A

Anton in Scrapy
Раньше не писал, был scrapy 1.8.0
источник

G

Georgiy in Scrapy
Anton
Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json
в release notes к версии 2.4 указано что опция -O должна перезаписывать файл.
но это не работает
https://github.com/scrapy/scrapy/issues/4857
источник

S

SoHard 🎄 in Scrapy
Andrii
А вообще какого блочить то 🙄
хз, как я понял заблочили не всё
источник

S

SoHard 🎄 in Scrapy
датацентр  работает
источник

S

SoHard 🎄 in Scrapy
а резидентские нет
источник

МС

Михаил Синегубов... in Scrapy
SoHard 🎄
хз, как я понял заблочили не всё
Ты злой бабайка для них, прокси для парсига использовал 😱😱😵.
Этот же так неожиданно...
источник

S

SoHard 🎄 in Scrapy
Михаил Синегубов
Ты злой бабайка для них, прокси для парсига использовал 😱😱😵.
Этот же так неожиданно...
Там был вопрос в анкете для чего прокси
источник

S

SoHard 🎄 in Scrapy
Я писал для скрапинга
источник

S

SoHard 🎄 in Scrapy
Ещё не забанили окончательно)
источник