Телеграмм чат группы scrapy_python страница 2164

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

668 membersпожаловаться на группу

2020 November 03

t

t̸i̸n̶y̵P̸i̴c̸k̴... in Scrapy

• • •

Ребят, тут такое дело, очень хочется написать парсер картинок с сайта, но дело в том, что с вебом я никогда не работал. (сам сайт: https://wallhaven.cc)

По сути хочется спарсить все отлайканые картинки, которые хранятся в специальной "папке" юзера
(тут сразу же необходима авторизация, куки или ещё что-то, не уверен)

Структурно папка состоит из страниц, url каждой выглядит так: (домен/favorites?page=1)
На каждой из страниц около 10 картинок-превью, которые содержат ссылки на страницы с source картинкой, так сказать

Таким образом нужно перебрать все url от n до x, для каждой из url запастись ссылками на source страницу, потом перебрать эту страницу на наличие img элемента, и скачать этот элемент в отдельную папку

Последняя страница не содержит img элементов, поэтому по идее можно просто while-ом долбануть

Дополнительно очень хочется реализовать что-то вроде базы данных, которая хранит уже скачанные в архив картинки, и исходя из записей по базе и url страницы было произведено либо скачивание, либо пропуск конкретно этого элемента (дада собираю анимедевочек к себе на компутер =З)

Собственно вопрос: Какие либы понадобятся для всего вышеописанного? Что следует изучить перед тем как шарить по "how to", нужна ли какая-нибудь теория относительно веба и дата баз? Можно ли найти ответ на все вопросы в какой-то одной книге? Вроде задача не сложная, но куда ступать пока не понимаю)

Awesome Wallpapers - wallhaven.cc

Your source for the best high quality wallpapers on the Net!

https://github.com/macearl/Wallhaven-Downloader

macearl/Wallhaven-Downloader

A simple download Script for Wallhaven.cc. Contribute to macearl/Wallhaven-Downloader development by creating an account on GitHub.

источник

17:02пожаловаться #1

МС

Михаил Синегубов... in Scrapy

t̸i̸n̶y̵P̸i̴c̸k̴

https://github.com/macearl/Wallhaven-Downloader

macearl/Wallhaven-Downloader

A simple download Script for Wallhaven.cc. Contribute to macearl/Wallhaven-Downloader development by creating an account on GitHub.

Ок
но, зачем человеку башевый скрипт (ага, ему еще и баш курить), если он хочет написать свое на питоне? причем, судя по вопросам, он и питон то не особо знает

источник

17:12пожаловаться #2

t

t̸i̸n̶y̵P̸i̴c̸k̴... in Scrapy

Михаил Синегубов

Ок
но, зачем человеку башевый скрипт (ага, ему еще и баш курить), если он хочет написать свое на питоне? причем, судя по вопросам, он и питон то не особо знает

зачем что то писать если уже есть

источник

17:12пожаловаться #3

МС

Михаил Синегубов... in Scrapy

а кто сказал, что ему нужно готовое? на вскидку, почему надо писать свое:
1. надо встроить в другой свой проект
2. хочется чуток другого функционала, а то что есть - хз как его исправлять
3. хочется научится на живом примере

источник

17:14пожаловаться #4

•

• • • in Scrapy

t̸i̸n̶y̵P̸i̴c̸k̴

https://github.com/macearl/Wallhaven-Downloader

macearl/Wallhaven-Downloader

A simple download Script for Wallhaven.cc. Contribute to macearl/Wallhaven-Downloader development by creating an account on GitHub.

Практичная штука, спасибо)

Тем не менее покопаюсь как-нибудь самостоятельно в уже предложенном фреймворке, очень интересно самому спарсить что-нибудь =)

источник

17:18пожаловаться #5

A

Anton in Scrapy

Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json

источник

18:13пожаловаться #6

S

SoHard 🎄 in Scrapy

Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json

он вроде и не должен перезаписываться

источник

18:15пожаловаться #7

S

SoHard 🎄 in Scrapy

дописывает всегда

источник

18:15пожаловаться #8

ЛГ

Лев Гареев in Scrapy

он всегда пишется поверх, как и цсв вроде

источник

18:15пожаловаться #9

ЛГ

Лев Гареев in Scrapy

да

источник

18:15пожаловаться #10

ЛГ

Лев Гареев in Scrapy

тип дописывает

источник

18:15пожаловаться #11

A

Anton in Scrapy

Раньше не писал, был scrapy 1.8.0

источник

18:15пожаловаться #12

G

Georgiy in Scrapy

Подскажите, scrapy обновил и теперь пытаюсь сделать экспорт в json, а файл не перезаписывается
Так пробую
scrapy crawl name_spyder -O name.json
scrapy crawl name_spyder -o name.json
scrapy crawl name_spyder -t json -o - > name.json

в release notes к версии 2.4 указано что опция -O должна перезаписывать файл.
но это не работает
https://github.com/scrapy/scrapy/issues/4857

источник

18:18пожаловаться #13

S

SoHard 🎄 in Scrapy

Andrii

А вообще какого блочить то 🙄

хз, как я понял заблочили не всё

источник

18:26пожаловаться #14

S

SoHard 🎄 in Scrapy

датацентр работает

источник

18:26пожаловаться #15

S

SoHard 🎄 in Scrapy

а резидентские нет

источник

18:27пожаловаться #16

МС

Михаил Синегубов... in Scrapy

хз, как я понял заблочили не всё

Ты злой бабайка для них, прокси для парсига использовал 😱😱😵.
Этот же так неожиданно...

источник

19:43пожаловаться #17

S

SoHard 🎄 in Scrapy

Михаил Синегубов

Ты злой бабайка для них, прокси для парсига использовал 😱😱😵.
Этот же так неожиданно...

Там был вопрос в анкете для чего прокси

источник

19:44пожаловаться #18

S

SoHard 🎄 in Scrapy

Я писал для скрапинга

источник

19:44пожаловаться #19

S

SoHard 🎄 in Scrapy

Ещё не забанили окончательно)

источник

19:44пожаловаться #20