Телеграмм чат группы scrapy_python страница 1172

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Scrapy

408 membersпожаловаться на группу

2020 February 28

AM

Artem Miklin in Scrapy

Про то что такое headless browser's и как они работают я имею хорошее представление, инфы достаточно много. со сплешем пока сложнее)
У него ведь, насколько я понял, есть возможность тоже запустить любой js-код, тем самым "сделать то-то со страницей" с помощью splash::evaljs?

источник

15:46пожаловаться #1

AR

Andrey Rahmatullin in Scrapy

ну если охота

источник

15:47пожаловаться #2

AR

Andrey Rahmatullin in Scrapy

это отличается от прямого хождения в элементы

источник

15:47пожаловаться #3

AR

Andrey Rahmatullin in Scrapy

и это не "взяли страницу, потыкали в неё, потыкали ещё", это каждый раз заново рендерится

источник

15:48пожаловаться #4

AR

Andrey Rahmatullin in Scrapy

The JavaScript code is executed after the page finished loading (including any delay defined by ‘wait’) but before the page is rendered. This allows to use the javascript code to modify the page being rendered.

источник

15:48пожаловаться #5

AR

Andrey Rahmatullin in Scrapy

сплеш это хттп сервис и как положено хттп сервису он стейтлесс, ты суёшь в него урл и опционально скрипт, он тебе отдаёт страницу или ещё какие-то данные из страницы

источник

15:50пожаловаться #6

AM

Artem Miklin in Scrapy

если после загрузки и рендеринга сайта splash'ем, скрипт захочет нажать на button, который запускает другой клиентский js код сайта, и выполняет запрос, то как тогда это будет выглядеть?

источник

16:01пожаловаться #7

AM

Artem Miklin in Scrapy

если он stateless

источник

16:02пожаловаться #8

AR

Andrey Rahmatullin in Scrapy

пихаешь всё это в луа-скрипт

источник

16:06пожаловаться #9

К

Кирилл in Scrapy

Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?

Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения

источник

17:26пожаловаться #10

RG

Roman Gangal in Scrapy

Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?

источник

17:34пожаловаться #11

К

Кирилл in Scrapy

Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?

там хардкод .jl , пропиши FEED_URI в настройках проекта scrapy, а items_dir убери, будет норм

источник

17:42пожаловаться #12

RG

Roman Gangal in Scrapy

да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете

источник

17:47пожаловаться #13

К

Кирилл in Scrapy

да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете

Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)

источник

18:00пожаловаться #14

RG

Roman Gangal in Scrapy

Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)

я буду рад всем костылям) а если в конфиге scrapyd отключить папку айтемов, есть ли возможность в scrapydweb указать эту папку? я смотрел конфиги scrapydweb чет не нашел такой возможности

источник

18:05пожаловаться #15

МС

Михаил Синегубов in Scrapy

Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?

Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения

тебе что бы не сохраняло мелкие картинки?

источник

18:10пожаловаться #16

К

Кирилл in Scrapy

Михаил Синегубов

тебе что бы не сохраняло мелкие картинки?

Мне нужно чтоб если ширина < 800, тогда другой пайплайн который в бд сохранят отмечал такие итемы, просто поле как, small=True

источник

18:12пожаловаться #17

МС

Михаил Синегубов in Scrapy

Мне нужно чтоб если ширина < 800, тогда другой пайплайн который в бд сохранят отмечал такие итемы, просто поле как, small=True

ага, пойду пороюсь

источник

18:12пожаловаться #18

К

Кирилл in Scrapy

Или ImagesPipeline такое поле добавлял, короче чтоб в результате было это поле

источник

18:13пожаловаться #19

S

Sergey in Scrapy

Наверное уже спрашивали, как сделать, чтобы поля в файл писались в нужном мне порядке, а не как скрапи решил? Точнее в том порядке, как они находятся в item

источник

18:16пожаловаться #20