Size: a a a

2020 February 28

AM

Artem Miklin in Scrapy
Про то что такое headless browser's и как они работают я имею хорошее представление, инфы достаточно много. со сплешем пока сложнее)
У него ведь, насколько я понял, есть возможность тоже запустить любой js-код, тем самым "сделать то-то со страницей" с помощью splash::evaljs?
источник

AR

Andrey Rahmatullin in Scrapy
ну если охота
источник

AR

Andrey Rahmatullin in Scrapy
это отличается от прямого хождения в элементы
источник

AR

Andrey Rahmatullin in Scrapy
и это не "взяли страницу, потыкали в неё, потыкали ещё", это каждый раз заново рендерится
источник

AR

Andrey Rahmatullin in Scrapy
The JavaScript code is executed after the page finished loading (including any delay defined by ‘wait’) but before the page is rendered. This allows to use the javascript code to modify the page being rendered.
источник

AR

Andrey Rahmatullin in Scrapy
сплеш это хттп сервис и как положено хттп сервису он стейтлесс, ты суёшь в него урл и опционально скрипт, он тебе отдаёт страницу или ещё какие-то данные из страницы
источник

AM

Artem Miklin in Scrapy
если после загрузки и рендеринга сайта splash'ем, скрипт захочет нажать на button, который запускает другой клиентский js код сайта, и выполняет запрос, то как тогда это будет выглядеть?
источник

AM

Artem Miklin in Scrapy
если он stateless
источник

AR

Andrey Rahmatullin in Scrapy
пихаешь всё это в луа-скрипт
источник

К

Кирилл in Scrapy
Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?

Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения
источник

RG

Roman Gangal in Scrapy
Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?
источник

К

Кирилл in Scrapy
Roman Gangal
Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?
там хардкод .jl , пропиши FEED_URI в настройках проекта scrapy, а items_dir убери, будет норм
источник

RG

Roman Gangal in Scrapy
да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете
источник

К

Кирилл in Scrapy
Roman Gangal
да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете
Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)
источник

RG

Roman Gangal in Scrapy
Кирилл
Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)
я буду рад всем костылям) а если в  конфиге scrapyd отключить папку айтемов, есть ли возможность в scrapydweb указать эту папку? я смотрел конфиги scrapydweb чет не нашел такой возможности
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?

Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения
тебе что бы не сохраняло мелкие картинки?
источник

К

Кирилл in Scrapy
Михаил Синегубов
тебе что бы не сохраняло мелкие картинки?
Мне нужно чтоб если ширина < 800, тогда другой пайплайн который в бд сохранят отмечал такие итемы, просто поле как, small=True
источник

МС

Михаил Синегубов in Scrapy
Кирилл
Мне нужно чтоб если ширина < 800, тогда другой пайплайн который в бд сохранят отмечал такие итемы, просто поле как, small=True
ага, пойду пороюсь
источник

К

Кирилл in Scrapy
Или ImagesPipeline такое поле добавлял, короче чтоб в результате было это поле
источник

S

Sergey in Scrapy
Наверное уже спрашивали, как сделать, чтобы поля в файл писались в нужном мне порядке, а не как скрапи решил? Точнее в том порядке, как они находятся в item
источник