Про то что такое headless browser's и как они работают я имею хорошее представление, инфы достаточно много. со сплешем пока сложнее) У него ведь, насколько я понял, есть возможность тоже запустить любой js-код, тем самым "сделать то-то со страницей" с помощью splash::evaljs?
The JavaScript code is executed after the page finished loading (including any delay defined by ‘wait’) but before the page is rendered. This allows to use the javascript code to modify the page being rendered.
сплеш это хттп сервис и как положено хттп сервису он стейтлесс, ты суёшь в него урл и опционально скрипт, он тебе отдаёт страницу или ещё какие-то данные из страницы
если после загрузки и рендеринга сайта splash'ем, скрипт захочет нажать на button, который запускает другой клиентский js код сайта, и выполняет запрос, то как тогда это будет выглядеть?
Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?
Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения
Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?
Ребята подскажите. Запускаю паука через scrapyd. В конфиге scrapyd указываю папку для сохранения результатов items_dir = items все работает, но результат сохраняется в файл с расширением .jl а не csv В документации прочитал что scrapyd переопределяет мой FEED_URI в настройках Scrapy (он у меня такой FEED_URI = 'dataset.csv'). Собственно вопрос, по какой причине scrapyd сохраняет айтемы в файл с расширением .jl И как изменить, чтоб сохранял в .csv ?
там хардкод .jl , пропиши FEED_URI в настройках проекта scrapy, а items_dir убери, будет норм
да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете
да делал это, тогда нормально пашет. Но мне нужно чтоб было items в конфиге иначе админка scrapydweb не видит папку айтемов и не не работает подсчет в отчете
Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)
Конечно могу тебе костыли посоветовать, но может кто знающий позже ответит)
я буду рад всем костылям) а если в конфиге scrapyd отключить папку айтемов, есть ли возможность в scrapydweb указать эту папку? я смотрел конфиги scrapydweb чет не нашел такой возможности
Кто знает, как можно использовать эксепшн ImageException который кидает ImagesPipeline при минимальных размерах изображений чтоб сделать кастомную логику для маленьких изображений. Или в каком-то другом месте впилиться, чтоб можно было использовать размеры изображения?
Про свой папйплайн с Image.open('image.png').size понятно, но интересно есть ли способы использовать существующие исключения
Наверное уже спрашивали, как сделать, чтобы поля в файл писались в нужном мне порядке, а не как скрапи решил? Точнее в том порядке, как они находятся в item