Size: a a a

2020 February 25

AR

Andrey Rahmatullin in Scrapy
дак рестартить с прошлого места
источник

AR

Andrey Rahmatullin in Scrapy
или что имеется в виду под JOBDIR?
источник

AR

Andrey Rahmatullin in Scrapy
источник

VB

Vladyslav Babych in Scrapy
FEED_EXPORTER держит все айтемы в памяти, и потом вконце пихает всё в файл?
источник

VB

Vladyslav Babych in Scrapy
Или для каждого спаршенного айтема дописывает?
источник

К

Кирилл in Scrapy
Постоянно пишет
источник

К

Кирилл in Scrapy
Но там ещё дефолтный буффер файла, так что именно в файле оно не сразу появляется, а когда чанк наполняется
источник

МС

Михаил Синегубов in Scrapy
Vladyslav Babych
Или для каждого спаршенного айтема дописывает?
угу, только через буфер. Точнее, это видел на CSV точно...

если речь идет "а не дохрена ли пару сот тысяч айтемов хранить" - примерное 5 млн айтемов в json формате нормально прожевало. Правда память не смотрел
источник

AR

Andrey Rahmatullin in Scrapy
ну это обычный питоно-операционковый буфер
источник

VB

Vladyslav Babych in Scrapy
Спасибо большое за ответ
источник

М

Мак in Scrapy
парни, а есть ли такое дело: на сколько я помню, экспортер csv в частности, по крайней мере при записи итемов через пайп, в версии 1.6 дописывал в конец файла данные, если паук запускался несколько раз. А сейчас я что то запускаю - и файл у меня каждый раз переписывается заново, а не дополняется. это доработка в версии 1.8, или я где то какую  то настройку пропустил?
источник

МС

Михаил Синегубов in Scrapy
Мак
парни, а есть ли такое дело: на сколько я помню, экспортер csv в частности, по крайней мере при записи итемов через пайп, в версии 1.6 дописывал в конец файла данные, если паук запускался несколько раз. А сейчас я что то запускаю - и файл у меня каждый раз переписывается заново, а не дополняется. это доработка в версии 1.8, или я где то какую  то настройку пропустил?
🤩🥳неужели они услышали мои молитвы...
Надо проверить
источник
2020 February 26

L

Lex in Scrapy
Всем привет.
Смотрите, есть библиотека youtube-dl
В парсере она у меня некоторое время спокойно работала.
От нее мне нужен тоько список видео на канале
youtube-dl  https://www.youtube.com/channel/UCXDh3YBD0lE2oGa518u7Rog --flat-playlist -j | jq -r '.id' | sed 's_^_https://youtu.be/_' > /tmp/tmppcuwp7qk
вот эта команда нормально отрабатывает из консоли, все отлично
из скрипта это выглядит так
from subprocess import call
tf = tempfile.NamedTemporaryFile()
command = f"youtube-dl  {ch_url} --flat-playlist -j | jq -r '.id' | sed 's_^_https://youtu.be/_' > {tf.name}"
call(command, shell=True)
content = requests.get(ch_url)

когда
вызов идет из скрипта - начинает ваоиться с такой ошибкой
Youtube Error 403: Access Not Configured. YouTube Data API has not been used in project 422897895433 before or it is disabled. Enable it by visiting https://console.developers.google.com/apis/api/youtube.googleapis.com/overview?project=422897895433 then retry. If you enabled this API recently, wait a few minutes for the action to propagate to our systems and retry.
источник

AR

Andrey Rahmatullin in Scrapy
убрать конвейеры для начала
источник

AR

Andrey Rahmatullin in Scrapy
ну или там вместо урла подставилась фигня
источник

L

Lex in Scrapy
Andrey Rahmatullin
ну или там вместо урла подставилась фигня
youtube-dl  https://www.youtube.com/channel/UCXDh3YBD0lE2oGa518u7Rog --flat-playlist -j | jq -r '.id' | sed 's_^_https://youtu.be/_' > /tmp/tmppcuwp7qk

вот это как раз содержимое command и оно верное
источник

AR

Andrey Rahmatullin in Scrapy
о, а может это разные youtube-dl
источник

VB

Vladyslav Babych in Scrapy
Почему shell обрезает все аргументы после первого, как это вообще работает?)
источник

AR

Andrey Rahmatullin in Scrapy
чочо
источник

VB

Vladyslav Babych in Scrapy
К примеру при запросе на
https://www.google.com/search?client=ubuntu&channel=fs&q=scrapy+shell+cut+links&ie=utf-8&oe=utf-8
запрос идёт на
https://www.google.com/search?client=ubuntu
источник