Size: a a a

2021 June 01

МС

Михаил Синегубов... in Scrapy
скачать то надо один файл.... и ты для этого пытаешься скрестить бульдога с носорогом
источник

s

serg in Scrapy
Имеешь ввиду, что выбор scrapy для такого дела не подходит?
источник

МС

Михаил Синегубов... in Scrapy
скажем так, я не вижу здесь в нем смысла
источник

s

serg in Scrapy
там у меня ещё DjangoItem подключен и за исключением вот этой вещички со скачиванием файла всё удовлетворяло😅
источник

s

serg in Scrapy
наверняка есть проторенная тропка, которую многие уже проходили
источник

(

(o_O) in Scrapy
Scrapy в текущем виде качает *все тело* запроса ответа (response) в память
источник

(

(o_O) in Scrapy
Если очень надо возьми реализацию из вышеназванных пулреквестов
источник

s

serg in Scrapy
угу, но я наверное буду  городить франкештейна чем потом при обновлении scrapy мёрджить
источник

МС

Михаил Синегубов... in Scrapy
прогресс бар можно без проблем взять, оформи своим экстеншеном ивсе
источник

МС

Михаил Синегубов... in Scrapy
с большими файлами не понятно что то, тест они не прошли, а почему - не вчитывался
источник

МС

Михаил Синегубов... in Scrapy
хм, так этот экстеншен, вроде, можно перекостылить на большой файл....
точнее - сделать на основе его качалку больших файлов.... наверное :)
источник

МС

Михаил Синегубов... in Scrapy
там такой интересненький сигнал "bytes_received" в котором
"data (bytes object) – the data received by the download handler"
источник

МС

Михаил Синегубов... in Scrapy
передаешь в мете признак "качаем в файл" и по этому признаку реализовать сохранение

правда я не уверен, что это "по феншую"
источник

MZ

Marsel Ziatdinov in Scrapy
Здравствуйте. Только сегодня зашёл в эту группу. Попытаюсь задать вопрос. У меня есть 9 пауков для сбора данных с 9 сайтов. 1 паук для пост запроса. Мне нужно 1) забрать данные с первых 9 пауков. 2) передать обработанные данные другому пауку, который возвращает результат и его уже отправлять в базу данных. И эти две операции должны выполнять через каждые n минут. Уже всё готово, только я не могу авторизовать процесс. Через CrawlerProcess() сразу нет, так как он останавливает реактор и значение, которое ему можно передать, чтобы он не останавливал реактор, не помогает. Остаётся CrawlerRunner(), но манипуляции с реактором я не могу должным образом изучить. Очень все не понятно. Как мне быть. Гугл по большей части не помогает, разные там проблемы
источник

МС

Михаил Синегубов... in Scrapy
последний паук уже не общается с сайтами? только отправляет результат? или как то общается с чужими сайтами
источник

MZ

Marsel Ziatdinov in Scrapy
Он отправляет запрос на другой сайт
источник

MZ

Marsel Ziatdinov in Scrapy
Да, он отдельно работает
источник

МС

Михаил Синегубов... in Scrapy
ну, может Андрей прочитает, он больше эти реакторы понимает...
у меня только тупое предложение, а если последовательно использовать  пауки? или у тебя первые девять должны прям одновременно запуститься?
источник

MZ

Marsel Ziatdinov in Scrapy
Можно и последовательно. Но какая разница? Я пытаюсь в цикле перебирать пауков и вызывать crawl()
источник

OS

Oleg Shleiko in Scrapy
почему после прохода паук не может передать данные допустим в простое апи, которое сохранит данные?
источник