Size: a a a

2021 April 20

МС

Михаил Синегубов... in Scrapy
перечитай вопрос :)
источник

A

Alex in Scrapy
"на странице данные зашиты в js объект data={...} Подскажите, пожалуйста как проще всего вынуть эти данные как строку?"

т.е. первое что приходит в голову - это:
<script>data: {
       "item1": "val1",
       "item2": "val2",
      ...
   },</script>
источник

A

Alex in Scrapy
Вот, посмотри исходник страницы, я про такой вариант имел ввиду: http://quotes.toscrape.com/js/
источник

МС

Михаил Синегубов... in Scrapy
я знаю что ты имел в виду, я не знаю почему ты так подумал :)
источник

A

Alex in Scrapy
Ну ок, значит, ты телепат получше моего будешь 😁👍
источник

П

Пастырь in Scrapy
Блин, чем больше шкребком пользуюсь, тем больше в него влюбляюсь. Работа с DjangoItemами это вообще бомба :D
источник

П

Пастырь in Scrapy
Ребят, вот подружил вроде DjangoItem и Scrapy, а как теперь pipelines настроить. Могу ли я использовать там Django ORM ?
источник

П

Пастырь in Scrapy
Допустим импортировав модель в сам трубопровод
PS: Можно, мать его, как это круто :D
источник

D

Dmitry in Scrapy
Есть несколько млн линков в БД, какой правильный паттерн их обработки в скрапи? Предположим, я батчем из БД загрузил 100к линков (чтобы память не переполнилась) - их все сразу грузить в очередь реквестов? Или дробить на еще более мелкие батчи? Как тогда понимать, когда нужно еще в очередь реквестов засунуть новый батч?  Сигнал spider_idle как я понимаю не подходит, потому что он не гарантирует, что паук не закроется.
источник

A

Alex in Scrapy
Чтобы память не загружать в пайтоне (да и вообще) есть паттерн генераторов
источник

D

Dmitry in Scrapy
А можно поподробней, как это мне поможет решит поставленную задачу? :)
источник

A

Alex in Scrapy
Суть состоит в единичном извлечении объекта из базы - извлек, обработал, сохранил, извлек следующий... Если медленно, можно асинхронно небольшими порциями. Таким образом, память такими объектами не переполнится.
источник

A

Andrii in Scrapy
Шкребок, трубопровод, гугл транслейт шоле?)
источник

D

Dmitry in Scrapy
Да у меня вопрос не в переполнении памяти, а как это в скрапи сгружать :) Предположим, я выгрузил из базы 100к объектов, скормил в пайплайн реквестов скрапи, они там обрабатываются. Как мне понять, что пора сгружать новую порцию?
источник

AR

Andrey Rahmatullin in Scrapy
на scrapy-frontera посмотреть, как оно там батчи грузит
источник

AR

Andrey Rahmatullin in Scrapy
про spider_idle правда не понял
источник

D

Dmitry in Scrapy
Там какой-то странный дисклеймер в доках: Scheduling some requests in your spider_idle handler does not guarantee that it can prevent the spider from being closed, although it sometimes can.
источник

AR

Andrey Rahmatullin in Scrapy
да, я посмотрел, не очень понятно
источник

AR

Andrey Rahmatullin in Scrapy
может оно о том что если ты какие-то реквесты выдал, а они все дупы и спайдер тогда всё равно закроется
источник

D

Dmitry in Scrapy
Я думаю да, это имелось в виду. Тогда норм, должно работать! Но мега-криво в доках написано. Спасибо!
источник