Size: a a a

2020 April 16

G

Georg in Scrapy
Есть задача написать парсер социальной сети, условно пусть будет твиттер. Нужно сделать скрипт масштабируемым, тобишь в зависимости от объема серверных ресурсов увеличивать/уменьшать объемы сбора данных. Нужно сделать внешний api к этим данным.
Я вижу это так:
Парсер -> nosql -> rest api
Как считаете, подойдёт scrapy/d для этого?
источник

G

Georg in Scrapy
Подойдёт ли скрапи для работы с апи соц сети?
источник

AR

Andrey Rahmatullin in Scrapy
Georg
Паук качает только страницу или статику тоже?
Только страницу конечно
источник

AR

Andrey Rahmatullin in Scrapy
Georg
Подойдёт ли скрапи для работы с апи соц сети?
Ну да
источник

G

Georg in Scrapy
Можно ведь будет без проблем масштабировать паука, например до 2 млн запросов в день?
источник

G

Georg in Scrapy
Увеличив ресурсы конечно же
источник

AR

Andrey Rahmatullin in Scrapy
Нет
источник

G

Georg in Scrapy
Почему?
источник

AR

Andrey Rahmatullin in Scrapy
От сервера зависит, сможет ли он столько отдать и не забанит ли, так что надо смотреть
источник

G

Georg in Scrapy
Andrey Rahmatullin
От сервера зависит, сможет ли он столько отдать и не забанит ли, так что надо смотреть
Пул прокси
источник

AR

Andrey Rahmatullin in Scrapy
Хорошо, теперь это зависит ещё и от скорости прокси :)
источник

G

Georg in Scrapy
В любом случае json api будет полегче хтмла
источник

G

Georg in Scrapy
Andrey Rahmatullin
Хорошо, теперь это зависит ещё и от скорости прокси :)
Даже если и будут, думаю максимум а 1.5-2 раза)
источник

G

Georg in Scrapy
Если использовать публичный токен, по моему все должно быть норм с такими объемами
источник

G

Georg in Scrapy
Справится ли скрапи, записывать все это в бд
источник

AR

Andrey Rahmatullin in Scrapy
скрапи справится, про бд не знаю
источник

G

Georg in Scrapy
Круто, спасибо
источник

МС

Михаил Синегубов in Scrapy
Georg
Можно ведь будет без проблем масштабировать паука, например до 2 млн запросов в день?
Если брать сам скрапи - он и без масштабирования справится. С некоторыми сайтами и полный пакет (база + скрапи + сайт) легко и непринужденно 2 млн делают. А вот дальше идут частности. То сайт не держит, то база кривая (недавно обсуждали) то ещё какая хрень.
источник

G

Georg in Scrapy
Михаил Синегубов
Если брать сам скрапи - он и без масштабирования справится. С некоторыми сайтами и полный пакет (база + скрапи + сайт) легко и непринужденно 2 млн делают. А вот дальше идут частности. То сайт не держит, то база кривая (недавно обсуждали) то ещё какая хрень.
Понял
источник

VB

Vladyslav Babych in Scrapy
ildar
а какие у тебя сейчас скорости? у меня на одном сайте получалось где-то 3500 айтемов в минуту  емнип, но это на кеше (дисковом и leveldb примерно также). А так он выдает где-то 500-1000 в минуту. И это уникальные странички товаров, до которых ему еще доползти надо по менюшкам или пагинатору и открыть.
У меня сейчас 25-35 айтемов в минуту при 40 конкурентных.
Колличество потоков я увеличить немогу, копаю в сторону других улучшений, но скорее всего бесполезно
источник