Size: a a a

2021 May 26

S

Stanislav in Scrapy
Шпасибо белые люди
источник
2021 May 27

re

reeww eew in Scrapy
Всем привет! Реально выкачать все коментарии instagram.com по москве? Сколько понадобится времени и ресурсов??
источник

AV

Anatoli Valenda in Scrapy
Предлагаю вам просто оценить объем данных. Пусть 3 млн пользователей, возьмём 50 фоток, под каждым 10 комментов.  1.5 миллиарда записей и 150 млн запросов. Удачи.
источник

AV

Anatoli Valenda in Scrapy
Не, ну если написать распределенную систему с 1000 проксей. Например 10 серверов по 100 проксей. пусть 10 параллельных запросов в секунду. То есть в секунду 100 запросов будет выполняться без шанса бана плюс загрузка проксей. Если правильно прикинул, то 17,4 дня понадобиться. Ну по стоимости сложно сказать. Чисто сервер выйдет баксов 300-400, а этот код ещё написать надо.
источник

AV

Anatoli Valenda in Scrapy
Не сильно по расчетам промахнулся?
источник

AV

Anatoli Valenda in Scrapy
А, ну и данные будут весом гигабайт 20-25
источник

re

reeww eew in Scrapy
Спасибо этот ответ и рассчитывал получить, просто не знал как все посчитать))
источник

SS

Sergey Sergey in Scrapy
А мне непонятно, как вы собрались отделять комментарии по москве от всех остальных)
источник

DF

DOG FATHER in Scrapy
Хорошие деньги
источник

DF

DOG FATHER in Scrapy
Посоветуйте хороший курс по scrapy
источник

МС

Михаил Синегубов... in Scrapy
скорее всего, промахнулся, с размером :)
источник

МС

Михаил Синегубов... in Scrapy
что под "курсом" подразумевается? "первые шаги"? оно есть и в документации и в гугле, "прям от корки до корки" - такого нет, насколько я знаю, только дока + мозги
источник

TM

Tim Mustafin in Scrapy
Скорее как найти их все
источник

S

SoHard 🎄 in Scrapy
есть на юдеми чото
источник

(

(o_O) in Scrapy
Владеющим английским очень советую книгу "Learning Scrapy".
источник

DF

DOG FATHER in Scrapy
Благодарю, посмотрю
источник

МС

Михаил Синегубов... in Scrapy
кстати, по моему, расчет вообще не верный, в плане проксей и скорости.
1. инста, вроде жеж, не дает профили смотреть без учетки... а иначе, как фотки собирать? А если надо по GEO, так вааще не вариант без учетки работать
2. 100 поксей и 10 запросов в секунуду? ну ну, я бы посмотрел, как быстро эти прокси улетят в заморозку
3. 10 серваков... один вопрос - нафига? Эти, упомянутые 150 млн запросов быстрее и дешевле соберутся на одном серваке, ну, может, в несколько инстансов. Делить можно на разные базы руками, мы же собираем комменты с разных фоток. Ну и, размазываться на 10 серваков с балансировкой и прочими фантиками для единичной задачи - так себе развлечение
4. сервак баксов 300-400 - да лааадна, https://hostdzire.com/cheap-dedicated-private-rdp.html как бы не совсем "300-400 за сервак"
источник

AV

Anatoli Valenda in Scrapy
Не, 10 серваков используют 1000 проксей. 1 сервак 100 проксей и в секунду 10 запросов через свою проксю. Цикл повторяется через 10 секунд. По поводу цены, это за все 10 штук. 30-40$ сервер. Все, с телефона писал и он на единственное исправил. Я про все 10 писал.
источник

МС

Михаил Синегубов... in Scrapy
угу, и эти серваки будут стоять, большую часть времени, ибо я уже написал, что 100 проксей на 10 в секунду, ппц как  мало
источник

(

(o_O) in Scrapy
На 10 запросов в секунду отдельный сервер?! Ну-ну
источник