Size: a a a

2019 August 15

JW

John Wayne in Scrapy
ildar
ты уверен что тебе это надо делать? у реддита есть прекрасное API, в котором можно в принципе все получить без геморроя
Это для примера, https://www.mamba.ru/ вообще js не видит, я думал сплеш это такое ультимативное решение, а теперь селениум\Puppeteer смотреть нужно
источник

i

ildar in Scrapy
ну не совсем ультимативное, иногда бывает сплеш вообще вешается на определенных сайтах, куча иссьюс, в т.ч. и мой, на которые забит болт
источник

МС

Михаил Синегубов in Scrapy
народ, в какую сторону порыть? есть задача:
к примеру есть ХХХ аккаунтов, они попадают под временный бан
мне нельзя, что бы количестов одновременныз запросов было больше количества аккаунов. т.е. надо постоянно изменять CONCURRENT_REQUESTS или что-то вроде того...

есть мысли как это сделать/реализовать?
источник

iz

izzz zzi in Scrapy
с авторизацией работаешь?
источник

iz

izzz zzi in Scrapy
ты же можешь просто при временном бане увивать паука
источник

МС

Михаил Синегубов in Scrapy
izzz zzi
ты же можешь просто при временном бане увивать паука
мне не надо убивать, мне надо что бы потоков было не больше чем живых на данный момент акков

инста морозит по частоте запросов. Будет, к примеру,  100 акков. Стартово - 50 потоком (назовем так)
источник

МС

Михаил Синегубов in Scrapy
убивать/перезапускать паука - вообще не вариант
источник

МС

Михаил Синегубов in Scrapy
лучше притормозить до одного потока на 10-20 мин и потом нормально дальше парсить
источник

iz

izzz zzi in Scrapy
тоже инсту щас паршу , но пока медиа без авторизации
а если на тайминг паука кидать?
источник

МС

Михаил Синегубов in Scrapy
izzz zzi
тоже инсту щас паршу , но пока медиа без авторизации
а если на тайминг паука кидать?
медиа с локации то-же без авторизации?
источник

МС

Михаил Синегубов in Scrapy
они на выхах авторизацию на локации добавили :)
источник

iz

izzz zzi in Scrapy
Михаил Синегубов
медиа с локации то-же без авторизации?
да
источник

МС

Михаил Синегубов in Scrapy
источник

МС

Михаил Синегубов in Scrapy
тока открой именно БЕЗ авторизации
источник

iz

izzz zzi in Scrapy
нет , пока созраняю самое гео в json от медиа
источник

МС

Михаил Синегубов in Scrapy
так сами посты открываются, вот локация - хрен там :)
источник

iz

izzz zzi in Scrapy
Михаил Синегубов
лучше притормозить до одного потока на 10-20 мин и потом нормально дальше парсить
источник

МС

Михаил Синегубов in Scrapy
угу спс. посмотрю
источник

К

Кирилл in Scrapy
кто-то пользуется? https://github.com/TeamHG-Memex/scrapy-rotating-proxies

интересует задержка между запросами и число конкурентных запросов, в доке написано что оно на каждую проксю отдельно действует, но я меняю число прокси, а количество итемов в минуту примерно одинаковое, такое ощущение что задержка общая
источник

iz

izzz zzi in Scrapy
Кирилл
кто-то пользуется? https://github.com/TeamHG-Memex/scrapy-rotating-proxies

интересует задержка между запросами и число конкурентных запросов, в доке написано что оно на каждую проксю отдельно действует, но я меняю число прокси, а количество итемов в минуту примерно одинаковое, такое ощущение что задержка общая
вроде общая
источник