Size: a a a

2021 April 06

МС

Михаил Синегубов... in Scrapy
это отлавливается через час парсинга
источник

i

i in Scrapy
ну когда-то давно  изначальная задачка была "я хочу все ссылки на все книжки с сайта и факультетов университетов, делов на 15 минут, зашел и вышел"
источник

AR

Andrey Rahmatullin in Scrapy
так их правда на 15 минут, просто спадлер долго работать будет
источник

i

i in Scrapy
книжки можно было отлавливать тупой ссылкой на амазон. Легкотня, подумал я, и помнится начал с беркли, когда после ночи парсинга скрипт там еще крутился, я ввел ограничение на 5 ссылок вглубь доменна-поддомена, и такой - "ага, ононочо",  потом попробовал гарвард.
источник

AR

Andrey Rahmatullin in Scrapy
ну и сет внутри дупфильтра конечно память сожрёт, но это быстро
источник

i

i in Scrapy
Ну вобщем ВСЕ книжки спарсить не получилось.
источник

i

i in Scrapy
со всех факультетов. Получилось типа с выхлопом где-то 3000 книг на миллион отсмотренных страниц. Потом шло резкое замедление уже по работе  стандартного dupe-фильтра, он больше отсеивал пройденное, чем находил новые ссылки. Там такой всесвязный граф унутре.
источник

i

i in Scrapy
чел хотел именно поддомены универа, факультеты. Там их больше сотни, кстати. А, еще прикол в том, что у разных факультетов разные айтишники
источник

МС

Михаил Синегубов... in Scrapy
подключил бы базу. Самое примитивное - с перезапуском пасрера спокойно обойти
источник

i

i in Scrapy
Где-то дает просто парсить, где-то они защиту настраивают.
источник

i

i in Scrapy
И там начинается серия 503 на лям страниц. Это тоже отлавливать надо. Так дело не  в перезапуске. Оно так же примерно таким же путем и пойдет, просто оно уже под конец ничего не находит. Он тока и занимается тем, что отбрасывает ссылки по параметру "так, тут я уже был".  Благо оперативы много.
источник

i

i in Scrapy
Там этих "колец" - дофига. Ну и дальше там начинается "ну давайте попробуем хотя бы факультет 1 спарсить, и запретим ему выбираться за пределы поддомена факультета", и хоба - на 2й день и очередные 3 ляма страниц ты думаешь "ого, а оно ЕЩЕ глубже, лол".
источник

i

i in Scrapy
Уф, чото накатили вьетнамские флешбеки. Это был клевый урок мне по оценке легкости задачки. Ну в принципе я сделал там, клиента обучил как парсер запускать, объяснил ему, что вот так оно устроено и вот таких результатов стоит примерно ожидать в хороший запуск (=1000 страниц со ссылками на книги в амазонбукс на лям отпарсенных).
источник

i

i in Scrapy
А ваще, можете сами попробовать, поэкспериментировать, а то вдруг я кардинально неправ. Не удивлюсь, давно дело было. Берете беркли, или даже поддомен, запрещаете выход за домен (или поддомен), можно ставить ограничение глубины в 5 ссылок. Парсите все страницы, ищете на них слоло amazon, такие url сохраняете. Начальный парсер для экспериментов там 10 минут написать занимает.
источник

МС

Михаил Синегубов... in Scrapy
ладно

scrapy-redis кто нить пользовал в боевом режиме? У меня что то он дичайше тормозит.
1. без него ~1500 рпм
2. его подключаю - ~240 рпм 😐

yield item - заккомментил
источник

МС

Михаил Синегубов... in Scrapy
понятно что я "что то делаю не так", но, вот, что...
источник

i

i in Scrapy
я могу тока посоветовать запустить на пичарме в режиме профайлинга. Так по-крайней мере увидишь, где конкретно тормоза. Мы как-то на весь джанго грешили, а оказалось токенизатор на сохранении там палки в колеса вставлял.
источник

МС

Михаил Синегубов... in Scrapy
ох, это жеж "правильную" версию пичарма искать опять :__
источник

МС

Михаил Синегубов... in Scrapy
:))
источник

i

i in Scrapy
ну, у тебя есть 30 дней)
источник