Телеграмм чат группы scrapy

книжки можно было отлавливать тупой ссылкой на амазон. Легкотня, подумал я, и помнится начал с беркли, когда после ночи парсинга скрипт там еще крутился, я ввел ограничение на 5 ссылок вглубь доменна-поддомена, и такой - "ага, ононочо", потом попробовал гарвард.

источник

13:23пожаловаться #4

Andrey Rahmatullin in Scrapy

ну и сет внутри дупфильтра конечно память сожрёт, но это быстро

источник

13:23пожаловаться #5

i in Scrapy

Ну вобщем ВСЕ книжки спарсить не получилось.

источник

13:23пожаловаться #6

i in Scrapy

со всех факультетов. Получилось типа с выхлопом где-то 3000 книг на миллион отсмотренных страниц. Потом шло резкое замедление уже по работе стандартного dupe-фильтра, он больше отсеивал пройденное, чем находил новые ссылки. Там такой всесвязный граф унутре.

источник

13:25пожаловаться #7

i in Scrapy

чел хотел именно поддомены универа, факультеты. Там их больше сотни, кстати. А, еще прикол в том, что у разных факультетов разные айтишники

источник

13:26пожаловаться #8

МС

Михаил Синегубов... in Scrapy

подключил бы базу. Самое примитивное - с перезапуском пасрера спокойно обойти

источник

13:26пожаловаться #9

i in Scrapy

Где-то дает просто парсить, где-то они защиту настраивают.

источник

13:26пожаловаться #10

i in Scrapy

И там начинается серия 503 на лям страниц. Это тоже отлавливать надо. Так дело не в перезапуске. Оно так же примерно таким же путем и пойдет, просто оно уже под конец ничего не находит. Он тока и занимается тем, что отбрасывает ссылки по параметру "так, тут я уже был". Благо оперативы много.

источник

13:28пожаловаться #11

i in Scrapy

Там этих "колец" - дофига. Ну и дальше там начинается "ну давайте попробуем хотя бы факультет 1 спарсить, и запретим ему выбираться за пределы поддомена факультета", и хоба - на 2й день и очередные 3 ляма страниц ты думаешь "ого, а оно ЕЩЕ глубже, лол".

источник

13:30пожаловаться #12

i in Scrapy

Уф, чото накатили вьетнамские флешбеки. Это был клевый урок мне по оценке легкости задачки. Ну в принципе я сделал там, клиента обучил как парсер запускать, объяснил ему, что вот так оно устроено и вот таких результатов стоит примерно ожидать в хороший запуск (=1000 страниц со ссылками на книги в амазонбукс на лям отпарсенных).

источник

13:32пожаловаться #13

i in Scrapy

А ваще, можете сами попробовать, поэкспериментировать, а то вдруг я кардинально неправ. Не удивлюсь, давно дело было. Берете беркли, или даже поддомен, запрещаете выход за домен (или поддомен), можно ставить ограничение глубины в 5 ссылок. Парсите все страницы, ищете на них слоло amazon, такие url сохраняете. Начальный парсер для экспериментов там 10 минут написать занимает.

источник

13:34пожаловаться #14

МС

Михаил Синегубов... in Scrapy

ладно

scrapy-redis кто нить пользовал в боевом режиме? У меня что то он дичайше тормозит.
1. без него ~1500 рпм
2. его подключаю - ~240 рпм 😐

yield item - заккомментил

источник

13:34пожаловаться #15

МС

Михаил Синегубов... in Scrapy

понятно что я "что то делаю не так", но, вот, что...

источник

13:37пожаловаться #16

i in Scrapy

я могу тока посоветовать запустить на пичарме в режиме профайлинга. Так по-крайней мере увидишь, где конкретно тормоза. Мы как-то на весь джанго грешили, а оказалось токенизатор на сохранении там палки в колеса вставлял.

источник

13:37пожаловаться #17

МС

Михаил Синегубов... in Scrapy

ох, это жеж "правильную" версию пичарма искать опять :__

источник

13:38пожаловаться #18

МС

Михаил Синегубов... in Scrapy

:))

источник

13:38пожаловаться #19

i in Scrapy

ну, у тебя есть 30 дней)

источник

13:38пожаловаться #20