Size: a a a

2021 April 06

i

i in Scrapy
/me делает глубокую затяжку
источник

i

i in Scrapy
ну натравите парсер на университет беркли. После первого миллиона страниц придет понимание)
источник

i

i in Scrapy
Там как-раз где-то dupe-filter встроенный начнет отмирать на этом пределе...
источник

К

Кирилл in Scrapy
Если правильно сделать архитектуру, будет нормально и долго работать
источник

i

i in Scrapy
да, тока задачка из 15 минут, зашел и вышел, чуток расширится)
источник

NZ

Nikita Zhidkov in Scrapy
нене, смотри
1) нужно понять откуда я брал данные (это буду хранить урл)
2) нужно что-то для частого поиска этих данных (урл не очень хорош для поиска, поэтмоу сделаю uid)
источник

МС

Михаил Синегубов... in Scrapy
ограничить домены одним уровнем (можно накостылить) и не выключать фильтр дубликатов..
в крайнем случае, свой фильтр дубликатов
источник

NZ

Nikita Zhidkov in Scrapy
Слушайте, у меня тоже задача парсить весь сайт и я просто даю ссылку на главную страницу и ставлю ограничение по домену. Но вы меня что-то запугали теперь, что это будет плохо работать. На что обратить внимание тогад мне ещё?
источник

i

i in Scrapy
ну короче - если ограничивать домены уровнем вложенности 5 (пять!), и запретить вообще выходить за домен. На сайте универа беркли получишь миллион. И оно не остановится.
источник

NZ

Nikita Zhidkov in Scrapy
Я не очень понимаю, что значит оно не остановится? Он уйдёт на другие домены?
источник

i

i in Scrapy
ну пример, где-то на 4м уровне вложенности он найдет страницу, где будет 3000 ссылок, на те же поддомены, домены внутри беркли, условно факультет157.беркли.еду
источник

NZ

Nikita Zhidkov in Scrapy
а блин, ну это норм)
источник

i

i in Scrapy
И пойдет по ним. И на 700 из этих ссылок будет еще по 5000 ссылок, тоже на поддомены беркли.
источник

i

i in Scrapy
и так ты умножаешь 3000*700*5000 > 1kk
источник

NZ

Nikita Zhidkov in Scrapy
я просто думал ты имеешь ввиду кейс
предположим я решил спарсить этот сайт https://tea-mail.by/tea-room/  даю ссылку на главную страницу для старта и allowed_domains = ['tea-mail.by'] и я подуал ты имеешь ввиду что он может работать вне этого домена
источник

i

i in Scrapy
нет, задача четкая - работать строго внутри домена. Просто спич был о том, что для некоторых доменов люди не представляют глубин
источник

i

i in Scrapy
А там иной раз побольше амазона будет)
источник

NZ

Nikita Zhidkov in Scrapy
теперь понял, извиняюсь
источник

МС

Михаил Синегубов... in Scrapy
блин, да сделайте ограничение конкретным доменом... по умолчанию поддомены допустимы
источник

МС

Михаил Синегубов... in Scrapy
развели демагогию на 100500 сообщений
источник