Телеграмм чат группы scrapy

нене, смотри
1) нужно понять откуда я брал данные (это буду хранить урл)
2) нужно что-то для частого поиска этих данных (урл не очень хорош для поиска, поэтмоу сделаю uid)

источник

13:15пожаловаться #6

МС

Михаил Синегубов... in Scrapy

ограничить домены одним уровнем (можно накостылить) и не выключать фильтр дубликатов..
в крайнем случае, свой фильтр дубликатов

источник

13:15пожаловаться #7

Nikita Zhidkov in Scrapy

Слушайте, у меня тоже задача парсить весь сайт и я просто даю ссылку на главную страницу и ставлю ограничение по домену. Но вы меня что-то запугали теперь, что это будет плохо работать. На что обратить внимание тогад мне ещё?

источник

13:16пожаловаться #8

i in Scrapy

ну короче - если ограничивать домены уровнем вложенности 5 (пять!), и запретить вообще выходить за домен. На сайте универа беркли получишь миллион. И оно не остановится.

источник

13:16пожаловаться #9

Nikita Zhidkov in Scrapy

Я не очень понимаю, что значит оно не остановится? Он уйдёт на другие домены?

источник

13:17пожаловаться #10

i in Scrapy

ну пример, где-то на 4м уровне вложенности он найдет страницу, где будет 3000 ссылок, на те же поддомены, домены внутри беркли, условно факультет157.беркли.еду

источник

13:18пожаловаться #11

Nikita Zhidkov in Scrapy

а блин, ну это норм)

источник

13:19пожаловаться #12

i in Scrapy

И пойдет по ним. И на 700 из этих ссылок будет еще по 5000 ссылок, тоже на поддомены беркли.

источник

13:19пожаловаться #13

i in Scrapy

и так ты умножаешь 3000*700*5000 > 1kk

источник

13:19пожаловаться #14

Nikita Zhidkov in Scrapy

я просто думал ты имеешь ввиду кейс
предположим я решил спарсить этот сайт https://tea-mail.by/tea-room/ даю ссылку на главную страницу для старта и allowed_domains = ['tea-mail.by'] и я подуал ты имеешь ввиду что он может работать вне этого домена

Интернет-магазин китайского чая в Минске

Китайская чайная церемония в Минске, цены

Хотите попасть на китайскую чайную церемонию? ➤ Приходите в Чайную Почту. ✔Церемония 9 BYN ✔Дегустации ✔Мастер-классы! Бронируйте ☎+375 29 854-34-60

источник

13:19пожаловаться #15

i in Scrapy

нет, задача четкая - работать строго внутри домена. Просто спич был о том, что для некоторых доменов люди не представляют глубин

источник

13:20пожаловаться #16

i in Scrapy

А там иной раз побольше амазона будет)

источник