нене, смотри 1) нужно понять откуда я брал данные (это буду хранить урл) 2) нужно что-то для частого поиска этих данных (урл не очень хорош для поиска, поэтмоу сделаю uid)
Слушайте, у меня тоже задача парсить весь сайт и я просто даю ссылку на главную страницу и ставлю ограничение по домену. Но вы меня что-то запугали теперь, что это будет плохо работать. На что обратить внимание тогад мне ещё?
ну короче - если ограничивать домены уровнем вложенности 5 (пять!), и запретить вообще выходить за домен. На сайте универа беркли получишь миллион. И оно не остановится.
ну пример, где-то на 4м уровне вложенности он найдет страницу, где будет 3000 ссылок, на те же поддомены, домены внутри беркли, условно факультет157.беркли.еду
я просто думал ты имеешь ввиду кейс предположим я решил спарсить этот сайт https://tea-mail.by/tea-room/ даю ссылку на главную страницу для старта и allowed_domains = ['tea-mail.by'] и я подуал ты имеешь ввиду что он может работать вне этого домена