Size: a a a

2021 April 30

МС

Михаил Синегубов... in Scrapy
а в чем проблема? ну, фильтрануться запросы. Или я про другое подумал?
источник

AR

Andrey Rahmatullin in Scrapy
ну надо внутренние, а будут некоторые внешние
источник

МС

Михаил Синегубов... in Scrapy
первый сайт - надо по всем страницам пройти или  только с главной собрать?
источник

S

SoHard 🎄 in Scrapy
список вакансий - вакансия - компания - сайт = по 1 уровню внутренних ссылок
источник

МС

Михаил Синегубов... in Scrapy
я тебя обожаю, ты сказал все, кроме ответа на мой вопрос 😂
источник

S

SoHard 🎄 in Scrapy
значит я вопроса не понял
источник

S

SoHard 🎄 in Scrapy
у меня много заказчиков из израиля я уже теряю связь с миром
источник

МС

Михаил Синегубов... in Scrapy
сейчас вопрос в обратных ссылках.
есть первый сайт, с него собрали ссылки. По ним перешли:
1. обратно на первый сайт можно возвращаться (я уже понял, что это что то вроде HH, но все же)?
2. между соседними сайтами можно переходить? К примеру, получили два сайта, а у них перекресные ссылки
3. те сайты, на которые пришли с первого - их надо полностью проходить, или только до определенного уровня?
источник

МС

Михаил Синегубов... in Scrapy
уф, надеюсь понятно написал :)
источник

S

SoHard 🎄 in Scrapy
1.  идея собрать контакты работодателей, то выходит что нет, не надо возвращаться
2. тоже нет, но я сомневаюсь что там могут быть перекресные
3. 1 уровня хватит
источник

МС

Михаил Синегубов... in Scrapy
а вообще, если не вдаваться в подробности. Я  бы allowed_domains передавал в колбеки. В самом пауке вообще убрал бы параметр.
В самом колбеке ссылки доставать через LinkExtractor, ну, или с фильтром по домену.
Можно еще, дополнительно, передавать "можно ли парсить внешние ссылки"
источник

МС

Михаил Синегубов... in Scrapy
в самом LinkExtractor, есть же allowed_domains
надо просто отключить фильтр ссылок по домену самого скрапи

хз, насколько это правильно
источник

МС

Михаил Синегубов... in Scrapy
если написал непонятную хрень - спрашивай, попытаюсь объяснить :)
источник

S

SoHard 🎄 in Scrapy
сделал такое LinkExtractor(allow_domains=urlparse(response.url).netloc)
источник

МС

Михаил Синегубов... in Scrapy
ииии? :)
источник

S

SoHard 🎄 in Scrapy
вроде как работает) отписал вдруг кто поиском будет пользоваться и ему поможет
источник

МС

Михаил Синегубов... in Scrapy
аа, так и написал бы сразу, "вроде норм", а то написал что сделал и хз, может "нихрена ничего не работает" 😀😂
источник

MA

Murilo Andrade in Scrapy
Здравствуйте, у меня вопрос. После прохождения страницы с логином и паролем мне нужно было бы нажать кнопку, которая переводит меня на другую страницу, как у меня такое поведение?
источник

МС

Михаил Синегубов... in Scrapy
Maybe you should write in English? :)

или я не так имя понял :)
источник

МС

Михаил Синегубов... in Scrapy
F12 -> Network
Смотреть запросы, с помощью которых происходит переход на страницу.
Но, это не всегда требуется. Чаще всего, этот шаг можно пропустить и сразу запрашивать страницу с данным.
источник