Size: a a a

SEO chat 🏠👨🏻‍💻

2020 May 11

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Здравствуйте, скажите пожалуйста, почему Фрог не сканирует сайт через Includes https://prnt.sc/sevkgl
Все время в результате одна страница!
источник

C

Combot in SEO chat 🏠👨🏻‍💻
🌟 Opozit Немцов, получи уровень: 2 - вроде разбирается! #xp
источник

KP

Kosov Pavel in SEO chat 🏠👨🏻‍💻
Opozit Немцов
Здравствуйте, скажите пожалуйста, почему Фрог не сканирует сайт через Includes https://prnt.sc/sevkgl
Все время в результате одна страница!
Быть может потому, что УРЛ avito.ru редиректит на avito.ru/rossiya , а вы сами ему запретили сканировать все урлы кроме тех, которые содержат часть rabota?
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Если не сложно, можете написать свою версию пути!
источник

KP

Kosov Pavel in SEO chat 🏠👨🏻‍💻
Opozit Немцов
Если не сложно, можете написать свою версию пути!
Начните сканирование не со страницы http://avito.ru , а с https://avito.ru/rossiya
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Указал в главной строке поиска https://avito.ru/rossiya
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
а как сделать, что бы парсил только папку https://www.avito.ru/rossiya/vakansii
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
в include задать параметр:
.*.*/vakansii/.*.*
или же
.*.*/rossiya/vakansii/.*.*
Но упирается все в структуру страниц и настройку обработки, если выключен рендер JS, а ссылки через него подгружаться - то их не будет видно. В общем, суть в том что бы не заблокировать страницы ведущие на внутренние, которые вы пытаетесь спарсить
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
Короче, если обычная пагинация (HTML) - будет норм, если динамическая - включите обработку JS
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
Но у вас структура URL не совсем идентичная
Родительская: https://www.avito.ru/rossiya/vakansii
Дочерняя: https://www.avito.ru/murmansk/vakansii/malyar-shtukatur_1896118500

Если задать такой параметр задать:
.*.*/rossiya/vakansii/.*.* - внутренние не просканируются

Если задать
.*.*/vakansii/.*.*- то в краул попадет не только вложенность /rossiya/

Попробуйте задать 2 правила для входящих УРЛ:
.*.*/rossiya/vakansii/.*.*
.*.*/vakansii/.*.*

Сомневаюсь что сработает, подкину идею.
Тут в зависимости от конечной цели - можно выбрать разный подход, через тот же sitemap спарсить
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
Или через exclude задать правила для вложенностей которые не должны попадать под скан.
источник

VK

Victor 🏠👨🏻‍💻 Kargeen... in SEO chat 🏠👨🏻‍💻
зачем тебе эта дичь?
источник

VK

Victor 🏠👨🏻‍💻 Kargeen... in SEO chat 🏠👨🏻‍💻
запили кастомный роботс просто. чо изгаляться?
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Если ввести только домен авито, без ограничений, то фрог сканирует только 4214 страниц
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Victor 🏠👨🏻‍💻 Kargeen
запили кастомный роботс просто. чо изгаляться?
а это как?
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
Opozit Немцов
Если ввести только домен авито, без ограничений, то фрог сканирует только 4214 страниц
Рендер JS включите
источник

VK

Victor 🏠👨🏻‍💻 Kargeen... in SEO chat 🏠👨🏻‍💻
Opozit Немцов
а это как?
конфиг - роботс кастом
источник

Opozit Немцов in SEO chat 🏠👨🏻‍💻
Godlike
Рендер JS включите
источник

VK

Victor 🏠👨🏻‍💻 Kargeen... in SEO chat 🏠👨🏻‍💻
делаешь полностью свой роботс и запрещаешь всё, кроме нужных тебе страниц.
источник

G

Godlike in SEO chat 🏠👨🏻‍💻
Victor 🏠👨🏻‍💻 Kargeen
делаешь полностью свой роботс и запрещаешь всё, кроме нужных тебе страниц.
Но если через роботс - больше времени уходит, через правила include и exclude, насколько я замечал на своем слабом ПК - процесс быстрее
источник