Телеграмм чат группы tech

нужно понять какие страницы в индексе уже и исключить мусорные, усложняется тем что сайт большой + старый сайт имел неизвестную мне структуру (т.е. например имел разделы, которых нет на новом) ...при переезде на новый редиректы не настроили.

источник

16:46пожаловаться #9

IK

Ivan kutasok Kutas in Техническое SEO

Aleksandr Nikitin

нужно понять какие страницы в индексе уже и исключить мусорные, усложняется тем что сайт большой + старый сайт имел неизвестную мне структуру (т.е. например имел разделы, которых нет на новом) ...при переезде на новый редиректы не настроили.

1. Быстрый и неточный метод.
Загрузить URL, которые получали показы. В Netpeak Spider это можно сделать так → https://img.netpeaksoftware.com/gravelot/1QFQORG.png . Лучше задать большой период выгрузки.

Так можно получить много страниц, которые были в индексе, но не все.

2. Медленный и точный метод.
Пробивать итеративно выдачу как я описывал выше (используя site: и inurl:), чтобы определить все страницы в индексе. Нужны прокси и антикапча.

источник

16:55пожаловаться #10

ИГ

Игорь Гончаренко in Техническое SEO

Подскажите пожалуйста, если на странице в коде которой прописан запрещающий тег индексации (ноиндекс), добавить тег ноиндекс в ответ сервера этой странице, бот все ровно на нее заходит ? Или он сначала получает данные ответа сервера страницы, и если в ответе есть тег ноиндек, то на нее не заходит и тем самым не тратит краулинговый бюджет ?

источник

17:21пожаловаться #11

ММ

Максим Мирошник in Техническое SEO

Евгений Калинский

Спасибо, но как по мне сервис на www.sitegardien.com нагляднее

Что то он "sorry, the html was not accessible" - это потому что битрикс? Он только для WP?

источник

17:36пожаловаться #12

VS

Victor Stepankov in Техническое SEO

Максим Мирошник

Что то он "sorry, the html was not accessible" - это потому что битрикс? Он только для WP?

от битрикса, конечно, всякие чудеса возможны, но возможно это просто у вас какая-нить защита от парсинга срабатывает

источник

17:42пожаловаться #13

VS

Victor Stepankov in Техническое SEO

например, сервис дёргает с каким-нить типичным для ботов юзерагентом, а у вас блок

источник

17:43пожаловаться #14

JA

JustAndrew Andrew in Техническое SEO

Ivan kutasok Kutas

1. Быстрый и неточный метод.
Загрузить URL, которые получали показы. В Netpeak Spider это можно сделать так → https://img.netpeaksoftware.com/gravelot/1QFQORG.png . Лучше задать большой период выгрузки.

Так можно получить много страниц, которые были в индексе, но не все.

2. Медленный и точный метод.
Пробивать итеративно выдачу как я описывал выше (используя site: и inurl:), чтобы определить все страницы в индексе. Нужны прокси и антикапча.

Я как бы не хочу показаться невеждой но site не отражает полную картину мира и demi murych писал что точных инструментов вообще нет

источник

18:03пожаловаться #15

IK

Ivan kutasok Kutas in Техническое SEO

JustAndrew Andrew

Я как бы не хочу показаться невеждой но site не отражает полную картину мира и demi murych писал что точных инструментов вообще нет

Можете дать ссылку на сообщение Demi? Чтобы я был в контексте.

источник

18:31пожаловаться #16

T

Tom in Техническое SEO