Size: a a a

Техническое SEO

2020 March 11

AN

Aleksandr Nikitin in Техническое SEO
спасибо, думал может какой-то софт умеет по API выгружать
источник

AN

Aleksandr Nikitin in Техническое SEO
Netpeak Spider я так понял только поисковые запросы выгружает
источник

IK

Ivan kutasok Kutas in Техническое SEO
Aleksandr Nikitin
спасибо, думал может какой-то софт умеет по API выгружать
По API список проиндексированных страниц из Search Console?
источник

AN

Aleksandr Nikitin in Техническое SEO
да, например из этого отчета
источник

AN

Aleksandr Nikitin in Техническое SEO
источник

IK

Ivan kutasok Kutas in Техническое SEO
Aleksandr Nikitin
да, например из этого отчета
К сожалению, в API Search Console нет методов для выгрузки этих данных.
источник

AN

Aleksandr Nikitin in Техническое SEO
@kutasok понял, выходит и софт искать бесполезно
источник

IK

Ivan kutasok Kutas in Техническое SEO
Aleksandr Nikitin
@kutasok понял, выходит и софт искать бесполезно
А какую задачу нужно решить?
источник

AN

Aleksandr Nikitin in Техническое SEO
нужно понять какие страницы в индексе уже и исключить мусорные, усложняется тем что сайт большой + старый сайт имел неизвестную мне структуру (т.е. например имел разделы, которых нет на новом) ...при переезде на новый редиректы не настроили.
источник

IK

Ivan kutasok Kutas in Техническое SEO
Aleksandr Nikitin
нужно понять какие страницы в индексе уже и исключить мусорные, усложняется тем что сайт большой + старый сайт имел неизвестную мне структуру (т.е. например имел разделы, которых нет на новом) ...при переезде на новый редиректы не настроили.
1. Быстрый и неточный метод.
Загрузить URL, которые получали показы. В Netpeak Spider это можно сделать так → https://img.netpeaksoftware.com/gravelot/1QFQORG.png . Лучше задать большой период выгрузки.

Так можно получить много страниц, которые были в индексе, но не все.

2. Медленный и точный метод.
Пробивать итеративно выдачу как я описывал выше (используя site: и inurl:), чтобы определить все страницы в индексе. Нужны прокси и антикапча.
источник

ИГ

Игорь Гончаренко in Техническое SEO
Подскажите пожалуйста, если на странице в коде которой прописан запрещающий тег индексации (ноиндекс), добавить тег ноиндекс в ответ сервера этой странице, бот все ровно на нее заходит ? Или он сначала получает данные ответа сервера страницы, и если в ответе есть тег ноиндек, то на нее не заходит и тем самым не тратит краулинговый бюджет ?
источник

ММ

Максим Мирошник in Техническое SEO
Евгений Калинский
Спасибо, но как по мне сервис на  www.sitegardien.com нагляднее
Что то он "sorry, the html was not accessible" - это потому что битрикс? Он только для WP?
источник

VS

Victor Stepankov in Техническое SEO
Максим Мирошник
Что то он "sorry, the html was not accessible" - это потому что битрикс? Он только для WP?
от битрикса, конечно, всякие чудеса возможны, но возможно это просто у вас какая-нить защита от парсинга срабатывает
источник

VS

Victor Stepankov in Техническое SEO
например, сервис дёргает с каким-нить типичным для ботов юзерагентом, а у вас блок
источник

JA

JustAndrew Andrew in Техническое SEO
Ivan kutasok Kutas
1. Быстрый и неточный метод.
Загрузить URL, которые получали показы. В Netpeak Spider это можно сделать так → https://img.netpeaksoftware.com/gravelot/1QFQORG.png . Лучше задать большой период выгрузки.

Так можно получить много страниц, которые были в индексе, но не все.

2. Медленный и точный метод.
Пробивать итеративно выдачу как я описывал выше (используя site: и inurl:), чтобы определить все страницы в индексе. Нужны прокси и антикапча.
Я как бы не хочу показаться невеждой но site не отражает полную картину мира и demi murych писал что точных инструментов вообще нет
источник

IK

Ivan kutasok Kutas in Техническое SEO
JustAndrew Andrew
Я как бы не хочу показаться невеждой но site не отражает полную картину мира и demi murych писал что точных инструментов вообще нет
Можете дать ссылку на сообщение Demi? Чтобы я был в контексте.
источник

T

Tom in Техническое SEO
JustAndrew Andrew
Я как бы не хочу показаться невеждой но site не отражает полную картину мира и demi murych писал что точных инструментов вообще нет
А почему не выгрузить урлы через вкладку покрытие - в индексе
источник

IK

Ivan kutasok Kutas in Техническое SEO
Tom
А почему не выгрузить урлы через вкладку покрытие - в индексе
Максимум 1000 примеров там. Или что-то изменилось и я не прав?
источник

T

Tom in Техническое SEO
Ivan kutasok Kutas
Максимум 1000 примеров там. Или что-то изменилось и я не прав?
Аа точно, тогда норм 2 вариантспарсить сайт лягушкой и потом чекером или апарсером пробить в индекс или нет
источник

ИГ

Игорь Гончаренко in Техническое SEO
Ivan kutasok Kutas
Можете дать ссылку на сообщение Demi? Чтобы я был в контексте.
Здравствуйте, в нетпик спайдере есть возможность проверить урлы на предмет дублей директив мета роботс в хтмл коде страницы ?
источник