Новости

Исследование обновления индекса сайта в Яндексе

Автор Дата 11.04.2017

В прошлой статье я описывал, подобно ((тому) как) мы у себя в агентстве проводим анализ индексации сайта поисковой системой Яндекс возле помощи нового Вебмастера. Недавно Яндекс обновил состав Вебмастера, добавив возможность следить за изменением индексации сайта неакадемично в режиме реального времени.

Подробно о всех возможностях сего инструмента можно прочитать в справке Яндекса.

Мы издревле старались держать руку на пульсе, проверяя страницы своими инструментами, и пропажа готового сервиса от Яндекса стало для нас настоящим подарком. В этой статье я хочу текстануть о том, как мы используем «Страницы в поиске» в своей работе.

Вещество

Использование инструмента Страницы в поиске

— Получаем список обновленных страниц

— Анализируем обложка обновления индекса

Заключение

Использование инструмента «Страницы в поиске»

Наш брат проверяем, что изменилось в индексации сайта после каждого текстового апдейта Яндекса.

Целеустановка проверки — узнать, какие страницы были включены в числовой показатель, какие страницы были исключены из индекса и соответственно какой причине. Выработать решение о том, что с сим всем делать.

Получаем список обновленных страниц

Во (избежание того, чтобы получить список обновленных страниц:

1. Заходим в Яндекс Веб-мастер, выбираем нужный сайт;

2. Нажимаем в левом меню «Индексирование»«Страницы в поиске» alias нажимаем на главной странице на заголовок блока «Обновление поиска в соответствии с…»;


Рис. 1. Отчет «Страницы в поиске» в Яндекс.Вебмастере

3. Бери открывшейся странице спускаемся внизу и нажимаем кнопку «XLS» в блоке «Скачать таблицу»;

Цицания. 2. Выгрузка списка страниц

4. Получаем Excel-обложка с последними обновлениями индексации сайта в Яндексе.

Анализируем обложка обновления индекса

В полученном файле будут следующие столбцы:

  • updateDate — датировка обновления поисковой базы, в которую попали страницы;
  • url — местожительство обновленной страницы;
  • httpCode — HTTP-код, полученный роботом изумительный время последнего обхода страницы;
  • status — статус страницы;
  • target — надсыл страницы, на которую происходит перенаправление, или отображаемый в результатах поиска адресок;
  • lastAccess — дата последнего посещения страницы роботом;
  • title — текстовка страницы;
  • event — действие, произошедшее со страницей (присыпание или исключение из поиска):

     ○ ADD — страница добавлена в колориндекс;

     ○ DELETE — страница удалена из индекса.

Приступаем к анализу файла:

Важное ссылка: Если ранее вы уже анализировали индексацию страниц, в столбце updateDate выбирайте даты по времени последнего анализа.

Если проверяете индексацию в первый в один из дней, то проверяйте весь список.

1. Открываем файл в Excel, выделяем всю таблицу с данными и активируем фильтр («Главная» — «Сортировка и фильтры» — «Фильтр»);


Падди. 3. Включение фильтров в Excel

2. Проверяем, какие страницы попали в коэффициент. Для это в колонке «Event» оставляем значение «ADD»:


Жемчужное) зерно. 4. Задание фильтра попавших в индекс страниц

     ○ Просматриваем колонку «URL» получай наличие подозрительных и аномальных страниц;

     ○ Если обнаруживаем проблему, делаем техническое урок на устранение этой проблемы.

Примеры аномальных и подозрительных страниц и по-свойски их устранить:

Страницы

Решение

Страницы с параметрами

  • Задвинуть параметры в robots.txt;
  • Найти причину появления подобных страниц, ликвидировать ее;
  • Настроить 301 редирект с таких страниц получи правильные;
  • Настроить 404 код ответа для таких страниц.

Страницы с нетипичной вложенности интересах сайта

  • Найти причину появления подобных страниц, аннулировать ее;
  • Настроить 301 редирект с таких страниц получай правильные;
  • Настроить 404 код ответа для таких страниц.

Страницы с нетипичным окончанием. Разве обычный для сайта URL заканчивается на «/», а в списке усиживать страницы без «/» на конце или с расширением получи конце (.htm / .html / .php / …)

  • Найти причину появления подобных страниц, уволить ее;
  • Настроить 301 редирект с таких страниц получай правильные;
  • Страницы с кириллицей для сайтов, у которых лишь латинские символы в URL
  • Найти причину появления подобных страниц, создать ее;
  • Настроить 404 код ответа для таких страниц.

Кое-кто

В зависимости от причины.

     ○ URL, которые были проверен не грех удалить из файла, чтобы они не мешали.

3. Проверяем, какие страницы были удалены изо индекса. Для это в колонке «Event» оставляем значительность «DELETE»:

     ○ Проверяем все причины исключения страниц изо индекса. Для этого в колонке «status» поочередно оставляем и тот и другой из видов ошибок и проверяем страницы.


Рис. 5. Замысел фильтра с причинами удаления страниц

Возможные статусы, отчего они означают и варианты лечения:

Значение status

Расшифровка

Наподобие решать

BAD_QUALITY

Страница считается некачественной

Смотрим страницу и ищем причину исключения.

  • Преимущественно частые ошибки:
  • Это технический дубль;
  • Дублируется Title;
  • Сверху странице мало контента или его нет.

CLEAN_PARAMS

Стадия работает через параметры, которые почищены в robots.txt директивой Clean-param

Делать что все правильно, то нужно заменить в robots.txt clean-param в Disallow, так как на обход по Clean-param тратится краулинговый смета.

DUPLICATE

Страница является дублем страницы по другому URL

Взглянуть причину, по которой страница оказалась дублем.

  • Иначе) будет то это дубль, настроить 301 редирект на основную страницу;
  • (не то это уникальная страница, поменять ее контент нате уникальный;
  • Если это очень похожие страницы (взять разные размеры одного товара), установить canonical возьми правильную страницу. В будущем уникализировать страницу и убрать canonical.

HOST_ERROR

Близ обращении к сайту роботу не удалось установить соединение в замок с сервером

Проверить код ответа сервера. Скорее лишь, он будет 50*.

Исправить код ответа и отправить страницу в последовательность на переобход.

HTTP_ERROR

При обращении к странице возникла просчёт

Проверить код ответа сервера. Скорее всего возлюбленный будет 50*.

Исправить код ответа и отправить страницу в очередность на переобход.

META_NO_INDEX

На странице усиживать метатег robots noindex (none)

Посмотреть, почему для странице noindex. Скорее всего, это страница пагинации. В таком случае запрятать noindex и уникализировать заголовки подписью «- Страница 2 (3…)».

NOT_CANONICAL

Получи странице есть метатег canonical с указанием на другую страницу

Покоситься, почему на странице canonical с указанием другой страницы.

  • В противном случае это ошибка, убрать canonical и отправить страницу в хвост на переобход;
  • Если это очень похожие страницы (вот хоть: разные размеры одного товара), уникализировать страницу и упрятать canonical;
  • Если это пагинация, убрать canonical и уникализировать. заголовки подписью «- Фаза 2 (3…)».

NOT_MAIN_MIRROR

Страница относится к неглавному зеркалу сайта, в рассуждении сего была исключена из поиска

Установить 301 серверный редирект со всех страниц неглавного зеркала получай аналогичные страницы на главном зеркале.

OTHER

Полоса известна роботу, но не участвует в поиске

Подвергнуть испытанию код ответа сервера. Скорее всего он брось 50*.

Исправить код ответа и отправить страницу в очередь получи и распишись переобход.

PARSER_ERROR

При обращении к странице роботу безграмотный удалось получить ее содержимое

Проверить код ответа сервера. Лучше всего он будет 50*.

Исправить код ответа и выслать страницу в очередь на переобход.

REDIRECT_SEARCHABLE

Ступенька осуществляет перенаправление, но находится в поиске

На страницу глотать ссылка (внешняя или внутренняя), но сама ступенька отдает 30* редирект.

Проверить 302 это редирект, благо да, то заменить на 301.

Проверить внутренние ссылки, на случай если они есть, заменить их на прямые.

REDIRECT_NOTSEARCHABLE

Стадия осуществляет перенаправление, при котором индексируется его высшая цель

На страницу есть ссылка (внешняя или внутренняя), да сама страница отдает 30* редирект.

Проверить 302 сие редирект, если да, то заменить на 301.

Подвергнуть проверке внутренние ссылки, если они есть, заменить их получай прямые.

ROBOTS_HOST_ERROR

Индексирование сайта запрещено в файле robots.txt. Манипулятор автоматически начнет посещать страницу, когда сайт хватит (за глаза) доступен для индексирования

Проверить robots.txt на табу индексации сайта. Если есть запрет, то выключить его.

Если запрет нужен, проверить нет ли внутренних ссылок получи эту страницу.

ROBOTS_TXT_ERROR

Индексирование сайта запрещено в файле robots.txt. Андроид автоматически начнет посещать страницу, когда сайт довольно доступен для индексирования

Проверить robots.txt на запрет индексации сайта. Если есть запрет, то припрятать его.

Если запрет нужен, проверить нет ли внутренних ссылок бери эту страницу.

SEARCHABLE

Страница находится в поиске

     ○ Делать что обнаруживаем проблему, делаем техническое задание на изживание этой проблемы.

Заключение

Проверяя таким простым способом индексацию своего сайта чрез (год) каждого текстового апдейта Яндекса, можно избежать многих проблем в будущем.

Делать что у вас есть вопросы, пишите задавайте их тут. Ant. там в комментариях. Разберемся вместе 🙂 

Источник: www.seonews.ru