Новости

Дубликаты страниц на сайте: чем вредны и как от них избавиться?

Автор Дата 02.04.2018

Быть анализе сайта на предмет технических ошибок автор часто сталкиваемся с такой проблемой, как дубликаты страниц. Давайте подробнее разберемся, как будто это такое, какие виды дубликатов существуют, (как) будто их выявить и избавиться.

Примечание: если вы знаете что такое? такое дубли страниц и чем они вредны чтобы продвижения, можно сразу перейти в четвертый раздел «Как совлечь покров дубли страниц».

Разберем общее понятие:

Дубликаты страниц — сие полная или частичная копия основной веб-страницы получай сайте, которая участвует в продвижении. Как правило подражание находится на отдельном URL-адресе.

Чем вредны дубликаты страниц около продвижении сайта?

Многие владельцы сайтов даже неважный (=маловажный) подозревают о том, что на сайте может пребывать большое количество дубликатов, наличие которых плохо сказывается для общем ранжировании сайта. Поисковые системы воспринимают причина документы как отдельные, поэтому контент страницы перестает браться уникальным, тем самым снижается ссылочный вес страницы.

Присутствие небольшого количества дублей страниц не будет являть большой проблемой для сайта. Но если их контингент зашкаливает, то от них необходимо избавляться в срочном порядке.

Будущий дубликатов страниц

Существуют различные виды дубликатов страниц, самые распространенные с них представлены в рисунке 1:

Рис. 1. Виды дубликатов страниц

Разберем подробнее представленные ожидание дублей страниц.

Полные дубликаты страниц — полное копирование контента веб-документа, различия только в URL-адресе.

Частичные дубликаты страниц — частичное резервирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Примерно сказать, большие фрагменты текстов дублируются на нескольких страницах сайта — сие уже частичные дубликаты или похожие карточки товаров, которые отличаются просто-напросто одной незначительной характеристикой.

Внешние дубликаты страниц — полное возможно ли частичное дублирование контента на разных сайтах.

Технические дубликаты — сие дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.

Дубликаты, созданные человеком — сие дубликаты страниц, которые были созданы по невнимательности самим вебмастером.

Т. е. выявить дубли страниц?

Способов обнаружить дубликаты страниц — совокупность. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще просто-напросто.

1. Парсинг сайта в сервисе

При парсинге сайта в каком-либо сервисе (в последнее час(ы) чаще всего используют сервис Screaming Frog) логично можно увидеть страницы-дубликаты.

К примеру, когда далеко не склеены зеркала либо у страниц есть какие-в таком случае параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.

Цицания. 2. Пример парсинга сайта в сервисе Screaming Frog присутствие не склеенных зеркалах

Небольшой лайфхак для работы с сервисом Screaming Frog: на случай если у сайта огромное количеством страниц, и вы сразу заметили, что-что зеркала не склеены и поставили проект на парсинг, раскованно процесс замедлится и уменьшит скорость работы вашей системы ((не то у вашего ПК, конечно, не мощные системные характеристики).

Ради этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.

В вкладке Regex Replace создаем следующее принцип (используя регулярное выражение, «говорим» сервису, как нужно клеить. Ant. расклеивать зеркала, чтобы он выводил только страницы с HTTPS):

Цицания. 3. Скриншот из сервиса Screaming Frog — Контрафакция функции URL Rewriting

Далее нажимаем кнопку «ОК» и переходим изумительный вкладку «Test». В данной вкладке сервис вам покажет, как подобает ли вы задали правило и как будут приклеиваться зеркала. В нашем случаем должен выходить такой произведение:

Рис. 4. Скриншот из сервиса Screaming Frog — Исчерпывание функции Test

Таким же способом можно приклеивать страницы с «www» и без «www», а также задавать неодинаковые параметры, чтобы не выводить ненужные страницы (за примером далеко ходить не нужно, страницы пагинации).

После всех операций спокойно запускаем парсинг сайта помимо дополнительной нагрузки на систему.

2. Использование панели Яндекс.Веб-мастер

В Яндекс.Вебмастер есть очень удобный пункт сервиса — «Индексирование» — «Страницы в поиске». Известный пункт наглядно показывает текущую индексацию сайта, а как и дубликаты страниц (то, что мы ищем):

Чалтык. 5. Скриншот из панели Яндекс.Вебмастер — Эксплуатация функции Страницы в Поиске

Для полного анализа дубликатов страниц рекомендуется выгрузить xls-обложка всех страниц, которые присутствуют в поиске:

Рис. 6. Сгрузка. Ant. погрузка страниц в поиске из панели Яндекс.Вебмастер

Открываем отечественный xls-файл и включаем фильтр: Данные – Фильтр:

Рис. 7. Скриншот с xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»

В фильтре выбираем «DUPLICATE», и впереди нами будет список дубликатов страниц. Рекомендуется разобрать по косточкам каждую страницу или один тип страниц, (коли, например, это только карточки товаров) на дезидерата дублирования.

Например: поисковая система может признать дубликатами одинаковые карточки товаров с незначительными отличиями. Тогда необходимо передрать содержание страницы: основной контент, теги и метатеги, коль (скоро) они дублируются, либо такие карточки склеить с через атрибута rel=”canonical”. Другие рекомендации по избавлению ото дубликатов страниц подробно описаны в пункте 5.

3. Использование Google Search Console

Заходим в Google Search Console, выбираем неординарный сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:

Жемчужное) зерно. 8. Скриншот из панели «Google Console»

Информация страницы могут и не являются дубликатами, но рассмотреть их нужно и при необходимости устранить проблемы с дублированием.

4. Утилизация операторов поиска

Для поиска дубликатов также только и можно использовать операторы поиска «site:» и «inurl», но нынешний метод уже устарел. Его полностью заменила ипостась «Страницы в поиске» в Яндекс.Вебмастере.

Рис. 9. Скриншот с поисковой выдачи – использование поисковых операторов

5. Ручной разыскание

Для ручного поиска дубликатов страниц необходимо еще обладать знаниями о том, какие дубликаты могут непременничать. Вручную обычно проверяются такие типы дубликатов, в духе:

一 URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и кроме “/” в конце в сервисе bertal. Если обе страницы отдают адрес ответа сервера 200 ОК, то такие страницы являются дубликатами и их ничего не поделаешь склеить 301 редиректом

一 добавление в URL-адрес каких-либо символов в конце адреса иначе говоря в середине. Если после перезагрузки страница не отдает 404 адрес ответа сервера или не настроен 301 Moved Permanently нате текущую основную страницу, то перед нами, точно по сути, тоже дубликат, от которого необходимо спровадить. Такая ошибка является системной, и ее нужно надумать на автоматическом уровне.

Как избавиться от дубликатов страниц: основные будущий и методы

В данном пункте разберем наиболее часто встречающиеся цель дубликатов страниц и варианты их устранения:

  1. Не склеенные страницы с «/» и за исключением. Ant. с «/», с www и без www, страницы с http и с https.

Варианты устранения:

一 Настроить 301 Moved Permanently получай основное зеркало, обязательно выполните необходимые настройки за выбору основного зеркала сайта в Яндекс.Вебмастер.

  1. Страницы пагинации, нет-нет да и дублируется текст с первой страницы на все накипь, при этом товар разный.

Выполнить следующие поведение:

一 Использовать теги next/prev для связки страниц пагинации в обществе собой;

一 Если первая страница пагинации дублируется с генеральный, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой для основную;

一 Добавить на все страницы пагинации тег:

< meta name="robots" content="noindex, follow" / >

Сей тег не позволяет роботу поисковой системы индексировать контент, однако дает переходить по ссылкам на странице.

  1. Страницы, которые появляются с-за некорректно работающего фильтра.

Варианты устранения:

一 Корректно настроить страницы фильтрации, для того чтобы они были статическими. Также их необходимо верно оптимизировать. Если все корректно настроено, сайт короче дополнительно собирать трафик на страницы фильтрации;

一 Оборонить страницы-дубликаты в файле robots.txt с помощью директивы Disallow.

  1. Идентичные вещи, которые не имеют существенных различий (например: сливки, размер и т.д.).

Варианты устранения:

一 Склеить похожие товары с через тега rel=”canonical”;

一 Реализовать новый функционал на странице карточки товара вдоль выбору характеристики. Например, если есть несколько чуть (было одинаковых товаров, которые различаются только, к примеру, цветом фабрикаты, то рекомендуется реализовать выбор цвета на одной карточке товара, по прошествии времени – с остальных настроить 301 редирект на основную карточку.

  1. Страницы на печати.

Вариант устранения:

一 Закрыть в файле robots.txt.

  1. Страницы с неправильной настройкой 404 стих ответа сервера.

Вариант устранения:

一 Настроить корректный 404 шифр ответа сервера.

  1. Дубли, которые появились после некорректной смены структуры сайта.

Видоизменение устранения:

一 Настроить 301 редирект со страниц старой структуры нате аналогичные страницы в новой структуре.

  1. Дубли, которые появляются с-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются получай index.php, index.html и др.

Варианты устранения:

一 Затянуть в файле robots.txt;

一 Настроить 301 редирект со страниц дубликатов сверху основные.

  1. Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях согласно отдельным URL-адресам.

Варианты устранения:

一 Cклеить страницы с через тега rel=”canonical”;

一 Лучшим решением будет вынести конец страницы товаров под отдельный параметр в URL-адресе, как-то “/product/”, без привязки к разделам, тогда все вещи можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.

  1. Дубли, которые возникают подле добавлении get-параметров, различных utm-меток, пометок счетчиков угоду кому) отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Выпись, реферальных ссылок, например, страницы с такими параметрами наравне: gclid=, yclid=, openstat= и др.

Варианты устранения:

一 В данном случае желательно проставить на всех страницах тег rel=”canonical” со ссылкой страницы для саму себя, так как закрытие таких страниц в файле robots.txt может подложить мину корректному отслеживанию эффективности рекламных кампаний.

Устранение дублей позволит поисковым системам скорее понимать и ранжировать ваш сайт. Используйте советы изо этой статьи, и тогда поиск и устранение дублей неважный (=маловажный) будет казаться сложным процессом.

И повторюсь: малое сумма дубликатов не так значительно скажется на ранжировании вашего сайта, же большое количество (более 50% от общего числа страниц сайта) определенно нанесет вред.

Источник: www.seonews.ru