Новости

Война с дубликатами. Как нужно и как не нужно канонизировать URL

Автор Дата 14.08.2019

Представьте себе ситуацию: поисковой бот приходит к вам на сайт, сканирует контент и находит порядочно одинаковых страниц. Как боту выбрать лучший разновидность для ранжирования?

Бот доверится подсказкам, которые ваша милость ему предоставите (если только вы не будете жонглировать алгоритмами поисковика). Если же вы не укажете, каковой URL является каноническим (оригинальным / более важным для вам), бот сделает выбор за вас. А еще ботик может расценить дублирующие страницы как одинаково важные. Тут-то поисковик потратит краулинговый бюджет на повторяющийся контент, а прибыльные страницы могу в колориндекс так и не попасть.

Как избежать такого расклада? Отклик может показаться сложным, но в этой статье я объясню до сей поры просто. Итак, чтобы бот забрал в индекс выгодные страницы, их нужно узаконить.

Читайте ниже, что это значит, как сие нужно и не нужно делать.

Вы уверены, подобно как у вас на сайте нет дубликатов?

Канонический URL – сие страница, которую Google воспринимает как наиболее важную изо нескольких дублирующихся URL-ов на сайте. Возможно ваша сестра думаете: «Я не копирую URL-ы у себя на сайте, (вследствие мне не о чем беспокоиться». На самом деле дубликаты могут быть созданы автоматично. Например, поисковые роботы могут зайти на вашу страницу разными способами:

  • Вследствие протоколы HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • Вследствие WWW и не WWW:

http://example.com

http://www.example.com/

Как предпочтительнее попасть к вам на сайт? Выберите лучший метода и не забудьте рассказать поисковым системам о своем выборе.

Рассмотрим ещё раз один пример, когда множество дубликатов создается получай коммерческом сайте автоматически. Сортировка товаров с помощью URL параметров в области размеру, цвету, бренду и т. д. генерирует тысячи дубликатов. Возьмем:

  • yourwebsite.com/products/girls?category=dresses&color=white

yourwebsite.com/products/girls?category=dresses&color=black

  • yourwebsite.com/dress?style=casual,long-sleeve 

yourwebsite.com/dress?style=casual&style=long-sleeve)

От случая к случаю бот находит на сайте практически идентичный контент получи разных URL-ах, авторитет сайта/позиция в органическом поиске снижается. Так-таки поисковики ценят уникальный контент и ранжируют его за пределами, а дубликаты только тратят их ресурсы. Поэтому важнецки оптимальным способом разметить, какой контент на вашем сайте спец, а какой нет. В статье я расскажу о четырех способах канонизации страниц. Наша сестра поговорим о плюсах, минусах и особенностях использования каждого с них.

1. Тег Rel=canonical

Предположим, вы хотите произвести страницу https://yourwesite.com/page.php/ канонической. Для сего добавьте элемент link с атрибутом rel="canonical" и ссылку сверху каноническую страницу в заголовок head всех дубликатов:


Неравно у канонической страницы есть вариант для мобильных устройств, добавьте штука link с атрибутом rel="alternate" и ссылкой для мобильную версию, например:

link rel="alternate" media="only screen and (max-width: 660px)" href="https://m.yourwesite.com/page.php/"

Доза link с атрибутом rel="canonical" должны продовольствовать абсолютный URL (полный), а не относительный (сокращенный) адрес.

2. Rel=canonical HTTP header

Тег Rel=canonical канонизирует HTML-страницы. В (видах других же форматов, как, например, PDF, Google рекомендует писать атрибут rel=canonical в HTTP-заголовке. PDF на сайте существенно канонизировать потому, что боты просматривают и индексируют такие файлы в среднем же, как и HTML страницы.

Этим способом дозволительно воспользоваться только если у вас есть доступ к настройкам сервера. Безграмотный буду детально описывать процесс создания rel=canonical HTTP, беспричинно как необходимо углубиться в технические детали, и статья растянется страниц сверху 10. Оставляю ссылку на хорошую статью через MOZ со всеми нюансами внедрения rel="canonical" HTTP Headers. Где-то же, как и в rel=canonical link, URL-ы в HTTP-заголовке должны оказываться абсолютными.

3. 301 редирект

301 статус код – это перенаправление пользователей и ботов нате другой URL.

Когда лучше применить 301 статус шифр:

  • смена домена сайта;
  • для ошибки 404 и контента, утратившего насущность, но имеющего релевантные ссылки и большой трафик;
  • угоду кому) контента, который переехал на другой URL навсегда.

4. Sitemap/Туз сайта

Sitemap, или по-русски карта сайта — сие XML-файл с информацией о местонахождении URL-ов, дате их последнего обновления, частоте обновления и др. Программист Google Джон Мюллер подтвердил, что страницы в картах сайта ботик воспринимает как приоритетные для индексации и ранжирования.

«…автор этих строк используем URL-ы в sitemap как способ понять, какой URL годится считать каноническим для определенного контента».

Все страницы в этом файле лодка считает каноническими

Не добавляйте в Sitemap неканонические страницы.

Ни дать ни взять делать НЕ нужно

1. НЕ канонизируйте несколько дубликатов разными способами. Положим, у вас есть страницы А и В с одинаковым контентом. В body страницы А вас добавляете тег rel=canonical, а страницу В указываете в sitemap (напоминаю, что же все страницы в sitemap бот считает каноническими). В настоящий момент бот запутался и потратил время и ресурсы, пытаясь осмыслить, какой же контент считать оригинальным. Не надо бы так.

2. НЕ используйте rel=canonical link tag/ HTTP header в страницах категорий товаров и фильтров. На коммерческих сайтах вещи можно отсортировать по цвету, размеру, бренду и т.д. Коль скоро на каждой странице поставить тег canonical, в таком случае бот будет ходить по каждому параметру URL-а и изводить краулинговый бюджет там. Страницы сортировки лучше задернуть в robots.txt или в meta “noindex”, в зависимости через размера сайта и его специфики.

3. Не используйте robots.txt в (видах канонизации. Директивы в robots.txt показывают, какие страницы/папки нужно краулить боту, а какие кого и след простыл. Однако вебмастер Google не рекомендует таким образом узаконить страницы, ведь бот не может даже забрести на страницу и понять, что это дубликат/шальная голова. 

Источник: Twitter

Джон Мюллер: 

Блокировка через robots.txt работает (до, что мы даже не можем сказать, чего это дубликаты. Лучше дать поисковой системе впереть, что дубликаты есть, но ранжировать нужно страницу с rel=canonical элементом…

4. Малограмотный линкуйте дубликаты URL-ов внутри вашего сайта. Даже если вы канонизируете страницу, вы считаете ее сильнее важной. Согласитесь, это странно, если вы ссылаетесь получи неканонические/менее важные версии страниц.

5. НЕ вписывайте дубликаты в URL removal tool в Google Search Console. Сей метод временно блокирует доступ ботов не не более к дублям, но и к оригинальным версиям.

6. НЕ канонизируйте HTTP, если нет на сайте есть версия страницы с HTTPS-протоколом. Наличествование SSL-сертификата (который поддерживает HTTP) является одним изо факторов ранжирования Google, поэтому переход на акт HTTPS повышает позиции страницы в поиске.

Коротко о главном

Выходит, канонизация – это способ показать Google, какие страницы преимущественно показывать в поисковой выдаче.

Используйте эти четыре рекомендованных Google способа канонизации:

  • Rel=canonical link tag – рано ли нужно канонизировать HTML страницы;
  • Rel=canonical HTTP header – часом нужно канонизировать не HTML-файлы;
  • 301 redirect – нет-нет да и контент навсегда переезжает на другую страницу;
  • XML Sitemap — так чтоб перечислить все канонические страницы на сайте и облегчить боту поиск (теги canonical также необходимо проставить).

Чтобы оптимизировать краулинговый смета и отправить прибыльные страницы в индекс, следуйте этим советам:

  • Безграмотный канонизируйте несколько URL-ов с одинаковым контентом разными способами;
  • Нe используйте rel=canonical tag нате страницах фильтров;
  • Не используйте robots.txt для канонизации;
  • Никак не линкуйте дубликаты внутри вашего сайта;
  • Не отправляйте дубликаты страниц в removal tool через GSC;
  • Не канонизируйте HTTP-страницы.

Источник: www.seonews.ru