Новости

Как использовать логи сервера для оптимизации сайта

Автор Дата 07.08.2019

Приложение журналов сервера дает больше возможностей по сравнению с процессом обычного сканирования сайта. Файлы журналов сервера – неповторимый достоверный источник, который показывает, как поисковые боты сканируют ваш сайт и каким образом сие влияет на SEO.

Полученные данные можно использовать к улучшения качества сканирования сайта и общего уровня поисковой оптимизации проекта. Систематичный просмотр логов даст понимание, как увеличить расширение позиций проекта в поисковой выдаче, общий объем трафика, нажин конверсий и продаж.

Вот как оценивает значимость файлов логов сервера председатель аналитик компании Google Джон Мюллер:

Используя исходняк логов сервера, вы можете проанализировать поведение поисковых роботов и огрызнуться на важные для вас вопросы. Например:

  • Какие коды состояния страниц возвращаются?
  • Какие проблемы с доступностью контента сайта были обнаружены умереть и не встать время сканирования?
  • Какие типы страниц редко посещают поисковые роботы?
  • Какие URL просматриваются чаще общем?
  • Какие типы контента просматриваются чаще всего?
  • О каких страницах сайта поисковые системы мало-: неграмотный догадываются?
  • Эффективно ли расходуется краулинговый бюджет сайта?

Сие всего лишь несколько примеров, которые дает критика. Ant. синтез логов сервера. У Google, как и у любой другой поисковой системы, усиживать ограниченный бюджет сканирования. Но только правильные улучшения помогут сберечь этот бюджет. Дадут возможность Google сканировать нужные страницы сайта и у кого) их чаще.

О том, что такое логи сервера и сиречь их использовать с пользой для SEO, пойдет речь в этой статье.

Ась? такое логи сервера и для чего они используются?

Логи сервера – файлы с веб-сервера, содержащие склерозник запросов (или «обращений»), которые получает сервер. Полученные талант хранятся анонимно и содержат следующую информацию:

  • время и датировка, в которую был сделан запрос;
  • IP-адрес запроса;
  • затребованный URL/контент;
  • пользовательский агент.

Для унификации данных, полученных с разных версий серверов, календарь логов специально запрограммированы для вывода в формате журнала консорциума W3C. 

Конструкция строки журнала чаще всего содержит стандартный подбор элементов, которые дают информацию о сеансе. Рассмотрим с целью примера следующую запись:

127.0.0.1 – frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

127.0.0.1 – имя удаленного хоста, IP-надсыл.

frank – идентификатор пользователя, запрашивающего страницу.

[10/Oct/2000:13:55:36 -0700] – дата, час(ы) и часовой пояс для конкретного запроса в формате strftime.

"GET /apache_pb.gif HTTP/1.0" – это одна с двух команд (другая – «POST»), которую можно претворить в жизнь. «GET» извлекает URL, а «POST» отправляет что-либо, взять, комментарий на форуме. Вторая часть – это URL, к которому осуществляется теледоступ. Последняя часть – версия HTTP, к которой осуществляется приступ.

200 – код состояния документа, который был возвращен сервером.

2326 – размер в байтах документа, некоторый был возвращен сервером.

"http://www.example.com/start.html" — шапка HTTP-запроса «Referer». Это страница, которая ссылается неужели включает в себя документ /apache_pb.gif.

"Mozilla/4.08 [en] (Win98; I ;Nav)" — подзаголовок HTTP-запроса «User-Agent». Это информация, которую посетительский браузер сообщает о себе.

Абсолютно каждый запрос к содержимому вашего веб-сервера размещается в файле журнала. Сие важно, потому что вы можете точно наблюдать, какие ресурсы поисковые системы сканируют на сайте и какие проблемы со сканированием возникли река могут возникать.

Пример:.

В ходе анализа логов сервера одного с проектов на платформе WP была обнаружена проблема – CMS генерировала большое цифра «мусорных» страниц путем добавления параметров в URL-адреса основных версий. Быть этом данные страницы не отображались в отчетах Google Search Console и малограмотный были выявлены в ходе сканирования сайта десктопными парсерами. А чисто Google обнаружил данные страницы и добавил в индекс. Сие привело к множественному дублированию контента и пустой трате краулингового бюджета сайта. Календарь логов сервера помогли выявить подобные страницы и истребить механизм их генерации.

Доступность к просмотру логов сервиса дает шанец идентифицировать потенциальные «проблемные» страницы. Анализировать нужно следующие цифры:

  • Общее количество посещений страниц поисковыми роботами.
  • Гармоника сканирования конкретной страницы.
  • Коды ответа сервера.
  • Поиск приоритетных и активных страниц.
  • Использование ресурса бота и расходы краулингового бюджета.
  • Дата последнего сканирования страниц.

Теледоступ к файлам журнала сервера

Различные типы серверов хранят и управляют своими файлами журналов в соответствии с-разному. Не будем подробно вдаваться в процесс извлечения файлов журналов сервера, этак как он детально описан в документации к разным типам серверов.

Официальные руководства в области поиску и управлению файлами логов сервера:

  1. Доступ к файлам журнала Apache (Linux)
  2. Подход к файлам журнала NGINX (Linux)
  3. Доступ к файлам журнала IIS (Windows)

Экстракт и обработка данных журнала сервера

Извлечение данных

Существует обилие инструментов для работы с файлами журналов сервера. Они имеют по образу схожие типы инструментов обработки и анализа, так и уникальные функции однако зависит от цели работы с данными журналов. Вверху рассмотрим наиболее популярные среди них.

При выборе сервиса на анализа логов важно знать разницу между статическими инструментами и инструментами анализа в режиме реального времени.

1. Статические инструменты

Отваленный тип инструментов дает возможность анализировать только нединамический файл. Основной недостаток  нет возможности выбрать временной отрезок времени предоставления данных. Чтобы проанализировать другой период, требуется выгрузить новый файл журнала.

Мой любимый гранильник для анализа статических файлов журналов  WebLog Expert. Сие быстрый и мощный анализатор логов сервера:

Он предоставляет обширную информацию о посетителях вашего сайта: статистику активности, приступ к файлам, пути перехода на сайт, информацию о ссылающихся страницах, поисковых системах, браузерах, операционных системах и многое другое. WebLog Expert может проверять логи веб-серверов Apache, IIS и Nginx. Он может заглядывать форматы сжатых файлов журналов GZ и ZIP, поэтому вам приставки не- нужно распаковывать их вручную.

Не менее общераспространенный и мощный инструмент для анализа логов сервера  Screaming Frog Log File Analyzer. Заключает в себя все функции предыдущего сервиса. Но имеет побольше гибкий функционал по части удобства анализа данных логов сервера и формирования отчетов. Дает шанс импортирования списка URL-адресов, например, из файла sitemap.xml веб-сайта, и сопоставления их с данными файла логов сервера. Сие помогает найти потерянные или неизвестные страницы, которые Googlebot далеко не просканировал.

Среди других статических инструментов анализа данных журнала сервера позволено выделить:

  • Log Analyzer: Trends  позволяет анализировать изменения основных параметров веб-сайта вроде графически, так и численно. Программное обеспечение предлагает побольше 20 стандартных отчетов, которые включают отчеты «Хиты», «Уникальные посетители», «Посещенные страницы», «Ссылающиеся сайты», «Поисковые фразы», «Переходы» и отчеты с использованием других параметров веб-сайта.

  • Web Log Explorer  поддерживает побольше 43 форматов файлов журналов. Может автоматически диагностировать форматы логов сервера, извлекать сжатые файлы журналов, убеждать несколько файлов журналов и загружать журналы из различных источников: локальных alias сетевых источников, FTP или базы данных через ODBC. Web Log Explorer может перелистывать самые популярные форматы сжатых файлов журнала: BZIP2, GZIP, ZIP, 7z, rar и остальные их не нужно распаковывать вручную.

2. Инструменты анализа в режиме реального времени

Сунутый тип инструментов дает прямой доступ к журналам сервера. Сервисы данной группы устанавливаются в программную среду сервера и мониторят в режиме онлайн целое доступные изменения. Преимущество  возможность выбрать любой с толком времени для анализа данных.

Анализ и визуализация данных намека не уступают, а в некоторых случаях и превосходят статические инструменты.

Промежду инструментов анализа журналов сервера в режиме реального времени разрешается выделить:

  • GoAccess  сервис был спроектирован как быстрый анализатор логов получай основе терминалов. Его основная идея заключается в томище, чтобы быстро анализировать и просматривать статистику веб-сервера в режиме реального времени за исключением. Ant. с необходимости использовать браузер. GoAccess может генерировать набитый (битком) автономный отчет в реальном времени в формате HTML, а равно как JSON и CSV отчеты.

  • Logstash  инструмент обработки данных получай стороне сервера с открытым исходным кодом, который одновр`еменно получает данные из множества источников. Подходит ради сбора данных журналов сервера, их хранения и анализа.

  • Splunk  программное выдача создано для поддержки процесса индексации и дешифрования журналов любого как, будь то структурированные, неструктурированные или сложные журналы приложений.
  • Octopussy  менеджер журналов, основанный получи Perl. Его основная функциональность заключается в анализе журналов, создании отчетов получи и распишись основе данных журналов и предупреждении администрации о любой соответствующей информации.

  • Seolyzer  гибкая порядок, которая позволяет контролировать множество параметров сайта в режиме реального времени. Вследствие анализу логов Seolyzer.io вы можете немедленно отвечать на проблему, которая влияет на поисковую оптимизацию проекта.

3. Производство и анализ данных в среде Microsoft Excel (Google Spreadsheet)

Между тем, данный метод можно отнести к статическим инструментам анализа данных логов сервера. А так как он кардинально отличается от статических сервисов после способу извлечения и обработки данных, то я решил оный метод вынести в отдельный пункт.

Это одновременно самый грубый и самый времязатратный способ анализа логов сервера. У данного способа проглатывать один существенный недостаток  количество анализируемых строк ограничено ресурсами вашего компьютера. Рассудить данную проблему можно путем разбиения исходного файла возьми несколько частей. К преимуществам относится мощнейший функционал по мнению части статистической обработки данных, который недоступен в целях вышеперечисленных сервисов.

Алгоритм действий при использовании данного метода вытекающий:

  • Конвертировать .log в .csv.

Когда вы извлечете журнал веб-сервера, получайте файлы с расширением .log. Преобразовать их в формат, понятный во (избежание Excel, очень просто: выберите файл и введите развертывание файла как .csv. Excel откроет файл, не повредив предмет.

  • Преобразовать строки в столбцы.

Открытие в Excel обычно приводит к тому, фигли данные журнала сервера записываются в один столбец. С намерением упорядочить набор данных в управляемый формат, нужно расчислить данные по нескольким столбцам. Для удобства воспользуйтесь функцией «Текст в столбцы»:

  • Сложиться с размером выборки.

Открыв файл в Excel, проверьте, в какой мере строк данных в нем содержится. Хороший размер выписка/диапазон для работы  60120 тыс. строк. При бо́льшем объеме извлечение данных Excel может перестать отвечать на требования, как только вы начнете фильтровать, сортировать и сочетать наборы данных.

В результате вы получите набор данных о посещениях страниц вашего веб-сайта:

Измерение данных

После извлечения и расшифровки всех данных файла логов сервера впору приступать к основной цели всего этого процесса  анализу посещений страниц сайта.

! Основа правило  перед началом необходимо определиться с основной целью анализа. В противном случае высока вероятие загрузнуть в огромных массивах данных и не получить больной пользы.

! Второй момент  не забудьте отсортировать домашние данные с помощью пользовательского агента. Анализируя Googlebot угоду кому) компьютеров, Googlebot для смартфонов и Yandexbot вместе, ваш брат не найдете никакой полезной информации.

! Последнее  проверьте, в самом деле ли вебсканер является Гуглботом. Или это подстановка личности от спам-ботов и скреперов? Чтобы отредактировать, действительно ли веб-сканер, обращающийся к вашему серверу, является роботом Google, запустите регрессный поиск DNS, а затем прямой поиск DNS. Подробный алгоритм действий описан в Справочном центре Google во (избежание веб-мастеров.

Последовательность анализа

Вариантов может присутствовать множество. Все зависит от выбранной цели анализа. Небо и земля сценарии анализа  это контрольный чек-лист быть работе со списком просканированных страниц. Рассмотрим особливо популярные из них.

Частота сканирования определенным агентом пользователя>

Произведение сводной таблицы и диаграммы на основе свойства timestamp (date) и фильтрации с через определенных пользовательских агентов. Для компьютеров используйте Googlebot, про смартфонов Googlebot, Googlebot Video, Googlebot Images и т.д. (завершенный список юзер-агентов поисковых роботов Google доступен точно по ссылке). Это может быть чрезвычайно полезно к быстрого выявления аномалий с конкретными пользовательскими агентами поисковой системы.

Датировка последнего сканирования страницы

Анализ файла журнала сообщает, иным часом Google сканировал определенную страницу в последний раз. Таким образом, дозволяется оценить, насколько быстро обновленный контент определенной страницы переиндексируется.

URL-адреса, которые чаще и реже не (более сканируются поисковым роботом

Анализ количества посещений конкретных страниц позволяет увидать, где поисковые системы проводят большую часть своего времени рядом сканировании, а также сегментировать области, которые стали реже чем) обходиться роботом. Просмотрев данные, можно определить типы URL, которые поисковым сканерам очевидно не нужны (так называемые, отходы сканирования). Изучение журналов также поможет определить наиболее популярные страницы. Таким образом разрешено узнать, являются ли наиболее посещаемые ботом страницы важными с точки зрения поисковой оптимизации сайта. Сие позволит избежать игнорирования некоторых страниц или отдельных разделов сайта.

Намек: В ходе анализа поисковой оптимизации проекта была обнаружена препятствие со сканированием и индексацией страниц фильтров. Логи сервера показали, по какой причине Гуглбот посещает их реже аналогичных типов страниц. Потом оптимизации внутренней перелинковки фильтровых страниц с наиболее сплошь и рядом посещаемыми разделами сайта их ценность возросла  Гуглбот стал чаще просматривать фильтровые страницы.

HTTP-ответ сервера

Сегментация вдоль ответу заголовка сервера позволяет быстро оценить ошибки сканирования, с которыми сталкиваются поисковые системы. Выбор из URL-адресов и кодов ответа сервера покажет, с какими ошибками сталкивается поисковая концепция. Одинаковы ли они при сканировании определенного URL-адреса либо — либо целого диапазона однотипных страниц. Понимание проблемы даст выполнимость скорректировать стратегию устранения подобных ошибок.

Наиболее сплошь и рядом встречаемые ответы сервера при анализе журналов:

  • 500  Ошибка сервера.
  • 404  Страница безлюдный (=малолюдный) найдена.
  • 302  Временное перенаправление.
  • 301  Постоянный редирект.

Время, затраченное получи и распишись сканирование

Анализ времени, затраченного на сканирование страницы (измеряется в миллисекундах), показывает, какие запрошенные URL-адреса в среднем были загружены быстрее/протяжнее. Объединение этих URL-адресов по каталогам позволит померить производительность по разделам сайта с целью выявления наименее производительных.

Типы файлов

Оценка типов файлов позволит определить, доступны ли в целях сканирования Гуглботом, к примеру, необходимые CSS/JS файлы или существуют проблемы с их доступностью. В так же время данный параметр покажет, не сканируются ли ненужные форматы файлов, тратя присутствие этом краулинговый бюджет сайта.

Оценка краулингового бюджета

Измерение журналов сервера также помогает определить, как расходуется смета сканирования. Например, тратит ли Google слишком счета времени на сканирование изображений.

Краулинговый бюджет связан с авторитетом домена, оптимизацией сайта и пропорционален ссылочной массе проекта.

Образец: В ходе анализа логов сервера крупного ecommerce-проекта было обнаружено, в чем дело? треть краулингового бюджета сайта тратится на патрулирование ненужных страниц, содержащих каноническую ссылку на основные версии страниц сайта. Данная доказательство была размещена в коде, определялась в ходе парсинга сайта десктопными сканерами, хотя не распознавалась Гуглботом. При этом страницы добавлялись в указатель поисковой системы, генерируя дубли. Выявление и устранение причины нераспознавания поисковым ботом канонической ссылки решило проблему, позволив пускать в ход ценный краулинговый бюджет для сканирования более приоритетных страниц сайта и устранив контратипирование контента.

Если боты встречают слишком много негативных факторов, связанных с внутренней и технической оптимизацией сайта, они приставки не- будут возвращаться так часто, и бюджет сканирования короче тратиться на ненужные страницы. Если у вас принимать вновь созданные страницы, которые вы хотите проиндексировать, да краулинговый бюджет был потрачен впустую на сканирования ненужных страниц, Google безграмотный увидит их.

Это далеко не полный опись сценариев анализа данных логов сервера. Объедините журналы сервера с другими источниками данных. Сие откроет новый уровень понимания контекста логов сервера, какой-нибудь может не дать анализ только данных журналов. Совместите журналы сервера с другими источниками: данными Google Analytics, отчетами Search Console ровно по индексации/ключевым словам/кликам/показам, xml-картами сайта, данными сканирования сайта Netpeak Spider или Screaming Frog и начинайте задавать вопросы:

  • Какие страницы никак не включены в sitemap.xml, но сканируются поисковыми роботами?
  • Какие страницы включены в обложка Sitemap.xml, но не сканируются?
  • Часто ли сканируются страницы, приносящие конверсии?
  • Относительная просканированных страниц находятся в индексе?
  • Сканируются ли страницы, заблокированные в Robots.txt?

Пункт для анализа данных неограничен. Все зависит лишь только от ваших целей и наличия данных. Вы можете фигурировать удивлены находками, которые вы обнаружите в результате.

Источник: www.seonews.ru