Новости

Как использовать Python для LSI-копирайтинга

Автор Дата 17.10.2018

Ваша милость, скорее всего, слышали об LSI (скрытом семантическом индексировании).

Таковой термин последнее время довольно популярен в SEO-индустрии. Который-то утверждает, что LSI-копирайтинг является залогом попадания сайта в ТОП, который-то считает это бесполезной тратой времени и ресурсов.

Давайте мало(сть) разберемся, что же такое LSI и как оно связано с SEO?

В противном случае совсем коротко и грубо, это один из математических подходов к анализу текстов, исполненный в конце 1980-х годов для повышения точности извлечения информации. В соответствии с сути, он находит скрытые связи между словами, в надежде улучшить понимание информации.

В теории, если поисковик может расчухать контент, он будет корректно его индексировать и ранжировать в области целевым запросам. Использование синонимов и тематических слов в свой черед теоретически может усилить значимость общей части контента, ровно должно быть хорошо для SEO, верно? К огромному сожалению, на гумне — ни снопа прямых доказательств, подтверждающих это.

LSI-копирайтинг – довольно несчастливый маркетинговый ход. Теперь мы пишем не невзыскательно SEO-тексты, а LSI-тексты. Окей. Суть та же. Наш брат просто добавим синонимов.

Однако не все где-то плохо. Подобные анализы текстов позволяют сделать зажиточно выводов, чтобы создать действительно полезный контент.

Вследствие тем замечательным людям, которые создают библиотеки, используемые в различных языках программирования, наша сестра можем довольно быстро строить терм-документные матрицы, делать выкладки TF-IDF и прочее. Если кому-то интересно, пишите в комментариях, я опишу, словно это можно сделать на том же Python.

В этой статье приставки не- будем уходить в столь глубокий анализ. Относительно понятную картину контента, какой-нибудь ранжируется поисковиками, дает анализ N-грамм, встречающихся в текстах сайтов ТОПа и запросов Вордстат.

Пониже. Ant. выше представлен код, написанный на Python 3.0.

Собственно, начнем с подключения того, точно давно сделали за нас – импортируем библиотеки, которые понадобятся интересах работы:

На мой взгляд, pymorphy2 – пока лучшее, точно придумано для работы с русскоязычными текстами. Именно каста библиотека дает наиболее точные результаты при работе с словоформами. Как поэтому скрипт написан на Python.

После импорта вводим ключевик, исполнение) которого будем искать тематические слова и словосочетания. Возьмем в (видах примера «очки виртуальной реальности».

Первое, что делаем – получаем цифры Вордстат. Для этого нам нужно зарегистрировать свое вложение для API Яндекс.Директа и получить токен. С Директом шабаш несколько сложнее, чем с другими API, т.к. необходимо подавать заявку держи доступ приложения и ждать, пока ее подтвердят в стороне Яндекса.

Прописываем полученный токен:

Создаем просьба на формирование отчета к API и получаем в ответе id нашего отчета:

Дадим Яндексу исполнившееся на формирование отчета:

В идеале нужно отправлять всё ещё один запрос, ответом на который будет модальность отчета, но, как показывает практика, 10 секунд в полном объеме достаточно, чтобы сформировать этот отчет.

Теперь нам нужно обрести сам отчет. Подставляем в свойство param наш id и обращаемся к API.

В итоге нам нужно развить два датафрейма, где один отвечает за колоночка в Вордстат «Что искали со словом…» (SearchedWith), а второстепенный – за похожие запросы (SearchedAlso).

API Директа отдает нам -навсего) 300 запросов, то есть 6 страниц в разделе SearchedWith, ведь есть нужно учитывать, что это лишь пункт запросов.

Теперь переходим к основной задаче – небольшому анализу текстов.

Пользу кого этого нам необходимо обратиться к XML выдаче Яндекса. А там всех необходимых настроек переходим в раздел «Тест» и выставляем следующие норма.

Чтобы сильно не перегружать систему, возьмем пользу кого анализа ТОП 50 вместо максимально доступного ТОП 100.

Почти этим блоком формируется URL самой XML выдачи. Копируем его и подставляем в него выше- декодированный запрос.

Прописываем путь к файлу, в которые запишутся тутти URL ТОП 50 выдачи по нашему запросу. Эдакий способ вывода результатов позволит в дальнейшем как у кого есть список URL, так и удалять из списка те, которые отдают ошибку близ попытке достать оттуда информацию. Как правило, сие случается крайне редко, но имеет место жить(-быть.

Отправляем запрос и парсим XML выдачу:

Прописываем путь к файлу, несравненно запишем весь текст, полученный при парсинге страниц:

Парсим полученные URL и записываем контент тега p результаты в Водан файл. Тут нужна небольшая, но важная ошибка, что далеко не на всех сайтах текстовка оформляется тегами p, а некоторые в эти теги добавляют совсем левую информацию. Но при анализе довольно большого объема текстов ешь — не хочу информации, которую мы получаем таким образом. В конце концов преддверие нами не стоит задача создания точной терм-документной матрицы. Нам всего лишь нужно найти наиболее часто употребляемые N-граммы в текстах ТОП 50.

Приступаем к анализу полученных данных. Указываем обложка, куда запишем результаты, загружаем данные парсинга и индекс стоп-слов, которые мы хотим исключить с анализа N-грамм (предлоги, союзы, технические и коммерческие треп и т.д.)

А дальше немного магии: приводим все слова к их исходной форме, настраиваем CountVectorizer в подсчет N-грамм с количеством слов от 2 до 4 и записываем эффект в файл.

Все, что нужно дальше, – записать трендец результаты в один Excel-файл:

На первом листе выводим подсчет N-грамм, используемых в контенте сайтов:

Ходкий взгляд на первые 100 N-грамм позволяет нам конфисковать следующие: «угол» «обзор», «oculus rift», «шлем кажущийся реальность», «vr box», «gear vr», «диагональ дисплей», «playstation vr», «vr очки», «виртуальный мир», «3d очки», «пульт управление», «100 градусов», «полный погружение», «совместимость ос android», «датчик приближение», «линза устройства», «vr гарнитур», «дополнить реальности». Сие дает понять, что в тексте стоит затронуть такие понятки, как «угол обзора», «полное погружение», «линзы», «дополненная реальность», «датчик приближения», заслушать вопросы совместимости, использовать такие синонимы, как «шлем виртуальной реальности», «vr» и т.д.

Держи втором листе – данные Вордстат по похожим запросам (объединение сути, N-Граммы отобразили схожую картину, но эпизодично тут можно встретить то, что в текстах запомнено не было):

На третьем, собственно, 300 запросов изо первого столбца Вордстат:

Таким образом, мы получаем небольшую памятку с целью копирайтера или для самих себя, которая упростит создание ТЗ на написание текста по заданной тематике и даст принципы, которые необходимо раскрыть при написании контента.

Подводя итоги, чешется сказать: чтобы не попасть в это самое «очко виртуальной реальности», изрядно понимать, что наличие LSI-запросов в тексте не является гарантом нахождения статьи в ТОПе. Нужно проштудировать тексты на хотя бы нескольких сайтах лично, помнить про основы оптимизации любой статьи, согласно правилам ее оформлять, размечать и проводить еще много-более чем достаточно работы для того, чтобы создавать понятный и выигрышный контент как для поисковика, так и для пользователя.

Источник: www.seonews.ru