Новости

Михаил Волович («Ашманов и партнеры»): Вторая волна «Баден-Бадена» должна смыть «текстовые помойки»

Автор Дата 02.02.2018

В начале прошлого возраст Яндекс вновь напомнил SEO-специалистам о том, как хоть куда размещать на сайтах полезные тексты, и подарил вторую проживание понятию «переоптимизация», запустив алгоритм «Баден-Баден». В подписка с этим многие вебмастера переключились на поиски волшебной формулы качественного текста, каковой понравится и пользователям, и Яндексу.

О влиянии текстовых факторов нате ранжирование, риске попасть под «Баден-Баден» и признаках качественного текста … наша сестра поговорили с Михаилом Воловичем — руководителем Лаборатории поисковой аналитики «Ашманов и партнеры», одним с создателей нового сервиса проверки текстов «Тургенев».

***

2017 стал для того российских вебмастеров годом работы над текстами. Сие связано и с «Баден-Баденом», и в некотором смысле с алгоритмом «Королев». До чего, по данным Лаборатории поисковой аналитики «Ашманов и партнеры», текстовые факторы пока важны для Яндекса?

Михаил Волович
Руководитель Лаборатории поисковой аналитики,
«Ашманов и партнеры»

Сверху первый взгляд, для коммерческих запросов совершенно безграмотный важны. Корреляции с позицией в Яндексе есть только исполнение) небольшой части текстовых параметров, да и то слабые. В первой тройке и в третьей десятке результатов поиска объем вхождений запроса в текст страницы примерно одинаковое — и так же самое можно сказать про title, насчет заголовки  h1– h4 и т. п.

Но на самом деле, несмотря сверху все это, текстовые факторы критически важны. Кабы сравнить ТОП 30 Яндекса по коммерческим запросам и без- менее релевантные страницы, которые в него не попали (изо ТОП 30 Google и Mail.ru), окажется, что значения приближенно всех текстовых параметров в ТОПе Яндекса статистически справедливо — и очень заметно — выше.

Это скорее всего означает, как текстовые факторы работают на предварительных этапах ранжирования — в некоторых случаях отбирается примерно тысяча результатов, которые в дальнейшем проходят подробное ранжирование. 

Ведь есть если у вас на странице недостаточно вхождений запроса (река отдельных слов из запроса), то ваши преимущество попасть в ТОП Яндекса резко падают.

Так, в области запросу «люстры» в ТОП 30 Яндекса есть один два результата, где слово «люстра» встречается не в такой степени 40 раз, — lustron.ru с 23 вхождениями и люстра.рф с четырьмя (сильная сторона еще одно в доменном имени). Тогда как в ТОП 30 Google наворачивать 5 страниц, где «люстра» встречается менее 10 крата. Среднее количество вхождений «люстры» в текст страницы ради ТОП 30 Яндекса — 64, против 48 интересах Google и 30 — для страниц из топов Google и Mail.ru, неважный (=маловажный) попавших в ТОП Яндекса.

Насколько ситуация с текстовыми факторами в Google отличается с Яндекса?

В Google, наоборот, есть заметные корреляции в среде текстовыми факторами и позицией — чем ближе к ТОП 1, тем повыше значения. Но зато не видно «входного фильтра», ни дать ни взять в Яндексе, и средние значения текстовых параметров обычно едва ниже.

Но много и общего. Так, в обоих поисковиках факторы ранжирования тем больше, чем дальше мы уходим от «буквы» запроса. Точная кокиль запроса, похоже, уже не выделяется поисковиками середи всех прочих. Количество отдельных слов запроса, разбросанных за тексту, важнее, чем то, сколько раз они встретились скопом. Важны также синонимы слов запроса и в еще большей степени «дополнения» — тёта слова, которые сами поисковики выделяют в снипетах.

Подробнее читайте об этом в нашем большом аналитическом отчете согласно факторам ранжирования, подготовленном к конференции Optimization 2017.

Вернемся непринуж к Яндексу. В блоге поисковика сказано, что «Баден-Баден» ориентирован сверху переоптимизированные тексты. Вы анализируете сайты под «Баденом». За результатам ваших наблюдений, на какие именно признаки ориентируется алгорифм Яндекса? За что сайты попадают под «Баден-Баден»?

В принципе, в блоге Яндекса любое сформулировано достаточно четко: «В них много повторяющихся ключевых слов и неестественных речевых оборотов, только мало полезной информации. Мы называем такие тексты переоптимизированными …».

Без оплаты видеть, что Яндекс понимает переоптимизацию расширительно — в том числе в нее не только «переспам ключевиками», но и низкую непосредственность, бесполезность для пользователя. 

Иначе говоря, Яндекс неважный (=маловажный) любит SEO-тексты. Причем он их не любит давнёхонько (см. мантры про сайты, «сделанные для людей»), же вот сейчас научился их распознавать и решился по (по грибы) них наказывать.

Как именно он их распознает — сие отдельный и значительно менее важный вопрос. Факторов может лежать множество, причем относящихся ко всем трем составляющим SEO-текста — обилию ключевиков, неестественности и малой полезности. Отличаются как небо и земля частотные параметры (как связанные с запросами, так и мало-: неграмотный связанные); лексика, характерная для SEO-текстов; длина и пост текстового блока; наличие скрытого текста; структурированность текста. И сие далеко не полный список.

Скорее всего, поручение решалась в сугубо практическом ключе. Были по максимуму использованы факторы, которые уж применяются Яндексом для других задач (например, возле ранжировании); к ним было добавлено какое-то состав новых факторов, разработанных специально под эту задачу. Машинное подтягивание запускалось столько раз, сколько потребовалось, чтобы достигнуть нужной полноты и точности. Тогда провели А/В-тестирование — и в бой.

Мы не пытались узнать. Ant. скрыть, что именно учитывает Яндекс — для этого безоговорочно недостаточно данных, и это в конечном счете не си важно. Мы пытались научиться выявлять и оценивать SEO-тексты. И, ми кажется, у нас это неплохо получилось. Причем имеет п, что мы не просто даем суммарную оценку, а раскладываем совершенно по полочкам и тем самым показываем, что было бы невредно исправить.

Какой процент некачественного контента допустим получай странице? Сколько его должно быть, чтобы дрожать от страха постраничного фильтра? И сколько – чтобы под фильтр попал вполне сайт?

Проценты особой роли не играют. Ради того, чтобы начать бороться с SEO-текстами, Яндекс поставлен в необходимость был сначала научиться хорошо понимать структуру веб-страницы — отделять на ней навигационные области, «витрину», отзывы, объявления, небо и земля другие блоки — и SEO-текст. Размер «бочки меда» (содержательной части страницы) неважный (=маловажный) имеет значения. Важен размер «ложки дегтя». Нежели она больше, тем хуже. Но она может бытийствовать и относительно небольшой. Скажем, двух тысяч знаков несомненно хватает. Может, по-видимому, хватить и пары абзацев среднего размера — дешевле тысячи знаков, сотня с чем-то слов. Вернее сказать трудно. Дело в том, что есть три как страниц, важных для «Б.-Б.»:

1) попавшие под страничный фильтр;

2) попавшие перед сайтовый фильтр;

3) те, на которые указывает техподдержка Яндекса.

И ни одни с них не дают полной ясности.

Про страничный фильтр наша сестра, к сожалению, знаем довольно мало: среди клиентов «Ашманов и партнеры» таких безвыгодный было; пользователи «Тургенева» чаще сообщают о сайтовом фильтре, публикаций «в открытых источниках» и т. п. находится чуток. Известные нам случаи распадаются на две категории — вопиющие (взрослые «махровые» SEO-тексты, «дегтя» много) и сомнительные (трафик упал вскоре до анонса нового алгоритма, поэтому хозяин сайта считает, как это «Баден-Баден», но мы очень в этом сомневаемся).

Для сайтовый фильтр известно гораздо больше. Но ровным счетом определить, какие именно страницы учитывались при наложении санкций, около невозможно, поэтому для определения порогов они также не подходят. На пострадавших сайтах есть страницы с большими SEO-текстами, воочью заслуживающими «Баден-Бадена», — и в их число часто попадает главная стадия сайта и страницы основных разделов. А есть и страницы с абсолютно короткими текстовыми блоками, и вообще без них. Вслед что сайт наказан, по этим данным сообразить легко, а вот где Яндекс проводит границу — тяжко.

Наконец, третий тип страниц — те, на которые указывает самовольно Яндекс, отвечая на запросы вебмастеров. Эти страницы пожалуй бы конкретные, и их сколько-то известно, же беда в том, что они часто не ультра- показательны. Грубо говоря, если бы все такие (и худшие) страницы оказались почти санкциями, Яндексу просто нечего было бы откапывать. Можно себе представить, что такие страницы вызывают у роботов кое-какие претензии, но во всех известных нам случаях получи тех же сайтах находились гораздо худшие страницы (начиная часто голову сайта). Эти сайты действительно заслужили «Б.-Б.» — так страницы, которые считает нужным показать Яндекс, сыграли в этом в некотором расстоянии не первую роль.

Если говорить о рынке, точно по вашим наблюдениям, многие ли вебмастера «одумались» следом запуска «Баден-Бадена»?

На удивление многие, вопреки на очень точечное пока применение санкций.

На днях четко видны две основные конкурирующие стратегии — поосторожничать или ждать, когда клюнет жареный петух. Вторую с них мы очень не рекомендуем.

Чтобы никак не попасть под санкции, достаточно убрать или отредактировать искренне неестественные тексты. Они обычно видны невооруженным глазом — однако можете проверить у «Тургенева». Чтобы избавиться от сейчас выписанных вам санкций, нужно пройти квест — домекнуть, чем Платону не понравилась та страница, которую дьявол прислал, и сколько еще таких. Профилактика дешевле лечения.

В декабре вас анонсировали текстовый анализатор «Тургенев». Расскажите, как, на каких данных ваша сестра обучали анализатор? Какая была выборка?

Никакого машинного обучения с годами на самом деле нет. Есть алгоритмы и словари. Они разрабатывались и отлаживались сверху материале нескольких сот страниц, попавших под «Баден-Баден», в круглых цифрах с пяти десятков разных сайтов, — а также многих тысяч других текстов, штрих которых мы оценивали самостоятельно.

Строго говоря, наша сестра видели свою задачу в том, чтобы научиться оперативно автоматически выявлять переоптимизированные тексты — и, что не поменьше важно, объяснять, что именно с ними не (на)столь(ко). Машинное обучение не позволило бы это предпринять.

Кстати, даже в тех случаях, когда прямой угрозы «Б.-Б.» в отлучке, «Тургенев» полезен для вебмастеров и копирайтеров, т. к. помогает отметить и исправить неестественные повторы, стилистические ошибки и другие подобные проблемы.

Равно как «Тургенев» определяет, что тот или иной контент нужно примежевать/удалить? С какими материалами сервис сравнивает текст присутствие анализе? Например, с аналогичными, которые уже есть в базе; взятыми изо выдачи в режиме реального времени; основывается на средних показателях итого контента и т.д.?

Мы сначала разработали параметры, отвечающие вслед за риск «Баден-Бадена», в рамках Лаборатории поисковой аналитики, и не более потом появилась идея сделать общедоступный сервис. Вследствие того у нас есть две разных версии «Тургенева»: оный, который опубликован на turgenev.ashmanov.com, для всех, — и «внутренний Тургенев», в (видах наших клиентов. Внутренняя версия алгоритма работает с веб-страницами и учитывает свЯязанный отрывок запросов, по которым они должны находиться. Возлюбленная, например, оценивает размер текстового блока и «водность», исходя с показателей страниц в ТОПе Яндекса по конкретным запросам.

Общедоступная трансформация работает только с текстами (это ограничение позволило предпринять сервис бесплатным) и поэтому ей не с чем ставить в один ряд проверяемый материал. Он просто оценивается по нескольким параметрам, набирает штрафные баллы, на случай если есть за что, и в итоге по сумме баллов по (по грибы) разные параметры оценивается риск. Мы не рекомендуем пририсовать или удалить контент — мы просто выявляем проблемы, а как будто с этим делать, решать уже автору текста разве хозяину сайта.

На вкладке «Повторы» считаются частоты слов и словосочетаний, строится простая шаблон, по которой оценивается наличие «сверхчастых» слов. Истасканно в SEO-тексте это слова, по которым он (пере)оптимизирован. Равно как оценивается общее количество повторов в тексте — для сего используется любимый сеошниками параметр со странным названием «академическая тошнота», кой нам пришлось переизобрести, поскольку его рецепт, не хуже кого оказалось, держится в секрете. Пороги по нему выставлены с удовле высокие — штрафные баллы идут начиная с академической тошноты 10,5, т. е. «наказываются» в какие-нибудь полгода тексты с действительно высоким количеством повторов. И еще машинопись может получить балл за очень большую частоту союза «и» — сие уже скорее про стилистику, чтобы ловить тексты, в которых «опытные и знающие люди в белых халатах гарантируют кодирование и избавление от пагубной привычки».

Сверху вкладке «Стилистика» просто считаются вхождения в текст слов и словосочетаний нескольких типов. Сие прежде всего обороты речи, характерные для плохих SEO-текстов. Во, фрагменты чтобы убедиться в данном выборе, предлагаем вы просмотреть ключевые особенности изделия или всем популярно, что стиральная машина является важным атрибутом ванной комнаты были разобраны нами получай цитаты почти без остатка, и теперь любой пурана, в котором встретится «убедиться в данном выборе», получит ради это некоторое количество «стилистических квантов», которые (год) спустя некоторого порога превращаются в штрафные баллы. Кроме того, отмечаются разнообразные стилистические ошибки, канцеляризмы, не в меру разговорные обороты и многое другое. Они тоже взяты с SEO-текстов, и хотя многие из них сами числом себе не делают текст неестественным, если их видимо-нев, это становится проблемой, серьезность которой выражается в штрафных баллах.

Получай вкладке «Запросы» отмечаются встретившиеся в тексте запросы с среднего по размеру «коммерческого» списка (около двух с половиной миллионов). Буде покрытие запросами большое, это может свидетельствовать о переоптимизированности.

Оставшиеся двум вкладки дают баллы реже и совсем понемногу. «Водность» — следовать низкую долю содержательного текста. «Удобочитаемость» — за экспликация, в котором много длинных предложений и длинных слов.

В какой степени данные по одному и тому же тексту могут разниться из дня в день?

Обычно совсем немного. Мы продолжаем упражнять. Ant. ухудшать алгоритмы и пополнять словари, но вероятность, что пользу кого вашего текста что-то заметно поменяется, жуть мала. Редкое исключение — если именно ваш машинопись мы сегодня использовали для пополнения словарей.

До какой (степени точно «Тургенев» определяет риск попадания сайта лещадь «Баден-Баден»?

Каждый раз, как мы узнаем о новом примере сайта неужто страниц, попавших под фильтр, мы проверяем бери них работу «Тургенева». В 95% случаев он справляется — показывает драматический или высокий риск. В этом смысле все классно — только мы рекомендуем проверять по несколько текстов с сайта (и в обязательном порядке именно SEO-тексты, а не страницы целиком).

Но сие, естественно, не означает, что любой текст, на которого «Тургенев» показал высокий риск, завтра попадет подо фильтр. Высокие баллы всего лишь показывают, чисто текст неестественный, переоптимизированный и нуждается в редактировании. Таких в ТОПе Яндекса по сих пор очень много — в том числе и получай первых позициях, особенно по информационным запросам. С чего — это вопрос не к нам. 

Представители Яндекса, как-нибуд их обступают сеошники и наперебой спрашивают, почему мои сайт под фильтром, а такой-то, еще неизмеримо хуже, на свободе, обычно отвечают: «Еще безвыгодный вечер, всему свое время». 

Нам остается как присоединиться к этому ответу.

Правда, ложные срабатывания возможны, коли проверяются тексты, на которые «Тургенев» не рассчитан. Скажем так, многие законы и другие юридические документы получают (нет баллов за повторы и еще некоторое количество — по (по грибы) стилистику и удобочитаемость. Да, законы — тоже не самые естественные тексты, написанные в некотором расстоянии не лучшим стилем, хотя и не переоптимизированные.

«Тургенев» заточен всего-навсего под коммерческие сайты? Или для информационных порталов симпатия тоже подойдет? Ведь, казалось бы, SEO-текст – симпатия и там, и там SEO-текст.

SEO-тексты бывают разные, и тип проблем, прежде всего стилистических, в переоптимизированном информационном тексте порядком иной, чем в коммерческом. Из текстов вроде накануне чем ответить на вопрос: ««Доксициклин» — от что такое? эти таблетки?», следует поведать, какой ассортимент имеет данный медикамент нужно собирать характерные в для них маркеры.

Мы этим понемногу занимаемся, и такие тексты как и ловятся, хотя и несколько хуже, чем коммерческие. А именно, страница, с которой взята приведенная в предыдущем абзаце цитация, получила всего 5 баллов, хотя заслуживает, конечно, большего. Же с другой стороны, этот текст красуется в ТОПе Яндекса бери самой первой позиции (по запросу «доксициклин таблетки» нате момент написания). Когда Яндекс начнет применять «Баден-Баден» к «текстовым помойкам», автор этих строк уделим им то внимание, которого они заслуживают, и они будут спасибо ловиться.

Мы по-прежнему не знаем ни одного подтвержденного примера применения «Б.-Б.» к информационным сайтам. Будем беспримерно признательны, если кто-то из читателей нам их пришлет — сиречь, впрочем, и любые примеры «Баден-Бадена». Интерес тута взаимный — мы с удовольствием обсудим с вами ваш карамболь, и он поможет нам улучшить сервис для всех.

Сиречь вы планируете развивать «Тургенев», в каком направлении?

Надо глобальными планами мы пока всерьез не задумывались, а локально работаем курить над несколькими вкладками. Например, собираемся кардинально подтянуть вкладку «Запросы» — и заодно ускорить выдачу ответов (факторы, связанные с запросами, на днях считаются дольше всех остальных).

Постоянно совершенствуется «Стилистика». В среднем двух месяцев назад, в момент запуска «Тургенева», величина словарей составлял около 16 500 маркеров — сейчас их ранее более 20 тысяч. Мы работаем не просто-напросто над пополнением словаря, но и над его чисткой — убираются али уточняются «шумящие» маркеры. И постоянно совершенствуются подсказки — нам тянет, чтобы «Тургенев» не просто показывал потенциально проблемные места, однако и понятно объяснял, что в них не так.

Далее того, мы продолжим работу над справочным аппаратом к «Тургеневу» — автор хотим, чтобы он помогал писать хорошие тексты.

И пока еще мы активно работаем над сервисами для наших клиентов — объединяем «внутреннего Тургенева» с модулем, формирующим замысел для копирайтеров. Чтобы было удобно работать по-над страницей сайта сразу в обоих направлениях — и добавлять нате нее то, чего не хватает, и контролировать, чтоб на ней не было ничего лишнего.

Ссылки, SEO-тексты… В духе думаете, каким будет следующий «удар» Яндекса?

И в «Минусинске», и в «Баден-Бадене» Яндекс решает (в две задачи: уменьшить груз того, что спирт считает поисковым спамом, и ослабить негативное влияние поиска держи «экосистему» Рунета. Потому что сотрудники Яндекса на диво понимают, что и засилье SEO-ссылок, и засилье SEO-текстов они самочки в некотором смысле породили.

Победа над «продажными ссылками» и (ожидаемая) надо переоптимизированными текстами — далеко не единственные этапы сего пути. Уже лет десять назад, например, были побеждены дорвеи — равным образом порождение поисковиков. Сейчас уже несколько лет есть такое дело борьба с накрутками поведенческих факторов. А скоро придется не шутя бороться и с накрутками коммерческих факторов — вроде фиктивных отзывов тож фейкового телефона 8(800).

Думаю, «Баден-Баден» еще в тр не исчерпан — мы пока видели только первую волну, следующая должна снести, в частности, «текстовые помойки». И значительно усилить требования к коммерческим сайтам. Круглым счетом что до новых встреч на «Тургеневе». И бери нашем мастер-классе — он пройдет 12-13 апреля в Кампусе Сколково на конференции eTarget.

Источник: www.seonews.ru