Палех – новый алгоритм Яндекса. Алгоритмы поисковой системы Яндекса

Лето 2017 года, 22 августа – выход нового поискового алгоритма от Яндекса. Анонс на официальном блоге: https://yandex.ru/blog/company/korolev

Чем будут озадачены сеошники в связи с его появлением? До этого интеллектуальный поиск представлял «Палех», в анонсе в 2016 году обязательно почитайте о нейронных сетях и изменениях в работе сео специалистов над

Цитирую новость:

«Яндекс запустил новую версию поиска, основанную на алгоритме «Королёв» - он использует нейронную сеть, которая способна сопоставлять смысл запросов и веб-страниц. Это позволяет поиску с высокой точностью отвечать на редкие и сложные вопросы. Для обучения искусственного интеллекта Яндекс задействует не только поисковую статистику, но и распределенную сеть ассесоров и толокеров, а также оценки миллионов пользователей.»

Важная особенность «Королёва» в том, что помимо сопоставления смысла запроса и страницы, он учитывает ещё и смысл других запросов, которым страница релевантна.

Сравнение алгоритмов 2016 и 2017 года

«Палех» в реальном времени сопоставлял смысл запроса и заголовка веб-страницы. «Королёв» же использует нейронную сеть, которая анализирует уже всю страницу.»

В марте 2017 года Яндекс ввел новый алгоритм ранжирования Баден-Баден для борьбы с перенасыщенностью ключевыми словами. Тогда и заговорили о важности LSI-копирайтинга.

Что такое LSI-тексты и как их писать

ЛСИ копирайтинг (lsi - latent semantic indexing или латентно-семантический индекс) – это не привычные seo тексты, насыщенные ключевыми фразами, а полное раскрытие смысла ключевых запросов в интересной для читателя форме.

В данной методике написания главную роль играют фразы по теме статьи. Редкие речевые обороты, понятные только узким специалистам той или иной области употреблять не следует. Исключение составляют технические статьи.

Важно, чтобы пользователь получил исчерпывающий ответ на свой вопрос (поисковый запрос).

Теперь о конкретных действиях при наполнении и продвижении сайтов. На что нужно обратить внимание в первую очередь.

  • Использовать синонимы теперь стало еще важнее, чем раньше.
  • Так же важно употреблять в текстах кроме ключевых слов и тематические.
  • Не забывать добавлять подсказки (фразы, которые вы видите при наборе запроса в поисковой строке), фразы из нижней части страницы выдачи (вместе с этим ищут …) подсветки.
  • Так же из статистики Яндекс.Вордстат: «Что искали со словом…»

Подсказки:

Фразы из нижней части страницы выдачи:

Подсветки:

  • Яндекс и гугл по-разному формируют сниппет. Google берет из тайтла и дексрипшена, а яндекс может выбрать кусок релевантного запросу текста. Поэтому, чем интересней и привлекательней будет этот кусок, тем будет больше переходов на сайт из выдачи благодаря сниппету.

Отличия LSI и SEO оптимизации

В SEO ключевые слова и фразы вставляются в заголовки, контент и мета теги.

  • В LSI ключи могут быть или не быть. Цель – это дать исчерпывающий ответ на предполагаемый вопросы посетителя. Если ключ лишний для конкретной статьи, то его лучше не использовать.
  • В SEO мы стремимся к определенному проценту плотности ключевых слов.

В LSI употребляется максимум дополнительных тематических и релевантных слов и словосочетаний.

  • В SEO мы стремимся к достижению уникальности по техническим параметрам.

В LSI важна смысловая уникальность и исчерпанность контента.

Заключение

ЛСИ тексты могут быть в топе по запросам, которых нет в чистом виде на самой странице.

С LSI-индексированием нужно забыть о нетематических врезках.

«Королев» — это не Минусинск, не Баден-Баден. Это не карательный фильтр. Он, кстати, не является надстройкой — является частью основного алгоритма Яндекса.

«Королев» работает на основе самообучаемой нейронной сети и затрагивает довольно редкие многословные запросы, в первую очередь информационные, которые направлены на уточнение смысла — низкочастотные (НЧ) и микроНЧ, в том числе голосовой поиск, разные естественные варианты запросов, типа «фильм, где мужик в разных ботинках».

Создан этот алгоритм был с целью улучшить качество выдачи по таким запросам, по аналогу с RankBrain Гугла, который давно с такой задачей хорошо справляется, да и сейчас, по первым замерам, работает по таким запросам лучше Яндекса.

До этого был и есть алгоритм «Палех», который уже начал искать по смыслу, но делал это в реальном времени и сопоставлял только смысл запроса и заголовка — Title страницы.

«Королев» анализирует не только Title, но и всю страницу в целом, показывает в выдачу даже те страницы, где нет упоминания слов из запроса, но по смыслу страница подходит. При этом он определяет суть страницы заранее, на этапе индексирования — в результате скорость и количество обрабатываемых страниц мощно увеличились.

Про «треть» тут может быть преувеличено — реальной доли запросов, которые затронет «Королев», пока еще никто не измерял.

Другие статьи про «Королев»:

Я много моментов тут еще не расписывала, про них стоит почитать в других статьях. Я выбрала тут только самые лучшие, действительно стоящие:

Мнения разных экспертов:

Дополнительные официальные источники:

Некоторые отрывки из мнений по ссылкам выше:

Дмитрий Шахов

«Королев» пройдет мимо поисковой оптимизации. По крайней мере, на данном этапе. Перед поиском стоит задача дать ответы по запросам, по которым нет документов с вхождениями. Поиск эту задачу решает. Hummingbird в Google, «Палех» и «Королев» в Яндексе. Запросы, по которым нет документов, не входят в зону интереса поисковой оптимизации. Именно поэтому там и нет документов.

Артур Латыпов

Многие ждали, что вскоре после «Палеха» появится алгоритм, который будет работать аналогично, но не по заголовкам, а по контенту. Пока не заметили скачков трафика на наблюдаемых сайтах, будем наблюдать внимательней и смотреть на развитие алгоритма в будущем. Интересно, раньше для улучшения ранжирования по большому количеству запросов, в том числе смежных, готовили SEO-тексты, они были у кого-то лучше, у кого-то хуже, кто-то их называл по-другому, но смысл от этого не менялся. Теперь за SEO тексты наказывают, а поиск будет ранжировать документы по смыслу.
Ожидаем, что в работе оптимизаторы будут больше использовать LSI при подготовке текстовой оптимизации.

Соответственно, будут развиваться SEO-сервисы. Напомню, что подготовка списка SEO-слов, терминов в тематике, смежных запросов для подготовки контента и оптимизации, используется специалистами уже несколько лет. Поэтому серьезных изменений в механике не произойдет, по крайней мере пока.

В итоге, больше внимания уделяем:

Качеству контента;
интенту запроса;
мониторингу выдачи.

И, конечно, всегда интересно после запуска нового алгоритма от Яндекса анализировать, что изменилось, и наблюдать, что будет дальше.

Дмитрий Севальнев

Фактически, с внедрением ряда новых факторов, которые учитывают:

смысловое соответствия пары запрос-документ (по всему тексту документа, а не только по Title, как ранее в алгоритме «Палех»),
качество ответа документа на схожие по смыслу поисковые запросы, –

не будет глобальных изменений для SEO-индустрии. Наиболее значимые изменения коснутся «длинного хвоста» запросов, под которые целенаправленно SEO-специалисты мало работают. Их много, они редкие и часто обеспечивают единичные заходы на сайт.

Может быть увеличена значимость ряда факторов, которые и так прорабатываются специалистами, с того момента как LSI стал «модной темой».

Олег Шестаков, CTO & Founder в Rush Analytics Russia

Анонс алгоритма «Королев» был, наверное, самым масштабным за все время с точки зрения шоу. С точки зрения технологий нельзя сказать, что это какой-то новый технологический прорыв. В чем смысл инновации: теперь нейронные сети Яндекса оценивают соответствие запрос-документ не просто с точки зрения вхождения запроса и его вариаций (леммы, частей запроса и т.д.) в текст документа, но и с точки зрения смысла запроса. Нейронная сеть, обученная на больших данных, теперь умеет определять релевантность документа запросу, даже если в документе нет вхождения слов запроса. На самом деле – это не новая технология – она же использовалась в алгоритме «Палех», правда он учитывал лишь заголовки документов. Т.е. настоящая инновация здесь в том, что инженеры Яндекса сумели масштабировать очень ресурсоемкий алгоритм на несколько порядков – теперь алгоритм может оценивать сотни тысяч документов, а не 150 строк текста как раньше.

Как алгоритм повлияет на рынок SEO?

— Глобально – никак. Это всего лишь часть алгоритма, а большинство других факторов как работали, так и будут работать. Данный алгоритм сильнее всего должен затронуть НЧ-запросы и часть СЧ-запросов.

— Придется уделять больше внимания качеству текстов. Теперь, чтобы вывести страницу в ТОП, текст страницы должен содержать как можно больше слов-синонимов и связанных с запросом слов, чтобы пройти по факторам нового алгоритма, т.к. он теперь учитывает именно такие слова, а не просто «прямые вхождения». Здесь нет никакой магии – нейросеть обучается учителями-асессорами и все равно работает с текстами реальных сайтов, находя связанные по смыслу слова. Значит можно провести похожий анализ и сделать экстракцию этих слова их документов ТОПа. Грамотные SEO-специалисты начали это делать уже несколько лет назад. Если простыми словами – тот же LSI, только в профиль.

— Рынок дешевого копирайтинга начнет схлопываться, и это очень хорошо. Задание на написание текста в формате «3 прямых вхождения, 4 разбавленных и длина 2500 символов» будет порождать тексты, которые будут слабо ранжироваться.

Теперь нужны тексты-истории. Мы как SEO-специалисты должны рассказать историю про продукт клиента во всех подробностях, описав продукт со всех сторон – при таком подходе будет физически сложно упустить важные тематичные запросу слова. Заметьте, что вебмастера, зарабатывающие на статейных сайтах, уже очень давно пишут тексты-истории даже о юристах по алиментам, с отличной версткой, раскрытием темы и points of interest. Что в результате? У них куча трафика и ТОПы, плюс тотальная победа над сухими сайтами юридических фирм.

Производство контента станет несколько дороже и профессиональнее. SEO-компании либо перестанут писать SEO-бред и построят взрослые контент-редакции внутри, или их клиенты потеряют позиции в поиске. Яндекса вчера толсто на это намекнул.

Александр Алаев

«Королев» со всем не про SEO. Цель SEO – работа с запросами, которые спрашивают много раз и смысл их понятен, а релевантных ответов тысячи. Задача поисковика в коммерческом сегменте – найти лучших кандидатов по коммерческим критериям, а не искать смыслы. Именно поэтому коммерческая выдача не изменится, по крайней мере сколько-либо заметно.

А вот владельцам информационных ресурсов еще раз стоит обратить внимание на качество контента, ориентировать свои публикации не под поисковые запросы, а под интересы пользователей, писать человеческим простым языком.

Все мои проекты, кроме этого SEO-блога:

ТОП База - качественная база для полуавтоматической регистрации с Allsubmitter или для полностью ручного размещения - для самостоятельного бесплатного продвижения любого сайта, привлечения целевых посетителей на сайт, поднятия продаж, естественного разбавления ссылочного профиля. Базу собираю и обновляю 10 лет. Есть все виды сайтов, все тематики и регионы.

SEO-Topshop - SEO-софт со СКИДКАМИ, по выгодным условиям, новости SEO-сервисов, баз, руководств. Включая Xrumer по самым выгодным условиям и с бесплатным обучением, Zennoposter, Zebroid и разные другие.

Мои бесплатные комплексные курсы по SEO - 20 подробных уроков в формате PDF.
- каталоги сайтов, статей, пресс-релизовые сайты, доски объявлений, каталоги фирм, форумы, соцсети, блоговые системы и прочее.

"Приближаясь.." - мой блог на тему саморазвития, психологии, отношений, личной эффективности

Яндекс запустил новый алгоритм ранжирования - «Королев». Теперь поисковая система сопоставляет смыслы поискового запроса и страницы. Это очень удобно для пользователей. Однако что новый алгоритм означает для оптимизаторов и владельцев сайтов, как изменится продвижение и стоит ли ждать изменения трафика.

Как никогда весь «сеошный» мир ждал запуска нового алгоритма ранжирования, анонсированного на 22 августа 2017 года. Ещё бы, подобные анонсы – вещь для Яндекса абсолютно нетипичная, обычно они предпочитают не распространяться о своих планах, и сообщают об очередном релизе алгоритма ранжирования постфактум.

22 августа 2017 года Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв» (с 2008-го года новые алгоритмы ранжирования в Яндексе называют в честь городов). Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц - это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Область применения нового алгоритма практически не затрагивает традиционные сеошные сферы интересов, в первую очередь к которым можно отнести коммерческую выдачу. «Королёв» оказался логическим продолжением алгоритма «Палех» и призван обслуживать длинный хвост микрочастотных запросов, как правило, задаваемых на естественном языке. Особенностью таких запросов является то, что релевантные им документы могут не содержать многих из слов, входящих в запрос. Это ставит в тупик традиционные алгоритмы ранжирования, основанные на текстовой релевантности.

Решение найдено в виде использования нейросетей, которые обучаются в том числе и на поведении пользователей. Поэтому новый алгоритм Яндекса работает на основе нейронной сети. Он обучается на примерах запросов пользователей, и подбирает ответы исходя из смысла текста на странице. Это означает, в частности, что он будет гораздо эффективнее работать с нестандартными запросами, когда пользователи сами не уверены, как называется то, что они хотят найти. Здесь многое упирается в вычислительные мощности.

Вообще подобный подход к решению задачи ранжирования длинного микрочастотного хвоста запросов не нов. Еще в 2015-м году стало известно о технологии, применяемой поисковой системой Google для поиска ответов на многословные запросы, заданные на естественном языке – RankBrain. Эта технология, так же основанная на машинном обучении, позволяет распознавать наиболее значимые слова в запросах, и анализировать контекст, в котором осуществляется поиск. Что позволяет находить релевантные документы, которые не содержат всех слов запроса.

Кроме того, алгоритм работает и с картинками. Он анализирует содержание изображения и подбирает необходимый вариант, исходя из него, а не только из описания в тегах или окружающего его текста.

Впрочем, длинный хвост микрочастотных многословных запросов на естественном языке вполне может быть интересен «выжигателям» информационной семантики – создателям так называемых инфосайтов «на все случаи жизни». В общем-то, они и так стараются под как можно большее количество известных им запросов, которые удается заполучить с помощью различных методов сбора семантики, организовать точное вхождение в свои тексты. Там же, где точных вхождений не будет, т.е. для запросов, которые не всосал «семантический пылесос» создателей инфосайтов или для которых им не удалось обеспечить точных вхождений в контент, и начинается вотчина «Королёва», который призван искать соответствия между запросами и ответами в том случае, когда между ними мало пересечений по ключевым словам. В таких случаях «Королёв» несомненно повысит требования к качеству контента, и реально интересные читабельные статьи будут еще больше выигрывать у сборников вхождений ключевых фраз, разбавленных водой, т.к. именно в таких статьях могут содержаться полезные для нового алгоритма сигналы. Ну, а всем остальным сеошникам действительно можно расслабиться – очередная порка откладывается. Жертв и разрушений нет.

Запуская «Палех», Яндекс научил нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел - семантические векторы.

Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Чем он отличается от «Палеха»?

Основным отличием нового алгоритма, помимо улучшения технической реализации, является возможность распознавать схожие «смыслы» по всему документу, а не только по заголовку (Title), который появляется в окне браузера.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком - а не только их заголовки. Это позволяет выйти на новый уровень понимания смысла.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования.

Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Эффект «Королёва»

Умение понимать смысл особенно полезно при обработке редких и необычных запросов - когда люди пытаются описать своими словами свойства того или иного объекта и ожидают, что поиск подскажет его название.


Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ - один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 000 документов.

Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу.

Так можно установить дополнительные смысловые связи.

Люди учат машины

Использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят.

Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, - то есть страница хорошо отвечает на его запрос. Это положительный пример.

Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.Статистика, которая используется для обучения алгоритма, обезличена

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования.

Толока

Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса - так называемые асессоры. Но чем больше оценок, тем лучше - поэтому Яндекс привлек к этому всех желающих и запустили сервис Яндекс.Толока . Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются - сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат - миллионы пользователей Яндекса. Любой запрос - это анонимный сигнал, который помогает машине всё лучше понимать людей. Новый поиск - это поиск, который мы делаем вместе.

22 августа 2017 Яндекс запустил новую версию поискового алгоритма – «Королёв». Максимально кратко и емко можно описать его суть словами из пресс-релиза Яндекса:

Запуск алгоритма состоялся в Московском планетарии и сопровождался докладами разработчиков алгоритма, торжественным нажатием кнопки запуска и даже звонком на МКС и прямым эфиром с космонавтами.

Полное видео презентации можно посмотреть прямо здесь, а ниже мы рассмотрим основные изменения и ответы на частые вопросы. Информацию мы будем сопровождать комментариями сотрудников Яндекса в блоге компании, а также цитатами из официальных источников.

Что изменилось в поиске Яндекса?

«Королев» – это продолжение алгоритма «Палех », представленного в ноябре 2016 года. «Палех» был первым шагом в сторону семантического поиска, задача которого – лучше понимать смысл страниц.

«Королев» же теперь умеет понимать смысл всей страницы, а не только заголовка title, как было после анонса «Палеха».


Алгоритм должен улучшить выдачу по редким и сложным запросам.

Документы могут не содержать многих слов запроса, поэтому традиционные алгоритмы определения текстовой релевантности не справятся с этой задачей.

Выглядит это примерно так:

В Google работает аналогичный алгоритм – RankBrain:

Область действия алгоритма «Королев» распространяется на все запросы, в том числе на коммерческие. Однако больше всего влияние заметно именно на многословных запросах. Яндекс подтвердил, что алгоритм работает на всем поиске.

Конечно, целью алгоритма было улучшение качества выдачи по редким и сложным вопросам. Проверим на редких и сложных коммерческих запросах, связанных как раз с названием предмета.Например, в этом случае Яндекс действительно понимает, о чем идет речь. Правда, в выдаче в основном обзоры и статьи, а не коммерческие сайты.


А в этом случае поисковик понял, что меня, скорее всего, интересует дрон или квадрокоптер. Конечно же, выдача начинается с Яндекс.Маркет:


Но в некоторых случаях Яндекс бессилен…


Как это работает (+ 11 фото из презентации)

Разберем подробнее презентацию нового алгоритма. Ниже будут только выдержки самых интересных моментов с нашими комментариями и слайды из презентации.

Новая версия поиска основана на нейронной сети. Она состоит из большого количества нейронов. У нейрона есть один выход и несколько входов, он умеет суммировать полученную информацию и после преобразования передавать ее дальше.


Нейронная сеть может выполнять гораздо более сложные задачи и ее можно обучить понимать смысл текста. Для этого нужно дать ей много обучающих примеров.

Работу в этом направлении Яндекс начал с модели DSSM, состоящей из двух частей, соответствующих запросу и странице. На выходе была оценка, насколько они близки по смыслу.


Для обучения нейросети нужно много обучающих примеров.


    Отрицательные – это пара текстов, не связанных по смыслу.

    Положительные – пары «текст-запрос», связанные по смыслу.

Согласно презентации, Яндекс использовал для обучения массив данных о поведении пользователей на выдаче и считал связанными по смыслу запрос и страницу, на которую часто кликают пользователи в выдаче. Но как позже пояснил Михаил Сливинский, удовлетворенность пользователя результатами поиска меряются не только кликами:


Как ранее рассказывал в презентации "Палеха" Александр Садовский, наличие клика не говорит о том, что документ релевантен, а отсутствие, что не релевантен. Модель Яндекса предсказывает, задержится ли пользователь на сайте и учитывает множество других метрик удовлетворенности пользователя.

После обучения модель представляет текст в виде набора 300 чисел – семантического вектора. Чем ближе тексты по смыслу, тем больше сходство чисел векторов.


В поиске Яндекса нейронные модели использовались давно, но в алгоритме «Королёв» увеличено влияние нейронных сетей на ранжирование.

Теперь при оценке смысловой близости алгоритм смотрит не только на заголовок, но и на текст страницы.

Параллельно Яндекс работал над алгоритмом сравнения смыслов запросов на основании нейронных сетей. Например, если для одного запроса поисковая система точно знает лучший ответ, а пользователь ввел запрос, очень близкий к нему, тогда результаты поиска должны быть похожи. В качестве иллюстрации такого подхода Яндекс приводит пример: «ленивая кошка из монголии» – «манул». ()


В «Палехе» нейронные модели применялись только на самых поздних стадиях ранжирования, приблизительно на 150 лучших документов. Поэтому на ранних стадиях ранжирования часть документов терялась, а они могли быть хорошими. Это особенно важно для сложных и низкочастотных запросов.

Теперь вместо вычисления семантического вектора во время исполнения запроса Яндекс делает вычисления заранее – при индексации. «Королёв» проводит вычисления на 200 тыс. документов на запрос, вместо 150, которые были раньше при «Палехе». Сначала такой метод предварительного расчета был испытан на «Палехе», это позволило сэкономить на мощности и находить соответствие запросу не только заголовка, но и текста.


Поисковик берет полный текст на этапе индексации, проводит нужные операции и получает значение. В итоге для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу.

Команда Яндекса, которая занималась проектированием и внедрением нового поиска, запускает его.



Запуск алгоритма:


Обучение искусственного интеллекта

В Яндексе уже много лет задачей сбора данных для машинного обучения занимаются асессоры, которые оценивают релевантность документов запросу. С 2009 по 2013 год поисковик получил более 30 млн таких оценок.


За это время появился поиск по картинкам, по видео, внутренние классификаторы и алгоритмы: количество проектов Яндекса выросло.


Так как все они работали на технологиях машинного обучения, требовалось больше оценок и больше асессоров. Когда асессоров стало больше 1500, Яндекс запустил краудсорсинговую платформу «Толока» , где может зарегистрироваться и выполнять задания любой человек.

Например, вот такие задания встречаются в «Толоке»:


Или такие:


Если хотите подробнее узнать, как пользователи оценивают релевантность ответов, чтобы понимать, какие параметры выдачи оцениваются, рекомендуем почитать инструкции по заданиям или даже попробовать пройти обучение.

За несколько лет в сервисе собралось более 1 млн человек, которые сделали более 2 млрд оценок. Это позволило Яндексу сделать огромный рывок в масштабировании и объеме обучающих данных. Только в 2017 году задания выполняли более 500 000 человек.


Среди заданий есть:

  • Оценка релевантности документов;


  • Задания для развития карт. Так проверяют актуальность данных об организациях для базы Справочника;
  • Задания для настройки речевых технологий голосового поиска.

Правила, которым Яндекс хочет научить алгоритм, открыты всем зарегистрированным пользователям в виде инструкций для работников «Толоки». По некоторым заданиям просто собирается субъективное мнение людей.

Вот выдержка из инструкции о том, как Яндекс определяет релевантность документа:


Яндексу очень важно качество оценок. Оно может быть субъективно, поэтому задания даются сразу нескольким людям, а потом математическая модель оценивает распределение голосов с учетом степени доверия к каждому работнику и экспертизы каждого участника. Для каждого «толокера» хранятся данные о точности оценок по каждому проекту и сводятся в единый рейтинг.

Именно поэтому нельзя сетовать на то, что необъективность асессоров погубила ваш сайт.

Таким образом, в Яндексе появилась дополнительная группа факторов:

  • Смысл страницы и соответствие ее запросу;
  • Является ли документ хорошим ответом на похожие пользовательские запросы.

Что изменилось в топе Яндекса?

Алгоритм предположительно был запущен несколько раньше презентации и, если верить сторонним сервисам (например, https://tools.pixelplus.ru/updates/yandex), изменения в выдаче начались еще в начале августа, но неизвестно, связано ли это с алгоритмом «Королев».




По этим данным можно выдвинуть гипотезу, что уменьшение доли главных страниц в топ-100 и уменьшение возраста документов в пределах топ-100 связано с новым алгоритмом, который помогает получить больше релевантных ответов.

Правда, при этом заметных изменений в топ-10, топ-20 или топ-50 не видно. Возможно, их там нет либо они незначительны. Мы также не заметили существенных изменений выдачи по продвигаемым запросам.

Текстовая релевантность в стандартном понимании никуда не делась. Подборки и более широкие ответы по многословным запросам содержат большое количество страниц с вхождениями слов запроса в title и текст:


Свежесть результатов поиска тоже имеет значение. Пример из презентации Яндекса содержит ряд свежих результатов с искомой фразой целиком.



Хотя, учитывая тот факт, что алгоритм проводит расчеты сразу при индексации, «Королев» теоретически может влиять и на подмешивание результатов быстроботом.

Надо ли как-то оптимизировать тексты под «Королев»?

Скорее наоборот: чем больше поисковик учится определять смысл текста, тем меньше требуется вхождений ключевых слов и тем больше требуется смысла. Но принципы оптимизации не меняются.


Например, еще в 2015 году Google рассказал об алгоритме RankBrain, который помогает поиску лучше отвечать на многословные запросы, заданные на естественном языке. Он неплохо работает, что отметили пользователи в многочисленных публикациях сравнения поиска Яндекса и Google после анонса новой версии алгоритма.


Это не сопровождалось масштабной презентацией и сильно не повлияло на работу специалистов. Никто целенаправленно не занимается «оптимизацией под RankBrain», поэтому и в Яндексе это никак глобально не меняет работу специалиста. Да, появился тренд на поиск и включение в текст так называемых LSI-ключей, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

В алгоритме также заявлено, что анализируется смысл и других запросов, по которым пользователи попадают на страницу. Опять же, в перспективе это должно дать одинаковую или похожую выдачу по синонимичным запросам, так как сейчас результат анализа выдачи порой показывает, что пересечений по синонимичным запросам в выдаче нет. Будем надеяться, что алгоритм поможет устранить подобные несоответствия.

Но Яндекс пока не может найти (или плохо находит) документы, близкие по смыслу к запросу, но вовсе не содержащие слов запроса ().


Советы:

    Убедитесь, что страница отвечает на запросы, под которые она оптимизирована и по которым переходят пользователи.

    Убедитесь, что страница все же включает слова из поисковых запросов. Мы не говорим про прямые вхождения, просто проверьте, есть ли слова из запросов в любой форме на странице.

    Тематические слова могут придать странице дополнительную релевантность, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

    Для ключевых фраз, по которым страница сайта хорошо ищется, проверьте, не выбивается ли показатель отказов из среднего показателя по сайту. Если по запросу сайт находится на высокой позиции и пользователь находит то, что ему нужно, сайт может быть показан по сходным по смыслу ключевым фразам (если такие есть).

    Клики на поиске показывают удовлетворенность пользователя результатом. Это не ново, но стоит еще раз проверить сниппеты по ключевым запросам. Возможно, где-то получится повысить кликабельность.

Как проверить влияние алгоритма на свой сайт?

Для сайтов, у которых нет ярко выраженной сезонности, вы можете сравнить количество низкочастотных ключевых фраз, по которым переходили на сайт до запуска алгоритма и после. Например, взять неделю в июле и неделю в августе.


Выбираем «Отчеты – Стандартные отчеты – Источники – Поисковые запросы».

Выбираем визиты из Яндекса:

И фильтром оставляем только те запросы, по которым был 1 переход. Дополнительно стоит исключить фразы, содержащие название бренда.



Также можете посмотреть наличие поисковых фраз, слов из которых у вас нет в тексте. В целом, такие фразы присутствовали среди НЧ-запросов и раньше, просто сейчас их может стать заметно больше.

Перспективы и прогноз

    Поисковик сможет еще лучше находить документы, близкие по смыслу к запросу. Наличие вхождений станет еще менее важным.

    К текущему алгоритму будет добавлена персонализация.

    В перспективе хорошие материалы, отвечающие на вопрос пользователя, могут получить еще больше трафика по микрочастотным, редким или семантически похожим запросам.

    По низкочастотным ключевым фразам может увеличиться конкуренция за счет большей релевантности неоптимизированных документов.

    Гипотеза. С помощью подобных алгоритмов Яндекс может лучше оценивать, насколько семантически связаны страницы, ссылающиеся на другие, и учитывать это для оценки внешних ссылок. Если это может быть значимым фактором с учетом слабого влияния ссылок в Яндексе.

    Нам стоит ожидать дальнейших изменений, связанных с нейросетями, и в других сервисах Яндекса.

Вопрос-ответ

Вопрос : так как Яндекс оценивает клики, значит ли это, что накрутка поведенческих факторов будет набирать обороты?


Вопрос : связан ли «Королев» с «Баден-Баденом»?


Вопрос : как включить новый поиск Яндекса?

Ответ : в блоге Яндекса и в поисковых запросах часто встречались вопросы, как включить или установить новый поиск. Никак . Новый алгоритм уже работает и никаких дополнительных настроек делать не нужно.

7 апреля 2017 – алгоритм «Баден-Баден» — хостовый режим
С этого момента за наличие признаков переоптимизации на некоторых страницах может быть понижен весь сайт. В панели Я.Вебмастер появились сообщения о понижении за поисковый спам.

23 марта 2017 – алгоритм «Баден-Баден» — постраничный режим
Встроенный в ядро поискового алгоритма фильтр, который понижает в выдаче страницы с переоптимизированными текстами. На начальном этапе фильтр понижал отдельные страницы, также зафиксированы случаи позапросного срабатывания фильтра.

2 ноября 2016 – алгоритм «Палех»
Формула ранжирования, которая «умеет» находить соответствия между поисковым запросом и документом даже в том случае, если в самом документе отсутствует фраза из запроса. На момент запуска работает только для Title страниц.

8 июня 2016 – обновление алгоритма расчета тИЦ
С этого момента тематический индекс цитирования рассчитывается по новым правилам, основанным на качестве и тематическом соответствии ссылающихся страниц.

2 февраля 2016 – запуск алгоритма «Владивосток»
Изменение алгоритма ранжирования в мобильной выдаче. Яндекс начинает учитывать оптимизацию сайтов под мобильные устройства. Теперь выдача на стационарных и мобильных устройствах может отличаться, и приоритет в мобильной выдаче будет отдан тем сайтам, которыми удобно пользоваться с мобильных устройств.

30 декабря 2015 – фильтр за кликджекинг
Понижение сайтов, использующих кликджекинг (невидимые элементы, взаимодействие с которыми пользователь осуществляет, не подозревая этого).

Ноябрь 2015 (точная дата неизвестна) – включение ссылочного фактора
В рамках выступления на Школе для Вебмастеров представители Яндекса сообщили , что ссылочное ранжирование снова работает для ряда тематик по Москве. В последствие

2 октября 2015 – фильтр «Опасные сайты»
Понижение в выдаче сайтов, представляющих опасность для компьютера пользователя. Ранее такие сайты не понижались, а просто отмечались специальной отметкой.

Сентябрь-ноябрь 2015 – алгоритм «Киров». Многорукие бандиты Яндекса
Рандомизация выдачи. Подмешивание в ТОП к трастовым «старожилам» молодых сайтов с целью дать последним возможность накопить ПФ. С этого момента возраст сайта перестал играть ключевое значение в поисковом продвижении.

8 сентября 2015 – запуск обновленного фильтра АГС
Нацелен на ограничение в ранжировании сайтов, злоупотребляющих размещением SEO-ссылок, вне зависимости от качества. Ограничения сопровождаются аннулированием тИЦ. Согласно заявлению Яндекса, чтобы выйти из-под санкций, достаточно отказаться от размещения SEO-ссылок на сайте.

23 июня 2015 – третья волна «Минусинска»
Третья волна понижения сайтов за SEO-ссылки.

27 мая 2015 – вторая волна понижений за SEO-ccылки
Вторая волна первой итерации Минусинска, пострадало около 200 сайтов, по показателям сайты не отличаются от пострадавших в первой волне.

15 мая 2015 – первая волна понижений за SEO-ссылки
За использование SEO-ссылок в результате первой итерации фильтра Минусинск было понижено 488 сайтов. Яндекс продолжает призывать всех вебмастеров отказываться от использования SEO-ссылок – созданных, чтобы повлиять на поисковую систему. Подробнее об официальных результатах Минусинска .

15 апреля 2015 – анонс нового алгоритма «Минусинск»
На конференции «Неделя Байнета» в Минске Александр Садовский анонсировал выход нового алгоритмического фильтра Яндекса – «Минусинска», направленного на борьбу с ссылочным спамом. После анонса 9 тысяч сайтов получили уведомления с рекомендацией отказаться от использования SEO-ссылок и других некорректных способов продвижения.

1 апреля 2015 – «Амстердам»
Изменения на странице результатов выдачи — справа от результатов поиска появился блок с общей информацией о предмете запроса.

30 декабря 2014 – очередная волна пессимизации за накрутку ПФ
Кроме накрутчиков, под раздачу попали сайты так называемого «Живого Щита» - ресурсы, которым поведенческие накручивались без ведома их владельцев, с целью сбить с толку алгоритмы Яндекса.

1 декабря 2014 – волна пессимизации за накрутку ПФ
Понижены тысячи сайтов, которые накручивали переходы из результатов выдачи. Также впервые были пессимизированы ресурсы, использовавшие так называемое «усиление ссылочного» - накликивание покупных ссылок с целью улучшить передачу ссылочного веса.

19 cентября 2014 – волна понижений за агрессивную рекламу
Ужесточение санкций по отношению к сайтам с отвлекающей рекламой. Релиз вышел с погрешностью - было пессимизировано большое количество белых сайтов, где нормальные рекламные блоки с помощью браузерных вирусов подменялись на агрессивные. Позже эта погрешность была устранена.

14 cентября 2014 – изменение формулы ранжирования информационных сайтов
Ужесточение алгоритма для некоммерческих ресурсов. Очередная волна понижения видимости инфоресурсов за отсутствие добавочной ценности контента.

2-5 июня 2014 – «Острова»
Экспериментальное изменение дизайна результатов поиска. Ответы на некоторые запросы можно было увидеть прямо на странице выдачи, без перехода на сайт. Через некоторое время разработчики признали, что эксперимент не удался.

15 апреля 2014 — изменения в алгоритме АГС
С этого момента при попадании сайта под АГС число его страниц в индексе не уменьшается. Признаком АГС теперь является обнуление тИЦ .

20 марта 2014 – понижение видимости сайтов с шокирующей рекламой
Сайты, размещающие тизерную и другую отвлекающую рекламу, стали понижаться в выдаче. Под раздачу попали ресурсы, которые монетизировались за счет рекламных блоков с эротическими картинками, кадрами из фильмов ужасов, изображением частей тела с избыточным весом и другой неприятной рекламой.

12 марта 2014 – Алгоритм «Началово». Первый этап отмены ссылок
Обновление формулы ссылочного ранжирования для коммерческих запросов (Москва) в тематиках «Недвижимость», «Туризм», «Электроника и бытовая техника».

5 декабря 2013 – анонс бессылочного ранжирования
Руководитель веб-поиска Александр Садовский на конференции в Москве сообщил, что Яндекс готовит новую формулу ранжирования, в которой отсутствуют ссылочные факторы. Алгоритм обещали запустить вначале 2014 года и только для коммерческих запросов по Москве.

6 ноября 2013 – АГС 40
Обновился набор показателей низкого качества контента. Основной причиной наложения фильтра стало отсутствие добавочной ценности сайта. Фильтр затронул в основном МФА-сайты и ресурсы, созданные под монетизацию на партнерских программах, и стал полностью автоматизированным.
от предыдущих версий фильтра.

30 мая 2013 – алгоритм «Дублин»
Еще один шаг в сторону персонализации выдачи. Теперь результаты поиска подстраиваются под интересы пользователя прямо во время поисковой сессии.

16 мая 2013 – анонс платформы «Острова»
Яндекс впервые рассказал о новой поисковой платформе «Острова». Предполагалось радикальное изменение формата выдачи, при котором пользователь мог бы решать свою проблему прямо на странице поиска, не посещая сайт (заказывать еду, бронировать гостиницу, покупать билеты).
Выкатить острова планировалось за полтора-два месяца, но по неизвестным причинам этот момент постоянно откладывался. 26 июля 2013 на Beta.yandex.ru запущена тестовая версия «Островов».

15 мая 2012 – пессимизация сайтов с обманными pop-up элементами
Сайты со всплывающими окнами, заточенными под системные уведомления или сообщения социальных систем, стали понижаться в выдаче автоматически.

16 февраля 2012 – региональная выдача для Я.Картинок
Разные ответы для России, Украины, Беларуси и Казахстана.

7 февраля 2012 – персонализация подсказок для зарегистрированных пользователей
Яндекс начинает учитывать историю запросов пользователей при формировании подсказок в поисковой строке. Еще один шаг к персонализации выдачи.

12 декабря 2012 – Калининград. Персонализация результатов поиска
Попытка подстроить Топ-10 и поисковые подсказки под каждого пользователя, основываясь на истории его запросов и поведения на странице выдачи. Согласно исследованию платформы «Калининград», объемы трафика у старых трастовых сайтов выросли. А вот продвигать молодые ресурсы в персональном поиске привычными методами стало сложнее.

23 ноября 2011 – новый алгоритм для коммерческих сайтов
Формула ранжирования пополнилась коммерческими факторами: удобство сайта, ассортимент продукции, цены, сервис и т.д. Изначально релиз был запущен для московской выдачи, со временем распространился на другие регионы.

5 октября 2011 – Яндекс начинает учитывать юзабилити
С этого момента в выдаче автоматически понижаются перенасыщенные рекламой сайты, а ресурсы с неудобной навигацией начинают испытывать проблемы при продвижении.

13 сентября 2011 – фильтр «Ты Спамный»
Санкции за переспамленные тексты. Первый фильтр Яндекса, учитывающий ПФ (понижались только те спамные тексты, которые имели низкие поведенческие показатели). Изначально фильтр был запросозависимым и накладывался на отдельные страницы.

17 августа 2011 – Рейкьявик
Построение результатов выдачи на базе языковых предпочтений пользователя. Первый шаг к персонализации выдачи на уровне конкретного посетителя.

Май 2011 – первая волна ручной пессимизации сайтов за накрутку ПФ
Были понижены позиции известных SEO-компаний и их клиентов. 23 мая на блоге Яндекса появилось официальное предупреждение .

17 декабря 2010 – новая формула ранжирования по геозависимым запросам
В каждом регионе привилегию получили сайты с привязкой к этому региону. Продвигать один сайт в нескольких регионах стало проблематично.

15 декабря 2010 – Краснодар. Внедрение «Спектра» в выдачу
Разделение сайтов на 60 смысловых категорий. Принцип квоты для сайтов из разных категорий в выдаче по запросам общего характера. Результаты поиска по ВЧ стали более разнообразными – в Топ 10 по общему ВЧ можно было встретить интернет-магазин, энциклопедию и форум (технология «Спектр»).
Приоритет поведенческих факторов (действия пользователя на странице результатов выдачи).

2 ноября 2010 – улучшение ранжирования авторских текстов
Изменения алгоритма определения авторства документа.

13 сентября 2010 – Обнинск
Улучшено определение региональности сайтов. В выдаче по ГНЗ запросам преимущество получили сайты без привязки к региону.
Изменилось отношение к коммерческим ссылкам. Наложение «фильтра времени» на коммерческие ссылки – донор начинает передавать вес акцептору только через 2-4 месяца от момента появления ссылки.

17 марта 2010 – Снежинск 1.1
Обновление формулы ранжирования по НГЗ запросам. Приоритет в выдаче получили сайты некоммерческой направленности – энциклопедии, обзоры.

20 января 2010 – портяночный фильтр Яндекса
Санкции за длинные тексты («портянки»), переспамленные ключевыми словами. Фильтр накладывался на отдельные страницы и лечился сокращением текста в несколько раз (при этом плотность ключевиков могла оставаться на том же уровне). Портяночный фильтр – предшественник алгоритма «Ты спамный», который появился в 2012 году.

22 декабря 2009 – Конаково
Локальное ранжирование получили 1250 городов России.

18 декабря 2009 – АГС 30
Расширилось число факторов, влияющих на решение алгоритма исключить сайт из индекса. С этого момента под фильтры начали попадать и псевдоСДЛ – сайты с технически уникальным, но не интересным для пользователей контентом.
Фильтр мог накладываться как вручную, так и автоматически.

17 ноября 2009 – Снежинск. Первый алгоритм на платформе MatrixNET
Региональную выдачу получили 19 городов. Число параметров, которые учитываются при ранжировании документов, увеличилось до нескольких тысяч. В формуле появились поведенческие факторы.
Поменялся принцип ранжирования коммерческих запросов. Качество сайта в целом стало играть бОльшую роль, чем релевантность отдельной страницы.
Яндекс научился отличать коммерческие ссылки от некоммерческих на основании анализа анкоров (Мадридский доклад).

28 сентября 2009 – фильтр АГС 17
Первое официальное упоминание этого фильтра, который, по словам Яндекса, работает с 2006 года.
Симптом фильтра – в выдаче остается от 1 до 10 страниц сайта. Первый релиз коснулся в основном автоматически наполняемых ресурсов и сайтов с неуникальным контентом.

20 августа 2009 – Арзамас 1.2. Классификатор геозависимости запросов
Разделение запросов на геозависимые и геонезависимые. Приоритет старых трастовых сайтов в выдаче по ГНЗ. В топах по ГНЗ показываются преимущественно морды.

11 августа 2009 – понижение сайтов с системами clickunder
Продолжение войны с агрессивной рекламой, начатой 30 апреля.

24 июня 2009 – Арзамас 1.1.
Улучшена формула ранжирования для регионов России, исключая Москву и Санкт-Петербург. Повысилась значимость возраста домена. В выдаче замечены страницы с портянками текста и малым количеством бэклинков.

30 апреля 2009 – начало войны с агрессивной рекламой
Яндекс начал искусственно понижать в выдаче страницы с popunder-баннерами.

8 апреля 2009 – Арзамас (Анадырь). Региональная выдача
Региональную выдачу получили Москва, Санкт-Петербург, Украина, Белоруссия и Казахстан. Спустя почти 3 месяца в панели Я.Вебмастер появилась возможность привязки сайта к региону.
При ранжировании по запросам с неоднозначным смыслом стала учитываться история уточняющих запросов.
Подмешивание картинок в результаты поиска по некоторым запросам.

11 сентября 2008 – Находка
Повышение веса внутренних страниц – в выдаче по СЧ и некоторым ВЧ параллельно с мордами появились внутряки.
Морфологические изменения, отличия в выдаче по запросу в единственном и множественном числах.
Подмешивание информационных сайтов в выдачу по коммерческим запросам. Википедия в выдаче.

28 августа 2008 – изменения в алгоритме тИЦ
Нововведение коснулось сайтов, которые накручивали тИЦ по специальным схемам. У около 15% сайтов тИЦ снизился до 0-10.

2 июля 2008 – Магадан 2.0
Большой вес получил фактор уникальности текстов. Яндекс научился определять и по-другому ранжировать коммерческие запросы. Значение возраста сайта понижено.

16 мая 2008 года — Магадан
Первый именной алгоритм Яндекса. Выдача по информационным запросам. Яндекс научился расшифровывать аббревиатуры и транслитерацию.
Это первый алгоритм, который до выката в основной поиск тестировался вебмастерами на buki.yandex.ru почти месяц (с 14 апреля).

4 апреля 2008 года – появление иноязычных документов выдаче
Яндекс начинает искать по зарубежному интернету, в выдачу подмешиваются англоязычные сайты.

18 марта 2008 года – наступление на SEO ссылки
Ссылки с главных страниц теряют вес. Массовая просадка сайтов, которые держались в топах за счет ссылок с морд. Ссылки с внутренних страниц продолжают работать.

5 февраля 2008 – «Гости из прошлого» или «Непот в тумане»
Отмена непот-фильтра в чистом виде. Ссылки с сайтов, находящихся под непотом, получили минимальный вес (близкий к нулю). С этого момента стало невозможным определять «занепоченные» площадки с помощью меток в анкорах.
Название алгоритма пошло от ветки форума на Серче.

17 января 2008 – «Восьмерка» SP 1
Меняется отношение к внешним ссылкам. Снижение веса ссылок с «морд». Вебмастера массово переходят на покупку ссылок с внутренних страниц доноров.

7 августа 2007 года – «Родео»
Новая формула ранжирования для однословных запросов. Приоритет по однословникам в выдаче получили главные страницы («морды»).
Свое название алгоритм получил из анонса , опубликованного на Forum.Searchengines.ru Александром Садовским.

2 июля 2007 года – изменение формулы ранжирования
Алгоритм стал запросозависимым – для однословных и многословных запросов стали применяться разные формулы ранжирования.
Яндекс впервые анонсировал свой алгоритм и дал возможность вебмастерам оставлять свой фидбек .
Анонсирован на Forum.Searchengines.ru Александром Садовским.

2005 год – непот-фильтр
Внешние ссылки с сайтов, занимающихся активной линкоторговлей, перестали передавать вес. Оптимизаторы начинают использовать метки в анкорах, чтобы идентифицировать занепоченные площадки.