Новый поисковый алгоритм яндекса. Новый алгоритм Яндекса — Королёв — что нового в Яндексе

7 апреля 2017 – алгоритм «Баден-Баден» — хостовый режим
С этого момента за наличие признаков переоптимизации на некоторых страницах может быть понижен весь сайт. В панели Я.Вебмастер появились сообщения о понижении за поисковый спам.

23 марта 2017 – алгоритм «Баден-Баден» — постраничный режим
Встроенный в ядро поискового алгоритма фильтр, который понижает в выдаче страницы с переоптимизированными текстами. На начальном этапе фильтр понижал отдельные страницы, также зафиксированы случаи позапросного срабатывания фильтра.

2 ноября 2016 – алгоритм «Палех»
Формула ранжирования, которая «умеет» находить соответствия между поисковым запросом и документом даже в том случае, если в самом документе отсутствует фраза из запроса. На момент запуска работает только для Title страниц.

8 июня 2016 – обновление алгоритма расчета тИЦ
С этого момента тематический индекс цитирования рассчитывается по новым правилам, основанным на качестве и тематическом соответствии ссылающихся страниц.

2 февраля 2016 – запуск алгоритма «Владивосток»
Изменение алгоритма ранжирования в мобильной выдаче. Яндекс начинает учитывать оптимизацию сайтов под мобильные устройства. Теперь выдача на стационарных и мобильных устройствах может отличаться, и приоритет в мобильной выдаче будет отдан тем сайтам, которыми удобно пользоваться с мобильных устройств.

30 декабря 2015 – фильтр за кликджекинг
Понижение сайтов, использующих кликджекинг (невидимые элементы, взаимодействие с которыми пользователь осуществляет, не подозревая этого).

Ноябрь 2015 (точная дата неизвестна) – включение ссылочного фактора
В рамках выступления на Школе для Вебмастеров представители Яндекса сообщили , что ссылочное ранжирование снова работает для ряда тематик по Москве. В последствие

2 октября 2015 – фильтр «Опасные сайты»
Понижение в выдаче сайтов, представляющих опасность для компьютера пользователя. Ранее такие сайты не понижались, а просто отмечались специальной отметкой.

Сентябрь-ноябрь 2015 – алгоритм «Киров». Многорукие бандиты Яндекса
Рандомизация выдачи. Подмешивание в ТОП к трастовым «старожилам» молодых сайтов с целью дать последним возможность накопить ПФ. С этого момента возраст сайта перестал играть ключевое значение в поисковом продвижении.

8 сентября 2015 – запуск обновленного фильтра АГС
Нацелен на ограничение в ранжировании сайтов, злоупотребляющих размещением SEO-ссылок, вне зависимости от качества. Ограничения сопровождаются аннулированием тИЦ. Согласно заявлению Яндекса, чтобы выйти из-под санкций, достаточно отказаться от размещения SEO-ссылок на сайте.

23 июня 2015 – третья волна «Минусинска»
Третья волна понижения сайтов за SEO-ссылки.

27 мая 2015 – вторая волна понижений за SEO-ccылки
Вторая волна первой итерации Минусинска, пострадало около 200 сайтов, по показателям сайты не отличаются от пострадавших в первой волне.

15 мая 2015 – первая волна понижений за SEO-ссылки
За использование SEO-ссылок в результате первой итерации фильтра Минусинск было понижено 488 сайтов. Яндекс продолжает призывать всех вебмастеров отказываться от использования SEO-ссылок – созданных, чтобы повлиять на поисковую систему. Подробнее об официальных результатах Минусинска .

15 апреля 2015 – анонс нового алгоритма «Минусинск»
На конференции «Неделя Байнета» в Минске Александр Садовский анонсировал выход нового алгоритмического фильтра Яндекса – «Минусинска», направленного на борьбу с ссылочным спамом. После анонса 9 тысяч сайтов получили уведомления с рекомендацией отказаться от использования SEO-ссылок и других некорректных способов продвижения.

1 апреля 2015 – «Амстердам»
Изменения на странице результатов выдачи — справа от результатов поиска появился блок с общей информацией о предмете запроса.

30 декабря 2014 – очередная волна пессимизации за накрутку ПФ
Кроме накрутчиков, под раздачу попали сайты так называемого «Живого Щита» - ресурсы, которым поведенческие накручивались без ведома их владельцев, с целью сбить с толку алгоритмы Яндекса.

1 декабря 2014 – волна пессимизации за накрутку ПФ
Понижены тысячи сайтов, которые накручивали переходы из результатов выдачи. Также впервые были пессимизированы ресурсы, использовавшие так называемое «усиление ссылочного» - накликивание покупных ссылок с целью улучшить передачу ссылочного веса.

19 cентября 2014 – волна понижений за агрессивную рекламу
Ужесточение санкций по отношению к сайтам с отвлекающей рекламой. Релиз вышел с погрешностью - было пессимизировано большое количество белых сайтов, где нормальные рекламные блоки с помощью браузерных вирусов подменялись на агрессивные. Позже эта погрешность была устранена.

14 cентября 2014 – изменение формулы ранжирования информационных сайтов
Ужесточение алгоритма для некоммерческих ресурсов. Очередная волна понижения видимости инфоресурсов за отсутствие добавочной ценности контента.

2-5 июня 2014 – «Острова»
Экспериментальное изменение дизайна результатов поиска. Ответы на некоторые запросы можно было увидеть прямо на странице выдачи, без перехода на сайт. Через некоторое время разработчики признали, что эксперимент не удался.

15 апреля 2014 — изменения в алгоритме АГС
С этого момента при попадании сайта под АГС число его страниц в индексе не уменьшается. Признаком АГС теперь является обнуление тИЦ .

20 марта 2014 – понижение видимости сайтов с шокирующей рекламой
Сайты, размещающие тизерную и другую отвлекающую рекламу, стали понижаться в выдаче. Под раздачу попали ресурсы, которые монетизировались за счет рекламных блоков с эротическими картинками, кадрами из фильмов ужасов, изображением частей тела с избыточным весом и другой неприятной рекламой.

12 марта 2014 – Алгоритм «Началово». Первый этап отмены ссылок
Обновление формулы ссылочного ранжирования для коммерческих запросов (Москва) в тематиках «Недвижимость», «Туризм», «Электроника и бытовая техника».

5 декабря 2013 – анонс бессылочного ранжирования
Руководитель веб-поиска Александр Садовский на конференции в Москве сообщил, что Яндекс готовит новую формулу ранжирования, в которой отсутствуют ссылочные факторы. Алгоритм обещали запустить вначале 2014 года и только для коммерческих запросов по Москве.

6 ноября 2013 – АГС 40
Обновился набор показателей низкого качества контента. Основной причиной наложения фильтра стало отсутствие добавочной ценности сайта. Фильтр затронул в основном МФА-сайты и ресурсы, созданные под монетизацию на партнерских программах, и стал полностью автоматизированным.
от предыдущих версий фильтра.

30 мая 2013 – алгоритм «Дублин»
Еще один шаг в сторону персонализации выдачи. Теперь результаты поиска подстраиваются под интересы пользователя прямо во время поисковой сессии.

16 мая 2013 – анонс платформы «Острова»
Яндекс впервые рассказал о новой поисковой платформе «Острова». Предполагалось радикальное изменение формата выдачи, при котором пользователь мог бы решать свою проблему прямо на странице поиска, не посещая сайт (заказывать еду, бронировать гостиницу, покупать билеты).
Выкатить острова планировалось за полтора-два месяца, но по неизвестным причинам этот момент постоянно откладывался. 26 июля 2013 на Beta.yandex.ru запущена тестовая версия «Островов».

15 мая 2012 – пессимизация сайтов с обманными pop-up элементами
Сайты со всплывающими окнами, заточенными под системные уведомления или сообщения социальных систем, стали понижаться в выдаче автоматически.

16 февраля 2012 – региональная выдача для Я.Картинок
Разные ответы для России, Украины, Беларуси и Казахстана.

7 февраля 2012 – персонализация подсказок для зарегистрированных пользователей
Яндекс начинает учитывать историю запросов пользователей при формировании подсказок в поисковой строке. Еще один шаг к персонализации выдачи.

12 декабря 2012 – Калининград. Персонализация результатов поиска
Попытка подстроить Топ-10 и поисковые подсказки под каждого пользователя, основываясь на истории его запросов и поведения на странице выдачи. Согласно исследованию платформы «Калининград», объемы трафика у старых трастовых сайтов выросли. А вот продвигать молодые ресурсы в персональном поиске привычными методами стало сложнее.

23 ноября 2011 – новый алгоритм для коммерческих сайтов
Формула ранжирования пополнилась коммерческими факторами: удобство сайта, ассортимент продукции, цены, сервис и т.д. Изначально релиз был запущен для московской выдачи, со временем распространился на другие регионы.

5 октября 2011 – Яндекс начинает учитывать юзабилити
С этого момента в выдаче автоматически понижаются перенасыщенные рекламой сайты, а ресурсы с неудобной навигацией начинают испытывать проблемы при продвижении.

13 сентября 2011 – фильтр «Ты Спамный»
Санкции за переспамленные тексты. Первый фильтр Яндекса, учитывающий ПФ (понижались только те спамные тексты, которые имели низкие поведенческие показатели). Изначально фильтр был запросозависимым и накладывался на отдельные страницы.

17 августа 2011 – Рейкьявик
Построение результатов выдачи на базе языковых предпочтений пользователя. Первый шаг к персонализации выдачи на уровне конкретного посетителя.

Май 2011 – первая волна ручной пессимизации сайтов за накрутку ПФ
Были понижены позиции известных SEO-компаний и их клиентов. 23 мая на блоге Яндекса появилось официальное предупреждение .

17 декабря 2010 – новая формула ранжирования по геозависимым запросам
В каждом регионе привилегию получили сайты с привязкой к этому региону. Продвигать один сайт в нескольких регионах стало проблематично.

15 декабря 2010 – Краснодар. Внедрение «Спектра» в выдачу
Разделение сайтов на 60 смысловых категорий. Принцип квоты для сайтов из разных категорий в выдаче по запросам общего характера. Результаты поиска по ВЧ стали более разнообразными – в Топ 10 по общему ВЧ можно было встретить интернет-магазин, энциклопедию и форум (технология «Спектр»).
Приоритет поведенческих факторов (действия пользователя на странице результатов выдачи).

2 ноября 2010 – улучшение ранжирования авторских текстов
Изменения алгоритма определения авторства документа.

13 сентября 2010 – Обнинск
Улучшено определение региональности сайтов. В выдаче по ГНЗ запросам преимущество получили сайты без привязки к региону.
Изменилось отношение к коммерческим ссылкам. Наложение «фильтра времени» на коммерческие ссылки – донор начинает передавать вес акцептору только через 2-4 месяца от момента появления ссылки.

17 марта 2010 – Снежинск 1.1
Обновление формулы ранжирования по НГЗ запросам. Приоритет в выдаче получили сайты некоммерческой направленности – энциклопедии, обзоры.

20 января 2010 – портяночный фильтр Яндекса
Санкции за длинные тексты («портянки»), переспамленные ключевыми словами. Фильтр накладывался на отдельные страницы и лечился сокращением текста в несколько раз (при этом плотность ключевиков могла оставаться на том же уровне). Портяночный фильтр – предшественник алгоритма «Ты спамный», который появился в 2012 году.

22 декабря 2009 – Конаково
Локальное ранжирование получили 1250 городов России.

18 декабря 2009 – АГС 30
Расширилось число факторов, влияющих на решение алгоритма исключить сайт из индекса. С этого момента под фильтры начали попадать и псевдоСДЛ – сайты с технически уникальным, но не интересным для пользователей контентом.
Фильтр мог накладываться как вручную, так и автоматически.

17 ноября 2009 – Снежинск. Первый алгоритм на платформе MatrixNET
Региональную выдачу получили 19 городов. Число параметров, которые учитываются при ранжировании документов, увеличилось до нескольких тысяч. В формуле появились поведенческие факторы.
Поменялся принцип ранжирования коммерческих запросов. Качество сайта в целом стало играть бОльшую роль, чем релевантность отдельной страницы.
Яндекс научился отличать коммерческие ссылки от некоммерческих на основании анализа анкоров (Мадридский доклад).

28 сентября 2009 – фильтр АГС 17
Первое официальное упоминание этого фильтра, который, по словам Яндекса, работает с 2006 года.
Симптом фильтра – в выдаче остается от 1 до 10 страниц сайта. Первый релиз коснулся в основном автоматически наполняемых ресурсов и сайтов с неуникальным контентом.

20 августа 2009 – Арзамас 1.2. Классификатор геозависимости запросов
Разделение запросов на геозависимые и геонезависимые. Приоритет старых трастовых сайтов в выдаче по ГНЗ. В топах по ГНЗ показываются преимущественно морды.

11 августа 2009 – понижение сайтов с системами clickunder
Продолжение войны с агрессивной рекламой, начатой 30 апреля.

24 июня 2009 – Арзамас 1.1.
Улучшена формула ранжирования для регионов России, исключая Москву и Санкт-Петербург. Повысилась значимость возраста домена. В выдаче замечены страницы с портянками текста и малым количеством бэклинков.

30 апреля 2009 – начало войны с агрессивной рекламой
Яндекс начал искусственно понижать в выдаче страницы с popunder-баннерами.

8 апреля 2009 – Арзамас (Анадырь). Региональная выдача
Региональную выдачу получили Москва, Санкт-Петербург, Украина, Белоруссия и Казахстан. Спустя почти 3 месяца в панели Я.Вебмастер появилась возможность привязки сайта к региону.
При ранжировании по запросам с неоднозначным смыслом стала учитываться история уточняющих запросов.
Подмешивание картинок в результаты поиска по некоторым запросам.

11 сентября 2008 – Находка
Повышение веса внутренних страниц – в выдаче по СЧ и некоторым ВЧ параллельно с мордами появились внутряки.
Морфологические изменения, отличия в выдаче по запросу в единственном и множественном числах.
Подмешивание информационных сайтов в выдачу по коммерческим запросам. Википедия в выдаче.

28 августа 2008 – изменения в алгоритме тИЦ
Нововведение коснулось сайтов, которые накручивали тИЦ по специальным схемам. У около 15% сайтов тИЦ снизился до 0-10.

2 июля 2008 – Магадан 2.0
Большой вес получил фактор уникальности текстов. Яндекс научился определять и по-другому ранжировать коммерческие запросы. Значение возраста сайта понижено.

16 мая 2008 года — Магадан
Первый именной алгоритм Яндекса. Выдача по информационным запросам. Яндекс научился расшифровывать аббревиатуры и транслитерацию.
Это первый алгоритм, который до выката в основной поиск тестировался вебмастерами на buki.yandex.ru почти месяц (с 14 апреля).

4 апреля 2008 года – появление иноязычных документов выдаче
Яндекс начинает искать по зарубежному интернету, в выдачу подмешиваются англоязычные сайты.

18 марта 2008 года – наступление на SEO ссылки
Ссылки с главных страниц теряют вес. Массовая просадка сайтов, которые держались в топах за счет ссылок с морд. Ссылки с внутренних страниц продолжают работать.

5 февраля 2008 – «Гости из прошлого» или «Непот в тумане»
Отмена непот-фильтра в чистом виде. Ссылки с сайтов, находящихся под непотом, получили минимальный вес (близкий к нулю). С этого момента стало невозможным определять «занепоченные» площадки с помощью меток в анкорах.
Название алгоритма пошло от ветки форума на Серче.

17 января 2008 – «Восьмерка» SP 1
Меняется отношение к внешним ссылкам. Снижение веса ссылок с «морд». Вебмастера массово переходят на покупку ссылок с внутренних страниц доноров.

7 августа 2007 года – «Родео»
Новая формула ранжирования для однословных запросов. Приоритет по однословникам в выдаче получили главные страницы («морды»).
Свое название алгоритм получил из анонса , опубликованного на Forum.Searchengines.ru Александром Садовским.

2 июля 2007 года – изменение формулы ранжирования
Алгоритм стал запросозависимым – для однословных и многословных запросов стали применяться разные формулы ранжирования.
Яндекс впервые анонсировал свой алгоритм и дал возможность вебмастерам оставлять свой фидбек .
Анонсирован на Forum.Searchengines.ru Александром Садовским.

2005 год – непот-фильтр
Внешние ссылки с сайтов, занимающихся активной линкоторговлей, перестали передавать вес. Оптимизаторы начинают использовать метки в анкорах, чтобы идентифицировать занепоченные площадки.

Для поискового маркетинга 2017 год был довольно насыщенным. Яндекс запустил новый поисковый алгоритм Баден-Баден, появились новые форматы страниц сайтов для ускоренной загрузки контента, возросла доля мобильного поиска. Как компании справились с этими вызовами и что еще придется учесть при оптимизации сайтов в следующем году, рассказали в диджитал-агентствах.

2017-2018

Для поискового маркетинга (нашего ключевого направления) самое яркое событие, пожалуй, запуск Баден-Бадена. Это новый алгоритм Яндекса,который наказывает сайты за некачественные переоптимизированные тексты.

Наша лаборатория поисковой аналитики создала облачный текстовый редактор«Тургенев», который оценивает тексты на угрозу «Баден-Бадена» и дает конкретные рекомендации по улучшению. Сервис доступен бесплатно для всех желающих на сайте «Ашманов и партнеры».

Из трендов стоит отметить рост доли мобильного поиска. C точки зрения факторов ранжирования и пользовательского опыта мобильный поиск отличаетсяот десктопного. Нам всем предстоит освоить новые форматы страниц (например, Турбо-страницы Яндекса и AMP от Google) и новые методы работы сорганическим поисковым трафиком, который по-прежнему стабильно демонстрирует высокий показатель ROI.

Из других рекламных форматов я бы отметил нативную и видеорекламу, которые стремительно набирают популярность на фоне снижения доверия пользователей к привычным баннерам и объявлениям. Думаю, в 2018 году спрос на эти форматы будет расти быстрее всего.

Анатолий Блонский, руководитель группы поисковой оптимизации и продвижения сайтов iProspect Russia

2017-2018

1. Акцент на аналитике SEO. Google анонсировал расширение периода хранения данных в Search Console. На текущий момент возможно получить аналитику за период свыше 12 месяцев только в бета-версии сервиса (вместо 3 месяцев, как было раньше). Планируется, что в 2018 году это возможность будет реализована уже не в бета-версии, а в основной.

2. Google и Яндекс будут активно развивать возможности голосового поиска. Сегодня наблюдается стремительный рост голосового и диалогового поиска. Это, несомненно, влечёт за собой увеличение спроса на новые типы ключевых слов и работу с новыми видами результатов поиска.

Google уже несколько лет активно использует и развивает возможности мобильного голосового поиска, который доступен на iOS- и Android-устройствах. В 2017 году Google добавил новые подсказки в топ результатов выдачи на мобильных устройствах, в которых предлагается совершить голосовой поиск по необходимому запросу.

Яндекс запустил Алису — первого в мире голосового помощника, который умеет импровизировать в разговоре, не ограничиваясь набором заранее заданных реплик. Пока сложно с уверенностью сказать, что насколько серьезно этот тренд изменит подход к SEO. В 2018 году маловероятно, что случится бум оптимизации в этом направлении, но количество голосовых поисков точно серьезно увеличится. Уже можно предположить, что Google первым начнет разделять в статистике запросы на вводимые с клавиатуры и голосовые.

3. Расширенная выдача релевантного контента при введении запросов в поисковых системах. Поисковые системы делают шаги к расширению различных форматов выдачи контента по поисковым запросам. Так, в 2017 г. Google объявил о запуске трех обновлений, связанных с расширенными ответами, панелями знаний и рекомендациями по похожим темам. Это реализовано в блоках с ответами (featured snippets), на панелях знаний и в топе поисковой выдачи. Теперь пользователи смогут видеть больше изображений и дополнительной информации по интересующим их темам.

Аналогично Яндекс при выведении результатов запросов предлагает пользователям ссылки на свои релевантные сервисы. На этот тренд важно обратить внимание при формировании контента сайтов.

4. AMP и аналогичные технологии приобретут еще большее распространение на рынке. В конце 2017 года Яндекс запустил свой аналог AMP (Accelerated Mobile Pages) от Google — технологию Турбо. Задача как АМP, так и Турбо-страниц — ускорение загрузки контента на мобильных устройствах и уменьшение потребления мобильных данных.

В 2018 году появится еще больше ресурсов, использующих обе технологии, а также кейсов по их внедрению и использованию. Интернет становится все более мобильным, а пользователи - более требовательными к скорости и удобству взаимодействия с контентом.

В 2017 году Google уже увеличил долю AMP-контента в мобильной выдаче, результаты чего наблюдаются уже не только в США, но и ряде других стран - Австралии, Великобритании, Франции, Испании, Японии и Сингапуре. Из предыдущего тренда органично вытекает следующий: в 2018 году Googlе активно займется запуском mobile-first индекса для сайтов. В настоящее время на новый тип индексации переведено лишь небольшое количество сайтов.

В 2017 году Яндексом был запущен алгоритм Баден-Баден, который находит сайты с сомнительными текстами, которые мало-полезны для посетителей сайта и никак не помогают им выбрать товар и совершить покупку. Такие сайты он занижает в поиске до тех пор, пока причина не будет устранена.

В связи с этим многим приходилось убирать почти все тексты с сайта, чтобы вывести его из под данного фильтра. Наш руководитель SEO-отдела Максим Акулов выступил с подробнейшим докладом о фильтре Баден-Баден на конференции в Казани.

В 2017 году Яндекс стал более дружелюбным к SEO-сообществу. Они стали развивать свой сервис Яндекс Вебмастер и теперь дают больше информации владельцу сайта (а в нашем случае SEO-специалисту) для аналитики и дают подсказки что на сайте не так, над чем нужно работать, какие страницы по их мнению являются мало-качественными.

Также был отмечен массовый переход многих сайтов на https:// в 2017 году из за того, что Google стал помечать сайты без https, как небезопасные. В связи с ужесточением законодательства в сфере хранения и обработки персональных данных поголовно все сайты стали размещать у себя политику обработки персональных данных.

Некоторые компании на этом неплохо успели заработать, организовав массовые рассылки всем, у кого не было этих данных на сайте. Соответственно, за определенную сумму они делали на сайте все необходимые изменения, чтобы соответствовать требованиям законодательства. Мы в СЕО-Импульс всем своим клиентам данную доработку делаем в виде подарка, также как и адаптивную версию сайта, а также переход на https.

Каждый год мы делаем прогнозы, в этот раз, как и в предыдущий, мы в СЕО-Импульс считаем, что трендами будут:

1. постоянное развитие функционала сайта. Если раньше нужно было копировать лучшие решения у конкурентов и внедрять себе, то сейчас многие сайты стали похожи друг на друга, лучшие решения уже скопированы и внедрены. Теперь приходится придумывать новый удобный для клиентов сайта функционал и постоянно думать о том, чтобы упростить клиенту подбор товара на сайте.

2. разносторонняя работа над бизнесом клиента в Интернете. На одном seo далеко не уедешь, его нужно дополнять другими смежными и сопутствующими работами. Мы к примеру уже сейчас предлагаем своим клиентам полный комплекс: seo, smm, работу с репутацией, контекстную рекламу и постоянные доработки сайта. В комплексе это уже даёт весомый результат.

3. грамотная работа над контентом. Это является трендом уже 2-3 года, но не теряет своей актуальности и по сей день. Лучший вариант для развития сайта в какой либо отрасли является работа над тем, чтобы сделать его экспертом. То есть SEO-компания должна выстроить грамотную контент-стратегию и регулярно публиковать на сайте интересные обзоры по теме, а также обучающие материалы.

4. позиции многих сайтов сейчас прыгают каждый день: и выдача у всех разная, и отслеживать нахождение сайта в ТОП-10 становится все сложнее и сложнее. Часто позиции прыгают без видимых причин и на следующее утро возвращаются на свои прежние места. В связи с этим идёт постепенный отказ seo-компаний от работы с оплатой за позиции. Мы к примеру единственные на данный момент, кто финансово отвечает по Договору и за позиции и за трафик, тем самым подстраховывая заказчика.

5. Всё больше клиентов к нам обращаются с просьбой увеличить продажи, хотят данные KPI зафиксировать в договоре. Это очередной тренд, с каждым годом таких Заказчиков всё больше и больше. Я думаю это связано с тем, что многие уже успели поработать с разными SEO-компаниями и по каким то причинам остались недовольны результатами. Мы идём навстречу таким Заказчикам и совместно продумываем KPI, но это делаем только в случае, если сайт уже грамотно сделан и мы успели поработать несколько месяцев и понять специфику бизнеса Заказчика.

Мы каждый год проводим исследование рынка seo-рекламы. До сих пор ни одна компания не готова работать ни за лиды, ни за % от продаж с первого месяца работы. Некоторые предлагают данную услугу, но с 5-6 месяца, и по нашим подсчетам данная работа всё равно выходит дороже для Заказчика, чем оплачивать позиции и трафик.

Новость, которую нельзя было просто так взять и перестать обсуждать - алгоритм Яндекса Баден-Баден. Он предполагает понижение позиций за переоптимизированные или бесполезные тексты на сайте. Те, кто попал под действие алгоритма, убрали такой контент вовсе или попытались снизить процент вхождений ключевых фраз. В сети уже есть подробные исследования и руководства, как выйти из-под санкций. К счастью, ни один из наших проектов не пострадал.

Чуть менее громкая тема - турбостраницы в поиске Яндекса. Теперь любой сайт, даже без мобильной версии или адаптивной верстки, сможет адекватно выглядеть и быстрее загружаться на мобильных устройствах - и это можно реализовать с минимальными затратами на разработку. Это важно, учитывая, что почти половина пользователей ищет что-либо с мобильных устройств, а не с десктопа. Трафик на турбостраницы будет учитываться как обычный поисковый, возможности для размещения рекламы тоже есть. Надо тестировать.

Еще один фактор в пользу мобильного поиска - анонс mobile-first Google. Теперь в первую очередь будет оцениваться релевантность мобильной версии страницы, а если ее нет - десктопной. Обещают, что алгоритм будет разворачиваться очень медленно, на себе его действие мы пока не ощутили.

Поисковые системы улучшают качество результатов поиска в 2 направлениях - ужесточают антиспам-фильтры и учатся оценивать качество текста через его смысл, а не просто учет количества слов и вхождений запросов. Как следствие, нас ждет еще больший упор на качественные тексты и то, что принято в SEO-сообществе называть LSI-текстами, полезность контента для пользователей. Прежде чем создавать контент, нужно будет анализировать, необходим ли он вообще на конкретной странице, если да, то в каком формате, какую задачу пользователя он должен решить.

Меньше трафика получат сайты с относительно долгой загрузкой страниц, без адаптивной верстки либо мобильной версии. Вырастет доля AMP и турбостраниц, в том числе в коммерческом сегменте.

Поисковые системы продолжат развивать свои сервисы для вебмастеров. Яндекс периодически выпускает обновления, Google планирует запуск новой версии Search Console в следующем году — будет больше возможностей для аналитики поисковой выдачи.

Последние годы все активнее развиваются инструменты для автоматизации процессов и работы с большими данными. На стыке SEO и машинного обучения, надеюсь, появится сервис для кластеризации, позволяющий группировать ключевые запросы не по топу, а по семантической близости слов.

2017-2018

С каждым годом digital-каналы все больше интегрируются, появляются сводные KPI и системы отчетности. SEO — это уже не отдельное направление, обособленное от остального инструментария интернет-маркетинга, как это было раньше. Сегодня seo — это часть комплексного онлайн-маркетинга. Такая синергия позволяет наиболее плодотворно и эффективно работать над задачами клиентов.

Мы можем миксовать направления в зависимости от бизнес-потребностей заказчика и выбирать оптимальные SEO-инструменты. Выбрать важный пул этих самых инструментов и не ошибиться - важнейшая задача специалистов по поисковому продвижению.Из основных трендов уходящего и наступающего годов — конечно, развитие мобайла. Количество мобильных пользователей уже превысило количество декстопных. А значит, стоит поторопиться с адаптацией тем, кто это по каким-то причинам еще не сделал, иначе высок риск остаться в числе аутсайдеров.

Помимо увеличения самих мобильных пользователей, увеличивается и количество поисковых запросов. Вероятно, эта тенденция станет переломной в ближайшем будущем для всего интернет-маркетинга. Поэтому стоит задуматься и над тем, как выстроить стратегию продвижения сайта с учетом этих реалий.

Стремительно развивается и CRM-маркетинг. Синхронизация CRM с digital-инструментами в целом, и seo в частности - это новый виток развития интернет-маркетинга, который будет продолжать прогрессировать. В отрыве от детализированной информации о целевой аудитории и ее поведенческих характеристиках продумать эффективную стратегию просто невозможно. Поэтому еще одной важной задачей становится накопление/расширение/детализация клиентских баз, их грамотное использование, интегрирование CRM с системами аналитики.

Развивается seo и как консалтинг. Я думаю, что приоритетом номер один для рынка поискового продвижения станет расширение команд по продвижению и деление специалистов на специализации. Это позволит глубже и тщательнее работать над задачами клиентов и повышать их результативность.

Я бы разделил события и тренды на краткосрочные и долгоиграющие. Среди краткосрочных событий, достаточно серьезно повлиявших на рынок, отмечу новые фильтры поисковой системы Яндекс, направленные на борьбу с некачественным контентом. Это здорово, что поисковая система борется за качество и понижает в выдаче документы и сайты, содержание которых бессмысленно для пользователей.

Также к краткосрочным событиям, которые переросли в большой тренд, отнесу преобразования в коммерческой выдаче Яндекса. Первое — это введение 4-го спецразмещения, которое достаточно существенно уменьшило CTR поисковой выдачи. Второе — история с тестированием дополнительного блока Директа, который интегрируется в середину поисковой выдачи. Данный тренд точно продолжится, и это лишний раз напоминает нам о том, что не стоит заниматься только одним видом интернет-рекламы, а рассматривать исключительно комплексный подход к добыче трафика.

Среди долгоиграющий трендов отмечу:

Борьба со спамом со стороны поисковых систем. Это вечный тренд, и я уверен, что в 2018 году мы увидим появление новых фильтров и развитие существующих.Более плотное применение машинного обучения и нейросетей во всех частях алгоритмов.

Мобилизация, появление новых колдунщиков в мобильном поиске для еще большего удобства пользователей. Развитие темы с микроразметкой для сайтов, их мобильных версий.

Развитие голосового поиска, электронных помощников, увеличение длины запросов. Очевидно, что Яндекс и Google смотрят в будущее, а молодое поколение, в особенности дети, достаточно активно используют этот функционал.

Продолжение перехода на модель комплексного интернет-маркетинга для крупных агентств, работа по моделям достижения трафика из поисковых систем, CPA и оптимизация рекламы по показателям ROI.

23 марта «Яндекс» анонсировал новый алгоритм «Баден-Баден», который призван бороться с переоптимизированными текстами. Аналитики SeoPult проанализировали изменения в выдаче и делятся с вами полученными данными.

Уважаемые пользователи!

23 марта поисковой системой «Яндекс» был анонсирован запуск нового алгоритма «Баден-Баден». Разработчики поисковой системы заявили о существенном улучшении алгоритма ранжирования, результатом работы которого должно стать ухудшение позиций переоптимизированных страниц в результатах поисковой выдачи.

Действительно, последние недели мы наблюдали значительные колебания позиций сайтов практически во всех тематиках, что обычно является предвестником изменений алгоритмов. Наши аналитики проанализировали изменения в выдаче и наложили данные на заявление «Яндекса». Пока не приходится говорить о том, что достигнуты заявленные представителями «Яндекса» цели. Более того, мы заметили большое количество ситуаций, где выдача существенно ухудшилась как раз с точки зрения текстового фактора, что говорит о неминуемой дальнейшей настройке алгоритма. Давайте разберемся подробнее.

Рис. 1. Степень изменения позиций в «Яндексе» в феврале и марте 2017

Занижение позиций переоптимизированных с точки зрения поисковой системы страниц должно было бы избавить верхние строчки выдачи от:

  • страниц с большими «простынями» текстов, которые располагаются под товарами и явно не предназначены для чтения посетителями;
  • страниц, содержащих прямые вхождения запросов, форма которых нарушает нормы русского языка («недорого Москва», «товар купить доставка срочно» и пр.);
  • прочих текстов, предназначенных исключительно для роботов поисковых систем и оказывающих влияние на поисковую систему.

Беглый анализ поисковой выдачи позволяет увидеть, что эти цели, мягко говоря, не были достигнуты. Рассмотрим результаты выдачи по высококонкурентному запросу «кондиционер» в Москве.

Среди первых позиций найдены следующие страницы (картинки кликабельны - вы можете перейти на сайт).

На странице 42 вхождения слова «кондиционер» , из них 28 в большом тексте-портянке в нижней части страницы.

На странице 159 вхождений слова , из которых 15 в тексте в нижней части страницы.

Как видно, либо новый алгоритм «Яндекса» не считает подобные страницы переоптимизированными, что маловероятно, либо алгоритм пока не дошел до стадии качественной обработки подобных ситуаций.

В нижней части страницы находится большой текст, содержащий как 44 вхождения слова «очки», так и классический пример использования сложной SEO-фразы в текстe: «очки для зрения купить интернет-магазин предлагает недорого».

Подобные примеры не единичны и находятся практически в каждой тематике. SeoPult не рекомендует писать подобные тексты и размещать их на своих сайтах. С большой долей вероятности в будущем позиции подобных страниц будут понижены в поиске как в «Яндексе», так и в Google. Мы рекомендуем писать тексты для продвижения вашего бизнеса, ориентируясь на посетителей вашего сайта. Главная задача любого текста - продать посетителям товары или услуги, которые вы продвигаете. При отсутствии времени на копирайтинг вы всегда сможете у нас по цене 200 рублей за 1000 символов.

Выводы

  • В текущей реализации алгоритм «Баден-Баден» пока далек от заявленных целей, в ближайшее время будет наблюдаться его настройка, и, соответственно, будут дальнейшие скачки позиций сайтов во многих тематиках.
  • Если позиции сайта в ближайшее время значительно поменяются, рекомендуем не спешить вносить изменения в контент, если до этого позиции вас устраивали. Велика вероятность корректировок и возврата предыдущих значений. Вы всегда можете написать в техническую поддержку SeoPult и попросить произвести анализ ваших текущих текстов.
  • При написании контента уделяйте максимальное внимание его полезности для посетителей сайта, а не SEO-параметрам. Подобная тактика будет актуальна при любых изменениях алгоритмов поисковиков.

Сайта, выясняет наличие в составе контента ключевой фразы, принимает решение о том, насколько сайт соответствует запросу пользователя, и в зависимости от степени соответствия присваивает сайту ту или иную позицию в выдаче – выше или ниже. Для каждой поисковой системы разрабатываются свои алгоритмы. Схемы работы всех алгоритмов поисковых систем построены на схожих принципах. Например, все поисковики обязательно оценивают уникальность контента. Отличаются же алгоритмы поисковых систем некоторыми другими инструментами анализа.

Описание

На первоначальной стадии развития сети Интернет поисковым системам для нахождения необходимой пользователю информации достаточно было анализировать лишь самые основные параметры содержания страниц: наличие заголовков, ключевые фразы, объём текста и т. д. Однако с появлением оптимизации и многочисленных способов спама поисковые системы были вынуждены усложнить свои алгоритмы в целях распознавания и отсеивания сайтов, в отношении которых применялись подобные методы, что превратило их развитие в ответные действия на появление всё новых способов продвижения.

Механизмы поисковых алгоритмов являются засекреченной информацией. Никто, кроме разработчиков поисковых систем, точно не знает, что именно учитывают алгоритмы и на какие факторы они обращают внимание. Вся информация об их работе, появляющаяся в сети Интернет, в большинстве случаев представляет собой личные выводы оптимизаторов , основанные на практических наблюдениях за продвигаемыми сайтами.

Так, некоторые системы при выдаче сайтов в поисковых результатах способны анализировать информацию не только о частоте ключевых слов, но и о наиболее популярных страницах и затрачиваемом пользователем времени на их просмотр. Чем оно больше, тем выше вероятность того, что на сайте размещена действительно качественная информация. Другой подход подразумевает определение количества ссылок и вычисление авторитетного веса площадки. Это такие показатели, как ТИЦ , и другие, механизм определения которых также является ещё одним алгоритмом работы поисковых систем. Количество параметров, учитываемых поисковыми алгоритмами, может достигать нескольких сотен. К примеру, система «Google» при ранжировании сайтов обращает внимание на более чем 200 факторов.

Алгоритмы поисковой системы Google

История алгоритмов поисковой системы Google началась с введения в поисковый механизм индекса цитирования, заключающегося в ранжировании страниц и сайтов в зависимости от количества и авторитетного веса ссылок (PageRank), ведущих на них с других ресурсов. Таким образом сеть Интернет превратилась в подобие коллективного разума, который и определял релевантность сайтов. Подобная концепция оказалось удачным нововведением, благодаря которому Google и стала наиболее популярной системой.

На ранних этапах алгоритмы Google уделяли внимание лишь внутренним атрибутам страницы. Позже стали учитываться такие факторы, как свежесть информации и географическая принадлежность. В 2000 г. начал использоваться алгоритм Hilltop, предложенный Кришной Бхаратом, для более точного расчёта PageRank. В 2001 г. первоначальный механизм действия системы был полностью переписан. С этого момента Google стала разделять коммерческие и некоммерческие страницы. В этом же году был введён коэффициент, который добавлял ссылкам, ведущим с авторитетных сайтов, больший вес.

Первым по-настоящему сложным барьером для специалистов SEO стал алгоритм «Флорида», введённый Google в 2003 г. Он не только поставил под сомнение целесообразность использования распространённых на тот момент способов продвижения, но и существенно проредил позиции поисковой выдачи, исключив из неё страницы с повторяющимся анкором и переспамленные ключевыми словами.

В 2006 г. система стала использовать разработку израильского студента Ори Алона – алгоритм «Орион», улучшающий поиск благодаря отображению наиболее релевантных результатов и принимающий во внимание качество индексируемых сайтов.

В 2007 г. компания Google внедрила ещё одну систему фильтров и штрафных санкций – алгоритм «Austin». Многие из страниц, занимавших до его введения первые места в рейтинге, понизились на несколько позиций и не поднимались выше шестого места.

В 2009 г. был анонсирован алгоритм «Caffeine», выступивший в качестве ещё одного серьёзного улучшения инфраструктуры «Google». С этого момента система стала не только индексировать больше страниц, но и значительно быстрее производить поиск.

Алгоритмы поисковой системы Яндекса

В отличие от Google, поисковая система Яндекс раскрывает намного больше данных о своих алгоритмах, с помощью которых выстраивается картина выдачи.

С лета 2007 года компания Яндекс начала сообщать широкой публике (прежде всего, на форуме searchengines.ru и в своём блоге для вебмастеров) об изменениях в своих механизмах ранжирования. До этого момента изменения активно не афишировались и новые алгоритмы не получали названий.

Первым «названным» алгоритмом стал “8 SP1”. Но вскоре Яндекс начал, как иногда говорят, «игру в города» - каждое последующее изменение поискового алгоритма получало название города (в основном, российского). И началось всё с «Магадана».

Алгоритм «Магадан»

  • число факторов, влияющих на ранжирование сайта, увеличено вдвое
  • появились классификаторы для содержимого сайта и ссылок
  • улучшен геоклассификатор
  • увеличена скорость поиска по запросам, по которым Яндекс находит наибольшее число документов
  • увеличено «понимаемое» системой расстояние между словами поискового запроса
  • появилось распознавание аббревиатур, обработка транслитерации (в том числе и в URL документа)
  • улучшен перевод простых популярных слов: поисковик понимает, что computer=компьютер и т.п.
  • появилась обработка запросов с дореволюционной орфографией (содержащих буквы ѣ и т.д.)
  • улучшен поиск по большим многословным запросам.

Кроме того, Яндекс начал индексацию зарубежных сайтов, что привело к увеличению конкуренции по запросам, содержащим иностранные слова. Также были улучшены т.н. «колдунщики» Яндекса. Например, прогноз погоды можно теперь узнать прямо в поисковой выдаче.

Уже летом 2008 года был внесён ряд изменений в данный алгоритм: исправлены некоторые ошибки из первого релиза, а также добавлены новые факторы ранжирования сайтов (например, учёт уникальности контента).

Алгоритм «Находка»

В сентябре 2008 года появился алгоритм «Находка», вызвавший изменения в способе учёта факторов ранжирования.

Среди основных изменений:

  • улучшение ранжирования по запросам, содержащим минус-слова
  • разработка нового подхода к машинному обучению
  • расширение словарей Яндекса, особенно для слитного/раздельного написания запросов (теперь алгоритмы понимают, что “трубо провод” = “трубопровод”)
  • появление фильтров за «неожиданный» редирект пользователя на другой сайт (характерно для дорвеев)

Также было замечено, что по некоторым запросам в поисковой выдаче Яндекса стали появляться старые информационные сайты, в частности, Википедия. В связи с чем оптимизаторами сделаны выводы, что возраст домена и сайта играют роль в продвижении.

Алгоритм «Арзамас»

10 апреля 2009 года заработал поисковый алгоритм Яндекса под названием «Арзамас», или «Анадырь».

Можно сказать, что изменения, произошедшие с данного момента, оказали наиболее существенное влияние на характер выдачи, чем все изменения, происходившие ранее.

Нововведения, связанные с его появлением, серьёзным образом отразились на продвижении сайтов. Молодым сайтам стало ещё сложнее пробиваться на первые позиции и наращивать ссылочную массу.

Основные изменения:

  • выделено 19 географических регионов, выдача в которых могла отличаться по одним и тем же запросам
  • как следствие: сайту присваивается региональная принадлежность (или её отсутствие); определяется она по IP-адресу сервера, контенту сайта и по его описанию в Яндекс.Каталоге
  • дальнейшее улучшение обработки многословных запросов
  • при выводе подсказок об опечатках в запросе учитываются настройки языка браузера пользователя
  • появление фильтров, ухудшающих ранжирование страниц с агрессивными форматами рекламы: сначала popunder, а затем и clickunder (bodyclick)

Однако самым важным нововведением стал учёт региональности сайтов и геозависимости запросов.

Теперь запросы пользователя делятся на геозависимые и геонезависимые. Регион пользователя определяется по его IP-адресу и если для его запроса в индексе Яндекса имеются региональные сайты, то начинает действовать региональная формула ранжирования.

В связи с этим продвижение сайта по конкретному региону упростилось.

Алгоритм «Снежинск»

В ноябре 2009 года поисковая система Яндекс анонсировала свой новый алгоритм «Снежинск». Его главной особенностью является внедрение новой технологии машинного обучения, названной разработчиками «Матрикснет» (“MatrixNET”).

Характеристики данного алгоритма:

  • количество факторов ранжировании документа увеличено в несколько раз
  • ухудшено ранжирование страниц с особо длинными текстами, насыщенными ключевыми словами («тексты-портянки»)
  • появление т.н. фильтров АГС (АГС 17 и АГС 30)
  • увеличение количества региональных факторов, учитываемых при ранжировании
  • улучшена идентификация страницы-первоисточника контента; сайты, ворующие контент с других сайтов, ранжируются значительно хуже

С появлением технологии MatrixNET продвижение сайтов стало менее подконтрольным оптимизаторам. Теперь нельзя обойтись одной покупкой ссылок или нужной плотностью ключевых слов на странице.

Яндекс при помощи новой системы связал огромное количество факторов и показателей сайтов, что в итоге сделало ранжирование максимально релевантным оценкам асессоров.

Теперь асессоры «отдают» свои оценки относительно сайта системе MatrixNET, которая осуществляет периодическое самообучение.

Из-за того, что целью алгоритма является вывод в ТОП наиболее полезных для пользователя документов, Яндекс сделал поисковое продвижение процессом более творческим.

Алгоритм «Конаково»

Уже через месяц после «Снежинска» появился новый алгоритм «Конаково» (декабрь 2009), целью которого являлось усовершенствование предыдущего алгоритма.

А также было улучшено региональное ранжирование: своя формула ранжирования применяется теперь не только к 19 регионам, но ещё и к 1250 городам России.

Кроме того, появились новые операторы для поисковых запросов: *, / и другие. К примеру, поиск с учётом пропущенного в запросе слова выглядит так: “слово1 * слово3”.

Алгоритм «Обнинск»

В сентябре 2010 года у Яндекса появился новый алгоритм «Обнинск». Его особенности:

  • улучшено ранжирование по геонезависимым запросам пользователей из России
  • расширена формула ранжирования; её объём достигает теперь 280 Мб.
  • улучшено определение автора контента
  • повышено качество ответов на запросы, заданные латиницей и транслитом (произошло расширение словаря транслитерации)
  • снижено влияние искусственных ссылок (т.н. SEO-ссылок) на ранжирование

Для данного периода характерно усиление «борьбы» Яндекса с документами, продвигаемыми некачественными покупными ссылками.

Кроме того, улучшен интерфейс просмотра кэшированной копии веб-страницы – теперь можно узнать дату её последней индексации.

Алгоритм «Краснодар»

Этот алгоритм Яндекса вышел в свет в декабре 2010 года. Главным в этом алгоритме стало введение технологии «Спектр».

Отличительной чертой данной технологии стало т.н. «разбавление выдачи» по общим запросам (всего порядка 60 категорий запросов – города, товары и т.п.). 60 категорий было на момент релиза, было запланировано увеличить их количество

Если пользователь не достаточно конкретизировал свой запрос, то Яндекс постарается выводить ему сайты в соответствии с этими категориями.

Основные особенности «Краснодара»:

  • классификация поисковых запросов и выделение из них ключевых объектов (имена, названия, модели)
  • присваивание запросам категорий
  • улучшение ранжирования по геозависимым запросам

Алгоритм «Рейкьявик»

Появился в августе 2011 года. Данный алгоритм Яндекса ещё называют первым шагом в направлении персонализации поиска: т.е. каждому пользователю – свои результаты выдачи.

А точнее - произошла языковая персонализация поиска.

Если пользователю по англоязычным запросам нужны иностранные сайты – они и будут показаны. Если же алгоритм решит, что пользователь всё-таки ищет русскоязычный контент, то будут показаны соответствующие сайты.

Некоторые другие особенности:

  • улучшен математический колдунщик: теперь арифметические задачи можно решать прямо в поиске Яндекса; также и некоторые другие колдунщики
  • улучшен показ поисковых подсказок для новостных запросов: обновление подсказок происходит в течение часа.

Кроме того, в это время началось альфа-тестирование партнерской программы «Оригинальные тексты», с помощью которой владелец контента может сообщить Яндексу о своём авторстве на данный контент.

Алгоритм «Калининград»

В начале декабря 2012 года появился алгоритм «Калининград», который ввёл глобальную персонализацию поиска. Теперь результаты поиска подстраиваются под интересы пользователя.

Данные интересы Яндекс изучает по ранним запросам пользователя в поиске, а также по поведению пользователя на сайтах, статистика которых ему известна.

Информацию об интересах пользователей Яндекс пополняет раз в сутки и делит эти интересы на долговременные и кратковременные.

Таким образом, по одному и тому же запросу может быть сформирована совершенна разная выдача.

Например, если Яндекс решит, что к интересам одного пользователя можно отнести фильмы, а к интересам другого – путешествия, то по запросу «Мадагаскар» первому будет показана выдача относительно мультфильма “Мадагаскар”, а второму – относительно острова Мадагаскар.

Подобные изменения характерны и для поисковых подсказок – они тоже «подстраиваются» под интересы пользователя.

Некоторые особенности алгоритма:

  • также, как и в «Рейкъявике», учитываются предпочтения пользователя по языку
  • новые возможности поисковых подсказок:
    • появились подсказки сиреневого цвета – это подсказки, соответствующие ранним запросам пользователя
    • также выделено 400 000 групп пользователей по интересам для показа им однотипных подсказок
    • показ «любимых» сайтов в подсказках
    • подсказки меняются в соответствии с предыдущим запросом пользователя

Теперь все действия по раскрутке необходимо совершать комплексно: важны не только ссылки и ключевые слова, но и контент, и дизайн сайта, и его удобство для пользователя. И многое другое…

Алгоритм «Дублин»

Заявление о новом алгоритме появилось 30 мая 2013 года. В целом, «Дублин» - это модификация «Калининграда».

Если «Калининград» делил интересы на долговременные и кратковременные, то новый алгоритм, по словам Яндекса, “умеет реагировать и на сиюминутные интересы”.

Учёт сиюминутных интересов пользователя происходит буквально за несколько секунд.

Таким образом, если ранее было выявлено, что пользователю интересны фильмы, но вдруг у него возник интерес к географии или путешествиям, то по запросу «Мадагаскар» будет показана выдача относительно острова Мадагаскар, а не мультфильма с тем же названием.

Стоит сразу отметить, что досконально описать конкретный алгоритм поисковой системы под силу, наверное, только разработчикам этого алгоритма. По известным причинам все изменения внутри поисковых механизмов не должны выходить дальше отдела разработки.

Имея некоторое представление об эволюции данных алгоритмов, можно не только увидеть, какой интересный путь прошли поисковые технологии и поисковой маркетинг за такой промежуток времени, но и научиться предугадывать дальнейшие изменения, чтобы вовремя к ним подготовиться.

Некоторые алгоритмы Яндекса настолько изменили выдачу и повлияли на продвижение сайтов, что до сих пор вызывают определённые эмоции у оптимизаторов.

© Пётр Куприянов, web-ru.net

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Искусственный интеллект или машинное обучение?

Почти все знают, что современные поисковые системы работают с помощью машинного обучения. Почему об использовании нейронных сетей для его задач надо говорить отдельно? И почему только сейчас, ведь хайп вокруг этой темы не стихает уже несколько лет? Попробую рассказать об истории вопроса.

Поиск в интернете - сложная система, которая появилась очень давно. Сначала это был просто поиск страничек, потом он превратился в решателя задач, и сейчас становится полноценным помощником. Чем больше интернет, и чем больше в нём людей, тем выше их требования, тем сложнее приходится становиться поиску.

Эпоха наивного поиска

Сначала был просто поиск слов - инвертированный индекс. Потом страниц стало слишком много, их стало нужно ранжировать. Начали учитываться разные усложнения - частота слов, tf-idf .

Эпоха ссылок

Потом страниц стало слишком много на любую тему, произошёл важный прорыв - начали учитывать ссылки, появился PageRank .

Эпоха машинного обучения

Интернет стал коммерчески важным, и появилось много жуликов, пытающихся обмануть простые алгоритмы, существовавшие в то время. Произошёл второй важный прорыв - поисковики начали использовать свои знания о поведении пользователей, чтобы понимать, какие страницы хорошие, а какие - нет.

Где-то на этом этапе человеческого разума перестало хватать на то, чтобы придумывать, как ранжировать документы. Произошёл следующий переход - поисковики стали активно использовать машинное обучение.

Один из лучших алгоритмов машинного обучения изобрели в Яндексе - Матрикснет. Можно сказать, что ранжированию помогает коллективный разум пользователей и «мудрость толпы ». Информация о сайтах и поведении людей преобразуется во множество факторов, каждый из которых используется Матрикснетом для построения формулы ранжирования. Фактически, формулу ранжирования пишет машина (получалось около 300 мегабайт).

Но у «классического» машинного обучения есть предел: оно работает только там, где очень много данных. Небольшой пример. Миллионы пользователей вводят запрос [вконтакте], чтобы найти один и тот же сайт. В данном случае их поведение является настолько сильным сигналом, что поиск не заставляет людей смотреть на выдачу, а подсказывает адрес сразу при вводе запроса.

Но люди сложнее, и хотят от поиска всё больше. Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. Это значит, что у поиска нет данных о поведении пользователей в достаточном количестве, и Матрикснет лишается ценных факторов. Такие запросы в Яндексе называют «длинным хвостом », поскольку все вместе они составляют существенную долю обращений к нашему поиску.

Эпоха искусственного интеллекта

И тут время рассказать о последнем прорыве: несколько лет назад компьютеры становятся достаточно быстрыми, а данных становится достаточно много, чтобы использовать нейронные сети. Основанные на них технологии ещё называют машинным интеллектом или искусственным интеллектом - потому что нейронные сети построены по образу нейронов в нашем мозге и пытаются эмулировать работу некоторых его частей.

Машинный интеллект гораздо лучше старых методов справляется с задачами, которые могут делать люди: например, распознаванием речи или образов на изображениях. Но как это поможет поиску?

Как правило, низкочастотные и уникальные запросы довольно сложны для поиска – найти хороший ответ по ним заметно труднее. Как это сделать? У нас нет подсказок от пользователей (какой документ лучше, а какой - хуже), поэтому для решения поисковой задачи нужно научиться лучше понимать смысловое соответствие между двумя текстами: запросом и документом.

Легко сказать

Строго говоря, искусственные нейросети – это один из методов машинного обучения. Совсем недавно им была посвящена . Нейронные сети показывают впечатляющие результаты в области анализа естественной информации - звука и образов. Это происходит уже несколько лет. Но почему их до сих пор не так активно применяли в поиске?

Простой ответ - потому что говорить о смысле намного сложнее, чем об образе на картинке, или о том, как превратить звуки в расшифрованные слова. Тем не менее, в поиске смыслов искусственный интеллект действительно стал приходить из той области, где он уже давно король, - поиска по картинкам.

Несколько слов о том, как это работает в поиске по картинкам. Вы берёте изображение и с помощью нейронных сетей преобразуете его в вектор в N-мерном пространстве. Берете запрос (который может быть как в текстовом виде, так и в виде другой картинки) и делаете с ним то же самое. А потом сравниваете эти вектора. Чем ближе они друг к другу, тем больше картинка соответствует запросу.

Ок, если это работает в картинках, почему бы не применить эту же логику в web-поиске?

Дьявол в технологиях

Сформулируем задачу следующим образом. У нас на входе есть запрос пользователя и заголовок страницы. Нужно понять, насколько они соответствует друг другу по смыслу. Для этого необходимо представить текст запроса и текст заголовка в виде таких векторов, скалярное умножение которых было бы тем больше, чем релевантнее запросу документ с данным заголовком. Иначе говоря, мы хотим обучить нейронную сеть таким образом, чтобы для близких по смыслу текстов она генерировала похожие векторы, а для семантически несвязанных запросов и заголовков вектора должны различаться.

Сложность этой задачи заключается в подборе правильной архитектуры и метода обучения нейронной сети. Из научных публикаций известно довольно много подходов к решению проблемы. Вероятно, самым простым методом здесь является представление текстов в виде векторов с помощью алгоритма word2vec (к сожалению, практический опыт говорит о том, что для рассматриваемой задачи это довольно неудачное решение).

DSSM

В 2013 году исследователи из Microsoft Research описали свой подход, который получил название Deep Structured Semantic Model .

На вход модели подаются тексты запросов и заголовков. Для уменьшения размеров модели, над ними производится операция, которую авторы называют word hashing. К тексту добавляются маркеры начала и конца, после чего он разбивается на буквенные триграммы. Например, для запроса [палех] мы получим триграммы [па, але, лех, ех]. Поскольку количество разных триграмм ограничено, то мы можем представить текст запроса в виде вектора размером в несколько десятков тысяч элементов (размер нашего алфавита в 3 степени). Соответствующие триграммам запроса элементы вектора будут равны 1, остальные - 0. По сути, мы отмечаем таким образом вхождение триграмм из текста в словарь, состоящий из всех известных триграмм. Если сравнить такие вектора, то можно узнать только о наличии одинаковых триграмм в запросе и заголовке, что не представляет особого интереса. Поэтому теперь их надо преобразовать в другие вектора, которые уже будут иметь нужные нам свойства семантической близости.

После входного слоя, как и полагается в глубоких архитектурах, расположено несколько скрытых слоёв как для запроса, так и для заголовка. Последний слой размером в 128 элементов и служит вектором, который используется для сравнения. Выходом модели является результат скалярного умножения последних векторов заголовка и запроса (если быть совсем точным, то вычисляется косинус угла между векторами). Модель обучается таким образом, чтобы для положительны обучающих примеров выходное значение было большим, а для отрицательных - маленьким. Иначе говоря, сравнивая векторы последнего слоя, мы можем вычислить ошибку предсказания и модифицировать модель таким образом, чтобы ошибка уменьшилась.

Мы в Яндексе также активно исследуем модели на основе искусственных нейронных сетей, поэтому заинтересовались моделью DSSM. Дальше мы расскажем о своих экспериментах в этой области.

Теория и практика

Характерное свойство алгоритмов, описываемых в научной литературе, состоит в том, что они не всегда работают «из коробки». Дело в том, что «академический» исследователь и исследователь из индустрии находятся в существенно разных условиях. В качестве отправной точки (baseline), с которой автор научной публикации сравнивает своё решение, должен выступать какой-то общеизвестный алгоритм - так обеспечивается воспроизводимость результатов. Исследователи берут результаты ранее опубликованного подхода, и показывают, как их можно превзойти. Например, авторы оригинального DSSM сравнивают свою модель по метрике NDCG с алгоритмами BM25 и LSA . В случае же с прикладным исследователем, который занимается качеством поиска в реальной поисковой машине, отправной точкой служит не один конкретный алгоритм, а всё ранжирование в целом. Цель разработчика Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей. Таким образом, baseline для исследователя в Яндексе чрезвычайно высок, и многие алгоритмы, обладающие научной новизной и показывающие хорошие результаты при «академическом» подходе, оказываются бесполезны на практике, поскольку не позволяют реально улучшить качество поиска.

В случае с DSSM мы столкнулись с этой же проблемой. Как это часто бывает, в «боевых» условиях точная реализация модели из статьи показала довольно скромные результаты. Потребовался ряд существенных «доработок напильником», прежде чем мы смогли получить результаты, интересные с практической точки зрения. Здесь мы расскажем об основных модификациях оригинальной модели, которые позволили нам сделать её более мощной.

Большой входной слой

В оригинальной модели DSSM входной слой представляет собой множество буквенных триграмм. Его размер равен 30 000. У подхода на основе триграмм есть несколько преимуществ. Во-первых, их относительно мало, поэтому работа с ними не требует больших ресурсов. Во-вторых, их применение упрощает выявление опечаток и ошибок в словах. Однако, наши эксперименты показали, что представление текстов в виде «мешка» триграмм заметно снижает выразительную силу сети. Поэтому мы радикально увеличили размер входного слоя, включив в него, помимо буквенных триграмм, ещё около 2 миллионов слов и словосочетаний. Таким образом, мы представляем тексты запроса и заголовка в виде совместного «мешка» слов, словесных биграмм и буквенных триграмм.

Использование большого входного слоя приводит к увеличению размеров модели, длительности обучения и требует существенно больших вычислительных ресурсов.

Тяжело в обучении: как нейронная сеть боролась сама с собой и научилась на своих ошибках

Обучение исходного DSSM состоит в демонстрации сети большого количества положительных и отрицательных примеров. Эти примеры берутся из поисковой выдачи (судя по всему, для этого использовался поисковик Bing). Положительными примерами служат заголовки кликнутых документов выдачи, отрицательными - заголовки документов, по которым не было клика. У этого подхода есть определённые недостатки. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение - наличие клика не гарантирует релевантности документа. По сути, обучаясь описанным в исходной статье образом, мы стремимся предсказывать аттрактивность заголовков при условии того, что они будут присутствовать в выдаче. Это, конечно, тоже неплохо, но имеет достаточно косвенное отношение к нашей главной цели - научиться понимать семантическую близость.

Во время своих экспериментов мы обнаружили, что результат можно заметно улучшить, если использовать другую стратегию выбора отрицательных примеров. Для достижения нашей цели хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов. Откуда их взять?

Первая попытка

Сначала в качестве отрицательного примера просто возьмём заголовок случайного документа. Например, для запроса [палехская роспись] случайным заголовком может быть «Правила дорожного движения 2016 РФ». Разумеется, полностью исключить то, что случайно выбранный из миллиардов документ будет релевантен запросу, нельзя, но вероятность этого настолько мала, что ей можно пренебречь. Таким образом мы можем очень легко получать большое количество отрицательных примеров. Казалось бы, теперь мы можем научить нашу сеть именно тому, чему хочется - отличать хорошие документы, которые интересуют пользователей, от документов, не имеющих к запросу никакого отношения. К сожалению, обученная на таких примерах модель оказалась довольно слабой. Нейронная сеть – штука умная, и всегда найдет способ упростить себе работу. В данном случае, она просто начала выискивать одинаковые слова в запросах и заголовках: есть - хорошая пара, нет - плохая. Но это мы и сами умеем делать. Для нас важно, чтобы сеть научилась различать неочевидные закономерности.

Ещё одна попытка

Следующий эксперимент состоял в том, чтобы добавлять в заголовки отрицательных примеров слова из запроса. Например, для запроса [палехская роспись] случайный заголовок выглядел как [Правила дорожного движения 2016 РФ роспись]. Нейронной сети пришлось чуть сложнее, но, тем не менее, она довольно быстро научилась хорошо отличать естественные пары от составленных вручную. Стало понятно, что такими методами мы успеха не добьемся.

Успех

Многие очевидные решения становятся очевидны только после их обнаружения. Так получилось и на этот раз: спустя некоторое время обнаружилось, что лучший способ генерации отрицательных примеров - это заставить сеть «воевать» против самой себя, учиться на собственных ошибках. Среди сотен случайных заголовков мы выбирали такой, который текущая нейросеть считала наилучшим. Но, так как этот заголовок всё равно случайный, с высокой вероятностью он не соответствует запросу. И именно такие заголовки мы стали использовать в качестве отрицательных примеров. Другими словами, можно показать сети лучшие из случайных заголовков, обучить её, найти новые лучшие случайные заголовки, снова показать сети и так далее. Раз за разом повторяя данную процедуру, мы видели, как заметно улучшается качество модели, и всё чаще лучшие из случайных пар становились похожи на настоящие положительные примеры. Проблема была решена.

Подобная схема обучения в научной литературе обычно называется hard negative mining. Также нельзя не отметить, что схожие по идее решения получили широкое распространение в научном сообществе для генерации реалистично выглядящих изображений, подобный класс моделей получил название Generative Adversarial Networks.

Разные цели

В качестве положительных примеров исследователи из Microsoft Research использовались клики по документам. Однако, как уже было сказано, это достаточно ненадежный сигнал о смысловом соответствии заголовка запросу. В конце концов, наша задача состоит не в том, чтобы поднять в поисковой выдаче самые посещаемые сайты, а в том, чтобы найти действительно полезную информацию. Поэтому мы пробовали в качестве цели обучения использовать другие характеристики поведения пользователя. Например, одна из моделей предсказывала, останется ли пользователь на сайте или уйдет. Другая – насколько долго он задержится на сайте. Как оказалось, можно заметно улучшить результаты, если оптимизировать такую целевую метрику, которая свидетельствует о том, что пользователь нашёл то, что ему было нужно.

Профит

Ок, что это нам дает на практике? Давайте сравним поведение нашей нейронной модели и простого текстового фактора, основанного на соответствии слов запроса и текста - BM25. Он пришёл к нам из тех времён, когда ранжирование было простым, и сейчас его удобно использовать за базовый уровень.

В качестве примера возьмем запрос [келлская книга] и посмотрим, какое значение принимают факторы на разных заголовках. Для контроля добавим в список заголовков явно нерелевантный результат.

Все факторы в Яндексе нормируются в интервал . Вполне ожидаемо, что BM25 имеет высокие значения для заголовков, которые содержат слова запроса. И вполне предсказуемо, что этот фактор получает нулевое значение на заголовках, не имеющих общих слов с запросом. Теперь обратите внимание на то, как ведет себя нейронная модель. Она одинаково хорошо распознаёт связь запроса как с русскоязычным заголовком релевантной страницы из Википедии, так и с заголовком статьи на английском языке! Кроме того, кажется, что модель «увидела» связь запроса с заголовком, в котором не упоминается келлская книга, но есть близкое по смыслу словосочетание («ирландские евангелия»). Значение же модели для нерелевантного заголовка существенно ниже.

Теперь давайте посмотрим, как будут себя вести наши факторы, если мы переформулируем запрос, не меняя его смысла: [евангелие из келлса].

Для BM25 переформулировка запроса превратилась в настоящую катастрофу - фактор стал нулевым на релевантных заголовках. А наша модель демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок - низкое. Кажется, что именно такое поведение мы и ожидали от штуки, которая претендует на способность «понимать» семантику текста.

Ещё пример. Запрос [рассказ в котором раздавили бабочку].

Как видим, нейронная модель оказалась способна высоко оценить заголовок с правильным ответом, несмотря на полное отсутствие общих слов с запросом. Более того, хорошо видно, что заголовки, не отвечающие на запрос, но всё же связанные с ним по смыслу, получают достаточно высокое значение фактора. Как будто наша модель «прочитала» рассказ Брэдбери и «знает», что это именно о нём идёт речь в запросе!

А что дальше?

Мы находимся в самом начале большого и очень интересного пути. Судя по всему, нейронные сети имеют отличный потенциал для улучшения ранжирования. Уже понятны основные направления, которые нуждаются в активном развитии.

Например, очевидно, что заголовок содержит неполную информацию о документе, и хорошо бы научиться строить модель по полному тексту (как оказалось, это не совсем тривиальная задача). Далее, можно представить себе модели, имеющие существенно более сложную архитектуру, нежели DSSM - есть основания предполагать, что таким образом мы сможем лучше обрабатывать некоторые конструкции естественных языков. Свою долгосрочную цель мы видим в создании моделей, способных «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека. На пути к этой цели будет много сложностей - тем интереснее будет его пройти. Мы обещаем рассказывать о своей работе в этой области. Cледите за следующими публикациями.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: