Анализ неявных предпочтений пользователей. Научно-технический семинар в Яндексе

03.04.2021Рубрика: Вопросы

«Шеф-редактор блога GetGoodRank, веб-аналитик, блоггер.
Сниппет является одним из основных элементов управления вниманием ползователей в поисковой выдаче. Сегодня рассмативаем 7 бесплатных способов улучшения сниппета»

Сниппет не влияет на ранжирование, однако качественно составленный сниппет повышает конверсию в разы. И хотя сниппет является автономной единицей (не поддающейся прямой редакции вебмастером), повлиять на него можно. В данном обзоре мы расскажем о 7 способах получить качественный сниппет.

Как проверить сниппет?

Ни одна система управления сайтом, система аналитики сайта не показывает сниппет как отдельный элемент. Сниппет генерируется поисковой системой автоматически на основании информации страницы и предоставленных оптимизатором данных о ней в системах Яндекс Вебмастер, Google Webmaster.

Мы предлагаем вам оценить сниппет с точки зрения его эффективности для повышения конверсии и улучшения поведенческих факторов. Именно поэтому надо «увидеть» сниппет глазами пользователей.

Основным методом проверки сниппета является анализ поисковой выдачи по ключевому запросу. Напомним, что анализировать сниппет необходимо не изолировано, а в соотношении с конкурентными сайтами.

7 способов улучшить сниппет

Сегодня мы поговорим о практических способах повысить эффективность сниппета до максимума.

1. Проверьте заголовок и текст сниппета

Пользователь оценивает сниппет как небольшой рекламный текст, который призван донести основную идею в одном-двух предложениях. Проверьте сниппет по следующим критериям:

Длина заголовка не более 70 символов с пробелами, а длина описания составляет не более 156 символов с пробелами, иначе поисковые системы могут обрезать сниппет. А так, эффективность сниппета снижается. Если поисковые системы обрезают тексты сниппета, то в первую очередь необходимо проверить теги Title и Description
Заголовок и текст сниппета содержат ключевой запрос в прямом вхождении. Для максимального эффекта ключ желательно расположить вначале Title и Description
Грамотность - стоит ли утверждать, что даже незначительные ошибки негативно воздействуют на пользователя, существенно снижая CTR

2. Проверьте сайт на соответствие требованиям ПС для отображения навигационных цепочек

Навигационные цепочки - отличная возможность преодолеть недопонимания пользователей, поисковой выдачи и вашего сайта. Если по запросу пользователя поисковая система выдает в результатах страницу сайта, не полностью соответствующую запросу, то навигационная цепочка обеспечит моментальное решение проблемы и поможет пользователю перейти на нужную страницу вашего сайта, а не уйти за ответом к конкурентам.

Для того, чтобы поисковые системы отображали навигационную цепочку в результатах выдачи, сайт должен соответствовать следующим критериям:

Наблюдения вебмастеров показывают, что сайт должен соответствовать следующим требованиям:

Масштаб сайта - более 500 страниц в индексе
Страницы, указанные в быстрых ссылках, должны размещаться в одном клике от главной
Внутренняя перелинковка должна указывать на то, что страницы в быстрых ссылках наиболее авторитетны или интересны пользователям

5. Зарегистрируйте сайт в различных сервисах Яндекса

Поисковые системы приветствуют регистрацию сайтов во всевозможных сервисах, получая таким образом дополнительную информацию о сайтах. Это выгодно и для самих сайтов. К примеру, регистрация в сервисах Яндекса позволит существенно расширить и улучшить сниппет. Более того, участники сервисов могут пользоваться дополнительными преимуществами.

Яндекс.Справочник передаст сниппету данные о компании и адрес, а для некоторых компаний Яндекс предлагает дополнительные кнопки прямо в поиске. К примеру, кнопка «Записаться» выводится рядом с кнопкой «Адрес на карте» для ряда стоматологических клиник.

Запись доступна для компаний, заключивших соглашение о сотрудничестве с партнерами Яндекс.

Для интернет-магазинов актуальна регистрация в Яндекс.Маркете - это позволит не только охватить большую целевую аудиторию, получив дополнительный канал трафика, но и улучшить сниппет. Данные о товарах в Яндекс.Маркете будут напрямую транслироваться в результатах поиска.

Также в Яндекс доступны различные партнерские программы:

Яндекс.Недвижимость
Яндекс.Словари
Яндекс.Работа и прочие

6. Используйте микроразметку

Микроразметка является ключевым способом расширения сниппета. Для более четкого понимания значения микроразметки, предлагаем следующее видео:

7. Используйте мощности социальных сетей для быстрой переиндексации

Любые изменения вступают в силу только после переиндексации страницы поисковым роботом. Если вы внесли изменения в Title или Description страницы, то изменение сниппета в выдаче произойдет не моментально.

Для ускорения процесса переиндексации можно воспользоваться популярной социальной сетью Twitter, опубликовав ссылку на измененную страницу в своем аккаунте данной соцплощадки. Twitter является наиболее быстро реиндексируемой в рунете, а так, публикуя ссылку на исправленную страницу, вы ускоряете процесс ее перенидексации и изменения сниппета в поисковой выдаче.

Выводы:

Для качественного сниппета важна информация, содержащаяся как в основных тегах страницы Title и Description, так и на самой странице. Проверка адекватности материалов является первостепенной задачей вебмастера.

Шаблонный сниппет неэффективен. Необходимо использовать все каналы воздействия на данный элемент максимально эффективно.

Микроразметка Schema.org имеет огромное значение для генерирования правильного сниппета.

Вкратце о юзабилити

изучить, что нужно пользователю
убрать все лишнее
добавить необходимое
оформить наглядно

14.1 Составление матрицы юзабилити

Нужно понять, какие проблемы испытывают пользователи, приходящие на сайт, что на сайте помогает решить эти проблемы, а что мешает.

уточнение, какие проблемы пользователи могут решить на каждом шаблоне по матрице
уточнение, какие дополнительные проблемы возникают у пользователей
описание списка элементов, которые присутствуют на странице
изучение опыта успешных проектов в тематике, описание списка элементов, которые присутствуют на страницах у других проектов
описание списка элементов, которые необходимы для решения ключевой и дополнительных проблем

14.2 Анализ соответствия содержания входных страниц проблемам пользователей

Анализируя полученные данные, необходимо понять, что убрать, а что добавить на входных страницах.

описание списка элементов, которые не нужны для решения проблемы, но присутствуют на странице
описание списка элементов, которых нет, но они необходимы для решения проблемы

14.3 Анализ юзабилити ссылок

Правила юзабилити не являются жесткими, профессионалы интерфейсов могут смело нарушать их и делать удобные сайты, но для среднестатистического проекта стоит придерживаться простых правил:

ссылки подчеркнуты
ссылки не выглядят так же, как текст
ссылки, действие которых происходит в том же окне, имеют прерывистое подчеркивание
очевидно, что за ссылкой кроется выпадающее меню
границы ссылок и кнопок должны быть очевидны
ссылка «купить» должна быть кнопкой

14.4 Анализ юзабилити форм регистрации

На странице регистрации / оформления заказа происходят очень большие потери пользователей. Одна из причин – сложность и запутанность регистрации, необходимость предоставления большого количества данных.

содержание форм проверяется на валидность
запрашиваются только данные, влияющие на возможность выполнения заказа
данные сохраняются при перезагрузке страницы
капчу можно разгадать с первого раза
дополнительные поля вынесены в форму, предлагаемую к заполнению после регистрации
автоматическая авторизация сразу после регистрации
для некоторых прогрессивных сфер – авторизация через соц. сети

14.5 Проверка текстов на юзабилити

Текст на странице должен быть не только полезным, но и понятно оформленным, иначе его не станут читать.

связки «заголовок + абзац»
выделение смысловых акцентов через списки, цитаты, заголовки, картинки
отступы и верстка по сетке
функциональные элементы для решения задач
ссылки внутри текста оформлены заметно

14.6 Проверка перелинковки на полезность с т.з. пользователя

используются ли механизмы таргетинга при простановке ссылок
эффективны ли эти механизмы, какова конверсия внутренних переходов
проверка отсутствия т.н. seo-ссылок внутренней перелинковки в подвалах, в спец. разделах, в тексте "аля википедия".

14.7 Анализ конверсии входных страниц и сценариев поведения

Изучение конверсии входных страниц и путей следования пользователей по сайту позволяет сделать полезные выводы о поведенческих факторах.

смотрим конверсию по разным запросам, изучаем отличия аудитории
ставим эксперименты, проводим А/В тестирование
изучаем через метрику видео-записи действий пользователей
составляем логические цепочки на основе правой колонки wordstat и здравого смысла: какая информация необходима посетителю для свершения покупки

Часть №15 - Сниппеты

15.1 Парсинг сниппетов по всем запросам Яндекс, Google

Сниппеты оказывают существенное влияние на конверсию сайтов в выдаче. Это подтверждено исследованиями, проводимыми компанией Яндекс.

по всем запросам спарсить сниппеты Яндекса и Google (A-Parser)

15.2 Анализ сниппетов в Google

Необходимо выделить и изучить, что каждая часть сниппета формируется корректно:

ЧПУ URL
отзывы по микроформату hReview
заголовок (TITLE, DMOZ, анкор ссылки, текст страницы)
указание авторства контента по микроформату hCard
содержимое сайтов по микроформатам hProduct и GoodRelations
мероприятия по микроформату hCalendar
адрес по микроформату hCard
хлебные крошки по микроформату Breadcrumb
описание (текст страницы, description, описание в каталоге DMOZ)

ЧПУ URL
регистр букв в домене
иконка (файл favicon.ico)
заголовок сниппета (title, h1-h6, strong, b, ul, li, Я.каталог, DMOZ, Description)
быстрые ссылки (структура, url, переходы по ссылкам)
содержимое сайтов (микроразметка hCard, hRecipe, hReview, hProduct)
регион (я.адреса, я.каталог)
адрес (я.адреса)
социальные ссылки (связанные аккаунты в соц. сетях)
хлебные крошки (хлебные крошки, ЧПУ)
описание (текст страницы, description, яндекс.каталог, анкор-лист)
ссылки в описании

Необходимо зафиксировать по каждому пункту, корректно ли формируется сниппет и существуют ли возможности к улучшению.

15.4 Изучение областей, откуда берется описание

Для того, чтобы влиять на содержание описания, необходимо понять, откуда оно берется и по какому алгоритму. Для этого нужно собрать информацию по всем источникам данных, используемых поисковыми системами при формировании сниппетов.

Парсинг Description (A-Parser , СайтРепорт)
Парсинг Я.каталог, DMOZ (можно вручную)
Сбор анкоров (ранее собраны через Я.вебмастер, ahrefs, выгрузки бирж)
Парсинг B, STRONG, LI, H1, H2, H3, H4, H5, H6, TITLE (модуль Page Auditor в СайтРепорт)
Парсинг текста страниц (A-Parser может собрать сохраненные текстовые копии)
Сравнение данных о сниппетах с данными об источниках

Часть №16 - Ссылочная масса

16.1 Получение ссылок из различных источников

яндекс.вебмастерс
ahrefs, majesticseo, solomono
выгрузка с бирж и агрегаторов

16.2 Получение данных о ссылках

Для анализа ссылок необходимо получить данные о всей ссылочной массе.

кол-во исходящих ссылок со страницы
возраст
дата индексации
текст ссылки
количество входящих ссылок на сайт
количество исходящих ссылок с сайта
трафик сайта
страниц сайта в индексе Яндекс
страниц сайта в индексе Google

16.3 Анализ динамики изменения ссылочной массы

Необходимо изучить динамику изменений ссылочной массы

MajesticSEO
Ahrefs

16.4 Проверка индексации страниц-доноров

после покупки – проверка индексации страниц (руками кэш в яндексе, плагин wink)
при покупке – изучение индексации похожих страниц сайта, размещенных ранее

Надо сделать такую отдельную рубрику — «Если есть 3 часа на SEO-работы».

Потому что, если ваш план по SEO не расписан максимально детально, подробно, так, что и мельче уже не разобъешь, то при мысли о том, сколько там всего нужно провернуть, начинается прокрастинация. Руки тянутся к соцсетям, час пролетел, потом времени осталось совсем мало, уже и не хочется начинать.

А вот когда есть какие-то понятные короткие действия, которые займут как раз часа 2-3, то уже можно хоть что-то сделать по продвижению сайта.

Оптимизация сниппетов является небольшой частью того, что я там рекомендую делать. Но зато достаточно простой и быстрой его частью.

Я не говорю сейчас о расширенных сниппетах (внизу будет ряд статей про расширенные сниппеты).

Я же тут пишу про 2 главных элемента — Title и Meta Decription.

Алгоритм кратко:

1. Получаем из любой системы аналитики (Яндекс Метрика, Google Analytics) список страниц, с которых чаще всего приходят к вам из поиска.

В Яндекс Метрике:

Можно поработать отдельно со страницами, откуда чаще приходят ТОЛЬКО из Гугла, например.

Потому что в Гугле чаще будет виден именно такой сниппет, каким вы его сами зададите при помощи Title + Meta Decription. То есть он более управляем. Я покажу этот момент ниже.

Но лучше поработать просто над всеми трафиковыми страницами из поиска. Изменения Title + Meta Decription даст много полезного и для Яндекса. Особенно изменения Тайтла.

Помните еще вот о чем.

Есть такое правило: «работает — не трогай».

Самые трафиковые страницы лучше всего улучшать совсем немного — подправить Title, но не менять его полностью, с нуля, с другими словами.

Добавить в текст дополнительных тематических и ключевых слов, но не менять что-то кардинально.

Добавить на эту страницу перелинковки и ссылочного (это всегда только в плюс).

2. Изучаем, как выглядят текущие сниппеты у этих страниц по каким-то запросам, по которым на эти страницы часто заходят. Например, при помощи Топвизора (подробно ниже, со скриншотами). Перепроверяем, есть ли вообще в Тайтлах все важные ключевые слова.

Смотрим вручную ТОП по своим запросам — как выглядят сниппеты у самых высокостоящих конкурентов.

3. Делаем Title и Meta Decription интересными, яркими, привлекательными, со всеми важными ключевыми словами.

4. Ускоряем переиндексацию этих страниц . Вариантов много — соцсети, ссылка с главной страницы. Но я бы использовала — каждую ссылку 2-3 раза по тарифу макси. У меня этот вариант по-прежнему отлично работает.

Через какое-то время смотрим на изменения по позициям и трафику. Их можно посмотреть по временным сегментам, например, в Яндекс Метрике — тут по ссылке я описывала, как диагностировать Баден-Баден, вот точно так же можно задать период неделю до изменений, неделю после того, как они уже точно вошли в силу.

Где позиции по важным ключевым словам еще недостаточно высоки — допинываем их дальше точечно до ТОПа.

Немного подробнее:

Сниппет – это то, как ваш сайт выглядит в выдаче поисковых систем – его заголовок, описание, значок favicon, быстрые ссылки, что-то еще.

Я очень много исследовала сниппеты в последние месяцы и на основе этого могу четко сказать:

Сегодня описание сниппета Яндекс чаще всего берет из текста (хотя иногда берет и мета дескрипшн полностью или частично — кусок мета дескрипшн плюс кусок из текста).

Гугл чаще всего берет описание сниппета из мета дескрипшн, хотя если в нем нет нужных ключевых слов из запроса, даже частично, он возьмет тоже из текста.

Заголовок сниппета чаще всего обе ПС формируют из Title, если в нем есть ключевые слова из запроса.

Даже если рассчитывать только на сниппеты Гугла – это все равно это чаще всего 30-50% трафика, а то и больше. Но оптимизация Тайтлов значительно улучшает ситуацию с ранжированием в обеих ПС. Да и качественный Meta Description в Яндексе тоже поможет с продвижением.

Именно поэтому так важно:
А) использовать ключевые слова — чтобы почаще у вас получался управляемый сниппет – заданный вами
Б) использовать интересные слова, цифры, скобки, заглавные буквы, ваши УТП, сильные выгоды, информацию по бесплатностям, скидкам и бонусам и т.д. – все, что увеличивает кликабельность сниппета.

Так же можно смотреть и сниппеты конкурентов.

Смотрим их в разделе «Позиции» при блочном отображении.

Но (!) сначала в разделе «Настройки» надо задать «Собирать сниппеты» вот тут:

Потом в разделе «Позиции» снять позиции. И переключить в «блочный» режим. В новом интерфейсе это делается так:

И сразу видно, что и как — какая релевантная, как выглядит сниппет, откуда он берется, какие слова подправить и так далее.

Релевантные и целевые страницы

Еще один важнейший момент в анализе сниппетов — чаще всего вы сразу видите, та ли страница ранжируется, которая нужна вам.

Является ли ваша целевая страница релевантной в поисковых системах. Одинаковая ли ваша страница релевантна и в Гугл, и в Яндексе.

и примерно посмотреть разные варианты, как может выглядеть сниппет.

Если я забью в этот редактор сниппетов свои Тайтл и Мета дескрипшн этой страницы, то получу вот такой вариант от них:

настоящий сниппет в Google выглядит так:

Они, как мы видим, почти идентичны, так что это хороший инструмент в помощь.

Как заполнять Meta Keywords

Или не заполнять вообще, или заполнять 1-2 главными ключами, без переспама – это может привлечь внимание и наложить санкции.

В общем, так формируются красивые и эффективные, хорошо оптимизированные сниппеты.

И ЭТО ВАЖНО проделать ДЛЯ КАЖДОЙ (!) важной целевой страницы.

Потом улучшать сниппеты самых трафикогенерирующих страниц и тех, которые близки к ТОПу.

Но делать это очень аккуратно.

Смотреть надо, подбирать разные варианты, играть тайтлом и мета дескрипшн.

Еще читайте хорошее руководство от Игоря Рудника:

— статья в блоге Оптимизаторши (Елены Камской)

— статья Дениса Каплунова

Как всегда, буду рада вашим комментариям!

Все мои проекты, кроме этого SEO-блога:

ТОП База - качественная база для полуавтоматической регистрации с Allsubmitter или для полностью ручного размещения - для самостоятельного бесплатного продвижения любого сайта, привлечения целевых посетителей на сайт, поднятия продаж, естественного разбавления ссылочного профиля. Базу собираю и обновляю 10 лет. Есть все виды сайтов, все тематики и регионы.

SEO-Topshop - SEO-софт со СКИДКАМИ, по выгодным условиям, новости SEO-сервисов, баз, руководств. Включая Xrumer по самым выгодным условиям и с бесплатным обучением, Zennoposter, Zebroid и разные другие.

Мои бесплатные комплексные курсы по SEO - 20 подробных уроков в формате PDF.
- каталоги сайтов, статей, пресс-релизовые сайты, доски объявлений, каталоги фирм, форумы, соцсети, блоговые системы и прочее.

"Приближаясь.." - мой блог на тему саморазвития, психологии, отношений, личной эффективности

Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, - важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым , совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.

Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.

Сниппеты являются важнейшей частью любой поисковой системы. Они помогают пользователям искать информацию, и от их качества зависит удобство использования поисковой системы. Хороший сниппет должен быть удобочитаемым, должен показывать части документа, которые соответствуют запросу пользователя. В идеале сниппет должен содержать прямой ответ на вопрос пользователя или указание на то, что ответ есть в документе.

Общий принцип состоит в том, что текст запроса сопоставляется с текстом документа, в котором выделяются наиболее релевантные предложения, содержащие слова запроса или расширения запроса. Формула вычисления наиболее релевантных фрагментов учитывает совпадения с запросом. Учитывается плотность текста, местоположение текста, структура документа. Однако для высокорелевантных документов, которые всплывают в верхней части поисковой выдачи, текстовых факторов зачастую недостаточно. В тексте могут многократно встречаться слова из запроса, и определить, какие фрагменты текста отвечают на вопрос пользователя на основе только текстовой информации невозможно. Поэтому требуется привлечение дополнительных факторов.

При просмотре страницы внимание пользователя распространяется неравномерно. Основное внимание уделяется тем фрагментам, которые содержат искомую информацию.

Мы провели эксперименты с применением оборудования, отслеживающего движения глазного зрачка с точностью до нескольких десятков пикселей. Вот пример распределения тепловой карты траектории зрачка пользователя, искавшего ответ на вопрос, сколько битых пикселей должно быть на iPad 3, чтобы его можно было заменить по гарантии. Он вводит запрос , который приводит его на страницу Apple Community Forums с подобным вопросом. На странице слова из запроса встречаются многократно, однако пользователь заостряет внимание на том фрагменте, который действительно содержит ответ, что и видно на тепловой карте.

Если бы мы могли отслеживать и анализировать движения зрачков большего количества пользователей, мы могли бы только на основании этих данных выделять идеальные сниппеты для различных запросов. Проблема заключается в том, что у пользователей не установлены средства для айтрекинга, поэтому нужно искать другие пути получения необходимой информации.

При просмотре веб-документов пользователи обычно совершают движения мышью, скроллят страницы. В своей статье 2010 года К. Гуо и Е. Агиштейн отмечают, что по траектории можно предсказывать движения глазного зрачка с точностью 150 пикселей и полнотой 70%.

Ниже представлена тепловая карта движений мыши при просмотре документа, найденного по запросу . Видно, что наибольшая активность прослеживается именно на фрагменте, содержащем информацию о самых сильных засухах в США, именно из него можно сформировать идеальный сниппет.

Идея нашего исследования состоит в том, что данные о движениях мыши можно собирать при помощи JavaScript API, работающего в большинстве браузеров. По поведению пользователей мы можем предсказывать, какие фрагменты содержат релевантную запросу информацию, и затем использовать эти данные для улучшения качества сниппетов. Для того, чтобы реализовать и проверить эту идею, нужно решить несколько задач. Во-первых, нужно понять, как собрать реалистичные и достаточно масштабные данные о поведении пользователей за страницей результатов поиска. Во-вторых, нужно научиться по движениям мыши определять наиболее заинтересовавшие пользователя фрагменты. У пользователей есть разные привычки: некоторые любят выделять читаемый текст или просто наводят на него мышь, другие же открывают документ и читают его сверху вниз, изредка пролистывая его вниз. При этом у пользователей могут быть разные браузеры и устройства ввода. Кроме того, объем данных о движениях мыши на два порядка выше объема данных о кликах. Также стоит задача объединения поведенческих факторов с традиционными текстовыми.

Как собирать данные

Для сбора данных мы использовали инфраструктуру, разработанную нами в 2011. Основная идея – создать игру, подобную кубку Яндекса по поиску. Игроку ставится цель за ограниченное время при помощи поисковой системы найти в интернете ответ на поставленный вопрос. Игрок находит ответ и отправляет его нам вместе с URL страницы, где он был обнаружен. Отбор участников происходит через Amazon Mechanical Turk. Каждая игра состоит из 12 вопросов. За участие в игре длиной примерно сорок минут предполагается гарантированная оплата в $1. Еще по одному доллару получают 25% лучших игроков. Это достаточно дешевый способ сбора данных, который при этом дает большое разнообразие пользователей с разных концов мира. Вопросы брались на сайтах Wiki.answers.com, Yahoo! Answers и им подобных. Главным условием было отсутствие готовых ответов на самих этих сайтах. При этом вопросы должны были быть не слишком простыми, но иметь четкий короткий ответ, который можно найти в интернете. Чтобы отсечь роботов и недобросовестных участников, потребовалось реализовать несколько этапов проверки качества результатов. Во-первых, на входе в систему стоит капча, во-вторых, пользователю необходимо ответить на 1-2 тривиальных вопроса, а в-третьих, пользователь должен выполнять задание, используя наш прокси-сервер, благодаря чему мы можем удостоверить, что он действительно задавал вопросы поисковой системе и посещал страницу с ответом.

При помощи стандартных модулей для HTTP-сервера Apache mod_proxy_html и mod_sed мы реализовали проксирование всех обращений к поисковым сервисам. Пользователь заходил на нашу страницу, видел привычный интерфейс поисковика, но все ссылки там были заменены на наши. Переходя по такой ссылке, пользователь попадал на нужную страницу, но в нее уже был встроен наш JavaScript-код, отслеживающий поведение.

При протоколировании возникает небольшая проблема: позиция мыши представлена координатами в окне браузера, а координаты текста в нем зависят от разрешения экрана, версии и настроек. Нам же нужна точная привязка именно к тексту. Соответственно, нам нужно вычислять координаты каждого слова на клиенте и хранить эту информацию на сервере.

Результатом проведенных экспериментов стали следующие данные:

С точки зрения статистики данные выглядят следующим образом:

Код и собранные данные свободно доступны по этой ссылке .

Предсказание фрагментов, заинтересовавших пользователей

Чтобы выделить сниппеты, текст разбивается на фрагменты по пять слов. Для каждого фрагмента выделяется по шесть поведенческих факторов:

Длительность нахождения курсора над фрагментом;
Длительность нахождения курсора рядом с фрагментом (±100px);
Средняя скорость мыши над фрагментом;
Средняя скорость мыши рядом с фрагментом;
Время показа фрагмента в видимой части окна просмотра (scrollabar);
Время показа фрагмента в середине окна просмотра.

При помощи машинного обучения все эти шесть факторов сворачиваются в одно число – вероятность интересности фрагмента. Но для начала нам нужно сформировать обучающее множество. При этом, мы не знаем доподлинно, что действительно заинтересовало читателя, что он читал, и где нашел ответ. Но мы можем в качестве положительных примеров взять фрагменты, которые пересекаются с ответом пользователя, а в качестве отрицательных – все остальные фрагменты. Это обучающее множество неточно и неполно, но его вполне достаточно для обучения алгоритма и улучшения качества сниппетов.

Первый эксперимент состоит в проверке адекватности нашей модели. Мы обучили алгоритм предсказания интересности фрагмента на одном множестве страниц и применяем к другому множеству. На графике по оси x показана предсказанная вероятность интересности фрагмента, а по оси y – среднее значение меры пересечения фрагмента с ответом пользователя:

Мы видим, что если алгоритм в большой степени уверен, что фрагмент хороший, то этот фрагмент имеет большое пересечение с ответом пользователя.

При построении метода машинного обучения наиболее важными факторами оказались DispMiddleTime (время, в течение которого фрагмент текста был виден на экране) и MouseOverTime (время, в течение которого курсор мыши был над фрагментом текста).

Улучшение сниппетов на основе анализа поведения

Итак, мы можем определить, какие фрагменты заинтересовали пользователя. Как мы можем использовать это для улучшения сниппетов? В качестве отправной точки мы реализовали современный алгоритм генерации сниппетов, опубликованный исследователями из Yahoo! в 2008 году. Для каждого предложения вычисляется набор текстовых факторов и строится метод машинного обучения для предсказания качества фрагмента с точки зрения выделения сниппета при помощи асессорских оценок по шкале {0,1}. Затем сравниваются несколько методов машинного обучения: SVM , ranking SVM и GBDT . Мы добавили больше факторов и расширили шкалу оценок до {0,1,2,3,4,5}. Для формирования сниппета отбирается от одного до четырех предложений из набора лучших. Фрагменты отбираются при помощи жадного алгоритма, который собирает фрагменты с суммарным наилучшим весом.

Мы используем следующий набор текстовых факторов:

Точное соответствие;
Количество найденных слов запроса и синонимов (3 фактора);
BM25 -like (4 фактора);
Расстояние между словами запроса (3 фактора);
Длина предложения;
Позиция в документе;
Удобочитаемость: количество знаков пунктуации, заглавных слов, различных слов (9 факторов).

Теперь, когда у нас есть вес фрагмента с точки зрения текстовой релевантности, нам нужно объединить его с фактором интересности фрагмента, вычисленным по поведению пользователя. Мы используем простую линейную комбинацию факторов, и вес λ в формуле вычисления качества фрагмента – это вес поведения.

Нам нужно выбрать правильный вес λ. Тут есть две крайности: если значение λ слишком маленькое, то поведение не учитывается и сниппеты отличаются от baseline, если же значение λ слишком большое, есть риск, что мы потеряем в качестве сниппетов. Для выбора λ проводим эксперимент с выбором из пяти значений от нуля до единицы {0.1,0.3,0.5,0.7,0.9}. Для сравнения экспериментов мы набрали асессоров, которые попарно сопоставляли сниппеты по трем критериям:

Representativeness: какой из сниппетов лучше отражает соответствие документа запросу? Необходимо прочитать документ до ответа на вопрос.
Readability: какой из сниппетов лучше написан, легче читается?
Judjeability: какой из сниппетов лучше помогает найти релевантный ответ и решить, нужно ли кликать на ссылку?

На графиках ниже представлены доли пар сниппетов, в которых поведенческий алгоритм показал улучшение качества для трех критериев и пяти значений λ. Для каждого из значений λ асессоры давали разное количество оценок, и разное количество сниппетов отличаются по качеству. Поэтому доверительные интервалы для каждого из λ несколько различаются. Мы видим, что для λ=0.7 мы получаем статистически значимое улучшение качества сниппета по каждому из критериев. Coverage для этих сниппетов также достаточно большой: 40% сниппетов с учетом поведения отличаются от baseline.

Основные предположения и ограничения рассмотренного подхода

Во-первых эксперименты проводились на информационных вопросах, когда пользователь ищет текст ответа в документах. Однако существуют и другие типы пользовательского интента: например, коммерческие, навигационные. Для таких запросов поведенческие факторы могут вызывать помехи, либо требовать другого способа учета. Во-вторых, по постановке эксперимента мы предполагаем, что просмотры страниц сгруппированы по информационной потребности. В наших экспериментах все пользователи для каждой пары документ-запрос искали одно и то же. Поэтому мы агрегируем данные для всех пользователей, вычисляя среднее значение веса фрагмента по всем пользователям. В реальном мире пользователи могут задавать один и тот же запрос и смотреть тот же самый документ с разными целями. И нам нужно для каждого запроса группировать пользователей по интенту, чтобы иметь возможность применить эти методы и агрегировать данные поведения. Ну и в-третьих, чтобы внедрить эту технологию в реальную систему, нужно найти способ сбора данных о поведении пользователей. Сейчас уже есть плагины для браузеров, рекламные сети и счетчики посещений, которые собирают данные о пользовательских кликах. Их функциональность можно расширить, добавив возможность сбора данных о движениях мыши.

Среди других применений метода можно отметить следующее:

Улучшение Click Model за счет предсказания P(Examine | Click=0). Если мы отслеживаем только клики, то сказать с уверенностью, по какой причине пользователь не кликнул по ссылке в поисковой выдаче, мы не можем. Он мог прочитать сниппет, и решить, что документ нерелевантен, либо он просто не видел документа. С применением отслеживания движений мыши эта проблема отпадает, и мы можем заметно улучшить предсказание релевантности документа.
Поведение пользователей на мобильных устройствах.
Классификация движений мыши по интенту. Если усложнить модель, можно научиться отличать случайные движения мыши от намеренных, когда пользователь действительно помогает себе читать при помощи курсора. Кроме того, можно учитывать моменты бездействия как один из дополнительных признаков интересности фрагмента.

После доклада состоялась сессия вопросов и ответов, посмотреть которую можно на

При разработке стратегии продвижения в незнакомой тематике часто возникают спорные вопросы – как лучше разбить запросы по посадочным страницам, сколько текста размещать, как его структурировать, какая предельная плотность ключевика допустима и т.д. Лучший способ развеять такие сомнения и решить, как поступить, – проанализировать топовых конкурентов и последовать их примеру. В этом посте я расскажу про три метода экспресс-анализа выдачи, которыми мы пользуемся при необходимости получить данные очень быстро.

Быстрый анализ топа

Когда нужно быстро определить базовые характеристики топовых сайтов, мы пользуемся инструментом . С его помощью можно за несколько секунд получить данные о возрасте, показателях тИЦ, PR, наличии в каталогах и количестве беклинков у топовых конкурентов – и на их основании сделать выводы об уровне конкуренции по запросу:

Анализ семантической разбивки топовых конкурентов

Но у этого инструмента есть еще одна полезная функция, которая очень помогает определиться с разбивкой запросов по продвигаемым страницам .

Пример 1
Представьте, что у вас есть сайт по аренде жилья (квартир и комнат), и вам нужно обязательно продвинуть его в топ по трем основным запросам: “аренда жилья”, “аренда квартир”, “аренда комнат”. Как лучше поступить – оптимизировать под все запросы главную страницу или лучше распределить их? Неправильный выбор в этом вопросе может не только “приклеить” сайт далеко за пределами топа, но и привести к наложению санкций (все знают, что Яндекс не любит страницы, созданные специально под запрос).

Проанализируем поисковую выдачу с помощью инструмента и воспользуемся функцией “подсветить одинаковые страницы”:

Для примера я взяла произвольный сайт и проанализировала его позиции по релевантным запросам. На скриншоте видно, что по всем выбранным запросам, кроме одного, сайт находится в Топ-10. Пиктограммы в колонке справа обозначают виды расширенных сниппетов, которые встречаются в Топ-10 по каждому запросу. Например, по запросу “уборка квартир” быстрые ссылки есть у 3-х сайтов из Топ-10, телефоны – у 4-х. А по запросу “уборка офисов” быстрые ссылки и телефоны в сниппетах встречаются по два раза, адрес – один раз.

Очевидно, что у анализируемого нами сайта расширенных сниппетов нет вообще (смотрим колонку “сниппеты”), в то время как по многим запросам у конкурентов по выдаче они имеются. То есть, в плане оптимизации сниппетов пациенту явно есть к чему стремиться.

Инструменты, описанные в этой статье, разработаны нашими программистами под наши требования. Если у вас есть какие-либо идеи или пожелания по доработкам, пишите мне на [email protected] .