Статьи о маркетинге и брендинге

CTR как фактор ранжирования: 4 статьи, которые необходимо прочитать

Было много дискуссий о кликабельности (CTR) и рейтингах. Некоторые говорят, что CTR является фактором ранжирования, другие настаивают, что это часть машинного обучения и контроля качества.

Независимо от того, в каком лагере вы находитесь, вот четыре исследовательских документа, которые, полезны для понимания роли CTR в рейтингах поисковых систем и SEO.

Торстен Йоахимс и исследование CTR

Торстен Йоахимс - исследователь, связанный с Корнельским университетом. Он подготовил много влиятельных научных работ, среди которых исследования по использованию CTR для целей алгоритмов поисковых систем.

Если вы заинтересованы в понимании возможной роли КЛИКАБЕЛЬНОСТИ сайта в поисковых системах, то эти четыре научные статьи за авторством Иоахима станут для вас озарением.

1. Оптимизация поисковых систем с помощью CTR

Оптимизация поисковых систем с использованием данных Clickthrough (PDF) - это исследовательский документ 2002 года. В этом исследовательском документе была представлена концепция использования данных CTR в качестве индикаторов того, насколько релевантны ссылки на результаты поиска, и использования этой информации для ранжирования лучших веб-страниц.

Эта исследовательская работа с 2002 года показывает, насколько старо исследование CTR. Изучение CTR для релевантной информации является зрелым направлением исследований. Исследования, связанные с поисковыми системами, продвинулись далеко за пределы этой области.

Тем не менее важно получить основу понимания CTR. После того, как у вас есть основа понимания, вы будете менее склонны обманываться необоснованными спекуляциями о ставках кликов и их роли в ранжировании веб-страниц.

Вот что говорится в исследовательской статье:

"Целью данной работы является разработка метода, использующего для обучения данные clickthrough, а именно query-log поисковой системы в связи с логом ссылок, по которым пользователи переходили в представленном рейтинге.
 
... Ключевой момент заключается в том, что такие данные могут предоставлять обучающие данные в виде относительных предпочтений.”
 
На мой взгляд, эта статья признает ограничения в алгоритме. Алгоритмы ограничены изучением того, какие из 10 лучших ссылок наиболее релевантны.

Это исследование отмечает:

"...существует ли зависимость между ссылками, представленными пользователю, и теми, по которым система получает обратную связь.”
 
С самого начала исследования CTR стало понятно, что данные CTR из топ-10 SERPs имеют ограниченное, но важное значение. В исследовательском документе также отмечается, что использование такого алгоритма было открыто для спама и что необходимо предпринять шаги, чтобы сделать его невосприимчивым к спаму.

Вот, что Торстен Иоахима отметил:

"..также можно было бы изучить механизмы, которые делают алгоритм надежным против "спама". В настоящее время неясно, насколько один пользователь может злонамеренно влиять на функцию ранжирования, неоднократно нажимая на определенные ссылки."
 
Это важная информация, потому что она показывает, что даже в 2002 году исследователи думали о том, как предотвратить спам. Это означает, что совет нажать на свой собственный список, чтобы повысить свои собственные сайты, вероятно, не работает.

2. Понятие CTR как обратная связь

Эта статья, написанная совместно с исследователем из Стэнфордского университета, и озаглавлена как " точная интерпретация данных с дополнительной информацией как Неявная Обратная связь - 2005 (PDF)". Это важный исследовательский документ, потому что он вводит понятие, что, возможно, данные CTR не так надежны.

Вот как исследовательская работа CTR выражает идею о том, что данные CTR ненадежны:

"В этой статье рассматривается надежность неявной обратной связи, генерируемой из данных с дополнительной информацией в поиске WWW. Анализируя процесс принятия решений пользователями, используя eyetracking и сравнивая неявную обратную связь с ручными суждениями релевантности, мы заключаем, что клики информативны, но предвзяты. Хотя это затрудняет интерпретацию кликов как суждений об абсолютной релевантности, мы показываем, что относительные предпочтения, полученные от кликов, в среднем достаточно точны."

Этот документ посвящен пониманию того, какие ссылки пользователи просматривали, если пользователи просматривают их сверху вниз, какие ссылки задерживают пользователей перед щелчком и как заголовок и мета-описание в SERPs влияют на решения пользователей щелкнуть одну ссылку над другой.

Тем не менее в документе был выражен оптимизм в отношении того, что, поскольку имеется большой объем данных, которые должны быть получены, машинное обучение может быть применено для достижения точных определений того, какие связи являются более релевантными, чем другие связи.

К такому выводу пришла исследовательская работа по CTR:

"Наши результаты указывают на то, что на решения пользователя о кликах влияет релевантность результатов, но они предвзяты доверием, которое они имеют к функции поиска, и общим качеством результирующего набора. Это затрудняет интерпретацию кликов как абсолютной обратной связи.

Однако мы рассматриваем несколько стратегий для генерации относительных сигналов обратной связи от кликов, которые, как показано, хорошо соответствуют явным суждениям. ... Тот факт, что неявная обратная связь от кликов легко доступна практически в неограниченном количестве, может более чем преодолеть этот разрыв в качестве, если неявная обратная связь правильно интерпретируется с помощью методов машинного обучения..."

Я считаю, что важно отметить, что этот исследовательский документ не связан с поиском спама или с поиском сайтов низкого качества, чтобы исключить. Это просто связано с поиском соответствующих сайтов, которые удовлетворяют пользователей.

3. Машинное обучение и имитация CTR

Третье исследование с 2005 года. Эта статья озаглавлена как: Оценка надежности обучения на основе неявной обратной связи. Цель этой статьи - понять, когда данные CTR полезны и когда данные CTR предвзяты и менее полезны.

Вот как документ сформулировал проблему и решение:

"...эти данные имеют тенденцию быть неполезными и предвзятыми... в этой статье мы рассмотрим метод обучения на основе неявной обратной связи и используем моделирование, чтобы понять, когда оно эффективно."

Этот документ особенно интересен тем, что он вводит возможность моделирования поведения пользователя и использования этих данных. В этой статье также упоминается и о машинном обучение.

Вот ссылка на введение в обучение подкрепления.  Оно использует пример ребенка, узнающего, что огонь хорошо, потому что он выделяет тепло. Но позже узнает, что огонь также плох, как и хорош.

Это про то, как исследовательская работа представила его:

"Этот тип интерактивного обучения требует, чтобы мы либо запускали системы с реальными пользователями, либо строили моделирование для оценки производительности алгоритма.

Альтернативой, часто используемой в обучении армированию, является создание среды моделирования. Очевидно, что у этого есть недостаток, что это просто симуляция, но она также имеет значительные преимущества. Это позволяет более быстрое тестирование алгоритмов, чем полагаться на участие пользователя. Он также позволяет исследовать параметры поведения пользователя. В частности, мы можем использовать модель для изучения устойчивости алгоритма в обучающих данных."

Это действительно круто. Он показывает, как поисковая система может использовать машинное обучение для понимания поведения пользователя, а затем обучать алгоритм без фактических данных CTR, но с имитацией CTR.

Это означает, что поисковая система теоретически может моделировать поведение пользователя на веб-страницах, даже если эти страницы не ранжируются на первой странице SERPs. Это позволяет преодолеть ограничения, отмеченные в исследовании еще в 2002 году.

4. Намерение пользователя и CTR-2008

Окончательный исследовательский документ, - это изучение различных рейтингов с многорукими бандитами (PDF). В этом исследовании не используется фраза "намерение пользователя". Он использует фразу, удовлетворенность пользователя.

Эта статья посвящена важности показа результатов, удовлетворяющих большинство пользователей.

Удовлетворение всех пользователей означает отображение различных видов веб-страниц. Намерение пользователя во многих поисковых запросах отличается.

То, что актуально для одного пользователя, менее актуально для другого. Таким образом, важно показать разнообразные результаты поиска, а не один и тот же ответ десять раз.

Вот что говорится в статье о показе нескольких видов результатов:

... исследования пользователей показали, что разнообразие на высоких должностях часто предпочтительнее. Мы представляем два алгоритма онлайн-обучения, которые непосредственно изучают разнообразный рейтинг документов на основе поведения пользователей при нажатии. Мы показываем, что эти алгоритмы минимизируют оставление или, наоборот, максимизируют вероятность того, что соответствующий документ находится в верхних позициях рейтинга.

Вот то, что говорится в документах об удовлетворенности пользователей:

"...предыдущие алгоритмы обучения ранжированию учитывали актуальность каждого документа независимо от других документов. Фактически, недавняя работа показала, что эти меры не обязательно коррелируют с удовлетворенностью пользователей..."

И вот та часть, которая действительно является проблемой:

"...веб-запросы часто имеют разные значения для разных пользователей."

Единственным недостатком такого алгоритма CTR для определения удовлетворенности пользователей является то, что он может не работать хорошо для тем, которые, пользователи хотят найти.

"Мы ожидаем, что такой алгоритм будет работать лучше, где мало документов склонны к радикальным сдвигам в популярности."

Прочитать исследование CTR

Это, четыре важных исследовательских документа, которые нужно прочитать, прежде чем формировать мнение о роли CTR в ранжировании веб-страниц.

Важно отметить, что первая исследовательская работа, упомянутая в этой статье, относится к 2002 году. Последняя - 2008 года. Это дает представление о том, насколько зрелым является исследование CTR. Большинство исследований сегодня больше не сосредоточено на CTR. Они ориентированы на искусственный интеллект.

Тем не менее если вас интересуют данные CTR и то, как они могут играть определенную роль в ранжировании, вам будет полезно ознакомиться с этими четырьмя исследовательскими работами.

Интересные статьи