Как поисковые системы - Находят спам

Как поисковые системы - Находят спам


05.05.2018 20:45

41

Сжатие (Compressibility) - интересный трюк борьбы со спамом с давних времен. Многие оптимизаторы никогда не слышали об этом, но об этом стоит знать. Сжатие - это способ идентификации контента низкого качества то есть спама. Самое смешное в сжатие то, что поисковые инженеры обнаружили его случайно.

То, что сейчас будет описано, может или не может использоваться поисковой системой. И все же это полезно знать. Знание о сжатие может быть полезно для планирования контента и диагностики того, почему определенный контент может считаться спамом.

На фоне сжатия

Поисковые системы "сжимают" информацию о веб страницах, чтобы они могли разместить больше данных на своих жестких дисках. Если сжать папку файла, получится zip файл, вот что такое сжатие.

WinZip и GZip являются алгоритмами сжатия. Они выбрасывают повторяющиеся данные и заменяют их кодом, представляющим эту отброшенную информацию. Вот как получается меньший размер файла.

Поисковые инженеры заметили, что некоторые веб страницы сжимаются на более высоком уровне, чем другие веб страницы. Когда они изучали веб страницы, сжатые на более высоком уровне, они обнаружили, что веб страницы с высоким коэффициентом сжатия, как правило, имеют много повторяющегося контента.

Когда они присмотрелись, они обнаружили, что 70% из веб страниц компрессии это спам. Это были thin pages - страницы, которые содержали много повторяющегося контента. Мы не говорим, что это происхождение фразы, thin pages. Но когда вы сжимаете определенные виды спам страниц, это то, что у вас остается, а именно thin pages.

Происхождение Thin Pages в исходном содержимом

То, что сеошники делали много лет назад, было попыткой создать оригинальный контент. Они использовали наборы уникальных абзацев с пробелами для добавления данных, таких как информация о городе и штате. Ряд пунктов предназначался для верхней части страницы, другая группа пунктов - для середины страницы и еще один набор - для нижней части страницы.

Путем случайного смешивания и сопоставления абзацев каждая страница была на 100% уникальной. С достаточным количеством абзацев в каждом наборе вы можете получить почти бесконечное количество комбинаций страниц. Этот метод идеально подходит для создания сотен тысяч страниц для ранжирования комбинаций ключевых слов городов и штатов.

Эта техника работала долгое время!

Сжатие переопределяет уникальное содержимое

Но сжатие способно победить такой контент. Хотя спамеры могут создавать двадцать, сорок или более уникальных абзацев для каждого набора, результирующие веб страницы все равно будут сжиматься в высоком соотношении.

Мы не знаем, используют ли поисковые системы сжатие для идентификации thin контента сегодня. Но это простой способ идентифицировать thin контент с низкой добавленной стоимостью. Комбинировать сжатие с другими сигналами и находить thin страницы контента становится еще проще.

Документация сжатия, обнаружение спам веб страниц

Впервые мы услышали о сжатии в исследовательской работе 2006 года под названием "Обнаружение спам веб страниц с помощью анализа контента". Это исследовательский документ Microsoft, исследующий методы идентификации спама, полагаясь исключительно на функции контента. Это было во времена расцвета алгоритмов статистического анализа.

Вот цитата из соответствующего раздела этой исследовательской работы:

"4.6 Сжимаемость
Мы измеряем избыточность веб страниц по степени сжатия, размер несжатой страницы делится на размер сжатой страницы.

Линейный график, изображающий распространенность спама, неуклонно поднимается вправо от графика. График становится довольно шумным за пределами коэффициента сжатия 4.0 из-за небольшого количества отобранных страниц в диапазоне. Однако, в совокупности 70% всех отобранных страниц с коэффициентом сжатия не менее 4.0 были признаны спамом."

Вывод: как сжатие полезно сегодня

Сжатие является полезной вещью, чтобы это знать, потому что это дает вам представление о том, почему некоторые веб страницы работают плохо. Возможно, оно было использовано поисковыми системами еще в пещерные дни борьбы со спамом и SEO. Это все еще может быть полезно сегодня, используют ли поисковые системы его или нет.

Если содержимое вашего веб-сайта сжимается в четыре раза, может быть полезно взглянуть на это содержимое, чтобы убедиться, что оно действительно оригинальное и не избыточное. Не имеет значения, используется ли сжатие алгоритмами поиска. Это все еще полезная вещь, о которой нужно знать.