Google получил патент на новый метод борьбы со ссылочным спамом

Индексируя и ранжируя различные документы, найденные в сети, и стремясь обеспечить пользователей наиболее релевантной выдачей, поисковая система полагается не только на контент найденных страниц – она также учитывает количество и качество ссылок, ведущих на данную страницу.

Поисковая система – например, Google – может решить, что ваша страница релевантна пользовательскому запросу, основываясь на ее содержимом и на тексте ссылок, указывающих на данную страницу.

Она также может попытаться составить некое представление об «отношениях» между страницами, посмотрев на структуру их ссылочных связей. Для этой цели Google использует систему Pagerank, которая вычисляет меру важности отдельных страниц посредством анализа сети ссылок. Эта мера важности может быть упрощенно представлена как вероятность того, что пользователь окажется на данной странице, случайным образом кликая по ссылкам в процессе  свободного интернет-серфинга.

Итак, на конечное ранжирование страниц влияет комбинация трех основных факторов: релевантность контента страницы введенному запросу, текст ссылок, указывающих на страницу, а также мера важности данной страницы, выводимая из структуры ее ссылочных связей с другими страницами. Google может корректировать ранжирование топовых документов, используя сигналы совсем иной природы, тем не менее именно эти факторы оказывают решающее влияние на то, увидят ли данную страницу конечные пользователи.

Системы ссылочного ранжирования наподобие Pagerank оказываются далеко не идеальным решением. Ссылками можно манипулировать, стремясь вывести ту или иную страницу в топ.

Патент, полученный Google на днях, описывает, как можно выявить и нейтрализовать манипуляции со ссылками и тем самым отсеять из выдачи страницы, получившие высокий Pagerank благодаря ссылочному спаму.

Линкофермы и преступные группы
Поисковая система может посмотреть, не обладают ли ссылки, ведущие на данную страницу, некоторыми специфичными свойствами, которыми вряд ли будут обладать честные ссылки.

В патенте Google выделяется два основных вида ссылочного спама – линкофермы и преступные группы. Далее подробно описывается, как их можно отличить от вполне невинных ссылок, указывающих на вполне невинные страницы.

 

Линкофермы
Линкоферма состоит из большого количества страничек, созданных в первую очередь для того, чтобы указывать на одну единственную центральную страницу, искусственно увеличивая меру ее важности. Типичным примером может послужить интернет-магазин с множеством скрытых от пользователя сайтов-пустышек, ссылающихся на его главную страницу. Если поисковик сочтет нужным их учитывать эти ссылки, они могут помочь интернет-магазину выбраться в топ.

Страницы, ведущие на центральный ресурс линкофермы, как правило имеют очень низкую степень важности (низкий PageRank). В то же время действительно важные ресурсы скорее всего будут иметь ссылки не только с маловажных страниц, но и с сайтов с высоким  PageRank.
Преступные группы
Преступная группа представляет собой набор страниц, связанных с помощью т.н. кольцевой перелинковки – они активно ссылаются друг на друга, взаимно  увеличивая свой вес и вводя в заблуждение поисковые системы. Если поисковик не сумеет отсеять эти ссылки, подобное поведение будет способствовать нечестному продвижению в топ.Страницы, образующие преступную группу, не имеют склонности ссылаться куда-либо вовне, за пределы группы. Это позволяет отличить их от нормальных страниц, заработавших свой авторитет честным способом.
Реакция на искусственное увеличение важности
Если какая-либо страница или группа страниц оказалась пойманы на спам-линковке, поисковая система, в соответствии с патентом, должна попытаться вычислить количество «искусственно созданной важности» чтоб адекватным образом скорректировать выдачу.На первом этапе живой человек или специальный алгоритм должны подробно изучить обнаруженные страницы, чтоб убедиться, что они действительно являются спамом. Если проверка дала положительный результат, могут быть приняты следующие меры:

  1. Ссылки, размещенные на данной странице, могут вообще не учитываться в системе Pagerank.
  2. Вес ссылок, размещенных на данной странице, может быть пропорционально  уменьшен (ссылки на другие страницы становятся менее важными).
  3. Ссылки с данной страницы могут получить заранее определенный штраф, уменьшающий их важность.
  4. Важность страницы может быть уменьшена способом, не связанным напрямую с системой Pagerank.
  5. Важность страницы может быть уменьшена способом, не связанным напрямую с системой Pagerank, однако ее ссылки также получат свой штраф.

В патенте излагается математика, лежащая в основе предполагаемых механизмов по обезвреживанию линкоферм и преступных групп. Она стоит того, чтобы ее изучить – особенно если вам действительно интересно, как Google намерен бороться с линк-спамом:

Method for detecting link spam in hyperlinked databases
Invented by Sepandar D. Kamvar, Taher H. Haveliwala, and Glen M. Jeh
Assigned to Google
US Patent 7,509,344
Granted March 24, 2009
Filed August 18, 2004

Метки:

Добавить комментарий