20 возможных способов сортировки результатов запроса поисковыми системами

Как поисковые системы обрабатывают запросы пользователей и выводят результаты поиска? Если ключевые слова, введенные пользователем в поисковую форму, обнаруживаются на проиндексированных поисковой системой веб-страницах, эти страницы выводятся как результаты поиска. В основном, результаты поиска появляться в порядке, который отражает релевантность содержания страниц, их посещаемость, количество и источник обратных ссылок на сайте. Однако порядок выдачи результатов поиска может быть пересмотрен и изменен в соответствии с несколькими дополнительными параметрами. Вот основные из них.

  1. Из списка могут быть удалены страницы с не уникальным содержанием. Поисковые системы не любят выводить среди результатов поиска сайты, чье содержимое повторяет друг друга. Как замечает доктор Гарсия в своей статье о Патентах на механизмы поиска не уникального содержимого сайтов, поисковые системы отфильтровывают страницы с дублированным содержанием и в результатах поиска выводят ту страницу, которую считают оригинальной. Полностью этот механизм установления аутентичности не известен, но есть мнение, что в его основе лежит вычисление PR индекса и возраста сайта.
  2. С одного сайта берется только одна страница, отвечающая поисковому запросу. Чаще всего несколько страниц одного сайта могут содержать слова из запроса пользователя. Однако поисковые системы ограничивают число страниц одного сайта в выдаче. Иногда на странице результатов поиска выводятся 1-2 ссылки на страницы одного сайта, релевантных запросу, а иногда после первой ссылки следует кнопка «другие результаты, найденные на этом сайте».
  3. Возможно перераспределение результатов поиска в списке с учетом сферы интересов пользователя. Зная тематику ресурса, с которого пользователь зашел в поисковую систему, или тематику сайтов, на которых он сегодня побывал, а также предыдущие поисковые запросы пользователя, система может помещать на первые места в выдаче сайты, чья тематика относится к предполагаемой сфере его интересов. Вот несколько ссылок на оригинальные статьи по данной теме:

Personalizing Search via Automated Analysis of Interests and Activities (pdf)

Variable personalization of search results in a search engine

Personalization of web search

  1. Построение списка результатов с учетом внутренней перелинковки найденных страниц. Бывает, что поисковая система отбирает сайты, соответствующие ключевым словам запроса, а затем перераспределяет список первых 100 или 1000 результатов, опираясь на соединяющие эти сайты ссылки. Метод подробно описан в статьях Ranking search results by reranking the results based on local inter-connectivity и Method for ranking hyperlinked pages using content and connectivity analysis.
  2. Возможно, что среди результатов поиска пользователь предпочтет сайты с доменными именами определенной страны. Некоторые посетители поисковых систем могут четко задать поиск по национальным сайтам. Если пользователь явно не указывает, ресурсы какой страны он предпочитает, система попытается угадать его предпочтения, определив IP адрес машины посетителя.
  3. Сортировка по языковому признаку. Языковые предпочтения могут быть явно выражены самим пользователем в персональных настройках поисковой системы или определены автоматически по языку запроса, языковому интерфейсу пользователя или другим параметрам. О том, как языковые предпочтения могут влиять на сортировну результатов поиска, читайте в статьеSystem and method for providing preferred language ordering of search results.
  4. Влияние социальной информации о пользователе. В это понятие входит географическое местоположение посетителя, принадлежность к той или иной социальной группе, которая может быть установлена при помощи определенных алгоритмов, описанных здесь: Methods and systems for improving a search ranking using population information.
  5. Пересортировка найденных документов в зависимости от их старости или свежести. Возраст документа, возраст ведущих к нему ссылок и некоторые другие временные характеристики могут влиять на позицию страницы в выдаче результатов поисковой системы. Патентная заявка от Google на данный метод описана здесь: Information retrieval based on historical data.
  6. Стоп-слова, темы текстов и некоторые текстуальные особенности содержимого страниц могут быть проанализированы поисковой системой для перераспределения результатов поиска в списке. Один из методов анализа запатентован Yahoo! и описан в статье System and method for biasing search results based on topic familiarity.
  7. Сортировка в соответствии с коммерческими интересами компании-владельца поисковой системы. Пользователь может указать, желает ли он видеть первыми в списке результатов поиска коммерческие или некоммерческие предложения и сайты. В основе технологии лежит изобретение Yahoo! Mindset.
  8. Возможно переранжирование или удаление адресов найденных страниц в зависимости от удобства их просмотра на мобильных устройствах. Функция применяется компанией Microsoft при обработке поисковых запросов, поступивших от владельцев карманных компьютеров.
  9. Переранжирование по показателю доступности материала к прочтению слабовидящими. Google разработал данный алгоритм и описал его в статьеAccessible Web Search for the Visually Impaired.
  10. Патент Google описывает ранжирование результатов поиска на основании мнения пользователей о той или иной странице. System and method for supporting editorial opinion in the ranking of search results
  11. Ранжирование по дополнительным характеристикам и сравнение текстов. Патент Google/Berkley описывает метод ранжирования поисковых результатов в новостях путем анализа похожести текстов и поиска уникальных фраз: Query-Free News Search.
  12. Сортировка результатов с учетом активности пользователя во время прежних сеансов и нажатых им ссылок. Существует несколько методик ранжирования результатов поиска на основании поведения пользователя на сайте. Вот описание одной из них: Query Chains: Learning to Rank from Implicit Feedback(pdf)
  13. Некоторые алгоритмы подразумевают анализ поведения в поисковой системе обширных групп пользователей. Появляется некая статистика, на основании которой поисковая система может менять механизмы ранжирования результатов поиска.
  14. Ранжирование, основывающееся на избыточности информации. Система находит различные страницы, которые могли бы отвечать поисковому запросу пользователя, и выводит их как результаты поиска по категориям. Utilizing information redundancy to improve text searches
  15. Система ведет историю наиболее частых поисковых запросов и реализует алгоритм, описанный на этой странице: System for identifying storylines that emerge from highly ranked web search results.
  16. поисковая система может отслеживать взлеты и падения популярности некоторых тем, обсуждаемых на форумах и в блогах. Обычно этот механизм используется при составлении лент новостей, но замысел может быть реализован и при ранжировании результатов поиска. System, method, and service for segmenting a topic into chatter and subtopics
  17. Еще один из способов ранжирования сходен с двумя предыдущими. Он предлагает группировку запросов и анализ того, как запросы меняются со временем и как разные пользователи влияют на это. Один из соавторов изобретения – Апостолос Геракулис из Ask. Methods and systems for providing a response to a query.

Итак, можно прийти к выводу, что на один запрос поисковая система может выводить разные варианты результатов поиска в зависимости от того, каким пользователем запрос был введен. Список результатов поиска это не просто перечень сайтов, на которых встречаются ключевые слова из запроса пользователя; список может составляться при помощи множества алгоритмов, одни из которых, безусловно, используются уже сегодня, а другие будут реализованы только в отдаленном будущем. Ни один из вышеперечисленных методов не меняет коренным образом результаты поискового запроса для каждого пользователя, а только выстраивает их в порядке, предпочтительном для того или иного посетителя поисковой системы.

По материалам статьи Виллиама Славского на сайте www.seobythesea.com

Добавить комментарий