Компания Google стала первой, кто запатентовал систему учета внешних ссылок. Механизм действия называется PageRank. Здесь мы расскажем о том, как он действует, и каким образом он влияет на сортировку результатов поиска.
Механизм PageRank для каждой веб-страницы рассчитывается отдельно, и определяется PageRank'ом (цитируемостью) ссылающихся на нее страниц, получается своего рода замкнутый круг.
Основная роль отводится тому, что нужно выявить меру определяющую значимость каждой отдельной страницы. В данном случае этой мерой определили теоретическую посещаемость страницы.
Изучим пример просмотра сайтов потенциальным пользователем способом перехода по ссылкам. Допустим, пользователь начинает путешествие по интернету со случайно выбранного ресурса. Далее, он переходит на другие страницы по ссылкам. Также возможно то, что пользователь покинет сайт и далее начнёт путешествие по сети со случайно выбранной страницы (возможность такого шага в алгоритме PageRank равна 0,15 на каждом переходе). Таким образом, он продолжит изучение страниц, переходя по одной из ссылок на текущем сайте с вероятностью 0.85. При этом пользователь, просмотрит известные страницы больше раз, чем малоизвестные.
Следовательно, вероятность нахождения потенциального пользователя на данной странице называется PageRank веб-страницы, также, учитывая то, что пользователь в любом случае находится на какой-либо странице, сумма вероятностей по всем веб-ресурсам будет равна единице.
Так как с вероятностями работать не очень удобно, то с PageRank после некоторых изменений можно оперировать в виде конкретных чисел (как, например, в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что:
-любая страница уже имеет ненулевой PageRank (хотя на него может не быть внешних ссылок);
- любой документ, обладающий исходящими ссылками, часть своего PageRank передает документам, на которые ссылается. При этом манциципированный PageRank обратно пропорционален числу ссылок на ресурсе - чем больше ссылок, тем меньший PageRank передается по каждой;
- PageRank передается не полностью, на каждом этапе мы видим угасание (та самая вероятность 15%, когда пользователь начинает путешествие со случайного ресурса).
Теперь, посмотрим на то, как PageRank может сортировать результаты поиска (говорим "может", потому, что PageRank как таковой не принимает участия в работе Google как раньше). На самом деле с влиянием PageRank всё обстоит просто - после нахождения поисковой машиной соответствующих документов (с использованием текстового критерия) ранжировать их можно будет с помощью PageRank- то естественно предположить, что если документ имеет большее количество внешних ссылок, то, соответственно он содержит более ценную информацию.
Следовательно, алгоритм PageRank вытаскивает те документы, которые пользуются популярностью и без участия поисковика.