08/08/2018
PageRank
Le PageRanka ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google. Il mesure quantitativement la popularité d'une page web. Le PageRank n'est qu'un indicateur parmi d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google1. Ce mot est une marque déposée.
Fonctionnement :
Le PageRank d'une page a tendance à être d'autant plus élevé que la somme des PagesRanks des pages qui pointent vers elle est élevée.
Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes). Le PageRank est une mesure de centralité sur le réseau du web.
Plus formellement, le déplacement de l'utilisateur est une marche aléatoire sur le graphe du Web, c'est-à-dire le graphe orienté dont les sommets représentent les pages du Web et les arcs les hyperliens. En supposant que l'utilisateur choisisse chaque lien indépendamment des pages précédemment visitées (le réalisme d'une telle hypothèse pouvant être discuté), il s'agit d'un processus de Markov. Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web2,3. La taille (gigantesque) de ce graphe et son évolution dynamique (modifications de pages et hyperliens, connexion ou déconnexion de serveur web…) rendent cependant impossible un calcul direct de ce vecteur propre : des algorithmes d'approximation sont utilisés.
De nombreuses corrections et améliorations ont été apportées à cet algorithme, certaines étant décrites dans le brevet déposé le 17 avril 20074, d'autres ne restant connues que de Google. En particulier, il est important de garantir que des modifications trop locales du graphe du Web n'entraînent pas d'augmentation disproportionnée du PageRank de certaines pages, ceci afin d'éviter que des utilisateurs (par exemple des sites commerciaux) ne « boostent » artificiellement leur PageRank. Par exemple, dans l'algorithme de base décrit ci-dessus, ajouter de nombreux liens internes sur une page Web (ce qui est très simple à faire pour un particulier) permet d'augmenter son PageRank (cette stratégie ne marche pas avec le PageRank actuel de Google).
Jusqu'en 2016, les internautes pouvaient obtenir une approximation du classement de chaque page en consultant la zone PageRank de la barre d'outils Google, qui indiquait sa valeur sur une échelle de 0 à 10 (Échelle logarithmique). Jusqu'à cette date, il existait aussi de nombreux outils pour l'obtenir sans afficher la toolbar, même s'ils se basaient eux aussi sur la valeur renvoyée par la barre d'outils de Google. Depuis 20165, Google ne fournit plus aucune valeur de PageRank, il est donc impossible de le connaître désormais. Ainsi, certaines sociétés privées telles que Moz et Majestic SEO tentent de s'en approcher par le biais de leurs indicateurs (citation flow, trust flow, Domain authority, page authority) afin d'avoir une idée du PageRank Réel et permettent aux webmaster de comparer les différents sites.
Principaux critères du score d'une page web
Selon le brevet Google, ces critères sont :
les liens entrants et sortants ;
les ancres ;
le trafic associé à la page ;
le comportement des internautes : le choix de la page dans les résultats ;
le nom de domaine.