Maths et référencement : le page rank Google

Il y a principalement 2 grandes notions en SEO qui peuvent être expliquées par les mathématiques : le calcul du PageRank et l’analyse des pages de résultats des moteurs de  recherche (SERP : Search Engine Results Pages). En soi le PageRank de Google n’a pas réellement d’utilité en matière de référencement , sauf qu’il vaut mieux avoir des backlinks à fort page rank pour le référencement de son site : ainsi, le PR est attribué page par page, d’ou l’interêt d’obtenir des backlinks pas seulement en Blogroll, ou page d’accueil, mais aussi depuis les pages profondes et à fort PR d’un site. Source : referenceur Thierry Teulé . Nous ferons donc un bref topo sur son mode de calcul avant de développer la partie concernant l’utilisation des maths pour l’analyse des SERP.

Le calcul du PageRank de Google pour le référencement

Le PageRank est un indicateur calculé par Google qui attribue une “valeur” à chacune des pages de vos sites web qui ont été indexées. La compréhension de ce calcul complexe passe par les mathématiques et il peut être utile d’en comprendre le fonctionnement, tout au moins les bases.

A chaque fois qu’une page indexée fait un lien vers une autre page web, une petite portion de la valeur de son PageRank est transférée à la page cible (celle qui reçoit le lien). La page cible voit alors la valeur de son PageRank augmenter légèrement : de manière très synthétique, les liens entrants améliorent le PageRank d’une page tandis que les liens sortants le font décroître. Le PageRank (que l’on voit souvent abrégé en “PR“) est exprimé sous la forme d’un chiffre entre 0 et 10, 10 étant la valeur la plus haute. On voit souvent écrit “tel ou tel site a un PR 4″ par exemple mais selon notre spécialiste en référencement montpellier c’est un abus de langage car un site n’a pas de PageRank dans sa globalité, ce sont chacune de ses pages qui portent le PageRank. “tel ou tel site à un PR 4″ (ou parfois “tel ou tel site est PR 4″) signifie en réalité que la page d’accueil (l’index) de ce site a un PR4. En réalité, le PageRank mesure la probabilité qu’un visiteur se trouvant sur une page indexée par Google et trouvée aléatoirement, se retrouve sur la page cible en ayant cliqué sur un lien. Et donc puisqu’il s’agit d’une probabilité, le PageRank est en fait un nombre compris entre 0 et 1. La notation du PR en chiffre de 1 à 10 n’est qu’une adaptation permettant d’en faciliter la lecture (notamment par la petite barre verte bien connue de tous).

Venons en au calcul de ce fameux PageRank ! Par elle-même, chaque page web indexée par Google est susceptible d’obtenir un PR 1. Mais pour se voir gratifier d’un PR supérieur à 1, une page web va devoir compter sur le net-linking interne et externe. Prenons un exemple tout simple : soit 4 pages A, B, C et Z constituant à elles 4 l’intégralité des pages présentes dans l’index de Google (c’est pour simplifier les choses). Si ces pages ne font aucun lien entre elles alors la probabilité qu’un visiteur se rende sur chacune d’elle est de 1/4 soit 0,25. Imaginons maintenant que les pages A, B et C fassent chacune un lien vers la page Z, le PageRank de la page Z se calculerait ainsi :

PR (Z) = PR (A) + PR (B) + PR (C) + PR (Z) Initial = 0,75 +0,25 = 1

Dans cette configuration, en cliquant sur un lien d’une des pages indexées prise au hasard, un visiteur se retrouvera systématiquement sur la page Z.

Mais compte tenu du nombre de pages présentes dans l’index de Google en réalité (en 2008, un article sur le blog officiel de Google annonçait avoir indexé 1 000 000 000 000 de pages web ! Oui c’est bien 1000 milliards de pages ) on peut négliger sans aucun problème le PR initial car celui-ci est insignifiant (1/1000 000 000 000…).

Prenons cette fois un exemple un peu plus compliqué : imaginons que la page A fasse un lien vers la page Z, que la page B fasse 1 lien vers Z et un lien vers C et que la page C fasse 1 lien vers Z, 1 lien vers A et 1 lien vers B :

PR (Z) = PR (A)/1 + PR (B)/2 + PR (C)/3 = 0,25 + 0,125 + 0.083 = 0,458

Notons “Nb (Page)” le nombre de liens sortants d’une page donnée :

PR (Z) = PR (A)/Nb (A) + PR (B)/Nb (B) + PR (C)/Nb (C)