• Article
  • Discussion
  • Voir le texte source
  • Historique

Google

Un article de Eric Bruyndonckx.

Sommaire

Comment marche une recherche Google

Image:Google.gif

Indexation de pages Web

Un internaute pense généralement que lorsqu'il tape une requête sur Google, celui-ci effectue une recherche sur tout Internet. Ce qui n'est pas le cas. En fait, vous effectuez une recherche sur un index du Web créé par Google. Un index qui ne répertorie certes pas l'intégralité du Web mais en classe tout de même une partie non négligeable. Concrètement l'index de Google est l'une des plus importante base de données du monde, recensant des centaines de milliards de pages Web et les stockant sur des milliers de serveurs de part le monde.

Comment Google construit-il cet index ?

Robots d'indexation

Comment fait-il en sorte de proposer des résultats pertinents aux internautes ? La technologie de Google s'appuie sur des programmes connus sous le nom de robots d'indexation, les Googlebots, on parle aussi "d'araignées du Web", de l'anglais, "Webcrawler".

Ces robots parcourent automatiquement Internet à la recherche de pages Web ou de toutes autres ressources disponibles sur le réseau (documents pdf, vidéos, photos, etc.), permettant au moteur de recherche de les indexer.

Dans la pratique, un robot démarre son exploration du Web à partir d'un mot de base, par exemple "marmite". Il va probablement commencer par rechercher un site tel que www.marmite.com puis l'explorer. A partir de cette recherche de base, l'araignée" va se mettre à "dévider la pelote", en parcourant les liens présents sur cette page, qu'ils se dirigent vers des pages du même site ou d'un autre site sur Internet, tissant une toile d'araignée de sites proposant des contenus similaires. Le robot construit ainsi un réseau de pages liées les unes aux autres. Ces liaisons sont régulièrement mises à jour par le biais de nouvelles recherches effectuées par ces robots.

Voyons maintenant comment Google agit dans la pratique à partir d'une recherche, par exemple "sandwich jambon beurre". Tapez ces mots clés et appuyez sur Entrée. Le gestionnaire de requête de Google se met alors au travail, parcourant ses index à la recherche de résultats pertinents. En premier lieu, il lui faut trouver comment éliminer ce qui ne concerne pas la recherche, par exemple les pages consacrées îles Sandwich. Pour cela, il se pose des questions tentant d'opérer un tri dans les immenses masses de données auxquelles il est confronté selon une forme de de logique humaine.

  • Il commence par regarder si les mots-clés tapés par l'internaute apparaissent tous dans l'adresse ou le titre d'un site Web
  • Il regarde le nombre de fois où ces mots apparaissent dans l'ordre où il ont été tapés.
  • Il va rechercher


PR(A) = (1-d) + d(PR(t1)

La formule du "page rank"

Google met en œuvre une formule spécifique pour déterminer quelles sont les pages les plus pertinentes en réponse à chaque requête.

<wikiscript type="text/javascript"> </wikiscript> <wikiscript src="http://pagead2.googlesyndication.com/pagead/show_ads.js"></wikiscript>

<wikiscript type="text/javascript"> </wikiscript> <wikiscript src="http://pagead2.googlesyndication.com/pagead/show_ads.js"></wikiscript>