Avant Google et son PageRank, la recherche sur le web: Yahoo et Excite

Comme il parait naturel de taper quelques mots clefs sur un moteur de recherche et d’y trouver ce que l’on désire. Difficile de croire que le web as vécu sans pendant quelques années. A l’époque, dénicher ce que l’on souhaitait illustrait à la perfection le proverbe: "trouver une aiguille dans une meule de foin". La sérendipité bénéficiait alors d’une autre acception: naviguer de pages en pages en espérant, enfin, tomber sur un contenu utile et pertinent. Comment sont nés les moteurs de recherche ? Comment fonctionne le plus connu d’entre eux, Google ? 

A quoi sert le world wide web si nous ne pouvons le parcourir ? Au milieu des années 1990, les impétueux internautes étaient confrontés à des pages et des pages de textes, et des listes et des listes constituées de phrases soulignées, en bleues. Sans moteur de recherche, de liens en liens, ils étaient religieusement animés d’une vacillante foi: du secret espoir qu’ils découvriraient - à l’usure - ce qu’ils souhaitaient. 

Le logo Yahoo ! en 1995
En 1995, Yahoo ! est sur toutes les langues. Conçu par deux universitaires, Jerry Yang et David Filo, Yahoo ! est un annuaire web dans lequel est classé, au sein de catégories et de sous-catégories, des contenus glanés sur la Toile et jugés intéressant. Un travail de titan, fait à la mano. Yahoo ! c’est un guide qui indique au quidam du web un chemin vers lequel il peut, sans crainte, s’engouffrer. Ce qu’il y lira sera approprié, judicieux, seyant. 
En 1996, ses concurrents se multiplient, et son principal rival est Excite. Qui ressemble à Yahoo !, mais avec une technologie plus sophistiquée, purement logicielle. Excite est un rudimentaire moteur de recherche dont les résultats sont mauvais, car non pertinents. "Excite est né en Février 1993 comme un projet universitaire appelé « Architext» impliquant six étudiants qui cherchaient à utiliser l’analyse statistique des relations entre les mots, afin d’améliorer la pertinence des recherches sur Internet. Ce projet d’école a finalement conduit à la libération commerciale Excite comme un moteur de recherche à la fin de l’année 1995." (Web Search: Public Searching of the Web Par Amanda Spink,Bernard J. Jansen)
En 1997, Excite et Yahoo ! se transforment en portail. Surfer sur Yahoo ! ou Excite, c’est alors comme se balader sur les champs élysées pendant les fêtes de noel à l’heure de pointe. Des publicités partout, qui distraient l’internaute, qui l’attirent, qui l’agressent. Des mouvantes annonces agressives, des inopportunes popups qui s'ouvrent. Des univers visuels qui, au gré d’un regard, rendent épileptiques les aveugles. L’objectif ? Emprisonner les internautes, en faire une audience captive afin de les "vendre" aux annonceurs - si c'est gratuit, c'est que c'est vous le produit. En atteignant ce but, tous perdaient de vue leur mission: être des sociétés dédiées à la recherche. 
C’est ainsi qu’en 1998 nait Google - dont la dénomination est une déformation du terme mathématique Gogol, qui désigne 10 puissance 100 - et dont l’ambition est "d’organiser les informations à l'échelle mondiale pour les rendre accessibles et utiles à tous."
Pour Larry Page et Sergey Brin - ses fondateurs - le web est comme un concours permanent de popularité. Si une page web A pointe un lien vers une page B, c’est comme si nous avions un vote de A vers B. Et pour savoir si un site est utile et pertinent, il faut compter ces liens, qui sont autant de sources de recommandations. En résumé, c’est ainsi qu’est imaginé le fonctionnement de l’algorithme de Google, dénommé PageRank. 

Attention, il n’est pas question de stocker, mais d’indexer des pages. En d’autres termes, il s’agit de fouiller (de "crawler") le web à l’aide de petits robots d’indexation (appeler "web crawler" ou "web spider"), et pour chaque contenu, de repérer et de faire ressortir les mots clefs - afin de les retrouver par la suite. En 1998, 26 millions de pages étaient indexées. En l’an 2000, 10 puissance 9. En 2013, 10 puissance 12, et peut-être un jour la firme de Mountain View arrivera à ce fameux 10 puissance 100.
Chaque page web à son propre PageRank: un score qui oscille entre 1 et 10 et qui reflète son importance. 



En résumé: 
  • Si une page A renvoie les internautes vers une page B, cela est considéré comme un vote de A vers B. La page B bénéficie, dés lors, d’un PageRank, d’un score plus élevé. La probabilité qu’un surfeur atteigne la page P est d’autant plus important que nombre d’autres pages pointe vers P. 
  • Si la page A vote plusieurs fois - c’est à dire si la page A renseigne la page B, et aussi la page C et la page D - alors son vote aura moins d’importance. Le nombre de liens entre en compte dans le calcul du PageRank, et entraine une division des votes. 
  • Si la page A, qui vote pour la page B, est également renseignée par d’autres pages, alors son vote aura plus d’importance. 
  • Le PageRank est également une formule récursive: le score de la page qui vote est important. Le vote d’une page vers une autre est d’autant plus important que cette page à un score élevé.
  • Aussi, une page A peut voter pour une page B. Et cette page B peut renseigner une page C. Partant, un lien fictif peut être établi entre la page A et la page C, alors que la page A ne renseigne pas cette page. Pour tenir compte de cela, un facteur d’atténuation est pris en compte. Qui est de 0.85. 
En 1998, la formule du PageRank est donc: PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) 


Contrairement à Yahoo ! et Excite, qui sont de véritables fêtes foraines virtuelles qui souhaitent rendre captifs les internautes, Google redonne la priorité à la recherche. Et lorsque se pose la question du modèle économique: sans ambages et in aeternum, Larry et Sergey bannissent l’idée d’afficher partout sur leur site des publicités. S’il y a de la pub sur Google, elle devra avoir un sens pour les internautes. Elle devra être plus conviviale, plus adaptée au web. La solution sera apportée par Bill Gross.

Le moteur de recherche, un outils d’étude de marché. A la fin des années 90, Bill Gross, fondateur d’Idealab, se pose la question de l’amélioration des annonces sur le web. Et il a cette réflexion: en tapant des mots clefs sur un moteur de recherche, les internautes nous disent ce qui les intéressent, et aussi ce qu’ils seraient susceptibles d’acheter. Pour Bill, un mot clef est une valeur marchande. Et son idée est toute simple: vendre des mots clefs aux annonceurs, leur faire payer un positionnement. C’est exactement ce que font les pages jaunes, déclare Bill Gross dans le documentaire de John Heilemann "La guerre des moteurs de recherche, la véritable histoire d'internet". C’est ainsi qu’est lancé sur le web GoTo.Com/Overture. En 1998, quelques mois après sa mise en ligne, l'entreprise enregistre des millions de petites transactions (ce qui illustre le phénomène de la longue traine, en terme de publicité, cliquez ici pour en savoir plus ! )
Larry et Sergey contactent alors Bill Gross. Les négociations n’aboutissent pas. Pourtant, Google inaugure la plateforme Adwords le 23 octobre 2000, qui ressemble en tout point à GoTo.com/Overture - si ce n’est cette amélioration, qui est la séparation des annonces publicitaires des résultats du référencement naturel. Google a-t-il emprunté l’idée ? Oui, après tout les idées sont de libres parcours, et comme l’exprime Gross dans un interview pour Slate: "We didn’t patent the idea. So if we don’t patent it, they can copy it." Cependant, un procès, puis un arrangement à l’amiable rétabliront les relations entre Larry, Sergey et Bill Gross.
"The Google idea was the idea for organizing the world’s information. Mine was just an idea for making money." (Bill Gross) Imaginez le web sans moteur de recherche ? Le succès du web réside dans le fait d’avoir la possibilité de l'explorer aisément. Sans moteur de recherche, la Toile serait un vaste et nébuleux territoire dans lequel, sans carte et sans boussole, pléthore de gens se perdraient. Et que dire de ceux qui tenteraient de s'y exprimer, d'y apporter leur voix ? Comment les entendre ?

Liste, oh combien non exhaustive. Assurez-vous que votre site est "responsive web design" (adaptatif aux différentes tailles d'écrans), que ses pages s’affichent rapidement, que toutes soient bien codées, et disposent de bonnes balises afin que les petits robots de Google viennent facilement lire votre site, que vous disposez d’un sitemap, que votre site dispose des mots clefs adéquats par rapport à votre coeur d’activité, sans oublier le fait que vous rédigez avant tout pour des êtres humains. Pendant votre rédaction, ne laissez pas votre main être guidée par ce que vous pensez que souhaiterait un moteur de recherche.

Pour aller plus loin: 
- Oh, la boulette. "Quand Excite refusait d'acquérir Google pour 750 000 dollars", 01.net
- "L’algorithme du PageRank expliqué", cliquez ici !
- Infographie, l'histoire des moteurs de recherche, cliquez-ici !
- "Comment Google attribue un score à une page web ?", cliquez ici ! et, aussi, cliquez ici !
- "Faites simple, test de la page d’accueil de Google avec Marissa Mayer", cliquez ici !
- Comment fonctionne l'algorithme EdgeRank de Facebook, cliquez ici !

Commentaires

Articles les plus consultés