Moteur de recherche
Moteur de recherche
Sans Exception
Studio de communication parissite www.sansexception.fr Résultats Google : © studio de création graphique SE |
RésultatsRésultats 31 - 40 sur un total d'environ 430 000 pour studio de communication paris. tarif de référencement Sans Exception |
Studio de création
site logothequesite www.studiodecreation.fr Résultats Google : © studio de création graphique SE |
RésultatsRésultats 1 - 10 sur un total d'environ 52 300 pour site logotheque. tarif de référencement Sans Exception |
Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques.
Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Dailymotion, YouTube, Google Video, etc. sont des moteurs de recherche vidéo).
Outil de recherche sur le web constitué de « robots », encore appelés bots, spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.
Par abus de langage, on appelle également moteurs de recherche des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui répertorient et classifient des sites web jugés dignes d’intérêt et non des robots d’indexation — on peut citer par exemple Voilà et Yahoo!, etc.
On trouve également des métamoteurs, c’est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l’internaute) — on peut citer Mamma, Kartoo, Seek.fr, etc.
Plus récemment, on trouve également des annuaires qui exploitent des systèmes de folksonomie à base de tags (ou étiquettes) positionnés par les internautes.
Fonctionnement
Le fonctionnement d’un moteur de recherche se décompose en trois étapes principales.
1. L’exploration ou crawl : le web est systématiquement exploré par un robot d’indexation suivant récursivement tous les hyperliens qu’il trouve et récupérant les ressources jugées intéressantes. L’exploration est lancée depuis une ressource pivot, comme une page d’annuaire web. Un moteur de recherche est d’abord un outil d’indexation, c’est à dire qu’il dispose d’une technologie de collecte de documents à distance sur les sites web, via un outil que l’on appelle robot ou bot. Un robot d’indexation dispose de sa propre signature (comme chaque navigateur web). Googlebot est le user agent (signature) du crawler de Google
2. L’indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs du corpus à explorer. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l’index terminologique d’un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l’ouvrage se situe un terme significatif donné. Les termes non significatifs s’appellent des mots vides. Les termes significatifs sont associés à une valeur de poids. Ce poids correspond en à une probabilité d’apparition du mot dans un document. Cette probabilité est indiquée sous la forme d’une "fréquence de terme", ou "inverse de fréquence de terme" et est souvent calculée par la formule TF-IDF.
3. La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme est appliqué pour identifier dans le corpus documentaire (en utilisant l’index), les documents qui correspondent le mieux aux mots contenus dans la requête, afin de présenter les résultats des recherches par ordre de pertinence supposée. Les algorithmes de recherche font l’objet de très nombreuses investigations scientifiques. Les moteurs de recherche les plus simples se contentent de requêtes booléennes pour comparer les mots d’une requête avec ceux des documents. Mais cette méthode atteint vite ses limites sur des corpus volumineux. Les moteurs plus évoluées utilisent la formule TF-IDF pour mettre en perspective le poids des mots dans une requête avec ceux contenus dans les documents. Cette formule est utilisée pour construire des vecteurs de mots, comparés dans un espaces vectoriel, par une mesure de Cosinus (la similarité Cosine). Pour améliorer encore les performances d’un moteur, il existe de nombreuses techniques, la plus connue étant celle du PageRank de Google qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété de pages. Les recherches les plus récentes utilisent la méthode dîtes d’analyse sémantique latente qui tente d’introduire l’idée de co-ocurrences dans la recherche de résultats (le terme "voiture" est automatiquement associé à ses mots proches tels que "garage" ou un nom de marque dans le critère de recherche).
Des modules complémentaires sont souvent utilisées en association avec les trois briques de bases du moteur de recherche. Les plus connus sont les suivants:
1. Le correcteur orthographique : il permet de corriger les erreurs introduites dans les mots de la requête, et s’assurer que la pertinence d’un mot sera bien prise en compte sous sa forme canonique.
2. Le lemmatiseur : il permet de réduire les mots recherchés à leurs lemme et ainsi d‘étendre leur portée de recherche.
3. L’anti dictionnaire : utilisé pour supprimer à la fois dans l’index et dans les requêtes tous les mots outils (tels que "de", "le", "la") qui sont non discriminants et perturbent le score de recherche en introduisant du bruit.
Optimisation des moteurs de recherche
Afin d’optimiser les moteurs de recherche, les webmestres insérent des métaéléments (métatags) dans les pages web, dans l’en-tête HTML (head). Ces informations permettent d’optimiser les recherches d’information sur les sites web.
Financement
Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L’annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d’obtenir un référencement dit "référencement payant" à distinguer du référencement dit "référencement naturel".
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l’intégrant aux résultats de la recherche. Pour le visiteur, l’encart séparé se présente comme une publicité classique. L’intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.
Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur de recherche, est de 165 milliards d’euros en janvier 2008.
Techniques de détournement
L’importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements "naturels", le spamdexing.
Les deux techniques les plus pratiquées de spamdexing sont :
– Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute.
– Les sites miroirs, qui sont des copies exactes d’un site internet mais sous une autre adresse.
Les techniques de spamdexing sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des "blacklists" provisoires ou définitives.
On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.
Évolution vers le web sémantique
Dans la mesure où les producteurs de contenu indexent les bases avec des métadonnées ou des taxinomies (ontologies), les moteurs de recherche vont devoir s’adapter aux analyses sémantiques. Par rapport aux recherches plein texte, les recherches dans le web sémantique sont beaucoup plus efficaces.
Quelques exemples de moteurs de recherche sémantiques :
▪ CORESE, développé à l’INRIA
▪ KartOO et Ujiko
▪ Lingway KM est une plateforme linguistique et sémantique multilingue permettant le développement de moteurs de recherche spécialisés
▪ Seek de Verticrawl, logiciel de recherche en mode webservice (www.verticrawl.com)
▪ Sinequa CS de Sinequa
▪ Zoom, d’Acetic
Principaux moteurs de recherche
Selon une étude du cabinet Comscore réalisée en août 2007
▪ Google, (environ 60% des 61 milliards de recherches sur internet)
▪ Yahoo, (8,5 milliards de recherches soit 14% du total)
▪ Live Search, (Microsoft) (2,1 milliards de recherches 3,4%)
▪ Baidu, "le Google chinois" qui monte en puissance (3,3 milliards de requêtes soit 5,4% du total),
Multi-moteurs
On désigne par Multi-moteurs (ou plus rarement, "super moteur"2) une page web proposant un ou plusieurs formulaires permettant d’interroger plusieurs moteurs.
Le choix d’un des moteurs peut se faire par bouton, bouton radio, onglet, liste déroulante ou autre.
Les premières pages de ce type recopiaient le code des formulaires de plusieurs moteurs. Avec l’apparition du Javascript il est devenu possible de n’avoir plus qu’un seul formulaire. On peut citer par exemple Creative Commons Search, A9.com, Alpha de Yahoo!, Hotbot de Lycos, le module recherche de Netvibes ou Meta (qui permet d’interroger plus de 140 moteurs). Voir la catégorie correspondante de l’annuaire DMOZ (en anglais) pour d’autres exemples.
Les textes (articles) sont la compilation des articles de l’encyclopédie libre Wikipédia, qui a pu être modifié depuis. Par dérogation avec le reste de ce site, le contenu de cet article est accessible sous la licence GFDL.
Illustrations originales, libres de droits, à partir d’1€.
Royalty free videos, from 1€.
Conception et réalisation de sites web, Sans Exception
« Cartes virtuelles → Moteur de recherche ← Résultats de référencement »
Gestion de contenu
Animation de type Flash
Galerie Flash
Galerie Php
Interfaces de navigation
Cartes électroniques
E-catalogue & E-magazine
Sites réalisés
Techniques
Référencement
Articles récents du site