La communauté ALL HTML c'est 60192 membres à ce jour dont 0 inscrits aujourd'hui et 13 depuis une semaine.
Article publié le jeudi 23 novembre 2006 par emmarose.
Cet article est classé dans les catégories « Moteur de recherche, Référencement »
Personne n'y aurait cru : 3 acteurs majeurs dans le monde des moteurs de recherche se retrouvent autour d'un standard ! En effet, Google, Yahoo et Msn annoncent leur entente autour du protocole Sitemap.<br /> L'occasion pour nous de vous présenter cet outils.
Le protocole Sitemap vous permet d'indiquer aux moteurs de recherche les URL à explorer sur vos sites Web. Dans sa forme la plus simple, un plan Sitemap utilisant le protocole Sitemap est un fichier XML qui répertorie les URL d'un site. Ce protocole a été écrit pour être extrêmement évolutif et s'adapter à des sites de toutes tailles. Il permet également aux administrateurs Web d'inclure des informations complémentaires sur chaque URL (date de dernière modification, fréquence de révision, importance relative par rapport aux autres URL du site), de façon à favoriser une exploration plus intelligente du site par les moteurs de recherche.
Les plans Sitemap sont particulièrement utiles lorsque les internautes ne peuvent pas atteindre toutes les zones d'un site Web à l'aide d'une interface de navigation. Cela se produit généralement lorsque les liens proposés ne permettent pas d'atteindre certaines pages ou zones d'un site. Ainsi, vous avez intérêt à créer un plan Sitemap et à l'envoyer aux moteurs de recherche si votre site contient des pages uniquement accessibles par le biais d'un formulaire de recherche.
Ce document décrit les formats de fichiers Sitemap et explique où vous devez placer ces fichiers pour que les moteurs de recherche puissent les exploiter.
Notez que le protocole Sitemap complète, mais ne remplace pas, les mécanismes fondés sur l'exploration que les moteurs de recherche utilisent déjà pour découvrir des URL. En envoyant un plan Sitemap (ou plusieurs) à un moteur de recherche, vous contribuez à optimiser le fonctionnement de ses robots d'exploration.
Le recours à ce protocole ne garantit pas la prise en compte de vos pages Web dans les index de recherche, (Notez que l'utilisation de ce protocole n'influe pas sur le mode de classement de vos pages par un moteur de recherche.)
La version 0.84 du plan Sitemap est offerte dans le cadre d'une license Attribution-ShareAlike Creative Commons License.
Le format du protocole Sitemap se compose de balises XML. Toutes les valeurs de données d'un plan Sitemap doivent utiliser des caractères d'échappement d'entité. Quant au fichier, il doit être enregistré avec un codage UTF-8. Vous trouverez ci-après un exemple de plan Sitemap composé d'une seule URL et utilisant toutes les balises facultatives. Ces dernières sont en italique.
[code][/code]
<?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
< url>
< loc>http://www.example.com/</loc>
< lastmod>2005-01-01</lastmod>
< changefreq>monthly</changefreq>
< priority>0.8</priority>
</url>
</urlset>
Le plan Sitemap doit :
La valeur « always » (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur « never » (jamais) doit être utilisée pour décrire les URL archivées.
Notez que la valeur de cette balise est considérée comme une indication, et non comme une commande. Même si les robots d'exploration des moteurs de recherche prennent cette information en compte, ils ne l'appliquent pas nécessairement de façon stricte. Ainsi, ils peuvent explorer des pages dont la fréquence de modification est « hourly » (horaire) moins fréquemment que cela ou, à l'inverse, explorer des pages dont la fréquence de modification est « yearly » (annuelle) plus fréquemment. Il est également vraisemblable que les robots exploreront régulièrement les pages associées à la fréquence de modification « never » (jamais), de façon à traiter les modifications non prévues apportées à ces pages.
<priority>v: facultatif
Priorité de cette URL par rapport aux autres URL de votre site. Les valeurs acceptées sont comprises entre 0,0 et 1,0. Cette valeur est sans effet sur la comparaison de vos pages avec celles d'autres sites. Elle permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes de façon à organiser l'exploration de votre site comme vous l'entendez.
La priorité par défaut d'une page est égale à 0,5.
Notez que la priorité attribuée à une page n'a aucune incidence sur la position de vos URL dans les pages de résultats du moteur de recherche. Les moteurs de recherche utilisent cette information pour hiérarchiser les URL d'un même site lors de leur sélection. Cette balise vous permet donc d'augmenter la probabilité que vos pages les plus importantes figurent dans l'index de recherche.
En outre, notez que l'attribution d'une priorité élevée à toutes les URL de votre site ne vous sera d'aucune utilité. En effet, cette priorité relative n'est utilisée que pour hiérarchiser les URL de votre site lors de leur sélection ; aucune comparaison ne sera établie entre la priorité de vos pages et celle des pages d'autres sites.
Caractères d'échappement
Nous vous demandons d'utiliser impérativement un codage UTF-8 pour votre fichier Sitemap. En règle générale, c'est au moment de l'enregistrement du fichier que vous pouvez définir ce paramètre. Comme pour tous les fichiers XML, les valeurs de donnée (URL comprises) doivent utiliser des codes d'échappement d'entité pour les caractères répertoriés dans le tableau ci-après.
Caractère (Code d'échappement)
Perluète : & (&)
Apostrophe : ' (')
Guillemets droits : " (")
Supérieur à : > (>)
Inférieur à : < (<)
En outre, toutes les URL (y compris celle de votre plan Sitemap) doivent être codées de façon à pouvoir être lues par le serveur Web sur lequel elles se trouvent et doivent utiliser les caractères d'échappement nécessaires. Cependant, si vous utilisez un quelconque script, outil ou fichier journal pour générer vos URL (si vous les répertoriez autrement qu'en les saisissant individuellement), cette mise en forme est généralement automatique. Si, après avoir envoyé votre plan Sitemap, vous recevez un message d'erreur indiquant que Google ne parvient pas à trouver certaines de vos URL, vérifiez ce plan pour vous assurer que les URL sont conformes à la norme RFC-3986 définissant les URI, à la norme RFC-3987 définissant les IRI et à la norme XML.
Vous trouverez ci-après un exemple d'URL utilisant un caractère non-ASCII (ü) et un caractère à remplacer par un caractère d'échappement d'entité (&) :
http://www.example.com/ümlat.html&q=name
Ci-dessous la même URL, codée en ISO-8859-1 (pour un hébergement sur un serveur utilisant ce codage), et utilisant des caractères d'échappement d'URL :
http://www.example.com/%FCmlat.html&q=name
Ci-dessous la même URL, codée en UTF-8 (pour un hébergement sur un serveur utilisant ce codage) et utilisant des caractères d'échappement d'URL :
http://www.example.com/%C3%BCmlat.html&q=name
Ci-dessous la même URL, utilisant un caractère d'échappement d'entité :
http://www.example.com/%C3%BCmlat.html&q=name
Vous pouvez fournir plusieurs fichiers Sitemap, sachant que pour chacun d'eux le nombre d'URL est limité à 50 000 et que la taille de chaque fichier ne doit pas dépasser 10 Mo (10 485 760 octets) avant compression. Ces limites contribuent à éviter la surcharge de votre serveur Web lors de la présentation à Google de fichiers volumineux.
Si vous voulez répertorier plus de 50 000 URL, vous devez créer plusieurs fichiers Sitemap. De même, si vous pensez qu'à terme votre plan Sitemap risque de compter plus de 50 000 URL ou de dépasser les 10 Mo, vous pouvez envisager de créer d'emblée plusieurs fichiers. Si vous procédez ainsi, pensez à répertorier vos différents plans Sitemap dans un fichier d'index Sitemap. Les fichiers d'index Sitemap ne peuvent pas compter plus de 1 000 plans.
Le format XML d'un fichier d'index Sitemap est très similaire au format XML d'un fichier Sitemap. Le fichier d'index utilise les balises XML suivantes :
Remarque : Un fichier d'index Sitemap ne peut référencer que les plans Sitemap qui sont stockés sur le même site que lui. Ainsi, le fichier http://www.yoursite.com/sitemap_index.xml peut inclure des plans Sitemap stockés sur http://www.yoursite.com, mais pas sur http://www.example.com ou sur http://yourhost.yoursite.com. Tout comme les plans Sitemap, votre fichier d'index Sitemap doit être enregistré avec un codage UTF-8.
Exemple d'index Sitemap XML
Vous trouverez ci-après un exemple d'index Sitemap au format XML.
Cet index répertorie deux plans Sitemap :
[code][/code]
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
Remarque : Les URL de plans Sitemap, comme toutes les valeurs de vos fichiers XML, doivent utiliser des caractères d'échappement d'entité.
Définitions des balises XML d'un index Sitemap
L'emplacement du fichier Sitemap définit l'ensemble des URL susceptibles d'être incluses dans ce plan Sitemap. Un fichier Sitemap stocké à l'adresse http://example.com/catalog/sitemap.gz peut contenir toutes les URL commençant par http://example.com/catalog/, mais ne peut inclure d'URL commençant par http://example.com/images/.
Si vous disposez des droits pour modifier le fichier http://example.org/path/sitemap.gz, il est vraisemblable que vous pourrez également fournir des informations sur les URL préfixées http://example.org/path/. Exemples d'URL qui seront acceptées dans http://example.com/catalog/sitemap.gz :
http://example.com/catalog/show?item=23
http://example.com/catalog/show?item=233&user=3453
Exemples d'URL qui seront refusées dans http://example.com/catalog/sitemap.gz :
http://example.com/image/show?item=23
http://example.com/image/show?item=233&user=3453
https://example.com/catalog/page1.html
Les URL refusées ne sont plus prises en compte. Il vous est vivement recommandé de placer votre plan Sitemap dans le répertoire racine de votre serveur Web. Par exemple, si votre serveur Web se situe à l'emplacement example.com, l'URL de votre fichier d'index Sitemap devra être, dans la mesure du possible : http://example.com/sitemap.gz. Dans certaines situations toutefois, vous devrez définir un plan Sitemap distinct pour les différents chemins de votre site. C'est le cas, par exemple, si le paramétrage de sécurité en vigueur dans votre entreprise définit séparément les droits d'accès en écriture aux différents répertoires.
Google utilise un schéma XML pour définir les éléments et attributs susceptibles de figurer dans votre fichier Sitemap. Vous pouvez télécharger ce schéma à l'aide des liens suivants :
Pour les plans Sitemap : http://www.google.com/schemas/sitemap/0.84/sitemap.xsd
Pour les fichiers d'index Sitemap : http://www.google.com/schemas/sitemap/0.84/siteindex.xsd
Un certain nombre d'outils sont disponibles pour vous aider à valider la structure de votre plan Sitemap à partir de ce schéma. Vous trouverez une liste d'outils en rapport avec le langage XML sur les pages suivantes :
http://www.w3.org/XML/Schema#Tools
http://www.xml.com/pub/a/2000/12/13/schematools.html
Pour valider votre fichier Sitemap ou votre fichier d'index par rapport à un schéma, le fichier XML doit comporter des en-têtes supplémentaires. Si vous faites appel au Générateur Sitemap, ces en-têtes figurent déjà dans le fichier. En revanche, si vous utilisez un autre outil pour créer vos plans Sitemap, les exemples ci-après vous montrent comment l'en-tête de fichier XML doit se présenter.
Plan Sitemap :
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
...
</url>
</urlset>
Fichier d'index Sitemap :
<?xml version='1.0' encoding='UTF-8'?>
<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/siteindex.xsd">
<sitemap>
...
</sitemap>
</sitemapindex>
Sources de l'information : Google Sitemap
Plus d'informations :
Commentaire publié le mercredi 10 décembre 2008 à 13 h 59 par totouser Vous devez obligatoirement vous identifier en tant que membre pour participer à cette discussion.
Discutez et échangez sur ce thème dans nos forums Référencement, Référencement.
16/03/2010 à 17 h 00
[Rentabiliser] que choisir ? (adsense, regie, plateform, affiliation..) (2 réponses)
24/02/2010 à 10 h 54
Pb .htaccess Fonctionne pas (5 réponses)
04/02/2010 à 08 h 13
Refondre un site et garder son référencement (1 réponse)
18/01/2010 à 16 h 54
Google Local Business Center : problème activité reconnue (0 réponse)
19/11/2009 à 12 h 10
url et référencement (4 réponses)