Indexation site internet

L’enjeu d’une bonne indexation de votre site web

Un site web bien indexé est la première étape vers la réussite de votre projet web. 90% du trafic d’un site web vient des moteurs de recherche. Faire indexer votre nouveau site internet lui permet d’être visible sur les moteurs de recherche. La majorité des moteurs de recherche proposent un formulaire de demande d’indexation. C’est gratuit !

Rappel du fonctionnement d’un moteur de recherche

Quand l’utilisateur fait requête auprès d’un moteur de recherche, celui-ci puise dans une base de données gigantesque : son index.

En réalité cet index est composé de plusieurs sous ensembles : l’index principal contenant les meilleures pages, index secondaire contenant un jeu de données plus large…

Cet index est enrichi automatiquement par des « robots », appelés aussi spider ou crawler. Celui de Google s’appelle « GoogleBot ».

Vous devez retenir que lorsque vous faites une recherche sur Google, celui-ci ne fait pas une recherche sur « internet », mais dans son index, à partir de « photographies » prises automatiquement par son robot GoogleBot.

L’indexation de site internet est un enjeu majeur pour les moteurs de recherche parce qu’ils leur permettent de s’alimenter en contenu pour répondre aux requêtes de leurs utilisateurs.

Quels sont les critères d’indexation ?

Pour faire des économies, améliorer la qualité de leurs résultats et accroître la vitesse d'indexation, les moteurs de recherche élaborent des cahiers des charges détaillés.
Celui de Google s'appelle les Google Guidelines.

Pour résumer, il faut que les pages soient :

  • Techniquement accessibles
  • Conçues avec un contenu intéressant et suffisamment riche
  • Uniques (Un contenu par URL, une URL par contenu)
  • Accessibles grâce à des liens trouvées sur d'autres pages (de préférence déjà indexées)
  • Honnêtes, sans techniques de tromperie/tricherie
  • Rédigées avec amour par des humains

Seules sont retenues les pages qui le méritent. Chaque année, les moteurs deviennent plus exigeants. Ils peuvent se le permettre parce qu'il existerait plus d'un milliard de milliard de pages web.

Pour vous, une page indexée, c'est du travail récompensé et une récompense, ça se mérite.

Pour être dans l'index, il suffit de faire mieux que les autres !

Si une page n'est pas indexée, alors il faudra auditer et comparer avec la concurrence, pour comprendre et adapter.

Comment s’assurer que son site soit indexable ?

Les entêtes HTTP renvoyées par le serveur

Au lancement de votre nouveau site, vérifiez en premier lieu la présence d'entêtes HTTP X-Robots-Tag. avec un outil de contrôle des entêtes, tel que Web-sniffer.

Cette entête doit être absente ou bien contenir "index". Une valeur à "noindex" signifie que vous interdisez l'indexation.

Robots.txt

Ensuite, contrôlez la présence de robots.txt et sa compatibilité avec les moteurs de recherche.

Ce fichier autorise ou refuse l'accès aux robots parcourant votre site web.

Ces robots sont identifiés à l'aide d'un "passeport" appelé "User Agent". Purement déclarative, cette donnée est facile à falsifier.

Les permissions accordées par robots.txt peuvent êtres totales (tout le site) ou partielles (ciblent uniquement certaines parties du site)

Ce fichier peut être généré automatiquement par le CMS et affiché via une réécriture d'URL, contrôlez toujours sa présence avec un navigateur parce qu'il peut être joignable même s'il est physiquement absent sur votre FTP.

Meta robots

Si une url est autorisée par Robots.txt, alors vous pouvez préciser le comportement à adopter page par page en utilisant la balise Meta Robots.

Celle ci est à placer dans la partie de votre code HTML et se présente ainsi :

  • Index : vous autorisez l'indexation
  • Follow : vous autorisez de suivre les liens trouvés sur cette page
  • Vous pouvez indiquer "noindex" pour interdire l'indexation et "nofollow" pour empêcher de suivre les liens.

Présence de déclaration d'url canonique

Un développement web peut générer plusieurs URLs pour un même contenu. Or des pages dupliquées sont filtrées. Au mieux, une seule version est retenue, au pire elle sont toutes désindexées. Pour maîtriser l'indexation d'un tel ensemble d'URLs, vous pouvez désigner laquelle est l'heureuse élue devant être indexée. Cette balise se présente de cette manière :

<link rel="canonical" href="http://www.yakaferci.com/" />

Assurez vous que vous pages en doublon désignent la version à privilégier pour l'indexation en utilisant cette balise.

Pourquoi privilégier https ?

En 2014, Google a annoncé qu'il favorise les sites web sécurisés. C'est pourquoi les SEO recommandent de lancer les nouveaux projets web directement en HTTPS. Si vous avez basculé de HTTP à HTTPS, assurez vous que l'ancienne version en HTTP redirige bien automatiquement vers la nouvelle, sans quoi vous risquez d'avoir du contenu dupliqué à cause du double protocole.

Comment fonctionne l'indexation d'un site web ?

Le crawler adapte sa fréquence de visite à celle de mise à jour de la page indexée

Le crawler visite régulièrement les pages connues pour tenir à jour l'index. Si une modification conséquente est identifiée, alors le crawler ajustera sa fréquence de visite pour augmenter sa réactivité.

Ainsi, une page mise en ligne plusieurs fois par jour sera visitée très régulièrement par le robot d'indexation.

A contrario, une page n'ayant pas bougé depuis plusieurs mois sera visitée quelque fois par an seulement.

Combien de temps faut-il avant que mon site soit indexé sur Google ?

Votre site pourra être indexé très rapidement si vous faites un lien vers lui, depuis une page régulièrement visitée par GoogleBot. Dès que vous commencerez votre travail de référencement / communication digitale, vous aurez vos premiers liens et Google vous trouvera tout seul.

Pour forcer l'indexation d'une page, vous pouvez utiliser la Search Console. L'oprétation dure 2 minutes et votre page devrait être indexée en quelques heures seulement.

Le spider suivra et stockera les liens trouvés

Lors de sa visite, le robot listera les liens trouvés sur la page, puis il en suivra toute ou partie.

En effet, tous les sites ne sont pas égaux face à GoogleBot, pour ne parler que de lui.

Chaque site dispose d'un "budget crawl", une limite du nombre de visites sur un temps donné, variant selon la valeur perçue du domaine.

Pour estimée le budget crawl de votre site, un méthode de calcul consiste à ouvrir vos logs serveur et compter le nombre de hits venant d'une ip Google.

Plus simple, vous pouvez obtenir le nombre moyen de pages visitée par jour dans Google Search Console et multiplier cette valeur par 7 pour obtenir votre budget crawl hebdomadaire.

 Créez un fichier sitemap.xml pour déclarer toutes vos pages aux moteurs de recherche

Au lancement d'un eCommerce, les premiers jours seront compliqués parce que GoogleBot connaitra une toute petite portion de votre site.

Vous pouvez aider Google à découvrir toutes vos pages en lui fournissant un fichier nommé "sitemap.xml".

Il s'agit d'une fichier listant toutes vos pages. La liste se présente au format XML, un langage permettant d'être compris par de nombreux logiciels, navigateurs, middlewares et crawlers.

Nous vous recommandons de faire plusieurs sitemaps, surtout si vous proposez plusieurs milliers d'URLs.

Vous devez respecter la convention de nommage "sitemap.xml" parce que les robots des moteurs de recherche testeront son existance, même si vous n'avez pas fait de lien vers ce fichier.

Comment faire un fichier sitemap ?

Dans un monde idéal, votre fichier devrait respecter les conventions d'écriture XML. Néanmoins, un fichier contenant une simple liste d'urls sera parfaitement comprise par les moteurs de recherche principaux. Voici un exemple de code xml :

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//egoprod.fr/main-sitemap.xsl"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://egoprod.fr/</loc>
<lastmod>2017-02-14T17:14:22+01:00</lastmod>
</url>
<url>
<loc>https://egoprod.fr/communiquez-existez/referencement-naturel/</loc>
<lastmod>2016-12-04T12:22:02+01:00</lastmod>
<image:image>
<image:loc>http://egoprod.fr/wp-content/uploads/2014/09/Screenshot_3.png</image:loc>
</image:image>
</url>
</urlset>

A chaque CMS son de sitemap

La majorité des CMS sont soit livrés avec un générateur intégré, soit compatibles avec des plugins ou extensions permettant de faire le nécessaire. Même si certains font mention à un "sitemap Google", ces fichiers sont 100% compatibles avec Bing, Yahoo, DuckDuckGo, Qwant, etc.

  • Sur Drupal, vous pouvez utiliser XML sitemap
  • Sur Wordpress, des dizaines de plugins gratuits existent. Nous vous recommandons la boite à outils Wordpress SEO
  • Sur Joomla, téléchargez l'extension Sitemap Faster
  • Sur prestashop, allez dans le menu "modules" et cherchez l’excellent "Google Sitemap". Il vous permettra de générer des sitemap avec un moteur d'exclusion (si vous ne voulez pas intégrer certains type de page)
  • Encore mieux sous Magento : cette fonction est directement incluse  (Allez dans le menu "Catalogue > Google Sitemap")

Comment optimiser l'indexation de votre site ?

Assurez vous que les pages les plus importantes soient parcourues en premier. En suivant la logique du surfeur aléatoire, pensez à lier les pages les plus importantes depuis le menu. Pour augmenter les chances d'être parcourue, pensez à intégrer ces pages à un niveau très haut dans l'arborescence.

Enfin, liez ces pages depuis les pages les plus profondes, les plus spécialisées, pour diriger le flux de visiteurs vers elles.

Inversement, vous voudrez réduire la visibilité des pages ayant moins d'intérêt.

Dans les années 2000, Google a proposé l'ajout d'un attribut "rel="nofollow" dans la code html des liens, pour lui interdire de suivre les liens présentant moins d'intérêt.

Cela se présentait sous cette forme :

une ancre

Les référenceurs ayant sauté sur l'occasion pour optimiser à fond le PageRank des pages importantes (PageRank Sculpting), Google a réagi en modifiant les règles de positionnement. Aujourd'hui, il est même pénalisant de placer du nofollow sur des liens internes.

Pourquoi Google n'indexe pas mon site ?

Si votre site n’apparaît pas sur Google, pas même sur son propre nom, il y a fort à parier qu'un problème technique l'empêche d'indexer vos pages. Reprenez un à un les points abordés au début de cet article ("Comment s'assurer que son site soit indexable ?") - Vous trouverez rapidement le facteur bloquant.

Si votre site sort sur son nom mais pas sur vos mots clés importants, alors il s'agit d'un autre problème : votre site n'est peut être tout simplement pas légitime !

Seuls les sites qui méritent d'être en première page sont mis en avant. Comparez votre site à ceux en première page. Outre l'aspect visuel - purement subjectif - comparez avec eux vos contenus, le nombre de pages traitant du sujet, le nombre de sites qui vous cite comme référence, la manière dont les internautes parcourent vos pages. Bref, travaillez et améliorez continuellement : vous finirez tôt ou tard par arriver en haut de Google.

 

Ecrit à par aurelien morilon