Google a un problème avec le contenu dupliqué:
De façon à bien servir ses utilisateurs, Google doit organiser, trier et présenter des résultats pertinents.
Le “référenceur” lui, a un problème avec Google:
Le référenceur veut des positions dans la “serp” et il sait que le référencement d’un site web passe nécessairement par du contenu.
Le contenu est la ressource tant convoitée (car avant même de penser à diriger des liens, il faut qu’il y ait quelque chose au bout du lien).
L’humain par nature est paresseux , et il aura tendance à prendre des raccourcis — par exemple:piquer du contenu chez le voisin…
Donc, d’un côté il y a Google qui veut donner la meilleure expérience à ses utilisateurs et de l’autre côté il y a le webmaster qui cherche à donner de l’exposure à ses clients…
Pour Google c’est simple:
Si on peut retrouver la même informations ailleurs, cela ne sert à rien de la répéter, alors on l’omet simplement des résultats, voyez ici je ne parle pas de pénalité, mais d’omission, j’en ai déjà parlé dans ce billet en 2 partie sur le contenu dupliqué.
Je n’entrerai pas dans les détails, mais Google doit stocker des quantités gargantuesque de donnés sur ses propres serveurs, ce qui vient à dire que cela leurs coûte des $$$ (serveurs, électricité, techniciens, air climatisé, locaux etc.), il est alors clair que de façon à diminuer ces frais, rien ne sert de garder en “cache” le même contenu plusieurs fois — sans compter que cela ne sert à rien de présenter le même contenu à un utilisateur.
Il faut se rappeler cette phrase que je dis souvent: ”Google ne vous doit rien!”, son seul souci est de répertorier le Web du mieux qu’il peut. S’il ne vous doit rien, pourquoi paierai-t-il pour stocker votre contenu en plusieurs exemplaires?
Google doit maintenant décider, quel sites il doit prioriser (il le fait avec son algorithme, et j’ose espérer qu’il a développé une façon de déterminer la partenité du contenu). Mais, qu’arriverait-il si votre contenu était répertorié chez un voisin avant même que le “googlebot” ait visité votre site?
Il y a des gens que j’appelle les paresseux du web, qui n’en ont rien à foutre de créer du contenu, et ils repiquent le contenu des autres (le scraping), si ce site de “scraping” a du nouveau contenu généré journalièrement, il est normal que le “googlebot” aille le visiter plus souvent, donc il a de fortes chances que le contenu de votre site soit répertorié plus rapidement sur un site de scraping que le vôtre!
Google ne voulait certainement pas devenir la police du web et décider qui est propriétaire du contenu, mais par la force des choses il y a été contraint. Si votre contenu est présent à plus d’un endroit dans votre site ou pire encore sur d’autres sites web, Google doit faire le ménage.
Pour le référenceur c’est plus compliqué:
Il doit essayer de convaincre le propriétaire du site web qu’il a besoin de plus de contenu.
Les réponses que je me fais servir habituellement:
- J’ai pas le temps de faire cela
- C’est toi qui connait ça!
- On va pas ré-écrire des textes
- Prend les textes de notre brochure (qui soit dit en passante date un peu)
- Prend du texte sur les sites de mes concurrents et change-les un peu.
- Je ne veux pas que ça me coûte plus cher (ils pensent qu’en engageant un référenceur, le problème est réglé)
- Vous en avez certainement des meilleurs…
Comme je l’ai mentionné plus haut, un site a besoin de contenu (il faut de la viande autour de l’os) et Google aime la viande fraîche!
Je m’éloigne un peu du sujet, car le propos de l’article aujourd’hui n’est pas de solutionner le problème de création de contenu, mais plutot, d’éviter que le contenu soit dupliqué…
Je vais bien humblement tenter de vous fournir des solutions pour que vous puissiez apporter les correctifs.
Les causes du contenu dupliqué
- Mauvaise gestion des adresses URL INVOLONTAIRES (CMS, index.php, session ID, RSS, Canonical, Printer friendly pages, etc.)
- Scrapping VOLONTAIRE (voleurs de contenu)
Les solutions du contenu dupliqué
Décidé si vous voulez des WWW ou non (.htaccess, Google webmaster tools)
- www.votresite.com
- votresite.com
Cela s’appèle la « canonicalisation »
Familiarisez-vous avec votre CMS
Joomla par défaut, créer du contenu dupliqué, à chaque fois que vous créer un article une adresse est créée, vous devez ensuite lier cet article à un menu, lorsque vous créez le menu, une autre adresse est créer si vous ne faites pas attention, vous avez maintenant votre article en 4 exemplaires:
- L’article
- Le menu
- Le .pdf de l’article
- Le .pdf de l’article lié au menu
Éviter de mettre un lien sur l’index de votre site à partir du bouton de navigation Accueil par exemple, car vous pourriez facilement vous retrouver avec du contenu dupliqué 3 fois…
- www.votresite.com
- www.votresite.com/index.html
- www.votresite.com/accueil.html
Mettez plutôt le lien sur la racine <a href="/">Accueil</a>
Redirection 301
Google recommande d’utiliser la redirection 301 avec le .htaccess
Le Scraping
Une solution qui pourrait être intéressante pour les blogues nous viens de Google:
« Cependant, il est utile de s’assurer que chaque site sur lequel votre contenu est diffusé inclut un lien renvoyant vers votre article original. »
Cela pourrait aussi réglé le cas des plus paresseux du web… ceux qui automatise leurs Scraping.
Par contre il y a des site de Scraping qui enlèvent les liens, votre seul recour est donc de déposer une plainte DMCA
Je vous demande donc de faire un effort et de fournir du contenu original sur ce site.
Merci