Le guide ultime du contenu dupliqué et du référencement

Publié: 2022-02-13

Le contenu dupliqué fait référence au contenu qui apparaît en ligne à plusieurs endroits. Par "lieu", nous entendons une page avec une URL unique. Il peut s'agir exactement du même contenu ou presque exactement du même, et il peut se trouver sur le même site Web ou sur un autre site.

Vous ne serez peut-être pas pénalisé - techniquement - par Google pour le contenu dupliqué, mais cela peut nuire à votre classement dans les moteurs de recherche. C'est parce qu'il est difficile pour les moteurs de recherche de déterminer quel emplacement du contenu est le plus pertinent. En conséquence, aucune des URL ne se classe en tête et aucune page n'obtient la visibilité de recherche la plus élevée possible.

Google est censé être capable de détecter le contenu en double, de regrouper toutes les URL en un seul cluster, puis de choisir le meilleur résultat. Mais cela ne fonctionne pas toujours correctement et la mauvaise URL peut être choisie. En fin de compte, les propriétaires de sites Web peuvent remarquer des classements inférieurs ou une réduction du trafic en raison du contenu dupliqué. Heureusement, il existe des moyens d'empêcher ce genre de choses d'arriver à vos sites.

Pourquoi le contenu dupliqué est un problème

Le contenu dupliqué affecte les moteurs de recherche et les propriétaires de sites de plusieurs manières :

  • Les moteurs de recherche ne savent pas quelles URL inclure ou non dans les index.
  • Les moteurs de recherche ne savent pas si les métriques de lien (autorité, confiance, etc.) doivent être dirigées vers une seule page ou vers plusieurs pages.
  • On ne sait pas quelle URL classer dans les SERP (pages de résultats des moteurs de recherche), et parfois l'URL indésirable peut surclasser l'URL légitime.
  • L'équité des liens (l'autorité et la valeur qu'une page transmet à une autre) est diluée car les autres sites qui souhaitent inclure un lien retour vers le contenu doivent choisir entre plusieurs URL. L'équité du lien est ensuite répartie sur les doublons au lieu de se concentrer sur une seule page.

Même avec des URL qui dirigent toutes vers votre site Web, si l'un d'eux a des attributs de lien qui le rendent peu convivial pour les utilisateurs, et que Google classe cette version de l'URL au lieu de l'original, les gens ne voudront peut-être pas cliquer dessus. Par exemple, yoursite.com/besttrails semble beaucoup plus invitant que yoursite.com/besttrails/?utm_content=buffer&utm_medium=social . Mais si Google se classe au deuxième rang parce qu'il pense qu'il s'agit de la version principale du contenu dupliqué, les gens ne cliqueront pas dessus parce qu'il est intimidant et peu fiable.

De plus, le « budget » de crawl de votre site Web s'épuise lorsque vous avez du contenu en double. Google explore les sites Web pour trouver de nouveaux contenus, et Google ré-explore également les sites périodiquement pour voir s'il y a quelque chose de nouveau. Si vous avez du contenu en double sur votre site, cela signifie que l'exploration approfondie de toutes les pages prendra plus de temps. Cela peut ralentir Google pour indexer et réindexer les pages et les afficher dans les résultats de recherche.

Politique de contenu en double de Google

Selon Google :

Le contenu dupliqué sur un site n'est pas un motif d'action sur ce site, sauf s'il apparaît que l'intention du contenu dupliqué est d'être trompeur et de manipuler les résultats des moteurs de recherche.

Cependant, bien que Google ne pénalise pas les propriétaires de sites Web pour la plupart des cas de contenu dupliqué, la société poursuit en disant :

Dans les rares cas où Google perçoit que du contenu en double peut être affiché dans l'intention de manipuler nos classements et de tromper nos utilisateurs, nous procéderons également aux ajustements appropriés dans l'indexation et le classement des sites concernés. Par conséquent, le classement du site peut en souffrir, ou le site peut être entièrement supprimé de l'index Google, auquel cas il n'apparaîtra plus dans les résultats de recherche.

Qu'est-ce que Google pourrait considérer comme une intention de tromper les utilisateurs et/ou de manipuler les classements des moteurs de recherche ? Créer intentionnellement des domaines, des sous-domaines et des pages avec un contenu dupliqué. Aussi, publier du contenu récupéré, surtout si vous n'y ajoutez rien d'autre de valeur.

Rappelez-vous cependant ceci : même si Google ne vous pénalise pas officiellement ou ne considère pas votre contenu dupliqué comme malveillant, cela peut toujours nuire à vos efforts de référencement. Si Google a cessé de classer votre site en raison de problèmes de contenu en double, vous pouvez soumettre une demande de réexamen une fois les problèmes résolus.

Comment se produit le contenu dupliqué

Habituellement, un propriétaire de site Web ne créera pas délibérément de contenu dupliqué. C'est pourquoi Google ne le pénalise pas trop drastiquement. C'est aussi la différence entre le contenu copié et le contenu dupliqué .

Le contenu copié, c'est lorsque vous prenez le libellé exact d'un autre site Web et que vous le publiez vous-même. Le contenu dupliqué se produit lorsque vous avez accidentellement ou sans le savoir une autre version de votre propre contenu ailleurs en ligne.

Ici, nous allons passer en revue les façons courantes dont le contenu dupliqué se retrouve en ligne. Après cela, nous parlerons de la façon de résoudre le problème du contenu dupliqué.

Pages HTTP, HTTPS, WWW et non WWW

Si votre site a deux versions différentes — www.votresite.com et votresite.com , par exemple — le même contenu se trouvera sur les deux versions du site, ce qui signifie qu'il y a du contenu en double. Il en va de même pour les sites http:// et https:// .

Pagination

La pagination peut se produire lorsqu'un article ou la section des commentaires d'un article de blog s'étend sur plusieurs pages. Ou, peut-être y a-t-il une galerie d'images avec chacune sur une page séparée. Ce type de duplication peut également se produire sur une page avec un défilement infini, où le nouveau contenu se remplit lorsque l'utilisateur continue de faire défiler vers le bas.

Variantes d'URL

Les paramètres d'URL, tels que les codes de suivi , peuvent créer involontairement du contenu en double. Par exemple, une page de votre site Web peut être votresite.com/sneakers , mais si vous avez un code de suivi pour voir d'où les gens ont cliqué, cela pourrait ressembler à votresite.com/newsletter?utm_source=newsletter . Même si Google et d'autres moteurs de recherche ne tiennent pas compte de ce contenu en double, vous devrez peut-être également gérer les paramètres distincts créant plusieurs entrées dans vos plates-formes d'analyse.

Les ID de session peuvent avoir le même effet. Une session est un bref historique de ce qu'un visiteur fait sur un site Web, comme lorsqu'il ajoute quelque chose à son panier. La session reste lorsque la personne clique sur d'autres pages afin que son panier reste intact. L'ID de session est le modificateur unique pour cette session, et il est parfois stocké dans l'URL (yoursite.com?sessionId=jow8082345hnfn8456). Cela peut créer plusieurs URL différentes avec le même contenu de page.

La même chose peut se produire si vous avez une version imprimable ou une version mobile du contenu. Les moteurs de recherche penseront qu'il existe plusieurs pages du même contenu. Parce qu'il y a.

C'est également un phénomène courant sur les sites Web de commerce électronique, en particulier lorsque les utilisateurs filtrent les résultats de recherche. L'URL reste à peu près la même, mais avec un ajout à la fin, comme la taille ou la couleur. C'est ce qu'on appelle la navigation à facettes ou filtrée . Le contenu des pages est presque le même, mais les URL sont uniques.

Même les barres obliques finales peuvent rendre une URL unique. Par exemple, votresite.com/page et votresite.com/page/ . Le moyen le plus rapide de voir si cela cause un problème de contenu dupliqué est d'accéder aux deux versions d'une page. Si l'un ne se charge pas, vous n'avez pas à vous en soucier. Sinon, la redirection est une option (plus à ce sujet dans un instant).

Davantage de façons dont le contenu dupliqué se produit

  • Descriptions de produits de commerce électronique : Il est courant que différents sites de commerce électronique aient du contenu en double lors de l'utilisation de la description d'un produit par le fabricant.
  • Pages de pièces jointes d'image : Lorsque chaque pièce jointe d'image a une page distincte, cela peut créer du contenu en double.
  • Pages de résultats de recherche : elles ajoutent un paramètre à l'URL de recherche, comme yoursite.com?q=search-term .
  • Environnement de mise en scène : il s'agit d'une version dupliquée de votre site utilisée pour les tests.
  • Pages de balises et de catégories : lorsque vous utilisez une balise ou une catégorie, WordPress créera automatiquement des pages de balises et de catégories dédiées. Cela peut parfois entraîner un contenu en double lorsqu'une page comporte plusieurs catégories ou balises.

Comment réparer le contenu dupliqué

Pour certains des petits problèmes répertoriés ci-dessus, vous pouvez trouver un paramètre dans votre plugin SEO qui vous aidera. Par exemple, dans le plugin Yoast, vous pouvez désactiver les URL des pages de pièces jointes pour les images :

contenu dupliqué

WordPress a également une option intégrée pour désactiver la pagination des commentaires :

contenu dupliqué

Sinon, cependant, les pratiques suivantes sont les principaux moyens de résoudre les problèmes de contenu en double.

1. Trouver le contenu dupliqué

Tout d'abord, vous devez trouver des instances de contenu dupliqué. Des outils tels que l'audit de site Ahrefs et la console de recherche Google peuvent explorer votre site et vous faire savoir s'il y a des avertissements de contenu en double.

Si vous essayez de trouver du contenu en double sur votre site pour un mot clé spécifique, vous pouvez saisir ceci dans Google :

site:votresite.com intitle: mot clé

Vous verrez alors toutes les pages de votre site Web qui incluent ce mot-clé. Une bonne règle de base consiste à rechercher un mot-clé spécifique afin qu'il soit plus facile de passer au peigne fin les résultats.

Si vous pensez qu'un article particulier a été dupliqué ailleurs en ligne, vous pouvez utiliser un vérificateur de plagiat comme Grammarly ou Copyscape pour trouver d'autres instances de phrases exactes. Ou, vous pouvez coller une phrase complète ou deux dans Google pour voir si elle apparaît ailleurs que sur votre site.

2. Ajustez l'URL du contenu via la canonisation

Une fois que vous savez qu'il y a du contenu en double en ligne, il est temps de déterminer quelle page est la principale à conserver.

Vous canonisez cette page principale pour les moteurs de recherche. La canonisation indique aux moteurs de recherche qu'une URL est une version principale d'une page - que cette page doit apparaître dans les résultats de recherche au lieu des doublons que le moteur peut rencontrer. Voici deux façons de canoniser le contenu :

Redirection 301

Créez une redirection 301 de la ou des pages en double vers la page principale. Les pages en double cesseront de se concurrencer et la page principale deviendra plus populaire et pertinente, ce qui signifie qu'elle commencera à se classer plus haut. Nous avons un article sur la façon de créer des redirections avec WordPress pour vous aider.

Vous bénéficiez également de l'avantage supplémentaire de toute autorité de lien/jus de page provenant de l'URL redirigée transférée vers la nouvelle cible.

Attribut Rel="canonique"

Cet attribut permet aux moteurs de recherche de savoir qu'une page est une copie d'une URL et que tous les liens, mesures et puissance de classement doivent être appliqués à l'URL principale spécifiée, et non à la page copiée. L'attribut doit être inclus dans l'en-tête HTML de chaque page dupliquée avec un lien vers la page d'origine sur laquelle vous souhaitez vous concentrer. Google a une documentation qui va en profondeur sur la façon d'ajouter l'attribut, et nous avons un contenu plus détaillé sur les URL canoniques et WordPress pour compléter cela.

Pour éviter le scraping de contenu, c'est-à-dire lorsque les bots copient, téléchargent et republient le contenu de votre site Web, ajoutez l' attribut rel="canonical" à vos propres pages Web. L'attribut sera auto-référentiel - il pointera vers l'URL sur laquelle il se trouve actuellement. Même si le contenu est supprimé, tant que les bots portent le code HTML complet, votre version sera toujours considérée comme l'original.

3. Ajustez les URL de votre domaine à l'aide de la console de recherche Google

La console de recherche Google vous permet de désigner le domaine préféré de votre site Web, comme votresite.com au lieu de www.votresite.com , par exemple. Vous pouvez également indiquer à Googlebot comment gérer différents paramètres d'URL. Cela peut résoudre tout ou partie de vos problèmes de contenu dupliqué. Mais avec Google uniquement. Pas avec les autres moteurs de recherche. Des plates-formes telles que Bing et Yandex ont leurs propres outils pour les webmasters.

Plus de conseils pour prévenir ou corriger le contenu en double

  1. Lors de l'ajout de liens internes, utilisez la même version du domaine, que ce soit avec ou sans www , par exemple. Utilisez également toujours la même version d'une page avec ou sans barre oblique à la fin. Peu importe la structure que vous choisissez, mais soyez cohérent avec elle.
  2. Si vous organisez un contenu syndiqué, le site Web qui utilise le contenu doit ajouter un lien vers le contenu original. Pas une variation de l'URL. Mais l'URL originale, principale et canonique.
  3. Ne publiez pas de pages vides en tant qu'espaces réservés. Chaque page vide sera indexée, ce qui peut faire croire au moteur de recherche que vous avez beaucoup de contenu dupliqué.
  4. Réduisez la quantité de contenu similaire que vous avez. Par exemple, supposons que vous ayez un site Web juridique et que vous desserviez différents comtés de votre région. Chaque page spécifique à un comté peut inclure des informations similaires si vous parlez du même sujet de droit, comme le droit des dommages corporels. Une option consiste à fusionner la page en une page plus grande sur les deux comtés, ou vous pouvez varier davantage le contenu pour garder les pages séparées.

Réflexions finales sur le contenu dupliqué

Trouver une petite quantité de contenu en double n'est généralement pas préoccupant. Mais les problèmes techniques qui affectent des centaines ou des milliers de pages doivent être résolus. De plus, cela ne fera pas de mal de résoudre tous les problèmes de contenu en double. Cela fait partie de la gestion d'un site épuré et performant. Après tout, la dernière chose que vous voulez faire est de rivaliser avec vous-même et de ruiner votre propre classement à cause du contenu sur lequel vous avez un contrôle total.

Une fois que vous avez identifié le contenu en double, vous pouvez également consulter notre article sur la façon de gérer la cannibalisation des mots clés pour éviter les problèmes de mots clés en double.

Comment avez-vous réussi à gérer le contenu dupliqué sur vos sites ? Parlons des stratégies du monde réel dans les commentaires !

Image en vedette de l'article par NikAndr / shutterstock.com