¿Qué es el Contenido Duplicado y cómo evitarlo?

¿Qué es el contenido duplicado o duplicate content?

Imagen: Contenido duplicado – Autor: Seobility – License: CC BY-SA 4.0

Contenido duplicado es un término que hace referencia a la aparición de un texto idéntico o sumamente parecido en distintas URLs y que pueden encontrarse en el mismo o en diferentes websites.

¿Por qué el contenido duplicado puede afectar al SEO?

El contenido duplicado atrae problemas para el SEO al perjudicar contenidos que son buenos. Básicamente, enfrenta los temas entre sí y no le permite a los buscadores como Google identificar cuál es el artículo original.

Esto es sumamente importante porque Google considera a los contenidos únicos y de alta calidad como uno de los factores de posicionamiento en las SERPs y además, actúan como factor para evaluar la relevancia de un website.

En este sentido, contener o competir con publicaciones duplicadas solo genera consecuencias negativas, por ejemplo, la caída del posicionamiento orgánico de las páginas afectadas.

Otro problema que pueden generar las publicaciones duplicadas ocurre cuando los rastreadores de Google verifican diversas páginas con el mismo contenido y, por ende, no pueden reconocer cuál de ellas es la que tiene más relevancia y debería aparecer en los resultados orgánicos. Lo anterior, puede contemplar dos escenarios poco favorables:

La importancia del texto se divide entre las páginas respectivas.
Google selecciona una página cualquiera que, casi siempre, es la equivocada para la estrategia SEO y la muestra en los resultados orgánicos.

Por otra parte, los artículos idénticos pueden liar la organización de backlinks, porque al acceder desde distintas páginas al mismo contenido podría pasar que otros sitios web no enlacen a la versión deseada. Esto significa que se pierden las referencias valiosas para el SEO y que las dos o más páginas que existan duplicadas estarán poco referenciadas en lugar de constituir una página bien enlazada.

Por lo tanto el contenido duplicado distribuirá el link juice entre las páginas afectadas y tendrán, cada una, un impacto negativo en el ranking de Google.

Además, en algunos casos Google podría aplicar sanciones si considera que se han manipulado los algoritmos al crear contenido replicado intencionadamente. Este tipo de acciones son comunes, por ejemplo, cuando un texto es robado de un sitio externo o si se intenta publicar un mismo contenido desde diversas fuentes para que aparezcan en los resultados orgánicos e incrementar el número de visitantes a la website.

No obstante, los duplicados exactos no son siempre dañinos para el SEO. Puede que, en ocasiones, sea necesario emplearlos para referirse a, por ejemplo, información legal que deba ser mostrada de forma repetitiva en diferentes páginas. En dichas circunstancias, Google detecta un argumento válido para el uso de textos duplicados y no aplica sanciones, en su lugar, evalúa los motivos caso por caso.

Tipos de contenido duplicado

Antes de continuar es necesario distinguir entre contenido duplicado externo e interno. En este orden, los “textos replicados internos” se definen como aquellos que aparecen bajo distintas URLs en un mismo sitio web.

Al contrario, se habla de “contenido duplicado externo” cuando el mismo texto puede ser encontrado en diferentes websites. Sus causas más comunes son: los comunicados de prensa, el plagio, mal manejo de parámetros URL o la creación de sitios web por separado para proyectos individuales de una misma compañía. Este último caso se produce, por lo general, cuando se copian artículos de la página principal de la empresa y se publican en otras páginas nuevas.

Por otra parte, existen diferentes niveles de contenido duplicado. Así pues se habla de duplicado exacto si dos URLs tienen el mismo contenido, el cual no necesariamente tiene que ser igual al 100%, porque incluso si los títulos de las páginas difieren, Google las considera como contenido duplicado si el cuerpo del texto es idéntico.

Siguiendo esta línea, también pueden encontrarse duplicados exactos en webs que divulgan contenidos de otras páginas al completo. Este es un problema recurrente en los blogs cuando se muestran los textos de sus artículos en su totalidad en la home o en páginas de etiquetas, en lugar de fragmentos o previews.

Otra clase de contenido duplicado importante de mencionar son los textos casi exactos o también conocidos como “near duplicate content” en inglés. Este término SEO se refiere a publicaciones muy similares que aparecen en diferentes páginas pero que han sido formuladas y editadas de forma distinta.

Por ejemplo, digamos que se redactan dos artículos diferentes sobre “Pesca con red” y los dos cubren los mismos aspectos en términos de contenido.

A simple vista, ambas páginas pueden parecer genuinas pero, cuanto menos, subyace un problema de canibalización de palabras clave, ya que los artículos tratan sobre el mismo tema y buscan posicionarse para las mismas palabras clave. Como consecuencia, se perjudican entre sí en los resultados de búsqueda.

¿Cuándo se genera un contenido duplicado?

Como se ha mencionado, el contenido duplicado se genera cuando se puede acceder a temas idénticos desde diferentes páginas. Las causas pueden ser:

Cuando se puede acceder al contenido con o sin escribir «www.» (el subdominio) en la búsqueda de Google.
Cuando el sitio es accesible a través del HTTP y también HTTPS de manera indiferente.
Si se puede acceder al home de una página con o sin una página «index.html» en la URL.
Cuando el contenido duplicado está enlazado bajo diferentes parámetros GET. Por ejemplo, puede ocurrir que los productos de una tienda online estén ordenados por criterios distintos, pero todos dirigen al mismo resultado.
Cuando una página emplea un identificador de sesiones en sus URLs para rastrear el comportamiento de las y los usuarios.
Al cambiar el dominio y usar exactamente el mismo contenido en el nuevo dominio. Es importante saber que los textos viejos continúan indexados en una data de caché.
Cuando se adquieren diferentes nombres de dominio o extensiones para usar el mismo contenido. Por ejemplo, una empresa que realice la compra de las URLs: “www.empresaabc.com” y “www.empresa-abc.com” para prevenir que otros ocupen esos nombres y operen con el mismo contenido.
En el uso incorrecto de las páginas de categorías y las de etiquetas. Un ejemplo común de esto son los blogs, en ellos es habitual que su organización muestre los temas seguidos uno tras otro.
Cuando se recurre a la paginación web. Esta práctica inadecuada enumera cada página de contenido sin separarla en un home. Ejemplo de ello son las páginas de comentarios.
Al generar versiones para imprimir de páginas por separado.
Cuando es indiferente ingresar a un sitio web utilizando mayúsculas y minúsculas en la URL de forma simultánea. Por ejemplo, un sitio web de una corporación al que puedes acceder a través de “www.empresa.com y también “www.Empresa.com”.
Cuando se emplean duplicados idénticos en diferentes idiomas para una página. Por lo general, no hay problema si Google detecta que son escritos para distintos países y se emplea el atributo hreflang para indicarlo.
Cuando se crean versiones para dispositivos móviles de un mismo sitio web con contenido idéntico.
Cuando se emplea contenido idéntico de páginas externas en la web propia, lo cual sería plagio. Por ejemplo: copiar y pegar la descripción de un producto que se muestra en la web del fabricante.

¿Cómo resolver el problema con los duplicados?

Si en este momento ya tienes un problema SEO en tu web por culpa de un contenido duplicado, puedes servirte de algunas de las soluciones que se muestran a continuación. En todo caso, también puedes emplear estos métodos para prevenir la aparición de textos idénticos.

En primer lugar, puedes configurar una redirección del HTTP de preferencia con los códigos de estatado HTTP 301: “movido permanentemente”.

Este método es funcional para los contenidos duplicados internos. Su funcionamiento es simple: se encarga de que las páginas indeseadas no aparezcan en los resultados de búsqueda. Básicamente, redirige de forma automática a las y los visitantes y bots a la URL “correcta”, con lo que resolvería el problema de los contenidos idénticos.

Eso sí, asegúrate de que las y los internautas sean redirigidos a la URL adecuada y no al home u otro lado, de lo contrario, tendrán que volver a buscar la página y esto ocasionaría una experiencia negativa.

Otra manera de resolver los inconvenientes con textos idénticos es empleando las URLs canónicas.

Las URLs canónicas son etiquetas que se añaden al código fuente de una website para referirse a la raíz original, a la página madre donde se aloja el contenido importante. Se considera una manera de decirle a los buscadores como Google, cuál es la URL de preferencia y cuál debería aparecer en los resultados de búsqueda.

A pesar de lo mencionado, no puede asegurarse que ambas soluciones sean lo ideal en todos los casos, pues esto dependerá de cada página en concreto. Por ejemplo, usar las URLs canónicas puede funcionar mejor para aquellas versiones imprimibles de un sitio web, mientras que un redireccionamiento HTTP podría funcionar para páginas que han cambiado de dominio.

Una solución adicional es usar una etiqueta «Noindex« para indicarle a Google que una página no debe ser indexada.

Se trata de una opción sencilla que podría erradicar el problema de los contenidos duplicados desde la fuente.

Otras maneras de evitar los contenidos duplicados

Para evitar la duplicación de textos, en primer lugar, no debes usar el mismo contenido para páginas diferentes.

En cambio, si estás construyendo un sitio web, tu objetivo debe ser el de crear contenido original y de alta calidad para tu público e incluso evitar el uso de los mismos módulos o plantillas de la página web, ya que esto último es bastante malo tanto para los motores de búsqueda como para las usuarias y usuarios.

En ocasiones puede resultar muy complejo deshacerse totalmente de un contenido ya escrito, cuando eso ocurre debes enlazar la página fuente o usar enlaces canónicos, así los buscadores pueden reconocer cuál es la versión original y no modificar el posicionamiento orgánico de ninguna web.

Estos son algunos aspectos técnicos a considerar si deseas eliminar o evitar el contenido duplicado:

Todas tus páginas web deben redirigir a tus URLs con “WWW” o sin el uso del “WWW”, pero no de ambas formas. También deben incluir el código 301 – “Movido permanentemente” para textos duplicados.
En caso de que se haya cambiado el dominio, debes configurar el redireccionamiento desde el viejo dominio al nuevo. Asegúrate de enviar a tu público a la subpágina correspondiente y no al home de tu sitio web.
Tus URLs deberían emplearse únicamente con su versión en minúsculas.
Cuando emplees listados que pueden ordenarse bajo distintos parámetros, limitalos a una variante con enlaces canónicos.
Lo ideal será especificar enlaces canónicos para cada página web como una manera de que los parámetros indeseados en las URLs (por ejemplo, /index.html?source=web&refer=google) no se confundan con enlaces descuidados y no genere contenido duplicado.
Revisa que las listas de tu sitio web puedan distinguirse lo suficiente. Por ejemplo, si todos los artículos de una categoría A se hallan en otra al mismo tiempo en una categoría B los resultados podrían contarse como contenidos idénticos, aunque tengan diferente orden.
En cuanto a las categorías y páginas de etiquetas, como en los blogs, lo mejor es mostrar fragmentos de los textos y no todo el artículo. Luego, puedes complementar con un botón de leer más y bastará para prevenir el duplicado de contenidos e incrementar las visitas a tu página.

Contenido duplicado