Duplicate Content: Definition und Problematik

Definition

Abbildung: Duplicate Content – Autor: Seobility – Lizenz: CC BY-SA 4.0

Der Begriff “Duplicate Content” kann als “doppelter” bzw. “duplizierter Inhalt” ins Deutsche übersetzt werden und bezeichnet das Vorkommen ein und desselben Inhalts oder sehr ähnlicher Inhalte unter mehreren URL-Adressen.

Problematik

Duplicate Content kann zu Problemen bei ansonsten gutem Inhalt führen, da Suchmaschinen wie Google betroffene Inhalte nicht als einzigartig beurteilen. Da einzigartiger und hochwertiger Content jedoch ein wichtiger Anhaltspunkt für die Bewertung der Qualität einer Website durch Google ist, kann dies negative Konsequenzen für eine Website mit sich ziehen.

Ein weiteres Problem, das Duplicate Content mit sich bringt, ist, dass Google bei mehreren Seiten mit gleichem Inhalt nicht weiß, welche der betroffenen Seiten relevanter ist und in den Suchergebnissen erscheinen soll. Dies führt dazu, dass die Relevanz auf die jeweiligen Seiten “aufgeteilt” wird oder Google die für den Seitenbetreiber falsche Seite zur Auflistung in den Trefferlisten auswählt.

Darüber hinaus ist Duplicate Content auch in Bezug auf Backlinks problematisch, denn wenn der gleiche Inhalt unter mehreren URLs erreichbar ist, kann es vorkommen, dass andere Webseiten nicht auf die gewünschte Version des Inhalts verlinken. Dadurch gehen wertvolle Referenzen verloren bzw. existieren dann zwei oder mehrere Seiten, die nur ein wenig referenziert werden, anstelle einer Seite, die gut verlinkt ist. Durch Duplicate Content wird also die Linkpower auf die betroffenen Seiten aufgeteilt, was das Ranking der einzelnen Seiten beeinträchtigen kann.

Bei bewusster Manipulation durch den Webseitenbetreiber kann Duplicate Content sogar zu einer Abstrafung durch Google führen. Dies ist beispielsweise dann der Fall, wenn Inhalt von fremden Seiten geklaut wird oder wenn Webmaster versuchen, durch mehrere Seiten zum gleichen Thema öfter in den Suchergebnissen angezeigt zu werden und dadurch die Besucherzahlen für die eigene Website zu erhöhen.

Trotz allem sollte Webseitenbetreibern jedoch stets bewusst sein, dass Duplicate Content nicht grundsätzlich schlecht ist. Manchmal kann er sogar notwendig sein, z.B. bei rechtlichen Angaben, die auf mehreren Seiten wiederholt werden müssen. Dies weiß auch Google, weshalb Duplicate Content nicht grundsätzlich abgestraft wird, sondern je nach Einzelfall die Angemessenheit der duplizierten Inhalte abgewogen werden muss.

Arten von Duplicate Content

Zunächst kann zwischen internem und externem Duplicate Content unterschieden werden. Von internem Duplicate Content ist dann die Rede, wenn gleiche Inhalte auf mehreren URLs der gleichen Website vorhanden sind. Externer Duplicate Content hingegen tritt auf, wenn gleiche Inhalte auf unterschiedlichen Websites vorzufinden sind. Dies kann beispielsweise durch die Übernahme von Pressemitteilungen oder durch Plagiate bedingt sein. Auch die Erstellung von separaten Webseiten für einzelne Projekte eines Unternehmens kann die Ursache für die Entstehung von externem Duplicate Content darstellen, wenn diese Website teilweise Inhalte der zentralen Unternehmenswebsite übernimmt.

Darüber hinaus können unterschiedliche Abstufungen von Duplicate Content voneinander abgegrenzt werden. Eine Seitendopplung (Duplikat) liegt dann vor, wenn mindestens eine Seite inhaltlich identisch mit einer anderen Seite ist. Dabei ist nicht zwangsläufig eine 100%-ige Gleichheit erforderlich, denn auch wenn sich z.B. die Seitentitel unterscheiden, werden Seiten mit gleichem Inhalt / Text von Google als Duplikate erkannt.

Neben solchen Seitendopplungen kann es jedoch auch vorkommen, dass Seiten den vollständigen Inhalt einer anderen Seiten (neben weiteren Inhalten) beinhalten (inkludieren). Dieses Problem tritt beispielsweise häufig bei Weblogs auf, wenn der komplette Text der Artikel in der Artikelseite auf der Startseite oder auf Tag-Seiten angezeigt wird.

Eine weitere wichtige Art von Duplicate Content ist der sog. “Near Duplicate Content”. Dieser Begriff bezeichnet das Vorkommen gleicher Inhalte auf mehreren Seiten, wobei das Thema jeweils unterschiedlich formuliert und aufbereitet wird. Ein Beispiel hierfür wäre die Veröffentlichung zweier unterschiedlicher Artikel zum Thema “Content Marketing”, die inhaltlich auf die gleichen Aspekte eingehen. Zwar handelt es sich dabei nicht um identische Seiten, allerdings tritt durch die doppelte Verwendung des gleichen Themas das Problem der Keyword-Kannibalisierung auf, da zwei Seiten existieren, die zu den gleichen Keywords konkurrieren und sich somit gegenseitig Ranking-Potenzial wegnehmen.

Entstehung von Duplicate Content

Duplicate Content entsteht grundsätzlich dann, wenn identischer Inhalt unter verschiedenen URLs erreichbar ist. Dies kann wiederum vielfältige Ursachen haben, wie z.B.

Inhalte sind mit und ohne “www.” (Subdomain) vor der Domain erreichbar
die Website ist sowohl über HTTP als auch über HTTPS erreichbar
die Startseite kann mit und ohne “index.html” in der URL aufgerufen werden
gleiche Inhalte sind mit verschiedenen URL-Parametern verlinkt (z.B. Artikel eines Onlineshops nach verschiedenen Parametern sortiert, aber mit denselben Ergebnissen)
Session-IDs in der URL, die zum Tracking des User-Verhaltens verwendet werden
Wechsel der Domain und Verwendung der gleichen Inhalte auf der neuen Domain
Besitz verschiedener Domainnamen oder -endungen mit den gleichen Inhalten (z.B. ein Unternehmen besitzt und betreibt sowohl die Domain “www.unternehmenabc.de“ als auch “www.unternehmen-abc.de“ und “www.unternehmen-abc.info“, um eine Besetzung dieser Domains durch Dritte zu verhindern)
Kategorie- und Tagseiten, z.B. auf Blogs, auf denen teilweise ganze Artikel untereinander aufgelistet werden
Paginierung (Seitennummerierung), z.B. von Kommentaren
Druckversionen von einzelnen Seiten
gleichzeitige Verwendung groß- und kleingeschriebener URLs (z.B. eine Unternehmenswebsite ist sowohl unter “www.unternehmen.de“ als auch unter “www.Unternehmen.de“ erreichbar)
verschiedene Sprachversionen einer Seite (stellt aber kein Problem dar, wenn Google erkennen kann, dass die Versionen für unterschiedliche Länder vorgesehen sind, z.B. anhand des hreflang-Attributs)
mobile Versionen einer Website mit gleichem Inhalt
Verwendung identischer Inhalte und Texte von externen Seiten oder der eigenen Seite (z.B. direkte Übernahmen von Produktbeschreibungen der Hersteller Homepage)

Lösungsansätze

Wenn auf Ihrer Website bereits ein Problem mit Duplicate Content besteht, können Sie folgende Lösungsansätze anwenden, um dieses Problem zu beheben. Die Methoden eignen sich jedoch auch dafür, der Entstehung von Duplicate Content grundsätzlich vorzubeugen.

Zunächst kann ein HTTP-Redirect, am besten mit dem HTTP Statuscode 301 – “Moved permanently” – für solche URLs eingerichtet werden, die nicht in den Suchergebnissen erscheinen sollen. Durch den Redirect wird der User (und sämtliche Bots) automatisch auf die “richtige” URL weitergeleitet und das Problem von Duplicate Content behoben. Wichtig ist jedoch, dass immer auch auf die entsprechende Unterseite weitergeleitet wird und beispielsweise nicht auf die Startseite, da der User ansonsten wieder die richtige Seite finden muss und dadurch die User Experience negativ beeinflusst wird.

Eine weitere Möglichkeit zur Lösung von Duplicate Content Problemen ist die Verwendung von Canonical Links. Dabei handelt es sich um Tags, die im Quellcode einer Website eingefügt werden, um auf die ursprüngliche Quelle des Inhalts der Seite zu verweisen. Dadurch teilen sie Suchmaschinen wie Google mit, welche URL bevorzugt wird (=kanonische URL) und deshalb in den Suchergebnissen erscheinen soll. Ob ein HTTP-Redirect oder ein Canonical Link die richtige Lösung ist, kann jedoch nicht pauschal festgelegt werden, sondern muss je nach Einzelfall entschieden werden. So eignet sich die Verwendung eines Canonical Links beispielsweise im Falle von Druckversionen besser, während bei einem Domainumzug eher auf ein HTTP-Redirect zurückgegriffen werden sollte.

Eine weiterer Lösungsansatz besteht darin, Google durch die Verwendung von “noindex” darauf hinzuweisen, dass eine bestimmte Seite nicht indexiert werden soll, womit ebenfalls der Problematik von Duplicate Content entgegengewirkt wird.

Weitere Hinweise zur Vermeidung von Duplicate Content

Um Duplicate Content bereits im Voraus zu vermeiden, sollten grundsätzlich gleiche Inhalte nicht mehrfach auf verschiedenen Seiten verwendet werden. Stattdessen sollte man sich bei der Erstellung einer Website das Ziel setzen, einzigartige und hochwertige Inhalte für den User zu schaffen, und auf die Verwendung von sich ständig wiederholenden Textbausteinen verzichten, da dies nicht nur bei Suchmaschinen, sondern auch bei den Usern schlecht ankommt.

Wenn es sich in manchen Fällen trotzdem nicht vermeiden lässt, bereits bestehende Inhalte zu verwenden, sollte bei der bewussten Übernahme von fremden Inhalten immer auch die entsprechende Quelle verlinkt werden, damit Google erkennen kann, bei welcher Version es sich um das Original handelt. Alternativ kann auch hier mit Canonical Links gearbeitet werden.

Weiterhin gibt es einige technische Aspekte, die zu berücksichtigen sind, wenn Duplicate Content vermieden werden soll:

Alle Webseiten sollten grundsätzlich auf Adressen mit oder ohne www. mit dem Statuscode 301 – “moved permanently” – weiterleiten (nicht beides erlauben!)
Bei einem Domainwechsel muss eine Weiterleitung von der alten Domain auf die neue eingerichtet werden, wobei auch hier darauf geachtet werden sollte, immer auf die entsprechenden Unterseiten und nicht auf die Startseite weiterzuleiten.
URLs sollten auf die kleingeschriebene Variante beschränkt werden.
Listen etc., die verschiedene Sortierparameter aufweisen können, sind per Canonical Link auf eine Sortiervariante zu begrenzen.
Am besten sollte für jede Seite ein konkreter Canonical Link angegeben werden, dann können unliebsame Parameter in URLs (z.B. /index.html?source=web&refer=google), die durch unsaubere Verlinkungen etc. zustande kommen können, keine Duplikate erzeugen.
Prüfen Sie, ob die Ergebnislisten auf Ihrer Website genügend Unterscheidungskraft aufweisen. Befinden sich beispielsweise alle Artikel aus Kategorie A auch in Kategorie B, werden diese Kategorie-Seiten bzw. Ergebnislisten wahrscheinlich identisch sein, auch wenn sie eine andere Reihenfolge aufweisen.
Bei Kategorie- und Tagseiten (z.B. auf Blogs) ist es besser, den Text einzelner Artikel nur anzureißen (statt ihn komplett anzuzeigen) und einen Weiterlesen-Knopf anzubieten. Dies beugt nicht nur Duplicate Content vor, sondern erhöht außerdem die Pageviews per User.

Duplicate Content