Duplicate Content (Doppelte Inhalte) verhindern

Duplicate Content / Doppelte Inhalte

Duplicate Content (auf deutsch: Doppelter Inhalt) ist ein sehr häufiges Problem bei Webseiten und kann unter Umständen zu einem schlechteren Ranking bei Suchmaschinen (bspw. Google und Bing) führen – insbesondere durch eine mangelnde Indexierung von Seiten, die zu ähnlichen Inhalt liefern. Mit doppelten Inhalten ist gemeint, dass Inhalte gefunden wurden, die über mehrere URLs erreichbar sind. Grundlage einer jeden OnPage Optimierung ist es, Duplicate Content ausfindig zu machen und bestmöglich zu vermeiden!
 
Inhaltsverzeichnis:

Was ist Duplicate Content?

Unter „Duplicate Content“ oder auch „Near Duplicate Content“ versteht man gleiche oder sehr ähnliche Seiteninhalte mit unterschiedlichen URL’s.

Dabei wird unterschieden zwischen:

  • Interner Duplicate Content: Wenn derselbe Inhalt (bewusst oder unbewusst) über mehrere URL-Varianten einer Domain aufgerufen werden kann.
  • Externer Duplicate Content: Wenn derselbe Inhalt auf verschiedenen Domains zu finden ist (unterschiedliche Webprojekte oder auch Sprachversionen der eigenen Webseite).

 

Was ist so schlimm daran?

 

Duplicate Content (Doppelte Inhalte)

Duplicate Content wird von Suchmaschinen nicht gerne gesehen.

Wenn Sie sich mit dem Thema Suchmaschinenoptimierung beschäftigen werden Sie sich zwangsläufig mit Duplicate Content auseinandersetzen. Die Suchmaschinen, allen voran Google, bevorzugen einzigartigen und qualitativ hochwertigen Content. An oberster Stelle steht der Suchende, der erwartet, dass er die bestmöglich passenden Suchtreffer zu seiner Anfrage gleich auf der ersten Seite erhält. Um diesem hohen Anspruch gerecht werden zu können, setzt Google erhebliche Ressourcen und Hirnschmalz ein, um tagtäglich Millionen von Webseiten zu durchstöbern, zu analysieren, zu bewerten und zu indexieren. Wenn es nun mehrere Seiten gibt, die denselben oder beinahe identischen Inhalt haben, dann kann nicht mehr ermittelt werden, welche dieser Seiten die höchste Relevanz besitzt. In Folge dessen müssen sich die Seiten also die Relevanz teilen und verlieren somit im Ranking der Suchtreffer massiv an Bedeutung. Je mehr Seiten von Duplicate Content betroffen sind, desto schlechter wird das Ranking!

Was macht Google mit Duplicate Content?

 

Wie Suchmaschinen Duplicate Content erkennen

Duplicate Content Infografik von Elliance

Da Google nicht bereits im voraus wissen kann, ob eine Seite Duplicate Content enthält, wird sie zunächst ganz normal gecrawlt und indexiert. Ungeachtet dessen, dass der komplette Vorgang der Indexierung von doppelten Inhalten für Google Zeitverschwendung ist und unnötige Ressourcen frisst,  wird trotzdem geprüft, ob der Ursprung ermittelt werden kann.

Handelt es sich um mehrere gleiche oder ähnliche Inhalte, die nur auf der eigenen Seite vorkommen, dann wird ermittelt, ob es sich dabei um notwendige Duplizierungen handelt oder manipulative Maßnahmen wie bspw. Spam. Bei notwendigen Duplizierungen (bspw. sich wiederholende rechtliche Angaben in einem Webshop) wirken sich diese nicht negativ auf das Ranking aus – handelt es sich hingegen um Spammy-Keyword-Content, verlieren im günstigsten Fall einfach nur alle betroffenen Seiten an Relevanz und versinken in den unendlichen Weiten des Goooooooooogle. Im schlimmsten Fall, nämlich dann wenn die Vermutung naheliegt, dass permanent und bewusst duplizierte Inhalte verbreitet werden, droht sogar die Abstrafung und Zurücksetzung im Ranking! Ähnlich verhält es sich auch dann, wenn festgestellt wird, dass der Content von einer anderen Seite kopiert oder „geklaut“ wurde. die Folge ist eine unmittelbare Herabstufung im Ranking oder gar Abstrafung, wenn es häufiger vorkommt.

Häufige Ursachen für Duplicate Content

 
Das duplizieren von Inhalten geschieht sehr häufig, ohne dass man es als Seitenbetreiber richtig wahrnimmt. Zum Einen können technische Aspekte die Ursache für Duplicate Content sein, zum anderen aber auch inhaltliche Vorgänge, die als selbstverständlich erachtet werden:

  • Ihre Homepage ist mit und ohne www erreichbar
    Beispiel: https://ihredomain.de & http://ihredomain.de
    .
  • Ihre Homepage ist per http und https erreichbar
    Beispiel: https://ihredomain.de & https://www.ihredomain.de
    .
  • Eine alte Seite wird durch eine neue Seite ersetzt
    Die alte Seite ist noch im Index der Suchmaschine und hat sich evtl. ein gutes Ranking aufgebaut, die neue Seite bietet nun jedoch dieselben Inhalte unter einem neuen Permalink (gleiche Domain, jedoch neue Link-Struktur).
    .
  • Domain-Umzug
    Sämtliche Seiten sind noch unter der alten Domain bei der Suchmaschine indexiert und die neue Domain liefert nun dieselben Inhalte unter einer völlig neuen URL.
    .
  • Kategorien, Tags, Paginierung
    Ein und dieselbe Seite ist sowohl direkt erreichbar, als auch über verschiedene Kategorien, Tags, Seitenzahlen, usw. (Beispiel: /duplicate-content/ – /seo/duplicate-content/ – /2/duplicate-content). Mitunter ein häfiges Problem bei den beliebten Tag-Clouds.
    .
  • Identische oder sehr ähnliche Produktbeschreibungen
    Ein häufiges Problem bei Webshops, die bei vielen ähnlichen Produkten (bspw. Farbvarianten) automatisiert dieselben Beschreibungen platzieren. Hier unterscheiden sich dann sowohl Inhalt, als auch META-Description und Seitentitel nur noch minimal.
    .
  • Print-Versionen von Seiteninhalten
    Wenn Sie Ihren Nutzern die Möglichkeit geben, Seiteninhalte auszudrucken (sei es nun über eine printfähige separate Seite oder ein PDF-Dokument), dann wird auch Google diese Version finden und evtl. als Duplicate Content einstufen.
    .
  • URL-Parameter und Session-IDs
    Werden gerne dazu verwendet, die Herkunft und das Verhalten der Webseiten-Besucher zu tracken (?sid=82). Durch diese Tracking-Parameter entstehen für die Suchmaschine unterschiedliche URL’s, die denselben Inhalt und somit Duplicate Content ausliefern.
    .
  • Paginierung (Seitennummerierung) von Kommentaren
    Viele Content-Management-Systeme bietet die Möglichkeit, ab einer bestimmten Anzahl von Kommentaren eine Trennung auf mehrere Seiten vorzunehmen. So entstehen für die Suchmaschine neue URL’s (?comments-1, &comments-2, …) mit Duplicate Content.
    .
  • Mehrere Domains, die denselben Inhalt veröffentlichen
    Es kommt vor, dass Seiteninhalte (bewusst) auf mehreren Webseiten veröffentlicht werden. Wenn auf diesen Webseiten keine Quellangabe mit entsprechender Verlinkung erfolgt, kann die Suchmaschine nicht mehr erkennen, woher das Original stammt. Evtl. ranken diese Seiten dann für denselben Inhalt besser, als Ihre eigene Webseite.
    .
  • Groß- und Kleinschreibung in URL’s
    Bei URL’s sollte nur die Kleinschreibung verwendet werden, um eine mehrfache Indexierung zu vermeiden (bspw. /duplicate-content/ und /Duplicate-Content/).
    .
  • Unterschiedliche Sprachversionen einer Webseite
    Viele Onlineshops sind in unterschiedlichen Sprachen verfügbar, wobei sich die verfügbaren Inhalte (Produkte und Beschreibungen) nur minimal unterscheiden. Die geografische Ausrichtung der Seite sollte Google mitgeteilt werden, damit nicht mehrere Sprachversionen in der Suche auftauchen und sich gegenseitig schwächen.
    .

Es gibt darüber hinaus sicherlich noch weitere Ursachen für Duplicate Content, die jedoch kaum ins Gewicht fallen. Ein Punkt den ich nicht aufgeführt habe, den ich aber auch für selbstverständlich erachte: duplizieren Sie niemals wissentlich Inhalte in dem Irrglauben, dass die Seite dann besser gefunden wird! Genau das Gegenteil wird der Fall sein!

Duplicate Content finden (Online-Check)

 
Internal Duplicate Content Check mit dem Siteliner ToolEin sehr nützliches und kostenloses Tool, um internen Duplicate Content auf der eigenen Webseite zu finden, ist Siteliner. Mit Hilfe von Siteliner können Sie Ihre gesamte Webseite auf doppelte Inhalte überprüfen und erhalten zudem eine detaillierte Auflistung der einzelnen Seiten mit Angaben zur prozentualen Übereinstimmung der Seiteninhalte (Match Words, Match Percentage, Match Pages).

Eine weitere Möglichkeit zu prüfen, ob die eigene Webseite von Duplicate Content betroffen ist, ist die Abfrage der Google-Suche auf markante Seiteninhalte. Kopieren Sie dazu einen Satz (oder Textausschnitt) von Ihrer Website und fügen Sie diesen mit Anführungszeichen (am Anfang und am Ende des Satzes) in das Suchfeld bei Google ein. Wenn Sie mehr als einen Suchtreffer erhalten, dann gibt es Duplicate Content, den die Suchmaschinen noch nicht aus dem Index herausgefiltert hat. Google signalisiert Ihnen diesen „Fund“ in der Regel auch anhand folgender Meldung:

Damit Sie nur die relevantesten Ergebnisse erhalten, wurden einige Einträge ausgelassen, die den 2 angezeigten Treffern sehr ähnlich sind. Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen. DC-Hinweis in den Suchtreffern von Google

Lassen Sie sich in einem solchen Fall die vermeintlichen doppelten Inhalte anzeigen (Suche wiederholen) und überprüfen Sie, ob es Ihre eigene Webseite betrifft oder gar ungewollt Plagiate Ihres Seiteinhalts im Netz auftauchen.

Duplicate Content vermeiden

 
1.) Domain-Umleitung mit ModRewrite in der .htaccess

Mit folgendem Eintrag in der .htaccess Datei (im Root Verzeichnis Ihres Webservers) können Sie die Domain ohne www auf die Domain mit www umleiten:

Das Ganze geht natürlich auch anders herum:

 

2.) Dauerhafte, serverseitige Weiterleitung mit 301 Redirect per .htaccess

Eine dauerhafte Weiterleitung sollte nur dann eingesetzt werden, wenn Sie eine alte (nichts mehr existierende) Datei auf eine neue umleiten möchten oder auch gleich eine ganze Domain. Der große Vorteil bei einem 301 Redirect liegt darin, dass der PageRank mit auf das neue Ziel übertragen wird! Die Einstellung erfolgt wiederum über die .htaccess Datei im Root-Verzeichnis Ihres Webservers.

Wenn Sie eine einzelne Datei umleiten möchten:

Wenn Sie eine ganze Domain umleiten möchten:

 

3.) 301 Redirect mit der Funktion header() in PHP

Alternativ zur permanenten Weiterleitung in der .htaccess gibt es auch die Möglichkeit, folgenden Verweis direkt in der HTML oder PHP Datei zu platzieren:

 

4.) Canonical Tags / rel=canonical

Canonical Tags sind eine sehr gute Möglichkeit, um verschiedene Seiten mit sehr ähnlichen oder identischen Inhalten zusammenzufassen, indem man den Suchmaschinen mitteilt, welche URL bevorzugt wird bzw. repräsentativ ist. Ich zitiere an dieser Stelle gerne Google, die es kurz und knapp auf den Punkt bringen: „Eine kanonische Seite ist die bevorzugte Version mehrerer Seiten mit ähnlichen Inhalten.″

Der Canonical Tag wird im <head> Bereich der Seite wie folgt platziert:

Eine sehr ausführliche Erklärung zu Canonical Tags sowie leicht verständliche Beispiele, wie man diese am besten einsetzt, finden Sie direkt bei Google. Für Webshops oder Druckversionen von Seiten ist rel=canonical meist die beste und effektivste Möglichkeit, um Duplicate Content zu verhindern.

 
5.) noindex Hinweis in den META Tags

Über einen noindex Vermerk in den META-Tags können Sie den Suchmaschinen mitteilen, dass die Seite nicht indexiert werden soll. Der Rest ist selbsterklärend: was nicht indexiert wird, kann auch keinen Dupliacte Content verursachen:

 
6.) Keine Inhalte kopieren, keine Seiten duplizieren, keine Textbausteine!

Seien Sie kreativ und nehmen Sie sich Zeit für die Inhalte Ihrer Seite! Verzichten Sie darauf, Inhalte von anderen Seiten zu kopieren und setzen Sie auch keine identischen oder ähnlichen Textbausteine ein. Und wenn eine Seite noch nicht fertig ist, dann verzichten Sie bitte auf sogenannte „Platzhalter“ oder schließen Sie diese zumindex mit „noindex“ von der Indexierung aus, bis Sie fertiggestellt ist. Und am schlimmsten: bedienen Sie sich nicht einfach an den Inhalten anderer Seiten, sondern verwenden Sie dabei immer eine Quellangabe.

 
7.) Verwenden Sie die Google Webmaster Tools

Duplicate Content vermeiden - Google Webmaster ToolsDie Webmaster Tools von Google sind die beste (kostenfreie) Möglichkeit, den Überblick über die Indexierung der eigenen Webseite zu behalten. Sie können hier unter anderem mitteilen, wie die Domain indexiert werden soll (mit oder ohne www) und wie mit verschiedenen URL-Parametern umgegangen werden soll. Ein Must-Have für Webmaster!

 
8.) Sprachversion definieren (rel=“alternate“ hreflang=“x“)

Unterschiedliche Sprachversionen einer Webseite – speziell bei Onlineshops mit marginalen Unterschieden bei Produkten und Beschreibungen – lassen sich über das rel=“alternate“ hreflang=“x“ Link-Attribut definieren. Dieses Attribut wird im HTML-Headerder Webseite wie folgt definiert (deutsch / englisch / spanisch):

Google selbst stellt Webmastern eine sehr ausführliche Anleitung über das hreflang-Attribut für Sprach- oder Regions-URL zur Verfügung.

Welche Seiten sollte man nicht indexieren lassen?

Im Grunde genommen muss jeder für sich selbst entscheiden, inwieweit die Indexierung der eigenen Webseite zugelassen werden soll. Empfehlenswert ist es jedoch, folgende Inhalte auszuschließen:

  • Alle Seiten, die identischen oder sehr ähnlichen Inhalt liefern.
    Beispiel: socken-blau.html, socken-grün.html, socken-gelb.html
  • Kategorien und Tags, die auf mehreren Ebenen dieselben Inhalte ausliefern
    Beispiel: …/socken/, …/socken/blau/, …/socken/blau/strick/
  • Seitenzahlen und Archive, die dieselben Inhalte ausliefern
    Beispiel: …/sockel-blau.htm, …/archiv/1/sockel-blau.htm
  • Affiliate URLs / Session IDs / Tracking Parameter
    Beispiel: ?partner_id=123, ?session_id=123, ?tracking_id=123

Wie wird Duplicate Content von Google bewertet?

Manchmal lässt sich Duplicate Content nicht vermeiden oder ist sogar fester Bestandteil eines Projekts, in welchem sich einzelne Textabschnitte wiederholen. So z.B. Inhalte, die jedem Nutzer auf jeder Seite unkompliziert zur Verfügung stehen sollen oder rechtlich relevante Texte (Terms & Conditions), die bei verschiedenen Angeboten wiederholt werden müssen.

Genau diesem Thema hat sich Matt Cutts in folgendem Video angenommen und beantwortet damit die Frage: Ist Duplicate Content wirklich so schlimm? Welche Folgen kann es auf das Ranking bei Google haben?

Kurz und knapp auf den Punkt gebracht: 

Duplicate Content ist nicht grundsätzlich etwas Böses oder Schlimmes. Nur wer Duplicate Content als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.

 

Fazit:

Die Problematik Duplicate Content bzw. doppelte Inhalte trifft sehr viele Webseitenbetreiber und ich kann Ihnen nur empfehlen, sich eingehend damit zu beschäftigen, da dies unmittelbare Auswirkungen auf Ihre Platzierung und Sichtbarkeit in den Suchmaschinen haben kann.

Im Allgemeinen sollte man sich darüber im Klaren sein, dass Duplicate Content nicht grundsätzlich schlecht ist – denn Google ist durchaus dazu in der Lange, guten von schlechtem (Spammy) Content zu unterscheiden. Wenn Sie meinen Artikel aufmerksam verfolgt haben, dann wissen Sie jetzt, wie Sie die häufigsten Ursachen erkennen und beseitigen können und an welchen Stellen Sie dabei ansetzen müssen. Viel Erfolg!

 

Foto: Copyright: Jakub Krechowicz – Fotolia.com

Duplicate Content (Doppelte Inhalte) verhindern
4.92 (98.46%) 143 votes