Erkennen, vermeiden:
Duplicate Content: Definition und Gefahr
"DC" - wenn nicht gerade "DataCenter" damit gemeint ist - ist das Schreckgespenst für alle Optimierer. Schenkt man dem Hühnergeschrei in den Foren Glauben, ist Duplicate Content die Ursache für so ziemlich jedes WehWehchen und das Damokles-Schwert über jeder Website.
Duplicate Content ("Doppelter Inhalt") bedeutet, dass zwei (nahezu) gleiche Dokumente unter verschiedenen URLs (Adressen) erreichbar sind. Die Gründe dafür sind vielfältig, absichtlich oder unabsichtlich. Du hast zb deine Website auf irgendeinem Gratis-Webspace, entscheidest dich dann aber doch für einen ordentlichen Provider samt Domain. Dann lädst du die Site komplett auf die neue Domain, lässt aber die alte Site, weil ja noch Besucher hinkommen. Schon hast du Duplicate Content. Andere Fälle sind weit häufiger: Du hast zB DomainA und DomainB, bei beiden aber den gleichen Webspace. Von "außen" ist das aber nicht erkennbar - es könnten auch verschiedene Webspaces mit dem selben Inhalt sein. Oder dein Blog/Forum/CMS produziert verschiedene Links auf die gleichen Seiten. Oder.. oder .. oder.
Absichtlich erzeugter Duplicate Content wird verwendet, um Satelliten-Seiten mit Content zu füllen. Normalerweise werden das keine wirklich identischen Seiten sein, sondern leichte Abwandlungen.
Formen von Duplicate Content
A.) Völlig identische Seiten/Dokumente:
Zwei Dokumente sind Bit für Bit völlig gleich. Das kommt zB bei Bildergalerien vor: Photoshop (oÄ) erzeugen immer gleiche Dateien. Vom der Galerieseite " DSC00010.htm" gibt es Tausende identische Exemplare im Web. Oder PDFs, die per Mail herumgereicht werden und etwa auf verschiedenen Fun-Seiten landen. Oder eben die oben genannten Fälle.
B.) Inhaltlich völlig identische Seiten:
Das beinhaltet natürlich auch Fall A, mit dem Unterschied, dass kleine Abweichungen im Quellcode nicht beachtet werden. Also das, was von Parser in den Indexer kommt, ist bis ins letzte Byte gleich.
Fall A + B behandelt Google so: Dasjenige Dokument mit mehr PageRank* wird "normal" gerankt, Kopien davon landen im "Sekundären Index". Das passiert nicht sofort, aber relativ schnell. Es ist auch egal, auf welcher Domain das Original oder die Kopie ist (Google weiß ja nicht, was das Original ist). Eine Abwertung der übrigen Domain erfolgt nicht. Allerdings geht auf diese Art PageRank ("Linkpower"... oder wie du es nennst) verloren.
C.) Weitgehend identische Seiten im selben Verbund (~ Domain):
Google wertet angeblich alle Seiten ab, die sich im <head> nicht unterscheiden. Das betrifft v.a. den <title>, die Meta-Description und die Meta-Keywords. Damit bekommt Google auf recht brachiale Weise das Problem in den Griff, dass Onlineshops, Blogs und Forenthreads häufig verschiedene URLs für nahezu gleiche Inhalte erzeugen. Ein Thread in einem Forum ist zB etwas verschieden, je nachdem wie man ihn aufruft, obwohl er inhaltlich nahezu identisch ist.
Betroffen davon wären aber auch Seiten nach dem Muster index.php?seite=12; also Seiten, bei denen <head> und Menue immer gleich sind und der eigentliche Inhalt per Include eingefügt wird. Meinem Empfinden nach werden derartige Sites tatsächlich sehr schlecht gerankt. Gelegentlich findet man auch ganze statische Domains, bei denen alle Seiten von einem Template übernommen wurden; meistens kleinere Firmenpräsenzen.
D.) Weitgehend identische Seiten - irgendwo im Web:
Wer Punkt C.) verstanden hat, weiß schon: njet. Google kann das nicht. Um einzelne Seiten kümmert sich Google gar nicht, um Spam-Domains jenseits der 100000 Seiten gerade mal, wenn ein Spam-Report hereinflattert oder ein neuer Algo starke Veränderungen zum vorigen anzeigt. Handarbeit gibt es bei Google nur für die Großen Bösen, kleinere Seiten mit ein bissel Duplicate Content haben nichts zu befürchten. Wenn ich annehmen würde, dass Google besser als Google ist, dann würde ich annehmen, dass Google schon beim Indexieren einer Seite diese nach gewissen Kriterien zur "Sonderbehandlung" schickt. Etwa wenn plötzlich auf einer Domain 10000 Seiten aus dem Nichts auftauchen.
Es sei aber angemerkt, dass das auch keine andere Suchmaschine kann. Die nötigen Berechnungen sind extrem aufwändig und würden auch Googles Kapazitäten weit sprengen.
E.) Einzelne Text-Blöcke/Absätze:
Völlig unproblematisch. Wenn Google das tatsächlich irgendwie erkennen und abwerten würde, wären alle Blogs weg vom Fenster.
Wie gefährlich ist Duplicate Content wirklich?
Zwar hat Google dem Duplicate Content schon durch den PageRank-Algorithmus einen Riegel vorgeschoben: Vergessene oder Satellitenseiten (Brückenseiten) würden nur wenig PageRank bekommen und damit von selbst aus dem Index fallen. Allerdings funktioniert das nicht immer so schön und nicht zuletzt kann man PageRank kaufen. Duplicate Content ist immer noch DAS Hauptproblem bei der Indexierung des Webs.
Google zeichnet sich derzeit vor allem durch Planlosigkeit aus und genau das macht die Sache gefährlich: Ganze Sites brechen ohne erkennbaren Grund plötzlich ein und kommen nur langsam wieder hoch.
Für Websitebetreiber ohne "Grauzonenaktivitäten" besteht wenig Gefahr. Man sollte darauf achten, ob bei der Yahoo! - Site-Abfrage viele Dupletten auftauchen und dieses Problem beseitigen. Und anders als Yahoo! hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de (mit/ohne www)
Gerüchte, dass allein das Grabben von Textpassagen zur Abwertung der beklauten Site führen können, sind übrigens völliger Blödsinn.
*PageRank: Damit meine ich das, was Google intern dafür hält, nicht das Bildchen vom Balken.
Links zum Thema:
Kommentare
27.11.2011
Danke für deine ausführungen, ich denke aber dass google nicht nur den head sonder den gesamten quelltext prüft; wenn sich mindestens 20% unterscheiden, scheint es okay zu sein. viele grüsse
mathias
12.12.2011
Eine wirklich tolle Zusammenfassung. Vor allem, dass an dieser Stelle nüchtern einige sehr verbreitete Vorurteile enttarnt werden gefällt mir sehr. Der letztem Satz zum Pagerank sollte aber am besten direkt am Anfang stehen und mehrfach unterstrichen werden. Die stumpfe Fixierung auf den "Pagerank" scheint leider nicht tot zukriegen.
29.01.2012
Hallo, meine Webseite ist über verschiedene Url erreichbar das ich bei Strato 3 Domain Namen bekommen habe ist das jetzt schlecht für meine Webseite könnte das als Duplikat erkennt werden. Ich muss dazusagen das ich bei der Optimierung immer nur eine angebe bzw. Optimieren.
10.02.2012
Hallo Achim, das ist tatsächlich schädlich. Stelle das am Besten mit einer guten htaccess ab. Aktuell bewertet Google wirklich schon das, was User, wenn sie es überhaupt wahrnehmen, als Kleinigkeiten abtun, sehr streng. Daher achtet wirklich auf jede Kleinigkeit ;-)
11.02.2012
Stefan
Hallo, wir haben vor unseren Online-Shop (de-Domain) für unsere Niederlassung in Österreich weitestgehend zu kopieren. Da wir dort identische Artikel anbieten, wir die Seite dann nuter .at zu erreichen sein. Wie kritisch ist so eine Kopie für Suchmaschinen, da ja die Artikel genau identisch beschrieben werden?
15.02.2012
@Stefan
Das ist ein Problem, google bestraft zwar nicht direkt, aber einen große Erfolge sind mit der gespiegelten Seite nicht zu erwarten.
Auch wenn es Arbeit kostet, versuche uniquen Inhalt zu erstellen.
04.05.2012
pascal
Habe seit 11 Jahren eine ALTE Website. Allein schon deswegen wurde sie in Google gut bis sehr gut gerankt ( jahrelang auf Seite 1) trotz damal üblichen und heute verpönten Frames. Hauptseite hat PR4. Unterseiten zwischen PR2-PR3.
Doch jetzt wurdevor etwa 4 Monaten mit WEBEASY 7 eine neue Website gebaut.Doch WEBEASY regenerierte alle Unterseiten seltsamerweise mit der Endung "htm" statt wie heute üblicher, mit html. Nur dieINDEX-SEITE.behielt nach wie vor die html-Endung.
Resultat: Alle Unterseiten der NEUEN Website konnten den alten bisherigen PR der alten html-Seiten nicht übernehmen (trotz identischer url, ausgenommen eben der Unteschied mit der htm- Endung ) Alle neuen Unterseiten haben also PR/0.
Da die alten Unterseiten nach wie vor in GOOGLE aber erstklassig gelistet sind, will ich diese logischerweise natürlich nicht löschen und deshalb liess ich sie bis heute aufgeschaltet.
Doch bei der NEUEN Website rührt sich nicht viel. Trotz Seo-Optimierung und 1300 Backlinks. Die tümpelt seit Monaten irendwo auf Seite 8 von GOOGLE herum und man hat das Gefühl die würde vom GOGGLE-Spider überhaupt nie besucht.
Prüfe ich die neue Website mit verschiedenen Online-Testtools, erhalte ich überall gute bis sehr gute Bewertungen. 98-100 Prozent optimiert.Alles palletti und Halleluja.
Trotzdem bewegt sich das Ding nicht richtig vorwärts. Wer hat eine Idee ? Metas, Titel Description Keywords usw. alles wunderbar im grünen Bereich.Nun habe ich gestern noch bei "Seitenreport.de" die Website getestet. Hier meckert die Analyse allerdyngs etwas von "Duplicat-Content" . Die Unterseiten der ALTEN Website sind zwar themenbezogen, jedoch im Text alle recht verschieden.
Könnte es trotzdem sein, dass die alten Unterseiten" der Grund dafür sind, dass sich die neue Homepage sich nicht bewegt ? Wer hat da eine Idee ?"
04.05.2012
Pascal
KORREKTUR !
Sorry. Eine Verwechslung: Getestet wurde nicht bei Site-check sonden bei www.seitenreport.de