"DC" - wenn nicht gerade "DataCenter" damit gemeint ist - ist das Schreckgespenst für alle Optimierer. Schenkt man dem Hühnergeschrei in den Foren
Glauben, ist Duplicate Content die Ursache für so ziemlich jedes WehWehchen und das Damokles-Schwert über jeder Website.
Duplicate Content ("Doppelter Inhalt") bedeutet, dass zwei (nahezu) gleiche Dokumente unter verschiedenen URLs (Adressen) erreichbar sind. Die Gründe
dafür sind vielfältig, absichtlich oder unabsichtlich. Du hast zb deine Website auf irgendeinem Gratis-Webspace, entscheidest dich dann aber doch für einen ordentlichen Provider
samt Domain. Dann lädst du die Site komplett auf die neue Domain, lässt aber die alte Site, weil ja noch Besucher hinkommen. Schon hast du Duplicate Content. Andere Fälle sind
weit häufiger: Du hast zB DomainA und DomainB, bei beiden aber den gleichen Webspace. Von "außen" ist das aber nicht erkennbar - es könnten auch verschiedene Webspaces
mit dem selben Inhalt sein. Oder dein Blog/Forum/CMS produziert verschiedene Links auf die gleichen Seiten. Oder.. oder .. oder.
Absichtlich erzeugter Duplicate Content wird verwendet, um Satelliten-Seiten mit Content zu füllen. Normalerweise werden das keine wirklich identischen Seiten sein, sondern leichte Abwandlungen.
Formen von Duplicate Content
A.) Völlig identische Seiten/Dokumente:
Zwei Dokumente sind Bit für Bit völlig gleich. Das kommt zB bei Bildergalerien vor: Photoshop (oÄ) erzeugen immer gleiche Dateien. Vom der Galerieseite " DSC00010.htm"
gibt es Tausende identische Exemplare im Web. Oder PDFs, die per Mail herumgereicht werden und etwa auf verschiedenen Fun-Seiten landen. Oder eben die oben genannten Fälle.
B.) Inhaltlich völlig identische Seiten:
Das beinhaltet natürlich auch Fall A, mit dem Unterschied, dass kleine Abweichungen im Quellcode nicht beachtet werden. Also das, was von Parser in den Indexer kommt, ist bis ins
letzte Byte gleich.
Fall A + B behandelt Google so: Dasjenige Dokument mit mehr PageRank* wird "normal" gerankt, Kopien davon landen im "Sekundären Index" ("Zusätzliches
Ergebnis" bei der site:Abfrage). Das passiert nicht sofort, aber relativ schnell. Es ist auch egal, auf welcher Domain das Original oder die Kopie ist (Google weiß ja nicht, was
das Original ist). Eine Abwertung der übrigen Domain erfolgt nicht. Allerdings geht auf diese Art PageRank ("Linkpower"... oder wie du es nennst) verloren.
C.) Weitgehend identische Seiten im selben Verbund (~ Domain):
Google wertet angeblich alle Seiten ab, die sich im <head> nicht unterscheiden. Das betrifft v.a. den <title>, die Meta-Description und die Meta-Keywords. Damit bekommt
Google auf recht brachiale Weise das Problem in den Griff, dass Onlineshops, Blogs und Forenthreads häufig verschiedene URLs für nahezu gleiche Inhalte erzeugen. Ein Thread in einem
Forum ist zB etwas verschieden, je nachdem wie man ihn aufruft, obwohl er inhaltlich nahezu identisch ist.
Betroffen davon wären aber auch Seiten nach dem Muster index.php?seite=12; also Seiten, bei denen <head> und Menue immer gleich sind und der eigentliche Inhalt per Include eingefügt
wird. Meinem Empfinden nach werden derartige Sites tatsächlich sehr schlecht gerankt. Gelegentlich findet man auch ganze statische Domains, bei denen alle Seiten von einem Template übernommen
wurden; meistens kleinere Firmenpräsenzen.
D.) Weitgehend identische Seiten - irgendwo im Web:
Wer Punkt C.) verstanden hat, weiß schon: njet. Google kann das nicht. Um einzelne Seiten kümmert sich Google gar nicht, um Spam-Domains jenseits der 100000 Seiten gerade mal,
wenn ein Spam-Report hereinflattert oder ein neuer Algo starke Veränderungen zum vorigen anzeigt. Handarbeit gibt es bei Google nur für die Großen Bösen, kleinere Seiten
mit ein bissel Duplicate Content haben nichts zu befürchten. Wenn ich annehmen würde, dass Google besser als Google ist, dann würde ich annehmen, dass Google schon beim Indexieren
einer Seite diese nach gewissen Kriterien zur "Sonderbehandlung" schickt. Etwa wenn plötzlich auf einer Domain 10000 Seiten aus dem Nichts auftauchen.
Es sei aber angemerkt, dass das auch keine andere Suchmaschine kann. Die nötigen Berechnungen sind extrem aufwändig und würden auch Googles Kapazitäten weit sprengen.
E.) Einzelne Text-Blöcke/Absätze:
Völlig unproblematisch. Wenn Google das tatsächlich irgendwie erkennen und abwerten würde, wären alle Blogs weg vom Fenster.
Wie gefährlich ist Duplicate Content wirklich?
Zwar hat Google dem Duplicate Content schon durch den PageRank-Algorithmus einen Riegel vorgeschoben: Vergessene oder Satellitenseiten (Brückenseiten) würden nur wenig PageRank
bekommen und damit von selbst aus dem Index fallen. Allerdings funktioniert das nicht immer so schön und nicht zuletzt kann man PageRank kaufen. Duplicate Content ist immer noch DAS Hauptproblem
bei der Indexierung des Webs.
Google zeichnet sich derzeit vor allem durch Planlosigkeit aus und genau das macht die Sache gefährlich: Ganze Sites brechen ohne erkennbaren Grund plötzlich ein und kommen nur
langsam wieder hoch.
Für Websitebetreiber ohne "Grauzonenaktivitäten" besteht wenig Gefahr. Man sollte darauf achten, ob bei der Yahoo! - Site-Abfrage viele Dupletten auftauchen und dieses
Problem beseitigen. Und anders als Yahoo! hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de
(mit/ohne www)
Gerüchte, dass allein das Grabben von Textpassagen zur Abwertung der beklauten Site führen können, sind übrigens völliger Blödsinn.
*PageRank: Damit meine ich das, was Google intern dafür hält, nicht das Bildchen vom Balken.
|