Menü

Erkennen, vermeiden

Duplicate Content: Definition und Gefahr

Duplicate Content: Definition und Gefahr

"DC" - wenn nicht gerade "DataCenter" damit gemeint ist - ist das Schreckgespenst für alle Optimierer. Schenkt man dem Hühnergeschrei in den Foren Glauben, ist Duplicate Content die Ursache für so ziemlich jedes WehWehchen und das Damokles-Schwert über jeder Website.

Duplicate Content ("Doppelter Inhalt") bedeutet, dass zwei (nahezu) gleiche Dokumente unter verschiedenen URLs (Adressen) erreichbar sind. Die Gründe dafür sind vielfältig, absichtlich oder unabsichtlich. Du hast zb deine Website auf irgendeinem Gratis-Webspace, entscheidest dich dann aber doch für einen ordentlichen Provider samt Domain. Dann lädst du die Site komplett auf die neue Domain, lässt aber die alte Site, weil ja noch Besucher hinkommen. Schon hast du Duplicate Content. Andere Fälle sind weit häufiger: Du hast zB DomainA und DomainB, bei beiden aber den gleichen Webspace. Von "außen" ist das aber nicht erkennbar - es könnten auch verschiedene Webspaces mit dem selben Inhalt sein. Oder dein Blog/Forum/CMS produziert verschiedene Links auf die gleichen Seiten. Oder.. oder .. oder.
Absichtlich erzeugter Duplicate Content wird verwendet, um Satelliten-Seiten mit Content zu füllen. Normalerweise werden das keine wirklich identischen Seiten sein, sondern leichte Abwandlungen.


Formen von Duplicate Content

A.) Völlig identische Seiten/Dokumente:
Zwei Dokumente sind Bit für Bit völlig gleich. Das kommt zB bei Bildergalerien vor: Photoshop (oÄ) erzeugen immer gleiche Dateien. Vom der Galerieseite " DSC00010.htm" gibt es Tausende identische Exemplare im Web. Oder PDFs, die per Mail herumgereicht werden und etwa auf verschiedenen Fun-Seiten landen. Oder eben die oben genannten Fälle.

B.) Inhaltlich völlig identische Seiten:
Das beinhaltet natürlich auch Fall A, mit dem Unterschied, dass kleine Abweichungen im Quellcode nicht beachtet werden. Also das, was von Parser in den Indexer kommt, ist bis ins letzte Byte gleich.

Fall A + B behandelt Google so: Dasjenige Dokument mit mehr PageRank* wird "normal" gerankt, Kopien davon landen im "Sekundären Index". Das passiert nicht sofort, aber relativ schnell. Es ist auch egal, auf welcher Domain das Original oder die Kopie ist (Google weiß ja nicht, was das Original ist). Eine Abwertung der übrigen Domain erfolgt nicht. Allerdings geht auf diese Art PageRank ("Linkpower"... oder wie du es nennst) verloren.


C.) Weitgehend identische Seiten im selben Verbund (~ Domain):
Google wertet angeblich alle Seiten ab, die sich im <head> nicht unterscheiden. Das betrifft v.a. den <title>, die Meta-Description und die Meta-Keywords. Damit bekommt Google auf recht brachiale Weise das Problem in den Griff, dass Onlineshops, Blogs und Forenthreads häufig verschiedene URLs für nahezu gleiche Inhalte erzeugen. Ein Thread in einem Forum ist zB etwas verschieden, je nachdem wie man ihn aufruft, obwohl er inhaltlich nahezu identisch ist.
Betroffen davon wären aber auch Seiten nach dem Muster index.php?seite=12; also Seiten, bei denen <head> und Menue immer gleich sind und der eigentliche Inhalt per Include eingefügt wird. Meinem Empfinden nach werden derartige Sites tatsächlich sehr schlecht gerankt. Gelegentlich findet man auch ganze statische Domains, bei denen alle Seiten von einem Template übernommen wurden; meistens kleinere Firmenpräsenzen.

D.) Weitgehend identische Seiten - irgendwo im Web:
Wer Punkt C.) verstanden hat, weiß schon: njet. Google kann das nicht. Um einzelne Seiten kümmert sich Google gar nicht, um Spam-Domains jenseits der 100000 Seiten gerade mal, wenn ein Spam-Report hereinflattert oder ein neuer Algo starke Veränderungen zum vorigen anzeigt. Handarbeit gibt es bei Google nur für die Großen Bösen, kleinere Seiten mit ein bissel Duplicate Content haben nichts zu befürchten. Wenn ich annehmen würde, dass Google besser als Google ist, dann würde ich annehmen, dass Google schon beim Indexieren einer Seite diese nach gewissen Kriterien zur "Sonderbehandlung" schickt. Etwa wenn plötzlich auf einer Domain 10000 Seiten aus dem Nichts auftauchen.
Es sei aber angemerkt, dass das auch keine andere Suchmaschine kann. Die nötigen Berechnungen sind extrem aufwändig und würden auch Googles Kapazitäten weit sprengen.

E.) Einzelne Text-Blöcke/Absätze:
Völlig unproblematisch. Wenn Google das tatsächlich irgendwie erkennen und abwerten würde, wären alle Blogs weg vom Fenster.


Wie gefährlich ist Duplicate Content wirklich?

Zwar hat Google dem Duplicate Content schon durch den PageRank-Algorithmus einen Riegel vorgeschoben: Vergessene oder Satellitenseiten (Brückenseiten) würden nur wenig PageRank bekommen und damit von selbst aus dem Index fallen. Allerdings funktioniert das nicht immer so schön und nicht zuletzt kann man PageRank kaufen. Duplicate Content ist immer noch DAS Hauptproblem bei der Indexierung des Webs.

Google zeichnet sich derzeit vor allem durch Planlosigkeit aus und genau das macht die Sache gefährlich: Ganze Sites brechen ohne erkennbaren Grund plötzlich ein und kommen nur langsam wieder hoch.

Für Websitebetreiber ohne "Grauzonenaktivitäten" besteht wenig Gefahr. Man sollte darauf achten, ob bei der Yahoo! - Site-Abfrage viele Dupletten auftauchen und dieses Problem beseitigen. Und anders als Yahoo! hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de (mit/ohne www)

Gerüchte, dass allein das Grabben von Textpassagen zur Abwertung der beklauten Site führen können, sind übrigens völliger Blödsinn.

*PageRank: Damit meine ich das, was Google intern dafür hält, nicht das Bildchen vom Balken.

Links zum Thema:

Duplicate Content: Diskussion bei Abakus

Kommentare

27.11.2011

Mathias

Danke für deine ausführungen, ich denke aber dass google nicht nur den head sonder den gesamten quelltext prüft; wenn sich mindestens 20% unterscheiden, scheint es okay zu sein. viele grüsse
mathias

12.12.2011

Christian

Eine wirklich tolle Zusammenfassung. Vor allem, dass an dieser Stelle nüchtern einige sehr verbreitete Vorurteile enttarnt werden gefällt mir sehr. Der letztem Satz zum Pagerank sollte aber am besten direkt am Anfang stehen und mehrfach unterstrichen werden. Die stumpfe Fixierung auf den "Pagerank" scheint leider nicht tot zukriegen.

29.01.2012

Achim

Hallo, meine Webseite ist über verschiedene Url erreichbar das ich bei Strato 3 Domain Namen bekommen habe ist das jetzt schlecht für meine Webseite könnte das als Duplikat erkennt werden. Ich muss dazusagen das ich bei der Optimierung immer nur eine angebe bzw. Optimieren.

10.02.2012

Carsten Todt

Hallo Achim, das ist tatsächlich schädlich. Stelle das am Besten mit einer guten htaccess ab. Aktuell bewertet Google wirklich schon das, was User, wenn sie es überhaupt wahrnehmen, als Kleinigkeiten abtun, sehr streng. Daher achtet wirklich auf jede Kleinigkeit ;-)

11.02.2012

Stefan

Hallo, wir haben vor unseren Online-Shop (de-Domain) für unsere Niederlassung in Österreich weitestgehend zu kopieren. Da wir dort identische Artikel anbieten, wir die Seite dann nuter .at zu erreichen sein. Wie kritisch ist so eine Kopie für Suchmaschinen, da ja die Artikel genau identisch beschrieben werden?

15.02.2012

Matthias

@Stefan
Das ist ein Problem, google bestraft zwar nicht direkt, aber einen große Erfolge sind mit der gespiegelten Seite nicht zu erwarten.
Auch wenn es Arbeit kostet, versuche uniquen Inhalt zu erstellen.

04.05.2012

pascal

Habe seit 11 Jahren eine ALTE Website. Allein schon deswegen wurde sie in Google gut bis sehr gut gerankt ( jahrelang auf Seite 1) trotz damal üblichen und heute verpönten Frames. Hauptseite hat PR4. Unterseiten zwischen PR2-PR3.
Doch jetzt wurdevor etwa 4 Monaten mit WEBEASY 7 eine neue Website gebaut.Doch WEBEASY regenerierte alle Unterseiten seltsamerweise mit der Endung "htm" statt wie heute üblicher, mit html. Nur dieINDEX-SEITE.behielt nach wie vor die html-Endung.
Resultat: Alle Unterseiten der NEUEN Website konnten den alten bisherigen PR der alten html-Seiten nicht übernehmen (trotz identischer url, ausgenommen eben der Unteschied mit der htm- Endung ) Alle neuen Unterseiten haben also PR/0.

Da die alten Unterseiten nach wie vor in GOOGLE aber erstklassig gelistet sind, will ich diese logischerweise natürlich nicht löschen und deshalb liess ich sie bis heute aufgeschaltet.

Doch bei der NEUEN Website rührt sich nicht viel. Trotz Seo-Optimierung und 1300 Backlinks. Die tümpelt seit Monaten irendwo auf Seite 8 von GOOGLE herum und man hat das Gefühl die würde vom GOGGLE-Spider überhaupt nie besucht.

Prüfe ich die neue Website mit verschiedenen Online-Testtools, erhalte ich überall gute bis sehr gute Bewertungen. 98-100 Prozent optimiert.Alles palletti und Halleluja.

Trotzdem bewegt sich das Ding nicht richtig vorwärts. Wer hat eine Idee ? Metas, Titel Description Keywords usw. alles wunderbar im grünen Bereich.Nun habe ich gestern noch bei "Seitenreport.de" die Website getestet. Hier meckert die Analyse allerdyngs etwas von "Duplicat-Content" . Die Unterseiten der ALTEN Website sind zwar themenbezogen, jedoch im Text alle recht verschieden.
Könnte es trotzdem sein, dass die alten Unterseiten" der Grund dafür sind, dass sich die neue Homepage sich nicht bewegt ? Wer hat da eine Idee ?"

04.05.2012

Pascal

KORREKTUR !
Sorry. Eine Verwechslung: Getestet wurde nicht bei Site-check sonden bei www.seitenreport.de

15.06.2012

chris

Als mir zeigt Copyscape rss feeds als duplicate content an...ratlos...

20.07.2012

Daniel

Hallo Chris,
hast Du mittlerweile eine Idee zu den RSS Feeds? Ich stehe nämlich vor einem ähnlichen Problem.

20.08.2012

Frank

Mir geht es ganz ähnlich Achim aus dem Kommentar, ich habe eine Webseite (Joomla CMS) unter einer Subdomain meiner ältesten Domain laufen. (Hauptdomain: freakinthecage.de/Subdomain: webdesign.freakinthecage.de)

Irgendwann bot mir mein Provider eine kostenlose .eu Domain an die ich erfreut genommen habe und und die Joomla Seite die unter webdesign.freakinthecage.de läuft darauf umgeleitet.

Kurz darauf konnte ich günstig eine .com Domain ergattern. Die ich ebenfalls auf die Joomla Subdomain verlinkt habe.

Also eine wirklich existierende Webseite unter 3 Domains. Anfangs hatte ich den Eindruck das es durchaus einen positiven Effekt gehabt hat da sich die vorhandenen Backlinks vervielfachten.

Seit dem letzten Google Filter update bin ich allerdings mit meinem Hauptkeyword nicht mehr bei Google zu finden, zuvor hatte ich bei diesem sehr begehrten Keyword eigentlich eine recht gute Position.

Der Sichtbarkeitsfaktor ist seitdem rapid gefallen, unter anderen Keywords bin ich aber noch vertreten.

Nach Deinem "Fall A + B" Beispiel hätte ich ja nichts zu befürchten, das ist aber wiedersprüchlich zu der Aussage die Du Achim gegenüber getätigt hast.

Jetzt ist meine Verwirrung perfekt.. :-)

Könntest Du den Sachverhalt aufklären, da wäre ich sehr,sehr dankbar... :-)

14.10.2012

dirk

Mmmh ... ach wenn es stimmt, sind wir glücklich
" hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de (mit/ohne www)" Genau das ist vermutlich exakt unser Problem seit etwa 3 Monaten und es fühlt sich ein wenig nach schleichendem Tod an. Jede Woche etwas weiter runter, aber immer nur die betroffene Startseite. Ich muß sagen, hier ist das Thema grundsätzlich klasse erklärt und vor allem denke ich ebenfalls, dass einige Angelegenheiten bei google total überbewertet werden. Da würde so manches einfach die Möglichkeiten übersteigen. Es gibt wirklich wichtigere Webseiten um die google sich kümmern muß, als die, die immer die tollsten Maßnahmen hinter jeder Aktion sehen. Vielen Dank für die endlich mal realistische Einschätzung. Gruß aus Köln, dirk

19.11.2012

Matthias

so wie google haben auch die Nutzer ein Problem mit DC. Wenn Sie auf einer Seite sind, wollen Sie einzigartigen Inhalt und nicht alles x-mal lesen. Das kostet Zeit und Nerven. Deshalb ist es schon aus dem Aspekt heraus sinnvoll, guten und einzigartigen Inhalt zu erstellen.

23.01.2013

Pascal

Bald 1 Jahr später neue Billanz zu meinem Post 04/05/2012
Was hat sich inzwischen verändert ? Die Unterseiten von ehemals PR-0 haben inzwischen fast ausnahmslos auf PR=4 angehoben. Die IndexSeite hat einen PR=5 und ist bei "seittest.de" als *Sehr gut" bewertet und unter die Top-100 gerutscht. Toll. Nur.... das Ranking selbst lässt noch zu wünschen übrig. Auf Google.ch auf Seite 4. Nach wie vor aber sind die "alten" (html-Unterseiten) auf Seite 1 zu finden. Teils sogar als Top.

23.01.2013

Pascal

Ergänzende Mitteilung zum obigen Beitrag!
Upps.. Da hat sich gerade etwas gekreuzt. Habe gerade festgestellt, dass die Index-Seite sich von Seite 4 brandneu auf Seite 2 bei "Google. ch" (Keyword: "Zauberer" vorverlegt hat. Muss in den letzten Stunden passiert sein.
Wäre aber trotzdem interessant zu wissen, ob ich nun trotzdem den vorhandenen "doppelten Content" löschen soll oder nicht? Die Seo-Meinungen gehen da teilweise auseinander.

29.01.2013

Sophie

Eine Frage habe ich noch:

Unsere Website www.seniorenwissen.net ist auch bei Facebook vertreten, auf der wir unsere neuesten Artikel veröffentlichen/posten.

Angenommen ich mache eine zweite Facebook-Seite auf, mit anderem Namen und poste dort unter anderen Überschriften wieder unsere neuesten Artikel, würde das duplicate content sein? Ich meine, die URLs bleiben ja identisch, nur den Text, den ich über den Link bei einem Beitrag setze, verändere ich. Wäre das für uns, Seniorenwissen, schädlich?

06.02.2013

Lars

Hallo, also ich bin total verwirrt, und meine Frage ist letztlich immer noch unbeantwortet:
Ich betreibe 1 Projekt, welches unter abc.biz als auch unter abc.at läuft, also gleiche URL-Name, aber unterschiedliche domainendung. Wie verhält es sich in diesem Fall mit double content? Würde ich also besser eine Umleitung auf die hauptdomain anlegen, um db zu vermeiden?
Danke vorab für die Hilfe.
el.pe

13.02.2013

Lara

also eigentlich ist interner dc nicht so schlimm, da dann google die relevanteste seite auswählt. nur bei automatisch erzeugtem inhalt wird es gefährlich, google ist hier gnadenlos und entfernt die gesamte domain.

29.03.2013

Marcel

ach www.seitenreport.de war es habe es wieder nicht gut gelesen glaube ich haha

gr
marcel

02.06.2013

Martin

Google Webmaster Tools sieht die Sache nicht so streng... Wenn beispielsweise über eine externe Webseiten-Bewertung "DC" festgestellt und moniert wird, steht im Analyseprogramm von Google selbst nichts böses... Ich finde das irritierend...

22.08.2013

Tim

auf www.seitenreport.de hat sich das problem mittlerweile gelöst ?
dort wurde bei einem meiner projecte vor nicht allzu langer zeit ebenfalls dc festgestellt, aber mittlerweile ohne jegliches zutun wird das dort nicht mehr festgestellt.

mfg

13.09.2013

conny

Ich schreibe einen magazinartigen Blog und veröffentliche die Beiträge häufig auch identisch auf dem Bewertungsportal Qype.Ist das empfehlenswert oder spiele ich damit überwiegend einer anderen Plattform Inhalte zu, die mich im Ranking höher bringen würden, wenn ich sie alleine nutzen würde?

24.10.2013

Dan

Hi everybody,

I wanted my website to be available with and without www. So i made a header ("location: http://freedoes.com"); - Script in php.

Unfortunately there were some websites, saying that there is duplicate content. Playing a little and found the solution:

Just add: , TRUE, 301 to the script:

header ( "location: http://freedoes.com", TRUE, 301);

Thats it.

Hope this helps you, too.
Dan

06.11.2013

Benni

Bei der Flut an Web-Angeboten sollte man auch aus Sicht des Nutzers nur auf einzigartigen und wertvollen Content setzen. Nur dann hat man die Chance sich gegen einen anderen Web-Anbieter des gleichen Produkts oder Inhaltes durchzusetzen.

16.01.2014

Satyam

Klasse der Artikel - interessant deine Unterscheidung in verschiedene Formen des 'duplicate content'. Auch nach meiner Erfahrung wird der title-tag stark mit ins Ranking einbezogen. Wortwahl, Reihenfolge und Menge an Begriffen fliesst mit ein und entsprechend verschieden ist dann auch die Platzierung in den google Suchergebnissen. Individuelle Seitentitel, die auf den tatsächlichen Seiteninhalte (keywords)der Einzelseite Bezug nehmen werden besser platziert.

12.02.2014

Pierrot

Hallo zusammen

Ein Kunde hat zwei identische Websites:

lifecom.ch
lifebuilder.ch

Ist dies der Grund, warum es im Ranking nicht aufwärts geht? Penalty?

Gruess aus Bern

24.04.2014

Anna

Hallo Zusammen
Ich habe mehr Filialen in der ganzen Europa und entsprechend gewisse Inhalte wiederholen sich. Sind das DC? Was für eine Lösung gebe es? Viele Seiten sind nur von uns vererbt, z.B. die Produkte usw, aber es gibt auch andere Informationen wie Kontakt, Adresse, Tel, Team usw. Sind dies DC?
Gruss aus Basel

22.06.2014

Lutze

Hallo! Gibt eigentlich genug Gratistools, wo man das überprüfen kann. Wichtig ist es allemal....

13.04.2015

Johannes

Danke für diese nützliche Zusammenfassung! Meine Erfahrung ist: Wenn der TEXT auf den entsprechenden Seiten wirklich unterschiedlich ist, hat man auch bei ÄHNLICHEN Inhalten als Seitenbetreiber keine Probeleme mit DC.

11.06.2016

Michael

Sehr informativer Beitrag! Es hat mich wirklich erstaunt, dass Google anscheinend Websites mit kleinen abgekupferten Textpassagen nicht abstraft.
LG

Erkennen, vermeiden

Eine Zusammenfassung von Gesagtgehörtem und Gerüchten ohne Anspruch auf die Wahrheit:
Duplicate Content und seine Folgen für deine Website.

Zurück