Der ein oder andere von Euch mag sich bei diesem Titel jetzt wohl denken, dass die „alte Crazy“ wohl einen an der Birne hat. Vor kurzem beschwert sie sich, dass Google Blog Artikel aus dem Index verliert und nun will sie absichtlich einzelne URLs aus dem Google Index verschwinden lassen. Wie passt das denn zusammen? Eigentlich gar nicht aber irgendwie auch wieder schon. Es gibt hin und wieder so Fälle, da wird es notwendig, einzelne URLs aus dem Google Index verschwinden zu lassen…
Die Gründe dafür mögen verschieden sein und auch nicht immer auf “Schuld eigene” zu schieben. Falsche Verlinkungen von außen, nachträglich geänderte einzelne Permalinks, etc. und schon kommt es vor dass eine URL doppelt im Google Index vorhanden ist und sich Double Content vom Feinsten bietet.
Nun sagt zwar Google selbst, dass Double Content auf der eigenen Domain nicht wirklich schädlich ist. Doch führt genau diese Suchmaschine im gleichen Atemzug die Canonical URLs ein. Nachtigall ick hör Dir trapsen…
Wobei wir schon bei der ersten gebräuchlichen Methode gegen Double Content URLs wären, den Canonical URLs. Eine gute Möglichkeit, dem Double Content ein Garaus zu bescheren, wenn das Wörtchen wenn nicht wäre… Denn gerade beim automatisierten Einsatz von Canonical URLs habe ich schon so einiges gesehen, wo Hirn und Verstand Fehlanzeige sind. So kam mir letztens z.B. unter, dass einfach die Server URI abgefragt wurde und als Canonical URL geschrieben wurde. Hervorragend, denn damit hat jede Double Content Seite ihre ganz eigene Canonical URL. Ich möchte an dieser Stelle aber weder vom Einsatz der Canonical URL abraten, noch irgendwelche Plugin oder Modul Autoren in Frage stellen. Eine detaillierte Prüfung, ob dieses automatische Tool auch das macht, was es machen soll, ist aber definitiv anzuraten.
Eine weitere gebräuchliche Methode ist der redirect permanent, auch 301 redirect genannt. Dieser sorgt dafür, dass beim Aufruf der “falschen” URL automatisch auf die richtige URL umgeleitet wird. Ebenso ist es noch möglich die “falsche” URL über die robots.txt Datei zu sperren, und so die Suchmaschinen anzuweisen, diese “falsche” URL nicht in den Index aufzunehmen bzw. rauszuwerfen.
Einzeln oder zusammen sind diese 3 Möglichkeiten die gebräuchlichsten, um einzelne URLs im Double Content Fall aus dem Google Index verschieden zu lassen. Sie haben nur alle 3 einen gemeinsamen Nachteil: Es kann Wochen bis mitunter Monate dauern, bis die Suchmaschinen das “fressen” und die falschen URLs tatsächlich verschwinden.
Wer nun aber eventuelle Rankingverschlechterungen etc. nicht für diese Zeit in Kauf nehmen möchte, hat eine weitere, sehr schnelle Möglichkeit, die falsche URL aus dem Google Index verschwinden zu lassen. In den Google Webmaster Tools gibt es aktuell im Bereich Website-Konfiguration unter Crawler-Zugriff den Menüpunkt URL entfernen. Dort wird ein neuer Antrag auf Entfernung gestellt, Einzelne URLs ausgewäht und die entsprechende falsch indexierte URL eingetragen und abschließend der Antrag eingereicht. In der Regel ist diese URL dann innerhalb von 24 Stunden aus dem Google Index gelöscht.
Wer auf diese schnelle Möglichkeit einzelne URLs aus dem Google Index verschwinden lassen zurückgreifen möchte sollte wissen, dass die dort eingetragenen URLs nur entfernt werden, wenn sie entweder über die robots.txt gesperrt und/oder per 301 redirect umgeleitet oder nicht erreichbar sind. Eine aktive URL die weder gesperrt noch umgeleitet ist, wird dort nicht entfernt, der Antrag wird abgelehnt.
Lol der mit Server URI war gut^^ Das geht ja mal voll am Ziel vorbei.
@Markus: Ja, *kicher*, ich hab auch gedacht ich seh nicht richtig. Voll ohne Hirn und Verstand
Hallo zusammen,
genau das habe ich gedacht!
Aber ihr werdet lachen, genau das ist bei mir passiert! Ich wollte oder will immer noch mein Impressum aus dem Index haben, aus diesem Grund habe ich in meine robots.txt folgendes geschrieben:
User-Agent: *Disallow:/impressum
Aber wenn ich auf meinem Dashbord das Googleranking anklicke, dann sehe ich das Google diese Seite trotzdem indiziert hat!
Die Frage die sich mir jetzt stellt, habe ich was bei der “Aussperrung” falsch gemacht, oder verlinkt jemand auf die Seite, was ich mir nicht vorstellen kann.
Die letzte Möglichkeit für mich, ist, dass die Seite vielleicht über die XML Sitemap mit verteilt wird?
Was denkt ihr?
Gruß
Matthias
@Mac_BetH Den findest Du normal unter – Website-Konfiguration – Crawler-Zugriff. Da kannst dann auch bissle rumtesten und schauen wie du alles einstellen muss in der robots.txt.
Oh jeh, was ist denn hier los
@Matthias: Schau mal den Quelltext Deines Impressums an, dort findest Du den Eintrag:
. An dem solltest Du zu allererst arbeiten und für die Page Impressum diese automatische Generierung über Dein SEO Plugin deaktivieren. Dann eine if (is_page(‘id’)) Abfrage in die header.php für Dein Impressum und einfügen:. Sonst kriegst Du die Seite nie ordentlich aus dem Index raus, da Du sie ja selbst anlinken musst.Ein Eintrag in die robots.txt dürfte da nicht viel bringen. Und wenn dann in Deinem Fall wahrscheinlich sowieso nur mit (je nachdem wo die robots.txt liegt):
Disallow: /wordpress/index.php/impressum/Trotzdem ist das eher suboptimal, solange Du diesen meta tag verwendest. In der robots.txt sagst Du “nicht indexieren” und auf der Impressum Seite sagst Du “bitte doch indexieren” – das kann ja nur schief gehen
Hallo zusammen,
zuerst einmal vielen Dank für eure tolle Unterstützung bei dem Thema:
Zur Erläuterung: Ich habe zwei Stellen, an denen WPSEO technisch was passiert.
1) XML – Sitemap: Hier bin ich jetzt hingegangen und habe die Seite wordpress/index.php/impressum/ auf “never” gesetzt. Muss ich mal versuchen, ob das was bringt.
2) Der von Tanja angesprochene Meta – tag wird von wpSEO generiert, aber da finde ich irgendwie keine Möglichkeit, das abzustellen. Kennt sich jemand damit aus?
Gruß
Matthias
@Mac_Beth In den Optionen bei den Keywords -> Den Wert direkt beim Verfassen eines Beitrags in der Metabox “wpSEO Optionen” eingeben können <- anmachen, dann kannst den noindex Wert direkt beim bearbeiten der Seite angeben.
Sorry für Doppelpost… @Mac_Beth zur Sitemap. Hast Du viele Seiten? Wenn nicht nimm die ganz raus aus der Sitemap und füge nur die wichtigen manuel zu. Geht ja alles schön in den Optionen.
@Matthias: Mit dem wpSEO kann ich Dir leider nicht helfen, das hat aber ja Markus auch schon getan
Ich persönlich würde die Seiten auch mal generell rausnehmen aus der sitemap.xml, die wichtigen kannst Du ja manuell schön hinzufügen. Bei den Seiten ist das ja wirklich wenig Aufwand
@Mac_BetH
Wenn das Impressum nicht im Suchmaschinenindex auftauchen soll, machste das via wpSeo:
Manuelles Robots-Tag: noindex,nofollow,noarchiv
Das kannst Du auch für jede Seite oder Artikel separat einstellen. Damit hast Du dann endgültig Ruhe
Gruß,
Andreas
@crazytoast: kein Problem, die anderen zwei versorgen mich so schnell, da komme ich eh nicht ganz hinterher!
@Markus und @Andreas: Wie Markus bereits gesagt hat, habe ich diese Häckchen gesetzt, dass ich bei jedem Post, die tags für die robots Datei selbst eingeben kann. Ich hoffe ich muss hier jetzt nicht bei jedem Post manuell was eingeben, oder?
Und dort habe ich dann wie von Andreas vorgeschlagen, die Werte “noindex,nofollow,noarchiv” eingeben. Ich hoffe das war so richtig!
Kann ich das jetzt irgendwo nachvollziehen bzw. kontrollieren?
Gruß
Matthias
@Mac_BetH Nein wenn Du nichts eingibst wird der Standard verwendet den Du in den Einstellungen angegeben hast.
Was meinst mit nachvollziehen? Ob die Seite das so übernommen hat? Das siehst im Quelltext im Browser und da schauts gut aus^^
@Markus und @Andreas: Vielen Dank für eure Hilfe!
Sonst muss ich aber nichts mehr machen?
Ich verstehe Eure Anweisungen erhlich gesagt nicht ganz. Noindex ist klar, aber nofollow halte ich für total schwachsinnig. Warum sollte der Bot auf dieser Seite keinen Links folgen dürfen? Was für einen Sinn soll das haben?
noarchiv heißt übrigens noarchive und auch den halte ich für ziemlich überflüssig…
Stimmt, da muss ich Crazy recht geben, soweit hab ich vorher nicht gedacht. Zu noarchiv wollt ich eigentlich was schreiben, aber meine Finger waren wieder schneller^^ Und auf Nofollow kann (sollte) man in diesem Fall bzw. auf allen internen Seiten verzichten.
Hallo Markus,
wie muss der Befehl im WPSeo dann heißen:
noindex?
Gruß
Matthias
noindex, follow wäre richtig bzw. besser.
Danke, Markus, habe ich eingestellt! Hoffe es sieht jetzt besser aus?
Woran siehst du das, dass es jetzt besser ist, im Quelltext?
Nun weils eben jetzt richtig drinsteht wenn man sich den Quelltext anschaut. Ich versteh Dich grad ehrlich gesagt nicht genau
So siehts jetzt aus bei Dir (Impressum):
<meta name="robots" content="noindex, follow" />Habs ein wenig auseinandergenommen, weil ich nicht weiß wie es sonst den Code evtl. hier zerhaut.