Der ein oder andere von Euch mag sich bei diesem Titel jetzt wohl denken, dass die „alte Crazy“ wohl einen an der Birne hat. Vor kurzem beschwert sie sich, dass Google Blog Artikel aus dem Index verliert und nun will sie absichtlich einzelne URLs aus dem Google Index verschwinden lassen. Wie passt das denn zusammen? Eigentlich gar nicht aber irgendwie auch wieder schon. Es gibt hin und wieder so Fälle, da wird es notwendig, einzelne URLs aus dem Google Index verschwinden zu lassen…
Die Gründe dafür mögen verschieden sein und auch nicht immer auf “Schuld eigene” zu schieben. Falsche Verlinkungen von außen, nachträglich geänderte einzelne Permalinks, etc. und schon kommt es vor dass eine URL doppelt im Google Index vorhanden ist und sich Double Content vom Feinsten bietet.
Nun sagt zwar Google selbst, dass Double Content auf der eigenen Domain nicht wirklich schädlich ist. Doch führt genau diese Suchmaschine im gleichen Atemzug die Canonical URLs ein. Nachtigall ick hör Dir trapsen…
Wobei wir schon bei der ersten gebräuchlichen Methode gegen Double Content URLs wären, den Canonical URLs. Eine gute Möglichkeit, dem Double Content ein Garaus zu bescheren, wenn das Wörtchen wenn nicht wäre… Denn gerade beim automatisierten Einsatz von Canonical URLs habe ich schon so einiges gesehen, wo Hirn und Verstand Fehlanzeige sind. So kam mir letztens z.B. unter, dass einfach die Server URI abgefragt wurde und als Canonical URL geschrieben wurde. Hervorragend, denn damit hat jede Double Content Seite ihre ganz eigene Canonical URL. Ich möchte an dieser Stelle aber weder vom Einsatz der Canonical URL abraten, noch irgendwelche Plugin oder Modul Autoren in Frage stellen. Eine detaillierte Prüfung, ob dieses automatische Tool auch das macht, was es machen soll, ist aber definitiv anzuraten.
Eine weitere gebräuchliche Methode ist der redirect permanent, auch 301 redirect genannt. Dieser sorgt dafür, dass beim Aufruf der “falschen” URL automatisch auf die richtige URL umgeleitet wird. Ebenso ist es noch möglich die “falsche” URL über die robots.txt Datei zu sperren, und so die Suchmaschinen anzuweisen, diese “falsche” URL nicht in den Index aufzunehmen bzw. rauszuwerfen.
Einzeln oder zusammen sind diese 3 Möglichkeiten die gebräuchlichsten, um einzelne URLs im Double Content Fall aus dem Google Index verschieden zu lassen. Sie haben nur alle 3 einen gemeinsamen Nachteil: Es kann Wochen bis mitunter Monate dauern, bis die Suchmaschinen das “fressen” und die falschen URLs tatsächlich verschwinden.
Wer nun aber eventuelle Rankingverschlechterungen etc. nicht für diese Zeit in Kauf nehmen möchte, hat eine weitere, sehr schnelle Möglichkeit, die falsche URL aus dem Google Index verschwinden zu lassen. In den Google Webmaster Tools gibt es aktuell im Bereich Website-Konfiguration unter Crawler-Zugriff den Menüpunkt URL entfernen. Dort wird ein neuer Antrag auf Entfernung gestellt, Einzelne URLs ausgewäht und die entsprechende falsch indexierte URL eingetragen und abschließend der Antrag eingereicht. In der Regel ist diese URL dann innerhalb von 24 Stunden aus dem Google Index gelöscht.
Wer auf diese schnelle Möglichkeit einzelne URLs aus dem Google Index verschwinden lassen zurückgreifen möchte sollte wissen, dass die dort eingetragenen URLs nur entfernt werden, wenn sie entweder über die robots.txt gesperrt und/oder per 301 redirect umgeleitet oder nicht erreichbar sind. Eine aktive URL die weder gesperrt noch umgeleitet ist, wird dort nicht entfernt, der Antrag wird abgelehnt.
Lol der mit Server URI war gut^^ Das geht ja mal voll am Ziel vorbei.
@Markus: Ja, *kicher*, ich hab auch gedacht ich seh nicht richtig. Voll ohne Hirn und Verstand
Ah, gerade was das mit der Robots.txt angeht, hab ich diese Woche irgendwo ein Google-Video gesehen, was Google selbst ins Netz stellte und wo sie erklären, warum dennoch Seiten in ihrem Index zu finden sind, auch wenn diese eigentlich über die robots.txt ausgenommen wären.
Der Grund wurde darin aufgeführt, dass es auf diese Seite Links von externen Seiten gäbe und Google anhand dieser Links und den darauf gelegten Keywords eine Indizierung vornehmen würde.
Beispiel:
nehmen wir an, eine Namenhafte Firma hätte folgende URL: h++p://www.namenhaftefirma.de und in der Robots.txt die komplette Seite von der Indizierung ausgeschlossen, dann passiert folgendes: Google besucht die Seite (ruft also als erstes mal die robots.txt ab) und stellt fest: Hey, da sollen wir nicht schnüffeln! Also tun wir das auch nicht.
Lässt also die Seite aus dem Crawl erstmal raus.
Dann passiert aber folgendes: 123461784123 Webseiten im Netz verlinken auf diese URL mit dem Keyword “Namenhafte Firma” und schwupps ist die URL unter diesem Keyword (oder diesen Keywords, ums korrekt zu sagen) im Index geführt, weil Google sie relevant findet für eben genau diesen Zusammenhang…
So ganz 100% erfolgreich arbeitet die robots.txt in diesem Fall also nicht. Sie hindert zwar am reinen indizieren durch crawling (also der Content selbst bleibt aus dem Index), aber die reine Existenz der URL kann man so nicht verleugnen.
Sorry für den langen Kommentar, ich wollte nur deswegen bei mir keinen eigenen Beitrag schreiben, weil ich der Meinung war, es passt an sich wesentlich besser hierher…
Achja, hier die Seite, wo das Video zu finden ist:
‘http://www.mattcutts.com/blog/robots-txt-remove-url/’
@Kim: Ja, das stimmt, die robots.txt ist nicht wirklich immer zuverlässig. Wobei ich nicht nur den von Dir beschriebenen Fall im Index finde, sondern auch andere ausgesperrte Seiten, die ganz und gar nicht von außen angelinkt sind. Die haben zwar keinen Titel und keine Description, also rein nur die URL, sind aber da. Das passiert seit ca. einem halben bis einem Jahr in dieser Weise.
Nicht nur aus diesem Grund plädiere ich für eine Kombilösung. Ich habe mit meinem Shop gerade mal wieder ein mega Chaos bezüglich indezierter Session IDs gehabt und fahre dort eigentlich 3 Sicherheitsstufen (Datenbank, robots.txt, htaccess), denn hin und wieder kommt es vor, dass die erste ausgehebelt wird, die zweite ignoriert und dann habe ich wenigstens noch die dritte (alles schon erlebt).
Übrigens noch ein kleiner Vorteil beim URL entfernen über die Webmaster Tools: Meines Wissens nach bleibt diese URL ein halbes Jahr “gebannt”, kommt also von selbst nicht mehr rein, egal wie man die von wo auch immer anlinkt
Ganz genau
Ich fand’s nur interessant, als ich das Video gesehen hab, weil: ich hab mich auch immer gewundert bei dienstlich benutzten Seiten, warum diese via Google zu finden sind, obwohl die Inhalte eigentlich gesperrt waren, wie du auch schon sagst, auch per .htaccess sogar mit Passwortabfrage. aber es existierten zu diesen “internen Seiten” Links auf anderen Websites, die nicht per nofollow ausgeklammert waren… nicht alle Kollegen denken so weitsichtig
Autsch
Das ist ja übel. Müsste aber für zumindest ein halbes Jahr klappen, wenn man die WMT URL entfernen Funktion nutzt. Die geht übrigens auch für ganze Bereicher einer Domain sowie die gesamte Domain. Dann hat man in einem wie von Dir beschriebenen Fall zumindest ein halbes Jahr Ruhe. Schließlich hat sich derjenige, der die Seite über die robots.txt sowie die htacces ausgeschlossen hat, auch was dabei gedacht, oder?
Nunja, per htaccess ist ja auch der Zugriff auf den Bereich auf einen IP-Adressbereich eingeschränkt (eben den unseres “Firmennetzes”). Es liefert also so oder so eine Fehlermeldung (Access Denied), wenn man aus der Wildnis auf das System zugreift… dennoch ist es blöde, wenn der Link in Suchmaschinen rumödet… Aber was solls… es stellt keine Gefahr da und schadet auch nicht wirklich…
Hab grad sogar ein passendes Beispiel meiner eigenen Domain: google-Suche nach “site:server.huebel-online.de” – liefert auch nur die URL, weil in der Robots.txt folgendes steht:
User-agent: *
Disallow: /
Es existiert kein bei google geführter Link: link:server.huebel-online.de liefert 0 Ergebnisse…
Nicht, dass das jetzt schlimm wäre, weil die Site an sich nur “Spielwiese” zum Testen ist… aber interessant ist die Sachlage trotzdem *grins*
Hallo zusammen,
genau das habe ich gedacht!
Aber ihr werdet lachen, genau das ist bei mir passiert! Ich wollte oder will immer noch mein Impressum aus dem Index haben, aus diesem Grund habe ich in meine robots.txt folgendes geschrieben:
User-Agent: *Disallow:/impressum
Aber wenn ich auf meinem Dashbord das Googleranking anklicke, dann sehe ich das Google diese Seite trotzdem indiziert hat!
Die Frage die sich mir jetzt stellt, habe ich was bei der “Aussperrung” falsch gemacht, oder verlinkt jemand auf die Seite, was ich mir nicht vorstellen kann.
Die letzte Möglichkeit für mich, ist, dass die Seite vielleicht über die XML Sitemap mit verteilt wird?
Was denkt ihr?
Gruß
Matthias
@Mac_BetH:
Du verlinkst ja in deiner Site selbst auf das Impressum (weiß jetzt nicht, ob per nofollow), also weiß Google über die Existenz dieser URL (sofern du nicht per nofollow-Tag die Sache “maskierst). Also landet die URL selbst im Index, der Inhalt sollte jedoch nicht wirklich dort erscheinen (wenn er nicht schon mal irgendwie gecrawled wurde, bevor du das Disallow gesetzt hast).
@Kim:
Genau das war der Fall! Reagiert habe ich nämlich erst, als ich sah, dass dort meine Adresse steht! Allerdings ist das mittlerweile behoben, denn ich habe die Adresse rausgenommen!
Aber eine Frage, ich verlinke eigentlich “nur” in meiner Homepage per Button auf das Impressum, oder?
Ist das Coding in der robots.txt richtig?
Gruß
Matthias
@Mac_BetH:
Hast du ein Google-Konto und dich bei den Webmaster-Tools angemeldet, dann kannst du nämlich dort überprüfen, ob die robots.txt ordentlich ausgewertet wird. Ich weiß nicht, ob die zwingend auf Leerzeichen im Disallow-Teil besteht…
Auf der anderen Seite ist bezogen auf die Permalinkstruktur deine robots.txt sowieso nicht brauchbar, weil sie auf das falsche Ziel sperrt…
Okay, welches Ziel wäre denn richtig?
Sorry, aber ich habe mich mit dem Thema nicht wirklich beschäftigt! War wohl ein Fehler!
Wegen Webmaster-Tools, wo finde ich den Inhalt der robots.txt?
Gruß
Matthias
@Mac_BetH Den findest Du normal unter – Website-Konfiguration – Crawler-Zugriff. Da kannst dann auch bissle rumtesten und schauen wie du alles einstellen muss in der robots.txt.
Matthias:
in deinem Fall käme sicherlich statt des /impressum ein /wordpress/index.php/impressum/ rein, weil das der Teil der URL hinter der Domain ist, die du sperren willst… Soweit ich das jetzt richtig sehe…
Oh jeh, was ist denn hier los
@Kim: Mir ist ja schon öfter aufgefallen, dass Google sich nicht wirklich an die robots.txt hält, egal ob ein externer Link drauf zeigt oder nicht
Übrigens ist auch die link: Abfrage mehr als fragwürdig seit einigen Jahren. Es werden lange nicht alle Backlinks angezeigt. Am einfachsten ist Du frägst einfach nur die URL in Google ab, ohne irgendwas davor. Da hast Du aber immer noch nicht die Seiten, die Google gerade mal vorübergehend aus dem Index geworfen hat etc.
@Matthias: Schau mal den Quelltext Deines Impressums an, dort findest Du den Eintrag:
. An dem solltest Du zu allererst arbeiten und für die Page Impressum diese automatische Generierung über Dein SEO Plugin deaktivieren. Dann eine if (is_page(‘id’)) Abfrage in die header.php für Dein Impressum und einfügen:. Sonst kriegst Du die Seite nie ordentlich aus dem Index raus, da Du sie ja selbst anlinken musst.Ein Eintrag in die robots.txt dürfte da nicht viel bringen. Und wenn dann in Deinem Fall wahrscheinlich sowieso nur mit (je nachdem wo die robots.txt liegt):
Disallow: /wordpress/index.php/impressum/Trotzdem ist das eher suboptimal, solange Du diesen meta tag verwendest. In der robots.txt sagst Du “nicht indexieren” und auf der Impressum Seite sagst Du “bitte doch indexieren” – das kann ja nur schief gehen
Hallo zusammen,
zuerst einmal vielen Dank für eure tolle Unterstützung bei dem Thema:
Zur Erläuterung: Ich habe zwei Stellen, an denen WPSEO technisch was passiert.
1) XML – Sitemap: Hier bin ich jetzt hingegangen und habe die Seite wordpress/index.php/impressum/ auf “never” gesetzt. Muss ich mal versuchen, ob das was bringt.
2) Der von Tanja angesprochene Meta – tag wird von wpSEO generiert, aber da finde ich irgendwie keine Möglichkeit, das abzustellen. Kennt sich jemand damit aus?
Gruß
Matthias
@Mac_Beth In den Optionen bei den Keywords -> Den Wert direkt beim Verfassen eines Beitrags in der Metabox “wpSEO Optionen” eingeben können <- anmachen, dann kannst den noindex Wert direkt beim bearbeiten der Seite angeben.
Sorry für Doppelpost… @Mac_Beth zur Sitemap. Hast Du viele Seiten? Wenn nicht nimm die ganz raus aus der Sitemap und füge nur die wichtigen manuel zu. Geht ja alles schön in den Optionen.
@Matthias: Mit dem wpSEO kann ich Dir leider nicht helfen, das hat aber ja Markus auch schon getan
Ich persönlich würde die Seiten auch mal generell rausnehmen aus der sitemap.xml, die wichtigen kannst Du ja manuell schön hinzufügen. Bei den Seiten ist das ja wirklich wenig Aufwand
@Mac_BetH
Wenn das Impressum nicht im Suchmaschinenindex auftauchen soll, machste das via wpSeo:
Manuelles Robots-Tag: noindex,nofollow,noarchiv
Das kannst Du auch für jede Seite oder Artikel separat einstellen. Damit hast Du dann endgültig Ruhe
Gruß,
Andreas
@crazytoast: kein Problem, die anderen zwei versorgen mich so schnell, da komme ich eh nicht ganz hinterher!
@Markus und @Andreas: Wie Markus bereits gesagt hat, habe ich diese Häckchen gesetzt, dass ich bei jedem Post, die tags für die robots Datei selbst eingeben kann. Ich hoffe ich muss hier jetzt nicht bei jedem Post manuell was eingeben, oder?
Und dort habe ich dann wie von Andreas vorgeschlagen, die Werte “noindex,nofollow,noarchiv” eingeben. Ich hoffe das war so richtig!
Kann ich das jetzt irgendwo nachvollziehen bzw. kontrollieren?
Gruß
Matthias
@Mac_BetH Nein wenn Du nichts eingibst wird der Standard verwendet den Du in den Einstellungen angegeben hast.
Was meinst mit nachvollziehen? Ob die Seite das so übernommen hat? Das siehst im Quelltext im Browser und da schauts gut aus^^
@Markus und @Andreas: Vielen Dank für eure Hilfe!
Sonst muss ich aber nichts mehr machen?
Ich verstehe Eure Anweisungen erhlich gesagt nicht ganz. Noindex ist klar, aber nofollow halte ich für total schwachsinnig. Warum sollte der Bot auf dieser Seite keinen Links folgen dürfen? Was für einen Sinn soll das haben?
noarchiv heißt übrigens noarchive und auch den halte ich für ziemlich überflüssig…
Stimmt, da muss ich Crazy recht geben, soweit hab ich vorher nicht gedacht. Zu noarchiv wollt ich eigentlich was schreiben, aber meine Finger waren wieder schneller^^ Und auf Nofollow kann (sollte) man in diesem Fall bzw. auf allen internen Seiten verzichten.
Hallo Markus,
wie muss der Befehl im WPSeo dann heißen:
noindex?
Gruß
Matthias
noindex, follow wäre richtig bzw. besser.
Danke, Markus, habe ich eingestellt! Hoffe es sieht jetzt besser aus?
Woran siehst du das, dass es jetzt besser ist, im Quelltext?
Nun weils eben jetzt richtig drinsteht wenn man sich den Quelltext anschaut. Ich versteh Dich grad ehrlich gesagt nicht genau
So siehts jetzt aus bei Dir (Impressum):
<meta name="robots" content="noindex, follow" />Habs ein wenig auseinandergenommen, weil ich nicht weiß wie es sonst den Code evtl. hier zerhaut.