Nov 17 2014

Trotz robots.txt Seiten im Google Index? So geht's richtig!

Trotz robots.txt Seiten im Google Index?

Viele Webmaster unterliegen dem Irrglauben, dass die Sperrung von Seiten bzw. Seitenbereichen mittels robots.txt verlässlich gegen die Indexierung von Seiten in den Suchergebnissen von Google schützt. Leider ist die robots.txt kein sicheres Mittel eine Indexierung zu verhindern.

Wie kann es dazu kommen dass Seiten trotzdem im Google Index landen?

Die robots.txt Datei ist ein sicheres Mittel dem Crawler zu verbieten bestimmte Seiten oder Seitenbereiche zu crawlen. Google entscheidet jedoch Seiten dennoch zu indexieren, wenn von anderen Seiten einige Links auf die URL zeigen, welche eigentlich laut der robots.txt nicht gecrawlt werden sollen. Das passiert vor allem dann, wenn es sich um einen besonders interessanten Inhalt handelt der freiwillig und gern verlinkt wird. Gerade soziale Sharings können hier ebenfalls eine Indexierung hervorrufen.

Schafft ein NOINDEX Attribut und ein gleichzeitiger robots.txt Eintrag Abhilfe?

Manche Webmaster versuchen eine versehentliche Indexierung zu vermeiden, indem sie sich gleich doppelt absichern. Zum einen wird eine Seite in der robots.txt gesperrt und zum anderen dieselbe Seite mittels NOINDEX abgesichert. Das NOINDEX Attribut sagt Google über den Quelltext, dass die jeweilige Seite nicht in Google aufgenommen werden soll.
 
Diese Vorgehensweise hat jedoch keine Auswirkungen, da Google wegen der robots.txt Crawler-Sperrung erst gar nicht dazu kommt das NOINDEX Attribut im Quelltext zu lesen bzw. zu erkennen. Somit ist es Google nicht möglich die Anweisung zu befolgen. 

Sollte man eine Robots.txt dann überhaupt noch verwenden?

Ja. Dafür spricht besonders, dass man den Crawler steuern kann. Das bringt bei großen Seiten beispielsweise Performance-Vorteile und schont die Crawling Ressourcen. 

Die robots.txt ist mit Vorsicht zu genießen!

Beispielsweise sollten CSS Dateien und Java Skripte nicht mehr mittels robots.txt für Google gesperrt werden. Wer dies tut, kann seiner Seite in Zukunft schaden. Google ist mittlerweile in der Lage entsprechende Inhalte zu rendern und zu lesen. Deshalb hat Google diesen Punkt auch kürzlich in seine Google Guidelines übernommen. Als SEO Agentur die nachhaltig optimiert und berät, müssen wir immer auf entsprechende Änderungen hinweisen und reagieren. Nicht zuletzt soll diese Anforderung auch Black Hat SEOs stärker unter Druck setzen. Ob das in diesem Punkt funktioniert, wird sich zeigen.

Pierre Far (Webmeister Trends Analyst bei Google) hat dieses Thema durch einen eindringlichen Post in Google+ nochmals klar gemacht:

Trotz robots.txt Seiten im Google Index? - Pierre Far

Wie verhindert man sicher die Indexierung von bestimmten Seiten?

Dies ist nur mithilfe des Meta-Tags „noindex“ sicher möglich und ohne eine Crawler-Restriktion der entsprechenden Seite in der robots.txt Datei. Mehr über die Nutzung des NOINDEX Attribut erfahren Sie hier.

Wer sich das Thema durch Matt Cutts persönlich zu Gemüte führen will, dem empfehle ich die folgende Videoerklärung (englisch):