Was ist Robots.txt?

Wir zeigen Ihnen in diesem Artikel alles Wissenswerte zu Robots.txt

Das Wichtigste zuerst: Die Robots.txt Datei liegt auf Ihrem Webspace und die Crawler und Spider halten nach dieser Datei Ausschau, um Anweisungen zu erhalten, bevor Sie Ihre Website crawlen. Deshalb sollte die Robots.txt Datei immer im Root-Verzeichnis liegen, da dies der erste Ort ist, wo die Spider nach Anweisungen suchen.

Sie können ganz einfach überprüfen, ob die Robots.txt Datei auf Ihrer Website vorhanden ist, indem sie folgenden Link in Ihrem Browser eingeben: www.IhreWebsite.de/robots.txt.

Google empfiehlt jedem Webseitenbetreiber das Vorhandensein einer Robots.txt Datei. Falls die Crawler von Google keine Robots.txt Datei finden, führt das höchstwahrscheinlich dazu, dass die Suchmaschine nicht alle wichtigen Seiten Ihrer Website crawlt. Genau das ist jedoch einer der Hauptaufgaben einer Suchmaschine: Ihre Website zu crawlen und zu indexieren, damit Sie von anderen Personen gefunden werden kann.

Hosting-Paket auswählen

Auf dieser Seite

Was macht Robots.txt?
Wie funktioniert Robots.txt?
Warum sollte ich Robots.txt nutzen?
Robots.txt Tester

Jetzt loslegen

Was macht Robots.txt?

Über Robots.txt können Sie bestimmte Teile Ihrer Website blockieren und andere Teile indexieren lassen. Sie können bestimmte Seiten und Ordner auf Ihrer Website entweder Erlauben (Allow) oder Verbieten (Disallow).

Wenn Sie die Erlaubnis für gewisse Seiten erteilen, erlauben Sie den Spider zu diesem Teil der Website zu gehen und ihn zu indexieren. Ein Verbot bedeutet hingegen, dass Sie nicht wollen, dass bestimmte Teile Ihrer Website von den Spider gefunden werden.

Robots.txt ermöglicht es Ihrer Website in Suchmaschinen Präsenz zu zeigen. Wenn Sie beispielsweise eine Kontaktseite haben, können Sie diese mithilfe der Robots.txt Datei blockieren. Dann crawlt Google diese Seite nicht, sondern stattdessen lieber andere wichtige Seiten auf der Website. Warum Zeit für das Indexing einer Seite verschwenden, bei der es irrelevant ist, ob Sie in den Suchergebnissen vorkommt oder nicht?

Falls Sie das möchten, können Sie mit Robots.txt anstelle der Kontaktseite auch die gesamte Website blockieren.

Wie funktioniert Robots.txt?

Die verschiedenen Suchmaschinen und Plattformen haben unterschiedliche Crawler. Wir nennen Sie normalerweise „User Agent“. Wenn Sie eine Erlaubnis oder ein Verbot für einen bestimmten Teil Ihrer Website erteilen, können Sie weiter den Crawler spezifizieren, etwa Googlebot (Googles Crawler). So lässt sich der genaue User Agent festlegen, für den dieser Fall gelten soll, oder Sie nutzen ein Sternchen „*“ und meinen damit alle Crawler im Internet.

Die Robots.txt Datei lässt dabei sehr fortgeschrittene Befehle zu. So können Sie etwa bestimmte URLs, Verzeichnisse oder gar spezifische URL-Parameter blockieren.

Gleiches gilt für Seiten, die besonders wichtig sind und unbedingt von Google gecrawlt werden sollen. Diese können Sie mit Hilfe der Robots.txt Datei indexieren.

Verzögerungen

Sie können in der Robots.txt Datei Verzögerungen einbauen, etwa wenn Sie nicht wollen, dass die Crawler Ihre Website so schnell crawlen. Konkret geben Sie damit den Befehl, die Website nicht zu crawlen, bis eine gewisse Zeitspanne vergangen ist.

Mit den Verzögerungen gehen Sie sicher, dass Ihr Server nicht von den Anfragen der Crawler überlastet wird.

Bedenken Sie allerdings, dass gerade Google die Funktion für Verzögerungen nicht unterstützt. Wenn Sie Ihre Server nicht mit den Anfragen der Google Bots überlassen wollen, müssen Sie stattdessen die Crawling-Frequenz anpassen. In der Google Search Console können Sie Ihre gewünschte Crawling-Frequenz festlegen und damit die Spider etwas ausbremsen.

Zusätzliche Anweisungen

Wenn Sie eine große Website verwalten, können Sie in Ihre Robots.txt Datei weitere Anweisungen einbauen. Ob für Google oder eine andere Suchmaschine, mit bestimmten Befehlen lässt sich genauer definieren, wie die Website gecrawlt werden soll.

Dieses „Pattern Matching“ beinhaltet eine Reihe von Regeln für die Crawler. Ein Beispiel ist, dass Sie festlegen, dass URLs, die das Wort „Website“ enthalten, geblockt werden.

Warum sollte ich Robots.txt nutzen?

Viele Menschen nutzen die Robots.txt Datei, um Crawler von Drittanbietern auf der Website zu verhindern. Damit meinen wir, dass nicht nur Suchmaschinen Crawler einsetzen, um die Inhalte in die Suchmaschinen zu bringen, sondern auch andere Unternehmen wie Facebook.

Das Crawling verlangsamt Ihre Website und den Server, was zu einem schlechten Nutzererlebnis führt. Zusätzlich können diese zusätzlichen Widgets weitere Probleme verursachen, die Sie schlussendlich beheben müssen.

Mit Robots.txt verbieten Sie es den Drittparteien, Inhalte von Ihrer Website zu kopieren oder nach Änderungen zu suchen. Die Robot.txt Datei eignet sich hervorragend dazu, Dinge zu blockieren, die Sie nicht auf Ihrer Website haben wollen.

Hegt jemand jedoch ein Interesse an Ihrer Website, kann er Programme wie Screaming Frog nutzen und die Verbote in der Robots.txt Datei umgehen. Für einen hundertprozentigen Schutz Ihrer Website können Sie sich deshalb nicht nur auf die Robots.txt Datei verlassen.

Robots.txt Tester

Mit dem Robots.txt Tester in der Google Search Console können Sie nachsehen, ob eine bestimmte Seite auf Ihrer Website blockiert wird. Es ist gut, dies hin und wieder zu überprüfen. So gehen Sie sicher, dass Sie nicht aus Versehen eine wichtige Seite blockieren.

Noch ein Wort zum Abschluss: Seien Sie vorsichtig bei der Arbeit mit der Robots.txt Datei. Es kann große negative Folgen haben, wenn Sie versehentlich Ihre gesamte Website für die Indexierung blockieren.

Hosting-Paket auswählen

Was ist Robots.txt?

Was macht Robots.txt?

Wie funktioniert Robots.txt?

Verzögerungen

Zusätzliche Anweisungen

Warum sollte ich Robots.txt nutzen?

Robots.txt Tester

Produkte

Information

Ressourcen

Unternehmen