Mit robots.txt das Crawling einer Webseite steuern

Geschätzte Lesezeit: 2 Minuten, 28 Sekunden

Suchmaschinen werden immer wichtiger, zumal der über die Trefferlisten von Google, Bing und Co generierte Traffic immer weiter zunimmt. Im Zuge dessen spielt die Datei robots.txt eine große Rolle. Wir erklären, warum.

Das Robots File

Beispielhafter Aufbau einer robots.txt

Zunächst eine Illustration des Aufbaus der robots-Datei, die eine reine Textdatei ist, anhand eines Beispiels, in dem drei Zeilen für je ein anderes Verzeichnis Angaben zu den Zugriffsrechten (Disallow) machen und eine den Agent angibt, der auf die Dateien zugreifen darf (hier sind es alle Agents, gekennzeichnet über den Stern).

# robots.txt
User-agent: *
Disallow: /abc.css
Disallow: /privat/
Disallow: /jccs/
Sitemap: http://www.meine-domain.de/sitemap.xml

Alle Zeilen, die mit dem Gatter beginnen, im Einfachbeispiel ist es die erste Zeile, gelten als Kommentar.

Die Disallow Angaben sind insbesondere sinnvoll für Ressourcen, die nicht in den organischen Suchindex aufgenommen werden sollen. Übrigens ist es nicht so, dass alle in robots.txt für die Indizierung mit dem Schlüsselwort disallow ausgeschlossenen Verzeichnisse und Dateien tatsächlich auch nicht von Suchmaschinen oder einem Webcrawler berücksichtigt werden! Vielmehr wird normalerweise jede Ressource, die von außerhalb via Link referenziert wird, von einem Crawler auch in den Index aufgenommen. Allerdings werden derart gecrawlte Seiten in den SERPs (Suchergebnisseiten) im angezeigten Snippet oft entsprechend gekennzeichnet. Siehe auch die Hilfe von Google, die dieses Thema weiter beleuchtet.

Auch möglich sind Allow Angaben, diese sollen aber nicht nach Disallow Infos in robots.txt stehen, da die erste Angabe die übergeordnete Regel angibt.

Die Anweisungen in der Robots-Datei folgen übrigens alle dem Robots Exclusion Standard, der besagt, dass Webcrawler für eine gefundene Website im Root-Verzeichnis der Domain zuerst nach besagtem File suchen. So können Website-Betreiber einfach und standardisiert einzelne Bereiche ihrer Website für Suchmaschinen verriegeln.

Ist robots.txt wirklich notwendig?

Kurz gesagt kann man diese Frage mit ja beantworten. Es gilt schon alleine als Qualitätskriterium, wenn die Robots-Datei vorhanden ist bzw. als kleiner Mangel, wenn sie es nicht ist. Hier verhält es sich ungefähr wie bei einer Sitemap: Sie ist nicht erforderlich, aber ihre Verfügbarkeit erfreut Suchmaschinen und Webcrawler.

Weiterhin erleichtert die Datei mit ihren Informationen den Suchmaschinen das Leben, insbesondere beim Auffinden anderer Dateien als der ursprünglichen, vor allem wenn sie in einem sonst unbekannten Verzeichnis liegen. Da die Datenmenge im Netz immer weiter wächst, sollen selbst mächtige Serverparks wie die von Google schonend mit ihren Zugriffen umgehen. Und das bedeutet ein auf Effizienz getrimmtes Crawlen der Webseiten im Internet. Die robots.txt unterstützt die Suchmaschinen und Webcrawler genau dabei, denn sie hilft, die Crawler von irrelevanten Inhalten fernzuhalten und gibt zudem eine Referenz auf die o.g. Sitemap, welches das Indizieren von Dateien wiederum schneller gestaltet. Die Webcrawler merken sich natürlich, welche Datei bereits in den Index aufgenommen wurde und welche Anweisung noch nicht ausgeführt wurde.

Neben dem SEO-Thema sollte man mit dem robots.txt File auch Zugriffsrechte für User setzen und SEO-wirksam 404-Fehler vermeiden (404 = Seite nicht gefunden).

Momox.de - Einfach verkaufen.

Die robots.txt Datei testen

Um zu prüfen, ob robots.txt ein gültiges Format hat, gibt es diverse kostenlose Online Tools. Wir empfehlen die Google Webmaster Tools dafür zu verwenden: Zu testende Webseite auswählen (oder neu registrieren), dann unter Crawling den Menüpunkt robots.txt Tester auswählen:

robots.txt crawl
Robots.txt Tester

Mit dem Robots.txt Generator kann der Inhalt der Datei mit Hilfe eines Online-Assistenten komfortabel erzeugt werden.

Weitere Ressourcen

Die eigene Webseite schützen und absichern mit der richtigen Konfiguration der Robots-Datei, warum das wichtig ist verrät Webseiten schützen vor Google Hacking.


Wie hat Dir der Artikel gefallen?

Mit robots.txt das Crawling einer Webseite steuern: 1 Stern2 Sterne3 Sterne4 Sterne5 Sterne 4,75 von 5 Punkten, basieren auf 4 abgegebenen Stimmen.

united-domains.de - die besten Adressen fürs Web.
Dr. Klaus Meffert
Folge mir

Dr. Klaus Meffert

Geschäftsführer bei IT Logic GmbH
Der Autor ist Diplom-Informatiker und hat neben seinem Beruf als Organisationsberater zum Doktoringenieur promoviert. Er besitzt über 25 Jahre Erfahrung im IT-Bereich (Software-Lösungen, Apps,Web, Online-Marketing,) ist mehrfacher Buchautor und Autor zahlreicher Fachartikel. Er hilft Unternehmen mit maßgeschneiderten Software-Lösungen und mit besseren Google-Rankings zu mehr Erfolg.
Dr. Klaus Meffert
Folge mir

Weitere Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.