Suchmaschinen sind ohne Frage eine der elementarsten und auch praktischsten Dinge im Internet: Nur kurz einen Begriff eingeben und schon erhalten Sie eine lange Liste an – mal mehr, mal weniger – passenden Ergebnissen. Damit das möglich ist, spielt die Datei »robots.txt« eine wichtige Rolle. Aber robots.txt, was ist das eigentlich? Hier finden Sie die Antwort.
Was ist robots.txt?
Die »robots.txt« ist eine einfache Textdatei (eine sogenannte »TXT«), die Website-Betreiber auf ihrer Seite hinterlegen. Die Datei weist Webcrawler an, welche Teile einer Website sie besuchen dürfen und welche nicht. Webcrawler fallen in die Kategorie »Bots« (abgeleitet vom englischen »robot«, also »Roboter«): Computerprogramme, die automatisch bestimmte Aufgaben ausführen. Im Falle von Webcrawlern lautet diese Aufgabe, das Internet zu durchsuchen und Informationen zu indizieren und zu katalogisieren.
Das enthält eine robots.txt normalerweise
Vor allem Suchmaschinen wie Google nutzen Crawler beziehungsweise Webcrawler, um Informationen über Webseiten zu sammeln. Dieser Vorgang wird »crawlen« (von englisch »to crawl«, auf Deutsch »kriechen«, »krabbeln«) genannt. Die Suchmaschinen nutzen die gesammelten Informationen, um einen Index (ein Register und geordnetes Verzeichnis) zu erstellen. Der macht es möglich, schnell und effizient auf Suchanfragen zu reagieren und passende Webseiten anzuzeigen.
Das klingt vielleicht nach komplexer Technologie. Doch eigentlich ist die robots.txt relativ simpel aufgebaut. Die Datei enthält in der Regel folgende Schlüsselelemente:
- User-Agent: »Agent« (auf Deutsch »Handelnder«) bezeichnet hier den spezifischen Webcrawler, für den die Anweisung gilt. Zum Beispiel kann die Datei explizit »Googlebot« (den Webcrawler von Google) aufführen, um Anweisungen speziell für diesen Bot zu geben.
- Disallow: Dieser Befehl bedeutet wörtlich übersetzt »nicht erlauben«. Er verbietet dem genannten Webcrawler den Zugriff auf bestimmte Teile der Website. Zum Beispiel bedeutet „Disallow: /XY/“, dass Webcrawler den Ordner „XY“ auf der Website nicht besuchen dürfen.
- Allow: Selbstverständlich ist auch eine Umkehrung ins Positive möglich. »Allow« ist englisch für »erlauben« und gestattet als Gegenteil von „Disallow“ Zugriff auf bestimmte Bereiche – auch wenn ein allgemeineres „Disallow“ besteht.
- Sitemap: Um Suchmaschinen wie Google die Arbeit zu erleichtern, können Sie in der TXT den Pfad zu einer »Sitemap« (auf Deutsch in etwa »Seitenübersicht«) angegeben. Dabei handelt es sich um eine Datei, welche ein Verzeichnis Ihrer Webseiteninhalte bereitstellt und so den Suchmaschinen bei der Indexierung hilft. Eine Sitemap ist aber nicht nur eine Erleichterung für den Robot von Suchmaschinen: Sie können Ihre robots.txt auf diesem Wege auch für SEO (»Search Engine Optimization«, auf Deutsch »Suchmaschinenoptimierung«) einsetzen. Dadurch können Sie beeinflussen, an welcher Stelle Ihre Webseite in den Suchergebnissen von Google und Co auftaucht.
Zweck und Funktion: Dazu dient die robots Textdatei
Auch der Zweck einer robots.txt ist simpel: Zum einen ermöglicht die „robots.txt“-Datei Ihnen als Website-Betreiber, zu steuern, welche Teile ihrer von Webcrawler be- und durchsuchen sollen. Dies ist besonders wichtig, um sicherzustellen, dass Suchmaschinen wie Google nur auf relevante und erlaubte Bereiche der Website zugreifen. Andererseits können Sie mittels des »Disallow«-Befehls verhindern, dass bestimmte Bereiche ihrer Website in Suchmaschinen-Ergebnissen erscheinen. Dies ist besonders für Ordner mit sensiblen Daten, nicht für die Öffentlichkeit bestimmten Unterseiten oder interne Systembereiche sinnvoll. Zusätzlich dazu kann die robots.txt wie gesagt für SEO dienen und so dazu beitragen, Ihre Webseite bekannter und besser erreichbar zu machen.
Es ist jedoch wichtig zu verstehen, dass „robots.txt“ eher eine Richtlinie als ein strikter und verpflichtender Befehl ist. Nicht alle Bots halten sich an die Anweisungen in der „robots.txt“ – vor allem nicht solche mit bösartigen Absichten. Die TXT bietet keinen echten Schutz gegen böswillige Bots oder Personen, die diese Anweisungen ignorieren.
In vier Schritten eine robots.txt erstellen
Eine robots.txt-Datei anzulegen, ist ein relativ einfacher Prozess. Viele Systeme zur Verwaltung von Online-Inhalten wie WordPress bieten eigene kleine Programme für die Erstellung einer robots.txt. Allerdings können Sie dies auch mit den basalsten Anwendungen Ihres Computers erledigen. Sie benötigen lediglich einen Texteditor wie Notepad unter Windows oder TextEdit unter macOS. So gehen Sie Schritt für Schritt vor:
- Schreiben Sie grundlegende Anweisungen! Öffnen Sie den Texteditor und verfassen Sie Ihre gewünschten Regeln für die Webcrawler. Dabei können Sie sich an den oben genannten Schlüsselelemente orientieren. Die robots.txt ist in einfachem Textformat (ASCII) geschrieben und jede Zeichenkette wird normalerweise in einer neuen Zeile platziert.
- Speichern Sie das Dokument als „robots.txt“! Nachdem Sie die Anweisungen geschrieben haben, speichern Sie die Datei unter dem Namen »robots.txt«. Dieser Name ist entscheidend: Nur so wissen die Bots, dass es sich um die Datei handelt, welche die Regeln für sie enthält.
- Laden Sie die Datei auf Ihre Webseite hoch! Platzieren Sie die gespeicherte Datei auf Ihrer Webseite, indem Sie sie in das Hauptverzeichnis Ihrer Webseite hochladen. Liegt die robots.txt am korrekten Ort, kann Ihre Webseite effektiv gecrawlt werden.
- Überprüfen Sie die Funktionsweise! Nach dem Hochladen sollten Sie sicherstellen, dass die „robots.txt“-Datei richtig funktioniert. Dies können Sie mithilfe von Online-Anwendungen überprüfen, die bestätigen, ob die Bots die Anweisungen in Ihrer Datei erkennen und befolgen.
Erster Schritt zu mehr Webseitenbesuchern
robots.txt ist ein wichtiges Instrument für die Platzierung Ihrer Webseite in den Suchergebnissen von Google und Co. Allerdings gibt es noch viele weitere SEO-Werkzeuge: Bei united-domains können Sie daher nicht nur eine Domain kaufen, sondern auch mithilfe von rankingCoach® direkt überprüfen, wie Ihre Webseite in Suchmaschinen positioniert ist – und bei Bedarf entsprechende SEO-Maßnahmen einleiten.
Häufig gestellte Fragen zu robots.txt
Welche Alternativen zu robots.txt kann ich nutzen?
Als Alternative zur robots.txt können Sie zum Beispiel bestimmte Anweisungen für Crawler direkt in den Programmiercode einer Webseite einbauen.
Was bedeutet »Indexiert, obwohl durch robots.txt-Datei blockiert«?
Erhalten Sie diese Meldung, heißt das: Eine Suchmaschine hat Ihre Webseite gecrawlt und ihrem Index hinzugefügt, obwohl die „robots.txt“-Datei dies verbietet. Dies kann unter anderem dann passieren, wenn andere Webseiten auf die blockierten Inhalte verlinken. Dadurch ist es möglich, dass die Suchmaschine Ihre Webseite indirekt indiziert. Manchmal interpretieren Suchmaschinen die Anweisungen der „robots.txt“ aber auch falsch oder ignorieren sie bewusst. Eine fehlerhafte Konfiguration der robots.txt-Datei kann ebenfalls zu diesem Umstand führen.
Wie kann ich den Zugriff für alle verbieten?
Möchten Sie in einer robots.txt alles verbieten, also den Zugriff von Webcrawlern auf sämtliche Bereiche Ihrer Website verhindern, können Sie folgende Anweisungen verwenden:
User-agent: *
Disallow: /
Hierbei bedeutet »User-agent: *«, dass die Regel für alle Webcrawler gilt. »Disallow: /« sagt dann, dass der Zugriff auf die gesamte Website verboten ist.

Wichtiger als SEO? Markenschutz
SEO ist wichtig, keine Frage. Ein unterschätztes Risiko dagegen stellt die Sicherheit rund um die Domains für Inhaber von Markendomains dar. Informieren Sie sich bei uns, welche Risiken tatsächlich für Sie persönlich bestehen und wie Sie Ihre Marke schützen können.