Robots.txt Artikelbild mit Foto von Händen über eine Tastatur und einem darüber geblendeten Suchfeld für Google
Insiderwissen

robots.txt: So finden Suchmaschinen Ihre Website gut

Suchmaschinen sind ohne Frage eine der elementarsten und auch praktischsten Dinge im Internet: Nur kurz einen Begriff eingeben und schon erhalten Sie eine lange Liste an – mal mehr, mal weniger – passenden Ergebnissen. Damit das möglich ist, spielt die Datei »robots.txt« eine wichtige Rolle. Aber robots.txt, was ist das eigentlich? Hier finden Sie die Antwort.

   Definition

Was ist robots.txt?

Die »robots.txt« ist eine einfache Textdatei (eine sogenannte »TXT«), die Website-Betreiber auf ihrer Seite hinterlegen. Die Datei weist Webcrawler an, welche Teile einer Website sie besuchen dürfen und welche nicht. Webcrawler fallen in die Kategorie »Bots« (abgeleitet vom englischen »robot«, also »Roboter«): Computerprogramme, die automatisch bestimmte Aufgaben ausführen. Im Falle von Webcrawlern lautet diese Aufgabe, das Internet zu durchsuchen und Informationen zu indizieren und zu katalogisieren.

Das enthält eine robots.txt normalerweise

Vor allem Suchmaschinen wie Google nutzen Crawler beziehungsweise Webcrawler, um Informationen über Webseiten zu sammeln. Dieser Vorgang wird »crawlen« (von englisch »to crawl«, auf Deutsch »kriechen«, »krabbeln«) genannt. Die Suchmaschinen nutzen die gesammelten Informationen, um einen Index (ein Register und geordnetes Verzeichnis) zu erstellen. Der macht es möglich, schnell und effizient auf Suchanfragen zu reagieren und passende Webseiten anzuzeigen.

Das klingt vielleicht nach komplexer Technologie. Doch eigentlich ist die robots.txt relativ simpel aufgebaut. Die Datei enthält in der Regel folgende Schlüsselelemente:

  • User-Agent: »Agent« (auf Deutsch »Handelnder«) bezeichnet hier den spezifischen Webcrawler, für den die Anweisung gilt. Zum Beispiel kann die Datei explizit »Googlebot« (den Webcrawler von Google) aufführen, um Anweisungen speziell für diesen Bot zu geben.
  • Disallow: Dieser Befehl bedeutet wörtlich übersetzt »nicht erlauben«. Er verbietet dem genannten Webcrawler den Zugriff auf bestimmte Teile der Website. Zum Beispiel bedeutet „Disallow: /XY/“, dass Webcrawler den Ordner „XY“ auf der Website nicht besuchen dürfen.
  • Allow: Selbstverständlich ist auch eine Umkehrung ins Positive möglich. »Allow« ist englisch für »erlauben« und gestattet als Gegenteil von „Disallow“ Zugriff auf bestimmte Bereiche – auch wenn ein allgemeineres „Disallow“ besteht.
  • Sitemap: Um Suchmaschinen wie Google die Arbeit zu erleichtern, können Sie in der TXT den Pfad zu einer »Sitemap« (auf Deutsch in etwa »Seitenübersicht«) angegeben. Dabei handelt es sich um eine Datei, welche ein Verzeichnis Ihrer Webseiteninhalte bereitstellt und so den Suchmaschinen bei der Indexierung hilft. Eine Sitemap ist aber nicht nur eine Erleichterung für den Robot von Suchmaschinen: Sie können Ihre robots.txt auf diesem Wege auch für SEO (»Search Engine Optimization«, auf Deutsch »Suchmaschinenoptimierung«) einsetzen. Dadurch können Sie beeinflussen, an welcher Stelle Ihre Webseite in den Suchergebnissen von Google und Co auftaucht.

Zweck und Funktion: Dazu dient die robots Textdatei

Auch der Zweck einer robots.txt ist simpel: Zum einen ermöglicht die „robots.txt“-Datei Ihnen als Website-Betreiber, zu steuern, welche Teile ihrer von Webcrawler be- und durchsuchen sollen. Dies ist besonders wichtig, um sicherzustellen, dass Suchmaschinen wie Google nur auf relevante und erlaubte Bereiche der Website zugreifen. Andererseits können Sie mittels des »Disallow«-Befehls verhindern, dass bestimmte Bereiche ihrer Website in Suchmaschinen-Ergebnissen erscheinen. Dies ist besonders für Ordner mit sensiblen Daten, nicht für die Öffentlichkeit bestimmten Unterseiten oder interne Systembereiche sinnvoll. Zusätzlich dazu kann die robots.txt wie gesagt für SEO dienen und so dazu beitragen, Ihre Webseite bekannter und besser erreichbar zu machen.

Es ist jedoch wichtig zu verstehen, dass „robots.txt“ eher eine Richtlinie als ein strikter und verpflichtender Befehl ist. Nicht alle Bots halten sich an die Anweisungen in der „robots.txt“ – vor allem nicht solche mit bösartigen Absichten. Die TXT bietet keinen echten Schutz gegen böswillige Bots oder Personen, die diese Anweisungen ignorieren.

In vier Schritten eine robots.txt erstellen

Eine robots.txt-Datei anzulegen, ist ein relativ einfacher Prozess. Viele Systeme zur Verwaltung von Online-Inhalten wie WordPress bieten eigene kleine Programme für die Erstellung einer robots.txt. Allerdings können Sie dies auch mit den basalsten Anwendungen Ihres Computers erledigen. Sie benötigen lediglich einen Texteditor wie Notepad unter Windows oder TextEdit unter macOS. So gehen Sie Schritt für Schritt vor:

  1. Schreiben Sie grundlegende Anweisungen! Öffnen Sie den Texteditor und verfassen Sie Ihre gewünschten Regeln für die Webcrawler. Dabei können Sie sich an den oben genannten Schlüsselelemente orientieren. Die robots.txt ist in einfachem Textformat (ASCII) geschrieben und jede Zeichenkette wird normalerweise in einer neuen Zeile platziert.
  2. Speichern Sie das Dokument als „robots.txt“! Nachdem Sie die Anweisungen geschrieben haben, speichern Sie die Datei unter dem Namen »robots.txt«. Dieser Name ist entscheidend: Nur so wissen die Bots, dass es sich um die Datei handelt, welche die Regeln für sie enthält.
  3. Laden Sie die Datei auf Ihre Webseite hoch! Platzieren Sie die gespeicherte Datei auf Ihrer Webseite, indem Sie sie in das Hauptverzeichnis Ihrer Webseite hochladen. Liegt die robots.txt am korrekten Ort, kann Ihre Webseite effektiv gecrawlt werden.
  4. Überprüfen Sie die Funktionsweise! Nach dem Hochladen sollten Sie sicherstellen, dass die „robots.txt“-Datei richtig funktioniert. Dies können Sie mithilfe von Online-Anwendungen überprüfen, die bestätigen, ob die Bots die Anweisungen in Ihrer Datei erkennen und befolgen.
   Tipp

Erster Schritt zu mehr Webseitenbesuchern

robots.txt ist ein wichtiges Instrument für die Platzierung Ihrer Webseite in den Suchergebnissen von Google und Co. Allerdings gibt es noch viele weitere SEO-Werkzeuge: Bei united-domains können Sie daher nicht nur eine Domain kaufen, sondern auch mithilfe von rankingCoach® direkt überprüfen, wie Ihre Webseite in Suchmaschinen positioniert ist – und bei Bedarf entsprechende SEO-Maßnahmen einleiten.

Häufig gestellte Fragen zu robots.txt

Welche Alternativen zu robots.txt kann ich nutzen?

Als Alternative zur robots.txt können Sie zum Beispiel bestimmte Anweisungen für Crawler direkt in den Programmiercode einer Webseite einbauen.

Was bedeutet »Indexiert, obwohl durch robots.txt-Datei blockiert«?

Erhalten Sie diese Meldung, heißt das: Eine Suchmaschine hat Ihre Webseite gecrawlt und ihrem Index hinzugefügt, obwohl die „robots.txt“-Datei dies verbietet. Dies kann unter anderem dann passieren, wenn andere Webseiten auf die blockierten Inhalte verlinken. Dadurch ist es möglich, dass die Suchmaschine Ihre Webseite indirekt indiziert. Manchmal interpretieren Suchmaschinen die Anweisungen der „robots.txt“ aber auch falsch oder ignorieren sie bewusst. Eine fehlerhafte Konfiguration der robots.txt-Datei kann ebenfalls zu diesem Umstand führen.

Wie kann ich den Zugriff für alle verbieten?

Möchten Sie in einer robots.txt alles verbieten, also den Zugriff von Webcrawlern auf sämtliche Bereiche Ihrer Website verhindern, können Sie folgende Anweisungen verwenden:

User-agent: *

Disallow: /

Hierbei bedeutet »User-agent: *«, dass die Regel für alle Webcrawler gilt. »Disallow: /« sagt dann, dass der Zugriff auf die gesamte Website verboten ist.

Wichtiger als SEO? Markenschutz

SEO ist wichtig, keine Frage. Ein unterschätztes Risiko dagegen stellt die Sicherheit rund um die Domains für Inhaber von Markendomains dar. Informieren Sie sich bei uns, welche Risiken tatsächlich für Sie persönlich bestehen und wie Sie Ihre Marke schützen können.

Mehr erfahren

Lesen Sie als Nächstes
Sichere Datenbanken

Angriff auf Datenbanken: SQL-Injection einfach erklärt

In einer Welt, in der Datenbanken zu einem unverzichtbaren Teil der Sicherheitslandschaft geworden sind, gibt es eine unsichtbare Bedrohung, die ...
Computer und ein kleines trojanisches Pferd aus Holz Trojaner
Sicherheit

Trojaner entfernen: Wie Sie Schadsoftware effektiv loswerden

Sie haben sich einen Trojaner eingefangen? Erfahren Sie, wie Sie ihn schnell loswerden!
Cyberangriff Motiv - der Text Cyber Attack steht in Leuchtschrift auf dunklem Hintergrund
Präventions-Tipps

Cyberangriff: So können Sie sich schützen

Die Bedrohung Cyberangriff lauert im Netz. Niemand ist vor Cyberkriminellen sicher. Mit diesen Tipps schützen Sie sich bestmöglich.

Lokalisiert und optimiert – so gelingt die internationale Website

Wer sein Webangebot ins Ausland bringen möchte, sollte auf eine sorgfältige Lokalisierung Wert legen und die Website sprachlich, technisch und ...

SEO in der Internationalisierung: So werden Sie in neuen Märkten gefunden

Die Internationalisierung Ihres Online-Angebots gelingt nur dann, wenn auch Ihre SEO-Strategie stimmt. Aber es gilt: Andere Länder, andere Sitten. Lesen ...

Keyword-Recherche: Google, Tools und Grundlagen erklärt

Die Keyword-Recherche ist der Grundstein Ihrer SEO-Strategie – und kann die Struktur Ihres gesamten Webangebots mitbestimmen. Wie Sie bei so ...