Robots.txt

Definition

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, mit der Website-Betreiber steuern können, welche Bereiche von Suchmaschinen-Crawlern besucht werden dürfen und welche nicht. Sie ist eines der ältesten Standards im Web und wird von Suchmaschinen wie Google, Bing und Yahoo unterstützt.

Die Datei ist für Nutzer meist unsichtbar, für Crawler aber die erste Anlaufstelle. Sie kann Zugriffe blockieren, bestimmte Pfade freigeben oder das Crawling effizienter gestalten. Dennoch gilt: robots.txt verhindert nicht die Indexierung an sich, sondern nur das Crawling.

Zielsetzung

Ziel der robots.txt ist es, Crawling-Ressourcen gezielt zu steuern und unerwünschte Seitenbereiche wie interne Suchergebnisse oder Systemordner von der Erfassung auszuschliessen. Das spart Crawl-Budget und schützt sensible Inhalte vor unnötiger Belastung.

Zu den KPIs zählen die Anzahl gecrawlter Seiten, Crawl-Fehler im Google Search Console Report sowie die Abdeckung wichtiger URLs. Entscheidend sind klare Regeln, die einfach und nachvollziehbar aufgebaut sind.

Beispiele aus der Praxis

  • Disallow für interne Suche
    `Disallow: /suche/` verhindert, dass Suchmaschinen interne Suchergebnisse crawlen.
  • Blockierung von Test-Umgebungen
    `Disallow: /staging/` sorgt dafür, dass Staging-Bereiche nicht in den Index geraten.
  • Ausschluss spezieller Parameter
    `Disallow: /*?sessionid=` verhindert Crawling unnötiger URL-Varianten.
So lassen sich Crawler gezielt leiten. Dabei sollten nur irrelevante oder sensible Bereiche blockiert werden – niemals wichtige Inhalte, die für SEO entscheidend sind.

Fehler

  • Komplette Sperrung
    Ein versehentliches `Disallow: /` blockiert die gesamte Website für Suchmaschinen.
  • Falsches Vertrauen
    robots.txt schützt nicht vor Indexierung über externe Links – dafür braucht es Meta Robots oder X-Robots-Tag.
  • Zu komplexe Regeln
    Unklare oder widersprüchliche Regeln erschweren Crawlern die Verarbeitung.
Solche Fehler können dazu führen, dass wichtige Seiten nicht mehr sichtbar sind oder Suchmaschinen Inhalte falsch interpretieren.

Vorteile

  • Crawl-Budget optimieren
    Nur relevante Seiten werden von Bots besucht.
  • Einfache Steuerung
    Die Datei ist leicht verständlich und schnell anpassbar.
  • Entlastung der Server
    Weniger unnötige Anfragen sparen Ressourcen.
Mit einer korrekt konfigurierten robots.txt lassen sich sowohl SEO-Prozesse als auch technische Abläufe optimieren.

Grenzen

  • Keine Index-Sperre
    robots.txt verhindert nur Crawling, nicht zwingend die Indexierung.
  • Unterschiedliche Bot-Behandlung
    Nicht jeder Crawler hält sich an robots.txt, besonders Spam-Bots ignorieren sie oft.
  • Fehlende Granularität
    Feine Steuerungen wie „noindex“ oder „nofollow“ sind über robots.txt nicht möglich.
Daher sollte die robots.txt stets im Zusammenspiel mit Meta Robots Tags oder Canonical-Tags genutzt werden, um präzise Kontrolle zu behalten.

Verwandte Begriffe

Eng verbunden mit robots.txt sind Meta Robots Tag, X-Robots-Tag, Crawl Budget, Indexierung und Canonical. Nützlich ist auch der Beitrag zu Crawling, da er den Kontext zur Arbeit von Suchmaschinen-Bots verdeutlicht.

Weiterführender Artikel

Mehr Details findest du im Beitrag Indexierung.

Tipp: Setze robots.txt gezielt ein – nur irrelevante oder technische Bereiche ausschliessen, wichtige Inhalte stets crawlbar lassen. Ergänze die Steuerung mit Meta Robots und Canonical-Tags für maximale SEO-Kontrolle.
Back to top button