Robots.txt
Definition
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, mit der Website-Betreiber steuern können, welche Bereiche von Suchmaschinen-Crawlern besucht werden dürfen und welche nicht. Sie ist eines der ältesten Standards im Web und wird von Suchmaschinen wie Google, Bing und Yahoo unterstützt.
Die Datei ist für Nutzer meist unsichtbar, für Crawler aber die erste Anlaufstelle. Sie kann Zugriffe blockieren, bestimmte Pfade freigeben oder das Crawling effizienter gestalten. Dennoch gilt: robots.txt verhindert nicht die Indexierung an sich, sondern nur das Crawling.
Zielsetzung
Ziel der robots.txt ist es, Crawling-Ressourcen gezielt zu steuern und unerwünschte Seitenbereiche wie interne Suchergebnisse oder Systemordner von der Erfassung auszuschliessen. Das spart Crawl-Budget und schützt sensible Inhalte vor unnötiger Belastung.
Zu den KPIs zählen die Anzahl gecrawlter Seiten, Crawl-Fehler im Google Search Console Report sowie die Abdeckung wichtiger URLs. Entscheidend sind klare Regeln, die einfach und nachvollziehbar aufgebaut sind.
Beispiele aus der Praxis
- Disallow für interne Suche
`Disallow: /suche/` verhindert, dass Suchmaschinen interne Suchergebnisse crawlen. - Blockierung von Test-Umgebungen
`Disallow: /staging/` sorgt dafür, dass Staging-Bereiche nicht in den Index geraten. - Ausschluss spezieller Parameter
`Disallow: /*?sessionid=` verhindert Crawling unnötiger URL-Varianten.
Fehler
- Komplette Sperrung
Ein versehentliches `Disallow: /` blockiert die gesamte Website für Suchmaschinen. - Falsches Vertrauen
robots.txt schützt nicht vor Indexierung über externe Links – dafür braucht es Meta Robots oder X-Robots-Tag. - Zu komplexe Regeln
Unklare oder widersprüchliche Regeln erschweren Crawlern die Verarbeitung.
Vorteile
- Crawl-Budget optimieren
Nur relevante Seiten werden von Bots besucht. - Einfache Steuerung
Die Datei ist leicht verständlich und schnell anpassbar. - Entlastung der Server
Weniger unnötige Anfragen sparen Ressourcen.
Grenzen
- Keine Index-Sperre
robots.txt verhindert nur Crawling, nicht zwingend die Indexierung. - Unterschiedliche Bot-Behandlung
Nicht jeder Crawler hält sich an robots.txt, besonders Spam-Bots ignorieren sie oft. - Fehlende Granularität
Feine Steuerungen wie „noindex“ oder „nofollow“ sind über robots.txt nicht möglich.
Verwandte Begriffe
Eng verbunden mit robots.txt sind Meta Robots Tag, X-Robots-Tag, Crawl Budget, Indexierung und Canonical. Nützlich ist auch der Beitrag zu Crawling, da er den Kontext zur Arbeit von Suchmaschinen-Bots verdeutlicht.
Weiterführender Artikel
Mehr Details findest du im Beitrag Indexierung.