Einstellungen für Suchmaschinen in der Robots.txt Datei
Für Suchmaschinen können in einer Datei auf den Server Anweisungen für die Seiten einer Domain hinterlegt werden. Die Datei hat den namen ‚robots.txt‘ und liegt im Hauptverzeichnis. Die Suchmschinen lesen dies Datei ein und handeln aber nach eigenem Ermessen.
Zugriff von Suchmaschinen generell steuern
Scripte für die robots.txt Datei mit Informationen für Such
Zugriff auf alle Inhalte erlauben/ empfehlen:
User-agent: * Allow: /
Alle Seiten nicht indexieren:
User-agent: * Disallow: /
Sitemap Dateipfad Kennzeichnen:
Sitemap: http://www.example.com/sitemap.xml
Zugriff von Suchmaschinen gezielt unterbinden
Weitere Varianten:
Einzelne Datei bzw. Bild-Datei unterdrücken:
User-agent: * Disallow: /unrelevant.html
User-agent: Googlebot-Image Disallow: /bilder/strategie.jpg
Verzeichnisse unterdrücken:
User-agent: * Disallow: /calendar/ Disallow: /email/
Zugriff für ausgewählte Suchmaschinen steuern
Weitere Varianten für eine Suchmaschine, am Beispiel des Crawlers Googlebot:
Crawling und indizieren von gif-Dateien oder xls-Dateien unterbinden
User-agent: Googlebot Disallow: /*.gif$
User-agent: Googlebot Disallow: /*.xls$
Blockieren von Googlebot oder Google -Bot und -AdsBot unterdrücken:
User-agent: Googlebot Disallow: /
User-agent: Googlebot User-agent: AdsBot-Google Disallow: /