Robots.txt Datei

Robots.txt Datei

Einstellungen für Suchmaschinen in der Robots.txt Datei

Für Suchmaschinen können in einer Datei auf den Server Anweisungen für die Seiten einer Domain hinterlegt werden. Die Datei hat den namen ‚robots.txt‘ und liegt im Hauptverzeichnis. Die Suchmschinen lesen dies Datei ein und handeln aber nach eigenem Ermessen.

Zugriff von Suchmaschinen generell steuern

Scripte für die robots.txt Datei mit Informationen für Such

Zugriff auf alle Inhalte erlauben/ empfehlen:

User-agent: *
Allow: /

Alle Seiten nicht indexieren:

User-agent: *
Disallow: /

Sitemap Dateipfad Kennzeichnen:

Sitemap: http://www.example.com/sitemap.xml

Zugriff von Suchmaschinen gezielt unterbinden

Weitere Varianten:

Einzelne Datei bzw. Bild-Datei unterdrücken:

User-agent: *
Disallow: /unrelevant.html
User-agent: Googlebot-Image
Disallow: /bilder/strategie.jpg

Verzeichnisse unterdrücken:

User-agent: *
Disallow: /calendar/
Disallow: /email/

Zugriff für ausgewählte Suchmaschinen steuern

Weitere Varianten für eine Suchmaschine, am Beispiel des Crawlers Googlebot:

Crawling und indizieren von gif-Dateien oder xls-Dateien unterbinden

User-agent: Googlebot
Disallow: /*.gif$
User-agent: Googlebot
Disallow: /*.xls$

Blockieren von Googlebot oder Google -Bot und -AdsBot unterdrücken:

User-agent: Googlebot
Disallow: /
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /