Über die sogenannte robots.txt Datei kann man als Webseiten Betreiber in einer zentralen Datei steuern, welche Verzeichnisse eines Projektes von Suchmaschinen Robots erfasst werden dürfen oder eben auch nicht.
Diese Datei muss immer im Root der Verzeichnisstruktur einer Domain liegen (dort wo auch die Index Datei liegt), damit sie funktionieren kann!
Ist hier z.B. www.profi-ranking.de/robots.txt - in unserer robots.txt finden man neben den Hauptfunktionen auch sehr viele potentielle Content Spcraper Bots, welche für Profi-Ranking prophylaktisch gesperrt sind.
Wie die Dateiendung schon vermuten lässt, handelt es sich um eine reine Textdatei, welche mit einem simplen Texteditor (wie z.B. dem Windows Notepad) erstellt & bearbeitet wird.
Ergänzend zur robots.txt besteht die Möglichkeit, einzelne Seiten eines Projektes über das Meta-Tag "noindex" im Header der jeweiligen Einzelseite von der Erfassung auszuschliessen.
Die robots.txt Datei ist grundlegend nicht dazu geeignet Seiten oder Verzeichnisse vor dem Zugriff von Dritten zu verstecken (hierfür wird der Verzeichnisschutz per htaccess genutzt), sondern spricht tatsächlich nur Suchmaschinen Robots an.
Die Suchmaschinen Bots der großen Anbieter wie Google, Yahoo oder MSN halten sich an die Vorgaben dieser Datei, bei einigen anderen Bots wird die Datei entweder unzuverlässig umgesetzt oder schlichtweg ignoriert.
Grundsätzlich ist die robots.txt für die Sperrung kompletter Verzeichnisse vorgesehen (hierbei immer den Slash am Ende setzen, wenn man komplette Verzeichnisse sperren möchte), Beispiel für alle Robots & Sperrung ein Verzeichnis - alles andere ist dadurch automatisch natürlich freigegeben:
User-agent: *
Disallow: /beispielverzeichnis/
Es besteht jedoch auch die Möglichkeit für Google, Yahoo & MSN sogenannte Wildcards (Platzhalter - * und $ werden als Wildcards akzeptiert) in der robots.txt einzusetzen!
Dies ist beispielsweise sinnvoll, wenn man Session-IDs oder Suchergebnisse aus dem Index dieser Suchmaschinen fernhalten möchte. Beispiel für eine Sperrung aller Session-IDs für Google + Yahoo:
User-agent: Googlebot
User-agent: Yahoo! Slurp
Disallow: /*?sessionid
Wenn man keinen abschließenden Slash in der obigen Disallow-Zeile nutzt, sind alle Seiten, welche so beginnen (vor dem Fragezeichen kann durch den Platzhalter stehen was will), aber auch nach dem "sessionid" unterschiedliche IDs haben, für die Zugriffe der Bots gesperrt.
MSN geht hinsichtlich Wildcards eine leicht anderen Weg, da beim Einsatz einer Wildcard auch eine abschließende Wildcard vorhanden sein muss, Beispiel:
User-agent: msnbot
Disallow: /*?sessionid$
Auch hierdurch werden alle Dateinamen, welche "?sessionid" enthalten nicht erfasst!
Abschließend noch der Eintrag, der eine Erfassung der gesamten Domain durch Suchmaschinen komplett unterbindet:
User-agent: *
Disallow: /
Dieser letzte robots.txt Eintrag ist zur Suchmaschinenoptimierung natürlich absolut nicht geeignet ;-)
Es existieren auch sogenannte Robots.txt Generatoren, mit deren Hilfe man sich diese Datei generieren lassen kann.
Allerdings sind diese Generatoren meist nur für einfache robots.txt Dateien geeignet - der Einsatz von Wildcards ist in keinem der mir bekannten Generatoren vorgesehen.