Online Marketing Lexikon
Crawler


Crawler sind Programme, die das World Wide Web automatisiert und nach festgelegten Arbeitsschritten durchsuchen und auf dieser Grundlage einen Katalog der Webseiten erstellen. Crawler werden auch Robots, Bots oder Spider genannt.

OnPage: Kostenloser Account

Vom Crawling zur Suchergebnisliste

Die Arbeit von Crawlern bildet die Grundlage für die Erstellung von Ergebnislisten durch Suchmaschinen. Pro Tag durchsuchen Crawler riesige Mengen an Websites und kopieren die dabei gesammelten Daten in eine Datenbank. Auf diese Weise entsteht ein Index aller Wörter, die auf der Webseite vorkommen, sowie von ihrer jeweiligen Position.

Die Algorithmen der Suchmaschinen bestimmen dabei, wie oft eine Seite in welchem Ausmaß gecrawlt wird. Grundsätzlich lässt sich jedoch konstatieren: Je bekannter bzw. interessanter eine Webseite für die Suchmaschine erscheint (wie z. B. aktuelle, auflagenstarke Tageszeitungen), desto häufiger wird sie von den Suchmaschinen-Crawlern besucht und umso mehr Unterseiten der Domain werden in den Index aufgenommen.

Sobald nun ein Nutzer eine Suchanfrage startet, durchsucht die Suchmaschine den Index nach übereinstimmenden Einträgen und zeigt sie in Form einer gewichteten Ergebnisliste an.

Nicht-lesbare Elemente

Nicht alle Elemente einer Webseite können von den Crawlern problemlos gelesen werden. Damit ein Crawler auf eine Seite optimal zugreifen kann, sollten bestimmte Programmiertechniken vermieden werden.

So können etwa

  • Flash Seiten,
  • JavaScript-Dateien oder
  • Links mit Session IDs in der URL

Probleme bereiten, weil sie von Crawlern meistens nicht berücksichtigt werden. Gleichzeitig ist es sinnvoll, die URLs möglichst einfach zu halten.

Sperren von Crawlern

Üblicherweise ist es das Ziel, die eigene Webseite möglichst regelmäßig von vielen Suchmaschinen erfassen zu lassen. Es gibt allerdings Gründe, wie etwa die Überlastung des eigenen Servers durch zu viele Crawler-Zugriffe, die eine Sperrung oder zumindest Steuerung entsprechender Programme sinnvoll erscheinen lassen. Das Sperren des Crawling-Prozesses hat zur Folge, dass keine Daten über die gesperrte Webseite in den Index der Suchmaschinen aufgenommen werden.

Die Steuerung von Crawlern hingegen definiert, welche Seiten des Webauftritts in welcher Form verarbeitet werden. Der Zugriff eines Crawlers kann dabei etwa durch die Erstellung einer einfachen Textdatei namens robots.txt im Stammverzeichnis der Domain verhindert werden. Voraussetzung dafür ist, dass der Name des Crawlers über die Logfiles des Servers ermittelt und zur robots.txt Datei hinzugefügt wird.

« zurück zu Online Marketing Lexikon

Neueste Kommentare