Was ist ein Crawler?

Ein Crawler (dt. Raupe), oder auch Web Crawler genannt, ist ein Softwareprogramm, welches verstärkt von Suchmaschinen verwendet wird, um das World Wide Web automatisiert zu durchsuchen und einen Index aufzubauen.

Beim Durchsuchen von Websites analysiert und indiziert der Crawler deren Inhalte, damit sie später von Suchmaschinen schneller ausgelesen werden können. Er legt sozusagen die Basis für die Arbeit von Suchmaschinen.

Wie funktioniert ein Webcrawler?

Ein Crawler wird für sich wiederholende Aktionen programmiert und arbeitet somit automatisiert.

Die Informationen, die beim “crawlen” (dt. kriechen) gefunden werden, werden bestimmten Kategorie zugeordnet und anschließend indiziert, somit sind die Informationen danach abruf- und auswertbar. Es werden sowohl Texte, Bilder und Videos als auch Links in die Analyse mit einbezogen.

Verschiedene Arten von Crawlern

Es gibt viele verschiedene Crawler, einige Beispiele wären der Googlebot und der Bingbot, sogar Alexa hat einen eigenen Bot namens ia_archiever.

Crawler können außerdem verschiedene Aufgaben ausführen, wie wie Data-Mining. Dabei wird das Web nach spezifischen Informationen durchsucht. Es können beispielsweise E-Mail Adressen gesucht werden. Das wird zum Teil von Blackhat SEOs verwendet, um danach Spam-Mails an die gesammelten Mail-Adressen zu senden.

Ein weiteres Aufgabengebiet wäre die Plagiatsuche. Diese Funktion ist vor allem wichtig, wenn es um Rechtsbrüche bezüglich urheberrechtlich geschütztem Material geht.

Crawler steuern

Mit Hilfe von Meta-Tags können dem Crawler im <head> Bereich Anweisungen gegeben werden, so kann man unter anderem steuern, ob der Crawler eine Seite indiziert oder einem Link folgt.

Beispiel, für eine Anweisung, dass die Adresse nicht indexiert werden soll und keinen Links gefolgt werden soll:

Auch mit der robots.txt-Datei können Anweisungen an der Crawler übermittelt werden.

Crawler und SEO

Teil der Suchmaschinenoptimierung ist es, eine Website so zu gestalten, dass sie optimal vom Crawler ausgelesen werden kann, damit alle Inhalte in den Index der Suchmaschine gelangen. Hilfreich ist dabei eine möglichst logische URL-Struktur. Außerdem führen Backlinks sowie übersichtliche interne Verlinkungen dazu, dass der Crawler deine Website öfter und länger besucht.