Was ist ein Crawler? Online-Marketing Lexikon | RH-Webdesign
info@rh-webdesign.com
  • flexible Projektfinanzierung
  • individuelle Websites
  • individuelle Online-Shops
  • Zertifizierter Lightspeed-Partner

Was ist ein Crawler?

Ein Crawler (oder Webcrawler) ist ein Internet Bot, der automatisch Informationen im gesamten Web scannt, um daraufhin einen Index von Daten zu erstellen. Diese Crawler werden von Suchmaschinen wie Google und Bing betrieben. Auf diese Weise können nach den Sucheingaben von Benutzern relevante Webseitenergebnisse präsentiert werden.

  • Machen Informationen im riesigen Internet zugänglich
  • Präsentieren den Nutzern relevante Suchergebnisse
  • Funktionieren nach bestimmten festgelegten Regeln
  • Automatisiertes Programm durchsucht WWW auf methodische Weise

So funktioniert ein Crawler

Im Prinzip ist ein Crawler wie ein Online Bibliothekar, der Webseiten indiziert, um Webinformationen zu aktualisieren und die Qualität von Seiteninhalten zu bewerten. Diese "Web-Spider" krabbeln sozusagen wie Spinnen über das Netz und betätigen sich als automatische Indexer bzw. Web Roboter. Dieser Vorgang wird auch als Webcrawling bezeichnet. Der bekannteste Crawler im Web ist der Googlebot. Der Crawler durchsucht viele Webseiten, um z. B. Wörter auf der Seite zu überprüfen und festzustellen, wo die Wörter an anderen Stellen verwendet werden. Crawler erstellen einen großen Index, der alle Ergebnisse enthält. Einfach ausgedrückt ist der Index eine Liste von Wörtern sowie die Webseiten, die sich auf diese Wörter beziehen. Ein Crawler startet meist seine Arbeit mit dem Besuch einer Liste von Websites, die er zuvor schon besucht hat. Während der Besuche wird auch nach anderen verwandten Websites gesucht, die einen Check wert sind. Dadurch können Crawler neue Seiten oder URLs erkennen, Änderungen an vorhandenen Seiten aktualisieren etc. Wenn Webcrawler eine bestimmte Seite besuchen, durchlaufen sie den gesamten Inhalt der Seite und übertragen ihn dann an ihre Datenbank. Nachdem die Daten erfasst wurden, werden die Wörter auf der Seite in den Index einer Suchmaschine eingefügt. Man kann den Index als eine riesige Datenbank von Wörtern betrachten. Crawler hören jedoch nicht vollständig auf, sobald sie Webseiten indiziert haben. Sie prüfen von Zeit zu Zeit, ob Änderungen an den Webseiten vorgenommen wurden. Wenn es etwas Neues gibt, wird auch der erstellte Index aktualisiert. Es gibt heutzutage unzählige Webseiten und jede Minute und jeden Tag viele neu erstellte, aktualisierte Seiten, sodass man sich vorstellen kann, was für eine riesige Arbeit diese Crawler leisten. Aus diesem Grund haben Suchmaschinen einige Richtlinien für den zu crawlenden Inhalt, die Reihenfolge des Crawls und die Häufigkeit des Crawls usw. festgelegt. Beispielsweise kann eine Webseite, die regelmäßig aktualisiert wird, häufiger gecrawlt werden, als eine, die selten Änderungen vornimmt. All diese Regeln sollen dazu beitragen, dass dieser gesamte Prozess effizienter wird. Jede Suchmaschine verfügt über eigene Crawler, mit denen sie Webseitendaten aktualisieren können. Man muss konstatieren, dass Crawler im Internetzeitalter eine große Rolle spielen. Ohne Webcrawler ist es äußerst schwierig, die gewünschten Informationen in einem derart enormen Informationsozean zu finden.

Wozu werden Crawler benötigt?

Sie werden in der Hauptsache verwendet, um Kopien aller besuchten Webseiten für eine später erfolgende Verarbeitung durch Suchmaschinen zu produzieren, welche die heruntergeladenen Websites indiziert, damit eine rasche Suche ermöglicht werden kann. In Einzelfällen können Crawler auch für die Automatisierung von Wartungstaks auf einer Seite verwendet werden, beispielsweise zum Prüfen von Links oder von HTML Code. Crawler können überdies eingesetzt werden, um gewissen Arten von Informationen auf Websites zu sammeln, z. B. von E-Mail Adressen (für Spam). Webcrawler starten ihren Crawling Prozess in der Regel von den beliebtesten Websites aus. Ihr Hauptzweck ist es, den Kern der einzelnen Seiteninhalte zu vermitteln. Die Seiten im Internet sind durch Hyperlinks verbunden, sodass Crawler diese Links erkennen und ihnen zu den nächsten Seiten folgen können. Die unermüdlichen Web Bots hören erst auf, wenn sie alle Inhalte und verbundenen Websites gefunden haben. Anschließend senden sie den aufgezeichneten Informationen an einen Suchindex, der auf Servern rund um den Globus gespeichert ist. Der gesamte Prozess ähnelt einem echten Spinnennetz (daher der Name), in dem alles miteinander verflochten ist. Es ist dabei u. a. zwischen E-Mail, News, Bilder, Social Media und Video Crawling zu unterscheiden. Crawler sind ein wesentlicher Bestandteil jeder wichtigen Suchmaschine, die zum Indizieren und Erkennen von Inhalten verwendet wird. Viele Suchmaschinenunternehmen haben ihre Bots, zum Beispiel wird der Googlebot vom Giganten Google betrieben. Abgesehen davon gibt es mehrere Arten des Crawls, die verwendet werden, um bestimmte Anforderungen abzudecken. Sie sind äußerst wichtig und vorteilhaft für ein Unternehmen, weil sie das Business der ganzen Welt zugänglich machen sowie neue Benutzer und Kunden gewinnen können.