Seite wählen

Was ist ein Crawler?

Crawler kommen im Internet in den unterschiedlichsten Bereichen zum Einsatz. Sie durchsuchen automatisiert Dokumente im Netz. Website-Betreiber kennen in erster Linie die Web Crawler von Suchmaschinen wie Google oder Bing, doch der Einsatz von Crawlern kann auch für missbräuchliche Zwecke erfolgen und Unternehmen schaden.

Reading Time: .


01

Crawler: eine Definition

Crawler sind Computerprogramme, welche für das Durchsuchen des Internets programmiert werden. Üblicherweise programmieren Entwickler einen Crawler so, dass er die gleichen Aktionen immer wieder wiederholt. Auf diese Weise erfolgt eine Automatisierung der Suche, weshalb eine weitere Bezeichnung für Crawler auch “Robots” lautet. Weil sie sich im Netz des WWW bewegen, ist “Spider” ein weiterer Begriff dafür.

Google und andere Suchmaschinen verwenden Crawler für die Indexierung von Websites. Damit eine Seite in den Google-Ergebnissen erscheint, ist es Voraussetzung, dass der Google-Crawler diese Seite besucht und gelistet hat.

02

Wie funktioniert ein Crawler?

Ein Crawler arbeitet nach und nach im Vorfeld festgelegte Arbeitsschritte ab. Daher ist es entscheidend, diese Schritte vor dem Crawl festzulegen. Üblicherweise besucht ein Crawler die verschiedenen URLs einer Website nacheinander und speichert das Ergebnis in einem entsprechenden Index ab. Wie dieser Index aussieht, hängt vom jeweiligen Algorithmus ab. Beispielsweise legt der Google-Algorithmus fest, in welcher Reihenfolge die Anzeige der Ergebnisse für eine bestimmte Suchanfrage erfolgt.

03

Welcher Arten von Crawlern gibt es?

Entwickler setzen Crawler in unterschiedlichen Bereichen ein:

Suchmaschinen

Besonders verbreitet und bekannt ist der Einsatz von Crawlern durch Suchmaschinen wie Google oder Bing. Die Arbeit dieser Suchmaschinen basiert auf dem Einsatz von Web Crawlern. Denn sie sind es, die die Suchergebnisse für den User aufbereiten, indem sie einen entsprechenden Index erstellen.

Focused Crawler

Sogenannte Focused Crawler sind das themengebundene Gegenstück zur Universalsuchmaschine. Sie beschränken sich auf einen bestimmten Bereich des Internets, beispielsweise auf Seiten zu einem Thema oder besonders aktuelle Meldungen, und erstellen einen ausführlichen Index davon.

Webanalyse

Webmaster setzen ebenfalls Crawler ein, um Websites bezüglich Daten wie Seitenaufrufen oder Links zu analysieren. Meist nutzen sie hier spezielle Tools für die Webanalyse.

Preisvergleich

Bei vielen Produkten, etwa Flügen oder Elektronikartikeln, variieren die Preise je nach Anbieter. Preisvergleichs-Websites nutzen Crawler, um ihren Usern einen Überblick über die aktuellen Preise anzubieten.
04

Crawler vs. Scraper: ein Vergleich

Auf den ersten Blick funktionieren Scraper ähnlich wie Crawler: Sie sammeln die Daten anderer Websites für die Weiterverwendung. Allerdings verwenden Cyber-Kriminelle Scraper oftmals für missbräuchliche Zwecke und scrapen damit den gesamten für den User sichtbaren Inhalt einer Seite. Während Crawler vor allem die Metadaten einer URL erfassen und einordnen, kopieren Scraper oftmals den gesamten Content anderer Websites, um diesen im Anschluss auf einer anderen URL zugänglich zu machen.

05

Wie werden Crawler blockiert und verwaltet?

Unter bestimmten Umständen kann es sinnvoll sein, Crawler im Allgemeinen oder bestimmte Crawler auf der eigenen Website zu blockieren. Über die robots.txt-Datei können Webmaster bestimmte Crawler ausschließen. Dies ist beispielsweise sinnvoll, wenn andernfalls eine hohe Belastung der Website durch die Crawling-Tätigkeit entsteht.
Über die robots.txt-Datei können Website-Betreiber die Indexierung einer URL in Suchmaschinen nicht komplett ausschließen. Will man verhindern, dass Suchmaschinen eine bestimmte URL indexieren – etwa bei ausschließlich für Werbeanzeigen optimierten SEA-Landingpages – ist das Meta-Element Noindex die richtige Wahl.

06

Welche Gefahren gehen von Spam-Crawlern aus?

Webmaster monitoren den Traffic auf ihren Websites genau. Allerdings stellen Crawler hier ein Problem dar, denn sie verzerren die Zahlen. Da inzwischen eine Vielzahl von Crawlern im Internet aktiv ist, kommt es in vielen Fällen zu einem relevanten Anteil an Spam Traffic durch Crawler. Insbesondere der Crawler Referrer Spam stellt hier ein Risiko dar, denn diese Crawler ignorieren die robots.txt-Datei und greifen direkt auf die Website zu.

07

Crawler: Das müssen Sie wissen

Als Webseitenbetreiber sind die Crawler-Aktivitäten auf der eigenen Seite stets im Auge zu behalten. Neben wertvollen Crawlern wie den Web Crawlern von Suchmaschinen gibt es auch diejenigen Crawler, die vor allem eine Belastung für die Performance der Website darstellen. Mit einem professionellen Bot Management steuern Sie die Aktivität von Crawlern, sodass die Performance der Website insbesondere zu Peak-Zeiten – etwa bei Shopping-Events – gesichert ist.

Für weitere Informationen übersenden wir Ihnen gerne kostenfrei unser Product Sheet

Wie Sie Ihren Traffic zielgenau klassifizieren, verwalten und analysieren können

  • Wie ist der Web-Traffic aufgebaut und welche Bot-Typen gibt es?
  • Wo liegen die Vorteile des Myra Deep Bot Managements?
  • Welche Produkt-Features besitzt die Lösung?

Downloadanfrage

Newsletter abonnieren

Neues Feld