Was ist ein Crawler?

Crawler kommen im Internet in den unterschiedlichsten Bereichen zum Einsatz. Sie durchsuchen automatisiert Dokumente im Netz. Website-Betreiber kennen in erster Linie die Web Crawler von Suchmaschinen wie Google oder Bing, doch der Einsatz von Crawlern kann auch für missbräuchliche Zwecke erfolgen und Unternehmen schaden.

Auf einen Blick

01. Crawler: eine Definition
02. Wie funktioniert ein Crawler?
03. Welcher Arten von Crawlern gibt es?
04. Crawler vs. Scraper: ein Vergleich
05. Wie werden Crawler blockiert und verwaltet?
06. Welche Gefahren gehen von Spam-Crawlern aus?
07. Crawler: Das müssen Sie wissen

Crawler: eine Definition

Crawler sind Computerprogramme, welche für das Durchsuchen des Internets programmiert werden. Üblicherweise programmieren Entwickler einen Crawler so, dass er die gleichen Aktionen immer wieder wiederholt. Auf diese Weise erfolgt eine Automatisierung der Suche, weshalb eine weitere Bezeichnung für Crawler auch „Robots“ lautet. Weil sie sich im Netz des WWW bewegen, ist „Spider“ ein weiterer Begriff dafür.

Google und andere Suchmaschinen verwenden Crawler für die Indexierung von Websites. Damit eine Seite in den Google-Ergebnissen erscheint, ist es Voraussetzung, dass der Google-Crawler diese Seite besucht und gelistet hat.

Wie funktioniert ein Crawler?

Ein Crawler arbeitet sukzessiv im Vorfeld festgelegte Arbeitsschritte ab. Daher ist es entscheidend, diese Schritte vor dem Crawl festzulegen. Üblicherweise besucht ein Crawler die verschiedenen URLs einer Website nacheinander und speichert das Ergebnis in einem entsprechenden Index ab. Wie dieser Index aussieht, hängt vom jeweiligen Algorithmus ab. Beispielsweise legt der Google-Algorithmus fest, in welcher Reihenfolge die Anzeige der Ergebnisse für eine bestimmte Suchanfrage erfolgt.

Welcher Arten von Crawlern gibt es?

Entwickler setzen Crawler in unterschiedlichen Bereichen ein:

Suchmaschinen

Besonders verbreitet und bekannt ist der Einsatz von Crawlern durch Suchmaschinen wie Google oder Bing. Die Arbeit dieser Suchmaschinen basiert auf dem Einsatz von Web Crawlern. Denn sie sind es, die die Suchergebnisse für den User aufbereiten, indem sie einen entsprechenden Index erstellen.

Focused Crawler

Sogenannte Focused Crawler sind das themengebundene Gegenstück zur Universalsuchmaschine. Sie beschränken sich auf einen bestimmten Bereich des Internets, beispielsweise auf Seiten zu einem Thema oder besonders aktuelle Meldungen, und erstellen einen ausführlichen Index davon.

Webanalyse

Webmaster setzen ebenfalls Crawler ein, um Websites bezüglich Daten wie Seitenaufrufen oder Links zu analysieren. Meist nutzen sie hier spezielle Tools für die Webanalyse.

Preisvergleich

Bei vielen Produkten, etwa Flügen oder Elektronikartikeln, variieren die Preise je nach Anbieter. Preisvergleichs-Websites nutzen Crawler, um ihren Usern einen Überblick über die aktuellen Preise anzubieten.

Crawler vs. Scraper: ein Vergleich

Auf den ersten Blick funktionieren Scraper ähnlich wie Crawler: Sie sammeln die Daten anderer Websites für die Weiterverwendung. Allerdings verwenden Cyber-Kriminelle Scraper oftmals für missbräuchliche Zwecke und scrapen damit den gesamten für den User sichtbaren Inhalt einer Seite. Während Crawler vor allem die Metadaten einer URL erfassen und einordnen, kopieren Scraper oftmals den gesamten Content anderer Websites, um diesen im Anschluss auf einer anderen URL zugänglich zu machen.

Wie werden Crawler blockiert und verwaltet?

Unter bestimmten Umständen kann es sinnvoll sein, Crawler im Allgemeinen oder bestimmte Crawler auf der eigenen Website zu blockieren. Über die robots.txt-Datei können Webmaster bestimmte Crawler ausschließen. Dies ist etwa sinnvoll, wenn andernfalls eine hohe Belastung der Website durch die Crawling-Tätigkeit entsteht.

Über die robots.txt-Datei können Website-Betreiber die Indexierung einer URL in Suchmaschinen nicht komplett ausschließen. Will man verhindern, dass Suchmaschinen eine bestimmte URL indexieren – etwa bei ausschließlich für Werbeanzeigen optimierten SEA-Landingpages – ist das Meta-Element Noindex die richtige Wahl.

Welche Gefahren gehen von Spam-Crawlern aus?

Webmaster monitoren den Traffic auf ihren Websites genau. Allerdings stellen Crawler hier ein Problem dar, denn sie verzerren die Zahlen. Da inzwischen eine Vielzahl von Crawlern im Internet aktiv ist, kommt es in vielen Fällen zu einem relevanten Anteil an Spam Traffic durch Crawler. Insbesondere der Crawler Referrer Spam stellt hier ein Risiko dar, denn diese Crawler ignorieren die robots.txt-Datei und greifen direkt auf die Website zu.

Crawler: Das müssen Sie wissen

Als Webseitenbetreiber sind die Crawler-Aktivitäten auf der eigenen Seite stets im Auge zu behalten. Neben wertvollen Crawlern wie den Web Crawlern von Suchmaschinen gibt es auch diejenigen Crawler, die hauptsächlich eine Belastung für die Performance der Website darstellen. Mit einem professionellen Bot Management steuern Sie die Aktivität von Crawlern, sodass die Performance der Website insbesondere zu Peak-Zeiten – etwa bei Shopping-Events – gesichert ist.

Zur Myra Application Security

Sie wollen mehr über unsere Lösungen, Anwendungsbeispiele und Best Practices zur Angriffsabwehr erfahren? In unserem Downloadbereich finden Sie Product Sheets, Fact Sheets, Whitepaper und Case Studies.

Zum Download-Bereich

Über den Autor

Björn Greif

Senior Editor

Über den Autor

Björn Greif startete seine Redakteurskarriere 2006 beim IT-Nachrichtenportal ZDNet. 10 Jahre und exakt 12.693 Artikel später engagierte er sich beim deutschen Start-up Cliqz für mehr Privatsphäre und Datenschutz im Web. Vom Datenschutz zur IT-Sicherheit war es dann nur noch ein kleiner Schritt: Seit 2020 schreibt Björn bei Myra über die neusten Trends und Entwicklungen in der Welt der Cybersecurity.

Made in Germany.

Responsible Disclosure Impressum Datenschutz Privatsphäre-Einstellungen AGB