Was ist Web Scraping?
Der Begriff des Web Scrapings beschreibt das automatische Auslesen von Inhalten einer Website. Neben dem legalen und erwünschten Web Scraping, wie es beispielsweise Suchmaschinen durchführen, um Websites zu indexieren, gibt es auch schädliche und missbräuchliche Methoden des Web Scrapings. So nutzen etwa Angreifer diese Technologie, um den Content einer Website komplett zu kopieren und auf einer anderen Seite zu veröffentlichen. Für Unternehmen hat ein solches Vorgehen geschäftsschädigende Folgen.
Lesezeit: .

01
Web Scraping: eine Definition
Web Scraping, auch Screen Scraping genannt, bezeichnet generell den Vorgang des Extrahierens, Kopierens, Speicherns sowie der Wiederverwendung fremder Inhalte im Netz. Neben dem manuellen Scrapen, bei dem Content von Hand kopiert wird, haben sich auch einige Tools für das automatisierte Auslesen von Webseiten etabliert. Ein positiver Anwendungsfall des Web Scrapings ist die Indexierung von Websites durch Google oder andere Suchmaschinen. Diese Indexierung ist in den meisten Fällen gewollt, denn nur so können Nutzer im Netz auf die gesuchten Unternehmensseiten stoßen. Schädlich angewandtes Screen Scraping mit dem Ziel, geistiges Eigentum unerlaubt zu entwenden, verstößt hingegen gegen das Urheberrecht und ist damit illegal.


02
Wie funktioniert Web Scraping?
Beim Web Scraping kommen unterschiedliche Technologien und Tools zum Einsatz:
Manuelles Scraping:
Software-Tools:
Text Pattern Matching:
HTTP-Manipulation:
Data Mining:
HTML-Parser:
Auslesen von Mikroformaten:
03
Nutzung und Einsatzgebiete
Web Scraping findet in vielen verschiedenen Bereichen Anwendung. Stets dient es der Datenextraktion – oftmals zu völlig legitimen Zwecken, doch auch die missbräuchliche Verwendung ist Usus.
Webcrawler von Suchmaschinen
Die Indexierung von Websites ist die Basis für die Funktionsweise von Suchmaschinen wie Google und Bing. Nur durch den Einsatz von Webcrawlern, welche URLs analysieren und indexieren, ist die Sortierung sowie Darstellung von Suchergebnissen überhaupt möglich. Webcrawler gehören zu den sogenannten Bots, es handelt sich also um Programme, die automatisch definierte und sich wiederholende Aufgaben erledigen.
Webservice-Ersatz
Screen Scraper können als Ersatz für Webservices verwendet werden. Dies ist insbesondere für Unternehmen interessant, welche auf einer Website ihren Kunden bestimmte Auswertungsdaten zur Verfügung stellen wollen. Einen Webservice dafür zu nutzen, zieht jedoch hohe Kosten nach sich. Daher sind Screen Scraper, welche die Daten extrahieren, die kostengünstigere Option.
Remixing
Beim Remixing bzw. Mashup werden die Inhalte verschiedener Webdienste miteinander verbunden. Das Ergebnis ist ein neuer Dienst. Oft geschieht das Remixing über Schnittstellen, doch in dem Fall, dass keine solchen APIs vorhanden sind, wird hier ebenfalls die Technik des Screen Scraping angewandt.
Missbrauch
Die missbräuchliche Verwendung von Web Scraping oder auch Web Harvesting kann unterschiedliche Zielsetzungen haben:
- Preis-Grabbing: Eine besondere Form des Web-Scrapings stellt das Preis-Grabbing dar: Dabei liest ein Anbieter mithilfe von Bots die Produktpreise der Konkurrenten aus, um diese gezielt zu unterbieten und damit Kunden zu gewinnen. Durch die große Preistransparenz im Internet wandern Kunden schnell zum nächstgünstigen Anbieter – der Preisdruck steigt.
- Content- / Product Grabbing: Statt Preisen oder Preisgefügen haben es die Bots beim sogenannten Content-Grabbing auf die Inhalte der Webseite abgesehen. Aufwändige gestaltete Produktseiten in Online-Shops kopieren Angreifer dabei originalgetreu und nutzen den teuer erstellten Content für die eigenen E-Commerce-Portale. Ebenfalls beliebte Ziele für Content-Grabbing stellen Online-Marktplätze, Jobbörsen oder Kleinanzeigen dar.
- Verlängerung der Ladezeiten: Web-Scraping verschwendet wertvolle Serverkapazitäten: Bots in großer Anzahl aktualisieren ständig Produktseiten auf der Suche nach neuen Preisangaben. Dies verlängert – insbesondere bei Hochlastzeiten – die Ladezeiten für herkömmliche Nutzer. Dauert das Laden der gewünschten Web-Inhalte zu lange, wandern Kunden schnell zur Konkurrenz ab.
- Phishing: Cyberkriminelle nutzen Web Scraping, um im Internet veröffentlichte E-Mail-Adressen abzugreifen und für Phishing zu nutzen. Darüber hinaus können Kriminelle eine täuschend echt aussehende Kopie der Original-Seite für Phishing-Aktivitäten nachbauen.



04
Wie können Unternehmen Web Scraping blockieren?
Es gibt einige Maßnahmen, welche verhindern, dass eine Website von Scraping getroffen werden kann:
- Bot Management: Mittels Bot-Management-Lösungen haben Unternehmen die Möglichkeit, fein granular zu bestimmen, welche Bots Informationen von der Webseite abgreifen dürfen und welche als Schädlinge zu behandeln sind.
- robots.txt: Über die robots.txt-Datei können Seitenbetreiber festlegen, welche Bereiche der Domain gecrawlt werden dürfen und bestimmte Bots von vornherein ausschließen.
- Captcha-Abfragen: Die Integration von Captcha-Abfragen auf Websites bietet ebenfalls einen Schutz vor Bot-Anfragen.
- Richtige Integration von Telefonnummern und E-Mail-Adressen: Seitenbetreiber schützen Kontaktdaten vor Scraping, indem sie die Informationen hinter ein Kontaktformular setzen. Daneben bietet sich auch eine Integration der Daten per CSS an.
- Firewall: Strikte Firewall-Regeln für Webserver schützen ebenfalls vor ungewollten Scraping-Attacken.
05
Scraping als Spam
Websites mit gescraptem Content ohne Quellenangabe verletzen in vielen Fällen das Urheberrecht. Darüber hinaus werden sie von Suchmaschinen wie Google als Spam eingestuft. Für die Webseiten mit dem originalen Content stellen diese Spam-Seiten auch ein Risiko dar, weil Suchmaschinen im Zweifelsfall die legitime Website als duplicate content betrachtet und entsprechend abstraft. Die Folge davon ist ein wesentlich schlechteres SEO-Ranking. Um frühzeitig aktiv gegen Web Scraping vorzugehen, setzen Unternehmen und Webmaster beispielsweise spezielle Google Alerts ein, die über verdächtigen Content im Internet informieren.


06
Rechtlicher Rahmen: Ist Screen Scraping legal?
Viele Formen des Web Scrapings sind vom Gesetz gedeckt. Dies gilt beispielsweise für Online-Portale, welche die Preise verschiedener Anbieter vergleichen. Ein entsprechendes Urteil des Bundesgerichtshofs aus dem Jahr 2014 stellt klar: Solange keine technische Schutzvorrichtung überwunden wird, die Screen Scraping verhindern soll, handelt es sich nicht um eine wettbewerbswidrige Behinderung.
Allerdings wird Web Scraping zum Problem, wenn es gegen das Urheberrecht verstößt. Wer urheberschutzfähige Texte ohne Quellenangabe in seine Website integriert, handelt also illegal.
Darüber hinaus ist bei einer missbräuchlichen Verwendung von Web Scraping beispielsweise für Phishing vielleicht nicht das Scraping an sich illegal, wohl aber die in der Folge durchgeführten Aktivitäten.
07
Web Scraping: Das müssen Sie wissen
Web Scraping ist ein fester Bestandteil des modernen Internets. Viele bekannte Dienste wie Suchmaschinen oder Preisvergleichsportale wären ohne das automatisierte Abgreifen von Informationen aus Webseiten gar nicht möglich. Der missbräuchliche Einsatz birgt jedoch auch große Gefahren für Unternehmen – etwa wenn skrupellose Konkurrenten den teuer erstellten Content aus dem eigenen Online-Shop abziehen und kopieren. Auch die Traffic-Belastung durch autonom agierende Bots ist nicht zu vernachlässigen. Heutzutage generieren Bots etwa die Hälfte des Datenverkehrs auf Webseiten. Daher ist ein effektives Bot-Management ein entscheidender Faktor, um die Unternehmenswebsite vor Scraping-Attacken zu schützen.


08
Häufige Fragen zu Web Scraping
Was bedeutet Scraping?
Ist Screen Scraping legal?
Für weitere Informationen übersenden wir Ihnen gerne kostenfrei unser Whitepaper
Wie Sie Ihren Bot-generierten Traffic effizient steuern
- Diese Bots bedrohen Ihr Business
- Bots hinterlassen Fingerprints
- Abgestufte Bekämpfung: vom Blocken bis Honeypot