Select Page

Qu’est-ce que le web scraping ?

Le terme de web scraping décrit la lecture automatique du contenu d’un site web. Outre le web scraping légal et souhaitable, par exemple celui qui est pratiqué par les moteurs de recherche pour indexer les sites web, il existe également des méthodes de web scraping nuisibles et abusives. Par exemple, des pirates peuvent utiliser cette technologie pour copier intégralement le contenu d’un site web et le publier sur un autre site. Pour les entreprises ciblées, cette démarche entraîne des conséquences néfastes sur le plan commercial.

Vue d’ensemble


01

Le web scraping: définition

Le web scraping, ou screen scraping, désigne de manière générale le processus consistant à extraire, copier, stocker et réutiliser des contenus appartenant à d’autres sur le réseau. Outre le scraping manuel, qui consiste simplement à copier le contenu à la main, des outils ont été mis au point pour automatiser la lecture des pages web. L’indexation de sites web par Google ou d’autres moteurs de recherche peut être considérée comme un cas d’application bénéfique du web scraping. Dans la plupart des cas, cette indexation est voulue, car c’est le seul moyen pour les internautes de trouver les pages qu’ils recherchent. En revanche, utilisé pour détourner la propriété intellectuelle sans autorisation, le screen scraping est préjudiciable et enfreint le droit d’auteur : il est donc illégal.

02

Le web scraping: comment ça marche?

Le web scraping fait appel à différentes technologies et différents outils:

Scraping manuel:
Il arrive en effet que le contenu ou des sections de code source des sites web soient copiés à la main. Les cybercriminels ont recours à cette méthode notamment lorsque les robots et autres programmes de scraping sont bloqués par le fichier robots.txt.
Outils logiciels:
Les outils de web scraping comme Scraper API, ScrapeSimple ou Octoparse permettent de créer des web scrapers même avec peu ou pas de connaissances en programmation. Les développeurs utilisent également ces outils comme base pour développer leurs propres solutions de scraping.
Filtrage par motif de texte:
La comparaison et l’extraction automatisées d’informations à partir de pages web peuvent également être réalisées à l’aide de commandes dans des langages tels que Perl ou Python.
Manipulation HTTP:
La requête HTTP permet de copier des contenus de sites web statiques ou dynamiques.
Data mining:
Le web scraping peut également être réalisé par data mining. Pour ce faire, les développeurs web misent sur une analyse des modèles et des scripts dans lesquels sont intégrés les contenus d’un site web. Cela leur permet d’identifier le contenu recherché et de le diffuser sur leur propre site via ce que l’on appelle un wrapper.
Analyseur syntaxique HTML:
Dans le web scraping, les analyseurs syntaxiques HTML connus des navigateurs servent à lire et à transformer le contenu recherché.
Lecture de microformats:
Les microformats font souvent partie intégrante des sites web. Ils contiennent par exemple des métadonnées ou des annotations sémantiques. La lecture de ces données permet de tirer des conclusions sur la localisation de certaines bribes de données spécifiques.
03

Utilisation et domaines d’application

Le web scraping est utilisé dans de nombreux domaines différents. Il sert toujours à extraire des données – souvent à des fins tout à fait légitimes, mais les usages abusifs sont également courants.

Robots d’indexation (web crawlers) des moteurs de recherche

L’indexation des sites web est la base du fonctionnement des moteurs de recherche comme Google et Bing. Le tri et la présentation des résultats de recherche ne sont possibles que grâce à l’utilisation de robots d’indexation qui analysent et indexent les URL. Les robots d’indexation sont une variété de « bots », c’est-à-dire de programmes qui effectuent automatiquement des tâches définies et répétitives.

Remplacement de services web

Les robots de screen scraping peuvent servir à remplacer certains services web. Cette fonction est intéressante en particulier pour les entreprises qui souhaitent mettre à disposition de leurs clients certaines données d’évaluation sur un site web. Toutefois, l’utilisation d’un service web à cet effet est très onéreuse. C’est pourquoi les outils de screen scraping, qui extraient les données, sont l’option la plus économique.

Remixage

Le remixage ou « mashup » consiste à combiner les contenus de différents services web. Le résultat est un nouveau service. Le remixage se fait souvent par le biais d’interfaces, mais si de telles API ne sont pas disponibles, on utilise la technique du screen scraping.

Abus

L’utilisation abusive du web scraping ou encore web harvesting peut avoir différents objectifs :

  • Le price grabbing: cette pratique constitue une forme particulière de web-scraping : un site marchand utilise des bots pour lire les prix des produits de ses concurrents, afin de fixer les siens juste en dessous et ainsi gagner des clients. En raison de la grande transparence des prix sur Internet, les clients se tournent rapidement vers le fournisseur immédiatement moins cher, ce qui accroît la pression sur les prix.
  • Accaparement de contenu / de produits: Au lieu de prix ou de structures de prix, les robots s’intéressent au contenu du site web et pratiquent ce qu’on appelle le « content grabbing ». Dans ce cas, les pirates copient fidèlement les pages de produits élaborées dans les boutiques en ligne et utilisent à leur profit le contenu créé à grands frais pour leurs propres portails d’e-commerce. Les places de marché en ligne, les bourses d’emploi ou les petites annonces sont également des cibles privilégiées pour le content grabbing.
  • Allongement des temps de chargement: Le web scraping gaspille de précieuses capacités de serveur : une multitude de robots actualisent en permanence les pages de produits à la recherche de nouveaux affichages de prix, ce qui allonge – en particulier aux heures de pointe – les temps de chargement pour les utilisateurs légitimes. Si les contenus web qu’ils recherchent mettent trop de temps à charger, les clients se tournent rapidement vers la concurrence.
  • Hameçonnage (« phishing »): Les cybercriminels utilisent le web scraping pour récupérer les adresses e-mail publiées sur Internet et les utiliser pour du phishing. En outre, les criminels peuvent recréer une copie se faisant passer pour le site original pour des activités de phishing.
04

Comment les entreprises peuvent-elles bloquer le web scraping ?

Diverses mesures permettent d’éviter qu’un site web soit touché par le scraping:

  • Gestion des bots: les solutions de gestion des bots permettent aux entreprises de déterminer avec précision quels sont les bots autorisés à récupérer des informations sur le site et lesquels doivent être traités comme nuisibles.
  • robots.txt: le fichier robots.txt permet aux exploitants de pages de définir les zones du domaine qui peuvent être explorées et d’exclure d’emblée certains robots.
  • Requêtes captcha: l’intégration de requêtes captcha sur les sites web offre également une protection contre les requêtes de bots.
  • Intégration correcte des numéros de téléphone et des adresses e-mail: pour protéger les coordonnées de contact contre le scraping, les exploitants de sites peuvent placer les informations derrière un formulaire de contact. Ils peuvent également intégrer les données par CSS.
  • Pare-feu: des règles de pare-feu strictes pour les serveurs web protègent également contre les attaques de scraping non souhaitées.
05

Le scraping comme spam

Souvent, les sites web dont le contenu provient du scraping et dont la source n’est pas indiquée violent les droits d’auteur. De plus, ils sont considérés comme des spams par les moteurs de recherche comme Google. En cela, ces pages de spam constituent aussi un risque pour les sites présentant le original, car en cas de doute, les moteurs de recherche considèrent le site web légitime comme étant lui aussi un contenu dupliqué et le pénalisent en conséquence, dégradant fortement leur classement dans le page ranking. Pour lutter activement et en temps réel contre le web scraping, les entreprises et les webmasters utilisent par exemple des alertes Google spéciales qui informent sur les contenus suspects sur Internet.

Cadre juridique: le screen scraping est-il légal ?

La loi encadre de nombreuses formes de web scraping. C’est le cas, par exemple, des portails en ligne qui comparent les prix de différents fournisseurs. Un jugement rendu à ce sujet en 2014 par la Cour fédérale de justice allemande (Bundesgerichtshof) clarifie la situation : tant qu’aucune mesure technique de protection destinée à empêcher le screen scraping n’a été contournée, il n’est pas considéré comme une manœuvre anticoncurrentielle.

Toutefois, le web scraping devient un problème lorsqu’il enfreint le droit d’auteur. Quiconque intègre à son site web des textes protégés par le droit d’auteur sans en indiquer la source agit donc illégalement.

En outre, dans les cas d’utilisation nocive du web scraping, par ex. pour le phishing, ce n’est peut-être pas le scraping en tant que tel qui est illégal, mais les activités qu’il a permis de réaliser.

07

Le web scraping: ce qu’il faut savoir

Le web scraping fait partie intégrante de l’Internet moderne. De nombreux services essentiels, tels que les moteurs de recherche ou les comparateurs de prix, seraient impossibles sans la collecte automatisée d’informations sur les sites. Toutefois, son utilisation abusive comporte de grands dangers pour les entreprises, par exemple lorsque des concurrents sans scrupule n’hésitent pas à extraire et copier des contenus créés à grands frais pour les utiliser dans leur propre boutique en ligne. Autre élément à ne pas négliger : la charge de trafic générée par les bots agissant de manière autonome. De nos jours, les robots génèrent environ la moitié du trafic sur les sites web. Une gestion efficace des bots est donc un facteur décisif pour protéger le site web de l’entreprise contre les attaques de scraping.