Select Page

¿Qué es el raspado web?

El término “raspado web” describe la extracción automática de contenidos de un sitio web. Además del raspado legal y requerido, como el que llevan a cabo los motores de búsqueda para indexar sitios web, también existen métodos dañinos y abusivos de raspado web. Por ejemplo, los atacantes utilizan esta tecnología para copiar el contenido completo de un sitio web y publicarlo en otro. Esto tiene consecuencias negativas para las empresas.

Índice


01

Raspado web: definición

El raspado web, también llamado “raspado de pantalla”, se refiere generalmente al proceso de extraer, copiar, almacenar y reutilizar contenidos de terceros en la red. Además del raspado manual, en el que el contenido se copia a mano, también se han establecido algunas herramientas para la extracción automatizada de páginas web. Un caso positivo de aplicación de raspado web es la indexación de sitios web por parte de Google u otros motores de búsqueda. En la mayoría de los casos, esta indexación es intencionada, ya que es la única forma de que los usuarios encuentren las páginas de la empresa que buscan en la web. Por otro lado, el raspado de pantalla aplicado de forma perjudicial con el fin de apropiarse indebidamente de la propiedad intelectual infringe la ley de derechos de autor y, por tanto, es ilegal.

02

¿Cómo funciona el raspado web?

En el raspado de la web se utilizan diferentes tecnologías y herramientas:

Raspado manual:
De hecho, tanto el contenido como las secciones de código fuente de los sitios web se copian a veces manualmente. Los ciberdelincuentes recurren a este método, especialmente cuando los bots y otros programas de raspado están bloqueados por el archivo robots.txt.
Herramientas de software:
Las herramientas de raspado web, como Scraper API, ScrapeSimple u Octoparse, permiten crear raspadores web incluso con pocos o nulos conocimientos de programación. Los desarrolladores también utilizan estas herramientas como base para desarrollar sus propias soluciones de raspado.
Búsqueda de patrones de texto:
La sincronización y la lectura automatizadas de la información de las páginas web también pueden hacerse con la ayuda de comandos en lenguajes de programación como Perl o Python.
Manipulación HTTP:
Mediante las solicitudes HTTP se pueden copiar contenidos de sitios web estáticos o dinámicos.
Minería de datos:
El raspado web también es posible a través de la minería de datos. Para ello, los desarrolladores web se basan en el análisis de las plantillas y scripts en los que está incrustado el contenido de un sitio web. Al hacerlo, identifican el contenido que buscan y lo reproducen a través de un wrapper en su propia página.
Analizador HTML:
Los analizadores HTML conocidos por los navegadores sirven para leer y convertir el contenido buscado en el raspado web.
Lectura de microformatos:
Los microformatos suelen formar parte de los sitios web. Contienen, por ejemplo, metadatos o anotaciones semánticas. La lectura de estos datos permite sacar conclusiones sobre la localización de fragmentos de datos especiales.
03

Uso y áreas de aplicación

El raspado web se da en muchos ámbitos diferentes. Siempre se utiliza para la extracción de datos, a menudo con fines totalmente legítimos, pero también es frecuente el uso indebido.

Arañas web de los motores de búsqueda

La indexación de los sitios web es la base del funcionamiento de los motores de búsqueda como Google y Bing. Solo mediante las llamadas «arañas web», que sirven analizan e indexan las URL, se pueden clasificar y visualizar los resultados de una búsqueda. Las arañas web pertenecen a los llamados bots, es decir, son programas que llevan a cabo automáticamente tareas definidas y repetitivas.

Sustitución de servicios web

Los raspadores de pantalla se utilizan como sustituto de los servicios web. Esto es especialmente interesante para las empresas que quieren poner a disposición de los clientes determinados datos de evaluación en un sitio web. Sin embargo, el coste de utilizar un servicio web es elevado. Por lo tanto, los raspadores de pantalla que extraen los datos son la opción más rentable.

Remezcla

La remezcla consiste en combinar el contenido de diferentes servicios web. El resultado es un nuevo servicio. La remezcla suele hacerse a través de interfaces, pero en el caso de que no se disponga de tales API, también se aplica aquí la técnica del raspado de pantalla.

Uso indebido

El uso indebido del raspado web o web harvesting puede tener diferentes objetivos:

  • Acaparamiento de precios: El acaparamiento de precios es una forma especial de raspado web: Con la ayuda de bots, un proveedor lee los precios de los productos de los competidores con el fin de subcotizarlos y atraer clientes. Gracias a la gran transparencia de los precios en internet, los clientes se desplazan rápidamente hacia el proveedor más barato: la presión de los precios aumenta.
  • Captación de productos / contenido: En lugar de los precios o las estructuras de precios, los bots se centran en el contenido del sitio web en lo que se conoce como “captación de contenidos”. Los atacantes copian fielmente las páginas de productos elaboradas en las tiendas en línea y utilizan el costoso contenido creado para sus propios portales de comercio electrónico. Otros objetivos populares para la captación de contenidos son los mercados en línea, las bolsas de trabajo y los anuncios clasificados.
  • Prolongación de los tiempos de carga: El raspado web desperdicia valiosas capacidades del servidor: Un gran número de bots actualizan constantemente las páginas de los productos en busca de nuevos precios. Esto aumenta los tiempos de carga de los usuarios habituales, especialmente en los periodos de máxima afluencia. Si se tarda demasiado en cargar el contenido web deseado, los clientes se van rápidamente a la competencia.
  • Suplantación de identidad (phishing): Los ciberdelincuentes utilizan el raspado web para acceder a las direcciones de correo electrónico publicadas en internet y utilizarlas para suplantar la identidad. Además, los delincuentes pueden reproducir una copia aparentemente real de la página original para actividades de suplantación de identidad.
04

¿Cómo pueden las empresas bloquear el raspado web?

Hay algunas medidas para evitar que un sitio web sea afectado por el raspado:

  • Gestión de bots: Las soluciones de gestión de bots permiten a las empresas determinar con precisión qué bots pueden acceder a la información del sitio web y cuáles deben tratarse como plagas.
  • robots.txt: El archivo “robots. txt” permite a los operadores de páginas especificar qué áreas del dominio se pueden rastrear y excluir determinados bots de antemano.
  • Solicitudes captcha: La integración de las solicitudes captcha en los sitios web también protegen contra las solicitudes de los bots.
  • Integración correcta de números de teléfono y direcciones de correo electrónico: Los operadores de sitios web protegen los datos de contacto del raspado colocando la información detrás de un formulario de contacto. Además, también es posible integrar los datos mediante CSS.
  • Firewall: Las estrictas reglas de firewall para servidores web también protegen contra ataques de raspado no deseados.
05

El raspado web como correo no deseado

Los sitios web con contenido desechado sin especificación de la fuente infringen los derechos de autor en muchos casos. Además, los motores de búsqueda como Google los clasifican como correo no deseado. Para los sitios web con el contenido original, estas páginas de correo no deseado también suponen un riesgo, porque en caso de duda, los motores de búsqueda consideran el sitio web legítimo como contenido duplicado y lo penalizan en consecuencia. El resultado es una clasificación SEO mucho peor. Por ejemplo, las empresas y los administradores web emplean alertas específicas de Google para alertar sobre contenido sospechoso en internet para combatir el raspado desde una fase temprana.

Marco jurídico: ¿Es legal el raspado de pantalla?

Muchas formas de raspado de la web están cubiertas por la ley. Este es el caso, por ejemplo, de los portales en línea que comparan los precios de diferentes proveedores. Una sentencia correspondiente del Tribunal Supremo Federal de 2014 aclara: “No se trata de un obstáculo contrario a la competencia mientras no se supere la protección técnica destinada a evitar el raspado.

Sin embargo, el raspado web se convierte en un problema cuando infringe los derechos de autor. Por lo tanto, quien integre en su sitio web textos protegidos por derechos de autor sin citar la fuente está actuando de forma ilegal.

Además, en el caso del uso indebido del raspado web, por ejemplo en el caso de suplantación de identidad, puede que lo ilegal no sea el raspado en sí mismo, sino las actividades procedentes de él.

07

Raspado web: Información a destacar

El raspado web es una parte integral del internet moderno. Muchos servicios conocidos, como los motores de búsqueda o los portales de comparación de precios, no serían posibles sin la recuperación automática de información de los sitios web. Sin embargo, el uso indebido también supone grandes peligros para las empresas, por ejemplo, cuando competidores sin escrúpulos copian y extraen los caros contenidos creados en su propia tienda online. Tampoco se puede despreciar la carga de tráfico que suponen los bots automáticos. Hoy en día, los bots generan aproximadamente la mitad del tráfico de las páginas web. Por lo tanto, la gestión eficaz de los bots es un factor crucial para proteger el sitio web de la empresa de los ataques de raspado.