https://protecciondatos-lopd.com/empresas/web-scraping-legal/
¿Qué es el web scraping?
El web scraping es una técnica que consiste en extraer datos de páginas webs de forma automatizada. El scraping de webs se basa en la indexación de contenidos o, mejor dicho, en la transformación de la información contenida en páginas web en información duplicada inteligible, la cual se puede exportar a otros documentos como hojas de cálculo.
Los encargados de realizar esta labor de rastreo, denominada scrapear, son los denominados bots o crawlers. Son robots que se dedican a navegar de forma automática por páginas webs, recogiendo aquellos datos o información presentes en ellas.
extraer datos de una web
Los tipos de datos que se pueden obtener son muy variados. Por ejemplo hay herramientas que se encargan de realizar price mapping, es decir, obtener información sobre precios de hoteles o viajes para comparadores. Otras técnicas como el serp scraping sirven para conocer los primeros resultados en motores de búsqueda para determinadas keywords.
El scraping de datos es algo que utilizan la mayoría de grandes empresas. Quizá el ejemplo más claro es Google. ¿De dónde crees que saca entonces toda la información para indexar las webs? Sus bots analizan continuamente la red para encontrar y clasificar contenido por su relevancia.
No olvides hacer nuestro Test sobre cumplimiento del RGPD.
El Web Scrapping y la Protección de Datos
El data scraping o raspado de datos es una práctica que sigue levantando cierto revuelo, ya que desde algunos sectores se la considera poco ética. Al final, en muchos casos se utiliza para obtener datos de otras páginas webs para replicarlos en una nueva mediante el uso de una API, lo cual en algún caso podría dar lugar a copia o duplicidad de información.
Asimismo, estos bots pueden ser diseñados para navegar de forma automática por una web, incluso crear cuentas falsas, de ahí que en muchas webs veas el típico captcha para confirmar que no eres un bot.
web scraping legal
Por otro lado, la extracción automática de información puede crearle problemas a las páginas web analizadas, sobre todo si el rastreo se realiza de forma recurrente. Piensa que Google Analytics u otros sitios de métrica web recogen las visitas de los bots. Por tanto, si los crawlers visitan continuamente una web, ésta podría verse afectada y perjudicada por estas visitas de “baja calidad” y perder posicionamiento.
Pero todo esto son más bien cuestiones morales que legales. ¿Qué dice el Reglamento General de Protección de Datos (RGPD) y la Ley Orgánica de Protección de Datos y Garantía de Derechos Digitales (LOPDGDD)?
Esta ley establece nuevos datos sobre protección de datos y prevención de delitos en internet. La normativa señala que el hecho de que una página web sea pública, accesible o indexable no implica, de ninguna manera, que se puedan extraer sus datos. Esta técnica solo está permitida en los siguientes supuestos:
Son fuentes de acceso público o los datos se recaban por un fin de interés público general.
Prevalece el interés del responsable del tratamiento sobre el derecho a la protección de datos.
La persona rastreada lo es bajo su consentimiento.
Por tanto, en caso de una denuncia se debe demostrar que la información es de interés público general según el artículo 45 del RGPD, o ponderar el derecho del responsable del tratamiento a recabar los datos.
Además, no se puede utilizar el web scraping para infringir la normativa sobre propiedad intelectual o el derecho a la intimidad de las personas, por ejemplo a través de prácticas como la suplantación de identidad.
Nuestras ventajas
✓ Gestión clara y eficaz
✓ Presupuesto adaptado a tus necesidades
✓ Documentación accesible desde panel de usuario
✓ Garantía absoluta adaptación a la LOPDGDD
✓ Asesoramiento especializado
¡Pídenos presupuesto sin compromiso!
Nombre
Teléfono
Describe aquí tu empresa
He leído y acepto el aviso legal y la política de privacidad
¿Para qué sirve extraer los datos de una web?
Siempre que se haga de forma lícita y exista una base legal para el tratamiento, el internet scraping puede ofrecer numerosos beneficios a quien lo realiza (no a quien lo sufre). No en vano, la información es poder, y más en la época actual.
Una de las ventajas es que permite recolectar información y contenido de forma rápida, para luego incorporarlos a otra página web. Por ejemplo, una página web de fútbol que hace scraping de las webs de La Liga o UEFA mediante una API para actualizar los resultados de las ligas al momento.
El web scraping también permite analizar webs del mismo sector para encontrar patrones y tendencias de futuro. Por ejemplo, las palabras clave más repetidas o las prendas más buscadas en determinadas tiendas.
internet scraping
También permite realizar un seguimiento de los precios. Por ejemplo, elaborar un historial con la evolución de los precios de los productos en otras tiendas, para así establecer el precio propio.
Otra de sus aplicaciones es saber qué está haciendo la competencia y analizar qué les funciona mejor. Por ejemplo, los enlaces que más tráfico indirecto generan, las imágenes que mejor funcionan, etc.
Por último, el raspado de las páginas web te ayuda a conocer el posicionamiento web en Google para determinadas palabras clave. Para ello se utiliza un programa denominado serp scraper, como es el caso de Serplab.
En definitiva, el scraping web sirve para analizar las webs propias y rastrear otras páginas de internet en busca de información y datos valiosos.
Cómo hacer scraping de una página web
Existen diferentes técnicas para extraer datos de una web. Generalmente el web crawling o web extraction se realizan con programas o herramientas diseñadas para ello, aunque realmente, si el volumen de información que necesitas es escasa, puede llegar a hacerlo de forma manual.
Una de las opciones más habituales para hacer web data extraction es utilizar software automatizado. La mayoría de estas herramientas scrapean la web y le remiten al usuario los datos de forma automática. Su inconveniente es que el usuario no tiene control total sobre el proceso. Algunos de estos programas son Import.io o Data Hunt.
También se puede hacer screen scraping a través de extensiones descargadas directamente al ordenador. La ventaja es que algunas son gratuitas y la mayoría permiten al usuario ajustar los parámetros de búsqueda. Por contra, se necesita tener el ordenador encendido y las spiders pueden ser bloqueadas más fácilmente por las páginas de destino. Algunos ejemplos de estas extensiones son Screen Scraper, DataMiner o Web Scraper.
Otra opción es utilizar programas que permiten programar de forma manual los algoritmos necesarios para adaptar totalmente las búsQuedas a las necesidades. Es un método que lleva tiempo y esfuerzo implementar, pero también es el más efectivo a la hora de tratar con grandes volúmenes de datos. Algunas herramientas que permiten programar estos algoritmos son Mechanize o DOMXPath.
¿Cómo se usa el scraping Big data?
El rastreo de webs es algo que se lleva haciendo ya mucho tiempo. Hasta hace unos años, era una práctica que se hacía de forma manual. Sin embargo, en la época actual la cantidad tan ingente de información que existe en internet exige el uso de herramientas automatizadas para rastrear toda esa INFO. Es lo que se denomina scraping Big Data.
Imagina a una gran empresa del sector textil. ¿Para qué puede usar el web scraping?
Análisis de oferta de la competencia.
Comparación de precios.
Rastreo de los intereses de los usuarios en las redes sociales.
Marketing de contenidos, rastreo de keywords para SEO.
Registro y análisis de datos de clientes.
Ahora piensa en un comparador de precios, por ejemplo, de talleres de vehículos. En este caso, el web scraping se hace para devolver al usuario los resultados relacionados en su búsqueda. Así, habrá que realizar un rastreo web de talleres por nombres, precios o provincias.
scraping big data
Lo mismo sucede con webs que tienen grandes bases de datos estadísticos. Por ejemplo, una web sobre baloncesto que ofrezca resultados en tiempo real de la NBA, necesitará una API de scraping que le permita conectar en tiempo real con las bases de datos oficiales de dicha competición, para que la información se muestre en la web actualizada.
Como ves, el scraping de Big Data se usa de muchas y muy variadas formas. Y todo ello a pesar de que Google bloqueó más de 12.000 webs en 2017 por abusar del scrapeo y utilizarlo para realizar spam y publicidad invasiva.
¿Puedo evitar el scraping de datos?
El web data scraping es una técnica que puede provocar perjuicios a las webs rastreadas, sobre todo si se utiliza de forma continuada. Una de las consecuencias más directas es la alteración de los datos de visitas por culpa de los bots, perjudicando la percepción que Google tiene de la web en relación al porcentaje de rebote, tiempo por visita, etc.
Además, dependiendo de los datos recabados, al hacer webscraping se podría estar incurriendo en competencia desleal o en infracciones sobre los derechos de propiedad intelectual. Por ejemplo, las webs que copian contenido directamente de Wikipedia u otras webs, o las tiendas que duplican las descripciones de productos de otras.
Asimismo, también se puede escarbar una web con otras intenciones maliciosas que ya entran en el plano del derecho a la intimidad, por ejemplo las empresas que realizan scraping de correos electrónicos, números de teléfono o perfiles de redes sociales para venderlos a terceros.
Si quieres evitar el scraping de datos en tu web te recomendamos seguir estos consejos:
Bloquea los bots en el archivo robots.txt. Lo puedes hacer a través de Google Search Console o desde el propio panel de control de la web.
Inserta captchas contra los bots (aunque hay algunos que ya son capaces de evitarlos).
Refuerza la seguridad del cortafuegos de tu hosting.
Implementa un sistema de cookies para verificar que el visitante es un navegador.
Utiliza un código Javascript ya que la mayoría de bots y arañas no pueden leerlos.
Ten controlados los visitantes con comportamientos sospechosos y bloquea sus IP`s.
Usa una aplicación WAF (Web Aplication Firewall). Es software diseñado para evitar ataques específicos a webs.
Informa en el apartado de condiciones legales sobre la prohibición de realizar web scrapping en tu página.
Excelente aporte…Gracias!