Ética y Legalidad

2/30
Recursos
Transcripción

Aportes 26

Preguntas 10

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

En México se redacto una sección en el Codigo Penal Federal respecto a:
"Revelación de secretos y acceso ilícito a sistemas y equipos de informática(Titulo Noveno)"
Fuente de información: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf

robots.txt: Aqui te dejo una lista de lo que no quiero que le hagas scrapping
Nadie: Que hagamos scrapping a eso, dice.

Si quieren saber mas sobre el archivo robots.txt les comparto esta guía https://andres-dev.com/guia-completa-robots/

El concepto de Robots.txt siempre me ha causado un poco de risa, debido a que decirle a un hacker (W/B/G) que no investigue el contenido de ese indice (Menu), es como decirle a un niño que no tome caramelos de la nevera 😄

En la vida real solo funciona para la indexacion de motores de busqueda como (G/B).

Disallow: /admin/ :: Humm! como me saltaria este panel administrativo? Brute Forcing, Injeccion de codigo?

Disallow: /usuarios/login.php :: Humm! definitivamente aqui pudiera injectar codigo a un parametro tipo php?id= y encontrar some juicy stuffs 😄

Disallow: /349353471/ :: Definitely! I could brute force this one y emplear tecnicas IDOR para ver que se puede encontrar

Mi resumen de clase de esta clase

Importante tener en cuenta este valor:

crawl-delay: 30

expresado en segundos, y usado en la colección de parámetros a la hora de hacer de sistematizar consultas (scraping) a un sitio web respetando la integridad de respuesta del servidor objetivo

Puedo hacer Scraping al sitio de platzi??

Robots.txt

Este archivo encontramos información sobre el sitio y nos muestra que sitio o rutas, el dueño de la página no quiere que acudamos.

Disallow: Rutas que no quieren que se le haga scraping o que sean indexadas.

Crawl-delay: 30: Demora en segundos entre cada solicitud del sitio. Para no sobrecargar este sitio.

¿Es legal?

Debemos hacernos las siguientes preguntas.
¿Estoy violando alguna reglamentación local?
¿Estoy violando los “Términos y Condiciones” del sitio?
¿Estoy accediendo a lugares no autorizados?
¿Es legal el uso que le voy a dar a los datos?

¿Qué es Robots.txt?

Es una buena práctica de scraping leer la sección presente en todas las páginas web, en esta sección nos indica a que datos podemos acceder.

¿Qué es Crawl-delay?

Es el tiempo que debemos configuración entre solicitud al sitio.

¡Sé responsable!

Hola!!
¿Dónde podemos mirar la reglamentación de Colombia sobre Scraping? Gracias

qué hago cuando el robots.txt no entrega más información que el sitemap ? 😮

¿Recomiendan algún libro sobre las implicaciones éticas (y/o legales) de la ciencia de datos o inteligencia artificial?

Si la informacion es de dominio publico pero aun asi quien la gestiona no permite su acceso libre, que se podria pensar en cuanto a eso?

robots.txt

Es un archivo que define buenas prácticas con scrapping.

Buena clase

Cómo se encuentra ese acrhivo?

Menos mal no es vinculante, acabo de ver el robots.txt de linkedin y deniegan scrapear toda la página jaja

Hola!! Cuando una página en su archivo robots.txt contiene esta información:

User-agent: bingbot
Crawl-delay: 2

¿Qué restricciones tiene? o no tiene restricciones?
Gracias

segndo 0:22
All : sabemos que cada pais y cada region tienen distintas leyes
Me: sabemos que cada pais y cada region tienen distintas “leches” 🥛🥛🐄 :v

Estoy enganchado de ya al curso porque necesito hacer scrapping a booking.com si alguien tiene alguna experiencia en este sitio le agradeceria me de pautas, gracias

No están los enlaces.

Les dejo esta y todas las anotaciones del curso actualizados al 2023, tome nota de los comentarios y ejercicios resueltos de cada sección. Lleve en cuenta las explicaciones del docente. Espero les sirva. 👌
Anotaciones y Ejercicios Curso de Web Scraping - Modulo I
(si quieres apoyar deja una estrella a la repo ✌⭐)

yo quiero ser responsable pero no le entiendo como leer un robots.txt

robots.txt: Una lista de lo que no se puede hacer scrapping

ES legal Scrapear?

1 Preguntas fundamentales:

  • Estoy violando alguna reglamentación local?
  • Estoy violando los términos y condiciones de la plataforma sitio web?
  • Estoy accediendo a lugares no autorizados?
  • Es legal el uso que le voy a dar a los datos?

2 Robots.txt

  • Es un archivo de texto que da las recomendaciones para el scrapeo del sitio web.
    Indica:
  • Las direcciones que NO quieren que accedamos.
  • El crawl-delay: tiempo que debemos de hacer entre pedido y pedido de información.

3 Buenas practicas

  • El mapa del sitio nos da idea de cómo es la estrucutra del sitio web.
  • No es vinculante, NO HAY prohibición por parte de robot.txt solo son recomendaciones

En Colombia se llama acceso abusivo a sistema informático, de tal forma que hay que revisar términos de uso y el robot.txt para conocer los límites en términos de autorización pública…