脡tica y Legalidad

2/30
Recursos
Transcripci贸n

Aportes 26

Preguntas 10

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

En M茅xico se redacto una secci贸n en el Codigo Penal Federal respecto a:
"Revelaci贸n de secretos y acceso il铆cito a sistemas y equipos de inform谩tica(Titulo Noveno)"
Fuente de informaci贸n: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf

robots.txt: Aqui te dejo una lista de lo que no quiero que le hagas scrapping
Nadie: Que hagamos scrapping a eso, dice.

Si quieren saber mas sobre el archivo robots.txt les comparto esta gu铆a https://andres-dev.com/guia-completa-robots/

El concepto de Robots.txt siempre me ha causado un poco de risa, debido a que decirle a un hacker (W/B/G) que no investigue el contenido de ese indice (Menu), es como decirle a un ni帽o que no tome caramelos de la nevera 馃槃

En la vida real solo funciona para la indexacion de motores de busqueda como (G/B).

Disallow: /admin/ :: Humm! como me saltaria este panel administrativo? Brute Forcing, Injeccion de codigo?

Disallow: /usuarios/login.php :: Humm! definitivamente aqui pudiera injectar codigo a un parametro tipo php?id= y encontrar some juicy stuffs 馃槃

Disallow: /349353471/ :: Definitely! I could brute force this one y emplear tecnicas IDOR para ver que se puede encontrar

Mi resumen de clase de esta clase

Importante tener en cuenta este valor:

crawl-delay: 30

expresado en segundos, y usado en la colecci贸n de par谩metros a la hora de hacer de sistematizar consultas (scraping) a un sitio web respetando la integridad de respuesta del servidor objetivo

Puedo hacer Scraping al sitio de platzi??

Robots.txt

Este archivo encontramos informaci贸n sobre el sitio y nos muestra que sitio o rutas, el due帽o de la p谩gina no quiere que acudamos.

Disallow: Rutas que no quieren que se le haga scraping o que sean indexadas.

Crawl-delay: 30: Demora en segundos entre cada solicitud del sitio. Para no sobrecargar este sitio.

驴Es legal?

Debemos hacernos las siguientes preguntas.
驴Estoy violando alguna reglamentaci贸n local?
驴Estoy violando los 鈥淭茅rminos y Condiciones鈥 del sitio?
驴Estoy accediendo a lugares no autorizados?
驴Es legal el uso que le voy a dar a los datos?

驴Qu茅 es Robots.txt?

Es una buena pr谩ctica de scraping leer la secci贸n presente en todas las p谩ginas web, en esta secci贸n nos indica a que datos podemos acceder.

驴Qu茅 es Crawl-delay?

Es el tiempo que debemos configuraci贸n entre solicitud al sitio.

隆S茅 responsable!

Hola!!
驴D贸nde podemos mirar la reglamentaci贸n de Colombia sobre Scraping? Gracias

qu茅 hago cuando el robots.txt no entrega m谩s informaci贸n que el sitemap ? 馃槷

驴Recomiendan alg煤n libro sobre las implicaciones 茅ticas (y/o legales) de la ciencia de datos o inteligencia artificial?

Si la informacion es de dominio publico pero aun asi quien la gestiona no permite su acceso libre, que se podria pensar en cuanto a eso?

robots.txt

Es un archivo que define buenas pr谩cticas con scrapping.

Buena clase

C贸mo se encuentra ese acrhivo?

Menos mal no es vinculante, acabo de ver el robots.txt de linkedin y deniegan scrapear toda la p谩gina jaja

Hola!! Cuando una p谩gina en su archivo robots.txt contiene esta informaci贸n:

User-agent: bingbot
Crawl-delay: 2

驴Qu茅 restricciones tiene? o no tiene restricciones?
Gracias

segndo 0:22
All : sabemos que cada pais y cada region tienen distintas leyes
Me: sabemos que cada pais y cada region tienen distintas 鈥渓eches鈥 馃馃馃悇 :v

Estoy enganchado de ya al curso porque necesito hacer scrapping a booking.com si alguien tiene alguna experiencia en este sitio le agradeceria me de pautas, gracias

No est谩n los enlaces.

Les dejo esta y todas las anotaciones del curso actualizados al 2023, tome nota de los comentarios y ejercicios resueltos de cada secci贸n. Lleve en cuenta las explicaciones del docente. Espero les sirva. 馃憣
Anotaciones y Ejercicios Curso de Web Scraping - Modulo I
(si quieres apoyar deja una estrella a la repo 鉁屸瓙)

yo quiero ser responsable pero no le entiendo como leer un robots.txt

robots.txt: Una lista de lo que no se puede hacer scrapping

ES legal Scrapear?

1 Preguntas fundamentales:

  • Estoy violando alguna reglamentaci贸n local?
  • Estoy violando los t茅rminos y condiciones de la plataforma sitio web?
  • Estoy accediendo a lugares no autorizados?
  • Es legal el uso que le voy a dar a los datos?

2 Robots.txt

  • Es un archivo de texto que da las recomendaciones para el scrapeo del sitio web.
    Indica:
  • Las direcciones que NO quieren que accedamos.
  • El crawl-delay: tiempo que debemos de hacer entre pedido y pedido de informaci贸n.

3 Buenas practicas

  • El mapa del sitio nos da idea de c贸mo es la estrucutra del sitio web.
  • No es vinculante, NO HAY prohibici贸n por parte de robot.txt solo son recomendaciones

En Colombia se llama acceso abusivo a sistema inform谩tico, de tal forma que hay que revisar t茅rminos de uso y el robot.txt para conocer los l铆mites en t茅rminos de autorizaci贸n p煤blica鈥