脡tica y Legalidad

2/30
Recursos
Transcripci贸n

Aportes 30

Preguntas 10

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

En M茅xico se redacto una secci贸n en el Codigo Penal Federal respecto a:
"Revelaci贸n de secretos y acceso il铆cito a sistemas y equipos de inform谩tica(Titulo Noveno)"
Fuente de informaci贸n: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf

robots.txt: Aqui te dejo una lista de lo que no quiero que le hagas scrapping
Nadie: Que hagamos scrapping a eso, dice.

Si quieren saber mas sobre el archivo robots.txt les comparto esta gu铆a https://andres-dev.com/guia-completa-robots/

El concepto de Robots.txt siempre me ha causado un poco de risa, debido a que decirle a un hacker (W/B/G) que no investigue el contenido de ese indice (Menu), es como decirle a un ni帽o que no tome caramelos de la nevera 馃槃

En la vida real solo funciona para la indexacion de motores de busqueda como (G/B).

Disallow: /admin/ :: Humm! como me saltaria este panel administrativo? Brute Forcing, Injeccion de codigo?

Disallow: /usuarios/login.php :: Humm! definitivamente aqui pudiera injectar codigo a un parametro tipo php?id= y encontrar some juicy stuffs 馃槃

Disallow: /349353471/ :: Definitely! I could brute force this one y emplear tecnicas IDOR para ver que se puede encontrar

Mi resumen de clase de esta clase

Importante tener en cuenta este valor:

crawl-delay: 30

expresado en segundos, y usado en la colecci贸n de par谩metros a la hora de hacer de sistematizar consultas (scraping) a un sitio web respetando la integridad de respuesta del servidor objetivo

Puedo hacer Scraping al sitio de platzi??

Robots.txt

Este archivo encontramos informaci贸n sobre el sitio y nos muestra que sitio o rutas, el due帽o de la p谩gina no quiere que acudamos.

Disallow: Rutas que no quieren que se le haga scraping o que sean indexadas.

Crawl-delay: 30: Demora en segundos entre cada solicitud del sitio. Para no sobrecargar este sitio.

驴Es legal?

Debemos hacernos las siguientes preguntas.
驴Estoy violando alguna reglamentaci贸n local?
驴Estoy violando los 鈥淭茅rminos y Condiciones鈥 del sitio?
驴Estoy accediendo a lugares no autorizados?
驴Es legal el uso que le voy a dar a los datos?

驴Qu茅 es Robots.txt?

Es una buena pr谩ctica de scraping leer la secci贸n presente en todas las p谩ginas web, en esta secci贸n nos indica a que datos podemos acceder.

驴Qu茅 es Crawl-delay?

Es el tiempo que debemos configuraci贸n entre solicitud al sitio.

隆S茅 responsable!

Hola!!
驴D贸nde podemos mirar la reglamentaci贸n de Colombia sobre Scraping? Gracias

qu茅 hago cuando el robots.txt no entrega m谩s informaci贸n que el sitemap ? 馃槷

No est谩n los enlaces.

驴Recomiendan alg煤n libro sobre las implicaciones 茅ticas (y/o legales) de la ciencia de datos o inteligencia artificial?

ES legal Scrapear?

1 Preguntas fundamentales:

  • Estoy violando alguna reglamentaci贸n local?
  • Estoy violando los t茅rminos y condiciones de la plataforma sitio web?
  • Estoy accediendo a lugares no autorizados?
  • Es legal el uso que le voy a dar a los datos?

2 Robots.txt

  • Es un archivo de texto que da las recomendaciones para el scrapeo del sitio web.
    Indica:
  • Las direcciones que NO quieren que accedamos.
  • El crawl-delay: tiempo que debemos de hacer entre pedido y pedido de informaci贸n.

3 Buenas practicas

  • El mapa del sitio nos da idea de c贸mo es la estrucutra del sitio web.
  • No es vinculante, NO HAY prohibici贸n por parte de robot.txt solo son recomendaciones

Les dejo esta y todas las anotaciones del curso actualizados al 2023, tome nota de los comentarios y ejercicios resueltos de cada secci贸n. Lleve en cuenta las explicaciones del docente. Espero les sirva. 馃憣
Anotaciones y Ejercicios Curso de Web Scraping - Modulo I
(si quieres apoyar deja una estrella a la repo 鉁屸瓙)

Si la informacion es de dominio publico pero aun asi quien la gestiona no permite su acceso libre, que se podria pensar en cuanto a eso?

robots.txt

Es un archivo que define buenas pr谩cticas con scrapping.

Buena clase

C贸mo se encuentra ese acrhivo?

Menos mal no es vinculante, acabo de ver el robots.txt de linkedin y deniegan scrapear toda la p谩gina jaja

Hola!! Cuando una p谩gina en su archivo robots.txt contiene esta informaci贸n:

User-agent: bingbot
Crawl-delay: 2

驴Qu茅 restricciones tiene? o no tiene restricciones?
Gracias

segndo 0:22
All : sabemos que cada pais y cada region tienen distintas leyes
Me: sabemos que cada pais y cada region tienen distintas 鈥渓eches鈥 馃馃馃悇 :v

Estoy enganchado de ya al curso porque necesito hacer scrapping a booking.com si alguien tiene alguna experiencia en este sitio le agradeceria me de pautas, gracias

馃ズ馃ズ

En los Estados Unidos, el equivalente al archivo robots.txt en t茅rminos de propiedad y control de acceso a la informaci贸n es la etiqueta noindex o nofollow en las p谩ginas web.

2. 脡tica y Legalidad

  • 驴Estoy violando alguna reglamentaci贸n local?
  • 驴Estoy violando t茅rminos y condiciones del sitio?
  • 驴Estoy accediendo a lugares no autorizados?
  • 驴Es legar el uso que le voy a dar a los datos?

鈥淨uienquiera que acceda a una computadora sin autorizaci贸n o exceda la autorizaci贸n otorgada y de este modo obtenga informaci贸n protegida鈥 Prosecuting Computer Crimes

  • Robots.txt presenta buenas pr谩cticas de scraping del sitio Disallow: No se puede
  • Craw-delay demora entre cada solicitud al sitio en segundos
  • Buenas pr谩cticas de scraping y crawling.
  • Mapa del sitio.
  • No es vinculante.
  • S茅 responsable

Mas claro el robots.txt

yo quiero ser responsable pero no le entiendo como leer un robots.txt

robots.txt: Una lista de lo que no se puede hacer scrapping

En Colombia se llama acceso abusivo a sistema inform谩tico, de tal forma que hay que revisar t茅rminos de uso y el robot.txt para conocer los l铆mites en t茅rminos de autorizaci贸n p煤blica鈥