Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

19 Días
6 Hrs
47 Min
56 Seg

Ética y Legalidad

2/30
Recursos
Transcripción

Aportes 30

Preguntas 10

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

En México se redacto una sección en el Codigo Penal Federal respecto a:
"Revelación de secretos y acceso ilícito a sistemas y equipos de informática(Titulo Noveno)"
Fuente de información: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf

robots.txt: Aqui te dejo una lista de lo que no quiero que le hagas scrapping
Nadie: Que hagamos scrapping a eso, dice.

Si quieren saber mas sobre el archivo robots.txt les comparto esta guía https://andres-dev.com/guia-completa-robots/

El concepto de Robots.txt siempre me ha causado un poco de risa, debido a que decirle a un hacker (W/B/G) que no investigue el contenido de ese indice (Menu), es como decirle a un niño que no tome caramelos de la nevera 😄

En la vida real solo funciona para la indexacion de motores de busqueda como (G/B).

Disallow: /admin/ :: Humm! como me saltaria este panel administrativo? Brute Forcing, Injeccion de codigo?

Disallow: /usuarios/login.php :: Humm! definitivamente aqui pudiera injectar codigo a un parametro tipo php?id= y encontrar some juicy stuffs 😄

Disallow: /349353471/ :: Definitely! I could brute force this one y emplear tecnicas IDOR para ver que se puede encontrar

Mi resumen de clase de esta clase

Importante tener en cuenta este valor:

crawl-delay: 30

expresado en segundos, y usado en la colección de parámetros a la hora de hacer de sistematizar consultas (scraping) a un sitio web respetando la integridad de respuesta del servidor objetivo

Puedo hacer Scraping al sitio de platzi??

Robots.txt

Este archivo encontramos información sobre el sitio y nos muestra que sitio o rutas, el dueño de la página no quiere que acudamos.

Disallow: Rutas que no quieren que se le haga scraping o que sean indexadas.

Crawl-delay: 30: Demora en segundos entre cada solicitud del sitio. Para no sobrecargar este sitio.

¿Es legal?

Debemos hacernos las siguientes preguntas.
¿Estoy violando alguna reglamentación local?
¿Estoy violando los “Términos y Condiciones” del sitio?
¿Estoy accediendo a lugares no autorizados?
¿Es legal el uso que le voy a dar a los datos?

¿Qué es Robots.txt?

Es una buena práctica de scraping leer la sección presente en todas las páginas web, en esta sección nos indica a que datos podemos acceder.

¿Qué es Crawl-delay?

Es el tiempo que debemos configuración entre solicitud al sitio.

¡Sé responsable!

Hola!!
¿Dónde podemos mirar la reglamentación de Colombia sobre Scraping? Gracias

qué hago cuando el robots.txt no entrega más información que el sitemap ? 😮

No están los enlaces.

¿Recomiendan algún libro sobre las implicaciones éticas (y/o legales) de la ciencia de datos o inteligencia artificial?

ES legal Scrapear?

1 Preguntas fundamentales:

  • Estoy violando alguna reglamentación local?
  • Estoy violando los términos y condiciones de la plataforma sitio web?
  • Estoy accediendo a lugares no autorizados?
  • Es legal el uso que le voy a dar a los datos?

2 Robots.txt

  • Es un archivo de texto que da las recomendaciones para el scrapeo del sitio web.
    Indica:
  • Las direcciones que NO quieren que accedamos.
  • El crawl-delay: tiempo que debemos de hacer entre pedido y pedido de información.

3 Buenas practicas

  • El mapa del sitio nos da idea de cómo es la estrucutra del sitio web.
  • No es vinculante, NO HAY prohibición por parte de robot.txt solo son recomendaciones

Les dejo esta y todas las anotaciones del curso actualizados al 2023, tome nota de los comentarios y ejercicios resueltos de cada sección. Lleve en cuenta las explicaciones del docente. Espero les sirva. 👌
Anotaciones y Ejercicios Curso de Web Scraping - Modulo I
(si quieres apoyar deja una estrella a la repo ✌⭐)

Si la informacion es de dominio publico pero aun asi quien la gestiona no permite su acceso libre, que se podria pensar en cuanto a eso?

robots.txt

Es un archivo que define buenas prácticas con scrapping.

Buena clase

Cómo se encuentra ese acrhivo?

Menos mal no es vinculante, acabo de ver el robots.txt de linkedin y deniegan scrapear toda la página jaja

Hola!! Cuando una página en su archivo robots.txt contiene esta información:

User-agent: bingbot
Crawl-delay: 2

¿Qué restricciones tiene? o no tiene restricciones?
Gracias

segndo 0:22
All : sabemos que cada pais y cada region tienen distintas leyes
Me: sabemos que cada pais y cada region tienen distintas “leches” 🥛🥛🐄 :v

Estoy enganchado de ya al curso porque necesito hacer scrapping a booking.com si alguien tiene alguna experiencia en este sitio le agradeceria me de pautas, gracias

🥺🥺

En los Estados Unidos, el equivalente al archivo robots.txt en términos de propiedad y control de acceso a la información es la etiqueta noindex o nofollow en las páginas web.

2. Ética y Legalidad

  • ¿Estoy violando alguna reglamentación local?
  • ¿Estoy violando términos y condiciones del sitio?
  • ¿Estoy accediendo a lugares no autorizados?
  • ¿Es legar el uso que le voy a dar a los datos?

“Quienquiera que acceda a una computadora sin autorización o exceda la autorización otorgada y de este modo obtenga información protegida” Prosecuting Computer Crimes

  • Robots.txt presenta buenas prácticas de scraping del sitio Disallow: No se puede
  • Craw-delay demora entre cada solicitud al sitio en segundos
  • Buenas prácticas de scraping y crawling.
  • Mapa del sitio.
  • No es vinculante.
  • Sé responsable

Mas claro el robots.txt

yo quiero ser responsable pero no le entiendo como leer un robots.txt

robots.txt: Una lista de lo que no se puede hacer scrapping

En Colombia se llama acceso abusivo a sistema informático, de tal forma que hay que revisar términos de uso y el robot.txt para conocer los límites en términos de autorización pública…