En México se redacto una sección en el Codigo Penal Federal respecto a:
"Revelación de secretos y acceso ilícito a sistemas y equipos de informática(Titulo Noveno)"
Fuente de información: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf
Scrapy, Tesseracts y Proxies
Introducción, definiciones y ética
Introducción y definiciones
Ética y Legalidad
Configuración del entorno de trabajo con Jupyter
HTML: Requests y BeautifulSoup
Descargando una página web
Parseando HTML con BeautifulSoup
Extrayendo información
Manejo de errores
Descargando contenido
Contenido multimedia
Unificando el scraper
Scraping JavaScript con Selenium
Instalación y configuración de Selenium
Sitios dinámicos y Selenium
Selección de elementos
Interactuando con los elementos
Scrapeando escalas y tarifas
Construyendo Funciones
Construyendo la función para unificar el scraper
Demoras dinámicas
Comentarios finales
APIs
Introducción a APIs
Utilizando APIs: Construir una URL
Utilizando APIs: Tokens y Búsqueda
Obteniendo la discografía
Obteniendo los albums
Fin del proyecto + bonus
Scrapy, Tesseract y Proxies
Scrapy
Ejecutando el scraper con scrapy
Proxies
Tesseract
Conclusión y cierre del curso
Convierte tus certificados en títulos universitarios en USA
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Martín Sokolowicz
Aportes 30
Preguntas 10
En México se redacto una sección en el Codigo Penal Federal respecto a:
"Revelación de secretos y acceso ilícito a sistemas y equipos de informática(Titulo Noveno)"
Fuente de información: http://www.diputados.gob.mx/LeyesBiblio/pdf/9_240120.pdf
robots.txt: Aqui te dejo una lista de lo que no quiero que le hagas scrapping
Nadie: Que hagamos scrapping a eso, dice.
Si quieren saber mas sobre el archivo robots.txt les comparto esta guía https://andres-dev.com/guia-completa-robots/
El concepto de Robots.txt siempre me ha causado un poco de risa, debido a que decirle a un hacker (W/B/G) que no investigue el contenido de ese indice (Menu), es como decirle a un niño que no tome caramelos de la nevera 😄
En la vida real solo funciona para la indexacion de motores de busqueda como (G/B).
Disallow: /admin/ :: Humm! como me saltaria este panel administrativo? Brute Forcing, Injeccion de codigo?
Disallow: /usuarios/login.php :: Humm! definitivamente aqui pudiera injectar codigo a un parametro tipo php?id= y encontrar some juicy stuffs 😄
Disallow: /349353471/ :: Definitely! I could brute force this one y emplear tecnicas IDOR para ver que se puede encontrar
Mi resumen de clase de esta clase
Importante tener en cuenta este valor:
crawl-delay: 30
expresado en segundos, y usado en la colección de parámetros a la hora de hacer de sistematizar consultas (scraping) a un sitio web respetando la integridad de respuesta del servidor objetivo
Puedo hacer Scraping al sitio de platzi??
Este archivo encontramos información sobre el sitio y nos muestra que sitio o rutas, el dueño de la página no quiere que acudamos.
Disallow: Rutas que no quieren que se le haga scraping o que sean indexadas.
Crawl-delay: 30: Demora en segundos entre cada solicitud del sitio. Para no sobrecargar este sitio.
¿Es legal?
Debemos hacernos las siguientes preguntas.
¿Estoy violando alguna reglamentación local?
¿Estoy violando los “Términos y Condiciones” del sitio?
¿Estoy accediendo a lugares no autorizados?
¿Es legal el uso que le voy a dar a los datos?
¿Qué es Robots.txt?
Es una buena práctica de scraping leer la sección presente en todas las páginas web, en esta sección nos indica a que datos podemos acceder.
¿Qué es Crawl-delay?
Es el tiempo que debemos configuración entre solicitud al sitio.
¡Sé responsable!
Hola!!
¿Dónde podemos mirar la reglamentación de Colombia sobre Scraping? Gracias
qué hago cuando el robots.txt no entrega más información que el sitemap ? 😮
No están los enlaces.
¿Recomiendan algún libro sobre las implicaciones éticas (y/o legales) de la ciencia de datos o inteligencia artificial?
ES legal Scrapear?
1 Preguntas fundamentales:
2 Robots.txt
3 Buenas practicas
Les dejo esta y todas las anotaciones del curso actualizados al 2023, tome nota de los comentarios y ejercicios resueltos de cada sección. Lleve en cuenta las explicaciones del docente. Espero les sirva. 👌
Anotaciones y Ejercicios Curso de Web Scraping - Modulo I
(si quieres apoyar deja una estrella a la repo ✌⭐)
Si la informacion es de dominio publico pero aun asi quien la gestiona no permite su acceso libre, que se podria pensar en cuanto a eso?
robots.txt
Es un archivo que define buenas prácticas con scrapping.
Buena clase
Cómo se encuentra ese acrhivo?
Menos mal no es vinculante, acabo de ver el robots.txt de linkedin y deniegan scrapear toda la página jaja
Hola!! Cuando una página en su archivo robots.txt contiene esta información:
User-agent: bingbot
Crawl-delay: 2
¿Qué restricciones tiene? o no tiene restricciones?
Gracias
segndo 0:22
All : sabemos que cada pais y cada region tienen distintas leyes
Me: sabemos que cada pais y cada region tienen distintas “leches” 🥛🥛🐄 :v
Estoy enganchado de ya al curso porque necesito hacer scrapping a booking.com si alguien tiene alguna experiencia en este sitio le agradeceria me de pautas, gracias
En los Estados Unidos, el equivalente al archivo robots.txt en términos de propiedad y control de acceso a la información es la etiqueta noindex o nofollow en las páginas web.
“Quienquiera que acceda a una computadora sin autorización o exceda la autorización otorgada y de este modo obtenga información protegida” Prosecuting Computer Crimes
Mas claro el robots.txt
yo quiero ser responsable pero no le entiendo como leer un robots.txt
robots.txt: Una lista de lo que no se puede hacer scrapping
En Colombia se llama acceso abusivo a sistema informático, de tal forma que hay que revisar términos de uso y el robot.txt para conocer los límites en términos de autorización pública…
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?