“Las advertencias deberían ir al frente y no al final” Dijo el Doctor Strange
😄
Scrapy: el framework estrella
Qué aprenderás sobre el framework Scrapy
El framework asíncrono: Scrapy
Instalación de Scrapy en Mac OS
Instalación de Scrapy en Linux
Instalación de Scrapy en Windows
Nuestro primer Hello World
Recordando generadores e iteradores
Trabajando con Scrapy
Scrapy Shell
Nuestro primer proyecto: estructura de carpetas
Spiders
Usando XPath para extraer datos
Guardando los datos
Seguir links: response.follow
Múltiples callbacks
Pasando argumentos a nuestro spider
Configuraciones útiles
Proyecto: Platzi Intelligence Agency
Platzi Intelligence Agency
Inicializando el repositorio local
Utilizando XPath en el sitio de la CIA
Spider: CIA
Finalizando la creación del spider
Creando el frontend de nuestra aplicación
Deploy a GitHub Pages
Deploy en Scrapy Cloud
Bonus: automatizar procesos con la API
Conclusiones
Evitar meterse en problemas
El siguiente paso en tu camino
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 13
Preguntas 1
“Las advertencias deberían ir al frente y no al final” Dijo el Doctor Strange
😄
Este video me gusta pero considero que puede ir al inicio y al final recalcar esto con ejemplos para reforzar el “no realices malas practicas”
Pregunta: scrapy por defecto respeta el archivo robots.txt, entonces imagino que si mi programa al momento de iniciar ve que la ruta está prohibida debería detenerse y dar un mensaje de error, no ?
De una forma muy resumida y simplificada, el web scraping se podría definir como la aplicación de técnicas que, de forma automática, permiten la extracción de datos e información de cualquier página web a través de un software o script. Generalmente, el proceso se divide en una fase de extracción de la información y un posterior traslado de un formato inicial no reutilizable a otro que permita su manipulación y procesamiento con los fines deseados.
esta clase debería estar al principio
Espero alguien pueda absolver mi pregunta.
Puedo hacer scraping a Linkedin ?
anteriormente eh podido extraer algunos datos usando bs4 y selenium, aunque el código no está del todo terminado y eh seguido los pasos de este curso pero no eh logrado obtener ni el título, hay un error 999. Espero alguien me pueda ayudar o dar una sugerencia, se lo agradecería.
Uff preocupante, mas que nada porque uno no sabe de esos términos del sitio, al menos a mi me cuesta entenderlos, alguien sabe si https://es.finance.yahoo.com/ se puede scrapear, me gustaria practicar pero ahora con estas conclusiones hasta miedo me da
Una duda, si la página cuenta con robots.txt. Entonces ya daría por entendido que tengo permiso de navegar por las páginas que permite ese archivo? O igual tengo que consultar con mi abogado? Es interesante que las páginas del gobierno de mi país de datos abiertos tengan tengan un robots que impide hacer scraping en nada XD
Brutal esta clase!
Ante todo principios éticos!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.