Curso de Scrapy

Curso de Scrapy

Facundo García Martoni

Facundo García Martoni

El framework asíncrono: Scrapy

2/27
Recursos

Aportes 19

Preguntas 1

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Hace un mes no sabía Python, ahora estoy enamorado de este lenguaje. Esto no tiene nada que ver con el curso, pero todo lo que estoy viendo me obligó a escribirlo!

Comparto mis notas de este curso, espero sean de utilidad

https://github.com/rb-one/Curso-Scrapy/blob/master/Notes/notes.md

Cualquier cosa en pueda ayudar no duden en contactarme por twitter @rusbelbermudez

Resumen
■■■■■■■

Scrapy es un framework de alto nivel que sirve para realizar webscraping y webcrawiling, este segundo es el acto de realizar scraping a lo largo del sitio web, es decir extrayendo información entre diferentes rutas del sitio web. WebCrawling es un acto parecido al servicio que hacen los exploradores web que indexan contenido(Google, DuckDuck). Scrapy es asincroncrono, esto significa que significa aque scrapy puede hacer una cantidad n de requests y esperar a que retorne a la vez.


  • Puedo usar un procesador de Xpath interno.
  • Se usan Instancias de clases llamadas “spiders” y “crawlers”, los cuales puede recibir multiples urls.
  • Scrapy tiene una consola interactiva en la que peudo hacer pruebas
  • Puedo exportar mis datos en función del formato de serialización que requerimos, JSON, vsc y más.
  • Scrapy respeta las reglas de sitio Robots.txt, pero este parámetro es configurable, puedo no respetar las normas del sitio.

Un framework es un esquema o marco de trabajo que ofrece una estructura base para elaborar un proyecto con objetivos específicos, una especie de plantilla que sirve como punto de partida para la organización y desarrollo de software.

Me parece muy interesante, cosas nuevas que no sabia que se podia hacer.!

Que grande Facu, siempre motivando a continuar aprendiendo

Muy interesante lo que estoy escuchando

Por si alguien al igual que yo se lo preguntaba (con motivos puramente educacionales jeje) si se podía hacer que robots.txt no sea respetado, aquí tienen la respuesta:
https://www.simplified.guide/scrapy/ignore-robots

Espero aprender mucho de este curso vengo del anterior y aplique esto en mi trabajo con lo cual capture data interesante para el negocio.

Excelente !!! Vamos con todo !!! 👊

Excelente, se ve muy interesante

Es el framework más utilizado en internet, que es de alto nivel, para realizar web scraping y web crawling.

¿Qué es web crawling?
Es un primo lejano del web scraping, en el cual en vez de extraer la información, lo que se hace obtener los links de una pagina e indexarlos para ir link por link llegando a otros sitios. Los usan los motores de búsqueda.

Algo que nos permite Scrapy es extraer la información de manera estructurada, por ejemplo, se podría implementar una técnica llamada data mining en al cual se va buscando los datos para nutrir una aplicación web.

Particularidades de scrapy
1. Es un framework asincrónico, puede hacer varias peticiones(requests) a la vez y esperar varias respuestas a la vez.
2. Posee un procesador de scrapy interno.
3. Tiene una shell interactiva, para realizar pruebas de las sentencias xpath.
4. Se puede exportar la info en el formato que deseemos.
Respeta el archivo robots.txt

woww, hasta ahora lo que más parece interesante de Scrapy es que respete el archivo robots.txt. En serio, siempre estaba muy preocupada de cometer algún error e ingresar a algún lugar no permitido. hehehehe 😅

recomiendan este curso antes del anterior de la ruta de aprendizaje de Data science

Web Crawling: Captura los links para indexarlos para ir a nuevos sitios.
Scrapy: Framwork Asíncrono = Puede manejar varios REQUESTS a la vez, (no es necesario terminar uno para iniciar otro).
Herramientas de SCRAPY:

  • Tiene un procesador XPath.
  • Tiene una Interactive Shell: La cual es una consola, para poder hacer pruebas de forma eficiente.
  • Exportación a distintos formatos.
  • Podemos tener el archivo robots.txt automáticamente controlado.

Los Cursos con Facundo despues de los de Fredy son los mas que he disfrutado.

Había escuchado mucho de Scrapy. Y ahora después de ver esto me impresiona el respeto del archivo robots.txt además la asincronia. Ahora entiendo porque qué es un favorito.

Excelente Facundo