Curso de Scrapy

Curso de Scrapy

Facundo Nicol谩s Garc铆a Martoni

Facundo Nicol谩s Garc铆a Martoni

El framework as铆ncrono: Scrapy

2/27
Recursos

Aportes 19

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Hace un mes no sab铆a Python, ahora estoy enamorado de este lenguaje. Esto no tiene nada que ver con el curso, pero todo lo que estoy viendo me oblig贸 a escribirlo!

Comparto mis notas de este curso, espero sean de utilidad

https://github.com/rb-one/Curso-Scrapy/blob/master/Notes/notes.md

Cualquier cosa en pueda ayudar no duden en contactarme por twitter @rusbelbermudez

Resumen
鈻犫枲鈻犫枲鈻犫枲鈻

Scrapy es un framework de alto nivel que sirve para realizar webscraping y webcrawiling, este segundo es el acto de realizar scraping a lo largo del sitio web, es decir extrayendo informaci贸n entre diferentes rutas del sitio web. WebCrawling es un acto parecido al servicio que hacen los exploradores web que indexan contenido(Google, DuckDuck). Scrapy es asincroncrono, esto significa que significa aque scrapy puede hacer una cantidad n de requests y esperar a que retorne a la vez.


  • Puedo usar un procesador de Xpath interno.
  • Se usan Instancias de clases llamadas 鈥渟piders鈥 y 鈥渃rawlers鈥, los cuales puede recibir multiples urls.
  • Scrapy tiene una consola interactiva en la que peudo hacer pruebas
  • Puedo exportar mis datos en funci贸n del formato de serializaci贸n que requerimos, JSON, vsc y m谩s.
  • Scrapy respeta las reglas de sitio Robots.txt, pero este par谩metro es configurable, puedo no respetar las normas del sitio.

Un framework es un esquema o marco de trabajo que ofrece una estructura base para elaborar un proyecto con objetivos espec铆ficos, una especie de plantilla que sirve como punto de partida para la organizaci贸n y desarrollo de software.

Me parece muy interesante, cosas nuevas que no sabia que se podia hacer.!

Es el framework m谩s utilizado en internet, que es de alto nivel, para realizar web scraping y web crawling.

驴Qu茅 es web crawling?
Es un primo lejano del web scraping, en el cual en vez de extraer la informaci贸n, lo que se hace obtener los links de una pagina e indexarlos para ir link por link llegando a otros sitios. Los usan los motores de b煤squeda.

Algo que nos permite Scrapy es extraer la informaci贸n de manera estructurada, por ejemplo, se podr铆a implementar una t茅cnica llamada data mining en al cual se va buscando los datos para nutrir una aplicaci贸n web.

Particularidades de scrapy
1. Es un framework asincr贸nico, puede hacer varias peticiones(requests) a la vez y esperar varias respuestas a la vez.
2. Posee un procesador de scrapy interno.
3. Tiene una shell interactiva, para realizar pruebas de las sentencias xpath.
4. Se puede exportar la info en el formato que deseemos.
Respeta el archivo robots.txt

Que grande Facu, siempre motivando a continuar aprendiendo

Muy interesante lo que estoy escuchando

Por si alguien al igual que yo se lo preguntaba (con motivos puramente educacionales jeje) si se pod铆a hacer que robots.txt no sea respetado, aqu铆 tienen la respuesta:
https://www.simplified.guide/scrapy/ignore-robots

Espero aprender mucho de este curso vengo del anterior y aplique esto en mi trabajo con lo cual capture data interesante para el negocio.

Excelente !!! Vamos con todo !!! 馃憡

Excelente, se ve muy interesante

woww, hasta ahora lo que m谩s parece interesante de Scrapy es que respete el archivo robots.txt. En serio, siempre estaba muy preocupada de cometer alg煤n error e ingresar a alg煤n lugar no permitido. hehehehe 馃槄

recomiendan este curso antes del anterior de la ruta de aprendizaje de Data science

Web Crawling: Captura los links para indexarlos para ir a nuevos sitios.
Scrapy: Framwork As铆ncrono = Puede manejar varios REQUESTS a la vez, (no es necesario terminar uno para iniciar otro).
Herramientas de SCRAPY:

  • Tiene un procesador XPath.
  • Tiene una Interactive Shell: La cual es una consola, para poder hacer pruebas de forma eficiente.
  • Exportaci贸n a distintos formatos.
  • Podemos tener el archivo robots.txt autom谩ticamente controlado.

Los Cursos con Facundo despues de los de Fredy son los mas que he disfrutado.

Hab铆a escuchado mucho de Scrapy. Y ahora despu茅s de ver esto me impresiona el respeto del archivo robots.txt adem谩s la asincronia. Ahora entiendo porque qu茅 es un favorito.

Excelente Facundo