Platzi
Platzi

¡Invierte en ti y celebremos! Adquiere un plan Expert o Expert+ a precio especial.

Antes: $349
$259
Currency
Antes: $349
Ahorras: $90
COMIENZA AHORA
Termina en: 16D : 7H : 26M : 54S

Debes tener cuenta en Platzi

Para ver esta clase abierta debes iniciar sesión

Python: el lenguaje más poderoso para extraer datos3/21

vaya si que hay herramientas on line, aquí unos ejemplos:

scrapingdog.com
arundo.com
webscraper.io
apify.com
parsehub.com

https://youtu.be/gaF8B-5bBlA

Existen varios Frameworks para hacer Web Scraping, entre los màs populares:
1.- Scrapy.
2.- Jaunt.
3.- Storm Crawler.

[1:36] Selenium: framework avanzado que se usa para crear navegadores fantasma y poder controlar sitios web de forma automatica, como los bots.

RESUMEN: Python: el lenguaje más poderoso para extraer datos

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Es una librería nos permite controlar HTTP. El conjunto de reglas o protocolos de comunicación. En el enlace está la documentación en
español plano.

"El gobierno de su Majestad, Amazon, Google, Twilio, Mozilla, Heroku, PayPal,
NPR, Obama for America, Transifex, Native Instruments, The Washington Post, Twitter,
SoundClound, Kippt, Readability y algunas organizaciones Federales de los Estados Unidos de América utilizan Requests internamente.
Ha sido descargado más de 8,000,000 de veces desde PyPI. "


Es una libería de pyhton qué nos sirve para extraer información HTML y XML. Recibe este nombre debido a un poema con el mismo nombre
de Lewins Carroll en Alicia en el pais de la maravillas.

"Beautiful Soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup! "


Podemos crear navegadores fantasmas para controlar sitios web de manera automática. Bots.


Permite escribir reglas para extraer los datos, es extensible por diseño,
es rápido y simple. Es usado por el UK para recolectar datos de la población.


HERRAMIENTAS DE WEBSCRAPPING

Los siguientes son soluciones que no necesitan codear, y que en su mayoría tienen un propósito específico.
Enfocados ecomerce o a funciones como tomar screenshots de PDFs. Automatizar y agendar actividades, y las soluciones están dadas
como pluggins en el navegador hasta servicios.


LIBRERÍAS Y LENGUAJES

  • Rvest Es una librería inspirada en Beautiful soup, diseñada para
    cosechar y recolectar datos de HTML. Se usa en R studio.

  • Puppeteer Es una librería de Js que puede usarse para
    diferentes propósitos entre los cuales el webscrapping es uno.

Encontré esta aplicación de web scraping para uso en investigación biológica como lo es la Bioinformática.
**Link: **
https://academic.oup.com/bib/article/15/5/788/2422275

Herramientas para web scrapping:

  • Diffbot (inteligencia artificial para extraer datos)

  • ParseHub (especializada en páginas dinámicas)

  • Hunter (captura correos electrónicos a través de páginas webs)

node.js + Puppeteer

Python es el lenguaje mas especializado en realizar ciencia de datos, y posee una gran cantidad de modulos y herramientas para hacer web scraping.

Buscando por internet encontré que el lenguaje mas popular para realizar scraping es python con scrapy, si embargo hay alternativas como go con Colly y con Ruby con Kimurai

Les recomiendo este articulo en donde hacen una pequeña descripción de 11 Librerias o Frameworks para hacer scrapping

https://geekflare.com/web-scraping-frameworks/

Que tipos de proyectos puedo vincular entre web scraping, con un proyecto de Django??

Excelente noticia el curso de Scrapy

[0:56] Módulo o Librería request: Nos permite controlar http. Un conjunto de reglas mediante las cuales se comunican dos computadores en internet.

yo entre otras cosas econtre que aqui en canada se hace a nivel de gobierno y supongo que en otros paises o cada pais hace lo mismo, me llamo mucho la atencion que tienen todo un departamento y es bastante grande al respecto del webscraping, les dejo el link por si les interesa, saludos

https://www.statcan.gc.ca/eng/our-data/where/web-scraping

[1:51] Scrapy: Usado por el gobierno del reino unido en tareas de recolección de datos de sus ciudadanos.

https://papelesdeinteligencia.com/herramientas-de-web-scraping/
https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

No me esperaba que fueran demasiados 😮
El primer link pueden ver los diferentes propósitos que tiene cada herramienta que menciona.

se puede integrar python con react js?

Octoparse. Octoparse es una herramienta robusta de web scraping que también proporciona un servicio de web scraping para propietarios de empresas y empresas. …

muy interesante este tema

Existen varias herramientas para la realización del web scraping, incluso este conjunto de herramientas, forman parte de la mineria de datos de contenido estructurado que es una parte del web mining. Dentro de las herramientas se encuentra: mozenda, selenium, automation anywhere, web content extractor. Es bastante interesante todo ese tema del web scraping y web mining. Aquí dejo un paper que habla acerca de ello: https://www.researchgate.net/publication/258651624_Web_Content_Mining_Techniques_A_Survey

Esta nota de blog, esta en español, y me pareció interesante: https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

Python es el lenguaje que más soporte tiene en la comunidad, además, esta más especializado en la ciencia de datos.

  • Requests: Librería que nos permite controlar HTTP.
  • BeautifilSoup: Sirve para extraer información de un documento html.
  • Selenium: Creamos navegadores fantasmas que nos permiten controlar sitios web de forma automática.
  • Scrapy: Framework avanzado para recopilación de datos.

Agencias de inteligencia. Comparar precios al día. Marketing digital para analizar la tendencia. API pública para extraer datos.
Python es ideal. Módulos y comunidad.
Requests controla HTTP(Reglas para la comunicación entre las computadoras).
BeatifulSoup controla HTML.
Framework Scrapy.
Selenium

Hola no puedo ver los recursos con este nuevo diseño, no hay barra para poder descender.

El curso de scrapy esta Genial, increible, seria cool tambien un curso de selenium y otro para aprender a usar crontab y automatizar las tareas de scraping.

libreria rtweet usando lenguaje R.
Alguien me dijo alguna vez, si sabes R necesitas Python y si sabes Python aprende R.

https://www.diffbot.com/ => Aún sigue corriendo si html de la página cambia.

https://www.diffbot.com/ => Aún sigue corriendo si el html cambia.

Hola yo actualmente utilizo Selenium par hacer web Scraping con Java, aunque me dedico a automatizar test.
Otra herramienta que también utilizo es Robot Framework, que perimite automatizar aplicaciones web y móvil. Échenle un ojo si les interesa el mundo de la automatización móvil, es muy interesante.
Además comento este blog que encontré con 20 herramientas de web scraping muy utilizadas.

Frameworks más populares:

  • StormCrawler (Java)
  • Apify (NodeJS)
  • Kimurai (Ruby)

Visual Scraper:
Los usuarios con poca o ninguna habilidad de programación pueden configurar la extracción de datos con sus propias preferencias.

Selenium

Scrapy

Módulos de Python: Requests & BeautifulSoup

Requests :Es una libreria que nos permite controlar http
BeautifulSoup: Nos sirve para extraer informacion de un documento HTML.

Framework :
*Selenium

  • Scrapy

Herramientas de extracción de datos:

  • UIPath
  • Apache Camel
  • Automation Anywhere
  • Convertigo
  • cURL
  • Data Toolbar
  • Firebug
  • Greasemonkey
  • HtmlUnit
  • Node.js
  • HTTrack
  • iMacros
  • Aptana Jaxer
  • nokogiri
  • watir
  • Wget
  • WSO2 Mashup Server
  • HtmlAgilityPack
  • BeautifulSoup
  • Scrapy

Requests: librería de Python, que se utiliza para controlar HTTP.
Beautiful Soup: Extraer información de un documento HTML.

Frameworks más usados: Selenium y Scrapy.

Se puede hacer Web Scraping con PHP y cURL. Pero en definitiva con Python abres otro mundo de posibilidades.

Hoy no voy a dormir jajajja, esta muy interesante el tema!!

En esta web aparecen algunas de las herramientas principales para hacer scrapping con Python (algunas de ellas ya se han nombrado aquí):
https://www.scrapehero.com/python-web-scraping-frameworks/

Existen diferentes web scrappers algunos son para lenguajes espcíficos otros son agencias o páginas que cobran por hacer web scrapping por ti a cambio de dinero. Algunos de estos son:

  • Webscraper. io = es un plugin para chrome
  • Import. io = esta basado en chromiun, está bastante simplificado pero por lo mismo, no tiene tanta potencia.
  • Scrapy = el módulo de Python del que hablo el profesor Facundo.
  • Octoparse = un web scrapper sencillo para quienes no tengan tantos conocimientos de programación.
  • Dexi. io = de pago, este requiere más conocimientos de programación.
  • OutWit Hub = esta inclusive tiene una interfaz de usuario. No requiere de tantos conocimientos de programación.
  • ScrapingHub = basada en la nube,
  • Parsehub = instalable de escritorio, no requiere de grandes conocimientos de programación para realizar los scrapeos.

Acá un link con más información.

Muy interesante este curso, y ademas el tutor explica muy bien.

Todos muy emocionados con los webscrapers, muy bueno y todo pero también hay que tener en cuenta algunos aspectos legales para no violar la ley de proteccion de datos (no soy abogado, pero tampoco quiero meterme en problemas).

En estos articulos les comparto cuál es la información sensible donde los “web scrapers” son ilegales, en resumen se deben responder estas preguntas:

  • Am I scraping personal data?
  • Am I scraping copyrighted data?
  • Am I scraping data from behind a login?

If your answers to all three of these questions is “No”, then your web scraping is legal.

Source:
Essential Legal Issues Associated With Web Scraping

Is Web Scraping Legal? The Complete 2020 Guide

En este enlace, se habla de 10 herramientas para hacer Web Scraping: https://papelesdeinteligencia.com/herramientas-de-web-scraping/

Estoy interesado en geo espacial:





Toca con ArcGIS en los casos que vi:

Yo uso el data scrapper de google para bajar las ofertas de trabajo de glassdor, de indeed y de jobbank de canada.

En linkedin no funciona espero aprender como hacerlo aca.

el lenguaje R es otro lenguaje muy utilizado por la comunidad de científicos de datos, y también tiene recursos para hacer extracción de datos. Por ejemplo:
https://www.datanalytics.com/libro_r/web-scraping.html

Encontré un articulo interesante de las mejores herramientas de Scraping Open Source: https://www.octoparse.es/blog/mejores-web-scraper-de-codigo-abierto
5 son de Java
3 de Python
2 de JavaScript - Node.js

Python
Lenguaje para implementar WebScraping.
Ptyhon es el lenguaje que mas soporte tiene en la comunidad y en el open source para realizar este tipo de técnicas, además es uno de los lenguajes que está mas especializado para realizar ciencia de datos.

Python nos provee de muchos módulos
• REQUEST: librerìa que nos permite controlar http (http es un conjunto de reglas que nos permiten la comunicación dos computadoras en internet)
• BrautifulSoap: Sirve para extraer información de un documento HTML
• Selenium: Con este podemos crear navegadores fantasmas y podemos controlar sitios web de manera automáticas, para la implementación de bots.
• Scrapy: Es usado por el gobierno de Reino Unido para recolectar los datos de la población local todos los días.

Les recomiendo mucho leer sobre esta libreria.

Es similar a Selenium pero mucho mas eficiente ya que trabaja con asyncio

https://github.com/pyppeteer/pyppeteer

Mis apuntes:
2021-03-30_17-24.png

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Python: el lenguaje más poderoso para extraer datos</h1>

En este curso vamos a usar el lenguaje de programacion Python puesto que es el que mas soporte tiene dentro de la comunidad open source para poder desarrollar esta tecnica. Ademas, es uno de los mas espcializados en ciencia de datos. Python ademas nos provee con numerosos modulos que nos facilitaran la tarea de hacer web scraping, algunos de esos modulos son:

  • Request: Es una libreria que nos permite controlar http
  • BeautifulSoup: Es otra libreria que nos permite extraer informacion de archivos HTML
  • Selenium: Este no es libreria, es un framework que nos permite crear navegadores fantasma para controlar sitios web de manera automatica. Un framework es como una aplicacion o conjunto de modulos que nos permiten desarrollar nuestras tareas de una forma mas sencilla.
  • Scrapy: Es otro modulo avanzado para hacer web scraping

desafortunadamente python en platzi lo enseña un profesor sin mucho conocimiento y super aburrido por su forma de enseñar y hablar sam bigotes.

Algunas alternativas en cuanto a lenguajes de programación para hacer Web Scraping:
https://semalt.com/es/qa/5451-datos-de-la-pagina-web.htm

Opciones de sistemas o aplicaciones para generar Web Scraping:
https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder

6 Best web Scraping tools
Import.
Dexi (formerly known as CloudScrape)
Scrapinghub
ParseHub
80legs
Scraper

Beautiful soup y selenium son geniales.

Les quiero compartir el resumen que hice de un blog de Medium buenísimo, sobre 4 herramientas de web scrapping y por qué debemos aprender esta habilidad.
Puedes encontrar el link del blog y leer mi resumen en la sección de tutoriales de este curso o haciendo clic aquí.

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl esta herramienta junto con el inspector de paginas web facilitan mucho la vida

Existen muchas herramientas automatizadas para realizar web scraping ( octopas, scrapping hub, visual scraper, etc…) en las cuales probablemente la curva de aprendizaje para utilizarlas es menor que utilizar python. La diferencia en cuanto cualquier herramienta automatizada y herramientas de python es la flexibilidad que python ofrece para incluso desafiar páginas que cuentan con técnicas anti-scrapping.

vaya si que hay herramientas on line, aquí unos ejemplos:

scrapingdog.com
arundo.com
webscraper.io
apify.com
parsehub.com

https://youtu.be/gaF8B-5bBlA

Existen varios Frameworks para hacer Web Scraping, entre los màs populares:
1.- Scrapy.
2.- Jaunt.
3.- Storm Crawler.

[1:36] Selenium: framework avanzado que se usa para crear navegadores fantasma y poder controlar sitios web de forma automatica, como los bots.

RESUMEN: Python: el lenguaje más poderoso para extraer datos

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Es una librería nos permite controlar HTTP. El conjunto de reglas o protocolos de comunicación. En el enlace está la documentación en
español plano.

"El gobierno de su Majestad, Amazon, Google, Twilio, Mozilla, Heroku, PayPal,
NPR, Obama for America, Transifex, Native Instruments, The Washington Post, Twitter,
SoundClound, Kippt, Readability y algunas organizaciones Federales de los Estados Unidos de América utilizan Requests internamente.
Ha sido descargado más de 8,000,000 de veces desde PyPI. "


Es una libería de pyhton qué nos sirve para extraer información HTML y XML. Recibe este nombre debido a un poema con el mismo nombre
de Lewins Carroll en Alicia en el pais de la maravillas.

"Beautiful Soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup! "


Podemos crear navegadores fantasmas para controlar sitios web de manera automática. Bots.


Permite escribir reglas para extraer los datos, es extensible por diseño,
es rápido y simple. Es usado por el UK para recolectar datos de la población.


HERRAMIENTAS DE WEBSCRAPPING

Los siguientes son soluciones que no necesitan codear, y que en su mayoría tienen un propósito específico.
Enfocados ecomerce o a funciones como tomar screenshots de PDFs. Automatizar y agendar actividades, y las soluciones están dadas
como pluggins en el navegador hasta servicios.


LIBRERÍAS Y LENGUAJES

  • Rvest Es una librería inspirada en Beautiful soup, diseñada para
    cosechar y recolectar datos de HTML. Se usa en R studio.

  • Puppeteer Es una librería de Js que puede usarse para
    diferentes propósitos entre los cuales el webscrapping es uno.

Encontré esta aplicación de web scraping para uso en investigación biológica como lo es la Bioinformática.
**Link: **
https://academic.oup.com/bib/article/15/5/788/2422275

Herramientas para web scrapping:

  • Diffbot (inteligencia artificial para extraer datos)

  • ParseHub (especializada en páginas dinámicas)

  • Hunter (captura correos electrónicos a través de páginas webs)

node.js + Puppeteer

Python es el lenguaje mas especializado en realizar ciencia de datos, y posee una gran cantidad de modulos y herramientas para hacer web scraping.

Buscando por internet encontré que el lenguaje mas popular para realizar scraping es python con scrapy, si embargo hay alternativas como go con Colly y con Ruby con Kimurai

Les recomiendo este articulo en donde hacen una pequeña descripción de 11 Librerias o Frameworks para hacer scrapping

https://geekflare.com/web-scraping-frameworks/

Que tipos de proyectos puedo vincular entre web scraping, con un proyecto de Django??

Excelente noticia el curso de Scrapy

[0:56] Módulo o Librería request: Nos permite controlar http. Un conjunto de reglas mediante las cuales se comunican dos computadores en internet.

yo entre otras cosas econtre que aqui en canada se hace a nivel de gobierno y supongo que en otros paises o cada pais hace lo mismo, me llamo mucho la atencion que tienen todo un departamento y es bastante grande al respecto del webscraping, les dejo el link por si les interesa, saludos

https://www.statcan.gc.ca/eng/our-data/where/web-scraping

[1:51] Scrapy: Usado por el gobierno del reino unido en tareas de recolección de datos de sus ciudadanos.

https://papelesdeinteligencia.com/herramientas-de-web-scraping/
https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

No me esperaba que fueran demasiados 😮
El primer link pueden ver los diferentes propósitos que tiene cada herramienta que menciona.

se puede integrar python con react js?

Octoparse. Octoparse es una herramienta robusta de web scraping que también proporciona un servicio de web scraping para propietarios de empresas y empresas. …

muy interesante este tema

Existen varias herramientas para la realización del web scraping, incluso este conjunto de herramientas, forman parte de la mineria de datos de contenido estructurado que es una parte del web mining. Dentro de las herramientas se encuentra: mozenda, selenium, automation anywhere, web content extractor. Es bastante interesante todo ese tema del web scraping y web mining. Aquí dejo un paper que habla acerca de ello: https://www.researchgate.net/publication/258651624_Web_Content_Mining_Techniques_A_Survey

Esta nota de blog, esta en español, y me pareció interesante: https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

Python es el lenguaje que más soporte tiene en la comunidad, además, esta más especializado en la ciencia de datos.

  • Requests: Librería que nos permite controlar HTTP.
  • BeautifilSoup: Sirve para extraer información de un documento html.
  • Selenium: Creamos navegadores fantasmas que nos permiten controlar sitios web de forma automática.
  • Scrapy: Framework avanzado para recopilación de datos.

Agencias de inteligencia. Comparar precios al día. Marketing digital para analizar la tendencia. API pública para extraer datos.
Python es ideal. Módulos y comunidad.
Requests controla HTTP(Reglas para la comunicación entre las computadoras).
BeatifulSoup controla HTML.
Framework Scrapy.
Selenium

Hola no puedo ver los recursos con este nuevo diseño, no hay barra para poder descender.

El curso de scrapy esta Genial, increible, seria cool tambien un curso de selenium y otro para aprender a usar crontab y automatizar las tareas de scraping.

libreria rtweet usando lenguaje R.
Alguien me dijo alguna vez, si sabes R necesitas Python y si sabes Python aprende R.

https://www.diffbot.com/ => Aún sigue corriendo si html de la página cambia.

https://www.diffbot.com/ => Aún sigue corriendo si el html cambia.

Hola yo actualmente utilizo Selenium par hacer web Scraping con Java, aunque me dedico a automatizar test.
Otra herramienta que también utilizo es Robot Framework, que perimite automatizar aplicaciones web y móvil. Échenle un ojo si les interesa el mundo de la automatización móvil, es muy interesante.
Además comento este blog que encontré con 20 herramientas de web scraping muy utilizadas.

Frameworks más populares:

  • StormCrawler (Java)
  • Apify (NodeJS)
  • Kimurai (Ruby)

Visual Scraper:
Los usuarios con poca o ninguna habilidad de programación pueden configurar la extracción de datos con sus propias preferencias.

Selenium

Scrapy

Módulos de Python: Requests & BeautifulSoup

Requests :Es una libreria que nos permite controlar http
BeautifulSoup: Nos sirve para extraer informacion de un documento HTML.

Framework :
*Selenium

  • Scrapy

Herramientas de extracción de datos:

  • UIPath
  • Apache Camel
  • Automation Anywhere
  • Convertigo
  • cURL
  • Data Toolbar
  • Firebug
  • Greasemonkey
  • HtmlUnit
  • Node.js
  • HTTrack
  • iMacros
  • Aptana Jaxer
  • nokogiri
  • watir
  • Wget
  • WSO2 Mashup Server
  • HtmlAgilityPack
  • BeautifulSoup
  • Scrapy

Requests: librería de Python, que se utiliza para controlar HTTP.
Beautiful Soup: Extraer información de un documento HTML.

Frameworks más usados: Selenium y Scrapy.

Se puede hacer Web Scraping con PHP y cURL. Pero en definitiva con Python abres otro mundo de posibilidades.

Hoy no voy a dormir jajajja, esta muy interesante el tema!!

En esta web aparecen algunas de las herramientas principales para hacer scrapping con Python (algunas de ellas ya se han nombrado aquí):
https://www.scrapehero.com/python-web-scraping-frameworks/

Existen diferentes web scrappers algunos son para lenguajes espcíficos otros son agencias o páginas que cobran por hacer web scrapping por ti a cambio de dinero. Algunos de estos son:

  • Webscraper. io = es un plugin para chrome
  • Import. io = esta basado en chromiun, está bastante simplificado pero por lo mismo, no tiene tanta potencia.
  • Scrapy = el módulo de Python del que hablo el profesor Facundo.
  • Octoparse = un web scrapper sencillo para quienes no tengan tantos conocimientos de programación.
  • Dexi. io = de pago, este requiere más conocimientos de programación.
  • OutWit Hub = esta inclusive tiene una interfaz de usuario. No requiere de tantos conocimientos de programación.
  • ScrapingHub = basada en la nube,
  • Parsehub = instalable de escritorio, no requiere de grandes conocimientos de programación para realizar los scrapeos.

Acá un link con más información.

Muy interesante este curso, y ademas el tutor explica muy bien.

Todos muy emocionados con los webscrapers, muy bueno y todo pero también hay que tener en cuenta algunos aspectos legales para no violar la ley de proteccion de datos (no soy abogado, pero tampoco quiero meterme en problemas).

En estos articulos les comparto cuál es la información sensible donde los “web scrapers” son ilegales, en resumen se deben responder estas preguntas:

  • Am I scraping personal data?
  • Am I scraping copyrighted data?
  • Am I scraping data from behind a login?

If your answers to all three of these questions is “No”, then your web scraping is legal.

Source:
Essential Legal Issues Associated With Web Scraping

Is Web Scraping Legal? The Complete 2020 Guide

En este enlace, se habla de 10 herramientas para hacer Web Scraping: https://papelesdeinteligencia.com/herramientas-de-web-scraping/

Estoy interesado en geo espacial:





Toca con ArcGIS en los casos que vi:

Yo uso el data scrapper de google para bajar las ofertas de trabajo de glassdor, de indeed y de jobbank de canada.

En linkedin no funciona espero aprender como hacerlo aca.

el lenguaje R es otro lenguaje muy utilizado por la comunidad de científicos de datos, y también tiene recursos para hacer extracción de datos. Por ejemplo:
https://www.datanalytics.com/libro_r/web-scraping.html

Encontré un articulo interesante de las mejores herramientas de Scraping Open Source: https://www.octoparse.es/blog/mejores-web-scraper-de-codigo-abierto
5 son de Java
3 de Python
2 de JavaScript - Node.js

Python
Lenguaje para implementar WebScraping.
Ptyhon es el lenguaje que mas soporte tiene en la comunidad y en el open source para realizar este tipo de técnicas, además es uno de los lenguajes que está mas especializado para realizar ciencia de datos.

Python nos provee de muchos módulos
• REQUEST: librerìa que nos permite controlar http (http es un conjunto de reglas que nos permiten la comunicación dos computadoras en internet)
• BrautifulSoap: Sirve para extraer información de un documento HTML
• Selenium: Con este podemos crear navegadores fantasmas y podemos controlar sitios web de manera automáticas, para la implementación de bots.
• Scrapy: Es usado por el gobierno de Reino Unido para recolectar los datos de la población local todos los días.

Les recomiendo mucho leer sobre esta libreria.

Es similar a Selenium pero mucho mas eficiente ya que trabaja con asyncio

https://github.com/pyppeteer/pyppeteer

Mis apuntes:
2021-03-30_17-24.png

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Python: el lenguaje más poderoso para extraer datos</h1>

En este curso vamos a usar el lenguaje de programacion Python puesto que es el que mas soporte tiene dentro de la comunidad open source para poder desarrollar esta tecnica. Ademas, es uno de los mas espcializados en ciencia de datos. Python ademas nos provee con numerosos modulos que nos facilitaran la tarea de hacer web scraping, algunos de esos modulos son:

  • Request: Es una libreria que nos permite controlar http
  • BeautifulSoup: Es otra libreria que nos permite extraer informacion de archivos HTML
  • Selenium: Este no es libreria, es un framework que nos permite crear navegadores fantasma para controlar sitios web de manera automatica. Un framework es como una aplicacion o conjunto de modulos que nos permiten desarrollar nuestras tareas de una forma mas sencilla.
  • Scrapy: Es otro modulo avanzado para hacer web scraping

desafortunadamente python en platzi lo enseña un profesor sin mucho conocimiento y super aburrido por su forma de enseñar y hablar sam bigotes.

Algunas alternativas en cuanto a lenguajes de programación para hacer Web Scraping:
https://semalt.com/es/qa/5451-datos-de-la-pagina-web.htm

Opciones de sistemas o aplicaciones para generar Web Scraping:
https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder

6 Best web Scraping tools
Import.
Dexi (formerly known as CloudScrape)
Scrapinghub
ParseHub
80legs
Scraper

Beautiful soup y selenium son geniales.

Les quiero compartir el resumen que hice de un blog de Medium buenísimo, sobre 4 herramientas de web scrapping y por qué debemos aprender esta habilidad.
Puedes encontrar el link del blog y leer mi resumen en la sección de tutoriales de este curso o haciendo clic aquí.

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl esta herramienta junto con el inspector de paginas web facilitan mucho la vida

Existen muchas herramientas automatizadas para realizar web scraping ( octopas, scrapping hub, visual scraper, etc…) en las cuales probablemente la curva de aprendizaje para utilizarlas es menor que utilizar python. La diferencia en cuanto cualquier herramienta automatizada y herramientas de python es la flexibilidad que python ofrece para incluso desafiar páginas que cuentan con técnicas anti-scrapping.