Crea una cuenta o inicia sesi贸n

隆Contin煤a aprendiendo sin ning煤n costo! 脷nete y comienza a potenciar tu carrera

Python: el lenguaje m谩s poderoso para extraer datos

3/21
Recursos

Aportes 88

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

vaya si que hay herramientas on line, aqu铆 unos ejemplos:

scrapingdog.com
arundo.com
webscraper.io
apify.com
parsehub.com

https://youtu.be/gaF8B-5bBlA

RESUMEN: Python: el lenguaje m谩s poderoso para extraer datos

鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻犫枲鈻

Es una librer铆a nos permite controlar HTTP. El conjunto de reglas o protocolos de comunicaci贸n. En el enlace est谩 la documentaci贸n en
espa帽ol plano.

"El gobierno de su Majestad, Amazon, Google, Twilio, Mozilla, Heroku, PayPal,
NPR, Obama for America, Transifex, Native Instruments, The Washington Post, Twitter,
SoundClound, Kippt, Readability y algunas organizaciones Federales de los Estados Unidos de Am茅rica utilizan Requests internamente.
Ha sido descargado m谩s de 8,000,000 de veces desde PyPI. "


Es una liber铆a de pyhton qu茅 nos sirve para extraer informaci贸n HTML y XML. Recibe este nombre debido a un poema con el mismo nombre
de Lewins Carroll en Alicia en el pais de la maravillas.

"Beautiful Soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup! "


Podemos crear navegadores fantasmas para controlar sitios web de manera autom谩tica. Bots.


Permite escribir reglas para extraer los datos, es extensible por dise帽o,
es r谩pido y simple. Es usado por el UK para recolectar datos de la poblaci贸n.


HERRAMIENTAS DE WEBSCRAPPING

Los siguientes son soluciones que no necesitan codear, y que en su mayor铆a tienen un prop贸sito espec铆fico.
Enfocados ecomerce o a funciones como tomar screenshots de PDFs. Automatizar y agendar actividades, y las soluciones est谩n dadas
como pluggins en el navegador hasta servicios.


LIBRER脥AS Y LENGUAJES

  • Rvest Es una librer铆a inspirada en Beautiful soup, dise帽ada para
    cosechar y recolectar datos de HTML. Se usa en R studio.

  • Puppeteer Es una librer铆a de Js que puede usarse para
    diferentes prop贸sitos entre los cuales el webscrapping es uno.

Existen varios Frameworks para hacer Web Scraping, entre los m脿s populares:
1.- Scrapy.
2.- Jaunt.
3.- Storm Crawler.

[1:36] Selenium: framework avanzado que se usa para crear navegadores fantasma y poder controlar sitios web de forma automatica, como los bots.

Python es el lenguaje mas especializado en realizar ciencia de datos, y posee una gran cantidad de modulos y herramientas para hacer web scraping.

Buscando por internet encontr茅 que el lenguaje mas popular para realizar scraping es python con scrapy, si embargo hay alternativas como go con Colly y con Ruby con Kimurai

Les recomiendo este articulo en donde hacen una peque帽a descripci贸n de 11 Librerias o Frameworks para hacer scrapping

https://geekflare.com/web-scraping-frameworks/

Herramientas para web scrapping:

  • Diffbot (inteligencia artificial para extraer datos)

  • ParseHub (especializada en p谩ginas din谩micas)

  • Hunter (captura correos electr贸nicos a trav茅s de p谩ginas webs)

Encontr茅 esta aplicaci贸n de web scraping para uso en investigaci贸n biol贸gica como lo es la Bioinform谩tica.
**Link: **
https://academic.oup.com/bib/article/15/5/788/2422275

Que tipos de proyectos puedo vincular entre web scraping, con un proyecto de Django??

node.js + Puppeteer

Excelente noticia el curso de Scrapy

[0:56] M贸dulo o Librer铆a request: Nos permite controlar http. Un conjunto de reglas mediante las cuales se comunican dos computadores en internet.

yo entre otras cosas econtre que aqui en canada se hace a nivel de gobierno y supongo que en otros paises o cada pais hace lo mismo, me llamo mucho la atencion que tienen todo un departamento y es bastante grande al respecto del webscraping, les dejo el link por si les interesa, saludos

https://www.statcan.gc.ca/eng/our-data/where/web-scraping

[1:51] Scrapy: Usado por el gobierno del reino unido en tareas de recolecci贸n de datos de sus ciudadanos.

https://papelesdeinteligencia.com/herramientas-de-web-scraping/
https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

No me esperaba que fueran demasiados 馃槷
El primer link pueden ver los diferentes prop贸sitos que tiene cada herramienta que menciona.

se puede integrar python con react js?

Todos muy emocionados con los webscrapers, muy bueno y todo pero tambi茅n hay que tener en cuenta algunos aspectos legales para no violar la ley de proteccion de datos (no soy abogado, pero tampoco quiero meterme en problemas).

En estos articulos les comparto cu谩l es la informaci贸n sensible donde los 鈥渨eb scrapers鈥 son ilegales, en resumen se deben responder estas preguntas:

  • Am I scraping personal data?
  • Am I scraping copyrighted data?
  • Am I scraping data from behind a login?

If your answers to all three of these questions is 鈥淣o鈥, then your web scraping is legal.

Source:
Essential Legal Issues Associated With Web Scraping

Is Web Scraping Legal? The Complete 2020 Guide

Qu茅 interesante realizar an谩lisis de redes sociales de mis computadores como proceso de Benchmarking

Existen muchas herramientas automatizadas para realizar web scraping ( octopas, scrapping hub, visual scraper, etc鈥) en las cuales probablemente la curva de aprendizaje para utilizarlas es menor que utilizar python. La diferencia en cuanto cualquier herramienta automatizada y herramientas de python es la flexibilidad que python ofrece para incluso desafiar p谩ginas que cuentan con t茅cnicas anti-scrapping.

Python m谩s Python que nunca. I LOVE THE SNAKE.

Estoy interesado en geo espacial:





Toca con ArcGIS en los casos que vi:

Yo uso todos los d铆as Refind. Es un plataforma web que usa Web Scrapping e Inteligencia Artificial para sugerirte 10 art铆culos web seg煤n tus intereses

Encontr茅 un articulo interesante de las mejores herramientas de Scraping Open Source: https://www.octoparse.es/blog/mejores-web-scraper-de-codigo-abierto
5 son de Java
3 de Python
2 de JavaScript - Node.js

Les comparto las herramientas que encontre:
-Scrapy
-Urllib
-Python Requests
-Selenium
-Beautifulsoup
-LXML

Python es el lenguaje que m谩s soporte tiene en la comunidad, adem谩s, esta m谩s especializado en la ciencia de datos.

  • Requests: Librer铆a que nos permite controlar HTTP.
  • BeautifilSoup: Sirve para extraer informaci贸n de un documento html.
  • Selenium: Creamos navegadores fantasmas que nos permiten controlar sitios web de forma autom谩tica.
  • Scrapy: Framework avanzado para recopilaci贸n de datos.

De la lista que encontr茅, este me pareci贸 m谩s interesante.

https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder#

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Python: el lenguaje m谩s poderoso para extraer datos</h1>

En este curso vamos a usar el lenguaje de programacion Python puesto que es el que mas soporte tiene dentro de la comunidad open source para poder desarrollar esta tecnica. Ademas, es uno de los mas espcializados en ciencia de datos. Python ademas nos provee con numerosos modulos que nos facilitaran la tarea de hacer web scraping, algunos de esos modulos son:

  • Request: Es una libreria que nos permite controlar http
  • BeautifulSoup: Es otra libreria que nos permite extraer informacion de archivos HTML
  • Selenium: Este no es libreria, es un framework que nos permite crear navegadores fantasma para controlar sitios web de manera automatica. Un framework es como una aplicacion o conjunto de modulos que nos permiten desarrollar nuestras tareas de una forma mas sencilla.
  • Scrapy: Es otro modulo avanzado para hacer web scraping

Octoparse. Octoparse es una herramienta robusta de web scraping que tambi茅n proporciona un servicio de web scraping para propietarios de empresas y empresas. 鈥

muy interesante este tema

Existen varias herramientas para la realizaci贸n del web scraping, incluso este conjunto de herramientas, forman parte de la mineria de datos de contenido estructurado que es una parte del web mining. Dentro de las herramientas se encuentra: mozenda, selenium, automation anywhere, web content extractor. Es bastante interesante todo ese tema del web scraping y web mining. Aqu铆 dejo un paper que habla acerca de ello: https://www.researchgate.net/publication/258651624_Web_Content_Mining_Techniques_A_Survey

Esta nota de blog, esta en espa帽ol, y me pareci贸 interesante: https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

Magn铆fica la cantidad de herramientas y todas las posibilidades de desarrollar ese aprendizaje aqu铆 en Platzi, agregados los diferentes cursos a mi ruta.

Python rules!

Se puede hacer scrapping con un framework de Javascript que se llama Playwright

Python

  • Lenguaje con m谩s soporte hoy en d铆a
  • Uno de los m谩s especializados en data science
  • Nos provee de muchos modulos:
    • Request HTTP: Permite controlar http
    • BeatifulSoup HTML: Permite extraer informaci贸n de http
    • Selenium: Framework avanzado
    • Scrapy: Framework avanzado, utilizado por el gobierno de EEUU
  • En este curso vemos los fundamentos

He visto que se puede hacer web scraping con VBA.

Herramientas para hacer WebScraping. Se aprende mucho en este mundo pero sobre todo se lucen de c贸mo usar con la extracci贸n de datos.

En mi caso, estoy por comenzar un emprendimiento de ventas. Estaba viendo la competencia en MercadoLibre y los comentarios que les dejaban y pens茅 鈥渜ue ch茅vere ser铆a hacer una base de datos con los comentarios de ciertos art铆culos para darme una idea de cu谩nto lo piden鈥濃 luego abr铆 las herramientas de desarrollador por curiosidad y pens茅 鈥渆sto fijo se puede automatizar鈥. Me v铆 el curso de Python y ahora estoy ac谩. Super interesante el tema

Net Core 3.1

encontre que para hacer scraping en instagram hay una herramienta llamada 鈥渨ebscraping鈥+"."+鈥渁i鈥(es un link pero para que sean mas cautelosos al abrirlo lo dejo asi por si acaso, uno nunca sabe cual es el verdadero proposito de las paginas por detras) que es muy util ya que instagram tiene mucha seguridad porque no le gusta que hagan scraping en su plataforma

Encontre estas herramientas:
Import
Mozenda: el binomio de web scraping y data as a service m谩s completo
Dexi. : herramienta de web scraping para usuarios avanzados
Salestools : Recompilar correos
Parsehub : una herramienta de web scraping especializada en p谩ginas din谩micas
Diffbot : inteligencia artificial para la extracci贸n de datos
80legs : Un plan gratuito para web scraping

Hacer scrape es el proceso de extraer datos de sitios web. Antes de realizar la extracci贸n de datos de una p谩gina web, debes asegurarte de que el proveedor lo permita en sus t茅rminos de servicio. Adem谩s, deber铆as verificar si no puedes usar una API en su lugar.

Ac谩 les dejo una gu铆a de como hacer WebScraping con Javascript y NodeJS para los que ya conocen el lenguaje.

Se mencionan librer铆as como request , axios, etc. para hacer las peticiones, cheerio y jsdom para manejar el DOM, puppeter, etc.

Guide

Muy buena clase.

Yo encontr茅 varias tecnolog铆as para Java:

  1. Selenium
  2. Boilerpipe
  3. Nutch

Trabaj茅 5 a帽os y medio para Teleperformance, donde 4 de esos a帽os estuve en el 谩re4a de Workforce, siempre me tuve inter茅s por la automatizaci贸n de reportes y de hecho ah铆 empec茅 a aprender a hacer scraping pero no sab铆a que se llamaba as铆, al principio empece con el VBA de Excel donde con un elemento IE (Internet Explorer) sacaba datos a partir de su HTML, era algo lento eso s铆 jeje, despues vi que se pod铆a usar selenium con VBA y despu茅s perfeccion茅 algunas t茅cnicas con NodeJS usando Puppeteer en lenguaje JavaScript, tengo grandes expectativas sobre usar Python para Scraping 馃槃 me emociona que puedo agregar la palabra Scraping a mi hoja de vida!! Espero todos aqu铆 tengamos muchos exitos en el camino que elijamos cada uno!!

Mozenda
Import
Dexi
Parsehub
Apifier

UIPATH para hacer web scrapping!!!

Agencias de inteligencia. Comparar precios al d铆a. Marketing digital para analizar la tendencia. API p煤blica para extraer datos.
Python es ideal. M贸dulos y comunidad.
Requests controla HTTP(Reglas para la comunicaci贸n entre las computadoras).
BeatifulSoup controla HTML.
Framework Scrapy.
Selenium

Hola no puedo ver los recursos con este nuevo dise帽o, no hay barra para poder descender.

El curso de scrapy esta Genial, increible, seria cool tambien un curso de selenium y otro para aprender a usar crontab y automatizar las tareas de scraping.

libreria rtweet usando lenguaje R.
Alguien me dijo alguna vez, si sabes R necesitas Python y si sabes Python aprende R.

https://www.diffbot.com/ => A煤n sigue corriendo si html de la p谩gina cambia.

https://www.diffbot.com/ => A煤n sigue corriendo si el html cambia.

Hola yo actualmente utilizo Selenium par hacer web Scraping con Java, aunque me dedico a automatizar test.
Otra herramienta que tambi茅n utilizo es Robot Framework, que perimite automatizar aplicaciones web y m贸vil. 脡chenle un ojo si les interesa el mundo de la automatizaci贸n m贸vil, es muy interesante.
Adem谩s comento este blog que encontr茅 con 20 herramientas de web scraping muy utilizadas.

Frameworks m谩s populares:

  • StormCrawler (Java)
  • Apify (NodeJS)
  • Kimurai (Ruby)

Visual Scraper:
Los usuarios con poca o ninguna habilidad de programaci贸n pueden configurar la extracci贸n de datos con sus propias preferencias.

Selenium

Scrapy

M贸dulos de Python: Requests & BeautifulSoup

Requests :Es una libreria que nos permite controlar http
BeautifulSoup: Nos sirve para extraer informacion de un documento HTML.

Framework :
*Selenium

  • Scrapy

Herramientas de extracci贸n de datos:

  • UIPath
  • Apache Camel
  • Automation Anywhere
  • Convertigo
  • cURL
  • Data Toolbar
  • Firebug
  • Greasemonkey
  • HtmlUnit
  • Node.js
  • HTTrack
  • iMacros
  • Aptana Jaxer
  • nokogiri
  • watir
  • Wget
  • WSO2 Mashup Server
  • HtmlAgilityPack
  • BeautifulSoup
  • Scrapy

Requests: librer铆a de Python, que se utiliza para controlar HTTP.
Beautiful Soup: Extraer informaci贸n de un documento HTML.

Frameworks m谩s usados: Selenium y Scrapy.

Se puede hacer Web Scraping con PHP y cURL. Pero en definitiva con Python abres otro mundo de posibilidades.

Hoy no voy a dormir jajajja, esta muy interesante el tema!!

En esta web aparecen algunas de las herramientas principales para hacer scrapping con Python (algunas de ellas ya se han nombrado aqu铆):
https://www.scrapehero.com/python-web-scraping-frameworks/

Existen diferentes web scrappers algunos son para lenguajes espc铆ficos otros son agencias o p谩ginas que cobran por hacer web scrapping por ti a cambio de dinero. Algunos de estos son:

  • Webscraper. io = es un plugin para chrome
  • Import. io = esta basado en chromiun, est谩 bastante simplificado pero por lo mismo, no tiene tanta potencia.
  • Scrapy = el m贸dulo de Python del que hablo el profesor Facundo.
  • Octoparse = un web scrapper sencillo para quienes no tengan tantos conocimientos de programaci贸n.
  • Dexi. io = de pago, este requiere m谩s conocimientos de programaci贸n.
  • OutWit Hub = esta inclusive tiene una interfaz de usuario. No requiere de tantos conocimientos de programaci贸n.
  • ScrapingHub = basada en la nube,
  • Parsehub = instalable de escritorio, no requiere de grandes conocimientos de programaci贸n para realizar los scrapeos.

Ac谩 un link con m谩s informaci贸n.

Muy interesante este curso, y ademas el tutor explica muy bien.

En este enlace, se habla de 10 herramientas para hacer Web Scraping: https://papelesdeinteligencia.com/herramientas-de-web-scraping/

Yo uso el data scrapper de google para bajar las ofertas de trabajo de glassdor, de indeed y de jobbank de canada.

En linkedin no funciona espero aprender como hacerlo aca.

el lenguaje R es otro lenguaje muy utilizado por la comunidad de cient铆ficos de datos, y tambi茅n tiene recursos para hacer extracci贸n de datos. Por ejemplo:
https://www.datanalytics.com/libro_r/web-scraping.html

Python
Lenguaje para implementar WebScraping.
Ptyhon es el lenguaje que mas soporte tiene en la comunidad y en el open source para realizar este tipo de t茅cnicas, adem谩s es uno de los lenguajes que est谩 mas especializado para realizar ciencia de datos.

Python nos provee de muchos m贸dulos
鈥 REQUEST: librer矛a que nos permite controlar http (http es un conjunto de reglas que nos permiten la comunicaci贸n dos computadoras en internet)
鈥 BrautifulSoap: Sirve para extraer informaci贸n de un documento HTML
鈥 Selenium: Con este podemos crear navegadores fantasmas y podemos controlar sitios web de manera autom谩ticas, para la implementaci贸n de bots.
鈥 Scrapy: Es usado por el gobierno de Reino Unido para recolectar los datos de la poblaci贸n local todos los d铆as.

Les recomiendo mucho leer sobre esta libreria.

Es similar a Selenium pero mucho mas eficiente ya que trabaja con asyncio

https://github.com/pyppeteer/pyppeteer

Mis apuntes:

desafortunadamente python en platzi lo ense帽a un profesor sin mucho conocimiento y super aburrido por su forma de ense帽ar y hablar sam bigotes.

Algunas alternativas en cuanto a lenguajes de programaci贸n para hacer Web Scraping:
https://semalt.com/es/qa/5451-datos-de-la-pagina-web.htm

Opciones de sistemas o aplicaciones para generar Web Scraping:
https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder

6 Best web Scraping tools
Import.
Dexi (formerly known as CloudScrape)
Scrapinghub
ParseHub
80legs
Scraper

Beautiful soup y selenium son geniales.

Les quiero compartir el resumen que hice de un blog de Medium buen铆simo, sobre 4 herramientas de web scrapping y por qu茅 debemos aprender esta habilidad.
Puedes encontrar el link del blog y leer mi resumen en la secci贸n de tutoriales de este curso o haciendo clic aqu铆.

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl esta herramienta junto con el inspector de paginas web facilitan mucho la vida