Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

Python: el lenguaje más poderoso para extraer datos

3/21
Recursos

Aportes 88

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

vaya si que hay herramientas on line, aquí unos ejemplos:

scrapingdog.com
arundo.com
webscraper.io
apify.com
parsehub.com

https://youtu.be/gaF8B-5bBlA

RESUMEN: Python: el lenguaje más poderoso para extraer datos

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Es una librería nos permite controlar HTTP. El conjunto de reglas o protocolos de comunicación. En el enlace está la documentación en
español plano.

"El gobierno de su Majestad, Amazon, Google, Twilio, Mozilla, Heroku, PayPal,
NPR, Obama for America, Transifex, Native Instruments, The Washington Post, Twitter,
SoundClound, Kippt, Readability y algunas organizaciones Federales de los Estados Unidos de América utilizan Requests internamente.
Ha sido descargado más de 8,000,000 de veces desde PyPI. "


Es una libería de pyhton qué nos sirve para extraer información HTML y XML. Recibe este nombre debido a un poema con el mismo nombre
de Lewins Carroll en Alicia en el pais de la maravillas.

"Beautiful Soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup! "


Podemos crear navegadores fantasmas para controlar sitios web de manera automática. Bots.


Permite escribir reglas para extraer los datos, es extensible por diseño,
es rápido y simple. Es usado por el UK para recolectar datos de la población.


HERRAMIENTAS DE WEBSCRAPPING

Los siguientes son soluciones que no necesitan codear, y que en su mayoría tienen un propósito específico.
Enfocados ecomerce o a funciones como tomar screenshots de PDFs. Automatizar y agendar actividades, y las soluciones están dadas
como pluggins en el navegador hasta servicios.


LIBRERÍAS Y LENGUAJES

  • Rvest Es una librería inspirada en Beautiful soup, diseñada para
    cosechar y recolectar datos de HTML. Se usa en R studio.

  • Puppeteer Es una librería de Js que puede usarse para
    diferentes propósitos entre los cuales el webscrapping es uno.

Existen varios Frameworks para hacer Web Scraping, entre los màs populares:
1.- Scrapy.
2.- Jaunt.
3.- Storm Crawler.

[1:36] Selenium: framework avanzado que se usa para crear navegadores fantasma y poder controlar sitios web de forma automatica, como los bots.

Python es el lenguaje mas especializado en realizar ciencia de datos, y posee una gran cantidad de modulos y herramientas para hacer web scraping.

Buscando por internet encontré que el lenguaje mas popular para realizar scraping es python con scrapy, si embargo hay alternativas como go con Colly y con Ruby con Kimurai

Les recomiendo este articulo en donde hacen una pequeña descripción de 11 Librerias o Frameworks para hacer scrapping

https://geekflare.com/web-scraping-frameworks/

Herramientas para web scrapping:

  • Diffbot (inteligencia artificial para extraer datos)

  • ParseHub (especializada en páginas dinámicas)

  • Hunter (captura correos electrónicos a través de páginas webs)

Encontré esta aplicación de web scraping para uso en investigación biológica como lo es la Bioinformática.
**Link: **
https://academic.oup.com/bib/article/15/5/788/2422275

Que tipos de proyectos puedo vincular entre web scraping, con un proyecto de Django??

node.js + Puppeteer

Excelente noticia el curso de Scrapy

[0:56] Módulo o Librería request: Nos permite controlar http. Un conjunto de reglas mediante las cuales se comunican dos computadores en internet.

yo entre otras cosas econtre que aqui en canada se hace a nivel de gobierno y supongo que en otros paises o cada pais hace lo mismo, me llamo mucho la atencion que tienen todo un departamento y es bastante grande al respecto del webscraping, les dejo el link por si les interesa, saludos

https://www.statcan.gc.ca/eng/our-data/where/web-scraping

[1:51] Scrapy: Usado por el gobierno del reino unido en tareas de recolección de datos de sus ciudadanos.

https://papelesdeinteligencia.com/herramientas-de-web-scraping/
https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

No me esperaba que fueran demasiados 😮
El primer link pueden ver los diferentes propósitos que tiene cada herramienta que menciona.

se puede integrar python con react js?

Todos muy emocionados con los webscrapers, muy bueno y todo pero también hay que tener en cuenta algunos aspectos legales para no violar la ley de proteccion de datos (no soy abogado, pero tampoco quiero meterme en problemas).

En estos articulos les comparto cuál es la información sensible donde los “web scrapers” son ilegales, en resumen se deben responder estas preguntas:

  • Am I scraping personal data?
  • Am I scraping copyrighted data?
  • Am I scraping data from behind a login?

If your answers to all three of these questions is “No”, then your web scraping is legal.

Source:
Essential Legal Issues Associated With Web Scraping

Is Web Scraping Legal? The Complete 2020 Guide

Qué interesante realizar análisis de redes sociales de mis computadores como proceso de Benchmarking

Existen muchas herramientas automatizadas para realizar web scraping ( octopas, scrapping hub, visual scraper, etc…) en las cuales probablemente la curva de aprendizaje para utilizarlas es menor que utilizar python. La diferencia en cuanto cualquier herramienta automatizada y herramientas de python es la flexibilidad que python ofrece para incluso desafiar páginas que cuentan con técnicas anti-scrapping.

Python más Python que nunca. I LOVE THE SNAKE.

Estoy interesado en geo espacial:





Toca con ArcGIS en los casos que vi:

Yo uso todos los días Refind. Es un plataforma web que usa Web Scrapping e Inteligencia Artificial para sugerirte 10 artículos web según tus intereses

Encontré un articulo interesante de las mejores herramientas de Scraping Open Source: https://www.octoparse.es/blog/mejores-web-scraper-de-codigo-abierto
5 son de Java
3 de Python
2 de JavaScript - Node.js

Les comparto las herramientas que encontre:
-Scrapy
-Urllib
-Python Requests
-Selenium
-Beautifulsoup
-LXML

Python es el lenguaje que más soporte tiene en la comunidad, además, esta más especializado en la ciencia de datos.

  • Requests: Librería que nos permite controlar HTTP.
  • BeautifilSoup: Sirve para extraer información de un documento html.
  • Selenium: Creamos navegadores fantasmas que nos permiten controlar sitios web de forma automática.
  • Scrapy: Framework avanzado para recopilación de datos.

De la lista que encontré, este me pareció más interesante.

https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder#

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Python: el lenguaje más poderoso para extraer datos</h1>

En este curso vamos a usar el lenguaje de programacion Python puesto que es el que mas soporte tiene dentro de la comunidad open source para poder desarrollar esta tecnica. Ademas, es uno de los mas espcializados en ciencia de datos. Python ademas nos provee con numerosos modulos que nos facilitaran la tarea de hacer web scraping, algunos de esos modulos son:

  • Request: Es una libreria que nos permite controlar http
  • BeautifulSoup: Es otra libreria que nos permite extraer informacion de archivos HTML
  • Selenium: Este no es libreria, es un framework que nos permite crear navegadores fantasma para controlar sitios web de manera automatica. Un framework es como una aplicacion o conjunto de modulos que nos permiten desarrollar nuestras tareas de una forma mas sencilla.
  • Scrapy: Es otro modulo avanzado para hacer web scraping

Octoparse. Octoparse es una herramienta robusta de web scraping que también proporciona un servicio de web scraping para propietarios de empresas y empresas. …

muy interesante este tema

Existen varias herramientas para la realización del web scraping, incluso este conjunto de herramientas, forman parte de la mineria de datos de contenido estructurado que es una parte del web mining. Dentro de las herramientas se encuentra: mozenda, selenium, automation anywhere, web content extractor. Es bastante interesante todo ese tema del web scraping y web mining. Aquí dejo un paper que habla acerca de ello: https://www.researchgate.net/publication/258651624_Web_Content_Mining_Techniques_A_Survey

Esta nota de blog, esta en español, y me pareció interesante: https://www.octoparse.es/blog/las-20-mejores-herramientas-de-web-scraping

Magnífica la cantidad de herramientas y todas las posibilidades de desarrollar ese aprendizaje aquí en Platzi, agregados los diferentes cursos a mi ruta.

Python rules!

Se puede hacer scrapping con un framework de Javascript que se llama Playwright

Python

  • Lenguaje con más soporte hoy en día
  • Uno de los más especializados en data science
  • Nos provee de muchos modulos:
    • Request HTTP: Permite controlar http
    • BeatifulSoup HTML: Permite extraer información de http
    • Selenium: Framework avanzado
    • Scrapy: Framework avanzado, utilizado por el gobierno de EEUU
  • En este curso vemos los fundamentos

He visto que se puede hacer web scraping con VBA.

Herramientas para hacer WebScraping. Se aprende mucho en este mundo pero sobre todo se lucen de cómo usar con la extracción de datos.

En mi caso, estoy por comenzar un emprendimiento de ventas. Estaba viendo la competencia en MercadoLibre y los comentarios que les dejaban y pensé “que chévere sería hacer una base de datos con los comentarios de ciertos artículos para darme una idea de cuánto lo piden”… luego abrí las herramientas de desarrollador por curiosidad y pensé “esto fijo se puede automatizar”. Me ví el curso de Python y ahora estoy acá. Super interesante el tema

Net Core 3.1

encontre que para hacer scraping en instagram hay una herramienta llamada “webscraping”+"."+“ai”(es un link pero para que sean mas cautelosos al abrirlo lo dejo asi por si acaso, uno nunca sabe cual es el verdadero proposito de las paginas por detras) que es muy util ya que instagram tiene mucha seguridad porque no le gusta que hagan scraping en su plataforma

Encontre estas herramientas:
Import
Mozenda: el binomio de web scraping y data as a service más completo
Dexi. : herramienta de web scraping para usuarios avanzados
Salestools : Recompilar correos
Parsehub : una herramienta de web scraping especializada en páginas dinámicas
Diffbot : inteligencia artificial para la extracción de datos
80legs : Un plan gratuito para web scraping

Hacer scrape es el proceso de extraer datos de sitios web. Antes de realizar la extracción de datos de una página web, debes asegurarte de que el proveedor lo permita en sus términos de servicio. Además, deberías verificar si no puedes usar una API en su lugar.

Acá les dejo una guía de como hacer WebScraping con Javascript y NodeJS para los que ya conocen el lenguaje.

Se mencionan librerías como request , axios, etc. para hacer las peticiones, cheerio y jsdom para manejar el DOM, puppeter, etc.

Guide

Muy buena clase.

Yo encontré varias tecnologías para Java:

  1. Selenium
  2. Boilerpipe
  3. Nutch

Trabajé 5 años y medio para Teleperformance, donde 4 de esos años estuve en el áre4a de Workforce, siempre me tuve interés por la automatización de reportes y de hecho ahí empecé a aprender a hacer scraping pero no sabía que se llamaba así, al principio empece con el VBA de Excel donde con un elemento IE (Internet Explorer) sacaba datos a partir de su HTML, era algo lento eso sí jeje, despues vi que se podía usar selenium con VBA y después perfeccioné algunas técnicas con NodeJS usando Puppeteer en lenguaje JavaScript, tengo grandes expectativas sobre usar Python para Scraping 😄 me emociona que puedo agregar la palabra Scraping a mi hoja de vida!! Espero todos aquí tengamos muchos exitos en el camino que elijamos cada uno!!

Mozenda
Import
Dexi
Parsehub
Apifier

UIPATH para hacer web scrapping!!!

Agencias de inteligencia. Comparar precios al día. Marketing digital para analizar la tendencia. API pública para extraer datos.
Python es ideal. Módulos y comunidad.
Requests controla HTTP(Reglas para la comunicación entre las computadoras).
BeatifulSoup controla HTML.
Framework Scrapy.
Selenium

Hola no puedo ver los recursos con este nuevo diseño, no hay barra para poder descender.

El curso de scrapy esta Genial, increible, seria cool tambien un curso de selenium y otro para aprender a usar crontab y automatizar las tareas de scraping.

libreria rtweet usando lenguaje R.
Alguien me dijo alguna vez, si sabes R necesitas Python y si sabes Python aprende R.

https://www.diffbot.com/ => Aún sigue corriendo si html de la página cambia.

https://www.diffbot.com/ => Aún sigue corriendo si el html cambia.

Hola yo actualmente utilizo Selenium par hacer web Scraping con Java, aunque me dedico a automatizar test.
Otra herramienta que también utilizo es Robot Framework, que perimite automatizar aplicaciones web y móvil. Échenle un ojo si les interesa el mundo de la automatización móvil, es muy interesante.
Además comento este blog que encontré con 20 herramientas de web scraping muy utilizadas.

Frameworks más populares:

  • StormCrawler (Java)
  • Apify (NodeJS)
  • Kimurai (Ruby)

Visual Scraper:
Los usuarios con poca o ninguna habilidad de programación pueden configurar la extracción de datos con sus propias preferencias.

Selenium

Scrapy

Módulos de Python: Requests & BeautifulSoup

Requests :Es una libreria que nos permite controlar http
BeautifulSoup: Nos sirve para extraer informacion de un documento HTML.

Framework :
*Selenium

  • Scrapy

Herramientas de extracción de datos:

  • UIPath
  • Apache Camel
  • Automation Anywhere
  • Convertigo
  • cURL
  • Data Toolbar
  • Firebug
  • Greasemonkey
  • HtmlUnit
  • Node.js
  • HTTrack
  • iMacros
  • Aptana Jaxer
  • nokogiri
  • watir
  • Wget
  • WSO2 Mashup Server
  • HtmlAgilityPack
  • BeautifulSoup
  • Scrapy

Requests: librería de Python, que se utiliza para controlar HTTP.
Beautiful Soup: Extraer información de un documento HTML.

Frameworks más usados: Selenium y Scrapy.

Se puede hacer Web Scraping con PHP y cURL. Pero en definitiva con Python abres otro mundo de posibilidades.

Hoy no voy a dormir jajajja, esta muy interesante el tema!!

En esta web aparecen algunas de las herramientas principales para hacer scrapping con Python (algunas de ellas ya se han nombrado aquí):
https://www.scrapehero.com/python-web-scraping-frameworks/

Existen diferentes web scrappers algunos son para lenguajes espcíficos otros son agencias o páginas que cobran por hacer web scrapping por ti a cambio de dinero. Algunos de estos son:

  • Webscraper. io = es un plugin para chrome
  • Import. io = esta basado en chromiun, está bastante simplificado pero por lo mismo, no tiene tanta potencia.
  • Scrapy = el módulo de Python del que hablo el profesor Facundo.
  • Octoparse = un web scrapper sencillo para quienes no tengan tantos conocimientos de programación.
  • Dexi. io = de pago, este requiere más conocimientos de programación.
  • OutWit Hub = esta inclusive tiene una interfaz de usuario. No requiere de tantos conocimientos de programación.
  • ScrapingHub = basada en la nube,
  • Parsehub = instalable de escritorio, no requiere de grandes conocimientos de programación para realizar los scrapeos.

Acá un link con más información.

Muy interesante este curso, y ademas el tutor explica muy bien.

En este enlace, se habla de 10 herramientas para hacer Web Scraping: https://papelesdeinteligencia.com/herramientas-de-web-scraping/

Yo uso el data scrapper de google para bajar las ofertas de trabajo de glassdor, de indeed y de jobbank de canada.

En linkedin no funciona espero aprender como hacerlo aca.

el lenguaje R es otro lenguaje muy utilizado por la comunidad de científicos de datos, y también tiene recursos para hacer extracción de datos. Por ejemplo:
https://www.datanalytics.com/libro_r/web-scraping.html

Python
Lenguaje para implementar WebScraping.
Ptyhon es el lenguaje que mas soporte tiene en la comunidad y en el open source para realizar este tipo de técnicas, además es uno de los lenguajes que está mas especializado para realizar ciencia de datos.

Python nos provee de muchos módulos
• REQUEST: librerìa que nos permite controlar http (http es un conjunto de reglas que nos permiten la comunicación dos computadoras en internet)
• BrautifulSoap: Sirve para extraer información de un documento HTML
• Selenium: Con este podemos crear navegadores fantasmas y podemos controlar sitios web de manera automáticas, para la implementación de bots.
• Scrapy: Es usado por el gobierno de Reino Unido para recolectar los datos de la población local todos los días.

Les recomiendo mucho leer sobre esta libreria.

Es similar a Selenium pero mucho mas eficiente ya que trabaja con asyncio

https://github.com/pyppeteer/pyppeteer

Mis apuntes:

desafortunadamente python en platzi lo enseña un profesor sin mucho conocimiento y super aburrido por su forma de enseñar y hablar sam bigotes.

Algunas alternativas en cuanto a lenguajes de programación para hacer Web Scraping:
https://semalt.com/es/qa/5451-datos-de-la-pagina-web.htm

Opciones de sistemas o aplicaciones para generar Web Scraping:
https://www.octoparse.es/blog/web-scraping-gratuitos-que-no-te-puedes-perder

6 Best web Scraping tools
Import.
Dexi (formerly known as CloudScrape)
Scrapinghub
ParseHub
80legs
Scraper

Beautiful soup y selenium son geniales.

Les quiero compartir el resumen que hice de un blog de Medium buenísimo, sobre 4 herramientas de web scrapping y por qué debemos aprender esta habilidad.
Puedes encontrar el link del blog y leer mi resumen en la sección de tutoriales de este curso o haciendo clic aquí.

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl esta herramienta junto con el inspector de paginas web facilitan mucho la vida