XPath es a HTML, lo que las expresiones regulares son a texto, ambas se utilizan para buscar patrones.
Introducción al web scraping
¿Qué es el web scraping?
¿Por qué aprender web scraping hoy?
Python: el lenguaje más poderoso para extraer datos
Fundamentos de la web
Entender HTTP
¿Qué es HTML?
Robots.txt: permisos y consideraciones al hacer web scraping
XML Path Language
XML Path Language
Tipos de nodos en XPath
Expresiones en XPath
Predicados en Xpath
Operadores en Xpath
Wildcards en Xpath
In-text search en Xpath
XPath Axes
Resumen de XPath
Aplicando lo aprendido
Proyecto: scraper de noticias
Un proyecto para tu portafolio: scraper de noticias
Construcción de las expresiones de XPath
Obteniendo los links de los artículos con Python
Guardando las noticias en archivos de texto
Conclusiones
Cómo continuar tu ruta de aprendizaje
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 39
Preguntas 1
XPath es a HTML, lo que las expresiones regulares son a texto, ambas se utilizan para buscar patrones.
RESUMEN: XPATH
■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
XML Xtensible markup lenguage .Sirvio para definir interfaces, es un lenguaje de nodos o etiquetas.
Una técnica para extraer datos de allí es Xpath.
Xpath es a HTML lo que las REGEX son a un texto.
Es decir, Xpath es un lenguaje de patrones, expresiones que me permitirá extraer datos de un HTML. Puntualmente sirve para apuntar a partes de un documento XML.
Les comparto un recurso.
En http://labs.timtom.ch/library-webscraping/extras/xpath-cheatsheet.md.pdf pueden encontrar más información de XPath.
A mi parecer es mejor usar CSS Selectors, tienen una sintaxis mas resumida, mas limpia, entendible y tiene la ventaja de que si sabes frontend o si sabes usar CSS mas especificamente, es exactamente lo mismo ( Yo no se mucho de Frontend )
Estare dejando en los aportes la ‘traducción’ usando CSS Selectors, y asi ustedes pueden decidir cual usar e ir viendo las diferencias entre los dos ‘lenguajes’ c:
Las expresiones regulares tambien son bastante importates en esta area, he tenido casos en que lo que hay para obtener la informacion es texto plano (nada de html) y lo que me ha salvado son las expresiones regulares
a por el curso de expresiones regulares
XPath tester facilita la construcción y el debugger de las expresiones, nos indica en primera medida si es válida.
Expresiones Regulares, también conocidas como Patrones.
Hola les dejo mis notas del curso
https://github.com/rb-one/curso-webscrapping-con-xpath-/blob/master/Notes/notes.md
XPATH es un lenguaje que es utilizado para la extracción de datos por las similitudes que comparte con html. Define la ruta que se debe seguir para llegar al lugar dentro de html de donde queremos extraer la información.
XPath: XML Path Lenguage
Lenguaje muy parecido a HTML, sirvió para definir interfaces, formado por etiquetas, es un lenguaje de patrones que permite extraer datos de un HTML.
Me fui al curso de expresiones regulares y me envicié a eso!!! es una herramienta super importante para todo programador, recomiendo muchísimo el curso!
A demás que complementa super bien con el Scraping
Dejo aquí un enlace con los recursos URL
Que motivacion Facundo !!!
con XML configuraba los scaneres de cedula en mi antiguo empleo, tambien en las impresoras de etiquetas
¿Qué es Xpath? Es un lenguaje con el que podemos crear expresiones parecidas a Regex con una serie de condiciones para recorrer un documento estructurado XML y localizar elementos concretos que están incluidos dentro de ese.
https://www.youtube.com/watch?v=6S0x9MAxBVM&ab_channel=MiguelÁngelPau
XML (Xtensible Markup Language) sirvio para definir interfaces, es un lenguaje que esta formado por nodos (etiquetas). Una técnica para extraer información de este lenguaje es mediante XPath. Como HTML es similar a XML, podemos usar XPath para extraer información de paginas web.
XPath es a HTML lo que son las Expresiones Regulares a un texto
//div/span/h1[@class="title"][1]
Indica que queremos extraer un titulo de un span que esta dentro de un div
datasheet https://devhints.io/xpath
Este te permite probar xpath online y te marca las coincidencias https://xpather.com/
XPath: XML Path Language
XPath es un lenguaje que permite construir expresiones que recorren y procesan un documento XML.
*XPath es para extraer datos pero utiliza como url de referencia las etiquetas de html por así decirlo
Xpath es un lenguaje de patrones, expresiones que me permitirá extraer datos de un HTML. Sirve para apuntar a partes de un documento XML.
XPath
//div
selecciona todos los nodos del documento html
Extraer titulo de un SPAN dentro de un DIV //div/span//h1[@class=“title”][1]
XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML. https://es.wikipedia.org/wiki/XPath
Me agrada mucho la confianza que transmite Facundo:
…para eso está este curso para que los meses de conviertan en semanas e incluso dias…
XPath Path Language
Una consulta XPath (Lenguaje de rutas XML) puede especificarse como parte de una dirección URL o dentro de una plantilla.
XPath es un lenguaje de navegación de grafos que se usa para seleccionar un conjunto de nodos de un documento XML.
XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML
Excelente explicación.
XPath es a HTML, lo que las expresiones regulares (RegEx) son a un texto (strings), ambas se utilizan para buscar patrones.
Algo que me ayudó a entender esta clase:
XPath es a HTML, lo que las expresiones regulares son a texto, ambas se utilizan para buscar patrones.
XML Path Language
Formado por nodos(etiquetas)
Parecido al HTML
Expresiones regulares: Definir patrones.
Expresión Xpath, es el html que voy a extraer.
Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping
<h1>XML Path Langugage</h1>
Extensible Markup Language es un lenguaje muy parecido a HTML que se utilizo para crear interfaces y que al igual que HTML esta integrado por etiquetas. Una tecnica para extraer datos de este lenguaje es usando XPATH. Entonces, como HTML es un lenguaje tan parecedo a Extensive Markup Language, podemos usar Xpath para extraer datos de HTML sin ningun problema.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?