XML Path Language
Clase 7 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath
Contenido del curso
Clase 7 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath
Contenido del curso
JUAN SEBASTIAN ZAPATA AVENDAÑO
Rodrigo Rodriguez
Moisés Manuel Morín Hevia
Alejandro Giraldo Londoño
Moisés Manuel Morín Hevia
Hector F
José Antonio Sandino Montano
Juan R. Vergara M.
Alan Vazquez
Manuel Salv. Lemos Foncubierta
jesus alberto negrin guerrero
David Esteban Solorzano Taborda
bryan Quispe Valeriano
Juan Castro
Moisés Manuel Morín Hevia
Cesar Augusto Morales Godoy
Iván Mauricio Jaimes Niño
Jeinfferson Bernal G
Salvador Cardona Noriega
Moisés Manuel Morín Hevia
rusbel bermúdez rivera
Juan Antonio Alvarenga Galindo
Jaime Escobedo Vargas
Alejandro Núñez Arroyo
Julian Castro Pulgarin
Victor Zuluaga Ramirez
Daniel Pedroza
Francisco Garcia [C6]
José Manuel Piña Rodríguez
Helberts Andres Mosquera Clavijo
Antonio Demarco Bonino
Jeinfferson Bernal G
XPath es a HTML, lo que las expresiones regulares son a texto, ambas se utilizan para buscar patrones.
creo que esta frase hace que se entienda bien, obviamente si sabes algo de expresiones regulares.
Oka, las expresiones regulares todavía no las domino bien.
RESUMEN: XPATH
■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
XML Xtensible markup lenguage .Sirvio para definir interfaces, es un lenguaje de nodos o etiquetas. Una técnica para extraer datos de allí es Xpath.
Xpath es a HTML lo que las REGEX son a un texto. Es decir, Xpath es un lenguaje de patrones, expresiones que me permitirá extraer datos de un HTML. Puntualmente sirve para apuntar a partes de un documento XML.
XML Path Language Formado por nodos(etiquetas) Parecido al HTML Expresiones regulares: Definir patrones. Expresión Xpath, es el html que voy a extraer.
Les comparto un recurso.
En http://labs.timtom.ch/library-webscraping/extras/xpath-cheatsheet.md.pdf pueden encontrar más información de XPath.
Sale caído el link, pero aquí esta otro actualizado https://devhints.io/xpath
Gracias amigos 👍💡
A mi parecer es mejor usar CSS Selectors, tienen una sintaxis mas resumida, mas limpia, entendible y tiene la ventaja de que si sabes frontend o si sabes usar CSS mas especificamente, es exactamente lo mismo ( Yo no se mucho de Frontend ) Estare dejando en los aportes la 'traducción' usando CSS Selectors, y asi ustedes pueden decidir cual usar e ir viendo las diferencias entre los dos 'lenguajes' c:
Ambas opciones son muy buenas, hay webs donde usar CSS Selectors es horrible por que no tienes formas de llegar a ese elemento o sus nomemclaturas tienen nombres raros.
lo suyo es tener la mente abierta dependiendo de lo que estes haciendo, ejemplo en automatizaciones con selenium se destila mucho la utilizacion de css selector al igual que el xpath, mas sin embargo como el xpath es una ruta de carpetas que te envian directo al trozo del codigo, si por refactorizacion del codigo u algun otro motivo mueven dicho codigo o modifican la ruta que hayas copiado ( ruta me refiero a la ruta del xpath) "recapitulo", no funcionada dado ese momento, y sera un dolor de cabeza mas sin embargo no se destila modificar los iD ni los css selector.
Las expresiones regulares tambien son bastante importates en esta area, he tenido casos en que lo que hay para obtener la informacion es texto plano (nada de html) y lo que me ha salvado son las expresiones regulares
a por el curso de expresiones regulares
Esta lectura tee pude ayudar: https://platzi.com/blog/expresiones-regulares-python/.
Esta medio largo pero es super necesario.
Expresiónes regulares
XPath tester facilita la construcción y el debugger de las expresiones, nos indica en primera medida si es válida.
Excelente aporte. Gracias
Expresiones Regulares, también conocidas como Patrones.
Soy una máquina para encontrar patrones.
Hola les dejo mis notas del curso
https://github.com/rb-one/curso-webscrapping-con-xpath-/blob/master/Notes/notes.md
Gracias Rusbel, tus aportes son los mejores ya llevo varios cursos donde tus aportes me han ayudado bastante complementan el contenido del curso, espero hacer mas adelante mis aportes para la comunidad asi como los tuyos, aprendiendo de ti y de platzi !!! Muchas Gracias !!!
XPATH es un lenguaje que es utilizado para la extracción de datos por las similitudes que comparte con html. Define la ruta que se debe seguir para llegar al lugar dentro de html de donde queremos extraer la información.
XPath: XML Path Lenguage
Lenguaje muy parecido a HTML, sirvió para definir interfaces, formado por etiquetas, es un lenguaje de patrones que permite extraer datos de un HTML.
Xpath cheatsheet
Me fui al curso de expresiones regulares y me envicié a eso!!! es una herramienta super importante para todo programador, recomiendo muchísimo el curso!
A demás que complementa super bien con el Scraping
XPath cheatsheet
Dejo aquí un enlace con los recursos URL
Que motivacion Facundo !!!
con XML configuraba los scaneres de cedula en mi antiguo empleo, tambien en las impresoras de etiquetas
¿Qué es Xpath? Es un lenguaje con el que podemos crear expresiones parecidas a Regex con una serie de condiciones para recorrer un documento estructurado XML y localizar elementos concretos que están incluidos dentro de ese.
https://www.youtube.com/watch?v=6S0x9MAxBVM&ab_channel=Miguel%C3%81ngelPau
XML Path Language
XML (Xtensible Markup Language) sirvio para definir interfaces, es un lenguaje que esta formado por nodos (etiquetas). Una técnica para extraer información de este lenguaje es mediante XPath. Como HTML es similar a XML, podemos usar XPath para extraer información de paginas web.
XPath es a HTML lo que son las Expresiones Regulares a un texto
Expresion en XPath
//div/span/h1[@class="title"][1]
Indica que queremos extraer un titulo de un span que esta dentro de un div