Resumen de XPath

Clase 15 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Contenido del curso

Introducción al web scraping

Fundamentos de la web

XML Path Language

Proyecto: scraper de noticias

Conclusiones

21
Cómo continuar tu ruta de aprendizaje
02:13 min

Tomar examen

Comentarios

Fernando Pullutasig

student•

Tome apuntes desde el inicio a mano al llegar a esta lectura tan bien estructurada, siento vergüenza de mis garabatos jejejeje.

Antonio Garzón

student•

Jajajaja x2

Moisés Manuel Morín Hevia

student•

haha yo creo que son buenos tus resumenes.

Raquel Campos

student•

Repasando la clase de XPath

Video XPath

++CONTENIDO ++0:00 ¿QUÉ ES XPATH? 0:58 XML 2:08 DEFINIR DONDE VAMOS A BUSCAR 3:25 ENCONTRANDO LOS ELEMENTOS 4:01 PREDICADOS 4:17 BÚSQUEDA POR ATRIBUTOS 5:26 EXPRESIONES LÓGICAS 6:35 BÚSQUEDA EN VARIOS NIVELES 8:28 BÚSQUEDA POR POSICIÓN (INDEXACIÓN) 9:54 BÚSQUEDA CON FUNCIONES 10:10 BÚSQUEDA POR PATRONES (contains, starts-with, ends-with) 11:52 BÚSQUEDA POR CONTENIDO (text()) 13:00 EXTRACCIÓN DE DATOS (texto y atributos) 14:42 XPATH CHEATSHEET 15:23 ¿CÓMO PROBAR MIS XPATH?

Christian Camilo Guzman Zapata

student•

Wow este video esta muy bueno, Gracias :D

Edward Toledo López

student•

Solo por que refuerzo más anotando, si no... Imprimo esto y lo pego en la libreta <3

Camilo Puentes

student•

Eso acabo de hacer yo

Moisés Manuel Morín Hevia

student•

See, son las palabras clave.

German Zaldívar

student•

Un poco mas sobre los XPath Axes

https://www.w3schools.com/xml/xpath_axes.asp

Moisés Manuel Morín Hevia

student•

Buena página.

Royer Guerrero Pinilla

student•

He usado xpath con Selenium, pero nunca me tome el tiempo para revisar la sintaxis simpre usaba el inspeccionador para obtenerlo

Daniel Alberto Prada Altuve

student•

Yo igual. Ahora podemos entender un poco mejor de dónde viene y a qué se refiere y hasta optimizar esos largos Xpaths tan ilegibles para entenderlos un poco mejor. Igual, cuando se quiere encontrar un elemento con Selenium, se acostumbra a usar un identificador que sea más entendible (la clase o el ID, por ejemplo). Un saludo.

Daniel Denys Leyva Ponciano

student•

yo igual!

Erick Rosas Pisfil

student•

Mi nuevo poster!!!!!

Moisés Manuel Morín Hevia

student•

xD azúcar sintética.

Kristian Marquina

student•

Todos los comandos de Xpath utilizados, mas descripción

$x('/') // ruta principal

$x('//h1/a/text()').map(x => x.wholeText)//seleciona el texto del nodo y lo convierte a texto, el .map convierte el nodo text en el chromeNav

//Usando Predicados
$x('//div/span[@class="text"]/text()') //usando predicado osea [corchetes] selecciona todos los de tipo class text
$x('//span[@class!="text"]')

//Usando operadores
$x('//div/div[position()>5]')// trae los que esten en una posion por encima de

$x('//span[@class="text" or @class="tag-item"]')// trae los de una clase o otra

$x('//span[not(@class)]') // trae los que no tengan clase

//Usando Wildcards

$x('/') // Trae todo el documento porque representa la raíz de nuestro el html
$x('/*') // * después de / pide que traiga todos los nodos que están debajo de / (* es el primer wildcard)
$x('/html/*') // Trae todos los nodos que están inmediatamente después de html
$x('//*') <- // es la expresión para saltar todos los niveles y con el * en todas las direcciones. Trae todos los nodos y todos los atributos de estos nodos.
$x('//span[@class="text]/@*') //Trae todos los span, que tengan como clase “text”, con @* trae todos los atributos. Dicho de otra forma, trae todos los atributos de todos los nodos de tipo span de clase “text”.
$x('/html/body//div/@*') //Todos los atributos (usando @*) de todos los div (usando //div) que están después de body
$x('//span[@class="text" and @itemprop="text"]/node()')//Trae todos los spam que sean de clase “text” que tengan un atributo @itemprop “text” y de ahí (usando node()) traer todo lo que esté dentro de los spam que cumplen las condiciones

// node() a diferencia de * trae no solamente los nodos, sino también todo el contenido

//Usando In text Search

$x('//small[@class="author" and starts-with(., "A")]/text()')// usando starts-with le indico con que letra inicia la busqueda
$x('//small[@class="author" and contains(., "g")]/text()') // usando contains se le indica la(s) letra(s) que debe contener para hacer la busqueda
$x('//small[@class="author" and starts-with(., "A") and contains(., "Ei")]/text()') //Logicamente Tambien se puede concatenar

//Notas extras sobre In text Search

start-with(.“Texto a buscar”) // Empezar con, el punto hace referencia al nodo actual.

contains (., “Texto a buscar”) //  Sirve para llamar por el texto contenido en.


// Nota: Debido a las versiones del lenguaje Xpath en los navegadores
// las funciones end-with y matches no están disponibles, pero una ve en código python corren sin problemas.

end-with(.,"")// Termina en.
matches(.,"")// Sirve para hacer una búsqueda en el texto de un nodo que coincida con una expresión regular.

//Xpath Axes

$x('/html/body/div/self::div')//Elige el mismo nodo
$x('/html/body/div/child::div')//elige los hijos del nodos
$x('/html/body/div/descendant::div')// elige los desendientes (osea los hijos de los hijos de los hijos)
$x('/html/body/div/descendant-or-self::div') // y por supuesto, tambien podemos usar compuertas logicas

Eduardo Kiriakos Piazza

student•

Agregado a favoritos como "Resumen Xpath genialidad platzi"

Moisés Manuel Morín Hevia

student•

Azúcar sintética

Bryan Duarte

student•

Que nivel, muy cuidado, de verdad da gusto así. :ma

Moisés Manuel Morín Hevia

student•

Azúcar sintética (:

JUAN SEBASTIAN ZAPATA AVENDAÑO

student•

Muy buen resumen

Moisés Manuel Morín Hevia

student•

Excelente resuemn.

Jorge Arturo Salgado Ordoñez

student•

Excelente lectura.

Moisés Manuel Morín Hevia

student•

Demasiado

jorge andres pachon vallejo

student•

Buen resumen. Gracias

Moisés Manuel Morín Hevia

student•

See, esta muy bien resumido.

José Antonio Sandino Montano

student•

Xpath cheatsheet

Ovidio Bolivar Jaramillo J.

student•

good abstract

David Rosas Alcaraz

student•

Muy bien explicado Facundo!!

Jesús Andrés Miranda Roa

student•

Excelente forma de explicar xpath y esta es la cereza al pastel !

Francisco Garcia [C6]

student•

Que buen resumen

JAVIER SANTIAGO SALGADO

student•

Me ha encantado este curso!!!!

Roberto Galindo Ramírez

student•

Gran forma de resumir el módulo

Axel Yaguana

Team Platzi•

Estos resúmenes en forma de artículo al final siempre son buenos y te ayudan a recordar. Gracias al profe Facundo y al Team Platzi por hacerlo, ya lo he visto en algunos cursos.

$x('/') // ruta principal

$x('//h1/a/text()').map(x => x.wholeText)//seleciona el texto del nodo y lo convierte a texto, el .map convierte el nodo text en el chromeNav

//Usando Predicados
$x('//div/span[@class="text"]/text()') //usando predicado osea [corchetes] selecciona todos los de tipo class text
$x('//span[@class!="text"]')

//Usando operadores
$x('//div/div[position()>5]')// trae los que esten en una posion por encima de

$x('//span[@class="text" or @class="tag-item"]')// trae los de una clase o otra

$x('//span[not(@class)]') // trae los que no tengan clase

//Usando Wildcards

$x('/') // Trae todo el documento porque representa la raíz de nuestro el html
$x('/*') // * después de / pide que traiga todos los nodos que están debajo de / (* es el primer wildcard)
$x('/html/*') // Trae todos los nodos que están inmediatamente después de html
$x('//*') <- // es la expresión para saltar todos los niveles y con el * en todas las direcciones. Trae todos los nodos y todos los atributos de estos nodos.
$x('//span[@class="text]/@*') //Trae todos los span, que tengan como clase “text”, con @* trae todos los atributos. Dicho de otra forma, trae todos los atributos de todos los nodos de tipo span de clase “text”.
$x('/html/body//div/@*') //Todos los atributos (usando @*) de todos los div (usando //div) que están después de body
$x('//span[@class="text" and @itemprop="text"]/node()')//Trae todos los spam que sean de clase “text” que tengan un atributo @itemprop “text” y de ahí (usando node()) traer todo lo que esté dentro de los spam que cumplen las condiciones

// node() a diferencia de * trae no solamente los nodos, sino también todo el contenido

//Usando In text Search

$x('//small[@class="author" and starts-with(., "A")]/text()')// usando starts-with le indico con que letra inicia la busqueda
$x('//small[@class="author" and contains(., "g")]/text()') // usando contains se le indica la(s) letra(s) que debe contener para hacer la busqueda
$x('//small[@class="author" and starts-with(., "A") and contains(., "Ei")]/text()') //Logicamente Tambien se puede concatenar

//Notas extras sobre In text Search

start-with(.“Texto a buscar”) // Empezar con, el punto hace referencia al nodo actual.

contains (., “Texto a buscar”) //  Sirve para llamar por el texto contenido en.


// Nota: Debido a las versiones del lenguaje Xpath en los navegadores
// las funciones end-with y matches no están disponibles, pero una ve en código python corren sin problemas.

end-with(.,"")// Termina en.
matches(.,"")// Sirve para hacer una búsqueda en el texto de un nodo que coincida con una expresión regular.

//Xpath Axes

$x('/html/body/div/self::div')//Elige el mismo nodo
$x('/html/body/div/child::div')//elige los hijos del nodos
$x('/html/body/div/descendant::div')// elige los desendientes (osea los hijos de los hijos de los hijos)
$x('/html/body/div/descendant-or-self::div') // y por supuesto, tambien podemos usar compuertas logicas

Resumen de XPath

Introducción al web scraping

¿Qué es el web scraping?

¿Por qué aprender web scraping hoy?

Python: el lenguaje más poderoso para extraer datos

Fundamentos de la web

Entender HTTP

¿Qué es HTML?

Robots.txt: permisos y consideraciones al hacer web scraping

XML Path Language

XML Path Language

Tipos de nodos en XPath

Expresiones en XPath

Predicados en Xpath

Operadores en Xpath

Wildcards en Xpath

In-text search en Xpath

XPath Axes

Resumen de XPath

Aplicando lo aprendido

Proyecto: scraper de noticias

Un proyecto para tu portafolio: scraper de noticias

Construcción de las expresiones de XPath

Obteniendo los links de los artículos con Python

Guardando las noticias en archivos de texto

Conclusiones

Cómo continuar tu ruta de aprendizaje