Construcción de las expresiones de XPath

Clase 18 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Contenido del curso

Introducción al web scraping

Fundamentos de la web

XML Path Language

Proyecto: scraper de noticias

Conclusiones

21
Cómo continuar tu ruta de aprendizaje
02:13 min

Tomar examen

Comentarios

Alan Vazquez

student•

Por si a alguien le interesa yo uso un gadget para chrome llamado SelectorGadget Este es similar a cuando te metes a revisar el elemento en modo inspeccionar elemento que te va marcando el elemento seccionado. Pero a diferencia este te manda todos los elementos que conciden con cierta busqueda de CSS Selector ( Y tambien te lo muestra en XPATH), asi ya no te tiene que romper la cabeza por que elemento pertenece a cada uno, solo activas el gadget y eliges el elemento que quieres obtener, si salen de mas los puedes eliminar o puedes agregar

Kevin Naranjo

student•

Dios te bendiga

Antonio Garzón

student•

Trucazazo!

Cesar Galindo

student•

según vi existe una nueva actualilzación y se podria hacer con

$x('//h2/a/@href').map(x=>x.value)

Eduard Giraldo Martínez

student•

Hasta el día de hoy (enero del 2022) sigue funcionando! 👾

Juan Esteban Orozco Botero

student•

Funciona parcialmente, incluye links que no llevan a noticias, si no a páginas de noticias, yo sólo detecté uno q lleva a https://www.larepublica.co/bolsas , que están varias noticias de la bolsa, igual está bien la forma de tomarlo, y creería que sólo hay q identificar los títulos cortos, y se podría con expresiones regulares para no tomarlas en cuenta. Enero de 2022.

Juan David Sánchez

student•

Así quedó mi archivo xpath.txt, no sé si es que del tiempo que se hizo la clase al día de hoy (Julio 12 del 2020) las personas de La República hicieron cambios en su estructura y los XPaths de la clase no traen los datos correctamente.

Links = //div/a[contains(@class, "kicker")]/@href
Título = //div/h3[contains(@class, "kicker")]/following-sibling::h2/a/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p/text()

Centli Allan Garcés Buendia

student•

Te comparto mi código, en la parte del cuerpo le agregué más código y asumo los links y título son diferentes porque la página volvió a cambiar.

Links = //div[@class="V_Title"]/h2/a/@href
Título = //div[@class="mb-auto"]/h2/a/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()```

Andres muñoz

student•

Hago mi aporte a la fecha 26/04/2021 donde quedo asi:

Links = //div[@class="V_Title"]/h2/a/@href
Titulo = //div[@class="mb-auto"]/h2/span/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()

Antonio Vázquez Salas

student•

La mejor manera de hacerlo hasta el día de hoy (20 abril 2021):

Links = $x('//h2/a/@href').map(x=>x.value)

Title = //div[@class="mb-auto"]/h2/span/text()

Abstract = //div[@class="lead"]/p/text()

Content = //div[@class="html-content"]/p/text()

Elliot Ramirez

student•

Para el 2022:

links= $x('//h2/a/@href').map(x=>x.value)

Titulo = $x('//div[@class="mb-auto"]/h2/span/text()').map(x=>x.wholeText)

Resumen = $x('//div[@class = "lead"]/p/text()').map(x=>x.wholeText)

Cuerpo = $x('//div[@class = "html-content"]/p[not (@class)]/text()').map(x=>x.wholeText)

Nilson Ariza

student•

hay otra solusion en cuanto al titulo:

Titulo = $x('//h2[@class=""]/span/text()').map(x=>x.wholeText)

Rubén Gustavo García Málaga

student•

Sigue vigente esa solución 👌🏼

Alejandro Giraldo Londoño

student•

RESUMEN:Desarrollo proyecto

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Construimos expresiones Xpath para las los titulos, links, resumen y cuerpo.

Las expresiones Xpath pueden variar en función del sitio web y los desarrolladores. Por lo que las expresiones debe estar en constante revisión.

Crear un archivo xpath.txt para almacenar las expresiones que corresponden.

xpath.txt Date 6 AGU 2020

links  = //h2[@style]/a/@href
titles = //div[@class="mb-auto"]/h2/a/text()
resume = //div[@class="wrap-post col-9"]/div/div[@class="lead"]/p/text()
body = //div[@class="html-content"]/p[not(@class)]/text()

Carlos Antonio Molano Solarte

student•

Para el Espectador:

$x('//h2/a/@href').map(x=>x.value)

Juan Sebastián Gómez Moreno

student•

No. Para conseguir los links es

links_path = '//div[@class="Card-title card-title h5"]/a/@href'

Carlos Antonio Molano Solarte

student•

si lo hice antes de que hicieran la actualización...😅

Erick Rosas Pisfil

student•

¿Por qué la palabra "pandemia" de color verde no aparece cuando se ejecuta la línea de código?

Bryan Javier Calero Robleto

student•

No aparece ya que esta dentro de una etiqueta <u> dentro del la etiqueta <p> entonces al parecer la salta. Debemos tomar en cuenta esa etiqueta.

Sebastian Calderón Araque

student•

Encontré la siguiente solución usando axes xpath:

//div[@class="html-content"]/p/descendant-or-self::text()

Dickson Garcia

student•

En el navegador links = $x('//h2[not(@class)]/a/@href').map(x => x.value) Titulo = $x('//div[@class="mb-auto"]/h2/a/text()').map(x => x.wholeText) resumen = $x('//div[@class="lead"]/p/text()').map(x => x.wholeText) cuerpo = $x('//div[@class="html-content"]/p/text()').map(x => x.wholeText) autor = $x('//div[@class="autorArticle"]/p/text()').map(x => x.wholeText) ** Archivo txt** links = $x('//h2[not(@class)]/a/@href') Titulo = $x('//div[@class="mb-auto"]/h2/a/text()') resumen = $x('//div[@class="lead"]/p/text()') cuerpo = $x('//div[@class="html-content"]/p/text()') autor = $x('//div[@class="autorArticle"]/p/text()')

Moisés Manuel Morín Hevia

student•

& que me dices de lo que estaba en negrita

Andrés David Lizarazo Becerra

student•

A enero 7 del 2021:

Links = //h2/a/@href

Titulo = //h2/a/text()

resumen = //div[@class="lead"]/p/text()

cuerpo = //div[@class="html-content"]/p[not(@class)]/text()

Renzo Guillermo Verdeguer Mendoza

student•

Si dentro del "p" hay negritas o subrayadas como aria para tomarlos en cuenta?

Facundo Nicolás García Martoni

teacher•

Pista: investiga más sobre la creación de expresiones de XPath. Desarrolla la expresión más a profundidad y lo lograrás ;)

Sebastian Calderón Araque

student•

Encontré la siguiente solución usando axes xpath:

//div[@class="html-content"]/p/descendant-or-self::text()

Orlando Ramirez

student•

Así quedó mi código para hoy 16/10/2020

Links = //h2/a/@href
Title = //div[@class="mb-auto"]/h2/a/text()
Summary = //div[@class="lead"]/p/text()
Author = //div[@class="autorArticle"]/p/text()
Body = //div[@class="html-content"]/p/text()

Me pareció interesante agregar el autor del texto porque quizá pueda ser un dato importante para analizar luego, como ver cuantos artículos ha escrito cada autor entre otros.
Por otro lado, me parece interesante el hecho de que se pueda dejar sin el [not(@class)] aunque puede ser contraproducente, pues me imagino que si no se le agrega el código anterior, puede tomar datos que no son los que estamos esperando, si alguien pudiese confirmar sería excelente.

Franco Manca

student•

Estoy igual que vos, pero le agregue el [not(@class)], funciona todo a la perfección, con y sin esa expresión, pero puede aparecer algunas noticia que tenga algún parrafo con clase, tengo 56, pero no voy a revisar todas jajaja.

José Antonio Sandino Montano

student•

Es menos complicado cuando comienzas desde un div con la clase especifica asi como lo estructuraste y no desde el titulo como sale en el video, porque ya han actualizado varias veces la web

Ricardo Javier Téllez García

student•

Hola, hoy 15 febrero 2022, pude hacerlo con los siguientes:

Links = //h2/a/@href
Titulo = //div[@class="mb-auto"]/h2/span/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()

Sin embargo, en algunas noticias hay algunas partes resaltadas en color verde entre <n>, </n> que no se incluyen en la información que el código regresa...

Estaré muy agradecido si alguien pudiera explicarme como traer todo completo.

Fidel Parabacuto

student•

28/03/2023

links = //h2[@data-h]/a/@href
titulo = //div[contains(@class, "OpeningPostNormal")]/div/div/h2/span/text()
resumen = //div[contains(@class, "lead")]/p/text()
body = //div[@class="html-content"]/p//text()

Miguel Angel Pasillas Luis

student•

Para Marzo 2022, me funciono: se aceptan consejos o regaños:

<code> 

$x('//h2/a/@href').map(x => x.value)

$x('//h1[@class="DefaultTitle"]/text()').map(x => x.wholeText)

$x('//h2[@class="DefaultSubtitle"]/text()').map(x => x.wholeText)

$x('//section[@class="section-visibility"]/p//text()').map(x => x.wholeText)
</code>

Luis Arces Palomino Blas

student•

31 de mayo de 2022 Links =

 //h2/a/@href

Titulo =

 //div[@class="mb-auto"]/h2/span/text()

Resumen =

 //div[@class="lead"]/p/text()

Cuerpo =

//div[@class="html-content"]/p//text()

Anthony Jean Paul Blaz Lazo

student•

Al 19 de abril de 2021

Links =//h2/a/@href
Titulo = //h2/span/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()
Autor = //div[@class="autorArticle"]/p/text()

Aurelio ML

student•

Nos quedó similares xD

Gabriel Salvador

student•

Creo que es básico saber cómo extraer el texto cuando tiene negrita o cursiva o otros colores pero veo que el resto tiene el mismo problema sin resolver.

Héctor Eduardo López Carballo

student•

Hola!

Cuál es el problema que tienes? Podrías compartir más información? Por lo que entendí de xpath podrías usar //text() y eso te debería devolver cualquier texto dentro del contenedor en el que estés.

Gabriel Salvador

student•

Gracias por ayudar. Ya lo resolví. Si a alguien le sirve: Quería extraer noticias de elcomercio. com donde en el texto de las noticias a veces tenemos palabras en negrita usando la etiqueta <strong>. Si aplico lo que se ve mas adelante en el curso, el programa me va a devolver una lista de varias oraciones divididas cada que aparece la etiqueta <strong>.

Lo que hice fue quitar la función text() del comando xpath, teniendo:

XPATH_BODY = '//div[@class="entry__content"]/p'

luego, como el cuerpo de la noticia es:

body =  parsed.xpath(XPATH_BODY)

Para ver el texto sin negritas lo que hago es:

for i in body:
   text_body = text_body + i.text_content()

Y problema solucionado El código completo está aqui

import requests
import lxml.html as html # para aplicar Xpath a HTML
import os
import datetime
import nltk as nltk


HOME_URL = 'https://www.elcomercio.com/'


XPATH_LINK_TO_ARTICLE = '//h3[@class="article-highlighted__title"]/a/@href' #links of each of the news
XPATH_TITLE = '//h1[@class="entry__title"]/text()'
XPATH_BODY = '//div[@class="entry__content"]/p'

a = {}

def riqueza_lexica(texto):
  vocabulario= sorted(set(texto))
  return  len(vocabulario)/len(texto)
  
def parse_notice(link, today):
    try: 
        response =  requests.get(link)
        if response.status_code == 200:
            notice = response.content.decode('utf-8')#brings the html code from the website
            parsed = html.fromstring(notice)

            try:
                title =  parsed.xpath(XPATH_TITLE)[0]#extract title
                title = title.replace('\"', '')#deletes the character "
                title = title.replace('\'', '')#deletes the character "
                body =  parsed.xpath(XPATH_BODY)

                #for i in body:
                #    print(i.text_content())

            except IndexError:
                return
            text_body=''
            for i in body:
                text_body = text_body + i.text_content()

            a[title] = text_body
            
            '''
            with open(f'{today}/{title}.txt', 'w', encoding='utf-8') as f:
                f.write(title)
                f.write('\n\n')
                for p in body:
                    f.write(p.text_content())
                    f.write('\n')
            '''
                    
        else:
            raise ValueError(f'Error: {response.status_code}')
    except ValueError as ve:
        print(ve)
        


def parse_home():
    try:
        response = requests.get(HOME_URL)
        
        if response.status_code == 200:# Status code 200 means that everything is ok
            home = response.content.decode('utf-8')
            parsed = html.fromstring(home)
    
            links_to_notices = parsed.xpath(XPATH_LINK_TO_ARTICLE)
            #print(links_to_notices)

            today = datetime.date.today().strftime('%d-%m-%Y')
            if not os.path.isdir(today):
                #os.mkdir(today)#make a dir with the name of the day
                for link in links_to_notices:
                    parse_notice(link, today)



            
        else:
            raise ValueError(f"Error: {response.status_code}")


    except ValueError as ve: 
        print(ve)

def main():
    parse_home()
    text_to_analize=''
    for i in a.keys():
        text_to_analize=text_to_analize + a[i]
    print(text_to_analize)
    print(riqueza_lexica(text_to_analize))
    fdist=nltk.FreqDist(text_to_analize)
    print(fdist.most_common(20))



if __name__ == '__main__':
    main()

Rafael Rivera

student•

Expresiones Xpath generadas el 05/01/2023:

Links = //h2/a/@href
Titulo = //h2/span/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p//text()

En la noticia que consulté resulta que habían varios parrafos en negrita, y no me los estaba tomando, lo solucioné con doble //

Julian Loaiza Lopez

student•

Hola validando en el 2023 el script ha cambiado un poco, lo dejo aqui para los links:

 $x('//h2/a/@href').map(x => x.value)

Links = //div/a[contains(@class, "kicker")]/@href
Título = //div/h3[contains(@class, "kicker")]/following-sibling::h2/a/text()
Resumen = //div[@class="lead"]/p/text()
Cuerpo = //div[@class="html-content"]/p/text()

links= $x('//h2/a/@href').map(x=>x.value)

Titulo = $x('//div[@class="mb-auto"]/h2/span/text()').map(x=>x.wholeText)

Resumen = $x('//div[@class = "lead"]/p/text()').map(x=>x.wholeText)

Cuerpo = $x('//div[@class = "html-content"]/p[not (@class)]/text()').map(x=>x.wholeText)

xpath.txt Date 6 AGU 2020

links  = //h2[@style]/a/@href
titles = //div[@class="mb-auto"]/h2/a/text()
resume = //div[@class="wrap-post col-9"]/div/div[@class="lead"]/p/text()
body = //div[@class="html-content"]/p[not(@class)]/text()

links = //h2[@data-h]/a/@href
titulo = //div[contains(@class, "OpeningPostNormal")]/div/div/h2/span/text()
resumen = //div[contains(@class, "lead")]/p/text()
body = //div[@class="html-content"]/p//text()

<code> 

$x('//h2/a/@href').map(x => x.value)

$x('//h1[@class="DefaultTitle"]/text()').map(x => x.wholeText)

$x('//h2[@class="DefaultSubtitle"]/text()').map(x => x.wholeText)

$x('//section[@class="section-visibility"]/p//text()').map(x => x.wholeText)
</code>

import requests
import lxml.html as html # para aplicar Xpath a HTML
import os
import datetime
import nltk as nltk


HOME_URL = 'https://www.elcomercio.com/'


XPATH_LINK_TO_ARTICLE = '//h3[@class="article-highlighted__title"]/a/@href' #links of each of the news
XPATH_TITLE = '//h1[@class="entry__title"]/text()'
XPATH_BODY = '//div[@class="entry__content"]/p'

a = {}

def riqueza_lexica(texto):
  vocabulario= sorted(set(texto))
  return  len(vocabulario)/len(texto)
  
def parse_notice(link, today):
    try: 
        response =  requests.get(link)
        if response.status_code == 200:
            notice = response.content.decode('utf-8')#brings the html code from the website
            parsed = html.fromstring(notice)

            try:
                title =  parsed.xpath(XPATH_TITLE)[0]#extract title
                title = title.replace('\"', '')#deletes the character "
                title = title.replace('\'', '')#deletes the character "
                body =  parsed.xpath(XPATH_BODY)

                #for i in body:
                #    print(i.text_content())

            except IndexError:
                return
            text_body=''
            for i in body:
                text_body = text_body + i.text_content()

            a[title] = text_body
            
            '''
            with open(f'{today}/{title}.txt', 'w', encoding='utf-8') as f:
                f.write(title)
                f.write('\n\n')
                for p in body:
                    f.write(p.text_content())
                    f.write('\n')
            '''
                    
        else:
            raise ValueError(f'Error: {response.status_code}')
    except ValueError as ve:
        print(ve)
        


def parse_home():
    try:
        response = requests.get(HOME_URL)
        
        if response.status_code == 200:# Status code 200 means that everything is ok
            home = response.content.decode('utf-8')
            parsed = html.fromstring(home)
    
            links_to_notices = parsed.xpath(XPATH_LINK_TO_ARTICLE)
            #print(links_to_notices)

            today = datetime.date.today().strftime('%d-%m-%Y')
            if not os.path.isdir(today):
                #os.mkdir(today)#make a dir with the name of the day
                for link in links_to_notices:
                    parse_notice(link, today)



            
        else:
            raise ValueError(f"Error: {response.status_code}")


    except ValueError as ve: 
        print(ve)

def main():
    parse_home()
    text_to_analize=''
    for i in a.keys():
        text_to_analize=text_to_analize + a[i]
    print(text_to_analize)
    print(riqueza_lexica(text_to_analize))
    fdist=nltk.FreqDist(text_to_analize)
    print(fdist.most_common(20))



if __name__ == '__main__':
    main()

Construcción de las expresiones de XPath

Introducción al web scraping

¿Qué es el web scraping?

¿Por qué aprender web scraping hoy?

Python: el lenguaje más poderoso para extraer datos

Fundamentos de la web

Entender HTTP

¿Qué es HTML?

Robots.txt: permisos y consideraciones al hacer web scraping

XML Path Language

XML Path Language

Tipos de nodos en XPath

Expresiones en XPath

Predicados en Xpath

Operadores en Xpath

Wildcards en Xpath

In-text search en Xpath

XPath Axes

Resumen de XPath

Aplicando lo aprendido

Proyecto: scraper de noticias

Un proyecto para tu portafolio: scraper de noticias

Construcción de las expresiones de XPath

Obteniendo los links de los artículos con Python

Guardando las noticias en archivos de texto

Conclusiones

Cómo continuar tu ruta de aprendizaje