CursosEmpresasBlogLiveConfPrecios

Construcción de las expresiones de XPath

Clase 18 de 21 • Curso de Fundamentos de Web Scraping con Python y Xpath

Clase anteriorSiguiente clase

Contenido del curso

Introducción al web scraping

  • 1
    ¿Qué es el web scraping?

    ¿Qué es el web scraping?

    02:06 min
  • 2
    ¿Por qué aprender web scraping hoy?

    ¿Por qué aprender web scraping hoy?

    03:05 min
  • 3
    Python: el lenguaje más poderoso para extraer datos

    Python: el lenguaje más poderoso para extraer datos

    03:21 min

Fundamentos de la web

  • 4
    Entender HTTP

    Entender HTTP

    07:02 min
  • 5
    ¿Qué es HTML?

    ¿Qué es HTML?

    08:08 min
  • 6
    Robots.txt: permisos y consideraciones al hacer web scraping

    Robots.txt: permisos y consideraciones al hacer web scraping

    05:41 min

XML Path Language

  • 7
    XML Path Language

    XML Path Language

    03:35 min
  • 8
    Tipos de nodos en XPath

    Tipos de nodos en XPath

    05:18 min
  • 9
    Expresiones en XPath

    Expresiones en XPath

    08:18 min
  • 10
    Predicados en Xpath

    Predicados en Xpath

    05:34 min
  • 11
    Operadores en Xpath

    Operadores en Xpath

    05:51 min
  • 12
    Wildcards en Xpath

    Wildcards en Xpath

    06:11 min
  • 13
    In-text search en Xpath

    In-text search en Xpath

    08:21 min
  • 14
    XPath Axes

    XPath Axes

    05:16 min
  • 15

    Resumen de XPath

    00:01 min
  • 16
    Aplicando lo aprendido

    Aplicando lo aprendido

    08:52 min

Proyecto: scraper de noticias

  • 17
    Un proyecto para tu portafolio: scraper de noticias

    Un proyecto para tu portafolio: scraper de noticias

    10:08 min
  • 18
    Construcción de las expresiones de XPath

    Construcción de las expresiones de XPath

    Viendo ahora
  • 19
    Obteniendo los links de los artículos con Python

    Obteniendo los links de los artículos con Python

    10:56 min
  • 20
    Guardando las noticias en archivos de texto

    Guardando las noticias en archivos de texto

    14:53 min

Conclusiones

  • 21
    Cómo continuar tu ruta de aprendizaje

    Cómo continuar tu ruta de aprendizaje

    02:13 min
Tomar examen

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads
        Alan Vazquez

        Alan Vazquez

        student•
        hace 6 años

        Por si a alguien le interesa yo uso un gadget para chrome llamado SelectorGadget Este es similar a cuando te metes a revisar el elemento en modo inspeccionar elemento que te va marcando el elemento seccionado. Pero a diferencia este te manda todos los elementos que conciden con cierta busqueda de CSS Selector ( Y tambien te lo muestra en XPATH), asi ya no te tiene que romper la cabeza por que elemento pertenece a cada uno, solo activas el gadget y eliges el elemento que quieres obtener, si salen de mas los puedes eliminar o puedes agregar

        Annotation 2020-06-06 194829.jpg
        Capture.PNG
          Kevin Naranjo

          Kevin Naranjo

          student•
          hace 6 años

          Dios te bendiga

          Antonio Garzón

          Antonio Garzón

          student•
          hace 5 años

          Trucazazo!

        Cesar Galindo

        Cesar Galindo

        student•
        hace 5 años

        según vi existe una nueva actualilzación y se podria hacer con

        $x('//h2/a/@href').map(x=>x.value)
          Eduard Giraldo Martínez

          Eduard Giraldo Martínez

          student•
          hace 4 años

          Hasta el día de hoy (enero del 2022) sigue funcionando! 👾

          Juan Esteban Orozco Botero

          Juan Esteban Orozco Botero

          student•
          hace 4 años

          Funciona parcialmente, incluye links que no llevan a noticias, si no a páginas de noticias, yo sólo detecté uno q lleva a https://www.larepublica.co/bolsas , que están varias noticias de la bolsa, igual está bien la forma de tomarlo, y creería que sólo hay q identificar los títulos cortos, y se podría con expresiones regulares para no tomarlas en cuenta. Enero de 2022.

        Juan David Sánchez

        Juan David Sánchez

        student•
        hace 6 años

        Así quedó mi archivo xpath.txt, no sé si es que del tiempo que se hizo la clase al día de hoy (Julio 12 del 2020) las personas de La República hicieron cambios en su estructura y los XPaths de la clase no traen los datos correctamente.

        Links = //div/a[contains(@class, "kicker")]/@href Título = //div/h3[contains(@class, "kicker")]/following-sibling::h2/a/text() Resumen = //div[@class="lead"]/p/text() Cuerpo = //div[@class="html-content"]/p/text()
          Centli Allan Garcés Buendia

          Centli Allan Garcés Buendia

          student•
          hace 5 años

          Te comparto mi código, en la parte del cuerpo le agregué más código y asumo los links y título son diferentes porque la página volvió a cambiar.

          Links = //div[@class="V_Title"]/h2/a/@href Título = //div[@class="mb-auto"]/h2/a/text() Resumen = //div[@class="lead"]/p/text() Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()```
          Andres muñoz

          Andres muñoz

          student•
          hace 5 años

          Hago mi aporte a la fecha 26/04/2021 donde quedo asi:

          Links = //div[@class="V_Title"]/h2/a/@href Titulo = //div[@class="mb-auto"]/h2/span/text() Resumen = //div[@class="lead"]/p/text() Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()
        Antonio Vázquez Salas

        Antonio Vázquez Salas

        student•
        hace 5 años

        La mejor manera de hacerlo hasta el día de hoy (20 abril 2021):

        Links = $x('//h2/a/@href').map(x=>x.value) Title = //div[@class="mb-auto"]/h2/span/text() Abstract = //div[@class="lead"]/p/text() Content = //div[@class="html-content"]/p/text()
        Elliot Ramirez

        Elliot Ramirez

        student•
        hace 4 años

        Para el 2022:

        links= $x('//h2/a/@href').map(x=>x.value) Titulo = $x('//div[@class="mb-auto"]/h2/span/text()').map(x=>x.wholeText) Resumen = $x('//div[@class = "lead"]/p/text()').map(x=>x.wholeText) Cuerpo = $x('//div[@class = "html-content"]/p[not (@class)]/text()').map(x=>x.wholeText)
          Nilson Ariza

          Nilson Ariza

          student•
          hace 4 años

          hay otra solusion en cuanto al titulo:

          Titulo = $x('//h2[@class=""]/span/text()').map(x=>x.wholeText)
          Rubén Gustavo García Málaga

          Rubén Gustavo García Málaga

          student•
          hace 3 años

          Sigue vigente esa solución 👌🏼

        Alejandro Giraldo Londoño

        Alejandro Giraldo Londoño

        student•
        hace 5 años

        RESUMEN:Desarrollo proyecto

        ■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

        Construimos expresiones Xpath para las los titulos, links, resumen y cuerpo.

        Las expresiones Xpath pueden variar en función del sitio web y los desarrolladores. Por lo que las expresiones debe estar en constante revisión.


        1. Crear un archivo xpath.txt para almacenar las expresiones que corresponden.
        xpath.txt Date 6 AGU 2020 links = //h2[@style]/a/@href titles = //div[@class="mb-auto"]/h2/a/text() resume = //div[@class="wrap-post col-9"]/div/div[@class="lead"]/p/text() body = //div[@class="html-content"]/p[not(@class)]/text()
        Carlos Antonio Molano Solarte

        Carlos Antonio Molano Solarte

        student•
        hace 6 años

        Para el Espectador:

        $x('//h2/a/@href').map(x=>x.value)
          Juan Sebastián Gómez Moreno

          Juan Sebastián Gómez Moreno

          student•
          hace 6 años

          No. Para conseguir los links es

          links_path = '//div[@class="Card-title card-title h5"]/a/@href'

          Carlos Antonio Molano Solarte

          Carlos Antonio Molano Solarte

          student•
          hace 6 años

          si lo hice antes de que hicieran la actualización...😅

        Erick Rosas Pisfil

        Erick Rosas Pisfil

        student•
        hace 6 años

        ¿Por qué la palabra "pandemia" de color verde no aparece cuando se ejecuta la línea de código?

        P.png

          Bryan Javier Calero Robleto

          Bryan Javier Calero Robleto

          student•
          hace 6 años

          No aparece ya que esta dentro de una etiqueta <u> dentro del la etiqueta <p> entonces al parecer la salta. Debemos tomar en cuenta esa etiqueta.

          Sebastian Calderón Araque

          Sebastian Calderón Araque

          student•
          hace 4 años

          Encontré la siguiente solución usando axes xpath:

          //div[@class="html-content"]/p/descendant-or-self::text()
        Dickson Garcia

        Dickson Garcia

        student•
        hace 5 años

        En el navegador links = $x('//h2[not(@class)]/a/@href').map(x => x.value) Titulo = $x('//div[@class="mb-auto"]/h2/a/text()').map(x => x.wholeText) resumen = $x('//div[@class="lead"]/p/text()').map(x => x.wholeText) cuerpo = $x('//div[@class="html-content"]/p/text()').map(x => x.wholeText) autor = $x('//div[@class="autorArticle"]/p/text()').map(x => x.wholeText) ** Archivo txt** links = $x('//h2[not(@class)]/a/@href') Titulo = $x('//div[@class="mb-auto"]/h2/a/text()') resumen = $x('//div[@class="lead"]/p/text()') cuerpo = $x('//div[@class="html-content"]/p/text()') autor = $x('//div[@class="autorArticle"]/p/text()')

          Moisés Manuel Morín Hevia

          Moisés Manuel Morín Hevia

          student•
          hace 5 años

          & que me dices de lo que estaba en negrita

        Andrés David Lizarazo Becerra

        Andrés David Lizarazo Becerra

        student•
        hace 5 años

        A enero 7 del 2021:

        Links = //h2/a/@href Titulo = //h2/a/text() resumen = //div[@class="lead"]/p/text() cuerpo = //div[@class="html-content"]/p[not(@class)]/text()
        Renzo Guillermo Verdeguer Mendoza

        Renzo Guillermo Verdeguer Mendoza

        student•
        hace 5 años

        Si dentro del "p" hay negritas o subrayadas como aria para tomarlos en cuenta?

        Captura.PNG

          Facundo Nicolás García Martoni

          Facundo Nicolás García Martoni

          teacher•
          hace 4 años

          Pista: investiga más sobre la creación de expresiones de XPath. Desarrolla la expresión más a profundidad y lo lograrás ;)

          Sebastian Calderón Araque

          Sebastian Calderón Araque

          student•
          hace 4 años

          Encontré la siguiente solución usando axes xpath:

          //div[@class="html-content"]/p/descendant-or-self::text()
        Orlando Ramirez

        Orlando Ramirez

        student•
        hace 5 años

        Así quedó mi código para hoy 16/10/2020

        Links = //h2/a/@href Title = //div[@class="mb-auto"]/h2/a/text() Summary = //div[@class="lead"]/p/text() Author = //div[@class="autorArticle"]/p/text() Body = //div[@class="html-content"]/p/text()

        Me pareció interesante agregar el autor del texto porque quizá pueda ser un dato importante para analizar luego, como ver cuantos artículos ha escrito cada autor entre otros.
        Por otro lado, me parece interesante el hecho de que se pueda dejar sin el [not(@class)] aunque puede ser contraproducente, pues me imagino que si no se le agrega el código anterior, puede tomar datos que no son los que estamos esperando, si alguien pudiese confirmar sería excelente.

          Franco Manca

          Franco Manca

          student•
          hace 5 años

          Estoy igual que vos, pero le agregue el [not(@class)], funciona todo a la perfección, con y sin esa expresión, pero puede aparecer algunas noticia que tenga algún parrafo con clase, tengo 56, pero no voy a revisar todas jajaja.

          José Antonio Sandino Montano

          José Antonio Sandino Montano

          student•
          hace 5 años

          Es menos complicado cuando comienzas desde un div con la clase especifica asi como lo estructuraste y no desde el titulo como sale en el video, porque ya han actualizado varias veces la web

        Ricardo Javier Téllez García

        Ricardo Javier Téllez García

        student•
        hace 4 años

        Hola, hoy 15 febrero 2022, pude hacerlo con los siguientes:

        Links = //h2/a/@href Titulo = //div[@class="mb-auto"]/h2/span/text() Resumen = //div[@class="lead"]/p/text() Cuerpo = //div[@class="html-content"]/p[not(@class)]/text()

        Sin embargo, en algunas noticias hay algunas partes resaltadas en color verde entre <n>, </n> que no se incluyen en la información que el código regresa...

        Estaré muy agradecido si alguien pudiera explicarme como traer todo completo.

        Fidel Parabacuto

        Fidel Parabacuto

        student•
        hace 3 años

        28/03/2023

        links = //h2[@data-h]/a/@href titulo = //div[contains(@class, "OpeningPostNormal")]/div/div/h2/span/text() resumen = //div[contains(@class, "lead")]/p/text() body = //div[@class="html-content"]/p//text()
        Miguel Angel Pasillas  Luis

        Miguel Angel Pasillas Luis

        student•
        hace 4 años

        Para Marzo 2022, me funciono: se aceptan consejos o regaños:

        <code> $x('//h2/a/@href').map(x => x.value) $x('//h1[@class="DefaultTitle"]/text()').map(x => x.wholeText) $x('//h2[@class="DefaultSubtitle"]/text()').map(x => x.wholeText) $x('//section[@class="section-visibility"]/p//text()').map(x => x.wholeText) </code>
        Luis Arces Palomino Blas

        Luis Arces Palomino Blas

        student•
        hace 4 años

        31 de mayo de 2022 Links =

        //h2/a/@href

        Titulo =

        //div[@class="mb-auto"]/h2/span/text()

        Resumen =

        //div[@class="lead"]/p/text()

        Cuerpo =

        //div[@class="html-content"]/p//text()
        Anthony Jean Paul Blaz Lazo

        Anthony Jean Paul Blaz Lazo

        student•
        hace 5 años

        Al 19 de abril de 2021

        Links =//h2/a/@href Titulo = //h2/span/text() Resumen = //div[@class="lead"]/p/text() Cuerpo = //div[@class="html-content"]/p[not(@class)]/text() Autor = //div[@class="autorArticle"]/p/text()
          Aurelio ML

          Aurelio ML

          student•
          hace 5 años

          Nos quedó similares xD

        Gabriel Salvador

        Gabriel Salvador

        student•
        hace 4 años

        Creo que es básico saber cómo extraer el texto cuando tiene negrita o cursiva o otros colores pero veo que el resto tiene el mismo problema sin resolver.

          Héctor Eduardo López Carballo

          Héctor Eduardo López Carballo

          student•
          hace 4 años

          Hola!

          Cuál es el problema que tienes? Podrías compartir más información? Por lo que entendí de xpath podrías usar //text() y eso te debería devolver cualquier texto dentro del contenedor en el que estés.

          Gabriel Salvador

          Gabriel Salvador

          student•
          hace 4 años

          Gracias por ayudar. Ya lo resolví. Si a alguien le sirve: Quería extraer noticias de elcomercio. com donde en el texto de las noticias a veces tenemos palabras en negrita usando la etiqueta <strong>. Si aplico lo que se ve mas adelante en el curso, el programa me va a devolver una lista de varias oraciones divididas cada que aparece la etiqueta <strong>.

          Lo que hice fue quitar la función text() del comando xpath, teniendo:

          XPATH_BODY = '//div[@class="entry__content"]/p'

          luego, como el cuerpo de la noticia es:

          body = parsed.xpath(XPATH_BODY)

          Para ver el texto sin negritas lo que hago es:

          for i in body: text_body = text_body + i.text_content()

          Y problema solucionado El código completo está aqui

          import requests import lxml.html as html # para aplicar Xpath a HTML import os import datetime import nltk as nltk HOME_URL = 'https://www.elcomercio.com/' XPATH_LINK_TO_ARTICLE = '//h3[@class="article-highlighted__title"]/a/@href' #links of each of the news XPATH_TITLE = '//h1[@class="entry__title"]/text()' XPATH_BODY = '//div[@class="entry__content"]/p' a = {} def riqueza_lexica(texto): vocabulario= sorted(set(texto)) return len(vocabulario)/len(texto) def parse_notice(link, today): try: response = requests.get(link) if response.status_code == 200: notice = response.content.decode('utf-8')#brings the html code from the website parsed = html.fromstring(notice) try: title = parsed.xpath(XPATH_TITLE)[0]#extract title title = title.replace('\"', '')#deletes the character " title = title.replace('\'', '')#deletes the character " body = parsed.xpath(XPATH_BODY) #for i in body: # print(i.text_content()) except IndexError: return text_body='' for i in body: text_body = text_body + i.text_content() a[title] = text_body ''' with open(f'{today}/{title}.txt', 'w', encoding='utf-8') as f: f.write(title) f.write('\n\n') for p in body: f.write(p.text_content()) f.write('\n') ''' else: raise ValueError(f'Error: {response.status_code}') except ValueError as ve: print(ve) def parse_home(): try: response = requests.get(HOME_URL) if response.status_code == 200:# Status code 200 means that everything is ok home = response.content.decode('utf-8') parsed = html.fromstring(home) links_to_notices = parsed.xpath(XPATH_LINK_TO_ARTICLE) #print(links_to_notices) today = datetime.date.today().strftime('%d-%m-%Y') if not os.path.isdir(today): #os.mkdir(today)#make a dir with the name of the day for link in links_to_notices: parse_notice(link, today) else: raise ValueError(f"Error: {response.status_code}") except ValueError as ve: print(ve) def main(): parse_home() text_to_analize='' for i in a.keys(): text_to_analize=text_to_analize + a[i] print(text_to_analize) print(riqueza_lexica(text_to_analize)) fdist=nltk.FreqDist(text_to_analize) print(fdist.most_common(20)) if __name__ == '__main__': main()
        Rafael Rivera

        Rafael Rivera

        student•
        hace 3 años

        Expresiones Xpath generadas el 05/01/2023:

        • Links = //h2/a/@href

        • Titulo = //h2/span/text()

        • Resumen = //div[@class="lead"]/p/text()

        • Cuerpo = //div[@class="html-content"]/p//text()

        En la noticia que consulté resulta que habían varios parrafos en negrita, y no me los estaba tomando, lo solucioné con doble //

        Julian Loaiza Lopez

        Julian Loaiza Lopez

        student•
        hace 3 años

        Hola validando en el 2023 el script ha cambiado un poco, lo dejo aqui para los links:

        $x('//h2/a/@href').map(x => x.value)