En el curso de webscrapping el profe Martin nos deja este chetsheet de XPath que me resultó super útil: http://labs.timtom.ch/library-webscraping/extras/xpath-cheatsheet.md.pdf
Introducción al web scraping
¿Qué es el web scraping?
¿Por qué aprender web scraping hoy?
Python: el lenguaje más poderoso para extraer datos
Fundamentos de la web
Entender HTTP
¿Qué es HTML?
Robots.txt: permisos y consideraciones al hacer web scraping
XML Path Language
XML Path Language
Tipos de nodos en XPath
Expresiones en XPath
Predicados en Xpath
Operadores en Xpath
Wildcards en Xpath
In-text search en Xpath
XPath Axes
Resumen de XPath
Aplicando lo aprendido
Proyecto: scraper de noticias
Un proyecto para tu portafolio: scraper de noticias
Construcción de las expresiones de XPath
Obteniendo los links de los artículos con Python
Guardando las noticias en archivos de texto
Conclusiones
Cómo continuar tu ruta de aprendizaje
Aún no tienes acceso a esta clase
Crea una cuenta y continúa viendo este curso
Aportes 35
Preguntas 0
En el curso de webscrapping el profe Martin nos deja este chetsheet de XPath que me resultó super útil: http://labs.timtom.ch/library-webscraping/extras/xpath-cheatsheet.md.pdf
RESUMEN: Tipos de nodos
■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■
Un nodo es lo mismo que la etiqueta y su contenido.
Un nodo puede contener a otros nodos.
En otras palabras Xpath nos permitirá navegar en los diferentes niveles de profundidad
deseados con el fin extraer información. Para describir los nodos y relaciones con Xpath se usan una
sintaxis de ejes.
Toscrape es un sandbox para practicar.
Hay que entender el DOM almenos lo basico

Nodo de documento (root node) (a partir de Xpath 2.0; antes denominado “nodo raíz”)
Nodo atributo (attribute node)
Nodo de texto (text node)
Nodo de espacio de nombres (namespace node)
Espero con ansias el curso de Scrapy de este profe, se da el tiempo de explicar re bien, un crack.
Un nodo = una etiqueta HTML y su contenido
F12 o control + Shift i
Por si tuvieran algun problema
Los nodos son etiquetas que contienen otras etiquetas
Tremendo!!
super claro
Esta extensión de Chrome es muy útil para practicar con XPATH
https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl?hl=es
No sé porque, pero se me hace tan interesante El web Scraping y como lo enseña Facundo. Es todo una obra de arte!
👾
Los tipos de nodos que se reconocen en una consulta XPath no son los tipos de nodos que se encuentran en el DOM.
Tipos de nodos:
<element>
.id='123
'.xmlns="namespace"
.xml:space
establecido en preserve
.#x20
, #x9
, #xD
o #xA
.<?pi test?>
.<!-- my comment -->
.Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping
<h1>Tipos de nodos en XPath</h1>
Un nodo es lo mismo que una etiqueta y su contenido. En esta clase nos familiarizamos con el lenguaje HTML y sus etiquetas, dado que vamos a usar XPath para acceder a las etiquetas que tienen la informacion que queremos para extraer su informacion.
Nodo: Es una etiqueta html con todo lo que contiene en su interior.
toscrape.com
Sencillo de entender very nice!!
Muy buen curso al momento!!! Reforzando lo visto anteriormente en otros cursos!!!
hasta el momento, este curso suena más que interesante.
Excelente clase, super didáctica
Que gran clase
Entonces los nodos en Xpath, corresponden a las diferentes etiquiteas que creamos en nuestro HTML, no? O hay alguna diferencia?
El primer nodo de un documento html es:
html
Ese es el DOM jeje
Nodo == Etiqueta & su contenido (en HTML)
XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML.
En XPath, hay siete tipos de nodos: elementos, atributos, texto, espacio de nombres, instrucción de procesamiento, comentar y nodos de documentos. Los documentos XML son tratados como árboles de nodos. El elemento más alta del árbol se llama el elemento raíz.
Excelente la clase.
Un nodo es lo mismo que una etiqueta y su contenido.
Facundo es un excelente profesor, espero que me toque su mentoría cuando llegue a Platzi Master.
XML Path Language
Formado por nodos(etiquetas)
Parecido al HTML
Expresiones regulares: Definir patrones.
Expresión Xpath, es el html que voy a extraer.
nodo == etiqueta HTML
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.