Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Tipos de nodos en XPath

8/21
Recursos

Aportes 35

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

En el curso de webscrapping el profe Martin nos deja este chetsheet de XPath que me resultó super útil: http://labs.timtom.ch/library-webscraping/extras/xpath-cheatsheet.md.pdf

RESUMEN: Tipos de nodos

■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■

Un nodo es lo mismo que la etiqueta y su contenido.
Un nodo puede contener a otros nodos.
En otras palabras Xpath nos permitirá navegar en los diferentes niveles de profundidad
deseados con el fin extraer información. Para describir los nodos y relaciones con Xpath se usan una
sintaxis de ejes.

Toscrape es un sandbox para practicar.

Hay que entender el DOM almenos lo basico

https://es.wikipedia.org/wiki/Document_Object_Model

![](El modelo de datos Xpath distingue siete tipos de nodos con diferentes funciones:
Nodo de elemento (element node)
Nodo de documento (root node) (a partir de Xpath 2.0; antes denominado “nodo raíz”)
Nodo atributo (attribute node)
Nodo de texto (text node)
Nodo de espacio de nombres (namespace node)

Espero con ansias el curso de Scrapy de este profe, se da el tiempo de explicar re bien, un crack.

Un nodo = una etiqueta HTML y su contenido

F12 o control + Shift i
Por si tuvieran algun problema

Los nodos son etiquetas que contienen otras etiquetas

Tremendo!!

super claro

Esta extensión de Chrome es muy útil para practicar con XPATH
https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl?hl=es

No sé porque, pero se me hace tan interesante El web Scraping y como lo enseña Facundo. Es todo una obra de arte!
👾

Los tipos de nodos que se reconocen en una consulta XPath no son los tipos de nodos que se encuentran en el DOM.

Tipos de nodos:

  • Root (Document): Nodo raiz del documento.
  • Element: Un elemento, como <element>.
  • Attribute: Un atributo, como id='123'.
  • Namespace: Un espacio de nombres, como xmlns="namespace".
  • Text: Contenido de texto de un nodo. Equivalente al texto del DOM. Contiene por lo menos un carácter.
  • SignificantWhitespace: Un nodo con caracteres de espacio en blanco y xml:space establecido en preserve.
  • Whitespace: Nodo sólo con caracteres de espacio en blanco y sin espacio en blanco significativo. Los caracteres de espacio en blanco son #x20, #x9, #xD o #xA.
  • ProcessingInstruction: Una instrucción de procesamiento, como <?pi test?>.
  • Comment: Un comentario, como <!-- my comment -->.

Hola a todos, os dejo mis apuntes de esta clase, sin embargo, he creado un respositorio en github donde estan todos los apuntes de este curso: https://github.com/fer2002743/web-scraping

<h1>Tipos de nodos en XPath</h1>

Un nodo es lo mismo que una etiqueta y su contenido. En esta clase nos familiarizamos con el lenguaje HTML y sus etiquetas, dado que vamos a usar XPath para acceder a las etiquetas que tienen la informacion que queremos para extraer su informacion.

Nodo: Es una etiqueta html con todo lo que contiene en su interior.

toscrape.com

Sencillo de entender very nice!!

Muy buen curso al momento!!! Reforzando lo visto anteriormente en otros cursos!!!

hasta el momento, este curso suena más que interesante.

Excelente clase, super didáctica

Que gran clase

Entonces los nodos en Xpath, corresponden a las diferentes etiquiteas que creamos en nuestro HTML, no? O hay alguna diferencia?

El primer nodo de un documento html es:
html

Ese es el DOM jeje

Nodo == Etiqueta & su contenido (en HTML)

XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML.

En XPath, hay siete tipos de nodos: elementos, atributos, texto, espacio de nombres, instrucción de procesamiento, comentar y nodos de documentos. Los documentos XML son tratados como árboles de nodos. El elemento más alta del árbol se llama el elemento raíz.

Excelente la clase.

Un nodo es lo mismo que una etiqueta y su contenido.

Facundo es un excelente profesor, espero que me toque su mentoría cuando llegue a Platzi Master.

XML Path Language
Formado por nodos(etiquetas)
Parecido al HTML
Expresiones regulares: Definir patrones.
Expresión Xpath, es el html que voy a extraer.

nodo == etiqueta HTML