HTML node

Clase 11 de 34 • Curso Profesional de Ciencia de Datos 2019

Contenido del curso

Basicos para el curso

Web scraping con R

Adecuación y Análisis descriptivo de los datos

Aplicando modelo no supervisado: Kmeans

Modelo en producción

Representación de los resultados del modelo

Cierre del curso

34
Conclusiones
00:58 min

Tomar examen

Las web tienen una estructura interna en forma de árbol donde se van almacenando diferentes tipos de objetos:

De tal forma que podríamos definir una ruta por ejemplo para llegar a un elemento “li” de la imagen anterior:

html->body->nav->ul->li

Al igual que esta identificación mediante la posición dentro del árbol de la web los elementos están caracterizados también por clases CSS que definen la estética en clases que deben tener los elementos que lo contienen.

Un combinado entre la ruta html y la clase CSS de estilo que tiene un determinado elemento de la web es lo que nos permite definir el Selector asociado a un elemento de la web.

CSS permite la combinación de uno o más tipos de selectores para restringir el alcance de las reglas CSS.

https://www.laliga.es/jugador/aaron-escandell

En el siguiente selector:

#estadisticas-minutos > div > table > tbody > tr:nth-child(2) > td:nth-child(1) > span

Observamos que Rvest recorre la tabla con class “estadisticas_minutos” y hasta el valor deseado.

Para poder obtenerlo se le pasa este selector a la función html_node y se obtiene el campo. En ocasiones tendremos patrones de estructuras en común que queremos recopilar, para ello podemos buscar el identificador común en la hoja:

Los selectores anteriores corresponden a la información de dos jugadores que queremos recopilar en la misma web. Podríamos ir uno a uno pero imaginemos que tenemos muchos y queremos automatizar. En este caso podríamos utilizar el selector con la parte común a todos ellos (la parte verde) y descargarnos todos simultáneamente.

Comentarios

Rodrigo Zamudio

student•

La información es útil pero creo se puede aportar mas con un vídeo

Sergio Beltran

student•

como automatizar para ver todos los jugadores? osea como sabemos cuantos son?

LUIS ESTEBAN ORDOÑEZ ERAZO

student•

Si, tambien me interesa saber eso

Nahuel Ricardo Prieto

student•

No me quedó del todo claro, podrían hacer un mini video sobre esto, ya que parece bastante útil

Xavier González

student•

Hola, se podría hacer este proyecto con un video para verlo más claro. Y por ejemplo si quisieramos mostrar los resultados de un partido en vivo, podríamos usar los datos de páginas de apuestas por ejemplo, pero como se mostrarían? Si se podria extender esta practica para entenderlo y ver todo más completo. Muchas gracias y frlicidades po el curso!

Luis Guzman

student•

Coincido con el resto de los estudiantes, sería mas claro con un ejemplo para saber como hacerlo un poco más dinámico

Valentina Peña

student•

Hola No identifico cual es la parte verde comun a todos los jugadores ¿Alguien la identifica? Saludos

Alejandro Giraldo Londoño

student•

Veauty se refiere a la parte del selector que es común para ambos jugadores. --> "div > table > tbody > tr:nth-child(2) > td:nth-child(1) > span"

Lo que ella está queriendo decir es que puedes acceder por las jerarquías internas de la estructura de la página web, te vas encontrar que si scrapeas un documento html que poseen una misma clase para múltiples etiquetas puedes hacer un "factor común" de todos los jugador comparten el mismo selector. Un saludo para ti también y gracias!

Ricardo Sotomayor

student•

amigo justamente esa es la parte comun en todos los jugadores LA PARTE VERDE QUE ES EL SELECTOR MISMO

willy laurence torres bojorquez

student•

¿como se haría la selección de varios selectores?, según el ejemplo.

Edwin Jesset Barrientos Gonzales

student•

Seria bueno un ejemplo de como extraer la info de todos los jugadores del equipo.

Josele Hernández

student•

No entiendo porque es que en un tópico tan importante deciden hacer uso de sus peores didácticas, así como su curso de fundamentos de R que uno se las tiene que liar por su cuenta....

Rafael Alberto Molano Castrillón

company_admin•

Sería super que Inés estuviera atenta a estas preguntas.. no se en que sección encontrar respuestas a las mismas. Muchas páginas actuales no cargan la información en tablas visibles al inspeccionar, por el contrario, arman el DOM en tiempo de ejecución, es decir, utilizan javascript para dicha tarea, por lo cual no vas a poder capturar la info de la misma manera como lo muestran en los videos, deben investigar un poco al respecto. Existen maneras de generar un archivo a partir de los JS contenidos en el website y luego si leer los datos.

Juan Carlos Rubio Polania

student•

Si entendí, solo que al buscar ciertos selectores o tablas no doy con ellos, vi que si uso html_nodes(name website,"table"), puedo acceder al objeto tabla pero aun no me sale bien. gracias

CLAUDIA CRISTINA APARICIO RUEDA

student•

interesante!

Josele Hernández

student•

Y porque la imagen que usan como ejemplo no coincide con el texto?????? de verdad no ven sus errores en la 'didáctica' o nada más andan parchando sus programas?

Daniel Sánchez

teacher•

¡Hola Josele! El selector que utiliza la profesora no es el erróneo.

#estadisticas-minutos > div > table > tbody > tr:nth-child(2) > td:nth-child(1) > span

Cuando ella ocupa el tr:nth-child(2) está indicando al programa que debe dirigirse a la segunda fila (tr). Cuando usa td:nth-child(1) está indicando que debe dirigirse a la primera celda de la fila (td) Cuando ocupa span se refiere al span que se encuentra dentro de la celda.

JAVIER SANTIAGO SALGADO

student•

¿Qué pasa cuando la tabla es interactiva y se requiere de un evento para activarla?

HTML node

Basicos para el curso

Mundo Data Science

¿Qué hace un Data Scientist?

Introducción a R

Operaciones con datos: vectores, listas y matrices

Operaciones con datos: dataframe y ficheros

¿Qué es web scraping?

Visualización de datos

Presentación del proyecto

Web scraping con R

Intro paquete Rvest y descripción de ejercicio

Principales funciones de Rvest

HTML node

Rvest en nuestro proyecto de Amazon. Recopilación de paginación

Obtención de URL de cada producto

Funciones Apply

Obtención de información de cada producto

Automatización para obtener datos preprocesados

Corrección de errores durante obtención de datos

Reto: Obtén datos de la liga española de fútbol

Adecuación y Análisis descriptivo de los datos

Adecuación de los datos, transformación y eliminación de NA

Procesamiento de datos

Adecuación al algoritmo K-means

Reto: Prepara los datos obtenidos

Aplicando modelo no supervisado: Kmeans

Cómo funciona el algoritmo K-means

Aplicando K-means a nuestro proyecto

Visualización de los clusters

Reto: Aplica el modelo K-means

Modelo en producción

Cómo hacer un punto de API con plumber en R

Poner nuestro modelo en tiempo real: revisión de distancias

Poner nuestro modelo en producción

Reto: Pon un modelo en producción

Representación de los resultados del modelo

Introducción a shiny y sus componentes

Mostrando los resultados de nuestro proyecto en Shiny

Reto:Representación de los resultados del modelo

Cierre del curso

Conclusiones