Manipulación de Data Frames en PySpark

Clase 15 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Tomar examen

Resumen

¿Cómo realizar operaciones básicas con data frames?

El manejo de data frames es esencial en el análisis de datos. Permiten trabajar con grandes volúmenes de información estructurada de una manera más eficiente y accesible. En este texto, aprenderemos a cargar data frames, explorar su esquema, y realizar operaciones básicas como renombrar y eliminar columnas. Todo esto nos permitirán manipular los datos para obtener información valiosa.

¿Cómo cargar y explorar data frames?

Un paso inicial crucial al trabajar con data frames es su carga correcta. A menudo, se requiere cargar archivos de datos en nuestro entorno de trabajo. En el ejemplo, se utilizan archivos de varias fuentes, cargándolos a un RDD (Resilient Distributed Dataset) para posteriormente transformarlos en data frames, como se hizo con "países" o "deporte".

Es importante verificar que los data frames se han cargado correctamente, visualizándolos sin formato para asegurarse de que los tipos de datos (cadenas, valores numéricos, etc.) son los apropiados.

¿Cómo conocer el esquema de un data frame?

Conocer el esquema del data frame es útil, especialmente cuando se heredan estructuras de datos o cuando el diccionario de datos no está completo. Imprimir el esquema de un data frame proporciona la estructura y tipo de datos de cada columna, hecho que es vital para manifestar si los datos cargados se ajustan a nuestras necesidades.

# Ejemplo de impresión de esquema
data_frame.printSchema()

¿Cómo renombrar y eliminar columnas en un data frame?

Uno de los desafíos comunes al trabajar con data frames es ajustar los nombres de las columnas para que sean relevantes al análisis o negocio en cuestión. Utilizar withColumnRenamed permite cambiar nombres de columnas de manera sencilla. Por ejemplo, cambiar "género" a "sexo del competidor".

# Ejemplo de renombrado
data_frame = data_frame.withColumnRenamed("género", "sexo del competidor")

Igualmente, si hay columnas que no aportan al análisis, estas pueden ser eliminadas usando drop(). A modo de ilustración, si "altura" no es relevante, podríamos remover esa columna.

# Ejemplo de eliminación de columna
data_frame = data_frame.drop("altura")

¿Cómo seleccionar columnas específicas?

Para trabajar solo con columnas de interés, se puede utilizar la operación select(), muy común en bases de datos. Esta operación permite seleccionar explícitamente las columnas necesarias, reduciendo el volumen de datos procesado.

# Ejemplo de selección con 'select'
data_frame = data_frame.select("deportistaID", "nombre")

¿Cómo aplicar filtros sofisticados?

Los filtros son poderosos para aislar datos de interés. Por ejemplo, al filtrar deportistas por edad cuando se sabe que una edad de cero es una entrada no válida. Se utilizan condiciones dentro de filter() para refinar los datos.

# Ejemplo de filtro
data_frame = data_frame.filter((data_frame["edad_al_jugar"] != 0))

¿Cómo lograr insights a partir de los datos?

Finalmente, para obtener conocimientos prácticos y estadísticamente significativos, es necesario aplicar filtros complejos y transformar los datos recolectados a formatos manejables. Al hacer análisis más profundos, podemos descubrir datos interesantes, como el deportista olímpico más joven.

Aprender y explorar más allá

Este texto ofrece una puerta de entrada a una mejor comprensión de las operaciones básicas con data frames. Invito a los lectores a seguir practicando e investigando, ya que la habilidad de manipular data frames es invaluable en un proyecto de análisis de datos. ¡El análisis de datos es un campo prometedor y aprender a manejar datos de manera efectiva es un primer paso esencial!

Comentarios

Daniel Díaz

student•

Es mala practica hacer un import * como se hace en el minuto 8:06 debido a que esto importa funciones que sobreescriben algunas que vienen por defecto en Python, además de que luego vez funciones que no sabes de qué paquete viene y puede causar confusión.

Para estos casos se recomienda importar el paquete con un alias, algo tipo:

import pyspark.sql.functions  as f

ya luego puedes acceder a tus funciones de esta forma:

f.col(...)

Más legible y sin riesgos de ningún tipo.

rusbel bermúdez rivera

student•

El curso es muy interesante aunque recordemos minuto 8:06 es mala practica hacer un import *

Michael Lan Alvarez

student•

La forma en como nombra las variables y funciones también son mala práctica en python

Josefina Andrea Araya Tapia

student•

Recordar que el archivo de deportistas es "deportista2.csv"

Wilson Aguilar

student•

Otra manera que se me hizo mas facil de leer un csv es la siguiente:

deporte = sql_context.read
 .csv("files/deporte.csv", inferSchema=True, header=True)

De esta manera no tengo que definir el esquema por cada tabla.

Joan Sebastián Chamorro

student•

Esto es útil cuando no son archivos tan grandes, pero si es un archivo del orden de teras, la operación de inferir schema se va a tardar un montón

Jaziel Flores

student•

Tan sólo en el RDD de deportistas no estas explicas desde que archivo lo estás cargando o si se trata del RDD que se formo por la unión que se hizo en unos videos pasados

Carlos Javier Guevara Contreras

student•

interesante

Jesus David Loera Valverde

student•

A mi no me salió Dimitrios Loundras como el mas joven. Me salieron a partir de 11 años, no de 10 y sigo sin entender porqué.

Jimmy Prada Guadalupe

student•

No te sale, por que sólo importaste un archivo de deportista.csv, te falto el deportista2.csv

Manipulación de Data Frames en PySpark

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark

Creación de DataFrame desde RDD en PySpark