No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Operaciones sobre DF

15/25
Recursos

Aportes 8

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Óscar menciona correctamente que los DF son inmutables en Spark, sin embargo, para algunos el hacer la siguiente operación, resulta confuso:

deportistaOlimpicoDF=deportistaOlimpicoDF.withColumnRenamed("genero","sexo")\
.drop("altura")

A simple vista da la impresión que estamos modificando el DF: deportistaOlimpicoDF, renombrando una columna y eliminando otra. Esto no es verdad, en realidad se está creando una copia del DF original: deportistaOlimpicoDF,

Les comparto éste excelente enlace dónde explican ésta casuística.

Es mala practica hacer un import * como se hace en el minuto 8:06 debido a que esto importa funciones que sobreescriben algunas que vienen por defecto en Python, además de que luego vez funciones que no sabes de qué paquete viene y puede causar confusión.

Para estos casos se recomienda importar el paquete con un alias, algo tipo:

import pyspark.sql.functions  as f

ya luego puedes acceder a tus funciones de esta forma:

f.col(...)

Más legible y sin riesgos de ningún tipo.

El curso es muy interesante aunque recordemos minuto 8:06 es mala practica hacer un import *

Otra manera que se me hizo mas facil de leer un csv es la siguiente:

deporte = sql_context.read
 .csv("files/deporte.csv", inferSchema=True, header=True)

De esta manera no tengo que definir el esquema por cada tabla.

Recordar que el archivo de deportistas es “deportista2.csv”

Tan sólo en el RDD de deportistas no estas explicas desde que archivo lo estás cargando o si se trata del RDD que se formo por la unión que se hizo en unos videos pasados

interesante

A mi no me salió Dimitrios Loundras como el mas joven. Me salieron a partir de 11 años, no de 10 y sigo sin entender porqué.