No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Tipos de Variables que componen un data frame

8/28
Recursos

Aportes 34

Preguntas 13

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Al explicar el apartado describe.() tiene un pequeño error de interpretacion en los cuartiles, lo ideal sería explicarlo más o menos así:

Si ordenamos los datos de menor a mayor, al cortar la base en el primer 25% obtendremos que la masa de los meteoritos en ese corte es de 7.2 g, al cortarlo en el 50% quiere decir que el valor del peso que se encuentra exactamente a la mitad, es decir, en ese corte es de 32.6 g. Otra explicación que podríamos tener aqui es que el 50% de meteoritos no tienen un peso mayor a 32.6 g y asi sucesivamente con el último cuartil.

Curioso como la media (mean = 13278.08g) y el tercer cualtil (75% = 202.6g) están tan alejados, cuando esto pasa, se puede concluir que algunos datos extremos están aportando información a la media y se comprueba con un box plot para poder ver estos outliers.

import seaborn as sns
sns.boxplot(df['mass (g)'])

Ahí están los datos que exageran la media.

Un pequeño resumen de esta clase y de los comandos que utilizamos:

.head() me muestra los primeros 5 datos, podemos pasar un numero por los parentesis y nos dará esa cantidad de líneas.

.tail() hace lo mismo pero desde el final.

.sample() nos trae un aleatorio de la base de datos. Si le colocamos un número entre el párentesis nos traerá esa cantidad de datos.

.shape() con esto podemos ver el tamaño de la base de datos. Nos da el número de filas y columnas.

.size nos da el total de los datos. Es el producto entre las filas y las columnas.

.describe() nos da las cualidades estadisticas de las variables númericas de nuestra base de datos.

pd.options.display.float_format={} le da formato a los puntos flotantes (la cantidad de decimales que queremos ver).

con discribe(include=‘all’) nos incluirá información de las variables tipo texto.

.info() nos muestra cual es la categoria de las variables.

.dtypes nos trae solo el tipo de variables que tenemos.

Luego de panda 1.0 podemos convertir el formato a un formato más adecuado para nuestras variables. esto lo hacemos con .convert_dtypes().dtypes

Si les interesa conocer más de la notación que usó para el punto décimal {:.1f}, pueden empesar por aquí

La url en enlaces esta mal, es Data Search

**pd.options.display.float_format = ‘{:,.1f}’.format **con esta linea quitamos la notacion cientifica

Para los que tengan problemas con encontrar los enlaces, se los dejo aquí:

Dataset Search: Google Dataset Serch

NASA’s Open Data Portal: Meteorite Landings

En la clase anterior mencionó que iba a hablar sobre variables categóricas, pero no comentó nada.

Pero les dejo una descripción por si alguien quiere saber mas sobre variables categóricas.

Las variables categóricas también se denominan variables cualitativas o variables de atributos. Los valores de una variable categórica son categorías o grupos mutuamente excluyentes. Los datos categóricos pueden tener o no tener un orden lógico.

para que los cambios de tipo se mantengan en el tiempo es necesario asignarlo nuevamente a df, de lo contrario cuando se vuelva a hacer “df.dtypes” los string seguirán siendo de tipo"Object"

que no un meteorito de 6 toneladas nos extinguiría jeje seguro habría que leer algo de meteoritos para saber y hacer data cleaning, siempre es bueno entender el contenido de nuestra base para usarla correctamente y descartar los registros que solo aportan ruido a los analisis

si usan print, en vez de llamar a la variable directamente se ve mas bonito.

Clase 9: Tipos de Variables que componen un data frame

Mostrar los n primeros registros

df.head(3)

Mostrar los n ultimos registros

df.tail(3)

Mostrar n registros aleatoriamente

df.sample(3)

Obtener la dimensionalidad del data frame

df.shape

Numero de elementos del data frame

df.size

Generar estadisticas descriptivas

df.describe()

Imprimir un resumen conciso de un DataFrame.

Este método imprime información sobre un DataFrame, incluido el tipo de índice y las columnas, los valores no nulos y el uso de la memoria.

df.info()

Obtener los tipos de datos de cada columna

df.dtypes

Convierta columnas a los mejores dtypes posibles

df.convert_dtypes()

Explicando los percentiles de otra forma, puede que sea lo mismo que ya se dijo pero a alguien le puede sonar mas claro
Quiere decir que el 25% de los meteoritos están entre los 0 y los 7,2 gr, el 50% están entre los 32,6 gr y cero y el 75% se encuentran entre los 202,6gr y cero.

Buenas!!! Otra forma de manejar los decimales a mostrar de nuestras variables numéricas en nuestro dataframe es así:

pd.options.display.precision = 1

Que clases tan pero tan buenas, mil gracias!

La notación

pd.options.display.float_format = '{:,.1f}'.format

describe de columnas no numéricas

data.describe(exclude=[np.number])

Aquí está el dataset para que lo descarguen.

Les dejo el link del Data Set para que lo ubiquen más rápido:

https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh

El método describe sirve para saber algunos datos sobre las columnas numéricas de nuestro data frame.

  • count = Cuantos registros tiene la columna.
  • mean = La media de los valores.
  • std = La desviación estándar de los valores.
  • min = El valor mínimo del conjunto de datos.
  • 25% = El valor más alto entre el 25% de los datos.
  • 50% = El valor más alto entre el 50% de los datos.
  • 75% = El valor más alto entre el 75% de los datos.
  • max = El valor máximo del conjunto de datos.

Woe no me sabia lo de Dataser search, gracias por el tip

Tipos de variables del Dataframe

  • df.sample() devuelve una cantidad random de registros, a diferencia de head, que muestra las primeras
  • pd.options.display.float_format = ‘{:,.1f}’.format sirve para ver la cantidad de decimales que queramos
  • describe(include=all) permite ver agregaciones que funcionan en variables de tipo texto (ej: count, unique, top & freq, etc)
  • df.dtypes muestra únicamente las columnas y sus tipos de dato asociadas
  • df.convert_dtypes() convierte automáticamente los tipos de dato para un análisis más rápido, ej: cambiar objects por string o los int64 por Int64
  • La diferencia es que Int64 (con mayúscula) puede entender cómo funcionan los NaN

esta clase si me gusto, al grano con la transformacion de datos

El profe metió la pata con el método describe(). Los valores 25%, 50% y 75% hacen referencia a los cuartiles, no a porcentajes de la información-

Al ejecutar

df_meteorites.info()

En la parte inferior muestra cuantas variables hay de tipo float, int y object y/o string

Pueden crear un acceso directo a la carpeta si abren el segundo enlace y con el botón derecho “Add shortcut to drive”. Es un acceso directo, no se copia la carpeta i.e. no usa espacio.

Entendido a seguir aprendiendo.

Por que sale este error?

Con la ayuda de Pandas obtendremos el mejor tipo de formato para nuestras variables.

dataframe.convert_dtypes().dtypes

les dejo el link de descarga de la base desde Kaggle, por cierto Kaggle es una competencia donde puedes ganar dinero si ganas los proyectos o simplemente aprender de diferentes proyectos incluye sus datasets
https://www.kaggle.com/nasa/meteorite-landings

Super interesante