No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Análisis multivariable empleando el dataset Titanic: gráficos de barras

15/25
Recursos

Aportes 19

Preguntas 1

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Ese tasa es con ‘s’

A pesar de que se observaron datos nulos, no se limpiaron.
Idealmente se recomienda limpiar los datos o al menos intentar observar la naturaleza de esos datos vacíos. Y ahora sí, hacer hipótesis y analizar los datos.

TECNICAS DE MULTIVARIABLES

  1. Grafico de matriz
  2. Analisis de correlacion
  3. Diagrama de arana
  4. Analisis factorial
  5. Regresion logistica
  6. Conglomerados
  7. Discriminante lineal
  8. Correspondencias
  9. Escalado multidimensional
  10. Correlacion canonica

Me gustaria que se hiciera el analisis de caso, no graficar por graficar.

Les comparto mi grafica 😄, desde mi punto de vista algo que siempre hay que verificar cuando tenemos dos graficas juntas es tener los ejes en el mismo rango.

También pueden importar el dataset desde los datasets de Seaborn.

titanic = sns.load_dataset('titanic')

Tambien pueden ocupar esta linea de codigo si quieren

ax[0].bar(df['Sex'].unique(), df["Sex"].value_counts())

Hay otra forma de saber si hay valores nulos:

from funpymodeling import status, profiling_num
import pandas as pd

url_titanic = 'https://raw.githubusercontent.com/terranigmark/curso-analisis-exploratorio-datos-platzi/main/train_titanic.csv'
df_titanic = pd.read_csv(url_titanic)
status(df_titanic)
profiling_num(df_titanic)

status y profiling_num nos permiten hacer un resumen exploratorio de nuestros datos, como valores nulos, valores en ceros, cuantos datos únicos existen, así como desviaciones estándar o coeficientes de variación. Con los datos del Titanic se obtienen los siguientes resúmenes usando esas funciones:

  • Con status
  • Con profiling

Solo se debe instalar la librería funpymodeling con:

pip install funpymodeling

o en caso de estar en Google colab

!pip install funpymodeling

titanic_data_set.isnull().any() Es el método para saber si hay nulos en la BBDD

Para los que le genera error el countplot, le adjunto el código.

#Graficación 
fig, ax = plt.subplots(1, 2, figsize = (10, 8), sharey=True)

# Conteo total de pasajeros
passengers_count = titanic_data_set["Sex"].value_counts()
passengers_count.plot.bar(color = "skyblue", ax = ax[0])
ax[0].set_title("Número de Pasajeros por sexo")
ax[0].set_ylabel("# pasajeros")

# Conteo total de supervivientes
sns.countplot(x="Sex", hue_order = "Survived", data = titanic_data_set, ax = ax[1])
ax[1].set_title("Número de Sobrevientes por sexo")
ax[1].set_ylabel("# pasajeros")

# Mostrar grafica
plt.show();

Un detallito

Con el codigo de la clase, las graficas de barras tienen diferentes escalas en el eje y. Para arreglar eso podemos usar el paramemetro sharey=True al crear el subplots.

#Graficación 
fig, ax = plt.subplots(1, 2, figsize = (10, 8), sharey=True)

# Conteo total de pasajeros
passengers_count = titanic_data_set["Sex"].value_counts()
passengers_count.plot.bar(color = "skyblue", ax = ax[0])
ax[0].set_title("Número de Pasajeros por sexo")
ax[0].set_ylabel("# pasajeros")

# Conteo total de supervivientes
sns.countplot("Sex", hue = "Survived", data = titanic_data_set, ax = ax[1])
ax[1].set_title("Número de Sobrevientes por sexo")
ax[1].set_ylabel("# pasajeros")

# Mostrar grafica
plt.show()

Resultado

Tasa de supervivencia de hombres

Tasa de supervivencia de mujeres

Una forma diferente de hacer estos promedios es con las pivot tables.

titanic_data_set.pivot_table(index=['Sex'])[['Age','Survived']]

Analisis exploratorios

tambien se puede poner:
rate_w = women.mean()

Siento que no se hizo ningún análisis multivariable, solamente se gráfico

Survival Rate per sex:

Survival Rate: