Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Análisis multivariable empleando el dataset Titanic: mapa de distribución y mapa de correlación

16/25
Recursos

Aportes 12

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

La sentencia

sns.displot(titanic_data_set['Age']).dropna()

es incorrecta, pues el método .dropna() debe ser aplicado sobre el dataset, no sobre la gráfica. Lo correcto sería:

sns.displot(titanic_data_set['Age'].dropna())

Respecto al método de correlación, tanto la de Pearson como la de Spearman dan rangos entre -1 y +1 (al contrario de lo que dice la profesora).

POR FAVOR PLATZI, QUE LOS CURSOS LO IMPARTAN PERSONAS QUE SEPAN LO QUE ESTÁN DICIENDO, EXPERTOS EN LA MATERIA QUE ESTÁN IMPARTIENDO!!

PD: para el que quiera saber cual es la diferencia entre ambos métodos de correlación, en esta web lo explican: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/

Los constantes errores distraen mucho. Podría solucionarse si el profesor ejecutara los comandos ANTES de hacer el video. Critica constructiva

Solo una aclaración: Hay un error al correr la primera celda de esta clase (min 3:05), los objetos de seaborn no contienen el atributo dropna(), eso es solo es válido en los dataframes de pandas.

La linea debería ser así :

sns.displot(titanic_data_set['Age'].dropna())

¿Qué vamos a hacer en esta clase?

Vamos a hacer un análisis multivariable del dataset del titanic y vamos a plantear varias hipótesis como:

  • ¿Que tanto influyo la tasa de supervivencia del pasajero según su sexo, según su edad y según su clase en la que estaba este pasajero?

Sobre este dataset hay una competencia en Kaggle

https://www.kaggle.com/c/titanic

Con respecto a la correlación, ya eso no es un error, sino poca base teórica en cuanto al manejo de conceptos Estadístico.
Correlación de pearson es para variables continuas y parametrico, mientras que spearman es para para variables ordinales y no parametrica.

Hola a todos,

Hasta ahora me siento un poco perdido sobre el EDA, no sé en que punto estamos y reconozco que hay algunas falencias sin embargo he aprendido algunas cosas.

Dicho esto, en el análisis de correlación final, en la clase pasada un compañero usó la opción Annot, personalmente me gusta mucho ya que permite una visualización de Colores y números. abajo el código:

sns.heatmap(correlation,annot=True) 

El resultado muestra que la correlación mas alta la tiene la variable patch, no estoy seguro de que representa pero les dejo el dato.

Un abrazo

Quise hacer categorías por rangos de edades, y graficar su supervivencia.

Para ello me fije en cual eran las edades mas altas y mas bajas

print(titanic_data_set['Age'].min())
titanic_data_set['Age'].max()

Y de allí vemos que la edad mas alta son 80 años, partí en rangos de 10 años y para ello cree una función que se aplicaría a una nueva columna del daframe(lo mas probable es que se pueda hacer de una mejor forma)

def rangos(x):
    for i in range(0,88,8):
        if x>i:
            if x<=i+8:
                return f'{i}<Age<{i+8}'
            else:
                continue

titanic_data_set['Age_range']=titanic_data_set['Age'].apply(lambda x: rangos(x))

Luego nombre un nuevo dataframe que resumiera el numero de sobrevivientes y no sobrevivientes, claro, incluyendo mi columna de edades categoricas.

por_edades=titanic_data_set.groupby(['Age_range','name_survived']).count().iloc[:,:2].drop(['PassengerId'], axis=1).reset_index()
por_edades.head()

y por ultimo grafiqué con altair

alt.Chart(por_edades).mark_bar().encode(
    x='Age_range',
    y='Survived',
    color='name_survived'
).properties(width=420)

se puede analizar del gráfico pairplot que estar en 1era clase fue importante para aumentar la probabilidad de supervivencia, tambíen la edad, pues las personas en el rango de entre 0 y 12 años sobrevivieron sin importar si estaban en 1,2 o 3era la clase

Se me hizo interesante esta ejemplificacion

en el pairplot de la edad vs la clase de boleto, como resalta que al mas barato el boleto (tercera clase), mas personas no sobrevivieron