La sentencia
sns.displot(titanic_data_set['Age']).dropna()
es incorrecta, pues el método .dropna() debe ser aplicado sobre el dataset, no sobre la gráfica. Lo correcto sería:
sns.displot(titanic_data_set['Age'].dropna())
Introducción al análisis exploratorio de datos
Qué aprenderás sobre el análisis exploratorio de datos
Qué es el análisis exploratorio de datos
Comparación del EDA con el análisis clásico y el análisis bayesiano
Herramientas de software para análisis exploratorio de datos
Visualizaciones de EDA
Estadística básica
Transformación de los datos
Estadística descriptiva
Distribución de los datos
Procesamiento de datos
Medidas de tendencia central
Medidas de dispersión
Agrupamiento de datasets
Integración de datos
Pivot tables y cross-tabulations
Operaciones de datos
Correlación
Análisis multivariable empleando el dataset Titanic: gráficos de barras
Análisis multivariable empleando el dataset Titanic: mapa de distribución y mapa de correlación
Paradoja de Simpson
Correlación no implica causalidad
Procesamiento de series de tiempo
Análisis de Series de Tiempo (TSA)
TSA con Open Power System Data
Desarrollo y evaluación de modelos
Regresión y evaluación de hipótesis
Métricas de evaluación y regresión
Ejemplo completo de análisis exploratorio de datos
Análisis exploratorio completo
Cierre de del curso
Aún no tienes acceso a esta clase
Crea una cuenta y continúa viendo este curso
Aportes 12
Preguntas 0
La sentencia
sns.displot(titanic_data_set['Age']).dropna()
es incorrecta, pues el método .dropna() debe ser aplicado sobre el dataset, no sobre la gráfica. Lo correcto sería:
sns.displot(titanic_data_set['Age'].dropna())
Respecto al método de correlación, tanto la de Pearson como la de Spearman dan rangos entre -1 y +1 (al contrario de lo que dice la profesora).
POR FAVOR PLATZI, QUE LOS CURSOS LO IMPARTAN PERSONAS QUE SEPAN LO QUE ESTÁN DICIENDO, EXPERTOS EN LA MATERIA QUE ESTÁN IMPARTIENDO!!
PD: para el que quiera saber cual es la diferencia entre ambos métodos de correlación, en esta web lo explican: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/
Los constantes errores distraen mucho. Podría solucionarse si el profesor ejecutara los comandos ANTES de hacer el video. Critica constructiva
Solo una aclaración: Hay un error al correr la primera celda de esta clase (min 3:05), los objetos de seaborn no contienen el atributo dropna(), eso es solo es válido en los dataframes de pandas.
La linea debería ser así :
sns.displot(titanic_data_set['Age'].dropna())
Vamos a hacer un análisis multivariable del dataset del titanic y vamos a plantear varias hipótesis como:
Sobre este dataset hay una competencia en Kaggle
Con respecto a la correlación, ya eso no es un error, sino poca base teórica en cuanto al manejo de conceptos Estadístico.
Correlación de pearson es para variables continuas y parametrico, mientras que spearman es para para variables ordinales y no parametrica.
Hola a todos,
Hasta ahora me siento un poco perdido sobre el EDA, no sé en que punto estamos y reconozco que hay algunas falencias sin embargo he aprendido algunas cosas.
Dicho esto, en el análisis de correlación final, en la clase pasada un compañero usó la opción Annot, personalmente me gusta mucho ya que permite una visualización de Colores y números. abajo el código:
sns.heatmap(correlation,annot=True)
El resultado muestra que la correlación mas alta la tiene la variable patch, no estoy seguro de que representa pero les dejo el dato.
Un abrazo
Quise hacer categorías por rangos de edades, y graficar su supervivencia.
Para ello me fije en cual eran las edades mas altas y mas bajas
print(titanic_data_set['Age'].min())
titanic_data_set['Age'].max()
Y de allí vemos que la edad mas alta son 80 años, partí en rangos de 10 años y para ello cree una función que se aplicaría a una nueva columna del daframe(lo mas probable es que se pueda hacer de una mejor forma)
def rangos(x):
for i in range(0,88,8):
if x>i:
if x<=i+8:
return f'{i}<Age<{i+8}'
else:
continue
titanic_data_set['Age_range']=titanic_data_set['Age'].apply(lambda x: rangos(x))
Luego nombre un nuevo dataframe que resumiera el numero de sobrevivientes y no sobrevivientes, claro, incluyendo mi columna de edades categoricas.
por_edades=titanic_data_set.groupby(['Age_range','name_survived']).count().iloc[:,:2].drop(['PassengerId'], axis=1).reset_index()
por_edades.head()
y por ultimo grafiqué con altair
alt.Chart(por_edades).mark_bar().encode(
x='Age_range',
y='Survived',
color='name_survived'
).properties(width=420)
se puede analizar del gráfico pairplot que estar en 1era clase fue importante para aumentar la probabilidad de supervivencia, tambíen la edad, pues las personas en el rango de entre 0 y 12 años sobrevivieron sin importar si estaban en 1,2 o 3era la clase
Se me hizo interesante esta ejemplificacion
en el pairplot de la edad vs la clase de boleto, como resalta que al mas barato el boleto (tercera clase), mas personas no sobrevivieron
¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.