DEEPNOTE
CREACIÓN DE UN DATAFRAME DE RESULTADOS
1.b) Código:
models_results = pd.DataFrame(
dict(
actual_value=processed_penguins_df.body_mass_g,
prediction_model_1=model_1.predict(),
prediction_model_2=model_2.predict(),
prediction_model_3=model_3.predict(),
prediction_model_4=model_4.predict(),
prediction_model_5=model_5.predict(),
species=processed_penguins_df.species,
sex=processed_penguins_df.sex
)
)
models_results
1.c) Descripción del Código:
- Línea 1: Crea un DataFrame models_results usando el método pd.DataFrame.
- Líneas 2-8: Define las columnas del DataFrame:
- actual_value: Masa corporal de los pingüinos en el conjunto de datos.
- prediction_model_1 a prediction_model_5: Predicciones de cinco modelos diferentes.
- species: Información de especies del conjunto de datos.
- sex: Información de sexo del conjunto de datos.
- Línea 10: Muestra el DataFrame models_results.
1.d) Descripción del Resultado: Se muestra el DataFrame models_results. Incluye valores reales, predicciones de los modelos y metadatos (species y sex). Contiene columnas numéricas y categóricas.
GRÁFICO DE FUNCIÓN DE DISTRIBUCIÓN ACUMULATIVA EMPÍRICA (ECDF) PARA TODAS LAS COLUMNAS
1.b) Código:
sns.ecdfplot(
data=models_results
)
1.c) Descripción del Código:
- Línea 1-2: Usa sns.ecdfplot para generar un gráfico ECDF para todas las columnas numéricas en models_results.
1.d) Descripción del Resultado: El gráfico ECDF muestra la distribución de los valores reales y los predichos para todos los modelos. Cada línea representa la proporción acumulativa de valores para una columna específica.
COMPARACIÓN DE ECDFS PARA VALORES REALES Y PREDICCIONES DEL MODELO 5
1.b) Código:
sns.ecdfplot(
data=models_results.select_columns(['actual_value', 'prediction_model_5'])
)
1.c) Descripción del Código:
- Línea 1-2: Grafica un gráfico ECDF comparando únicamente las columnas actual_value y prediction_model_5.
1.d) Descripción del Resultado: El gráfico visualiza la distribución de los valores reales frente a las predicciones del Modelo 5, permitiendo una comparación directa del desempeño.
GRÁFICO DE DENSIDAD (PDF) PARA TODAS LAS COLUMNAS
1.b) Código:
sns.kdeplot(
data=models_results
)
1.c) Descripción del Código:
- Línea 1-2: Usa la función sns.kdeplot de Seaborn para crear gráficos de estimación de densidad (KDE) para todas las columnas numéricas en el DataFrame models_results.
1.d) Descripción del Resultado: El gráfico muestra las funciones de densidad de probabilidad para los valores reales y las predicciones de todos los modelos. Cada curva representa la densidad estimada para una columna específica.
FUNCIÓN DE DENSIDAD ACUMULATIVA (CDF) PARA TODAS LAS COLUMNAS
1.a) Título: Gráfico de Densidad Acumulativa para Todas las Columnas
1.b) Código:
sns.kdeplot(
data=models_results,
cumulative=True
)
1.c) Descripción del Código:
- Línea 1-3: Crea un gráfico de densidad acumulativa usando la función sns.kdeplot con el parámetro cumulative=True para visualizar la distribución acumulativa de todas las columnas numéricas.
1.d) Descripción del Resultado: El gráfico muestra la distribución acumulativa para los valores reales y las predicciones de todos los modelos, con curvas que alcanzan un valor de 1 en el rango máximo.
DIAGRAMA DE DISPERSIÓN PARA LONGITUD DE ALETA Y MASA CORPORAL POR SEXO
1.a) Título: Diagrama de Dispersión de Longitud de Aleta vs. Masa Corporal por Sexo
1.b) Código:
sns.lmplot(
data=processed_penguins_df,
x='flipper_length_mm',
y='body_mass_g',
hue='sex',
height=10
)
1.c) Descripción del Código:
- Líneas 1-5: Crea un diagrama de dispersión con líneas de regresión lineal usando la función sns.lmplot:
- data=processed_penguins_df: Especifica el conjunto de datos.
- x='flipper_length_mm': Usa la longitud de la aleta como eje x.
- y='body_mass_g': Usa la masa corporal como eje y.
- hue='sex': Diferencia los puntos según la categoría sex (por ejemplo, macho y hembra).
- height=10: Ajusta el tamaño del gráfico.
1.d) Descripción del Resultado: El diagrama de dispersión visualiza la relación entre la longitud de la aleta y la masa corporal de los pingüinos, separados por sexo (macho y hembra) con colores distintos. También se incluyen líneas de regresión para cada grupo.