Implicaciones de los distintos tipos de valores faltantes

Clase 4 de 17 • Curso de Manejo de Datos Faltantes: Imputación

Contenido del curso

Problemática de valores faltantes

Imputación basada en el donante

Imputación basada en modelos

Conclusión

Tomar examen

Comentarios

Yonaikel M. Delgado N.

student•

A ver, la interpretación del profesor esta mal en todo aspecto, estadísticamente si rechazas "no rechazas la hipotesis nula" quiere decir que hay igualdad de medias por lo que la interpretacion correcta es que "no hay diferencias"

Sin embargo realizar una prueba t de student así sin mas es algo que estadísticamente esta muy mal hecho, porque para empezar los dataframes tienen mas de 30 observaciones (filas) por lo que se deberia usar una prueba Z en lugar de t de student, las pruebas t de student son para muestras pequeñas (menores a 30)

por otro lado para utilizar una prueba t o Z se debe verificar que las muestras (en este caso los dataframes) se distribuyan normal, que se cumpla el supuesto de homocedaticidad (que tengan igual varianza)

EN conclusión, a nivel de código y experiencia empirica los profesores de PLATZI son muy buenos, sin embargo les falta el componente estadístico, simplemente aplican cosas estadisticas y ya sin conocer la teoria que esta detras de todo.

Soy estudiante de 8vo semestre de estadística y en muchos cursos he visto a los profesores cometer errores conceptuales y aplicar metodos de forma incorrecta.

Andres felipe Rojas parra

student•

Es recomendable completar este curso? (me interesa la teoria que esta detras de todo el codigo)

Carolina Alvarez Murillo

student•

Estoy de acuerdo contigo, estudio ingeniería de sistemas y he visto las materias de estadística 1 y 2. En este caso no se debería usar t de student y la interpretación deja mucho que pensar. En código se puede ver bien pero desde la parte estadística es raro.

Carlos Mazzaroli

student•

Copiar y pegar ( si quieren obvio xD sino no)

MCAR

La localización de los valores faltantes en el conjunto de datos ocurren completamente al azar, estos no dependen de ningún otro dato

Eliminación de valores faltantes

Reducción del tamaño de muestra.
Inferencia limitada.
No produce sesgos

Imputación de valores faltantes

De hacerlo bien, no produce sesgos
La imputación es recomendada sobre la deleción.

MAR

La localización de los valores faltantes en el conjunto de datos dependen de otros valores observados.

Eliminación de valores faltantes

Ignorarlos produce sesgos

Imputación de valores faltantes

La mayor parte de métodos de imputación asumen MAR
La imputación es necesaria

MNAR

La localización de los valores faltantes en el conjunto de datos dependen de otros valores faltantes en sí mismos.

Eliminación de valores faltantes

Ignorarlos produce sesgos

Imputación de valores faltantes

La imputación es recomendada sobre la deleción.

💡 Mejorar experimentos o realizar análisis de sensibilidad (repetir los experimentos, explorar los parámetros, ver como cambian los análisis al modificar algunos datos y establecer intervalos de confianza)

Mauricio Estrada

student•

Tuve que preguntarle a ChatGPT porque no entendí bien el tema, pero ahora me ha quedado claro:

El código realiza una prueba t-test independiente usando la función ttest_ind del módulo scipy.stats. La prueba t-test comparará la media de dos grupos de datos y determinará si existe una diferencia significativa entre ellos.

El primer argumento a es el primer grupo de datos (female_weight) y el segundo argumento b es el segundo grupo de datos (male_weight).

El argumento alternative especifica el tipo de hipótesis nula a probar, en este caso "two-sided" indica que se está realizando una prueba two-tailed, es decir, se está investigando si existe una diferencia significativa entre las dos medias, sin importar en qué dirección.

El resultado es el valor estadístico y el valor p del test t-test independiente entre dos grupos "female_weight" y "male_weight". La hipótesis nula es que la media de ambos grupos es igual.

El valor p obtenido es de 0.717, lo que sugiere que no hay suficiente evidencia para rechazar la hipótesis nula. Por lo tanto, no se puede concluir que la media de los dos grupos sea diferente.

El valor absoluto del estadístico t, 0.362, es bajo, lo que indica que las diferencias entre los dos grupos son poco significativas.

Yonatan Efraín Jara Boza

student•

Tampoco entendí bien jeje aun no conozco esa parte de la estadística (t-student y amigos) y buscando por internet no he encontrado explicaciones que no sean abstractas pues supongo que hay mucho conocimiento previo necesario, quiero creer.

Fuera de ello, si lo permites: Cuando dices que el p-value calculado (0.717) sugiere tal cosa... con que valor arrojado se podría afirmar lo contrario. O sea cómo se lee ese valor, cómo se leería otro, que significaría un valor 999 o un negativo, etc?

Jeinfferson Bernal G

student•

Excelente explicacion. Todo claro

Pablo Alejandro Figueroa

student•

Esta clase en particular me resultó estímulante porque me hizo ruido:

no se explica bien la Hipótesis Nula
no se explica bien la Hipótesis Altenativa
(no me vengan con que eso se explica en otros cursos, por que en un curso de geografía yo no puedo decir que 2 más 2 es 5 y si querés saber anda al curso de matemática que te explico que 2 más 2 es 4)

al optar por "two-sided" las hipótesis quedarían así:
- H0: Las medias de ambas muestras son iguales
- H1: Las medias de ambas muestras NO son iguales.

si el p-valor es mayor que el nivel de significancia (alfa) elegido entonces decimos que no existe evidencia suficiente para rechazar la Hipótesis Nula. Por eso la importancia de definir correctamente la H0.

“Hacer una prueba estadística para establecer si existe o no una diferencia en la presencia o ausencia de valores de peso” ¿Entonces para que vamos a hacer la prueba estadística? para “establecer” la existencia de una diferencia en la presencia de valores de peso? para “establecer” la NO existencia de una diferencia en la presencia de valores de peso? para “establecer” la existencia de una diferencia en la usencia de valores de peso? para “establecer” la existencia de una diferencia en la usencia de valores de peso? diferencia de que tipo? diferencia de medias.

Hasta donde tengo entendido el estadístico usado NO es para variables dicotómicas, y aunque arroje un resultado (dado que a False le asigna 0 y a True 1) dicho resultado es de ningún valor, porque está mal conceptualmente la aplicación del t-test

Rubén Téllez Gerardo

student•

Justamente no entiendo por qué se está aplicando una prueba cuyo fundamento exige que estemos tratando con variables continuas, a una variable booleana.

Jeinfferson Bernal G

student•

Prueba T y Prueba Z

Suponiendo que se hayan cumplido los supuestos de que los datos esten distribuidos normalmente y que ambas muestras tengan varianzas iguales, es posible usar la prueba t student para muestras grandes. Cuando n > 30, la distribucion t se aproxima a la distribucion normal y lo mas relevante es que la infuencia de los grados de libertad en la forma de la distribucion gradualmente se vuelve nula. Es por ello que ningun paquete estadistico establece una regla para elegir entre la prueba t y la prueba z. La prueba t se propuso para superar la incapacidad de la prueba z para muestras pequeñas pero esto no quiere decir que no aplique tambien para muestras grandes. En cambio, la prueba t gana mas poder cuando el tamaño de la muestra se hace cada vez mas grande

Nicolas cardozo

student•

Leyendo comentario de compañeros me motive en realizar analisis extras con la ayuda de ChatGPT.

1. Prueba de Normalidad (Test de Shapiro-Wilk)

from scipy.stats import shapiro # Filtrar los datos para eliminar valores NaN, ya que la prueba de Shapiro-Wilk no los manejaweights = nhanes_df['weight'].dropna() # Realizar el test de Shapiro-Wilkstat, p = shapiro(weights)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05: print('La muestra parece provenir de una distribución normal (no se rechaza H0)')else: print('La muestra no parece provenir de una distribución normal (se rechaza H0)')

Resultado: Statistics=0.943, p=0.000 Interpretación: La prueba de Shapiro-Wilk rechaza la hipótesis nula de normalidad, indicando que los datos de peso no siguen una distribución normal. La advertencia que se muestra sugiere que el valor p puede no ser preciso debido a que el tamaño de la muestra supera los 5000 registros. En tales casos, es común que la prueba de Shapiro-Wilk muestre una sensibilidad alta a las desviaciones de la normalidad debido al gran tamaño de la muestra.

2.Prueba de Homocedasticidad (Test de Levene)

from scipy.stats import levene # Obtener grupos de datos por génerogroup_female = nhanes_df[nhanes_df['gender'] == 'Female']['weight'].dropna()group_male = nhanes_df[nhanes_df['gender'] == 'Male']['weight'].dropna() # Realizar el test de Levenestat, p = levene(group_female, group_male)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05: print('Las varianzas son iguales entre los grupos (no se rechaza H0)')else: print('Las varianzas no son iguales entre los grupos (se rechaza H0)')

Resultado: Statistics=2.923, p=0.087 Interpretación: El resultado de la prueba de Levene indica que no hay evidencia suficiente para rechazar la hipótesis nula, lo que sugiere que las varianzas entre los grupos de género son iguales. Esto es bueno para los análisis subsiguientes que asuman igualdad de varianzas entre grupos.

3.Prueba t de Student para muestras independientes (con ajuste para varianzas desiguales)

from scipy.stats import ttest_ind # Realizar la prueba t de Student con ajuste para varianzas desigualesstat, p = ttest_ind(group_female, group_male, equal_var=False)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05: print('No hay diferencia significativa en las medias de los pesos entre géneros (no se rechaza H0)')else: print('Existe una diferencia significativa en las medias de los pesos entre géneros (se rechaza H0)')

Resultado: Statistics=-22.367, p=0.000 Interpretación: La prueba t para muestras independientes muestra un resultado estadísticamente significativo, lo que indica que hay una diferencia significativa en las medias de los pesos entre géneros. Dado que la p es extremadamente baja, podemos rechazar con confianza la hipótesis nula de igualdad de medias.

## Implicaciones y Pasos Adicionales Dado que la prueba de Shapiro-Wilk mostró que los datos no son normales, es importante considerar el uso de métodos no paramétricos como alternativa a la prueba t de Student, especialmente cuando se tratan grandes muestras. Aunque la prueba de Levene sugirió homocedasticidad, la falta de normalidad podría afectar la validez de la prueba t.

## Correccion de la logica detras del codigo que nos proporciono el profesor from scipy import stats # Filtrar los datos para seleccionar solo las columnas de género y peso y eliminar valores NaNweights_df = nhanes_df[['gender', 'weight']].dropna() # Separar los pesos por génerofemale_weight = weights_df[weights_df['gender'] == 'Female']['weight']male_weight = weights_df[weights_df['gender'] == 'Male']['weight'] # Determinar el tamaño de la muestra seguro para realizar pruebas de normalidadsample_size = min(5000, len(female_weight), len(male_weight)) # Verificar la normalidad de las distribuciones de peso si el tamaño de la muestra es suficienteif sample_size > 0: print("Normalidad (Female):", stats.shapiro(female_weight.sample(sample_size, random_state=1))) print("Normalidad (Male):", stats.shapiro(male_weight.sample(sample_size, random_state=1))) # Realizar una prueba t de Student para muestras independientes (si ambos grupos son normales) # o usar Mann-Whitney si no se cumple la normalidad if stats.shapiro(female_weight.sample(sample_size, random_state=1))[1] > 0.05 and stats.shapiro(male_weight.sample(sample_size, random_state=1))[1] > 0.05: print("Prueba t de Student:", stats.ttest_ind(female_weight, male_weight, equal_var=True)) else: print("Prueba de Mann-Whitney:", stats.mannwhitneyu(female_weight, male_weight))else: print("No hay suficientes datos para realizar la prueba.")

Los resultados que has obtenido de las pruebas de Shapiro-Wilk y de Mann-Whitney U son muy informativos y permiten tomar decisiones sobre cómo proceder con el análisis de tus datos:

Resultados de la Prueba de Normalidad (Shapiro-Wilk)

Femenino: Estadístico = 0.918, Valor p = 4.799e-36
Masculino: Estadístico = 0.944, Valor p = 7.328e-31

Ambos grupos muestran un valor p extremadamente pequeño, lo cual indica que debemos rechazar la hipótesis nula de que los datos se distribuyen normalmente para ambos géneros. Esto confirma que los pesos, tanto en hombres como en mujeres, no siguen una distribución normal.

Implicaciones

La falta de normalidad en las distribuciones de peso sugiere que métodos estadísticos que asumen normalidad, como la prueba t de Student para muestras independientes, no son apropiados en este caso. Esto justifica el uso de métodos no paramétricos, que no requieren la suposición de normalidad.

Resultado de la Prueba de Mann-Whitney

Estadístico de Mann-Whitney U = 2403846.5
Valor p ≈ 0.000 (6.131e-130)

El resultado extremadamente significativo del valor p en la prueba de Mann-Whitney U indica que hay una diferencia significativa en las distribuciones de peso entre los géneros. Podemos concluir que la distribución del peso es distinta entre hombres y mujeres en tu muestra de datos.

Conclusiones y Pasos Siguientes

Diferencias Significativas: El análisis confirma que existen diferencias estadísticamente significativas en el peso entre géneros, las cuales son robustas dado que no dependen de supuestos de normalidad.
Exploración de Factores Contribuyentes: Puedes investigar más a fondo qué factores podrían estar contribuyendo a estas diferencias. Por ejemplo, considerar variables relacionadas con el estilo de vida, salud general, y factores socioeconómicos.
Análisis Adicional: Dado que se confirmaron diferencias en la distribución de los pesos, sería útil realizar análisis adicionales para entender la naturaleza de estas diferencias, como calcular medias, medianas, modas, y quizás realizar análisis de percentiles para entender mejor la estructura de los datos.
Visualización de Datos: Sería útil visualizar las distribuciones de peso para cada género usando histogramas, box plots o gráficos de densidad para obtener una representación visual clara de cómo se comparan las distribuciones.

Este enfoque integral no solo confirma las diferencias entre grupos, sino que también establece una base sólida para investigaciones más detalladas que puedan explicar por qué existen estas diferencias y cómo se podrían abordar en contextos aplicados como la salud pública o el desarrollo de políticas.

Daniel Rodriguez

student•

Muchas gracias por tu comentario. Me ayudaste un monton!!

Pablo Alejandro Figueroa

student•

Información:

El t-test, o prueba t de Student, es una herramienta estadística utilizada para comparar las medias de dos grupos y determinar si hay una diferencia significativa entre ellas. Hay diferentes variantes del t-test, y las opciones "two-sided" (de dos lados), "less" (menor) y "greater" (mayor) se refieren a la dirección de la diferencia que se está evaluando. Aquí hay una explicación para cada caso:

Two-sided (de dos lados):

Hipótesis nula (H0): No hay diferencia significativa entre las medias de los dos grupos.
Hipótesis alternativa (H1): Hay una diferencia significativa entre las medias de los dos grupos, ya sea que una sea mayor o menor que la otra.

En este caso, la prueba evalúa si hay evidencia suficiente para rechazar la hipótesis nula en favor de la hipótesis alternativa, independientemente de la dirección de la diferencia.

Less (menor):

Hipótesis nula (H0): La media del primer grupo es mayor o igual que la del segundo grupo.
Hipótesis alternativa (H1): La media del primer grupo es significativamente menor que la del segundo grupo.

Esta opción se utiliza cuando se tiene una hipótesis específica sobre la dirección de la diferencia, y estás interesado en determinar si la media de un grupo es significativamente menor que la del otro.

Greater (mayor):

Hipótesis nula (H0): La media del primer grupo es menor o igual que la del segundo grupo.
Hipótesis alternativa (H1): La media del primer grupo es significativamente mayor que la del segundo grupo.

Similar a "less", esta opción se utiliza cuando se tiene una hipótesis específica sobre la dirección de la diferencia, y estás interesado en determinar si la media de un grupo es significativamente mayor que la del otro.

(estará otra vez en proceso de revisión..?)

Mercedes Jue

student•

Muchas gracias! Me sirvió mucho tu comentario

Jeinfferson Bernal G

student•

Juan Jose Ramirez Lopez

student•

No la prueba t student no es para poblaciones tan grandes? Creo que estadísticamente está mal implementado

Mauricio Castaño Valencia

student•

¿Que significa la deleción en el caso de valores faltantes?

Mauricio Estrada

student•

Excelente pregunta, yo pensaba que había querido decir "eliminación", pero preguntándole a ChatGPT...

En estadística, la deleción se refiere a la eliminación de un valor o un registro de un conjunto de datos antes de su análisis.

José Pablo Cabrera Romo

student•

Decidí probar también con la prueba Z y el resultado es "prácticamente" el mismo que se obtuvo con la prueba T. La diferencia entre el valor del estadístico y el valor p (p-value) es muy pequeña, lo que indica una concordancia cercana entre ambos métodos de prueba.

Dejo el código por si quieren realizar la prueba.

import numpy as np
from scipy.stats import norm, zscore

# Datos de ejemplo: pesos de mujeres y hombres
famela_weight
male_weight

# Calcula la media y la desviación estándar para cada grupo
mean_female = np.mean(famela_weight)
std_female = np.std(famela_weight, ddof=1)  # Usamos ddof=1 para calcular la desviación estándar muestral

mean_male = np.mean(male_weight)
std_male = np.std(male_weight, ddof=1)

# Calcula el estadístico Z para la comparación entre grupos
z_statistic = (mean_female - mean_male) / np.sqrt((std_female**2 / len(famela_weight)) + (std_male**2 / len(male_weight)))

# Calcula el valor p (p-value) para la prueba Z
p_value = 2 * (1 - norm.cdf(np.abs(z_statistic)))

print("Estadístico Z:", z_statistic)
print("Valor p (p-value):", p_value)

Sin embargo, es importante tener en cuenta que la aproximación entre las pruebas T y Z no siempre es exacta y puede depender del tamaño de la muestra, los supuestos de los datos y el nivel de significancia establecido. En casos con tamaños de muestra más pequeños o datos con características específicas, es posible que las diferencias entre ambas pruebas sean más notables.

José Pablo Cabrera Romo

student•

No obstante, para la mayoría de las situaciones prácticas en las que no se conoce la desviación estándar poblacional, la prueba T es la opción adecuada y está disponible en scipy.stats que es la función utilizada en el ejemplo: scipy.stats.ttest_ind(). Si se tiene una muestra grande (más de 30 observaciones por cada grupo) y se desconoce la desviación estándar poblacional, la prueba T puede ser utilizada de manera confiable y es una aproximación adecuada a la prueba Z, ya que scipy.stats no cuenta con una función para la prueba Z.

jhon velasque

student•

vimos los tipos de datos y su metodo metodo a aplicar:

mar : inputacion
mat : inputacion multiple
mnar: mejorar experimentos

Emmanuel Guerra Sánchez

student•

Hice una prueba de Mcnemar y me da el resultado contrario: existe un diferencia significativa en términos de tener o no tener la variable 'weight'.

Le pregunté a ChatGPT, y me confirmó que es una prueba enfocada en valores emparejados (es decir, debería haber un hombre por cada mujer). Lo dejo por acá por si algún curioso se le ocurre hacer la prueba también 😅

Neicer Vásquez

student•

Algo que no sabia con respecto a la prueba de hipótesis prueba-t es:

La prueba t-test es apropiada para comparar las medias de dos grupos independientemente del tamaño de la muestra, siempre y cuando se cumplan las suposiciones de normalidad y homogeneidad de varianzas.

Rubén Téllez Gerardo

student•

Debido a que estamos comparando 2 variables categóricas (booleanas), creo que usar t-test, cuyo fundamento solicita comprar variables continuas, es un grabe error.

Una alternativa es usar Chi cuadrada (scipy.stats.chi2_contingency).

Se puede obtener la tabla cruzada para la prueba con pd.crosstab(df.categorica1, df.categorica2).

Mario Alexander Vargas Celis

student•

Existen tres tipos principales de mecanismos de valores faltantes que tienen implicaciones diferentes en los análisis de datos: **MCAR (Missing Completely at Random)**, **MAR (Missing at Random)** y **MNAR (Missing Not at Random)**. Cada uno de estos mecanismos impacta la forma en que se manejan los datos y puede influir en los resultados de los análisis y modelos.

### 1. **Missing Completely at Random (MCAR)**

**Definición**: Los valores faltantes son completamente aleatorios y no dependen de los valores de otras variables ni de la propia variable que contiene el valor faltante.

**Implicaciones**:

- **No sesgo**: Cuando los datos faltan de manera completamente aleatoria, no introducen sesgo en el análisis. La eliminación de datos (listwise o pairwise) no afectará la validez de las conclusiones.

- **Métodos**: Es el caso más fácil de tratar. Se pueden eliminar filas o imputar sin riesgo de sesgo.

**Ejemplo**: Una encuesta en la que algunas personas no respondieron debido a que la pregunta fue omitida por error de diseño, sin que esto dependa de ninguna característica de las personas.

### 2. **Missing at Random (MAR)**

**Definición**: La probabilidad de que falte un dato depende de otras variables en el conjunto de datos, pero no del valor de la variable que falta en sí.

**Implicaciones**:

- **Sesgo moderado**: Si los valores faltantes están relacionados con otras variables observadas, ignorar o eliminar datos podría sesgar los resultados.

- **Métodos**: El sesgo puede minimizarse utilizando técnicas de **imputación múltiple** o modelos predictivos que tengan en cuenta las otras variables relacionadas.

**Ejemplo**: En un estudio médico, es posible que las personas mayores tiendan a omitir respuestas a preguntas sobre el uso de tecnología. Aunque la edad no afecta directamente la pregunta faltante, es un factor asociado con la ausencia de datos.

### 3. **Missing Not at Random (MNAR)**

**Definición**: La falta de datos está directamente relacionada con el valor de la variable que falta. Es decir, el hecho de que falte un dato depende del propio valor que no se observó.

**Implicaciones**:

- **Sesgo significativo**: Si los valores faltan sistemáticamente debido a su valor real, eliminar o ignorar estos datos sin una estrategia adecuada puede producir sesgos severos en el análisis.

- **Métodos**: Este tipo de valores faltantes es el más difícil de tratar. Puede ser necesario realizar estudios adicionales o recoger más datos. Las imputaciones basadas en modelos pueden intentar estimar los valores faltantes, pero el sesgo es difícil de eliminar completamente.

**Ejemplo**: En un estudio sobre ingresos, las personas con ingresos más altos podrían ser menos propensas a revelar esa información, haciendo que los ingresos altos estén sistemáticamente ausentes del conjunto de datos.

### **Resumen de implicaciones y estrategias**:

| Tipo de faltante | Implicación | Estrategia de manejo |

|------------------|-------------|----------------------|

| **MCAR** | No hay sesgo si los datos se eliminan. | Se pueden eliminar filas o columnas sin afectar el análisis. |

| **MAR** | Existe sesgo si no se maneja adecuadamente. | Imputación múltiple o modelado considerando variables relacionadas. |

| **MNAR** | Sesgo significativo, más difícil de tratar. | Recoger más datos o usar técnicas avanzadas de imputación/modelado. |

### Elección de método:

- Para **MCAR**, la eliminación de datos suele ser adecuada.

- Para **MAR**, la **imputación múltiple** o los **modelos predictivos** pueden reducir el sesgo.

- Para **MNAR**, es crucial entender la causa de los valores faltantes. Los métodos de imputación predictiva pueden ayudar, pero es posible que se necesiten técnicas especializadas.

Conocer el mecanismo de los valores faltantes es fundamental para elegir la estrategia de limpieza de datos más adecuada y minimizar el impacto en los análisis.

Mario Alexander Vargas Celis

student•

Implicaciones de los distintos tipos de valores faltantes

Daniel Moreno

student•

La elección entre una prueba T y una prueba Z depende de ciertos factores relacionados con las características de los datos y las hipótesis que se desean probar. Aquí te explico en qué casos se utiliza cada una:

Prueba T

Uso principal: La prueba T se utiliza cuando se comparan las medias de dos grupos, especialmente cuando el tamaño de la muestra es pequeño o cuando no se conoce la desviación estándar de la población.

Características y requisitos:

Tamaño de muestra pequeño: Generalmente, se utiliza cuando el tamaño de la muestra es menor a 30.
Desviación estándar desconocida: Se aplica cuando no se conoce la desviación estándar de la población y se usa la desviación estándar de la muestra como una estimación.
Distribución normal: Asume que los datos se distribuyen aproximadamente de manera normal, aunque es robusta para ligeras desviaciones de la normalidad.
Tipos de prueba T:
- Prueba T para muestras independientes: Compara las medias de dos grupos independientes.
- Prueba T para muestras relacionadas (o pareadas): Compara las medias de dos grupos relacionados, como en estudios pre y post tratamiento.
- Prueba T para una muestra: Compara la media de una muestra con un valor conocido o supuesto de la población.

Prueba Z

Uso principal: La prueba Z se usa para comparar las medias cuando el tamaño de la muestra es grande y la desviación estándar de la población es conocida. También se utiliza para proporciones en muestras grandes.

Características y requisitos:

Tamaño de muestra grande: Generalmente, se utiliza cuando el tamaño de la muestra es 30 o más.
Desviación estándar conocida: Se aplica cuando se conoce la desviación estándar de la población.
Distribución normal o gran tamaño de muestra: La prueba Z asume que los datos siguen una distribución normal o que el tamaño de la muestra es suficientemente grande para que el teorema del límite central garantice una aproximación normal.
Tipos de prueba Z:
- Prueba Z para una muestra: Compara la media de una muestra con una media conocida de la población.
- Prueba Z para dos muestras: Compara las medias de dos muestras independientes grandes.
- Prueba Z para proporciones: Compara proporciones para una o dos muestras.

Resumen

Prueba T: Tamaños de muestra pequeños, desviación estándar desconocida, datos aproximadamente normales.
Prueba Z: Tamaños de muestra grandes, desviación estándar conocida, o comparación de proporciones.

En general, cuando el tamaño de la muestra es grande y se conoce la desviación estándar de la población, se prefiere la prueba Z debido a su simplicidad y precisión. Sin embargo, en situaciones donde estas condiciones no se cumplen, la prueba T es una alternativa confiable y robusta.

Pablo Alejandro Figueroa

student•

++chat PPV++

Mecanismos de Pérdida de Datos

MCAR, MAR y MNAR son abreviaturas utilizadas en el contexto de datos faltantes para describir diferentes patrones de ausencia de datos.

MCAR (Missing Completely At Random):

MCAR se refiere a la situación en la que la probabilidad de que un dato falte es completamente aleatoria y no está relacionada con ninguna de las variables observadas o no observadas. En términos simples, la falta de datos no está relacionada con los propios datos o con la variable de interés. Cuando los datos son MCAR, la pérdida de observaciones no introduce sesgo en los análisis.

MAR (Missing At Random):

MAR implica que la probabilidad de que un dato falte puede depender de las variables observadas, pero no depende de las variables no observadas. Aunque la ausencia de datos no es completamente aleatoria, se puede explicar mediante las variables que se han observado. Dado que la falta de datos puede depender de variables observadas, se pueden aplicar técnicas de imputación para estimar los datos faltantes y reducir el sesgo.

MNAR (Missing Not At Random o Missing Nonrandom):

MNAR significa que la probabilidad de que un dato falte está relacionada con las variables no observadas. En este caso, la ausencia de datos no se puede explicar completamente mediante las variables observadas, y la falta de datos puede depender de información no recopilada. La situación MNAR puede introducir sesgo significativo y puede ser más difícil de abordar en comparación con MCAR o MAR.

Es importante comprender el mecanismo de pérdida de datos al analizar o imputar datos faltantes, ya que esto afecta las conclusiones y la validez de los resultados. Además, la identificación correcta del mecanismo puede influir en la elección de las técnicas de imputación y en la interpretación de los análisis.

Implicaciones de Eliminar o Imputar Datos Faltantes

Eliminar valores faltantes e imputar valores faltantes son dos enfoques diferentes para abordar la presencia de datos faltantes, y cada uno tiene sus propias implicaciones. Aquí están las implicaciones para cada uno de los tres mecanismos de datos faltantes (MCAR, MAR y MNAR):

MCAR (Missing Completely At Random):

Eliminar valores faltantes: Si los datos son MCAR, eliminar observaciones con datos faltantes no sesga las conclusiones. Sin embargo, esto podría reducir el tamaño de la muestra y, por lo tanto, la precisión de las estimaciones.
Imputar valores faltantes: En el caso de MCAR, la imputación puede proporcionar estimaciones válidas si se realiza adecuadamente. Las técnicas de imputación pueden ayudar a mantener el tamaño de la muestra y la potencia del análisis.

MAR (Missing At Random):

Eliminar valores faltantes: Eliminar datos faltantes podría introducir sesgo si la falta de datos está relacionada con variables observadas. Además, la pérdida de información puede afectar la validez de los resultados.
Imputar valores faltantes: Imputar datos faltantes basándose en variables observadas puede ayudar a reducir el sesgo. Sin embargo, la validez de las conclusiones depende de la calidad del modelo de imputación y de la validez de la hipótesis de "datos faltantes al azar".

MNAR (Missing Not At Random o Missing Nonrandom):

Eliminar valores faltantes: Eliminar datos faltantes puede introducir sesgo significativo porque la ausencia de datos está relacionada con información no recopilada.
Imputar valores faltantes: Imputar datos en el caso de MNAR puede ser más desafiante. Es difícil capturar la relación entre los datos faltantes y la información no observada. La imputación en este escenario puede llevar a sesgos y resultados erróneos si no se maneja adecuadamente.

En general, la imputación de datos faltantes puede ser preferible a eliminar observaciones, ya que mantiene el tamaño de la muestra y puede mejorar la validez de los resultados. Sin embargo, la calidad de la imputación es crucial, y se debe realizar con precaución, especialmente cuando se sospecha que los datos faltantes no son completamente aleatorios (MAR o MNAR). En todos los casos, la transparencia en el informe y la justificación de los métodos utilizados son esenciales para garantizar la confianza en los resultados.

Manejo Adecuado de la Imputación de Datos Faltantes

El manejo adecuado de la imputación de valores faltantes depende del mecanismo subyacente de los datos faltantes (MCAR, MAR o MNAR). Aquí te proporciono algunas consideraciones y enfoques para la imputación en cada caso:

MCAR (Missing Completely At Random):

Enfoque: La imputación múltiple es comúnmente utilizada en el caso MCAR. Se generan múltiples conjuntos de datos imputados, cada uno reflejando una posible realización de los datos faltantes. Luego, se combinan los resultados de análisis realizados en cada conjunto imputado.
Software: Herramientas como MICE (Multiple Imputation by Chained Equations) en R o PROC MI en SAS son utilizadas para implementar imputación múltiple.

MAR (Missing At Random):

Enfoque: La imputación basada en modelos es útil para el caso MAR, donde la probabilidad de datos faltantes depende de variables observadas. Puedes utilizar modelos predictivos para imputar los valores faltantes basándote en otras variables observadas.
Software: Técnicas como regresión lineal, regresión logística o modelos de imputación múltiple basados en ecuaciones encadenadas (como MICE) son apropiadas.

MNAR (Missing Not At Random o Missing Nonrandom):

Enfoque: La imputación en el caso MNAR puede ser desafiante porque implica la falta de datos relacionada con información no observada. En este caso, se pueden utilizar métodos de imputación específicos para abordar el sesgo potencial, como el modelado conjunto de las variables observadas y no observadas.
Software: Técnicas avanzadas como modelos de selección de muestras (por ejemplo, modelos de selección múltiple) o enfoques de imputación basados en modelos específicos para MNAR pueden ser explorados.

En términos generales, independientemente del mecanismo, es esencial seguir buenas prácticas en la imputación de datos faltantes:

Entender el Mecanismo de Pérdida de Datos: Realizar un análisis exploratorio para comprender el patrón de datos faltantes y evaluar si los datos son MCAR, MAR o MNAR.
Transparencia en el Informe: Describir claramente los métodos utilizados para la imputación y proporcionar detalles sobre el proceso en los informes y documentos relacionados con el análisis.
Sensibilidad al Método de Imputación: Realizar análisis de sensibilidad para evaluar cómo los resultados varían según diferentes métodos de imputación.
Validación de Imputación: Evaluar la validez de los resultados utilizando métodos de validación interna y externa para garantizar que la imputación no haya introducido sesgo indebido.
Consultar con Expertos en el Dominio: En situaciones complejas, es útil trabajar con expertos en el dominio para garantizar que la imputación refleje adecuadamente la realidad del fenómeno estudiado.

Recuerda que no hay una solución única para todos los casos, y la elección del enfoque de imputación debe basarse en la naturaleza de los datos y el conocimiento del problema específico.

Ferney Mauricio Calderon

student•

import numpy as np
from scipy.stats import norm, zscore

# Datos de ejemplo: pesos de mujeres y hombres
famela_weight
male_weight

# Calcula la media y la desviación estándar para cada grupo
mean_female = np.mean(famela_weight)
std_female = np.std(famela_weight, ddof=1)  # Usamos ddof=1 para calcular la desviación estándar muestral

mean_male = np.mean(male_weight)
std_male = np.std(male_weight, ddof=1)

# Calcula el estadístico Z para la comparación entre grupos
z_statistic = (mean_female - mean_male) / np.sqrt((std_female**2 / len(famela_weight)) + (std_male**2 / len(male_weight)))

# Calcula el valor p (p-value) para la prueba Z
p_value = 2 * (1 - norm.cdf(np.abs(z_statistic)))

print("Estadístico Z:", z_statistic)
print("Valor p (p-value):", p_value)

Implicaciones de los distintos tipos de valores faltantes

Problemática de valores faltantes

El problema de trabajar con valores faltantes

Proceso de análisis y limpieza de datos

Visualizar y eliminar valores faltantes