No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende Ingl茅s, Programaci贸n, AI, Ciberseguridad y m谩s a precio especial.

Antes: $249

Currency
$209
Suscr铆bete

Termina en:

1 D铆as
22 Hrs
52 Min
43 Seg

Implicaciones de los distintos tipos de valores faltantes

4/17
Recursos

Aportes 14

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Copiar y pegar ( si quieren obvio xD sino no)

MCAR

La localizaci贸n de los valores faltantes en el conjunto de datos ocurren completamente al azar, estos no dependen de ning煤n otro dato

Eliminaci贸n de valores faltantes

  • Reducci贸n del tama帽o de muestra.
  • Inferencia limitada.
  • No produce sesgos

Imputaci贸n de valores faltantes

  • De hacerlo bien, no produce sesgos
  • La imputaci贸n es recomendada sobre la deleci贸n.

MAR

La localizaci贸n de los valores faltantes en el conjunto de datos dependen de otros valores observados.

Eliminaci贸n de valores faltantes

  • Ignorarlos produce sesgos

Imputaci贸n de valores faltantes

  • La mayor parte de m茅todos de imputaci贸n asumen MAR
  • La imputaci贸n es necesaria

MNAR

La localizaci贸n de los valores faltantes en el conjunto de datos dependen de otros valores faltantes en s铆 mismos.

Eliminaci贸n de valores faltantes

  • Ignorarlos produce sesgos

Imputaci贸n de valores faltantes

  • La imputaci贸n es recomendada sobre la deleci贸n.

馃挕 Mejorar experimentos o realizar an谩lisis de sensibilidad (repetir los experimentos, explorar los par谩metros, ver como cambian los an谩lisis al modificar algunos datos y establecer intervalos de confianza)

A ver, la interpretaci贸n del profesor esta mal en todo aspecto, estad铆sticamente si rechazas 鈥渘o rechazas la hipotesis nula鈥 quiere decir que hay igualdad de medias por lo que la interpretacion correcta es que 鈥渘o hay diferencias鈥

Sin embargo realizar una prueba t de student as铆 sin mas es algo que estad铆sticamente esta muy mal hecho, porque para empezar los dataframes tienen mas de 30 observaciones (filas) por lo que se deberia usar una prueba Z en lugar de t de student, las pruebas t de student son para muestras peque帽as (menores a 30)

por otro lado para utilizar una prueba t o Z se debe verificar que las muestras (en este caso los dataframes) se distribuyan normal, que se cumpla el supuesto de homocedaticidad (que tengan igual varianza)

EN conclusi贸n, a nivel de c贸digo y experiencia empirica los profesores de PLATZI son muy buenos, sin embargo les falta el componente estad铆stico, simplemente aplican cosas estadisticas y ya sin conocer la teoria que esta detras de todo.

Soy estudiante de 8vo semestre de estad铆stica y en muchos cursos he visto a los profesores cometer errores conceptuales y aplicar metodos de forma incorrecta.

Tuve que preguntarle a ChatGPT porque no entend铆 bien el tema, pero ahora me ha quedado claro:

El c贸digo realiza una prueba t-test independiente usando la funci贸n ttest_ind del m贸dulo scipy.stats. La prueba t-test comparar谩 la media de dos grupos de datos y determinar谩 si existe una diferencia significativa entre ellos.

El primer argumento a es el primer grupo de datos (female_weight) y el segundo argumento b es el segundo grupo de datos (male_weight).

El argumento alternative especifica el tipo de hip贸tesis nula a probar, en este caso 鈥渢wo-sided鈥 indica que se est谩 realizando una prueba two-tailed, es decir, se est谩 investigando si existe una diferencia significativa entre las dos medias, sin importar en qu茅 direcci贸n.

El resultado es el valor estad铆stico y el valor p del test t-test independiente entre dos grupos 鈥渇emale_weight鈥 y 鈥渕ale_weight鈥. La hip贸tesis nula es que la media de ambos grupos es igual.

El valor p obtenido es de 0.717, lo que sugiere que no hay suficiente evidencia para rechazar la hip贸tesis nula. Por lo tanto, no se puede concluir que la media de los dos grupos sea diferente.

El valor absoluto del estad铆stico t, 0.362, es bajo, lo que indica que las diferencias entre los dos grupos son poco significativas.

Prueba T y Prueba Z

Suponiendo que se hayan cumplido los supuestos de que los datos esten distribuidos normalmente y que ambas muestras tengan varianzas iguales, es posible usar la prueba t student para muestras grandes. Cuando n > 30, la distribucion t se aproxima a la distribucion normal y lo mas relevante es que la infuencia de los grados de libertad en la forma de la distribucion gradualmente se vuelve nula. Es por ello que ningun paquete estadistico establece una regla para elegir entre la prueba t y la prueba z. La prueba t se propuso para superar la incapacidad de la prueba z para muestras peque帽as pero esto no quiere decir que no aplique tambien para muestras grandes. En cambio, la prueba t gana mas poder cuando el tama帽o de la muestra se hace cada vez mas grande

Esta clase en particular me result贸 est铆mulante porque me hizo ruido:

  • no se explica bien la Hip贸tesis Nula
  • no se explica bien la Hip贸tesis Altenativa
  • (no me vengan con que eso se explica en otros cursos, por que en un curso de geograf铆a yo no puedo decir que 2 m谩s 2 es 5 y si quer茅s saber anda al curso de matem谩tica que te explico que 2 m谩s 2 es 4)

  • al optar por 鈥渢wo-sided鈥 las hip贸tesis quedar铆an as铆:
    • H0: Las medias de ambas muestras son iguales
    • H1: Las medias de ambas muestras NO son iguales.

  • si el p-valor es mayor que el nivel de significancia (alfa) elegido entonces decimos que no existe evidencia suficiente para rechazar la Hip贸tesis Nula. Por eso la importancia de definir correctamente la H0.



Hacer una prueba estad铆stica para establecer si existe o no una diferencia en la presencia o ausencia de valores de peso
驴Entonces para que vamos a hacer la prueba estad铆stica?
para 鈥渆stablecer鈥 la existencia de una diferencia en la presencia de valores de peso?
para 鈥渆stablecer鈥 la NO existencia de una diferencia en la presencia de valores de peso?
para 鈥渆stablecer鈥 la existencia de una diferencia en la usencia de valores de peso?
para 鈥渆stablecer鈥 la existencia de una diferencia en la usencia de valores de peso?
diferencia de que tipo? diferencia de medias.



Hasta donde tengo entendido el estad铆stico usado NO es para variables dicot贸micas, y aunque arroje un resultado (dado que a False le asigna 0 y a True 1) dicho resultado es de ning煤n valor, porque est谩 mal conceptualmente la aplicaci贸n del t-test

No la prueba t student no es para poblaciones tan grandes? Creo que estad铆sticamente est谩 mal implementado

Decid铆 probar tambi茅n con la prueba Z y el resultado es 鈥減r谩cticamente鈥 el mismo que se obtuvo con la prueba T. La diferencia entre el valor del estad铆stico y el valor p (p-value) es muy peque帽a, lo que indica una concordancia cercana entre ambos m茅todos de prueba.

Dejo el c贸digo por si quieren realizar la prueba.

import numpy as np
from scipy.stats import norm, zscore

# Datos de ejemplo: pesos de mujeres y hombres
famela_weight
male_weight

# Calcula la media y la desviaci贸n est谩ndar para cada grupo
mean_female = np.mean(famela_weight)
std_female = np.std(famela_weight, ddof=1)  # Usamos ddof=1 para calcular la desviaci贸n est谩ndar muestral

mean_male = np.mean(male_weight)
std_male = np.std(male_weight, ddof=1)

# Calcula el estad铆stico Z para la comparaci贸n entre grupos
z_statistic = (mean_female - mean_male) / np.sqrt((std_female**2 / len(famela_weight)) + (std_male**2 / len(male_weight)))

# Calcula el valor p (p-value) para la prueba Z
p_value = 2 * (1 - norm.cdf(np.abs(z_statistic)))

print("Estad铆stico Z:", z_statistic)
print("Valor p (p-value):", p_value)

Sin embargo, es importante tener en cuenta que la aproximaci贸n entre las pruebas T y Z no siempre es exacta y puede depender del tama帽o de la muestra, los supuestos de los datos y el nivel de significancia establecido. En casos con tama帽os de muestra m谩s peque帽os o datos con caracter铆sticas espec铆ficas, es posible que las diferencias entre ambas pruebas sean m谩s notables.

Informaci贸n:


El t-test, o prueba t de Student, es una herramienta estad铆stica utilizada para comparar las medias de dos grupos y determinar si hay una diferencia significativa entre ellas. Hay diferentes variantes del t-test, y las opciones 鈥渢wo-sided鈥 (de dos lados), 鈥渓ess鈥 (menor) y 鈥済reater鈥 (mayor) se refieren a la direcci贸n de la diferencia que se est谩 evaluando. Aqu铆 hay una explicaci贸n para cada caso:

Two-sided (de dos lados):

  • Hip贸tesis nula (H0): No hay diferencia significativa entre las medias de los dos grupos.
  • Hip贸tesis alternativa (H1): Hay una diferencia significativa entre las medias de los dos grupos, ya sea que una sea mayor o menor que la otra.

En este caso, la prueba eval煤a si hay evidencia suficiente para rechazar la hip贸tesis nula en favor de la hip贸tesis alternativa, independientemente de la direcci贸n de la diferencia.

Less (menor):

  • Hip贸tesis nula (H0): La media del primer grupo es mayor o igual que la del segundo grupo.
  • Hip贸tesis alternativa (H1): La media del primer grupo es significativamente menor que la del segundo grupo.

Esta opci贸n se utiliza cuando se tiene una hip贸tesis espec铆fica sobre la direcci贸n de la diferencia, y est谩s interesado en determinar si la media de un grupo es significativamente menor que la del otro.

Greater (mayor):

  • Hip贸tesis nula (H0): La media del primer grupo es menor o igual que la del segundo grupo.
  • Hip贸tesis alternativa (H1): La media del primer grupo es significativamente mayor que la del segundo grupo.

Similar a 鈥渓ess鈥, esta opci贸n se utiliza cuando se tiene una hip贸tesis espec铆fica sobre la direcci贸n de la diferencia, y est谩s interesado en determinar si la media de un grupo es significativamente mayor que la del otro.

(estar谩 otra vez en proceso de revisi贸n鈥?)

vimos los tipos de datos y su metodo metodo a aplicar:

  • mar : inputacion
  • mat : inputacion multiple
  • mnar: mejorar experimentos
Leyendo comentario de compa帽eros me motive en realizar analisis extras con la ayuda de ChatGPT. 1\. Prueba de Normalidad (Test de Shapiro-Wilk) `from scipy.stats import shapiro` `# Filtrar los datos para eliminar valores NaN, ya que la prueba de Shapiro-Wilk no los manejaweights = nhanes_df['weight'].dropna()` `# Realizar el test de Shapiro-Wilkstat, p = shapiro(weights)print('Statistics=%.3f, p=%.3f' % (stat, p))` `# Interpretar el resultadoif p > 0.05:聽 聽 print('La muestra parece provenir de una distribuci贸n normal (no se rechaza H0)')else:聽 聽 print('La muestra no parece provenir de una distribuci贸n normal (se rechaza H0)')` Resultado: Statistics=0.943, p=0.000 Interpretaci贸n: La prueba de Shapiro-Wilk rechaza la hip贸tesis nula de normalidad, indicando que los datos de peso no siguen una distribuci贸n normal. La advertencia que se muestra sugiere que el valor p puede no ser preciso debido a que el tama帽o de la muestra supera los 5000 registros. En tales casos, es com煤n que la prueba de Shapiro-Wilk muestre una sensibilidad alta a las desviaciones de la normalidad debido al gran tama帽o de la muestra. 2.Prueba de Homocedasticidad (Test de Levene) `from scipy.stats import levene` `# Obtener grupos de datos por g茅nerogroup_female = nhanes_df[nhanes_df['gender'] == 'Female']['weight'].dropna()group_male = nhanes_df[nhanes_df['gender'] == 'Male']['weight'].dropna()` `# Realizar el test de Levenestat, p = levene(group_female, group_male)print('Statistics=%.3f, p=%.3f' % (stat, p))` `# Interpretar el resultadoif p > 0.05:聽 聽 print('Las varianzas son iguales entre los grupos (no se rechaza H0)')else:聽 聽 print('Las varianzas no son iguales entre los grupos (se rechaza H0)')` Resultado: Statistics=2.923, p=0.087 Interpretaci贸n: El resultado de la prueba de Levene indica que no hay evidencia suficiente para rechazar la hip贸tesis nula, lo que sugiere que las varianzas entre los grupos de g茅nero son iguales. Esto es bueno para los an谩lisis subsiguientes que asuman igualdad de varianzas entre grupos. 3.Prueba t de Student para muestras independientes (con ajuste para varianzas desiguales) `from scipy.stats import ttest_ind` `# Realizar la prueba t de Student con ajuste para varianzas desigualesstat, p = ttest_ind(group_female, group_male, equal_var=False)print('Statistics=%.3f, p=%.3f' % (stat, p))` `# Interpretar el resultadoif p > 0.05:聽 聽 print('No hay diferencia significativa en las medias de los pesos entre g茅neros (no se rechaza H0)')else:聽 聽 print('Existe una diferencia significativa en las medias de los pesos entre g茅neros (se rechaza H0)')` Resultado: Statistics=-22.367, p=0.000 Interpretaci贸n: La prueba t para muestras independientes muestra un resultado estad铆sticamente significativo, lo que indica que hay una diferencia significativa en las medias de los pesos entre g茅neros. Dado que la p es extremadamente baja, podemos rechazar con confianza la hip贸tesis nula de igualdad de medias. \## Implicaciones y Pasos Adicionales Dado que la prueba de Shapiro-Wilk mostr贸 que los datos no son normales, es importante considerar el uso de m茅todos no param茅tricos como alternativa a la prueba t de Student, especialmente cuando se tratan grandes muestras. Aunque la prueba de Levene sugiri贸 homocedasticidad, la falta de normalidad podr铆a afectar la validez de la prueba t. \## Correccion de la logica detras del codigo que nos proporciono el profesor `from scipy import stats` `# Filtrar los datos para seleccionar solo las columnas de g茅nero y peso y eliminar valores NaNweights_df = nhanes_df[['gender', 'weight']].dropna()` `# Separar los pesos por g茅nerofemale_weight = weights_df[weights_df['gender'] == 'Female']['weight']male_weight = weights_df[weights_df['gender'] == 'Male']['weight']` `# Determinar el tama帽o de la muestra seguro para realizar pruebas de normalidadsample_size = min(5000, len(female_weight), len(male_weight))` `# Verificar la normalidad de las distribuciones de peso si el tama帽o de la muestra es suficienteif sample_size > 0:聽 聽 print("Normalidad (Female):", stats.shapiro(female_weight.sample(sample_size, random_state=1)))聽 聽 print("Normalidad (Male):", stats.shapiro(male_weight.sample(sample_size, random_state=1)))` `聽 聽 # Realizar una prueba t de Student para muestras independientes (si ambos grupos son normales)聽 聽 # o usar Mann-Whitney si no se cumple la normalidad聽 聽 if stats.shapiro(female_weight.sample(sample_size, random_state=1))[1] > 0.05 and stats.shapiro(male_weight.sample(sample_size, random_state=1))[1] > 0.05:聽 聽 聽 聽 print("Prueba t de Student:", stats.ttest_ind(female_weight, male_weight, equal_var=True))聽 聽 else:聽 聽 聽 聽 print("Prueba de Mann-Whitney:", stats.mannwhitneyu(female_weight, male_weight))else:聽 聽 print("No hay suficientes datos para realizar la prueba.")` Los resultados que has obtenido de las pruebas de Shapiro-Wilk y de Mann-Whitney U son muy informativos y permiten tomar decisiones sobre c贸mo proceder con el an谩lisis de tus datos: ### Resultados de la Prueba de Normalidad (Shapiro-Wilk) * **Femenino:** Estad铆stico = 0.918, Valor p = 4.799e-36 * **Masculino:** Estad铆stico = 0.944, Valor p = 7.328e-31 Ambos grupos muestran un valor p extremadamente peque帽o, lo cual indica que debemos rechazar la hip贸tesis nula de que los datos se distribuyen normalmente para ambos g茅neros. Esto confirma que los pesos, tanto en hombres como en mujeres, no siguen una distribuci贸n normal. ### Implicaciones La falta de normalidad en las distribuciones de peso sugiere que m茅todos estad铆sticos que asumen normalidad, como la prueba t de Student para muestras independientes, no son apropiados en este caso. Esto justifica el uso de m茅todos no param茅tricos, que no requieren la suposici贸n de normalidad. ### Resultado de la Prueba de Mann-Whitney * **Estad铆stico de Mann-Whitney U = 2403846.5** * **Valor p 鈮 0.000 (6.131e-130)** El resultado extremadamente significativo del valor p en la prueba de Mann-Whitney U indica que hay una diferencia significativa en las distribuciones de peso entre los g茅neros. Podemos concluir que la distribuci贸n del peso es distinta entre hombres y mujeres en tu muestra de datos. ### Conclusiones y Pasos Siguientes 1. **Diferencias Significativas:** El an谩lisis confirma que existen diferencias estad铆sticamente significativas en el peso entre g茅neros, las cuales son robustas dado que no dependen de supuestos de normalidad. 2. **Exploraci贸n de Factores Contribuyentes:** Puedes investigar m谩s a fondo qu茅 factores podr铆an estar contribuyendo a estas diferencias. Por ejemplo, considerar variables relacionadas con el estilo de vida, salud general, y factores socioecon贸micos. 3. **An谩lisis Adicional:** Dado que se confirmaron diferencias en la distribuci贸n de los pesos, ser铆a 煤til realizar an谩lisis adicionales para entender la naturaleza de estas diferencias, como calcular medias, medianas, modas, y quiz谩s realizar an谩lisis de percentiles para entender mejor la estructura de los datos. 4. **Visualizaci贸n de Datos:** Ser铆a 煤til visualizar las distribuciones de peso para cada g茅nero usando histogramas, box plots o gr谩ficos de densidad para obtener una representaci贸n visual clara de c贸mo se comparan las distribuciones. Este enfoque integral no solo confirma las diferencias entre grupos, sino que tambi茅n establece una base s贸lida para investigaciones m谩s detalladas que puedan explicar por qu茅 existen estas diferencias y c贸mo se podr铆an abordar en contextos aplicados como la salud p煤blica o el desarrollo de pol铆ticas.

chat PPV

Mecanismos de P茅rdida de Datos

MCAR, MAR y MNAR son abreviaturas utilizadas en el contexto de datos faltantes para describir diferentes patrones de ausencia de datos.

MCAR (Missing Completely At Random):

MCAR se refiere a la situaci贸n en la que la probabilidad de que un dato falte es completamente aleatoria y no est谩 relacionada con ninguna de las variables observadas o no observadas. En t茅rminos simples, la falta de datos no est谩 relacionada con los propios datos o con la variable de inter茅s. Cuando los datos son MCAR, la p茅rdida de observaciones no introduce sesgo en los an谩lisis.

MAR (Missing At Random):

MAR implica que la probabilidad de que un dato falte puede depender de las variables observadas, pero no depende de las variables no observadas. Aunque la ausencia de datos no es completamente aleatoria, se puede explicar mediante las variables que se han observado. Dado que la falta de datos puede depender de variables observadas, se pueden aplicar t茅cnicas de imputaci贸n para estimar los datos faltantes y reducir el sesgo.

MNAR (Missing Not At Random o Missing Nonrandom):

MNAR significa que la probabilidad de que un dato falte est谩 relacionada con las variables no observadas. En este caso, la ausencia de datos no se puede explicar completamente mediante las variables observadas, y la falta de datos puede depender de informaci贸n no recopilada. La situaci贸n MNAR puede introducir sesgo significativo y puede ser m谩s dif铆cil de abordar en comparaci贸n con MCAR o MAR.

Es importante comprender el mecanismo de p茅rdida de datos al analizar o imputar datos faltantes, ya que esto afecta las conclusiones y la validez de los resultados. Adem谩s, la identificaci贸n correcta del mecanismo puede influir en la elecci贸n de las t茅cnicas de imputaci贸n y en la interpretaci贸n de los an谩lisis.

Implicaciones de Eliminar o Imputar Datos Faltantes

Eliminar valores faltantes e imputar valores faltantes son dos enfoques diferentes para abordar la presencia de datos faltantes, y cada uno tiene sus propias implicaciones. Aqu铆 est谩n las implicaciones para cada uno de los tres mecanismos de datos faltantes (MCAR, MAR y MNAR):

MCAR (Missing Completely At Random):

  • Eliminar valores faltantes: Si los datos son MCAR, eliminar observaciones con datos faltantes no sesga las conclusiones. Sin embargo, esto podr铆a reducir el tama帽o de la muestra y, por lo tanto, la precisi贸n de las estimaciones.

  • Imputar valores faltantes: En el caso de MCAR, la imputaci贸n puede proporcionar estimaciones v谩lidas si se realiza adecuadamente. Las t茅cnicas de imputaci贸n pueden ayudar a mantener el tama帽o de la muestra y la potencia del an谩lisis.

MAR (Missing At Random):

  • Eliminar valores faltantes: Eliminar datos faltantes podr铆a introducir sesgo si la falta de datos est谩 relacionada con variables observadas. Adem谩s, la p茅rdida de informaci贸n puede afectar la validez de los resultados.

  • Imputar valores faltantes: Imputar datos faltantes bas谩ndose en variables observadas puede ayudar a reducir el sesgo. Sin embargo, la validez de las conclusiones depende de la calidad del modelo de imputaci贸n y de la validez de la hip贸tesis de 鈥渄atos faltantes al azar鈥.

MNAR (Missing Not At Random o Missing Nonrandom):

  • Eliminar valores faltantes: Eliminar datos faltantes puede introducir sesgo significativo porque la ausencia de datos est谩 relacionada con informaci贸n no recopilada.

  • Imputar valores faltantes: Imputar datos en el caso de MNAR puede ser m谩s desafiante. Es dif铆cil capturar la relaci贸n entre los datos faltantes y la informaci贸n no observada. La imputaci贸n en este escenario puede llevar a sesgos y resultados err贸neos si no se maneja adecuadamente.

En general, la imputaci贸n de datos faltantes puede ser preferible a eliminar observaciones, ya que mantiene el tama帽o de la muestra y puede mejorar la validez de los resultados. Sin embargo, la calidad de la imputaci贸n es crucial, y se debe realizar con precauci贸n, especialmente cuando se sospecha que los datos faltantes no son completamente aleatorios (MAR o MNAR). En todos los casos, la transparencia en el informe y la justificaci贸n de los m茅todos utilizados son esenciales para garantizar la confianza en los resultados.

Manejo Adecuado de la Imputaci贸n de Datos Faltantes

El manejo adecuado de la imputaci贸n de valores faltantes depende del mecanismo subyacente de los datos faltantes (MCAR, MAR o MNAR). Aqu铆 te proporciono algunas consideraciones y enfoques para la imputaci贸n en cada caso:

MCAR (Missing Completely At Random):

  • Enfoque: La imputaci贸n m煤ltiple es com煤nmente utilizada en el caso MCAR. Se generan m煤ltiples conjuntos de datos imputados, cada uno reflejando una posible realizaci贸n de los datos faltantes. Luego, se combinan los resultados de an谩lisis realizados en cada conjunto imputado.

  • Software: Herramientas como MICE (Multiple Imputation by Chained Equations) en R o PROC MI en SAS son utilizadas para implementar imputaci贸n m煤ltiple.

MAR (Missing At Random):

  • Enfoque: La imputaci贸n basada en modelos es 煤til para el caso MAR, donde la probabilidad de datos faltantes depende de variables observadas. Puedes utilizar modelos predictivos para imputar los valores faltantes bas谩ndote en otras variables observadas.

  • Software: T茅cnicas como regresi贸n lineal, regresi贸n log铆stica o modelos de imputaci贸n m煤ltiple basados en ecuaciones encadenadas (como MICE) son apropiadas.

MNAR (Missing Not At Random o Missing Nonrandom):

  • Enfoque: La imputaci贸n en el caso MNAR puede ser desafiante porque implica la falta de datos relacionada con informaci贸n no observada. En este caso, se pueden utilizar m茅todos de imputaci贸n espec铆ficos para abordar el sesgo potencial, como el modelado conjunto de las variables observadas y no observadas.

  • Software: T茅cnicas avanzadas como modelos de selecci贸n de muestras (por ejemplo, modelos de selecci贸n m煤ltiple) o enfoques de imputaci贸n basados en modelos espec铆ficos para MNAR pueden ser explorados.

En t茅rminos generales, independientemente del mecanismo, es esencial seguir buenas pr谩cticas en la imputaci贸n de datos faltantes:

  • Entender el Mecanismo de P茅rdida de Datos: Realizar un an谩lisis exploratorio para comprender el patr贸n de datos faltantes y evaluar si los datos son MCAR, MAR o MNAR.

  • Transparencia en el Informe: Describir claramente los m茅todos utilizados para la imputaci贸n y proporcionar detalles sobre el proceso en los informes y documentos relacionados con el an谩lisis.

  • Sensibilidad al M茅todo de Imputaci贸n: Realizar an谩lisis de sensibilidad para evaluar c贸mo los resultados var铆an seg煤n diferentes m茅todos de imputaci贸n.

  • Validaci贸n de Imputaci贸n: Evaluar la validez de los resultados utilizando m茅todos de validaci贸n interna y externa para garantizar que la imputaci贸n no haya introducido sesgo indebido.

  • Consultar con Expertos en el Dominio: En situaciones complejas, es 煤til trabajar con expertos en el dominio para garantizar que la imputaci贸n refleje adecuadamente la realidad del fen贸meno estudiado.

Recuerda que no hay una soluci贸n 煤nica para todos los casos, y la elecci贸n del enfoque de imputaci贸n debe basarse en la naturaleza de los datos y el conocimiento del problema espec铆fico.

![](https://static.platzi.com/media/user_upload/image-7b19eab4-87f5-4d7a-a101-86525c0bca67.jpg)

4. Implicaciones de los distintos tipos de valores faltantes

female_weight, male_weight =(
    nhanes_df
    .select_columns('gender','weight')
    .transform_column(
        'weight',
        lambda x: x.isna(),
        elementwise=False
    )
    .groupby('gender')
    .weight
    .pipe(
        lambda df: (
            df.get_group('Female'),
            df.get_group('Male')
        )
    )
)
scipy.stats.ttest_ind(
    a = female_weight,
    b= male_weight,
    alternative='two-sided',
)