CursosEmpresasBlogLiveConfPrecios

Implicaciones de los distintos tipos de valores faltantes

Clase 4 de 17 • Curso de Manejo de Datos Faltantes: Imputación

Clase anteriorSiguiente clase

Contenido del curso

Problemática de valores faltantes
  • 1
    El problema de trabajar con valores faltantes

    El problema de trabajar con valores faltantes

    10:56
  • 2
    Proceso de análisis y limpieza de datos

    Proceso de análisis y limpieza de datos

    13:19
  • 3
    Visualizar y eliminar valores faltantes

    Visualizar y eliminar valores faltantes

    08:19
  • 4
    Implicaciones de los distintos tipos de valores faltantes

    Implicaciones de los distintos tipos de valores faltantes

    09:43
  • 5
    Amplía tu conjunto de herramientas para explorar valores faltantes

    Amplía tu conjunto de herramientas para explorar valores faltantes

    11:55
  • 6
    Tratamiento de variables categóricas para imputación: codificación ordinal

    Tratamiento de variables categóricas para imputación: codificación ordinal

    15:59
  • 7
    Tratamiento de variables categóricas para imputación: one-hot encoding

    Tratamiento de variables categóricas para imputación: one-hot encoding

    12:51
  • 8
    Métodos de imputación de valores faltantes

    Métodos de imputación de valores faltantes

    04:41
Imputación basada en el donante
  • 9
    Imputación por media, mediana y moda

    Imputación por media, mediana y moda

    10:22
  • 10
    Imputación por llenado hacia atrás y hacia adelante

    Imputación por llenado hacia atrás y hacia adelante

    09:20
  • 11
    Imputación por interpolación

    Imputación por interpolación

    11:46
  • 12
    Imputación por KNN

    Imputación por KNN

    04:34
  • 13
    Imputación por KNN en Python

    Imputación por KNN en Python

    12:01
Imputación basada en modelos
  • 14
    Introducción a la imputación basada en modelos

    Introducción a la imputación basada en modelos

    13:27
  • 15
    Imputaciones Múltiples por Ecuaciones Encadenadas (MICE)

    Imputaciones Múltiples por Ecuaciones Encadenadas (MICE)

    13:05
Conclusión
  • 16
    Transformación inversa de los datos

    Transformación inversa de los datos

    07:07
  • 17
    ¿Cómo continuar practicando?

    ¿Cómo continuar practicando?

    03:09
    Yonaikel M. Delgado N.

    Yonaikel M. Delgado N.

    student•
    hace 3 años

    A ver, la interpretación del profesor esta mal en todo aspecto, estadísticamente si rechazas "no rechazas la hipotesis nula" quiere decir que hay igualdad de medias por lo que la interpretacion correcta es que "no hay diferencias"

    Sin embargo realizar una prueba t de student así sin mas es algo que estadísticamente esta muy mal hecho, porque para empezar los dataframes tienen mas de 30 observaciones (filas) por lo que se deberia usar una prueba Z en lugar de t de student, las pruebas t de student son para muestras pequeñas (menores a 30)

    por otro lado para utilizar una prueba t o Z se debe verificar que las muestras (en este caso los dataframes) se distribuyan normal, que se cumpla el supuesto de homocedaticidad (que tengan igual varianza)

    EN conclusión, a nivel de código y experiencia empirica los profesores de PLATZI son muy buenos, sin embargo les falta el componente estadístico, simplemente aplican cosas estadisticas y ya sin conocer la teoria que esta detras de todo.

    Soy estudiante de 8vo semestre de estadística y en muchos cursos he visto a los profesores cometer errores conceptuales y aplicar metodos de forma incorrecta.

      Andres felipe Rojas parra

      Andres felipe Rojas parra

      student•
      hace 3 años

      Es recomendable completar este curso? (me interesa la teoria que esta detras de todo el codigo)

      Carolina Alvarez Murillo

      Carolina Alvarez Murillo

      student•
      hace 2 años

      Estoy de acuerdo contigo, estudio ingeniería de sistemas y he visto las materias de estadística 1 y 2. En este caso no se debería usar t de student y la interpretación deja mucho que pensar. En código se puede ver bien pero desde la parte estadística es raro.

    Carlos Mazzaroli

    Carlos Mazzaroli

    student•
    hace 3 años

    Copiar y pegar ( si quieren obvio xD sino no)

    MCAR

    La localización de los valores faltantes en el conjunto de datos ocurren completamente al azar, estos no dependen de ningún otro dato

    Eliminación de valores faltantes

    • Reducción del tamaño de muestra.
    • Inferencia limitada.
    • No produce sesgos

    Imputación de valores faltantes

    • De hacerlo bien, no produce sesgos
    • La imputación es recomendada sobre la deleción.

    MAR

    La localización de los valores faltantes en el conjunto de datos dependen de otros valores observados.

    Eliminación de valores faltantes

    • Ignorarlos produce sesgos

    Imputación de valores faltantes

    • La mayor parte de métodos de imputación asumen MAR
    • La imputación es necesaria

    MNAR

    La localización de los valores faltantes en el conjunto de datos dependen de otros valores faltantes en sí mismos.

    Eliminación de valores faltantes

    • Ignorarlos produce sesgos

    Imputación de valores faltantes

    • La imputación es recomendada sobre la deleción.

    💡 Mejorar experimentos o realizar análisis de sensibilidad (repetir los experimentos, explorar los parámetros, ver como cambian los análisis al modificar algunos datos y establecer intervalos de confianza)

    Mauricio Estrada

    Mauricio Estrada

    student•
    hace 3 años

    Tuve que preguntarle a ChatGPT porque no entendí bien el tema, pero ahora me ha quedado claro:

    El código realiza una prueba t-test independiente usando la función ttest_ind del módulo scipy.stats. La prueba t-test comparará la media de dos grupos de datos y determinará si existe una diferencia significativa entre ellos.

    El primer argumento a es el primer grupo de datos (female_weight) y el segundo argumento b es el segundo grupo de datos (male_weight).

    El argumento alternative especifica el tipo de hipótesis nula a probar, en este caso "two-sided" indica que se está realizando una prueba two-tailed, es decir, se está investigando si existe una diferencia significativa entre las dos medias, sin importar en qué dirección.

    El resultado es el valor estadístico y el valor p del test t-test independiente entre dos grupos "female_weight" y "male_weight". La hipótesis nula es que la media de ambos grupos es igual.

    El valor p obtenido es de 0.717, lo que sugiere que no hay suficiente evidencia para rechazar la hipótesis nula. Por lo tanto, no se puede concluir que la media de los dos grupos sea diferente.

    El valor absoluto del estadístico t, 0.362, es bajo, lo que indica que las diferencias entre los dos grupos son poco significativas.

      Yonatan Efraín Jara Boza

      Yonatan Efraín Jara Boza

      student•
      hace 3 años

      Tampoco entendí bien jeje aun no conozco esa parte de la estadística (t-student y amigos) y buscando por internet no he encontrado explicaciones que no sean abstractas pues supongo que hay mucho conocimiento previo necesario, quiero creer.

      Fuera de ello, si lo permites: Cuando dices que el p-value calculado (0.717) sugiere tal cosa... con que valor arrojado se podría afirmar lo contrario. O sea cómo se lee ese valor, cómo se leería otro, que significaría un valor 999 o un negativo, etc?

      Jeinfferson Bernal G

      Jeinfferson Bernal G

      student•
      hace 3 años

      Excelente explicacion. Todo claro

    Pablo Alejandro Figueroa

    Pablo Alejandro Figueroa

    student•
    hace 2 años

    Esta clase en particular me resultó estímulante porque me hizo ruido:

    pngegg.png
    • no se explica bien la Hipótesis Nula
    • no se explica bien la Hipótesis Altenativa
    • (no me vengan con que eso se explica en otros cursos, por que en un curso de geografía yo no puedo decir que 2 más 2 es 5 y si querés saber anda al curso de matemática que te explico que 2 más 2 es 4)

     

    • al optar por "two-sided" las hipótesis quedarían así:
      • H0: Las medias de ambas muestras son iguales
      • H1: Las medias de ambas muestras NO son iguales.

     

    • si el p-valor es mayor que el nivel de significancia (alfa) elegido entonces decimos que no existe evidencia suficiente para rechazar la Hipótesis Nula. Por eso la importancia de definir correctamente la H0.

        “Hacer una prueba estadística para establecer si existe o no una diferencia en la presencia o ausencia de valores de peso” ¿Entonces para que vamos a hacer la prueba estadística? para “establecer” la existencia de una diferencia en la presencia de valores de peso? para “establecer” la NO existencia de una diferencia en la presencia de valores de peso? para “establecer” la existencia de una diferencia en la usencia de valores de peso? para “establecer” la existencia de una diferencia en la usencia de valores de peso? diferencia de que tipo? diferencia de medias.

        Hasta donde tengo entendido el estadístico usado NO es para variables dicotómicas, y aunque arroje un resultado (dado que a False le asigna 0 y a True 1) dicho resultado es de ningún valor, porque está mal conceptualmente la aplicación del t-test

      Rubén Téllez Gerardo

      Rubén Téllez Gerardo

      student•
      hace un año

      Justamente no entiendo por qué se está aplicando una prueba cuyo fundamento exige que estemos tratando con variables continuas, a una variable booleana.

    Jeinfferson Bernal G

    Jeinfferson Bernal G

    student•
    hace 3 años

    Prueba T y Prueba Z

    Suponiendo que se hayan cumplido los supuestos de que los datos esten distribuidos normalmente y que ambas muestras tengan varianzas iguales, es posible usar la prueba t student para muestras grandes. Cuando n > 30, la distribucion t se aproxima a la distribucion normal y lo mas relevante es que la infuencia de los grados de libertad en la forma de la distribucion gradualmente se vuelve nula. Es por ello que ningun paquete estadistico establece una regla para elegir entre la prueba t y la prueba z. La prueba t se propuso para superar la incapacidad de la prueba z para muestras pequeñas pero esto no quiere decir que no aplique tambien para muestras grandes. En cambio, la prueba t gana mas poder cuando el tamaño de la muestra se hace cada vez mas grande

    Nicolas cardozo

    Nicolas cardozo

    student•
    hace 2 años

    Leyendo comentario de compañeros me motive en realizar analisis extras con la ayuda de ChatGPT.

    1. Prueba de Normalidad (Test de Shapiro-Wilk)

    from scipy.stats import shapiro # Filtrar los datos para eliminar valores NaN, ya que la prueba de Shapiro-Wilk no los manejaweights = nhanes_df['weight'].dropna() # Realizar el test de Shapiro-Wilkstat, p = shapiro(weights)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05:    print('La muestra parece provenir de una distribución normal (no se rechaza H0)')else:    print('La muestra no parece provenir de una distribución normal (se rechaza H0)')

    Resultado: Statistics=0.943, p=0.000 Interpretación: La prueba de Shapiro-Wilk rechaza la hipótesis nula de normalidad, indicando que los datos de peso no siguen una distribución normal. La advertencia que se muestra sugiere que el valor p puede no ser preciso debido a que el tamaño de la muestra supera los 5000 registros. En tales casos, es común que la prueba de Shapiro-Wilk muestre una sensibilidad alta a las desviaciones de la normalidad debido al gran tamaño de la muestra.

    2.Prueba de Homocedasticidad (Test de Levene)

    from scipy.stats import levene # Obtener grupos de datos por génerogroup_female = nhanes_df[nhanes_df['gender'] == 'Female']['weight'].dropna()group_male = nhanes_df[nhanes_df['gender'] == 'Male']['weight'].dropna() # Realizar el test de Levenestat, p = levene(group_female, group_male)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05:    print('Las varianzas son iguales entre los grupos (no se rechaza H0)')else:    print('Las varianzas no son iguales entre los grupos (se rechaza H0)')

    Resultado: Statistics=2.923, p=0.087 Interpretación: El resultado de la prueba de Levene indica que no hay evidencia suficiente para rechazar la hipótesis nula, lo que sugiere que las varianzas entre los grupos de género son iguales. Esto es bueno para los análisis subsiguientes que asuman igualdad de varianzas entre grupos.

    3.Prueba t de Student para muestras independientes (con ajuste para varianzas desiguales)

    from scipy.stats import ttest_ind # Realizar la prueba t de Student con ajuste para varianzas desigualesstat, p = ttest_ind(group_female, group_male, equal_var=False)print('Statistics=%.3f, p=%.3f' % (stat, p)) # Interpretar el resultadoif p > 0.05:    print('No hay diferencia significativa en las medias de los pesos entre géneros (no se rechaza H0)')else:    print('Existe una diferencia significativa en las medias de los pesos entre géneros (se rechaza H0)')

    Resultado: Statistics=-22.367, p=0.000 Interpretación: La prueba t para muestras independientes muestra un resultado estadísticamente significativo, lo que indica que hay una diferencia significativa en las medias de los pesos entre géneros. Dado que la p es extremadamente baja, podemos rechazar con confianza la hipótesis nula de igualdad de medias.

    ## Implicaciones y Pasos Adicionales Dado que la prueba de Shapiro-Wilk mostró que los datos no son normales, es importante considerar el uso de métodos no paramétricos como alternativa a la prueba t de Student, especialmente cuando se tratan grandes muestras. Aunque la prueba de Levene sugirió homocedasticidad, la falta de normalidad podría afectar la validez de la prueba t.

    ## Correccion de la logica detras del codigo que nos proporciono el profesor from scipy import stats # Filtrar los datos para seleccionar solo las columnas de género y peso y eliminar valores NaNweights_df = nhanes_df[['gender', 'weight']].dropna() # Separar los pesos por génerofemale_weight = weights_df[weights_df['gender'] == 'Female']['weight']male_weight = weights_df[weights_df['gender'] == 'Male']['weight'] # Determinar el tamaño de la muestra seguro para realizar pruebas de normalidadsample_size = min(5000, len(female_weight), len(male_weight)) # Verificar la normalidad de las distribuciones de peso si el tamaño de la muestra es suficienteif sample_size > 0:    print("Normalidad (Female):", stats.shapiro(female_weight.sample(sample_size, random_state=1)))    print("Normalidad (Male):", stats.shapiro(male_weight.sample(sample_size, random_state=1)))     # Realizar una prueba t de Student para muestras independientes (si ambos grupos son normales)    # o usar Mann-Whitney si no se cumple la normalidad    if stats.shapiro(female_weight.sample(sample_size, random_state=1))[1] > 0.05 and stats.shapiro(male_weight.sample(sample_size, random_state=1))[1] > 0.05:        print("Prueba t de Student:", stats.ttest_ind(female_weight, male_weight, equal_var=True))    else:        print("Prueba de Mann-Whitney:", stats.mannwhitneyu(female_weight, male_weight))else:    print("No hay suficientes datos para realizar la prueba.")

    Los resultados que has obtenido de las pruebas de Shapiro-Wilk y de Mann-Whitney U son muy informativos y permiten tomar decisiones sobre cómo proceder con el análisis de tus datos:

    Resultados de la Prueba de Normalidad (Shapiro-Wilk)

    • Femenino: Estadístico = 0.918, Valor p = 4.799e-36
    • Masculino: Estadístico = 0.944, Valor p = 7.328e-31

    Ambos grupos muestran un valor p extremadamente pequeño, lo cual indica que debemos rechazar la hipótesis nula de que los datos se distribuyen normalmente para ambos géneros. Esto confirma que los pesos, tanto en hombres como en mujeres, no siguen una distribución normal.

    Implicaciones

    La falta de normalidad en las distribuciones de peso sugiere que métodos estadísticos que asumen normalidad, como la prueba t de Student para muestras independientes, no son apropiados en este caso. Esto justifica el uso de métodos no paramétricos, que no requieren la suposición de normalidad.

    Resultado de la Prueba de Mann-Whitney

    • Estadístico de Mann-Whitney U = 2403846.5
    • Valor p ≈ 0.000 (6.131e-130)

    El resultado extremadamente significativo del valor p en la prueba de Mann-Whitney U indica que hay una diferencia significativa en las distribuciones de peso entre los géneros. Podemos concluir que la distribución del peso es distinta entre hombres y mujeres en tu muestra de datos.

    Conclusiones y Pasos Siguientes

    1. Diferencias Significativas: El análisis confirma que existen diferencias estadísticamente significativas en el peso entre géneros, las cuales son robustas dado que no dependen de supuestos de normalidad.
    2. Exploración de Factores Contribuyentes: Puedes investigar más a fondo qué factores podrían estar contribuyendo a estas diferencias. Por ejemplo, considerar variables relacionadas con el estilo de vida, salud general, y factores socioeconómicos.
    3. Análisis Adicional: Dado que se confirmaron diferencias en la distribución de los pesos, sería útil realizar análisis adicionales para entender la naturaleza de estas diferencias, como calcular medias, medianas, modas, y quizás realizar análisis de percentiles para entender mejor la estructura de los datos.
    4. Visualización de Datos: Sería útil visualizar las distribuciones de peso para cada género usando histogramas, box plots o gráficos de densidad para obtener una representación visual clara de cómo se comparan las distribuciones.

    Este enfoque integral no solo confirma las diferencias entre grupos, sino que también establece una base sólida para investigaciones más detalladas que puedan explicar por qué existen estas diferencias y cómo se podrían abordar en contextos aplicados como la salud pública o el desarrollo de políticas.

      Daniel Rodriguez

      Daniel Rodriguez

      student•
      hace un año

      Muchas gracias por tu comentario. Me ayudaste un monton!!

    Pablo Alejandro Figueroa

    Pablo Alejandro Figueroa

    student•
    hace 2 años

    Información:

      El t-test, o prueba t de Student, es una herramienta estadística utilizada para comparar las medias de dos grupos y determinar si hay una diferencia significativa entre ellas. Hay diferentes variantes del t-test, y las opciones "two-sided" (de dos lados), "less" (menor) y "greater" (mayor) se refieren a la dirección de la diferencia que se está evaluando. Aquí hay una explicación para cada caso:  

    Two-sided (de dos lados):

    • Hipótesis nula (H0): No hay diferencia significativa entre las medias de los dos grupos.
    • Hipótesis alternativa (H1): Hay una diferencia significativa entre las medias de los dos grupos, ya sea que una sea mayor o menor que la otra.

    En este caso, la prueba evalúa si hay evidencia suficiente para rechazar la hipótesis nula en favor de la hipótesis alternativa, independientemente de la dirección de la diferencia.  

    Less (menor):

    • Hipótesis nula (H0): La media del primer grupo es mayor o igual que la del segundo grupo.
    • Hipótesis alternativa (H1): La media del primer grupo es significativamente menor que la del segundo grupo.

    Esta opción se utiliza cuando se tiene una hipótesis específica sobre la dirección de la diferencia, y estás interesado en determinar si la media de un grupo es significativamente menor que la del otro.  

    Greater (mayor):

    • Hipótesis nula (H0): La media del primer grupo es menor o igual que la del segundo grupo.
    • Hipótesis alternativa (H1): La media del primer grupo es significativamente mayor que la del segundo grupo.

    Similar a "less", esta opción se utiliza cuando se tiene una hipótesis específica sobre la dirección de la diferencia, y estás interesado en determinar si la media de un grupo es significativamente mayor que la del otro.

    (estará otra vez en proceso de revisión..?)

      Mercedes Jue

      Mercedes Jue

      student•
      hace 5 meses

      Muchas gracias! Me sirvió mucho tu comentario

    Jeinfferson Bernal G

    Jeinfferson Bernal G

    student•
    hace 3 años
    mecanismos.png
    Juan Jose Ramirez Lopez

    Juan Jose Ramirez Lopez

    student•
    hace 2 años

    No la prueba t student no es para poblaciones tan grandes? Creo que estadísticamente está mal implementado

    Mauricio Castaño Valencia

    Mauricio Castaño Valencia

    student•
    hace 3 años

    ¿Que significa la deleción en el caso de valores faltantes?

      Mauricio Estrada

      Mauricio Estrada

      student•
      hace 3 años

      Excelente pregunta, yo pensaba que había querido decir "eliminación", pero preguntándole a ChatGPT...

      En estadística, la deleción se refiere a la eliminación de un valor o un registro de un conjunto de datos antes de su análisis.

    José Pablo Cabrera Romo

    José Pablo Cabrera Romo

    student•
    hace 2 años

    Decidí probar también con la prueba Z y el resultado es "prácticamente" el mismo que se obtuvo con la prueba T. La diferencia entre el valor del estadístico y el valor p (p-value) es muy pequeña, lo que indica una concordancia cercana entre ambos métodos de prueba.

    Dejo el código por si quieren realizar la prueba.

    import numpy as np from scipy.stats import norm, zscore # Datos de ejemplo: pesos de mujeres y hombres famela_weight male_weight # Calcula la media y la desviación estándar para cada grupo mean_female = np.mean(famela_weight) std_female = np.std(famela_weight, ddof=1) # Usamos ddof=1 para calcular la desviación estándar muestral mean_male = np.mean(male_weight) std_male = np.std(male_weight, ddof=1) # Calcula el estadístico Z para la comparación entre grupos z_statistic = (mean_female - mean_male) / np.sqrt((std_female**2 / len(famela_weight)) + (std_male**2 / len(male_weight))) # Calcula el valor p (p-value) para la prueba Z p_value = 2 * (1 - norm.cdf(np.abs(z_statistic))) print("Estadístico Z:", z_statistic) print("Valor p (p-value):", p_value)

    Sin embargo, es importante tener en cuenta que la aproximación entre las pruebas T y Z no siempre es exacta y puede depender del tamaño de la muestra, los supuestos de los datos y el nivel de significancia establecido. En casos con tamaños de muestra más pequeños o datos con características específicas, es posible que las diferencias entre ambas pruebas sean más notables.

      José Pablo Cabrera Romo

      José Pablo Cabrera Romo

      student•
      hace 2 años

      No obstante, para la mayoría de las situaciones prácticas en las que no se conoce la desviación estándar poblacional, la prueba T es la opción adecuada y está disponible en scipy.stats que es la función utilizada en el ejemplo: scipy.stats.ttest_ind(). Si se tiene una muestra grande (más de 30 observaciones por cada grupo) y se desconoce la desviación estándar poblacional, la prueba T puede ser utilizada de manera confiable y es una aproximación adecuada a la prueba Z, ya que scipy.stats no cuenta con una función para la prueba Z.

    jhon velasque

    jhon velasque

    student•
    hace 3 años

    vimos los tipos de datos y su metodo metodo a aplicar:

    • mar : inputacion
    • mat : inputacion multiple
    • mnar: mejorar experimentos
    Emmanuel Guerra Sánchez

    Emmanuel Guerra Sánchez

    student•
    hace un año

    Hice una prueba de Mcnemar y me da el resultado contrario: existe un diferencia significativa en términos de tener o no tener la variable 'weight'.

    Le pregunté a ChatGPT, y me confirmó que es una prueba enfocada en valores emparejados (es decir, debería haber un hombre por cada mujer). Lo dejo por acá por si algún curioso se le ocurre hacer la prueba también 😅

    Neicer Vásquez

    Neicer Vásquez

    student•
    hace un año

    Algo que no sabia con respecto a la prueba de hipótesis prueba-t es:

    • La prueba t-test es apropiada para comparar las medias de dos grupos independientemente del tamaño de la muestra, siempre y cuando se cumplan las suposiciones de normalidad y homogeneidad de varianzas.
    Rubén Téllez Gerardo

    Rubén Téllez Gerardo

    student•
    hace un año

    Debido a que estamos comparando 2 variables categóricas (booleanas), creo que usar t-test, cuyo fundamento solicita comprar variables continuas, es un grabe error.

    Una alternativa es usar Chi cuadrada (scipy.stats.chi2_contingency).

    Se puede obtener la tabla cruzada para la prueba con pd.crosstab(df.categorica1, df.categorica2).

    Mario Alexander Vargas Celis

    Mario Alexander Vargas Celis

    student•
    hace un año

    Existen tres tipos principales de mecanismos de valores faltantes que tienen implicaciones diferentes en los análisis de datos: **MCAR (Missing Completely at Random)**, **MAR (Missing at Random)** y **MNAR (Missing Not at Random)**. Cada uno de estos mecanismos impacta la forma en que se manejan los datos y puede influir en los resultados de los análisis y modelos.

    ### 1. **Missing Completely at Random (MCAR)**

    **Definición**: Los valores faltantes son completamente aleatorios y no dependen de los valores de otras variables ni de la propia variable que contiene el valor faltante.

    **Implicaciones**:

    - **No sesgo**: Cuando los datos faltan de manera completamente aleatoria, no introducen sesgo en el análisis. La eliminación de datos (listwise o pairwise) no afectará la validez de las conclusiones.

    - **Métodos**: Es el caso más fácil de tratar. Se pueden eliminar filas o imputar sin riesgo de sesgo.

    **Ejemplo**: Una encuesta en la que algunas personas no respondieron debido a que la pregunta fue omitida por error de diseño, sin que esto dependa de ninguna característica de las personas.

    ### 2. **Missing at Random (MAR)**

    **Definición**: La probabilidad de que falte un dato depende de otras variables en el conjunto de datos, pero no del valor de la variable que falta en sí.

    **Implicaciones**:

    - **Sesgo moderado**: Si los valores faltantes están relacionados con otras variables observadas, ignorar o eliminar datos podría sesgar los resultados.

    - **Métodos**: El sesgo puede minimizarse utilizando técnicas de **imputación múltiple** o modelos predictivos que tengan en cuenta las otras variables relacionadas.

    **Ejemplo**: En un estudio médico, es posible que las personas mayores tiendan a omitir respuestas a preguntas sobre el uso de tecnología. Aunque la edad no afecta directamente la pregunta faltante, es un factor asociado con la ausencia de datos.

    ### 3. **Missing Not at Random (MNAR)**

    **Definición**: La falta de datos está directamente relacionada con el valor de la variable que falta. Es decir, el hecho de que falte un dato depende del propio valor que no se observó.

    **Implicaciones**:

    - **Sesgo significativo**: Si los valores faltan sistemáticamente debido a su valor real, eliminar o ignorar estos datos sin una estrategia adecuada puede producir sesgos severos en el análisis.

    - **Métodos**: Este tipo de valores faltantes es el más difícil de tratar. Puede ser necesario realizar estudios adicionales o recoger más datos. Las imputaciones basadas en modelos pueden intentar estimar los valores faltantes, pero el sesgo es difícil de eliminar completamente.

    **Ejemplo**: En un estudio sobre ingresos, las personas con ingresos más altos podrían ser menos propensas a revelar esa información, haciendo que los ingresos altos estén sistemáticamente ausentes del conjunto de datos.

    ### **Resumen de implicaciones y estrategias**:

    | Tipo de faltante | Implicación | Estrategia de manejo |

    |------------------|-------------|----------------------|

    | **MCAR** | No hay sesgo si los datos se eliminan. | Se pueden eliminar filas o columnas sin afectar el análisis. |

    | **MAR** | Existe sesgo si no se maneja adecuadamente. | Imputación múltiple o modelado considerando variables relacionadas. |

    | **MNAR** | Sesgo significativo, más difícil de tratar. | Recoger más datos o usar técnicas avanzadas de imputación/modelado. |

    ### Elección de método:

    - Para **MCAR**, la eliminación de datos suele ser adecuada.

    - Para **MAR**, la **imputación múltiple** o los **modelos predictivos** pueden reducir el sesgo.

    - Para **MNAR**, es crucial entender la causa de los valores faltantes. Los métodos de imputación predictiva pueden ayudar, pero es posible que se necesiten técnicas especializadas.

    Conocer el mecanismo de los valores faltantes es fundamental para elegir la estrategia de limpieza de datos más adecuada y minimizar el impacto en los análisis.

    Mario Alexander Vargas Celis

    Mario Alexander Vargas Celis

    student•
    hace un año

    Implicaciones de los distintos tipos de valores faltantes

    Daniel Moreno

    Daniel Moreno

    student•
    hace un año

    La elección entre una prueba T y una prueba Z depende de ciertos factores relacionados con las características de los datos y las hipótesis que se desean probar. Aquí te explico en qué casos se utiliza cada una:

    Prueba T

    Uso principal: La prueba T se utiliza cuando se comparan las medias de dos grupos, especialmente cuando el tamaño de la muestra es pequeño o cuando no se conoce la desviación estándar de la población.

    Características y requisitos:

    1. Tamaño de muestra pequeño: Generalmente, se utiliza cuando el tamaño de la muestra es menor a 30.
    2. Desviación estándar desconocida: Se aplica cuando no se conoce la desviación estándar de la población y se usa la desviación estándar de la muestra como una estimación.
    3. Distribución normal: Asume que los datos se distribuyen aproximadamente de manera normal, aunque es robusta para ligeras desviaciones de la normalidad.
    4. Tipos de prueba T:
      • Prueba T para muestras independientes: Compara las medias de dos grupos independientes.
      • Prueba T para muestras relacionadas (o pareadas): Compara las medias de dos grupos relacionados, como en estudios pre y post tratamiento.
      • Prueba T para una muestra: Compara la media de una muestra con un valor conocido o supuesto de la población.

    Prueba Z

    Uso principal: La prueba Z se usa para comparar las medias cuando el tamaño de la muestra es grande y la desviación estándar de la población es conocida. También se utiliza para proporciones en muestras grandes.

    Características y requisitos:

    1. Tamaño de muestra grande: Generalmente, se utiliza cuando el tamaño de la muestra es 30 o más.
    2. Desviación estándar conocida: Se aplica cuando se conoce la desviación estándar de la población.
    3. Distribución normal o gran tamaño de muestra: La prueba Z asume que los datos siguen una distribución normal o que el tamaño de la muestra es suficientemente grande para que el teorema del límite central garantice una aproximación normal.
    4. Tipos de prueba Z:
      • Prueba Z para una muestra: Compara la media de una muestra con una media conocida de la población.
      • Prueba Z para dos muestras: Compara las medias de dos muestras independientes grandes.
      • Prueba Z para proporciones: Compara proporciones para una o dos muestras.

    Resumen

    • Prueba T: Tamaños de muestra pequeños, desviación estándar desconocida, datos aproximadamente normales.
    • Prueba Z: Tamaños de muestra grandes, desviación estándar conocida, o comparación de proporciones.

    En general, cuando el tamaño de la muestra es grande y se conoce la desviación estándar de la población, se prefiere la prueba Z debido a su simplicidad y precisión. Sin embargo, en situaciones donde estas condiciones no se cumplen, la prueba T es una alternativa confiable y robusta.

    Pablo Alejandro Figueroa

    Pablo Alejandro Figueroa

    student•
    hace 2 años

    ++chat PPV++

    Mecanismos de Pérdida de Datos

    MCAR, MAR y MNAR son abreviaturas utilizadas en el contexto de datos faltantes para describir diferentes patrones de ausencia de datos.

    MCAR (Missing Completely At Random):

    MCAR se refiere a la situación en la que la probabilidad de que un dato falte es completamente aleatoria y no está relacionada con ninguna de las variables observadas o no observadas. En términos simples, la falta de datos no está relacionada con los propios datos o con la variable de interés. Cuando los datos son MCAR, la pérdida de observaciones no introduce sesgo en los análisis.

    MAR (Missing At Random):

    MAR implica que la probabilidad de que un dato falte puede depender de las variables observadas, pero no depende de las variables no observadas. Aunque la ausencia de datos no es completamente aleatoria, se puede explicar mediante las variables que se han observado. Dado que la falta de datos puede depender de variables observadas, se pueden aplicar técnicas de imputación para estimar los datos faltantes y reducir el sesgo.

    MNAR (Missing Not At Random o Missing Nonrandom):

    MNAR significa que la probabilidad de que un dato falte está relacionada con las variables no observadas. En este caso, la ausencia de datos no se puede explicar completamente mediante las variables observadas, y la falta de datos puede depender de información no recopilada. La situación MNAR puede introducir sesgo significativo y puede ser más difícil de abordar en comparación con MCAR o MAR.

    Es importante comprender el mecanismo de pérdida de datos al analizar o imputar datos faltantes, ya que esto afecta las conclusiones y la validez de los resultados. Además, la identificación correcta del mecanismo puede influir en la elección de las técnicas de imputación y en la interpretación de los análisis.

    Implicaciones de Eliminar o Imputar Datos Faltantes

    Eliminar valores faltantes e imputar valores faltantes son dos enfoques diferentes para abordar la presencia de datos faltantes, y cada uno tiene sus propias implicaciones. Aquí están las implicaciones para cada uno de los tres mecanismos de datos faltantes (MCAR, MAR y MNAR):

    MCAR (Missing Completely At Random):

    • Eliminar valores faltantes: Si los datos son MCAR, eliminar observaciones con datos faltantes no sesga las conclusiones. Sin embargo, esto podría reducir el tamaño de la muestra y, por lo tanto, la precisión de las estimaciones.

    • Imputar valores faltantes: En el caso de MCAR, la imputación puede proporcionar estimaciones válidas si se realiza adecuadamente. Las técnicas de imputación pueden ayudar a mantener el tamaño de la muestra y la potencia del análisis.

    MAR (Missing At Random):

    • Eliminar valores faltantes: Eliminar datos faltantes podría introducir sesgo si la falta de datos está relacionada con variables observadas. Además, la pérdida de información puede afectar la validez de los resultados.

    • Imputar valores faltantes: Imputar datos faltantes basándose en variables observadas puede ayudar a reducir el sesgo. Sin embargo, la validez de las conclusiones depende de la calidad del modelo de imputación y de la validez de la hipótesis de "datos faltantes al azar".

    MNAR (Missing Not At Random o Missing Nonrandom):

    • Eliminar valores faltantes: Eliminar datos faltantes puede introducir sesgo significativo porque la ausencia de datos está relacionada con información no recopilada.

    • Imputar valores faltantes: Imputar datos en el caso de MNAR puede ser más desafiante. Es difícil capturar la relación entre los datos faltantes y la información no observada. La imputación en este escenario puede llevar a sesgos y resultados erróneos si no se maneja adecuadamente.

    En general, la imputación de datos faltantes puede ser preferible a eliminar observaciones, ya que mantiene el tamaño de la muestra y puede mejorar la validez de los resultados. Sin embargo, la calidad de la imputación es crucial, y se debe realizar con precaución, especialmente cuando se sospecha que los datos faltantes no son completamente aleatorios (MAR o MNAR). En todos los casos, la transparencia en el informe y la justificación de los métodos utilizados son esenciales para garantizar la confianza en los resultados.

    Manejo Adecuado de la Imputación de Datos Faltantes

    El manejo adecuado de la imputación de valores faltantes depende del mecanismo subyacente de los datos faltantes (MCAR, MAR o MNAR). Aquí te proporciono algunas consideraciones y enfoques para la imputación en cada caso:

    MCAR (Missing Completely At Random):

    • Enfoque: La imputación múltiple es comúnmente utilizada en el caso MCAR. Se generan múltiples conjuntos de datos imputados, cada uno reflejando una posible realización de los datos faltantes. Luego, se combinan los resultados de análisis realizados en cada conjunto imputado.

    • Software: Herramientas como MICE (Multiple Imputation by Chained Equations) en R o PROC MI en SAS son utilizadas para implementar imputación múltiple.

    MAR (Missing At Random):

    • Enfoque: La imputación basada en modelos es útil para el caso MAR, donde la probabilidad de datos faltantes depende de variables observadas. Puedes utilizar modelos predictivos para imputar los valores faltantes basándote en otras variables observadas.

    • Software: Técnicas como regresión lineal, regresión logística o modelos de imputación múltiple basados en ecuaciones encadenadas (como MICE) son apropiadas.

    MNAR (Missing Not At Random o Missing Nonrandom):

    • Enfoque: La imputación en el caso MNAR puede ser desafiante porque implica la falta de datos relacionada con información no observada. En este caso, se pueden utilizar métodos de imputación específicos para abordar el sesgo potencial, como el modelado conjunto de las variables observadas y no observadas.

    • Software: Técnicas avanzadas como modelos de selección de muestras (por ejemplo, modelos de selección múltiple) o enfoques de imputación basados en modelos específicos para MNAR pueden ser explorados.

    En términos generales, independientemente del mecanismo, es esencial seguir buenas prácticas en la imputación de datos faltantes:

    • Entender el Mecanismo de Pérdida de Datos: Realizar un análisis exploratorio para comprender el patrón de datos faltantes y evaluar si los datos son MCAR, MAR o MNAR.

    • Transparencia en el Informe: Describir claramente los métodos utilizados para la imputación y proporcionar detalles sobre el proceso en los informes y documentos relacionados con el análisis.

    • Sensibilidad al Método de Imputación: Realizar análisis de sensibilidad para evaluar cómo los resultados varían según diferentes métodos de imputación.

    • Validación de Imputación: Evaluar la validez de los resultados utilizando métodos de validación interna y externa para garantizar que la imputación no haya introducido sesgo indebido.

    • Consultar con Expertos en el Dominio: En situaciones complejas, es útil trabajar con expertos en el dominio para garantizar que la imputación refleje adecuadamente la realidad del fenómeno estudiado.

    Recuerda que no hay una solución única para todos los casos, y la elección del enfoque de imputación debe basarse en la naturaleza de los datos y el conocimiento del problema específico.

    Ferney Mauricio Calderon

    Ferney Mauricio Calderon

    student•
    hace 2 años

Escuelas

  • Desarrollo Web
    • Fundamentos del Desarrollo Web Profesional
    • Diseño y Desarrollo Frontend
    • Desarrollo Frontend con JavaScript
    • Desarrollo Frontend con Vue.js
    • Desarrollo Frontend con Angular
    • Desarrollo Frontend con React.js
    • Desarrollo Backend con Node.js
    • Desarrollo Backend con Python
    • Desarrollo Backend con Java
    • Desarrollo Backend con PHP
    • Desarrollo Backend con Ruby
    • Bases de Datos para Web
    • Seguridad Web & API
    • Testing Automatizado y QA para Web
    • Arquitecturas Web Modernas y Escalabilidad
    • DevOps y Cloud para Desarrolladores Web
  • English Academy
    • Inglés Básico A1
    • Inglés Básico A2
    • Inglés Intermedio B1
    • Inglés Intermedio Alto B2
    • Inglés Avanzado C1
    • Inglés para Propósitos Específicos
    • Inglés de Negocios
  • Marketing Digital
    • Fundamentos de Marketing Digital
    • Marketing de Contenidos y Redacción Persuasiva
    • SEO y Posicionamiento Web
    • Social Media Marketing y Community Management
    • Publicidad Digital y Paid Media
    • Analítica Digital y Optimización (CRO)
    • Estrategia de Marketing y Growth
    • Marketing de Marca y Comunicación Estratégica
    • Marketing para E-commerce
    • Marketing B2B
    • Inteligencia Artificial Aplicada al Marketing
    • Automatización del Marketing
    • Marca Personal y Marketing Freelance
    • Ventas y Experiencia del Cliente
    • Creación de Contenido para Redes Sociales
  • Inteligencia Artificial y Data Science
    • Fundamentos de Data Science y AI
    • Análisis y Visualización de Datos
    • Machine Learning y Deep Learning
    • Data Engineer
    • Inteligencia Artificial para la Productividad
    • Desarrollo de Aplicaciones con IA
    • AI Software Engineer
  • Ciberseguridad
    • Fundamentos de Ciberseguridad
    • Hacking Ético y Pentesting (Red Team)
    • Análisis de Malware e Ingeniería Forense
    • Seguridad Defensiva y Cumplimiento (Blue Team)
    • Ciberseguridad Estratégica
  • Liderazgo y Habilidades Blandas
    • Fundamentos de Habilidades Profesionales
    • Liderazgo y Gestión de Equipos
    • Comunicación Avanzada y Oratoria
    • Negociación y Resolución de Conflictos
    • Inteligencia Emocional y Autogestión
    • Productividad y Herramientas Digitales
    • Gestión de Proyectos y Metodologías Ágiles
    • Desarrollo de Carrera y Marca Personal
    • Diversidad, Inclusión y Entorno Laboral Saludable
    • Filosofía y Estrategia para Líderes
  • Diseño de Producto y UX
    • Fundamentos de Diseño UX/UI
    • Investigación de Usuarios (UX Research)
    • Arquitectura de Información y Usabilidad
    • Diseño de Interfaces y Prototipado (UI Design)
    • Sistemas de Diseño y DesignOps
    • Redacción UX (UX Writing)
    • Creatividad e Innovación en Diseño
    • Diseño Accesible e Inclusivo
    • Diseño Asistido por Inteligencia Artificial
    • Gestión de Producto y Liderazgo en Diseño
    • Diseño de Interacciones Emergentes (VUI/VR)
    • Desarrollo Web para Diseñadores
    • Diseño y Prototipado No-Code
  • Contenido Audiovisual
    • Fundamentos de Producción Audiovisual
    • Producción de Video para Plataformas Digitales
    • Producción de Audio y Podcast
    • Fotografía y Diseño Gráfico para Contenido Digital
    • Motion Graphics y Animación
    • Contenido Interactivo y Realidad Aumentada
    • Estrategia, Marketing y Monetización de Contenidos
  • Desarrollo Móvil
    • Fundamentos de Desarrollo Móvil
    • Desarrollo Nativo Android con Kotlin
    • Desarrollo Nativo iOS con Swift
    • Desarrollo Multiplataforma con React Native
    • Desarrollo Multiplataforma con Flutter
    • Arquitectura y Patrones de Diseño Móvil
    • Integración de APIs y Persistencia Móvil
    • Testing y Despliegue en Móvil
    • Diseño UX/UI para Móviles
  • Diseño Gráfico y Arte Digital
    • Fundamentos del Diseño Gráfico y Digital
    • Diseño de Identidad Visual y Branding
    • Ilustración Digital y Arte Conceptual
    • Diseño Editorial y de Empaques
    • Motion Graphics y Animación 3D
    • Diseño Gráfico Asistido por Inteligencia Artificial
    • Creatividad e Innovación en Diseño
  • Programación
    • Fundamentos de Programación e Ingeniería de Software
    • Herramientas de IA para el trabajo
    • Matemáticas para Programación
    • Programación con Python
    • Programación con JavaScript
    • Programación con TypeScript
    • Programación Orientada a Objetos con Java
    • Desarrollo con C# y .NET
    • Programación con PHP
    • Programación con Go y Rust
    • Programación Móvil con Swift y Kotlin
    • Programación con C y C++
    • Administración Básica de Servidores Linux
  • Negocios
    • Fundamentos de Negocios y Emprendimiento
    • Estrategia y Crecimiento Empresarial
    • Finanzas Personales y Corporativas
    • Inversión en Mercados Financieros
    • Ventas, CRM y Experiencia del Cliente
    • Operaciones, Logística y E-commerce
    • Gestión de Proyectos y Metodologías Ágiles
    • Aspectos Legales y Cumplimiento
    • Habilidades Directivas y Crecimiento Profesional
    • Diversidad e Inclusión en el Entorno Laboral
    • Herramientas Digitales y Automatización para Negocios
  • Blockchain y Web3
    • Fundamentos de Blockchain y Web3
    • Desarrollo de Smart Contracts y dApps
    • Finanzas Descentralizadas (DeFi)
    • NFTs y Economía de Creadores
    • Seguridad Blockchain
    • Ecosistemas Blockchain Alternativos (No-EVM)
    • Producto, Marketing y Legal en Web3
  • Recursos Humanos
    • Fundamentos y Cultura Organizacional en RRHH
    • Atracción y Selección de Talento
    • Cultura y Employee Experience
    • Gestión y Desarrollo de Talento
    • Desarrollo y Evaluación de Liderazgo
    • Diversidad, Equidad e Inclusión
    • AI y Automatización en Recursos Humanos
    • Tecnología y Automatización en RRHH
  • Finanzas e Inversiones
    • Fundamentos de Finanzas Personales y Corporativas
    • Análisis y Valoración Financiera
    • Inversión y Mercados de Capitales
    • Finanzas Descentralizadas (DeFi) y Criptoactivos
    • Finanzas y Estrategia para Startups
    • Inteligencia Artificial Aplicada a Finanzas
    • Domina Excel
    • Financial Analyst
    • Conseguir trabajo en Finanzas e Inversiones
  • Startups
    • Fundamentos y Validación de Ideas
    • Estrategia de Negocio y Product-Market Fit
    • Desarrollo de Producto y Operaciones Lean
    • Finanzas, Legal y Fundraising
    • Marketing, Ventas y Growth para Startups
    • Cultura, Talento y Liderazgo
    • Finanzas y Operaciones en Ecommerce
    • Startups Web3 y Blockchain
    • Startups con Impacto Social
    • Expansión y Ecosistema Startup
  • Cloud Computing y DevOps
    • Fundamentos de Cloud y DevOps
    • Administración de Servidores Linux
    • Contenerización y Orquestación
    • Infraestructura como Código (IaC) y CI/CD
    • Amazon Web Services
    • Microsoft Azure
    • Serverless y Observabilidad
    • Certificaciones Cloud (Preparación)
    • Plataforma Cloud GCP

Platzi y comunidad

  • Platzi Business
  • Live Classes
  • Lanzamientos
  • Executive Program
  • Trabaja con nosotros
  • Podcast

Recursos

  • Manual de Marca

Soporte

  • Preguntas Frecuentes
  • Contáctanos

Legal

  • Términos y Condiciones
  • Privacidad
  • Tyc promociones
Reconocimientos
Reconocimientos
Logo reconocimientoTop 40 Mejores EdTech del mundo · 2024
Logo reconocimientoPrimera Startup Latina admitida en YC · 2014
Logo reconocimientoPrimera Startup EdTech · 2018
Logo reconocimientoCEO Ganador Medalla por la Educación T4 & HP · 2024
Logo reconocimientoCEO Mejor Emprendedor del año · 2024
De LATAM conpara el mundo
YoutubeInstagramLinkedInTikTokFacebookX (Twitter)Threads