No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

12 Días
14 Hrs
52 Min
43 Seg

Tipos de valores faltantes

11/21
Recursos

Aportes 12

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Resumen de la clase

Tipos de Valores Faltantes

Tenemos tres tipos de mecanismo de valores faltantes:

  • Missing Completely at Random (Perdidos completamente al azar)
  • Missing at Random (Perdidos al azar)
  • Missing not at Random (Perdidos no al azar)
  1. Missing Completely at Random (MCAR)

Son datos ocasionados por herramientas que dejan de funcionar sin ninguna razon detras. La localizacion de los valores faltantes ocurre completamente al azar, esto no depende de ningun otro dato

  1. Missing at Random (MAR)

Las herramientas necesitan mantenimiento periodico para asegurar su funcionamiento constante. En las fechas donde se le hace mantenimiento sabemos que ocurrira una falta de datos por lo que esos datos faltantes son localizados. La localizacion de los valores faltantes en el conjunto de datos depende de otros valores observados

  1. Missing not at Random (MNAR)

Las herramientas tienen limites. Al tratar de hacer seguimientos fuera de su rango de medicion, se generan valores faltantes. La localizacion de los valores faltantes en el conjunto de datos dependen de los valores faltantes en si mismos

Puedo tener seguridad sobre que mecanismo de valores faltantes es correcto para mis datos?

No, no podemos tener seuridad sobre cual mecanismo incidio sobre los datos, pero a traves de analisis y conocimiento del tema puedes hacer suposiciones razonables

Complementando el ejemplo de la báscula.

Si el peso de tu objeto es demasiado, la báscula te mostrará el valor máximo que puede medir, por lo que no tendrás un valor faltante explicito, pero sí un valor faltante implícito. Para detectarlo necesitarías conocer el rango de medición de tu instrumento.

Si no tienes en cuenta los límites de tu instrumento, puede que termines trabajando con valores incorrectos.

En esta clase aprendi a que pueden existir datos en el multiverso sin ser vistos!!!

Para que lo comprendamos desde otro punto de vista: Esto fue lo que dijo Chat GPT de OpenAI:

Claro, aquí están las definiciones precisas y breves de las tres categorías de datos faltantes, utilizando el ejemplo de la encuesta de satisfacción en una tienda minorista:

  1. Missing Completely at Random (MCAR): En este caso, los datos faltantes son completamente aleatorios, lo que significa que la probabilidad de que falten datos es la misma para todos los participantes y no está relacionada con ninguna característica observada o no observada. Por lo tanto, la falta de respuestas en la encuesta es puramente aleatoria y no depende de ninguna variable, ya sea observada o no.

    Ejemplo MCAR: En la encuesta de satisfacción de la tienda minorista, si algunos clientes no completan la encuesta debido a que la tinta de las plumas se agotó de manera aleatoria, sin importar su satisfacción, los datos faltantes serían MCAR.

  2. Missing at Random (MAR): En el caso de MAR, la probabilidad de datos faltantes es independiente de los valores reales pero puede depender de variables observadas en el conjunto de datos. En la encuesta de satisfacción, si la probabilidad de no completar la encuesta se relaciona con la edad de los clientes, pero no directamente con su satisfacción, los datos faltantes serían MAR.

  3. Missing not at Random (MNAR): En MNAR, la probabilidad de datos faltantes depende de la información que falta en sí misma y no puede explicarse por factores observados. En el ejemplo de la encuesta de satisfacción, si los clientes insatisfechos son más propensos a no completar la encuesta, y esta insatisfacción no se registra en los datos, los datos faltantes serían MNAR.

Estas tres categorías son mutuamente excluyentes y describen diferentes mecanismos detrás de los datos faltantes. MCAR se refiere a la falta de datos aleatoria sin ninguna relación con variables observadas, MAR implica que la falta de datos depende de variables observadas pero no de la información que falta, y MNAR significa que la falta de datos está relacionada con la información que falta en sí misma.

En el laboratorio diríamos que los datos MNAR dependen del límite de detección del aparato (la menor cantidad de un analito cuya señal puede distinguirse de la del ruido).

codificandobits.com/blog/manejo-datos-faltantes
 

La pregunta inicial: ¿por qué faltan datos?

 
Para saber cuál técnica podremos utilizar para el tratamiento de los datos faltantes, primero debemos determinar el mecanismo detrás de esa pérdida de datos. Y estos mecanismos se dividen en tres:

11. Tipos de valores faltantes

  • Missing completely at random: la localización de los faltantes ocurre 100% al azar, no dependen de ningún otro dato.
  • Missing at random: la localización de los faltantes depende de otros valores observados.
  • Missing not at random: la localización de los faltantes dependen de los valores faltantes en sí mismos.

No se puede tener seguridad que tipo de mecanismo es mi dato faltante

Pero a través de análisis y conocimiento del tema puedes hacer suposiciones razonables.

MNAR: Sería similar al ejemplo de medir la distancia entre 2 ciudades o países, con un micrómetro

### Tipos de Valores Faltantes La presencia de valores faltantes en los conjuntos de datos es un desafío común en la ciencia de datos y la inteligencia artificial. Su manejo adecuado es crucial para el análisis de datos y la modelación. Existen tres categorías principales para clasificar los valores faltantes, que ayudan a determinar la estrategia más adecuada para su tratamiento. #### Missing Completely at Random (MCAR) * **Concepto**: Los valores faltan completamente al azar (MCAR) cuando la probabilidad de que falte un dato es la misma para todas las observaciones. En este caso, la presencia de un valor faltante en una variable no está relacionada con ninguna otra variable del conjunto de datos. * **Ejemplo**: En un estudio de investigación, si un sensor que recoge la temperatura ambiental falla aleatoriamente durante algunos intervalos de tiempo, sin ninguna relación con otros factores como la ubicación o el momento del día, los datos faltantes resultantes se considerarían MCAR. * **Puntos de Buena Práctica**: Para tratar con datos MCAR, se pueden emplear técnicas como la eliminación de registros con valores faltantes o la imputación simple, como la media, mediana o imputación por modas. La elección dependerá del análisis específico y de cómo la eliminación o imputación pueda afectar los resultados del estudio. #### Missing at Random (MAR) * **Concepto**: Los valores faltan al azar (MAR) cuando la probabilidad de que un dato falte está relacionada con alguna otra variable observada en el conjunto de datos, pero no con el valor faltante en sí. * **Ejemplo**: En una encuesta sobre ingresos y estilo de vida, si las personas con ingresos más altos tienden a omitir la pregunta sobre ingresos más a menudo que aquellas con ingresos más bajos, pero esta tendencia es constante a través de diferentes estilos de vida, los datos faltantes en la pregunta de ingresos se considerarían MAR. * **Puntos de Buena Práctica**: Para datos MAR, la imputación múltiple o los modelos de ecuaciones estimadas generalizadas (GEE) pueden ser técnicas adecuadas, ya que permiten incorporar la relación entre variables observadas y la probabilidad de datos faltantes en el proceso de imputación. #### Missing Not at Random (MNAR) * **Concepto**: Los valores faltan no al azar (MNAR) cuando la probabilidad de que un dato falte está directamente relacionada con el valor faltante en sí, incluso después de controlar todas las otras variables observadas. * **Ejemplo**: Si en una encuesta de salud, las personas con ciertas condiciones médicas evitan responder preguntas específicas relacionadas con su condición, la probabilidad de datos faltantes en esas preguntas está directamente influenciada por la información no observada (la condición médica). * **Puntos de Buena Práctica**: El manejo de datos MNAR es más complejo y puede requerir técnicas avanzadas como modelos de selección o imputación bajo supuestos específicos sobre el mecanismo de datos faltantes. A menudo es crucial realizar un análisis de sensibilidad para evaluar cómo diferentes suposiciones afectan los resultados del estudio. Cada tipo de dato faltante implica diferentes suposiciones sobre la naturaleza de los datos faltantes y, por lo tanto, requiere estrategias distintas para su tratamiento. La identificación correcta del mecanismo de datos faltantes es fundamental para la aplicación de técnicas adecuadas de imputación o eliminación, asegurando así la validez y confiabilidad de los análisis realizados.
Resumen (modifiqué uno que ya compartieron): Tipo de valores faltantes Tenemos tres tipos de mecanismo de valores faltantes: \- Missing Completely at Random (Perdidos completamente al azar) \- Missing at Random (Perdidos al azar) \- Missing not at Random (Perdidos no al azar) \*\*Missing Completely at Random (MCAR)\*\* \- Son datos ocasionados por herramientas que dejan de funcionar sin ninguna razon detras. \- La localización de los valores faltantes ocurre completamente al azar, esto no depende de ningún otro dato. \- Es independiente de cualquier valor observado o no observado del conjunto de datos. \- No hay patrón discernible en los valores faltantes. \- Ejemplo: personas que al azar se niegan a decir su estado de animo en una encuesta independientemente de cualquier otra variable de la encuesta. \*\*Missing at Random (MAR)\*\* \- La probabilidad de un valor perdido puede depender de valores observados. \- No depende de los valores no observados. \- Ejemplo: En una encuesta sobre ingresos, los mas jóvenes tienen menos probabilidad de informar sus ingresos. Dicho valor faltante depende de la variable observada "edad". \*\*Missing not at Random (MNAR)\*\* \- El valor faltante depende del valor real que falta/ el valor que debe ser observado. \- Ejemplo: si recolectamos datos de ingresos, quienes tienen mas ingresos tienen menos probabilidad de revelarlos. \_\_Resumen\_\_ MCAR: valor perdido que no depende de las variables observadas MAR: valor perdido que depende de alguna variable observada MNAR: valor perdido que depende de la propia variable observada \*\*Puedo tener seguridad sobre que mecanismo de valores faltantes es correcto para mis datos?\*\* No, no podemos tener seuridad sobre cual mecanismo incidio sobre los datos, pero a traves de analisis y conocimiento del tema puedes hacer suposiciones razonables

genial!

Los valores faltantes 🧩

Los valores faltantes son como piezas que faltan en un rompecabezas. Hay tres formas en que pueden faltar estas piezas:

Perdidos completamente al azar (MCAR)

Es cuando las piezas que faltan no tienen ninguna relación con las demás piezas. Es como si alguien hubiera sacado piezas al azar sin importar cuáles fueran.

Perdidos al azar(MAR)

Es cuando las piezas que faltan están relacionadas con otras piezas del rompecabezas. Por ejemplo, si el rompecabezas está hecho de diferentes colores, las piezas que faltan podrían ser de un solo color.

Perdidos no al azar (MNAR)

Es cuando las piezas que faltan están relacionadas con algún patrón o característica específica del rompecabezas. Por ejemplo, si el rompecabezas es de una imagen de un gato, las piezas que faltan podrían ser todas las piezas del cuerpo del gato.