¿Qué se debe validar para asegurar la consistencia?
Modelo de datos:
Saber la intención de los datos, es decir el ¿por que fueron colectados esos datos?¿Que se busca responder con estos datos?¿Estos datos hacen satisfacen los requerimientos necesarios para responder mi hipótesis?
Seguimiento de formato estándar de archivos:
Asegurarnos que la información siga el estándar de la extensión del archivo.
Tipos de datos:
Los tipos de dato booleano, entero, flotante, etc. Deben corresponder como fueron definidos. No debe de haber un flotante en una casilla para los booleanos.
Rango de variables:
Los datos deben de estar en el rango definido para la variable. Ex. [5,10], es decir, desde el 5 hasta el 10 (discretos).
Unicidad:
Cada muestra o dato debe de tener únicamente un identificador.
Consistencia de expresiones:
Mantener el mismo "formato" al escribir fechas, horas, etc. Es decir, mantener en todos los registros el formato DD/MM/AA, o cualquier otro pero que sea consistente. De igual manera para las variables categóricas y booleanas (T o F, True o False, etc.).
Valores nulos:
Tratar de entender porque existen datos faltantes y también si es posible rellenarlos aleatoriamente con otros del conjunto.
1. Valores nulos explícitos:
Especifica que el dato no esta; NaN.
2. Valores nulos implícitos:
Simplemente no aparece en el registro.