Antes de realizar un análisis estadístico, nuestros datos deben pasar por un proceso de revisión de integridad y calidad. Este proceso nos asegura que nuestros resultados tengan la suficiente robustez para la validez tanto interna y externa de los resultados que se obtengan con la manipulación y transformación de estos. Dado que podemos tener modelos de estimación sofisticados y precisos, pero si no tenemos la calidad adecuada en los datos, la utilidad de los resultados será limitada.
Grandes cantidades de datos no garantizan automáticamente su calidad. Con volúmenes más grandes, se vuelve más importante centrarse en la calidad para obtener información significativa a partir de los datos disponibles. En la mayoría de los contextos, el valor de los datos está determinado por su aptitud para el uso (Ramasamy et al, 2020).
Para garantizar que los datos sean confiables, es importante comprender las dimensiones clave de la calidad de los datos para evaluar cómo los datos son “malos” en primer lugar. En la literatura sobre la calidad de los datos, la calidad de los datos de un sistema se evalúa mediante varias dimensiones. Algunas de las dimensiones más comúnmente utilizadas para medir la calidad de los datos de los sistemas son: Precisión, Completitud, Validez, Unicidad, Consistencia (Ramasamy et al, 2020).
Las 5 dimensiones de la calidad de los datos que usaremos para la evaluación en este estudio son: disponibilidad, consistencia, completo, integridad y puntualidad. Veamos cómo abordar cada uno de ellos que son las sugeridas al tener mayor relevancia (Farnworth, 2020).
● Disponibilidad:
La disponibilidad de los datos refleja que la observación esté declarada de la misma oferta en las diferentes fuentes en información a la que se tiene acceso.
● Consistencia:
La consistencia significa que los datos en todas nuestras bases de datos que tenemos a disposición están sincronizados entre sí en las diversas fuentes a las que acudimos.
Si los datos se replican en varias fuentes, deben ser coherentes en todas las instancias.
● Información Completa:
Es el grado en que los datos reflejan correctamente el objeto del mundo real o un evento que se describe. Para lograrlo, cada paso en el viaje del mundo real al conjunto de datos debe preservar correctamente la esencia del original. Un lugar probable para que ocurran errores es justo al comienzo, durante la medición o el registro del evento / objeto.
Esto destaca la importancia del análisis básico y la elaboración de perfiles para comprender su conjunto de datos. Antes de realizar informes o modelos, debe observar de cerca cada campo para ver si sus valores tienen sentido, sin sorpresas extrañas.
● Integridad:
La integridad se toma como la recolección exhaustiva de los datos. Estos pueden estar completos incluso si faltan datos opcionales. Siempre que los datos cumplan con las expectativas, se considerarán completos. Cualquier Muestra de datos puede tener datos faltantes, pero ¿esos datos faltantes afectan su capacidad para responder las preguntas que tiene? La clave para entender es si se ha introducido un sesgo que afectará sus resultados.
Un ejemplo de esto es con los nombres completos. El nombre y el apellido de una observación son obligatorios, pero el segundo nombre es opcional; por lo que un registro puede considerarse completo incluso si no hay un segundo nombre disponible.
● Puntualidad:
La puntualidad hace referencia a si la información está disponible cuando se espera y se necesita con todos los datos disponibles a la fecha. En este caso la información está actualizada hasta el último dato disponible.
Referencias