Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas
Clase 9 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos
Resumen
¿Cómo utilizar datos abiertos para analítica?
La ciencia de datos no solo se ha convertido en una herramienta crucial para analizar grandes volúmenes de información, sino que también se puede emplear para el bien social. Un área prometedora es el análisis de datos abiertos para identificar anomalías en las compras públicas, como el proyecto de exploración de posibles irregularidades en las compras del municipio de Monterrey. En este contexto, aprenderemos a buscar fuentes de datos adecuadas y enfrentaremos los retos inherentes al análisis de datos públicos.
¿Dónde encontrar los datos para nuestro proyecto?
Para proyectos basados en datos gubernamentales, las páginas de transparencia de los gobiernos locales son una excelente fuente de información. En el caso de Monterrey, se puede acceder a datos históricos a través de la sección de transparencia de su sitio web oficial. Aquí hay algunos recursos adicionales que puedes considerar:
- Gobierno Abierto: Explora las secciones dedicadas a la transparencia y rendición de cuentas.
- Datos abiertos de gobiernos: Visita portales de datos abiertos de diferentes niveles de gobierno.
- GEGOL: Plataforma que proporciona recursos enfocados en el análisis de datos abiertos.
Recuerda que cuando descargues datos de estas fuentes, probablemente te enfrentes a algunos desafíos en términos de formato y estructura.
¿Cuáles son los retos comunes en el manejo de datos gubernamentales?
Los datos gubernamentales, como los que se encuentran en Excel, a menudo vienen con una serie de dificultades que deben ser abordadas para preparar un conjunto de datos útil para el análisis. Algunos de los retos más comunes incluyen:
- Formato visual en lugar de tabular: Muchas veces los datos presentan gráficos y resúmenes que no son útiles para análisis.
- Agregación de encabezados explicativos: La inclusión de encabezados innecesarios puede obstaculizar la transformación de los datos en estructuras tabulares.
- Información adicional no deseada: Datos de proveedores u otras métricas que no son relevantes para el propósito del análisis.
La familiarización con estos retos te permitirá anticipar y desarrollar estrategias para manejarlos eficientemente. Un paso indispensable es la limpieza del conjunto de datos, que se estima puede consumir hasta el 90% del tiempo en un proyecto de ciencia de datos.
¿Cómo prepararnos para enfrentar los desafíos del conjunto de datos?
Primeramente, es importante explorar y familiarizarte con tu dataset. Abre el archivo en una herramienta de análisis de datos, como Excel o una plataforma de código abierto, y examina cuidadosamente cada hoja y categoría para identificar las partes que no necesitarás. En algunos casos, trabajarás con datos que son tan grandes o complejos que no podrás examinarlos completamente de esta manera, pero en proyectos más manejables, esta revisión inicial te dará una mejor idea de los pasos necesarios para limpiar y estructurar tus datos.
Además, comparte tus experiencias y estrategias en comunidades o foros específicos. No solo recibirás consejos valiosos, sino que contribuirás al crecimiento de un entorno de aprendizaje colaborativo.
Al final, recuerda que la limpieza y preparación de datos es el cimiento de un análisis riguroso y significativo, y aunque a menudo consume un tiempo considerable, es clave para generar insights precisos y valiosos. Así que adelante, explora y ¡no te desanimes frente a estos desafíos! La habilidad de resolver problemas de datos te abrirá oportunidades para descubrir historias ocultas que pueden tener un impacto significativo en la sociedad.