Extracción de Datos en Business Intelligence: Conceptos y Ejemplos
Clase 9 de 19 • Curso de Business Intelligence: Utilidad y Áreas de Oportunidad
Resumen
La preparación de datos no sólo implica el proceso ETL, también se necesita entender las diferentes fuentes de datos y los tipos de archivos utilizados comúnmente. Y eso es precisamente lo que vamos a desglosar de manera práctica en este contenido.
¿Qué es la etapa de extracción de datos en el proceso ETL?
La extracción es la primera etapa en el proceso de ETL - extraer, transformar, cargar. Aquí, la atención se centra en recopilar la información necesaria de diferentes fuentes. El detalle radica en saber que estos no siempre provienen del mismo lugar ni de sistemas similares.
- Extract implica la extracción de la información, y este es un paso crucial donde debemos tener cuidado, dado que los datos pueden provenir de un amplio abanico de lugares.
- Transform se refiere a la transformación o limpieza de la información, donde se organiza y se refina para su posterior uso.
- Load es la fase de carga para seguir con nuestro proceso, donde los datos limpiaos se introducen en una base de datos o software de análisis.
¿De dónde se pueden extraer los datos?
Tanto las fuentes de datos digitales como no digitales pueden ser un tesoro de información. Sin embargo, debemos recordar que lo importante es la información en sí, no tanto la comprensión de los programas o softwares utilizados para su almacenamiento o extracción. Es por ello que no es raro encontrar información en Data Silos, que son sectores de información dentro de una organización que no se encuentran vinculadas entre sí.
Un ejemplo claro es cuando estamos investigando acerca del departamento de finanzas, pero queremos correlacionarla con información del departamento de recursos humanos que utiliza programas o software diferentes.
¿Qué tipos de archivos se utilizan comúnmente para almacenar y compartir datos?
Los tipos de archivo son tan variados como sus fuentes. Los más comunes, con todo, son archivos de Excel (.xls) y archivos de texto en formato Comma-separated values (.csv), que normalmente se usan para mostrar datos tabulados. También es común extraer textos para su análisis, aunque estos suelen requerir un poco más de limpieza antes de su uso.