Contenido del curso
Contenido del curso
Ian Gabriel Rivera Reyes
Mateo Montoya Villegas
Christian Brigido Celedonio
Moises Francisco Galvis Cerinza
Mateo Montoya Villegas
Andres Felipe Paz Polo
Luis Cabezas
Ana Giraldo
Natalia Rojas Viquez
DANIEL CARRILLO CONTRERAS
Marlon Steban Cardenas Valencia
Mateo Montoya Villegas
Luis Cabezas
Felix Lucena
Christian Rangel
Eber Eliud Rodriguez Alvarado
LISETH SALAS
Cristhian Agüero
Jhon Freyman Ramírez Cortés
Vivian Marmolejo
JULIAN ANDRES LOPEZ GONZALEZ
Juan Pablo García Chávez
Juan Pablo García Chávez
Juan Pablo García Chávez
Jhon Banguera
Eduardo Federico Lara Ibarra
Ignacio Robles
Glen Castañeda Mira
La gobernanza de datos se refiere a las políticas, estandarizaciones y procedimientos que deben implementarse para garantizar el manejo adecuado de los datos dentro de una organización. Es fundamental establecer buenas prácticas para asegurar que los datos:
Esto implica definir criterios claros para:
Problemas Comunes en la Captura y Almacenamiento de Datos
Tecnologías y Repositorios Recomendados
Para una adecuada gestión de los datos, se pueden usar:
Tipos de Datos:
Acceso a los Datos
El acceso a los datos puede darse:
Es importante definir:
Ventajas de los repositorios modernos:
La Madurez de los Datos
La madurez de los datos es un concepto clave para transformar datos en decisiones estratégicas. Existen cinco etapas:
Conclusión: La madurez de los datos marca la diferencia entre obtener insights valiosos y basarse en simples opiniones.
¡Muchas gracias por el resumen Ian!
Excelente resumen
La gobernanza de datos es una metodología que garantiza que los datos estén en las condiciones adecuadas para respaldar las iniciativas y operaciones empresariales. Alinear la gobernanza de datos con las iniciativas empresariales tiene muchos beneficios.
¿Por qué es importante la gobernanza de datos?
Según Gartner, hasta 2025, el 80 % de las organizaciones que busquen escalar su negocio digital fracasarán por no adoptar un enfoque moderno de gobernanza de datos y análisis. No es de extrañar que los directores de datos identifiquen la gobernanza de datos como una de las principales prioridades de sus iniciativas de datos. En una encuesta de 2023 a 350 directores de datos y puestos equivalentes, MIT CDOIQ descubrió que el 45 % de los directores de datos identifican la gobernanza de los datos como una de sus prioridades más importantes. Estos líderes de datos buscan implementar un modelo de gobernanza que les permita poner los datos a disposición de las personas y las aplicaciones adecuadas cuando los necesiten, a la vez que se mantengan seguros y protegidos, con los controles adecuados.
Históricamente, la gobernanza se ha empleado para bloquear los datos en silos, con el objetivo de evitar filtraciones o el uso indebido. Sin embargo, la consecuencia de los silos de datos es que los usuarios legítimos tienen que sortear las barreras para acceder a los datos cuando los necesitan. Sin darse cuenta, la innovación basada en datos se ve entorpecida.
Tiene dos palancas para hacer de la gobernanza un facilitador de la innovación: acceso y control. La clave del éxito es encontrar el equilibrio adecuado entre acceso y control, y el punto de equilibrio es diferente para cada organización. Cuando se ejerce un control excesivo, los datos quedan bloqueados en silos y los usuarios no pueden acceder a los datos cuando los necesitan. Esto no solo frena la creatividad, sino que también conduce a la creación de sistemas de TI en la sombra, que dejan los datos desactualizados y desprotegidos. Por otro lado, cuando se proporciona demasiado acceso, los datos terminan en aplicaciones y almacenes de datos, lo que aumenta el riesgo de fuga de datos.
Establecer la gobernanza correcta, aquella que equilibre acceso y control, brinda a las personas confianza en los datos al promover la detección, conservación, protección e intercambio adecuados de los datos. Esto fomenta la innovación y, al mismo tiempo, protege los datos.
¿Qué es la gobernanza de análisis?
La gobernanza de análisis se refiere tanto a la gobernanza de los datos para su uso en aplicaciones de análisis como a la gobernanza del uso de los sistemas de análisis. Su equipo de gobernanza de análisis puede establecer mecanismos de gobernanza, como la documentación y el control de versiones de los informes de análisis. Como siempre, haga un seguimiento de los requisitos normativos, establezca la política de la empresa y defina barreras de protección para la organización en general.
¿Qué es la gobernanza del machine learning (ML)?
La gobernanza del ML aplica muchas de las mismas prácticas de gobernanza de datos al ML. La calidad y la integración de los datos deben proporcionar los datos necesarios para el entrenamiento de modelos y la implementación en producción (los almacenes de características son un aspecto importante de esto). La inteligencia artificial (IA) responsable presta especial atención al uso de datos confidenciales para crear modelos. Las capacidades adicionales de gobernanza del ML incluyen permitir que las personas participen en la creación, la implementación y la supervisión de los modelos; documentar el entrenamiento, el control de versiones, los casos de uso admitidos y guiar el uso ético del modelo; y supervisar el modelo en producción para verificar su precisión, desviación, sobreajuste y ajuste insuficiente.
La IA generativa requiere capacidades de gobernanza de datos adicionales, como la calidad y la integridad de los datos, para respaldar la adaptación de los modelos básicos para el entrenamiento y la inferencia, la gobernanza de la toxicidad y el sesgo de la IA generativa y las operaciones del modelo de base (FM): las FMOps.
¡Muchas gracias por la información complementaria Moisés!
La hora epoch es un sistema de medición del tiempo que se basa en el número de segundos transcurridos desde el 1 de enero de 1970 a las 00:00:00 UTC.
Gracias, tuve la misma curiosidad y corrí a buscarlo, mira lo que encontré: "El tiempo Epoch es un sistema para describir un punto en el tiempo como el número de segundos transcurridos desde la época Unix (1 de enero de 1970, 00:00:00 UTC)"
Ni un ejemplo practico, ni un reto..
Se me va haciento aburrido y se pierte interés en el curso, extaño las clases de Anne.
Al menos en mi opinión.
Como demasiado teorico me parece!
Primero es entender el ¿por qué? es importante tener las bases solidas antes de comenzar a lo técnico-práctico, el curso me está pareciendo bastante interesante por lo completo
Un lago de datos es un sistema de almacenamiento que permite guardar grandes volúmenes de datos en su formato original. A diferencia de un data warehouse, donde los datos son estructurados y organizados, en un lago de datos se pueden almacenar datos estructurados, semiestructurados y no estructurados. Esto permite a las organizaciones manejar datos de diversas fuentes y formatos, facilitando su análisis posterior. Los lagos de datos son ideales para la exploración de datos, el análisis avanzado y el aprendizaje automático, ya que ofrecen flexibilidad y escalabilidad en el manejo de información.
¡Muchas gracias por la aclaración Marlon!
¿Cómo se sabría que unos datos han alcanzado esa madurez?
van 5 clases y no entiendo nada de nada
Cómo vas Felix?
Gobernanza de los Datos
La gobernanza de los datos es fundamental en un proyecto de Business Intelligence, ya que garantiza la calidad, seguridad y accesibilidad de la información dentro de una organización. Los principales aspectos a considerar son:
Importancia de la Gobernanza de Datos
Una buena gobernanza de datos permite que la información sea utilizada de manera eficiente y segura en toda la organización, asegurando que los reportes y análisis en BI sean precisos, confiables y útiles para la toma de decisiones.
Hora epoch: sistema de medición del tiempo que se basa en el número de segundos transcurridos desde 1 de enero de 1970 a las 00:00:00 UTC.
La gobernanza de datos se refiere al proceso mediante el cual se estandarizan procesos, formatos y administradores de los datos a lo largo de la organización.
cual es la hora epoch?
La hora Epoch es el contador universal de segundos que empezó a correr el 1 de enero de 1970. Es la forma en que las computadoras eliminan la ambigüedad de las zonas horarias y los calendarios.
¿Por qué crees que estandarizar el tiempo a un simple número entero es vital para evitar el caos en sistemas de datos globales?
El formato de fecha Unix Epoch es un único valor numérico que representa la cantidad de segundos transcurridos desde el 1/1/1970 . Esto no es compatible con el enmascaramiento de fechas de Boomi, por lo que la conversión a y desde este formato de fecha requiere un pequeño script.
Ahi esta la definicion...
La hora Época (o Unix Epoch Time) es un sistema de medición del tiempo utilizado en la informática. Representa el número de segundos transcurridos desde el 1 de enero de 1970 a las 00:00:00 UTC (Tiempo Universal Coordinado), excluyendo los segundos intercalares.
# Gobernanza de los datos "Datos desordenados llevan a datos erróneos" - Gobernanza de los datos (Data Governance) es el proceso de gestionar la disponibilidad, integridad, seguridad y usabilidad de los datos de una organización.- Repositorio de datos (Data Warehouse) es una base de datos centralizada que se utiliza para almacenar datos de diferentes fuentes.- Acceso a los datos (Data Access) es el proceso de obtener datos de diferentes fuentes.- Madurez de los datos. (Data Maturity) es el proceso de evaluar la calidad de los datos.
# Gobernanza de los datos
"Datos desordenados llevan a datos erróneos"
- Gobernanza de los datos (Data Governance) es el proceso de gestionar la disponibilidad, integridad, seguridad y usabilidad de los datos de una organización.- Repositorio de datos (Data Warehouse) es una base de datos centralizada que se utiliza para almacenar datos de diferentes fuentes.- Acceso a los datos (Data Access) es el proceso de obtener datos de diferentes fuentes.- Madurez de los datos. (Data Maturity) es el proceso de evaluar la calidad de los datos.
# Gobernanza de los datos "Datos desordenados llevan a datos erróneos" - Gobernanza de los datos (Data Governance) es el proceso de gestionar la disponibilidad, integridad, seguridad y usabilidad de los datos de una organización. - Repositorio de datos (Data Warehouse) es una base de datos centralizada que se utiliza para almacenar datos de diferentes fuentes. - Acceso a los datos (Data Access) es el proceso de obtener datos de diferentes fuentes. - Madurez de los datos. (Data Maturity) es el proceso de evaluar la calidad de los datos. ```# Gobernanza de los datos "Datos desordenados llevan a datos erróneos" \- Gobernanza de los datos (Data Governance) es el proceso de gestionar la disponibilidad, integridad, seguridad y usabilidad de los datos de una organización.- Repositorio de datos (Data Warehouse) es una base de datos centralizada que se utiliza para almacenar datos de diferentes fuentes.- Acceso a los datos (Data Access) es el proceso de obtener datos de diferentes fuentes.- Madurez de los datos. (Data Maturity) es el proceso de evaluar la calidad de los datos.
Datos desordenados llevan a datos erróneos
¿Y los datos?
Gobernanza de datos: Se refiere a las políticas, estandarizaciones y procedimientos que van a sufrir nuestros datos dentro de nuestra organización
Repositorio de los datos: Aquí seleccionamos donde guardaremos los datos, seleccionamos el repositorio, normalmente se guardan en tecnologías basadas en la nube según la necesidad de los datos
Acceso a los datos: Se puede acceder a ellos desde la nube o desde carpetas locales, es importante poder determinar como los vamos a acceder
Madurez de los datos: Tenemos 4 tipos de madurez, en cada una de estas vamos a tener unas acciones que tomar
1. Explotaría: Aquí analizamos y comprendemos la calidad, estructura y contexto de los datos disponibles.
2. Asimilación de los datos: Esta es más enfocada a los usuarios donde los usuarios van a poder interactuar con estos datos, ellos los obtienen de fuentes internas o fuentes externas
La combinación entre datos internos y externos nos van a permitir tener un mejor producto y una visualización de lo valioso de los datos que tenemos
3. Liderar con los datos: En esta fase interpretamos los datos con perspectivas hacia el futuro, donde con el análisis creamos estrategias las cuales la compañía podrá seguir
4. Liderazgo: La madurez de los datos nos permitirá tomar decisiones más efectivas y acertadas al camino que debemos seguir, esto se lleva a cabo con datos reales, donde ya hemos hecho una exploración y hemos estudiado el pasado para permitirnos tomar decisiones a futuro
5. Innovación: Tomamos todos estos datos que ya hemos tenido con una maduración importante para poder diseñar escenarios hipotéticos a futuro para poder determinar que estrategias podemos tomar en diferentes escenarios
La madurez de los datos marca la diferencia entre insights y opiniones
Un insight es una comprensión clara y profunda sobre un tema, que permite tomar decisiones informadas. En el contexto de datos y análisis, un insight se refiere a un hallazgo revelador que se obtiene al estudiar patrones y tendencias en los datos, facilitando la identificación de oportunidades o problemas. En proyectos de Business Intelligence (BI), los insights son fundamentales para guiar estrategias y acciones, asegurando que las decisiones se basen en información válida y relevante.
mi última empresa no tenía una gobernanza de datos, lo que volvía las decisiones lentas y desinformadas. Lo mejor es que pude darme cuenta de esto, y entender la importancia de contar con una gobernanza de datos.
¿Por qué es importante la Hora Epoch??
✅ Estándar universal - Todos los sistemas usan la misma referencia ✅ Fácil de calcular - Solo números, sin complejidad de fechas ✅ Independiente del zona horaria - UTC es neutro ✅ Óptimo para almacenamiento - Usa menos espacio que texto ✅ Cálculos precisos - Comparar fechas es trivial