Aportes 5

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Lo que propongo es identificar cual es son los datos que requerimos, generar la preguntas que queremos resolver lo mas concretas posibles para que los datos que recabemos sean claros
**Preparacion de datos** 1. conciderar la calidad de la data 2. verificar que esta data apele a las necesidades de la organizacion 3. modelar la data -definir las entidades y sus atributos -relaciones entre entidades y sus atributos -como la data interactua por la organizacion 4. Normalizar la data , reducir la duplicacion de dataos afianzando la relacion entre ellos
* ¿Como asegurarnos de que los datos sean compatibles y útiles? `------` * Para saber si sin compatibles verificaría que la data tenga una relación clara, si son datos estructurados, verificaría si algunas columnas pueden usarse como llaves primarias para relacionar los conjuntos, si es data no estructurada o semi, verificaría la procedencia y la metadata asociada a la transacción. * Inicialmente pensar en el ciclo de vida de los datos resultará conveniente, desde donde reposan hasta el momento en que se dan de "baja". Rápidamente consideraría: * Calidad de datos: Great Expectations * Catalogo de datos: Alation * Gestión de metadatos: Data Hub * Seguridad y compliance: Revisar los requisitos como GDPR, CCPA, HIPAA * Monitoreo: DataDog.
Voy a pensar como desarrollador, yo haría una figura central. por ejemplo un cliente, y asocio la infromación a ese cliente, ventas, compras etc. o podria hacerlo en contabilidad, centros de costos etc.
Primero, miraría que preguntas exactamente quieren responder, luego iniciaría con una investigación de fuentes de datos y ver como se puede consolidar esta información. Posteriormente, transformaría los datos para unificar y estandarizar, finalizando con el "empaquetado" de esta información en una base de datos consolidada o un Data Warehouse.
undefined