No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Transformaci贸n

8/25
Recursos

Aportes 2

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

8. Transformaci贸n

  • Estructura final: 驴Con qu茅 estructura requiero los datos compatibles con el target?
  • Relaciones
  • Normalizaci贸n: normalizar los datos para lograr consistencia a lo largo del flujo de datos
  • Duplicados: con qu茅 estructura requiero los datos compatibles con el target
  • Datos faltantes: qu茅 ocurre con los datos faltantes de mi data
  • Agregaciones: debo agrupar los datos por alguna caracter铆stica y buscar agregaciones como suma, promedio, m谩ximo y demas.

Qu茅 onda馃憢 . Ah铆 les van mis apuntes, que en realidad son una par谩frasis (si digo burradas t茅nganme paciencia auxilio estoy aprendiendo馃):

Hay algunas cosas que tenemos que considerar a la hora de comenzar el proceso de transformaci贸n de datos:

Estructura final:

En funci贸n de las necesidades del proyecto, definir el shape final de c贸mo deber铆an verse los datos. Y cargarlos al target

Relaciones:

Generar una hip贸tesis de cu谩les podr铆an ser las relaciones que reflejen mejor el resultado que queremos obtener.

  • Para evitar sesgos lo mejor es comparar esta hip贸tesis en un escenario en donde su resultado ser铆a irrelevante.

Si la segunda hip贸tesis se confirma, lo mejor ser谩 cambiar las relaciones y continuar con el an谩lisis exploratorio.

Normalizaci贸n:

Decidir qu茅 estructura de relaci贸n a nivel de bases de datos voy a llevar a cabo

  • se hace al normalizar los datos (1FN,2FN,鈥) para lograr consistencia a lo largo del flujo de datos

Encontrar las relaciones conceptuales (no num茅ricas / estad铆sticas) entre las columnas de cada una de las tablas

Duplicados :

Considerar qu茅 hacer con ellos馃. Para ello es importante saber el contexto de los datos.

  • Es decir, si es relevante y tenga sentido su existencia, tal que aporten informaci贸n a los resultados, dejarlos en paz. Si son simplemente elementos por error, lo mejor ser铆a ignorarlos en el an谩lisis exploratorio

馃毇Si simplemente los borramos porque vemos dos iguales, podr铆amos estar sesgando los resultados. Igualmente si es necesario hacerlo y no borrarlos

Datos faltantes:

Igual que con los duplicados. Considerar su tratamiento e imputaci贸n dependiendo del contexto del cu谩l fueron extra铆dos.

  • En otras palabras: investigar la raz贸n de la existencia de ese faltante
  • otro aspecto a considerar es que a veces existen datos faltantes que no se observan de manera expl铆cita.
    • La raz贸n de esto es porque fueron llenados con un valor (num茅rico / str) que es reconocible por pandas(ejemplo: columna edad= 99999). Son un poco m谩s dif铆ciles de encontrar, porque est谩n enmascarados, haci茅ndose pasar por datos normales cuando en realidad son datos nulos impostores.

Ejemplo: en un dataset con informaci贸n de salud de los pacientes, si existe una columna 鈥渇umador鈥, 贸 鈥渟obrepeso鈥 la existencia de un faltante en esta columna nos genera al menos dos hip贸tesis del paciente en cuesti贸n: 1: no existe tal informaci贸n del paciente, 2: El paciente no es fumador, y simplemente la tabla est谩 hecha incorrectamente (o falta normalizarse)

Agregaciones:

Lo que dijo el profe馃嵒