Contenido del curso

Limpieza de datos HR con Power Query

Resumen

Limpiar datos desordenados es una de las tareas más comunes (y frustrantes) cuando trabajas con reportes corporativos. Las transformaciones avanzadas en Power Query te permiten convertir archivos caóticos en datasets listos para analizar dentro de Power BI, sin perder información clave como nombres o identificadores.

Este recorrido está pensado para analistas de datos que quieren dominar limpieza, combinación y estructuración de información usando un caso real de recursos humanos.

¿Qué es una transformación en Power Query y para qué sirve?

Una transformación es cualquier acción que modifica la forma o el contenido de tus datos para dejarlos utilizables. Dentro de Power Query encuentras varias categorías que vale la pena tener claras desde el inicio [0:08].

  • Cambiar el tipo de dato de cada columna.
  • Generar una buena estructura de tabla.
  • Dividir columnas y reemplazar valores.
  • Agregar columnas calculadas o condicionales.
  • Filtrar datos según criterios específicos.

Además de transformar, Power Query también permite combinaciones: anexar consultas, combinar consultas y combinar binarios. Estas operaciones son las que te permiten unir varios reportes con la misma estructura, como veremos enseguida.

¿Para qué sirve Power Query? Sirve para extraer, transformar y cargar datos antes de modelarlos en Power BI. Es tu zona de limpieza previa al análisis.

¿Cómo cargar y limpiar un reporte de recursos humanos paso a paso?

El ejercicio parte de tres archivos con la misma estructura dentro de la carpeta Automatización con Power Query → Transformaciones avanzadas. Trabajamos con el reporte 10, que contiene los registros de Patricia Morales [1:05].

Desde Power BI Desktop, vas a Obtener datos → Texto/CSV, eliges el archivo y haces clic en Transformar datos para abrir Power Query. La estructura inicial trae fecha de reporte, rango desde-hasta, nombre, clave y cuatro columnas numeradas (1, 2, 3 y 4) que representan:

  • Hora de entrada.
  • Hora de salida al refrigerio.
  • Hora de regreso del refrigerio.
  • Hora de salida del trabajo.

¿Cómo eliminar filas y columnas innecesarias sin perder datos clave?

Lo primero es eliminar la Columna 1 y quitar las cinco filas superiores con Reducir filas → Quitar filas → Quitar filas superiores [2:05]. Luego promueves la primera fila como encabezado.

Aquí viene un detalle crítico: aún no puedes eliminar la fila que contiene Nombre: Patricia Morales y Clave: 10, porque perderías la identidad del reporte. Y eso, para un analista de datos, es un error que cuesta caro.

¿Cómo crear columnas condicionales para conservar nombre y clave?

La solución es agregar columnas condicionales antes de borrar esas filas. Vas a Agregar columna → Columna condicional y configuras la lógica [2:55]:

  • Nueva columna Nombre: si la columna Fecha comienza por Nombre (con N mayúscula), devuelve Patricia Morales; de lo contrario, también Patricia Morales.
  • Nueva columna Clave: si la columna 1 comienza por Clave (con C mayúscula), devuelve 10; de lo contrario, 10.

¿Power Query distingue mayúsculas y minúsculas? Sí. Power Query y su lenguaje M son case sensitive, así que escribir nombre o Nombre no es lo mismo. Cuida cada letra al definir condiciones.

Una vez creadas estas columnas, ya puedes eliminar la primera fila con Quitar filas superiores → 1, porque el dato del propietario y su identificador quedan asegurados en columnas independientes.

¿Cómo asignar tipos de dato y corregir errores de formato en horas?

Con la estructura limpia, toca asignar el tipo correcto a cada columna. La columna fecha se configura como Fecha [4:00]. También conviene quitar las dos últimas filas con Quitar filas inferiores → 2, que suelen contener totales o pies de página.

Al intentar convertir las columnas 1 a 4 en tipo Hora, aparecen errores. La causa: los valores vienen escritos como A. M. y P. M. con un espacio extra entre el punto y la letra M [4:38].

¿Cómo reemplazar valores para corregir AM y PM?

La solución es usar Clic derecho → Reemplazar los valores sobre cada columna afectada:

  • Reemplazar A. M. por AM.
  • Reemplazar P. M. por PM.

Un truco práctico: selecciona primero la celda con el valor problemático para que Power Query copie el texto exacto, evitando errores de tipeo. Después de los reemplazos, aplicas el tipo Hora a las cuatro columnas y desaparecen los errores.

¿Qué hago si una columna marca error al cambiar el tipo de dato? Revisa primero el formato del texto original. Espacios invisibles, puntos extra o caracteres especiales suelen ser la causa. Reemplaza esos valores antes de convertir.

El resultado final es un dataset con fecha, hora de entrada, salida e ingreso del refrigerio, hora de salida final, además del nombre y la clave del trabajador. Una estructura tabular impecable, lista para ser explotada en visualizaciones de Power BI o enriquecida con lenguaje M en el siguiente paso del proceso [6:08].

¿Cómo estás aplicando estas transformaciones en tus propios reportes? Comparte tu caso en los comentarios.