No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Looker Studio

Curso de Looker Studio

Carlos Gonzales

Carlos Gonzales

Expresiones Regulares y Transformación de Datos en Looker Studio

14/17
Recursos

La limpieza y transformación de datos es un proceso fundamental en cualquier proyecto de análisis o visualización. Cuando integramos nuevas fuentes de información a nuestros dashboards, es común encontrarnos con inconsistencias, duplicados o formatos incompatibles que pueden afectar la interpretación correcta de los datos. En este artículo, exploraremos cómo resolver problemas comunes de calidad de datos en Looker Studio, utilizando campos calculados y expresiones regulares para unificar categorías y limpiar información inconsistente.

¿Cómo solucionar problemas de inconsistencia en los datos?

Cuando conectamos nuevas fuentes de datos a nuestros dashboards, es común encontrar discrepancias en el formato. En nuestro caso, al reemplazar el origen en las visualizaciones, identificamos tres problemas principales:

  1. Categorías duplicadas: "Billetera digital" aparecía tres veces porque el nuevo sistema discrimina por tipo de billetera.
  2. Caracteres extraños: El champú anticaspa aparecía cinco veces debido a caracteres extraños insertados en medio de la palabra.
  3. Inconsistencia en mayúsculas/minúsculas: En lugar de tres columnas de sucursales, teníamos seis porque el nuevo sistema usaba mayúsculas para la palabra "SUCURSAL".

Para resolver estos problemas, utilizaremos campos calculados en Looker Studio, que nos permitirán transformar los datos sin modificar la fuente original.

¿Cómo eliminar caracteres extraños en los nombres de productos?

El primer paso es crear un campo calculado para limpiar los nombres de productos que contienen caracteres extraños:

  1. Vamos a la fuente de datos "Ventas"
  2. Añadimos un campo calculado llamado "nombre de productos dos"
  3. Utilizamos una combinación de funciones para limpiar el texto:
REGEXP_REPLACE(TRIM([nombre del producto]), "[^a-zA-Z ]", "")

Esta expresión hace dos cosas importantes:

  • TRIM(): Elimina espacios al inicio y final del texto
  • REGEXP_REPLACE(): Utiliza una expresión regular para reemplazar cualquier carácter que no sea una letra (mayúscula o minúscula) o un espacio por una cadena vacía

Es importante anidar las funciones correctamente, ya que Looker Studio no permite usar dos funciones separadas en un mismo campo calculado.

Una vez creado el campo, simplemente reemplazamos el campo original "nombre del producto" por "nombre de productos dos" en las propiedades de la visualización, y veremos que el champú anticaspa aparece una sola vez.

¿Cómo unificar categorías con diferencias de mayúsculas y minúsculas?

Para el problema de las sucursales, donde teníamos duplicados por diferencias entre mayúsculas y minúsculas, la solución es aún más sencilla:

  1. Creamos un nuevo campo calculado llamado "sucursal dos"
  2. Utilizamos la función UPPER para convertir todo a mayúsculas:
UPPER([sucursal])
  1. Reemplazamos el campo original en la visualización

Con este simple cambio, las seis categorías se reducen a las tres originales, unificando los datos correctamente.

¿Cómo estandarizar métodos de pago con diferentes nomenclaturas?

Para resolver el problema de los métodos de pago, necesitamos un enfoque más detallado usando la función CASE:

  1. Creamos un campo calculado "método de pago dos"
  2. Utilizamos CASE WHEN para estandarizar cada categoría:
CASE
  WHEN CONTAINS([método de pago], "trans") THEN "Transferencia"
  WHEN CONTAINS([método de pago], "Trans") THEN "Transferencia"
  WHEN CONTAINS([método de pago], "tarjeta de crédito") THEN "Tarjeta de Crédito"
  WHEN CONTAINS([método de pago], "tarjeta de Crédito") THEN "Tarjeta de Crédito"
  /* Repetir para cada método de pago */
  ELSE [método de pago]
END

Es crucial incluir la cláusula ELSE para mantener cualquier categoría nueva que pueda aparecer en el futuro.

También debemos prestar atención a las mayúsculas y minúsculas en las expresiones CONTAINS, ya que son sensibles a estas diferencias. Por eso tuvimos que añadir condiciones adicionales para "Trans" y "tarjeta de Crédito" con mayúsculas.

¿Por qué es importante la limpieza de datos en los dashboards?

La limpieza de datos no es solo una cuestión estética, sino que impacta directamente en la calidad de los análisis y decisiones que se toman a partir de ellos:

  • Mejora la precisión: Elimina duplicados y errores que podrían distorsionar métricas clave
  • Facilita la interpretación: Categorías unificadas permiten comparaciones más claras
  • Aumenta la confianza: Los usuarios confían más en dashboards con datos consistentes
  • Optimiza el rendimiento: Menos categorías innecesarias significan visualizaciones más eficientes

Los problemas de formato suelen aparecer principalmente cuando se consolidan datos nuevos con antiguos o cuando se cambia de sistema. Una vez resueltos, es poco probable que vuelvan a surgir a menos que se realice otro cambio significativo en las fuentes de datos.

La capacidad de limpiar y transformar datos directamente en Looker Studio, sin modificar las fuentes originales, es una habilidad valiosa que permite mantener dashboards profesionales y confiables incluso cuando trabajamos con datos imperfectos.

La próxima vez que te enfrentes a problemas de inconsistencia en tus visualizaciones, recuerda que con campos calculados y expresiones regulares puedes resolver la mayoría de los desafíos de calidad de datos. ¿Has enfrentado problemas similares en tus dashboards? ¿Qué técnicas has utilizado para resolverlos? Comparte tu experiencia en los comentarios.

Aportes 2

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Para solucionar el problema de las mayúsculas y minúsculas en Looker Studio, utiliza la función `UPPER()` o `LOWER()` en un campo calculado. Por ejemplo, si deseas unificar el campo "nombre" a mayúsculas, crea un nuevo campo calculado llamado "nombre_unificado" que aplique `UPPER(nombre)`. Esto transformará todas las entradas a un mismo formato, eliminando discrepancias en los gráficos. Así, "COMENZAR", "cOMENZAR" y "Comenzar" se tratarán como la misma entrada.
Para corregir errores ortográficos como escribir "sucursa" en lugar de "Sucursal", puedes utilizar expresiones regulares en Looker Studio. Una opción es crear un campo calculado que utilice la función `REGEXP_REPLACE`. Por ejemplo, puedes reemplazar "sucursa" por "Sucursal" y así unificar los datos. Además, si anticipas más variaciones, puedes usar una serie de condiciones `CASE` para abordar diferentes errores comunes y asegurarte de que todos se muestren correctamente en tu visualización. Esto garantiza que, a pesar de errores ortográficos, tus datos se consoliden de manera efectiva.