La recolección y limpieza de datos ocupa entre el 60-70% del trabajo de un/a Data Scientist.
Introducción: fundamentos de la visualización de datos
¿Qué aprenderás sobre la visualización de datos?
¿Qué es la visualización de datos?
Florence Nightingale y la dama de la lámpara
Retos para aprender visualización de datos
Importancia de la visualización de datos: disminuye la carga cognitiva
Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio
¿Cómo usar correctamente una gráfica? Ejemplos y usos de visualizaciones
Buenas prácticas para visualización de datos: user personas, mentiras estadísticas y principios de Gestalt
Caso Target: conflictos de ética en la ciencia de datos y Big Data
Elige la gráfica correcta para tus reportes
Gráfica de barras
Gráfica de pie
Gráfica de dispersión
Gráfica de burbujas
Gráfica de mapas
Tipos de mapas: isolíneas, coropletas, diagramas, anamórficos
Gráfica de heat map o mapas de calor
Gráfica de tablas
Importancia del storytelling en la visualización de datos
Data Visualization para Business Intelligence
¿Cómo afecta la visualización de datos en tu negocio?
Explora, descubre, pregunta: toma decisiones inteligentes con análisis de datos
Práctica: análisis y exploración de datos
Práctica: storytelling para contar historias con datos
Caso Walmart: integra visualización de datos y Big Data con inteligencia de negocios
Flujo de trabajo y etapas del Business Intelligence
Recolección de datos
Limpieza de datos
Exploración de datos
Creación de gráficas y visualizaciones
Generación de reportes con storytelling
Define objetivos SMART con KPIs o Key Performance Indicators
Recomendaciones finales para Visualización de Datos
Caso Orbitz: beneficios de una cultura data-driven o basada en datos
Continúa aprendiendo Data Science, Business Intelligence y Visualización de Datos
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Convierte tus certificados en títulos universitarios en USA
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Aportes 350
Preguntas 8
La recolección y limpieza de datos ocupa entre el 60-70% del trabajo de un/a Data Scientist.
Trabajando con Python, la forma más programática es usando Pandas y Numpy.
Garbage in, garbage out
Es una expresión en informática, que se puede entender como “basura entra, basura sale” es un concepto que se relaciona con la calidad de la información o los productos que ingresan a un sistema, si la calidad de lo que ingresa no es buena, el resultado normalmente tampoco es bueno.
Veo que algunos compañeros son bastante avanzados, pero en mi caso utilizo Power Query de Microsoft ya sea en Excel o Power BI para la limpieza de los datos.
Mini apuntes.
Segunda etapa y también muy demandante de tiempo. Antes de empezar a interpretar la información es necesario que los datos tengan formatos estandarizados (tipos de datos, tipos de valores, la forma en la que están escritos, etc) que faciliten la lectura para nosotros, otras personas y el software. Por ejemplo, si usamos texto tenemos que evitar usar carácteres especiales para evitar que el software tenga problemas a la hora de estandarizar.
Existe un concepto muy importante en limpieza de datos: GIGO/RIRO (Garbage In, Garbage Out / Rubbish In, Rubbish Out). Ambos términos advierten que si ingresamos información basura vamos a obtener información basura. El producto final depende de la calidad de los datos.
Estandarizada la información y controlada su calidad/relevancia podemos pasar al proceso de preparación en el cual organizaremos esos datos para su uso.
Aprendí primero a usar Pandas así que me quedé con esa librería de Python, sin embargo, pienso que debería usar excel pues el proceso de limpieza usando una interfaz grafica, podría agilizar el proceso.
Yo en lo personal uso para la limpieza de datos el sistema de transformación STEP BY STEP que ofrece power BI. Es básicamente un sistema de paso a paso en el cuál le decimos al software qué debe hacer cada vez que entre data con una estructura similar. Todo esto es NOCODE y es bastante práctico
En mi caso uso principalmente la herramienta de Sql Server Integration Service (SSIS) de Microsoft dentro de la empresa, en casos donde no requiero automatizar procesos sino hacer algo rápido utilizo Excel y Power BI.
NOTAS
Es una de las etapas mas demoradas e importantes, dado que requiere estandarizar el formato de trabajo que preferimos, basándonos no solo en nuestro gusto, sino en el sistema que utilizamos para el análisis e interpretación de datos (Excel, Power BI, Python, etc.).
Un concepto muy común en esta etapa es el GIGO/RIRO, que refiere al Garbage In, Garbage Out. Esto hace referencia a que si en nuestros análisis metemos basura desde el principio, tendremos basura en nuestro resultado. Claramente la información que desde el principio no es confiable, no genera resultados confiables. Por otro lado, la preparación es importante en esta etapa donde finalmente, le damos forma a nuestra información en cuanto a calidad y formato, dejando listo todo para la visualización de datos.
Cuando se trata de csv’s, procuro empezar con el número de columnas, si encuentro algunas con errores, cabio el separador.
De ahí, para estandarizar por tipos prefiero usar python, pandas y numpy.
Para almacenar, estoy aprendiendo a usar bien PostgreSQL, ya que me permite importar de forma sencilla una “Base de Datos” que se tenía en excel
Normalmente utilizo python para hacer la limpieza de datos.
Se que existen otras herramientas como Tableau Prep que te hacen todo el pipeline incluyendo la limpieza
Personalmente uso Excel para la limpieza de datos, en el cual analizo columna por columna buscando errores y aplicando diversas funciones o simplemente cambiando el tipo de texto para estandarizar la data.
Un software de ETL (Extract, Transform and Load) es ideal para estos casos. El proceso de ETL se realiza para integrar datos de una o varias fuentes (Origen), en una fuente destino. Aqui se recopilan datos de la(s) fuente(s) origen, se limpian los datos (transformaciones de los datos) y se cargan en la fuente destino, ya listos para ser utilizados por la herramienta de visualización. Esto es un poco mas avanzado. Herramientas para ETL estan
:SQL Server Integration Services (SSIS), Informatica PowerCenter entre otras. Las herramientas de visualización como Tableau, Power BI y otras permiten hacer limpieza de datos a un nivel intermedio comparado con las herramientas y softwares de ETL.
Cuando estaba en universidad tuve que hacer limpieza muy profunda de una BBDD que se hizo a través de un formulario MUY MAL HECHO desde un inicio.
Les pongo un ejemplo:
Una pregunta era '¿En qué ciudad vives?'
Realmente más del 99% de la población encuestada iba a vivir en la misma ciudad (no era muy necesaria esta pregunta). Pero la respuesta que se pudo haber reducido a una opción múltiple tipo:
Software para limpieza de datos
La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformación de datos es el proceso de convertir datos de un formato o estructura a otro. Los procesos de transformación también se pueden denominar disputa de datos o manipulación de datos, transformación y mapeo de datos de un formulario de datos “sin procesar” a otro formato para almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.
Suelo utilizar Rstudio para la limpieza de grandes volúmenes de data. Si no es mucho, basta con excel 😃
Excel es muy bueno, cuando se utilizan cantidades de datos muy pequeños, KNIME es una herramienta de datos amigable basada en cubos programables para limpiar grandes cantidades de datos.
Algunas herramientas para la limpieza de datos son
OpenRefine
Trifacta
Talend
RapidMiner
Alteryx
Reto
Estas herramientas utilizan la automatización y eliminan cualquier proceso manual, lo que acelera el proceso de limpieza de datos.
Astera Centerprise: Es una solución completa de integración de datos sin código, que es perfecta para la limpieza de datos. Ofrece capacidades avanzadas de creación de perfiles y limpieza de datos que permiten a los usuarios garantizar la integridad de los datos.
OpenRefine: Es una utilidad de datos de código abierto muy popular. La herramienta de limpieza de datos ayuda a su organización a convertir datos entre diferentes formatos mientras mantiene su estructura.
Trifacta Wrangler: Es otra de las principales herramientas de limpieza de datos del mercado. Esta herramienta interactiva y transformadora permite a los analistas de datos limpiar y preparar datos muy rápidamente en comparación con otras herramientas.
Dedupley: Es una herramienta específica para la limpieza de datos.
Experian Data Quality: Dispone de programas específicos para la validación de datos a través del correo electrónico y es capaz de analizar números de teléfono de forma masiva.
Para limpieza de datos uso knime
Información resumida de esta clase
#EstudiantesDePlatzi
La limpieza de los datos es una de las tareas que más nos va a tomar tiempo
El objetivo es entender la información de manera sencilla y para esto lo que necesitamos es estandarizar la información
GIGO = Garbage in, garbage out = Si entra basura a nuestro proceso, vamos a obtener basura como resultado
Entre mejor limpiemos nuestros datos de inicio, más limpios serán nuestros resultados
Definitivamente se deben limpiar los datos antes de realizar cualquier análisis, el único software que conozco para limpieza de datos es Excel. Ahí podemos estandarizarlos, concatenar, desconcatenar, modificar su tipo, etc. Y dejarlos listos para una carga masiva a alguna herramienta de BI.
No conozco alguna, investigando encontré estas opciones:
En mi trabajo por temas de licencias y demás uso power query, tanto en power BI como en excel, y puedo realizar toda la limpieza sin problema alguno dada la naturaleza actual de los datos.
Tal vez expresiones regulares para modificar algunos caracteres en un CSV.
¿Cuál es la diferencia entre la limpieza de datos y la transformación de datos?
La limpieza de datos es el proceso que elimina los datos que no pertenecen al conjunto de datos. La transformación de datos es el proceso de convertir los datos de un formato o estructura a otro. Los procesos de transformación también pueden denominarse “gestión de datos” o “manipulación de datos”, y consisten en transformar y mapear los datos de una forma “cruda” a otro formato para su almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.
¿Cómo se limpian los datos?
Aunque las técnicas utilizadas para la limpieza de datos pueden variar según los tipos de datos que almacene su empresa, puede seguir estos pasos básicos para trazar un marco de trabajo para su organización.
Paso 1: Eliminar las observaciones duplicadas o irrelevantes
Elimine las observaciones no deseadas de su conjunto de datos, incluidas las observaciones duplicadas o irrelevantes. Las observaciones duplicadas se producen con mayor frecuencia durante la recogida de datos. Cuando se combinan conjuntos de datos de varios lugares, se raspan datos o se reciben datos de clientes o de varios departamentos, hay oportunidades de crear datos duplicados. La eliminación de duplicidades es una de las áreas más importantes a tener en cuenta en este proceso. Las observaciones irrelevantes se producen cuando se observan observaciones que no encajan en el problema específico que se intenta analizar. Por ejemplo, si quiere analizar datos relativos a clientes milenarios, pero su conjunto de datos incluye generaciones más antiguas, podría eliminar esas observaciones irrelevantes. Esto puede hacer que el análisis sea más eficiente y minimizar la distracción de su objetivo principal, además de crear un conjunto de datos más manejable y de mayor rendimiento.
Paso 2: Corregir los errores estructurales
Los errores estructurales se producen cuando se miden o transfieren datos y se observan convenciones de nomenclatura extrañas, errores tipográficos o mayúsculas incorrectas. Estas incoherencias pueden dar lugar a categorías o clases mal etiquetadas. Por ejemplo, puede encontrar que aparecen tanto “N/A” como “No aplicable”, pero deberían analizarse como la misma categoría.
Paso 3: Filtrar los valores atípicos no deseados
A menudo, habrá observaciones puntuales que, a simple vista, no parecen encajar en los datos que está analizando. Si tiene una razón legítima para eliminar un valor atípico, como la introducción incorrecta de datos, hacerlo ayudará al rendimiento de los datos con los que está trabajando. Sin embargo, a veces es la aparición de un valor atípico lo que probará una teoría en la que se está trabajando. Recuerde: que exista un valor atípico no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese número. Si un valor atípico resulta ser irrelevante para el análisis o es un error, considere la posibilidad de eliminarlo.
Paso 4: Tratar los datos que faltan
No puede ignorar los datos que faltan porque muchos algoritmos no aceptan los valores que faltan. Hay un par de maneras de tratar los datos que faltan. Ninguna es óptima, pero ambas pueden considerarse.
Aun no conozco otra herramienta aparte de Excel, aunque si algunos comandos de filtrado de Python.
recomendacion: campos en minuscula sin caracteres especiales
Conozco excel, stata y R. La que mayormente uso es Excel.
encontré este artículo que habla sobre la importancia de realizar una buena limpieza de datos para minimizar en gran medida la mala toma de decisiones. se los recomiendo.
https://www.astera.com/es/type/blog/data-cleansing-tools/
Yo uso a nivel de data muy pequeña Excel y cuando la data es masiva uso SQL, ya cuando estoy trabajando el proyecto en Power BI uso el Power Query para hacer ajustes pequeños. En la medida de las posibilidades trato de trabajar con la data lo más limpia posible y no recargarle esta responsabilidad al Power Query.
Al trabajar con decenas de millones de registros, la forma más fácil que encontré para su limpieza fue desarrollar una herramientica en Visual Basic, que me valida registro por registro.
Uso Sql Server Integration Services SSIS y apluco toda la logica que sea necesaria para lograrlo.
Dataprep
✅
Con respecto al reto el software que uso para la limpieza de datos es “Winpure” porque me permite limpiar datos en una interfaz facil de usar. Su parte escencial es alta velocidad y rendimiento de esta.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?