Introducción: fundamentos de la visualización de datos

1

¿Qué aprenderás sobre la visualización de datos?

2

¿Qué es la visualización de datos?

3

Florence Nightingale y la dama de la lámpara

4

Retos para aprender visualización de datos

5

Importancia de la visualización de datos: disminuye la carga cognitiva

6

Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio

7

¿Cómo usar correctamente una gráfica? Ejemplos y usos de visualizaciones

8

Buenas prácticas para visualización de datos: user personas, mentiras estadísticas y principios de Gestalt

9

Caso Target: conflictos de ética en la ciencia de datos y Big Data

Elige la gráfica correcta para tus reportes

10

Gráfica de barras

11

Gráfica de pie

12

Gráfica de dispersión

13

Gráfica de burbujas

14

Gráfica de mapas

15

Tipos de mapas: isolíneas, coropletas, diagramas, anamórficos

16

Gráfica de heat map o mapas de calor

17

Gráfica de tablas

18

Importancia del storytelling en la visualización de datos

Data Visualization para Business Intelligence

19

¿Cómo afecta la visualización de datos en tu negocio?

20

Explora, descubre, pregunta: toma decisiones inteligentes con análisis de datos

21

Práctica: análisis y exploración de datos

22

Práctica: storytelling para contar historias con datos

23

Caso Walmart: integra visualización de datos y Big Data con inteligencia de negocios

Flujo de trabajo y etapas del Business Intelligence

24

Recolección de datos

25

Limpieza de datos

26

Exploración de datos

27

Creación de gráficas y visualizaciones

28

Generación de reportes con storytelling

29

Define objetivos SMART con KPIs o Key Performance Indicators

Recomendaciones finales para Visualización de Datos

30

Caso Orbitz: beneficios de una cultura data-driven o basada en datos

31

Continúa aprendiendo Data Science, Business Intelligence y Visualización de Datos

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

19 Días
4 Hrs
30 Min
26 Seg

Limpieza de datos

25/31
Recursos

Aportes 350

Preguntas 8

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

La recolección y limpieza de datos ocupa entre el 60-70% del trabajo de un/a Data Scientist.

Trabajando con Python, la forma más programática es usando Pandas y Numpy.

Garbage in, garbage out
Es una expresión en informática, que se puede entender como “basura entra, basura sale” es un concepto que se relaciona con la calidad de la información o los productos que ingresan a un sistema, si la calidad de lo que ingresa no es buena, el resultado normalmente tampoco es bueno.

Veo que algunos compañeros son bastante avanzados, pero en mi caso utilizo Power Query de Microsoft ya sea en Excel o Power BI para la limpieza de los datos.

Mini apuntes.

Limpieza de datos

  • Segunda etapa y también muy demandante de tiempo. Antes de empezar a interpretar la información es necesario que los datos tengan formatos estandarizados (tipos de datos, tipos de valores, la forma en la que están escritos, etc) que faciliten la lectura para nosotros, otras personas y el software. Por ejemplo, si usamos texto tenemos que evitar usar carácteres especiales para evitar que el software tenga problemas a la hora de estandarizar.

  • Existe un concepto muy importante en limpieza de datos: GIGO/RIRO (Garbage In, Garbage Out / Rubbish In, Rubbish Out). Ambos términos advierten que si ingresamos información basura vamos a obtener información basura. El producto final depende de la calidad de los datos.

  • Estandarizada la información y controlada su calidad/relevancia podemos pasar al proceso de preparación en el cual organizaremos esos datos para su uso.

Aprendí primero a usar Pandas así que me quedé con esa librería de Python, sin embargo, pienso que debería usar excel pues el proceso de limpieza usando una interfaz grafica, podría agilizar el proceso.

Yo en lo personal uso para la limpieza de datos el sistema de transformación STEP BY STEP que ofrece power BI. Es básicamente un sistema de paso a paso en el cuál le decimos al software qué debe hacer cada vez que entre data con una estructura similar. Todo esto es NOCODE y es bastante práctico

En mi caso uso principalmente la herramienta de Sql Server Integration Service (SSIS) de Microsoft dentro de la empresa, en casos donde no requiero automatizar procesos sino hacer algo rápido utilizo Excel y Power BI.

NOTAS
Es una de las etapas mas demoradas e importantes, dado que requiere estandarizar el formato de trabajo que preferimos, basándonos no solo en nuestro gusto, sino en el sistema que utilizamos para el análisis e interpretación de datos (Excel, Power BI, Python, etc.).

Un concepto muy común en esta etapa es el GIGO/RIRO, que refiere al Garbage In, Garbage Out. Esto hace referencia a que si en nuestros análisis metemos basura desde el principio, tendremos basura en nuestro resultado. Claramente la información que desde el principio no es confiable, no genera resultados confiables. Por otro lado, la preparación es importante en esta etapa donde finalmente, le damos forma a nuestra información en cuanto a calidad y formato, dejando listo todo para la visualización de datos.

Cuando se trata de csv’s, procuro empezar con el número de columnas, si encuentro algunas con errores, cabio el separador.
De ahí, para estandarizar por tipos prefiero usar python, pandas y numpy.
Para almacenar, estoy aprendiendo a usar bien PostgreSQL, ya que me permite importar de forma sencilla una “Base de Datos” que se tenía en excel

Normalmente utilizo python para hacer la limpieza de datos.
Se que existen otras herramientas como Tableau Prep que te hacen todo el pipeline incluyendo la limpieza

Personalmente uso Excel para la limpieza de datos, en el cual analizo columna por columna buscando errores y aplicando diversas funciones o simplemente cambiando el tipo de texto para estandarizar la data.

Un software de ETL (Extract, Transform and Load) es ideal para estos casos. El proceso de ETL se realiza para integrar datos de una o varias fuentes (Origen), en una fuente destino. Aqui se recopilan datos de la(s) fuente(s) origen, se limpian los datos (transformaciones de los datos) y se cargan en la fuente destino, ya listos para ser utilizados por la herramienta de visualización. Esto es un poco mas avanzado. Herramientas para ETL estan
:SQL Server Integration Services (SSIS), Informatica PowerCenter entre otras. Las herramientas de visualización como Tableau, Power BI y otras permiten hacer limpieza de datos a un nivel intermedio comparado con las herramientas y softwares de ETL.

Cuando estaba en universidad tuve que hacer limpieza muy profunda de una BBDD que se hizo a través de un formulario MUY MAL HECHO desde un inicio.
Les pongo un ejemplo:
Una pregunta era '¿En qué ciudad vives?'
Realmente más del 99% de la población encuestada iba a vivir en la misma ciudad (no era muy necesaria esta pregunta). Pero la respuesta que se pudo haber reducido a una opción múltiple tipo:

  • Ciudad X
  • Otra
    se mantuvo como un Campo de Texto y esto hizo que MUCHAS personas escribieran la misma ciudad de mil formas distintas.
    Ahora imaginen eso con 60 y tantas preguntas para más de 100 encuestas.
    En ese entonces no sabía combinar Python con Excel así que me vi limitado a usar Google Sheets. No estuvo mal, fue mucho más rápido de lo que esperaba pero me dio mucho coraje porque todo el formulario era una porquería que se pudo mejorar xD

Software para limpieza de datos

La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformación de datos es el proceso de convertir datos de un formato o estructura a otro. Los procesos de transformación también se pueden denominar disputa de datos o manipulación de datos, transformación y mapeo de datos de un formulario de datos “sin procesar” a otro formato para almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.

Suelo utilizar Rstudio para la limpieza de grandes volúmenes de data. Si no es mucho, basta con excel 😃

Excel es muy bueno, cuando se utilizan cantidades de datos muy pequeños, KNIME es una herramienta de datos amigable basada en cubos programables para limpiar grandes cantidades de datos.

Aquí te presento algunas opciones populares: 1. **OpenRefine (anteriormente Google Refine)**: * Una herramienta potente y gratuita para trabajar con datos desordenados: limpiarlos, transformarlos, y enriquecerlos de otras bases de datos. * Bueno para tareas como la normalización de datos, identificación de duplicados, y limpieza de errores. 2. **Pandas en Python**: * Una biblioteca de análisis de datos que ofrece amplias capacidades para la manipulación de datos, incluyendo limpieza. * Permite filtrar datos, llenar valores faltantes, eliminar duplicados, y realizar múltiples transformaciones de datos. 3. **Trifacta Wrangler**: * Una herramienta interactiva para la limpieza y transformación de datos. * Ofrece una interfaz de usuario gráfica para transformar datos sin necesidad de escribir código. 4. **Talend**: * Una plataforma de integración de datos que proporciona herramientas para limpiar, transformar y migrar datos. * Es útil para proyectos de integración de datos a gran escala. 5. **Microsoft Excel / Google Sheets**: * Herramientas de hoja de cálculo con capacidades básicas para la limpieza de datos, como eliminar duplicados, filtrar y ordenar datos, y usar funciones para transformar datos. 6. **KNIME**: * Una plataforma de análisis de datos de código abierto que permite realizar diversas operaciones de limpieza de datos. * Proporciona una interfaz gráfica para combinar distintos nodos de procesamiento de datos. 7. **SQL**: * Lenguajes de bases de datos como SQL también se pueden utilizar para limpiar datos, especialmente cuando los datos ya están almacenados en una base de datos relacional. 8. **Data Ladder**: * Una herramienta más orientada al ámbito empresarial, ideal para la limpieza, emparejamiento y enriquecimiento de datos. 9. **IBM InfoSphere QualityStage**: * Una herramienta empresarial para la calidad de datos que ayuda a crear datos consistentes, precisos y completos. 10. **Alteryx**: * Combina análisis de datos, limpieza de datos, y capacidades de integración de datos en una sola plataforma.

Algunas herramientas para la limpieza de datos son
OpenRefine
Trifacta
Talend
RapidMiner
Alteryx

Reto
Estas herramientas utilizan la automatización y eliminan cualquier proceso manual, lo que acelera el proceso de limpieza de datos.

Astera Centerprise: Es una solución completa de integración de datos sin código, que es perfecta para la limpieza de datos. Ofrece capacidades avanzadas de creación de perfiles y limpieza de datos que permiten a los usuarios garantizar la integridad de los datos.

OpenRefine: Es una utilidad de datos de código abierto muy popular. La herramienta de limpieza de datos ayuda a su organización a convertir datos entre diferentes formatos mientras mantiene su estructura.

Trifacta Wrangler: Es otra de las principales herramientas de limpieza de datos del mercado. Esta herramienta interactiva y transformadora permite a los analistas de datos limpiar y preparar datos muy rápidamente en comparación con otras herramientas.

Dedupley: Es una herramienta específica para la limpieza de datos.

Experian Data Quality: Dispone de programas específicos para la validación de datos a través del correo electrónico y es capaz de analizar números de teléfono de forma masiva.

En pocas palabras, un término más apropiado seria Conserje de Datos

Para limpieza de datos uso knime

Información resumida de esta clase
#EstudiantesDePlatzi

  • La limpieza de los datos es una de las tareas que más nos va a tomar tiempo

  • El objetivo es entender la información de manera sencilla y para esto lo que necesitamos es estandarizar la información

  • GIGO = Garbage in, garbage out = Si entra basura a nuestro proceso, vamos a obtener basura como resultado

  • Entre mejor limpiemos nuestros datos de inicio, más limpios serán nuestros resultados

Definitivamente se deben limpiar los datos antes de realizar cualquier análisis, el único software que conozco para limpieza de datos es Excel. Ahí podemos estandarizarlos, concatenar, desconcatenar, modificar su tipo, etc. Y dejarlos listos para una carga masiva a alguna herramienta de BI.

## 🚀Limpieza de Datos El proceso de limpieza de datos es una parte crucial en el análisis de datos y la preparación para el procesamiento y el análisis. Consiste en identificar y corregir errores, inconsistencias y duplicados en los conjuntos de datos para garantizar su calidad y fiabilidad. Pasa por diferentes etapas: * **Identificación de problemas:** En esta etapa, se revisa el conjunto de datos en busca de problemas potenciales, como valores nulos, valores atípicos, datos inconsistentes o duplicados. * **Manejo de valores nulos:** Los valores nulos o faltantes pueden afectar la validez de los análisis. Se deben tomar decisiones sobre cómo manejar estos valores, ya sea eliminándolos, imputándolos con valores estimados o aplicando otras estrategias según el contexto. * **Manejo de valores atípicos:** Se identifican y manejan valores atípicos que podrían distorsionar los resultados del análisis. * **Estandarización de formatos:** Es importante asegurarse de que los datos estén en formatos consistentes, como fechas, unidades de medida y representaciones numéricas. * **Detección y eliminación de duplicados:** La presencia de datos duplicados puede sesgar los resultados del análisis. Por lo tanto, es necesario identificar y eliminar duplicados de manera efectiva. * **Corrección de errores de entrada:** Se verifican y corrigen errores de entrada, como errores tipográficos o malas interpretaciones. La limpieza de datos es esencial por una gran cantidad de razones, entre esas: * **Precisión:** Un conjunto de datos limpio mejora la precisión de los análisis y resultados. * **Confianza:** Datos limpios generan confianza en los resultados y en las decisiones basadas en ellos. * **Eficiencia:** La limpieza de datos facilita el procesamiento y análisis posteriores, mejorando la eficiencia. * **Consistencia:** La consistencia en los datos es clave para obtener resultados coherentes y confiables. ### 📢GIGO (Garbage In, Garbage Out) Este término refleja la idea de que la calidad de los resultados de un sistema depende directamente de la calidad de la entrada. Si los datos de entrada son incorrectos o de baja calidad, los resultados producidos por el sistema también serán de baja calidad. ### 📢**RIRO (Recover In, Recover Out)** Este término se utiliza a veces en el contexto de la limpieza de datos. Significa que, incluso si los datos de entrada son incorrectos, es posible corregirlos durante el proceso de limpieza para obtener resultados precisos y confiables. Es un enfoque más optimista que GIGO, destacando la capacidad de recuperar la calidad de los datos durante la limpieza.
\- MS Excel \- Google Sheets \- Python: bibliotecas como Pandas, NumPy y OpenRefine. \- R: bibliotecas como dplyr y tidyr. \- SQL \- Power BI: se puede en el Power Query Editor. \- Tableau: se puede en el Tableau Prep.
Power Query

No conozco alguna, investigando encontré estas opciones:

  1. Pandas
  2. Dplyr
  3. Optimus

En mi trabajo por temas de licencias y demás uso power query, tanto en power BI como en excel, y puedo realizar toda la limpieza sin problema alguno dada la naturaleza actual de los datos.

utilizó las herramientas que provee PowerBI, es muy sencillo y no necesitas código

Tal vez expresiones regulares para modificar algunos caracteres en un CSV.

¿Cuál es la diferencia entre la limpieza de datos y la transformación de datos?
La limpieza de datos es el proceso que elimina los datos que no pertenecen al conjunto de datos. La transformación de datos es el proceso de convertir los datos de un formato o estructura a otro. Los procesos de transformación también pueden denominarse “gestión de datos” o “manipulación de datos”, y consisten en transformar y mapear los datos de una forma “cruda” a otro formato para su almacenamiento y análisis. Este artículo se centra en los procesos de limpieza de esos datos.
¿Cómo se limpian los datos?
Aunque las técnicas utilizadas para la limpieza de datos pueden variar según los tipos de datos que almacene su empresa, puede seguir estos pasos básicos para trazar un marco de trabajo para su organización.
Paso 1: Eliminar las observaciones duplicadas o irrelevantes
Elimine las observaciones no deseadas de su conjunto de datos, incluidas las observaciones duplicadas o irrelevantes. Las observaciones duplicadas se producen con mayor frecuencia durante la recogida de datos. Cuando se combinan conjuntos de datos de varios lugares, se raspan datos o se reciben datos de clientes o de varios departamentos, hay oportunidades de crear datos duplicados. La eliminación de duplicidades es una de las áreas más importantes a tener en cuenta en este proceso. Las observaciones irrelevantes se producen cuando se observan observaciones que no encajan en el problema específico que se intenta analizar. Por ejemplo, si quiere analizar datos relativos a clientes milenarios, pero su conjunto de datos incluye generaciones más antiguas, podría eliminar esas observaciones irrelevantes. Esto puede hacer que el análisis sea más eficiente y minimizar la distracción de su objetivo principal, además de crear un conjunto de datos más manejable y de mayor rendimiento.
Paso 2: Corregir los errores estructurales
Los errores estructurales se producen cuando se miden o transfieren datos y se observan convenciones de nomenclatura extrañas, errores tipográficos o mayúsculas incorrectas. Estas incoherencias pueden dar lugar a categorías o clases mal etiquetadas. Por ejemplo, puede encontrar que aparecen tanto “N/A” como “No aplicable”, pero deberían analizarse como la misma categoría.
Paso 3: Filtrar los valores atípicos no deseados
A menudo, habrá observaciones puntuales que, a simple vista, no parecen encajar en los datos que está analizando. Si tiene una razón legítima para eliminar un valor atípico, como la introducción incorrecta de datos, hacerlo ayudará al rendimiento de los datos con los que está trabajando. Sin embargo, a veces es la aparición de un valor atípico lo que probará una teoría en la que se está trabajando. Recuerde: que exista un valor atípico no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese número. Si un valor atípico resulta ser irrelevante para el análisis o es un error, considere la posibilidad de eliminarlo.
Paso 4: Tratar los datos que faltan
No puede ignorar los datos que faltan porque muchos algoritmos no aceptan los valores que faltan. Hay un par de maneras de tratar los datos que faltan. Ninguna es óptima, pero ambas pueden considerarse.

    1. Como primera opción, puede eliminar las observaciones que tienen valores perdidos, pero al hacer esto se perderá información, así que tenga en cuenta esto antes de eliminarla.
  1. Como segunda opción, puede introducir los valores que faltan basándose en otras observaciones; de nuevo, existe la posibilidad de perder la integridad de los datos porque puede estar operando a partir de suposiciones y no de observaciones reales.
  2. Como tercera opción, puede alterar la forma en que se utilizan los datos para navegar eficazmente por los valores nulos.
    Paso 5: Validación y control de calidad
    Al final del proceso de limpieza de datos, debería poder responder a estas preguntas como parte de la validación básica:
  • ¿Tienen sentido los datos?
  • ¿Siguen los datos las reglas apropiadas para su campo?
  • ¿Prueban o refutan su teoría de trabajo, o sacan a la luz alguna idea?
  • ¿Puedes encontrar tendencias en los datos que te ayuden a formar tu próxima teoría?
  • Si no es así, ¿se debe a un problema de calidad de los datos?
    Las conclusiones falsas debidas a datos incorrectos o “sucios” pueden dar lugar a una estrategia empresarial y una toma de decisiones deficientes. Las conclusiones falsas pueden llevar a un momento embarazoso en una reunión de información cuando se da cuenta de que sus datos no resisten el escrutinio. Antes de llegar a eso, es importante crear una cultura de datos de calidad en su organización. Para ello, debe documentar las herramientas que podría utilizar para crear esta cultura y lo que significa la calidad de los datos para usted.

Aun no conozco otra herramienta aparte de Excel, aunque si algunos comandos de filtrado de Python.

recomendacion: campos en minuscula sin caracteres especiales

Conozco excel, stata y R. La que mayormente uso es Excel.

encontré este artículo que habla sobre la importancia de realizar una buena limpieza de datos para minimizar en gran medida la mala toma de decisiones. se los recomiendo.
https://www.astera.com/es/type/blog/data-cleansing-tools/

Yo uso a nivel de data muy pequeña Excel y cuando la data es masiva uso SQL, ya cuando estoy trabajando el proyecto en Power BI uso el Power Query para hacer ajustes pequeños. En la medida de las posibilidades trato de trabajar con la data lo más limpia posible y no recargarle esta responsabilidad al Power Query.

Al trabajar con decenas de millones de registros, la forma más fácil que encontré para su limpieza fue desarrollar una herramientica en Visual Basic, que me valida registro por registro.

Uso Sql Server Integration Services SSIS y apluco toda la logica que sea necesaria para lograrlo.

Dataprep

Para la limpieza de datos se pueden utlizar varias funciones del Excel, pero tambien cuenta con una herramienta denominada Power Query que ayuda mucho con grandes datos.
También utilizo excel por su simpleza y facilidad de uso
Excel y Python
puedo hacerlo en este momento por power Query
Power Query puede ser una herramienta
Excel y Python
Importante recordar al momento de manipular data: Garbageb In (Basura dentro)....Garbage Out (Basura fuera)... Si introducimos en nuestra BD, datos sin una estructura básica o que no están vinculados a la información que quiero obtener (useless)..nuestro resultado será de igual forma...
Estoy aprendiendo dataengineering en rust y Python y Polars es una libreria muy útil para limpiar y procesar datos
Para limpieza de datos, solo tengo conocimiento de dos herramientas que son: Excel y Power Bi
Justo lo primero que pensé fueron los filtros de excel, pero estoy seguro que debe existir algo más eficiente
Aunque no llamaba así a esta actividad, siempre he usado Excel para limpieza de datos. Estoy comenzando a usar Pandas y Numpy
Python.
Power BI
Si usan la limpieza con Excel u otro medio que no sea su destino final para la base de datos, recomiendo ampliamente manejar la información con R (o R Studio). Los datos son manejados de manera ultra eficiente y posee herramientas de transformación y migración también eficientes. Me ha funcionado perfecto al manejar bases con más de 3M de registros.
SQL o Power BI se puede utilizar
Yo solo uso Excel jajaja
yo por ahora solo utilizo excel, estoy aprendiendo power bi
Normalmente, uso Excel y cuando son muchísimos datos, utilizo la opción de tablas en Power BI que me permite seleccionar un gran número de filas sin colapsar el programa.
Generalmente Excel o Google sheets son por el momento los que conozco para realizar este proceso.
En mi caso he utilizado excel o google sheets para el proceso de limpieza de datos. Espero poder aprender del uso de alguna más en la ruta completa de Data Science
Una herramienta para la limpieza de datos, Python

Gracias
Astera Centerprise es un código cero, completo solución de integración de datos, que es perfecto para la limpieza de datos. Ofrece avanzado perfil de datos y las capacidades de limpieza permiten a los usuarios garantizar la integridad de los datos comerciales críticos, acelerando el proceso de limpieza de datos en un entorno ágil y sin código. Aquí hay algunas funciones de limpieza de datos que Astera Centerprise tiene que ofrecer: Identificación de errores. El primer paso de cada proceso de limpieza de datos es la creación de perfiles de datos, es decir, para identificar inconsistencias en los datos. El Transformación del perfil de datos permite a los usuarios examinar los datos de origen y obtener estadísticas detalladas sobre su contenido e integridad. Los usuarios pueden estudiar los datos de origen y determinar el recuento de errores, el recuento en blanco, el tipo de datos, el recuento de duplicados, etc. Esta limpieza de información es importante para el análisis de datos avanzado.
yo se que con python podemos usar el .lower paa el tema de minusculas pero todavia no tuve que hacer limpieza de datos asi que sigamos viendo
Si es un dataset pequeño, podríamos utilizar ChatGPT con un pront para ir limpiando los datos en función de lo que necesitemos hacer. Me parece bastante practico, pero considero que a medida que aumentan la cantidad de datos, la posibilidad de contaminar el dataset también aumenta
OpenRefine: Esta utilidad de datos de código abierto es muy popular. Permite convertir datos entre diferentes formatos mientras mantiene su estructura. Al utilizar OpenRefine, puedes trabajar con grandes conjuntos de datos para combinar, limpiar y explorar información. Además, analiza datos de Internet y te permite trabajar directamente en tu máquina1. Trifacta Wrangler: Otra excelente herramienta de limpieza de datos. Es interactiva y transformadora, lo que permite a los analistas limpiar y preparar datos rápidamente. Se basa en algoritmos de aprendizaje automático (ML) para recomendar transformaciones y agregaciones comunes1. Dedupley: Esta herramienta ayuda a eliminar duplicados en los datos. Validación de datos de correo electrónico: Utiliza herramientas que validen la precisión de las direcciones de correo electrónico. Experian Data Quality: Ofrece programas específicos para cumplir con los objetivos de limpieza de datos. Análisis masivo de números de teléfono: Examina y corrige números de teléfono de manera eficiente.
GIGO significa "Garbage In, Garbage Out" (Basura entra, Basura sale), mientras que RIRO significa "Garbage In, Gospel Out" (Basura entra, Evangelio sale). Ambos términos se refieren al principio de que la calidad de los datos de entrada afecta directamente a la calidad de los resultados de salida en cualquier proceso de análisis o visualización de datos. Si los datos de entrada son incorrectos o de mala calidad, es probable que los resultados también lo sean, independientemente de la sofisticación de las herramientas de visualización utilizadas.
Una herramienta que recomiendo mucho, tanto para la limpieza, como para la estructuración de datos es Spoon, de la suit de Pentaho Data Integration, es súper útil, súper intuitiva y facilita muchísimo la limpieza de datos, ya sea en excel, BBDD o WebScrapping. Saludos!
Me gustaría analizar datos en excel que contenga cifras de consumo perfumes en mujeres
En mi caso, diría que Excel y los power queries pueden funcionar muy bien para la limpieza de datos
Algunas herramientas que usado para la limpieza de datos ahora en mis inicios es Excel, Spreadsheets, Power BI y Power Query.
Limpieza de datos o ETL es posible hacerlo con Excel o Power Query, tambien desde el power query dentro del Power BI o si es de una base de datos más grande desde el SQL Server o si son bases muy extensas hay software especializados como Anatella.
Estaría buenísimo, un ejemplo práctico de una limpieza de datos.
En mi caso, mi campo de estudio actual es la quimioinformática. La estandarización de los datos químicos consiste en canonicalizar la representación de los compuestos químicos, y estandarizar el estado de carga de los compuestos para poder compararlos. A continuación un artículo en donde analicé el contenido químico de la base de datos pública más grande de compuestos provenientes de alimentos: <https://pubs.acs.org/doi/10.1021/acs.jcim.3c01617>
1. **Limpieza de datos:** Cuando realizamos un análisis de datos necesitamos interpretarlos, pero para realizar esto necesitamos leerlo de una forma sencilla, para lograr esto se necesita estandarizar los datos. Si se usa texto es recomendable no usar ningún símbolos o caracteres especiales para no generar conflictos en el programa o en la búsqueda que se realice, cuando trabajamos en formato de fecha y hora es primordial usar todas las fechas y horas con la misma estructura. En la limpieza de datos hay una nomenclatura conocida como **GIGO o RIRO,** Garbage In Garbage Out, o en español que si metemos basura a nuestros datos, basura nos va a salir. 💡 La limpieza de datos se enfoca en dejar con el mismo formato todos nuestros datos.

Con respecto al reto el software que uso para la limpieza de datos es “Winpure” porque me permite limpiar datos en una interfaz facil de usar. Su parte escencial es alta velocidad y rendimiento de esta.

Tableau tiene una muy chevere, tableau prep
En lo personal utilizo Power Query tanto en excel como Power BI ya que las BD con que trabajo son bastante simples. Aunque no descarto investigar más para utilizar con Python (estoy aprendiendo 💪🏻)..
Power Query de Power BI funciona muy bien para realizar esta tarea.
por ahora las unicas herremientas que he usado y tengo experiencia excel y power bi
Excel.
Yo uso solamente Excel
Se puede usar Python y Excel
Conozco Excel. He visto en los cursos que python y sql sirven tambien para limpiar datos pero aun no los manejo
Con la lectura de los recursos también pude reflexionar sobre la importancia de entrenar a nuestra empresa sobre la importancia de la calidad de la inforamación, reflexionando mucho el término de GIGO, asi que de eso depende gran parte del tamaño de la limpieza que debamos hacer.
Solo conozco Excel, pero tengo un deseo enorme de aprender de todo.
REalizando investgación entcontre diferentes sofware que se utilizan para realizar la limpieza de datos: * Astera certerprise * Trifacta * openrifine * winpore
la primera es Oracle, después excel para el limpiado de datos.
La única herramienta que conocía hasta el momento era Excel, sin embargo, aunque pienso que se muchos atajos para automatizar la limpieza de datos, sigue siendo bastante tediosa de hacer y puede tomar muchisimo tiempo de dedicación. Me alegra de conocer por los comentarios que hay muchas más disponibles y me queda la tarea de buscarlos y aprender a usarlas.
Yo conozco y uso Power Query y también he usado R para limpiar bases de datos y estandarizar
A decir verdad no conozco ninguna al dia d hoy. Sin embargo, estuve indagando y encontré algunas a las que se hace referencia en la web como por ejemplo: Astera Centerprise, Trifacta, Open Refine, Winpure y Tibco Clarity.
Una buena opción es Power Query para la limpieza de datos. Tambien Knime puede ayudar
* La limpieza de datos generalmente es la parte que más tiempo nos va a tomar * Es muy importante para estandarizar la información para leerla de una manera sencilla ya sea para las personas o los softwares * Estandarizar el texto es que todos esté en minúsculas y sin caracteres especiales * GIGO significa que si ingresamos información basura vamos a obtener resultados basura * Esta etapa es muy importante ya que dejamos todo listo para el data viz 📌 **RESUMEN: La limpieza de datos es muy importante ya que es cuando vamos a estandarizar todas la información y la vamos a dejar lista para la data viz**
Considero que lo importante es tener el contexto de la industria donde se va a analizar la data. igualmente es fundamental la experiencia al momento de hallas insights.
La herramienta que utilizo para hacer limpieza de datos es Excel, también me parece interesante leer los comentarios y enterarme que existen más herramientas disponibles, de las cuales tendré que explorar.
Solo conozco Excel, y cuando he hecho lipieza de datos lo hecho de forma manuel pues aun no soy versado en el uso de todas las habilidades del programa
Existen varias herramientas de limpieza de datos (data cleaning) que facilitan el proceso de identificación y corrección de errores, inconsistencias y duplicados en conjuntos de datos. Algunas de las herramientas más comunes incluyen: 1. **OpenRefine:** Anteriormente conocido como Google Refine, es una herramienta de código abierto que permite limpiar y transformar datos de manera interactiva. Es especialmente útil para la limpieza de datos desordenados y la normalización. 2. **Trifacta Wrangler:** Proporciona una interfaz visual para explorar, limpiar y preparar datos. Utiliza técnicas de aprendizaje automático para sugerir transformaciones y simplificar el proceso de limpieza. 3. **DataWrangler:** Desarrollado por la Universidad de Stanford, es una herramienta de limpieza de datos que permite a los usuarios explorar y transformar datos de manera interactiva. 4. **OpenRefine:** Una herramienta de código abierto para limpieza y transformación de datos. Permite la limpieza de datos desordenados, la detección de duplicados y la normalización de valores. 5. **Microsoft Excel:** Aunque no es específicamente una herramienta de limpieza de datos, Excel ofrece diversas funciones y herramientas que permiten realizar tareas básicas de limpieza, como filtrar datos, eliminar duplicados y aplicar fórmulas para la transformación. 6. **IBM InfoSphere QualityStage:** Una herramienta de IBM que se centra en la calidad de los datos, incluyendo la limpieza, estandarización y deduplicación. 7. **Talend Open Studio:** Es una plataforma de integración de datos de código abierto que incluye herramientas para la limpieza y transformación de datos. 8. **Pandas (Python):** Aunque es una biblioteca de Python en lugar de una herramienta independiente, Pandas es ampliamente utilizada para la manipulación y limpieza de datos en entornos de programación.
Yo solo he usado excel y SQL de Google para la limpieza de datos.
La mejor herramienta de limpieza de datos será aquella que te ayude a realizar esta tarea: ya sea Excel, Python o PowerQuery, depende mucho del dataset con el que estés trabajando. Incluso una combinación de algunos de los anteriores siempre y cuando se cumpla con la meta.