Introducci贸n: fundamentos de la visualizaci贸n de datos

1

驴Qu茅 aprender谩s sobre la visualizaci贸n de datos?

2

驴Qu茅 es la visualizaci贸n de datos?

3

Florence Nightingale y la dama de la l谩mpara

4

Retos para aprender visualizaci贸n de datos

5

Importancia de la visualizaci贸n de datos: disminuye la carga cognitiva

6

Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio

7

驴C贸mo usar correctamente una gr谩fica? Ejemplos y usos de visualizaciones

8

Buenas pr谩cticas para visualizaci贸n de datos: user personas, mentiras estad铆sticas y principios de Gestalt

9

Caso Target: conflictos de 茅tica en la ciencia de datos y Big Data

Elige la gr谩fica correcta para tus reportes

10

Gr谩fica de barras

11

Gr谩fica de pie

12

Gr谩fica de dispersi贸n

13

Gr谩fica de burbujas

14

Gr谩fica de mapas

15

Tipos de mapas: isol铆neas, coropletas, diagramas, anam贸rficos

16

Gr谩fica de heat map o mapas de calor

17

Gr谩fica de tablas

18

Importancia del storytelling en la visualizaci贸n de datos

Data Visualization para Business Intelligence

19

驴C贸mo afecta la visualizaci贸n de datos en tu negocio?

20

Explora, descubre, pregunta: toma decisiones inteligentes con an谩lisis de datos

21

Pr谩ctica: an谩lisis y exploraci贸n de datos

22

Pr谩ctica: storytelling para contar historias con datos

23

Caso Walmart: integra visualizaci贸n de datos y Big Data con inteligencia de negocios

Flujo de trabajo y etapas del Business Intelligence

24

Recolecci贸n de datos

25

Limpieza de datos

26

Exploraci贸n de datos

27

Creaci贸n de gr谩ficas y visualizaciones

28

Generaci贸n de reportes con storytelling

29

Define objetivos SMART con KPIs o Key Performance Indicators

Recomendaciones finales para Visualizaci贸n de Datos

30

Caso Orbitz: beneficios de una cultura data-driven o basada en datos

31

Contin煤a aprendiendo Data Science, Business Intelligence y Visualizaci贸n de Datos

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Limpieza de datos

25/31
Recursos

Aportes 317

Preguntas 7

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

La recolecci贸n y limpieza de datos ocupa entre el 60-70% del trabajo de un/a Data Scientist.

Trabajando con Python, la forma m谩s program谩tica es usando Pandas y Numpy.

Garbage in, garbage out
Es una expresi贸n en inform谩tica, que se puede entender como 鈥渂asura entra, basura sale鈥 es un concepto que se relaciona con la calidad de la informaci贸n o los productos que ingresan a un sistema, si la calidad de lo que ingresa no es buena, el resultado normalmente tampoco es bueno.

Veo que algunos compa帽eros son bastante avanzados, pero en mi caso utilizo Power Query de Microsoft ya sea en Excel o Power BI para la limpieza de los datos.

Mini apuntes.

Limpieza de datos

  • Segunda etapa y tambi茅n muy demandante de tiempo. Antes de empezar a interpretar la informaci贸n es necesario que los datos tengan formatos estandarizados (tipos de datos, tipos de valores, la forma en la que est谩n escritos, etc) que faciliten la lectura para nosotros, otras personas y el software. Por ejemplo, si usamos texto tenemos que evitar usar car谩cteres especiales para evitar que el software tenga problemas a la hora de estandarizar.

  • Existe un concepto muy importante en limpieza de datos: GIGO/RIRO (Garbage In, Garbage Out / Rubbish In, Rubbish Out). Ambos t茅rminos advierten que si ingresamos informaci贸n basura vamos a obtener informaci贸n basura. El producto final depende de la calidad de los datos.

  • Estandarizada la informaci贸n y controlada su calidad/relevancia podemos pasar al proceso de preparaci贸n en el cual organizaremos esos datos para su uso.

Aprend铆 primero a usar Pandas as铆 que me qued茅 con esa librer铆a de Python, sin embargo, pienso que deber铆a usar excel pues el proceso de limpieza usando una interfaz grafica, podr铆a agilizar el proceso.

Encontr茅 esta p谩gina donde menciona algunas herramientas para limpiar datos:
https://analyticsindiamag.com/10-best-data-cleaning-tools-get-data/
La verdad yo no conoc铆a ninguno fuera de excel. Estar铆a interesante ver cual es el m谩s poderoso. La verdad para m铆 excel funciona de maravilla pero entiendo que tiene ciertas limitaciones. Supongo que m谩s adelante nos presentar谩n alguna herramienta ya m谩s en espec铆fico.

Yo en lo personal uso para la limpieza de datos el sistema de transformaci贸n STEP BY STEP que ofrece power BI. Es b谩sicamente un sistema de paso a paso en el cu谩l le decimos al software qu茅 debe hacer cada vez que entre data con una estructura similar. Todo esto es NOCODE y es bastante pr谩ctico

En mi caso uso principalmente la herramienta de Sql Server Integration Service (SSIS) de Microsoft dentro de la empresa, en casos donde no requiero automatizar procesos sino hacer algo r谩pido utilizo Excel y Power BI.

NOTAS
Es una de las etapas mas demoradas e importantes, dado que requiere estandarizar el formato de trabajo que preferimos, bas谩ndonos no solo en nuestro gusto, sino en el sistema que utilizamos para el an谩lisis e interpretaci贸n de datos (Excel, Power BI, Python, etc.).

Un concepto muy com煤n en esta etapa es el GIGO/RIRO, que refiere al Garbage In, Garbage Out. Esto hace referencia a que si en nuestros an谩lisis metemos basura desde el principio, tendremos basura en nuestro resultado. Claramente la informaci贸n que desde el principio no es confiable, no genera resultados confiables. Por otro lado, la preparaci贸n es importante en esta etapa donde finalmente, le damos forma a nuestra informaci贸n en cuanto a calidad y formato, dejando listo todo para la visualizaci贸n de datos.

Cuando se trata de csv鈥檚, procuro empezar con el n煤mero de columnas, si encuentro algunas con errores, cabio el separador.
De ah铆, para estandarizar por tipos prefiero usar python, pandas y numpy.
Para almacenar, estoy aprendiendo a usar bien PostgreSQL, ya que me permite importar de forma sencilla una 鈥淏ase de Datos鈥 que se ten铆a en excel

Normalmente utilizo python para hacer la limpieza de datos.
Se que existen otras herramientas como Tableau Prep que te hacen todo el pipeline incluyendo la limpieza

Personalmente uso Excel para la limpieza de datos, en el cual analizo columna por columna buscando errores y aplicando diversas funciones o simplemente cambiando el tipo de texto para estandarizar la data.

Un software de ETL (Extract, Transform and Load) es ideal para estos casos. El proceso de ETL se realiza para integrar datos de una o varias fuentes (Origen), en una fuente destino. Aqui se recopilan datos de la(s) fuente(s) origen, se limpian los datos (transformaciones de los datos) y se cargan en la fuente destino, ya listos para ser utilizados por la herramienta de visualizaci贸n. Esto es un poco mas avanzado. Herramientas para ETL estan
:SQL Server Integration Services (SSIS), Informatica PowerCenter entre otras. Las herramientas de visualizaci贸n como Tableau, Power BI y otras permiten hacer limpieza de datos a un nivel intermedio comparado con las herramientas y softwares de ETL.

Cuando estaba en universidad tuve que hacer limpieza muy profunda de una BBDD que se hizo a trav茅s de un formulario MUY MAL HECHO desde un inicio.
Les pongo un ejemplo:
Una pregunta era '驴En qu茅 ciudad vives?'
Realmente m谩s del 99% de la poblaci贸n encuestada iba a vivir en la misma ciudad (no era muy necesaria esta pregunta). Pero la respuesta que se pudo haber reducido a una opci贸n m煤ltiple tipo:

  • Ciudad X
  • Otra
    se mantuvo como un Campo de Texto y esto hizo que MUCHAS personas escribieran la misma ciudad de mil formas distintas.
    Ahora imaginen eso con 60 y tantas preguntas para m谩s de 100 encuestas.
    En ese entonces no sab铆a combinar Python con Excel as铆 que me vi limitado a usar Google Sheets. No estuvo mal, fue mucho m谩s r谩pido de lo que esperaba pero me dio mucho coraje porque todo el formulario era una porquer铆a que se pudo mejorar xD

Software para limpieza de datos

La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformaci贸n de datos es el proceso de convertir datos de un formato o estructura a otro. Los procesos de transformaci贸n tambi茅n se pueden denominar disputa de datos o manipulaci贸n de datos, transformaci贸n y mapeo de datos de un formulario de datos 鈥渟in procesar鈥 a otro formato para almacenamiento y an谩lisis. Este art铆culo se centra en los procesos de limpieza de esos datos.

Suelo utilizar Rstudio para la limpieza de grandes vol煤menes de data. Si no es mucho, basta con excel 馃槂

Excel es muy bueno, cuando se utilizan cantidades de datos muy peque帽os, KNIME es una herramienta de datos amigable basada en cubos programables para limpiar grandes cantidades de datos.

En pocas palabras, un t茅rmino m谩s apropiado seria Conserje de Datos

Para limpieza de datos uso knime

Informaci贸n resumida de esta clase
#EstudiantesDePlatzi

  • La limpieza de los datos es una de las tareas que m谩s nos va a tomar tiempo

  • El objetivo es entender la informaci贸n de manera sencilla y para esto lo que necesitamos es estandarizar la informaci贸n

  • GIGO = Garbage in, garbage out = Si entra basura a nuestro proceso, vamos a obtener basura como resultado

  • Entre mejor limpiemos nuestros datos de inicio, m谩s limpios ser谩n nuestros resultados

Definitivamente se deben limpiar los datos antes de realizar cualquier an谩lisis, el 煤nico software que conozco para limpieza de datos es Excel. Ah铆 podemos estandarizarlos, concatenar, desconcatenar, modificar su tipo, etc. Y dejarlos listos para una carga masiva a alguna herramienta de BI.

Power Query

Reto
Estas herramientas utilizan la automatizaci贸n y eliminan cualquier proceso manual, lo que acelera el proceso de limpieza de datos.

Astera Centerprise: Es una soluci贸n completa de integraci贸n de datos sin c贸digo, que es perfecta para la limpieza de datos. Ofrece capacidades avanzadas de creaci贸n de perfiles y limpieza de datos que permiten a los usuarios garantizar la integridad de los datos.

OpenRefine: Es una utilidad de datos de c贸digo abierto muy popular. La herramienta de limpieza de datos ayuda a su organizaci贸n a convertir datos entre diferentes formatos mientras mantiene su estructura.

Trifacta Wrangler: Es otra de las principales herramientas de limpieza de datos del mercado. Esta herramienta interactiva y transformadora permite a los analistas de datos limpiar y preparar datos muy r谩pidamente en comparaci贸n con otras herramientas.

Dedupley: Es una herramienta espec铆fica para la limpieza de datos.

Experian Data Quality: Dispone de programas espec铆ficos para la validaci贸n de datos a trav茅s del correo electr贸nico y es capaz de analizar n煤meros de tel茅fono de forma masiva.

No conozco alguna, investigando encontr茅 estas opciones:

  1. Pandas
  2. Dplyr
  3. Optimus

En mi trabajo por temas de licencias y dem谩s uso power query, tanto en power BI como en excel, y puedo realizar toda la limpieza sin problema alguno dada la naturaleza actual de los datos.

utiliz贸 las herramientas que provee PowerBI, es muy sencillo y no necesitas c贸digo

Tal vez expresiones regulares para modificar algunos caracteres en un CSV.

驴Cu谩l es la diferencia entre la limpieza de datos y la transformaci贸n de datos?
La limpieza de datos es el proceso que elimina los datos que no pertenecen al conjunto de datos. La transformaci贸n de datos es el proceso de convertir los datos de un formato o estructura a otro. Los procesos de transformaci贸n tambi茅n pueden denominarse 鈥済esti贸n de datos鈥 o 鈥渕anipulaci贸n de datos鈥, y consisten en transformar y mapear los datos de una forma 鈥渃ruda鈥 a otro formato para su almacenamiento y an谩lisis. Este art铆culo se centra en los procesos de limpieza de esos datos.
驴C贸mo se limpian los datos?
Aunque las t茅cnicas utilizadas para la limpieza de datos pueden variar seg煤n los tipos de datos que almacene su empresa, puede seguir estos pasos b谩sicos para trazar un marco de trabajo para su organizaci贸n.
Paso 1: Eliminar las observaciones duplicadas o irrelevantes
Elimine las observaciones no deseadas de su conjunto de datos, incluidas las observaciones duplicadas o irrelevantes. Las observaciones duplicadas se producen con mayor frecuencia durante la recogida de datos. Cuando se combinan conjuntos de datos de varios lugares, se raspan datos o se reciben datos de clientes o de varios departamentos, hay oportunidades de crear datos duplicados. La eliminaci贸n de duplicidades es una de las 谩reas m谩s importantes a tener en cuenta en este proceso. Las observaciones irrelevantes se producen cuando se observan observaciones que no encajan en el problema espec铆fico que se intenta analizar. Por ejemplo, si quiere analizar datos relativos a clientes milenarios, pero su conjunto de datos incluye generaciones m谩s antiguas, podr铆a eliminar esas observaciones irrelevantes. Esto puede hacer que el an谩lisis sea m谩s eficiente y minimizar la distracci贸n de su objetivo principal, adem谩s de crear un conjunto de datos m谩s manejable y de mayor rendimiento.
Paso 2: Corregir los errores estructurales
Los errores estructurales se producen cuando se miden o transfieren datos y se observan convenciones de nomenclatura extra帽as, errores tipogr谩ficos o may煤sculas incorrectas. Estas incoherencias pueden dar lugar a categor铆as o clases mal etiquetadas. Por ejemplo, puede encontrar que aparecen tanto 鈥淣/A鈥 como 鈥淣o aplicable鈥, pero deber铆an analizarse como la misma categor铆a.
Paso 3: Filtrar los valores at铆picos no deseados
A menudo, habr谩 observaciones puntuales que, a simple vista, no parecen encajar en los datos que est谩 analizando. Si tiene una raz贸n leg铆tima para eliminar un valor at铆pico, como la introducci贸n incorrecta de datos, hacerlo ayudar谩 al rendimiento de los datos con los que est谩 trabajando. Sin embargo, a veces es la aparici贸n de un valor at铆pico lo que probar谩 una teor铆a en la que se est谩 trabajando. Recuerde: que exista un valor at铆pico no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese n煤mero. Si un valor at铆pico resulta ser irrelevante para el an谩lisis o es un error, considere la posibilidad de eliminarlo.
Paso 4: Tratar los datos que faltan
No puede ignorar los datos que faltan porque muchos algoritmos no aceptan los valores que faltan. Hay un par de maneras de tratar los datos que faltan. Ninguna es 贸ptima, pero ambas pueden considerarse.

    1. Como primera opci贸n, puede eliminar las observaciones que tienen valores perdidos, pero al hacer esto se perder谩 informaci贸n, as铆 que tenga en cuenta esto antes de eliminarla.
  1. Como segunda opci贸n, puede introducir los valores que faltan bas谩ndose en otras observaciones; de nuevo, existe la posibilidad de perder la integridad de los datos porque puede estar operando a partir de suposiciones y no de observaciones reales.
  2. Como tercera opci贸n, puede alterar la forma en que se utilizan los datos para navegar eficazmente por los valores nulos.
    Paso 5: Validaci贸n y control de calidad
    Al final del proceso de limpieza de datos, deber铆a poder responder a estas preguntas como parte de la validaci贸n b谩sica:
  • 驴Tienen sentido los datos?
  • 驴Siguen los datos las reglas apropiadas para su campo?
  • 驴Prueban o refutan su teor铆a de trabajo, o sacan a la luz alguna idea?
  • 驴Puedes encontrar tendencias en los datos que te ayuden a formar tu pr贸xima teor铆a?
  • Si no es as铆, 驴se debe a un problema de calidad de los datos?
    Las conclusiones falsas debidas a datos incorrectos o 鈥渟ucios鈥 pueden dar lugar a una estrategia empresarial y una toma de decisiones deficientes. Las conclusiones falsas pueden llevar a un momento embarazoso en una reuni贸n de informaci贸n cuando se da cuenta de que sus datos no resisten el escrutinio. Antes de llegar a eso, es importante crear una cultura de datos de calidad en su organizaci贸n. Para ello, debe documentar las herramientas que podr铆a utilizar para crear esta cultura y lo que significa la calidad de los datos para usted.

Algunas herramientas para la limpieza de datos son
OpenRefine
Trifacta
Talend
RapidMiner
Alteryx

Aun no conozco otra herramienta aparte de Excel, aunque si algunos comandos de filtrado de Python.

recomendacion: campos en minuscula sin caracteres especiales

Conozco excel, stata y R. La que mayormente uso es Excel.

encontr茅 este art铆culo que habla sobre la importancia de realizar una buena limpieza de datos para minimizar en gran medida la mala toma de decisiones. se los recomiendo.
https://www.astera.com/es/type/blog/data-cleansing-tools/

Yo uso a nivel de data muy peque帽a Excel y cuando la data es masiva uso SQL, ya cuando estoy trabajando el proyecto en Power BI uso el Power Query para hacer ajustes peque帽os. En la medida de las posibilidades trato de trabajar con la data lo m谩s limpia posible y no recargarle esta responsabilidad al Power Query.

Al trabajar con decenas de millones de registros, la forma m谩s f谩cil que encontr茅 para su limpieza fue desarrollar una herramientica en Visual Basic, que me valida registro por registro.

Uso Sql Server Integration Services SSIS y apluco toda la logica que sea necesaria para lograrlo.

Dataprep

En mi caso, mi campo de estudio actual es la quimioinform谩tica. La estandarizaci贸n de los datos qu铆micos consiste en canonicalizar la representaci贸n de los compuestos qu铆micos, y estandarizar el estado de carga de los compuestos para poder compararlos. A continuaci贸n un art铆culo en donde analic茅 el contenido qu铆mico de la base de datos p煤blica m谩s grande de compuestos provenientes de alimentos: <https://pubs.acs.org/doi/10.1021/acs.jcim.3c01617>
1. **Limpieza de datos:** Cuando realizamos un an谩lisis de datos necesitamos interpretarlos, pero para realizar esto necesitamos leerlo de una forma sencilla, para lograr esto se necesita estandarizar los datos. Si se usa texto es recomendable no usar ning煤n s铆mbolos o caracteres especiales para no generar conflictos en el programa o en la b煤squeda que se realice, cuando trabajamos en formato de fecha y hora es primordial usar todas las fechas y horas con la misma estructura. En la limpieza de datos hay una nomenclatura conocida como **GIGO o RIRO,** Garbage In Garbage Out, o en espa帽ol que si metemos basura a nuestros datos, basura nos va a salir. 馃挕 La limpieza de datos se enfoca en dejar con el mismo formato todos nuestros datos.

Con respecto al reto el software que uso para la limpieza de datos es 鈥淲inpure鈥 porque me permite limpiar datos en una interfaz facil de usar. Su parte escencial es alta velocidad y rendimiento de esta.

Tableau tiene una muy chevere, tableau prep
En lo personal utilizo Power Query tanto en excel como Power BI ya que las BD con que trabajo son bastante simples. Aunque no descarto investigar m谩s para utilizar con Python (estoy aprendiendo 馃挭馃徎)..
Power Query de Power BI funciona muy bien para realizar esta tarea.
por ahora las unicas herremientas que he usado y tengo experiencia excel y power bi
Excel.
Yo uso solamente Excel
Se puede usar Python y Excel
Conozco Excel. He visto en los cursos que python y sql sirven tambien para limpiar datos pero aun no los manejo
Con la lectura de los recursos tambi茅n pude reflexionar sobre la importancia de entrenar a nuestra empresa sobre la importancia de la calidad de la inforamaci贸n, reflexionando mucho el t茅rmino de GIGO, asi que de eso depende gran parte del tama帽o de la limpieza que debamos hacer.
Solo conozco Excel, pero tengo un deseo enorme de aprender de todo.
REalizando investgaci贸n entcontre diferentes sofware que se utilizan para realizar la limpieza de datos: * Astera certerprise * Trifacta * openrifine * winpore
la primera es Oracle, despu茅s excel para el limpiado de datos.
La 煤nica herramienta que conoc铆a hasta el momento era Excel, sin embargo, aunque pienso que se muchos atajos para automatizar la limpieza de datos, sigue siendo bastante tediosa de hacer y puede tomar muchisimo tiempo de dedicaci贸n. Me alegra de conocer por los comentarios que hay muchas m谩s disponibles y me queda la tarea de buscarlos y aprender a usarlas.
Yo conozco y uso Power Query y tambi茅n he usado R para limpiar bases de datos y estandarizar
A decir verdad no conozco ninguna al dia d hoy. Sin embargo, estuve indagando y encontr茅 algunas a las que se hace referencia en la web como por ejemplo: Astera Centerprise, Trifacta, Open Refine, Winpure y Tibco Clarity.
Una buena opci贸n es Power Query para la limpieza de datos. Tambien Knime puede ayudar
* La limpieza de datos generalmente es la parte que m谩s tiempo nos va a tomar * Es muy importante para estandarizar la informaci贸n para leerla de una manera sencilla ya sea para las personas o los softwares * Estandarizar el texto es que todos est茅 en min煤sculas y sin caracteres especiales * GIGO significa que si ingresamos informaci贸n basura vamos a obtener resultados basura * Esta etapa es muy importante ya que dejamos todo listo para el data viz 馃搶 **RESUMEN: La limpieza de datos es muy importante ya que es cuando vamos a estandarizar todas la informaci贸n y la vamos a dejar lista para la data viz**
## 馃殌Limpieza de Datos El proceso de limpieza de datos es una parte crucial en el an谩lisis de datos y la preparaci贸n para el procesamiento y el an谩lisis. Consiste en identificar y corregir errores, inconsistencias y duplicados en los conjuntos de datos para garantizar su calidad y fiabilidad. Pasa por diferentes etapas: * **Identificaci贸n de problemas:** En esta etapa, se revisa el conjunto de datos en busca de problemas potenciales, como valores nulos, valores at铆picos, datos inconsistentes o duplicados. * **Manejo de valores nulos:** Los valores nulos o faltantes pueden afectar la validez de los an谩lisis. Se deben tomar decisiones sobre c贸mo manejar estos valores, ya sea elimin谩ndolos, imput谩ndolos con valores estimados o aplicando otras estrategias seg煤n el contexto. * **Manejo de valores at铆picos:** Se identifican y manejan valores at铆picos que podr铆an distorsionar los resultados del an谩lisis. * **Estandarizaci贸n de formatos:** Es importante asegurarse de que los datos est茅n en formatos consistentes, como fechas, unidades de medida y representaciones num茅ricas. * **Detecci贸n y eliminaci贸n de duplicados:** La presencia de datos duplicados puede sesgar los resultados del an谩lisis. Por lo tanto, es necesario identificar y eliminar duplicados de manera efectiva. * **Correcci贸n de errores de entrada:** Se verifican y corrigen errores de entrada, como errores tipogr谩ficos o malas interpretaciones. La limpieza de datos es esencial por una gran cantidad de razones, entre esas: * **Precisi贸n:** Un conjunto de datos limpio mejora la precisi贸n de los an谩lisis y resultados. * **Confianza:** Datos limpios generan confianza en los resultados y en las decisiones basadas en ellos. * **Eficiencia:** La limpieza de datos facilita el procesamiento y an谩lisis posteriores, mejorando la eficiencia. * **Consistencia:** La consistencia en los datos es clave para obtener resultados coherentes y confiables. ### 馃摙GIGO (Garbage In, Garbage Out) Este t茅rmino refleja la idea de que la calidad de los resultados de un sistema depende directamente de la calidad de la entrada. Si los datos de entrada son incorrectos o de baja calidad, los resultados producidos por el sistema tambi茅n ser谩n de baja calidad. ### 馃摙**RIRO (Recover In, Recover Out)** Este t茅rmino se utiliza a veces en el contexto de la limpieza de datos. Significa que, incluso si los datos de entrada son incorrectos, es posible corregirlos durante el proceso de limpieza para obtener resultados precisos y confiables. Es un enfoque m谩s optimista que GIGO, destacando la capacidad de recuperar la calidad de los datos durante la limpieza.
Considero que lo importante es tener el contexto de la industria donde se va a analizar la data. igualmente es fundamental la experiencia al momento de hallas insights.
Aqu铆 te presento algunas opciones populares: 1. **OpenRefine (anteriormente Google Refine)**: * Una herramienta potente y gratuita para trabajar con datos desordenados: limpiarlos, transformarlos, y enriquecerlos de otras bases de datos. * Bueno para tareas como la normalizaci贸n de datos, identificaci贸n de duplicados, y limpieza de errores. 2. **Pandas en Python**: * Una biblioteca de an谩lisis de datos que ofrece amplias capacidades para la manipulaci贸n de datos, incluyendo limpieza. * Permite filtrar datos, llenar valores faltantes, eliminar duplicados, y realizar m煤ltiples transformaciones de datos. 3. **Trifacta Wrangler**: * Una herramienta interactiva para la limpieza y transformaci贸n de datos. * Ofrece una interfaz de usuario gr谩fica para transformar datos sin necesidad de escribir c贸digo. 4. **Talend**: * Una plataforma de integraci贸n de datos que proporciona herramientas para limpiar, transformar y migrar datos. * Es 煤til para proyectos de integraci贸n de datos a gran escala. 5. **Microsoft Excel / Google Sheets**: * Herramientas de hoja de c谩lculo con capacidades b谩sicas para la limpieza de datos, como eliminar duplicados, filtrar y ordenar datos, y usar funciones para transformar datos. 6. **KNIME**: * Una plataforma de an谩lisis de datos de c贸digo abierto que permite realizar diversas operaciones de limpieza de datos. * Proporciona una interfaz gr谩fica para combinar distintos nodos de procesamiento de datos. 7. **SQL**: * Lenguajes de bases de datos como SQL tambi茅n se pueden utilizar para limpiar datos, especialmente cuando los datos ya est谩n almacenados en una base de datos relacional. 8. **Data Ladder**: * Una herramienta m谩s orientada al 谩mbito empresarial, ideal para la limpieza, emparejamiento y enriquecimiento de datos. 9. **IBM InfoSphere QualityStage**: * Una herramienta empresarial para la calidad de datos que ayuda a crear datos consistentes, precisos y completos. 10. **Alteryx**: * Combina an谩lisis de datos, limpieza de datos, y capacidades de integraci贸n de datos en una sola plataforma.
La herramienta que utilizo para hacer limpieza de datos es Excel, tambi茅n me parece interesante leer los comentarios y enterarme que existen m谩s herramientas disponibles, de las cuales tendr茅 que explorar.
Solo conozco Excel, y cuando he hecho lipieza de datos lo hecho de forma manuel pues aun no soy versado en el uso de todas las habilidades del programa
Existen varias herramientas de limpieza de datos (data cleaning) que facilitan el proceso de identificaci贸n y correcci贸n de errores, inconsistencias y duplicados en conjuntos de datos. Algunas de las herramientas m谩s comunes incluyen: 1. **OpenRefine:** Anteriormente conocido como Google Refine, es una herramienta de c贸digo abierto que permite limpiar y transformar datos de manera interactiva. Es especialmente 煤til para la limpieza de datos desordenados y la normalizaci贸n. 2. **Trifacta Wrangler:** Proporciona una interfaz visual para explorar, limpiar y preparar datos. Utiliza t茅cnicas de aprendizaje autom谩tico para sugerir transformaciones y simplificar el proceso de limpieza. 3. **DataWrangler:** Desarrollado por la Universidad de Stanford, es una herramienta de limpieza de datos que permite a los usuarios explorar y transformar datos de manera interactiva. 4. **OpenRefine:** Una herramienta de c贸digo abierto para limpieza y transformaci贸n de datos. Permite la limpieza de datos desordenados, la detecci贸n de duplicados y la normalizaci贸n de valores. 5. **Microsoft Excel:** Aunque no es espec铆ficamente una herramienta de limpieza de datos, Excel ofrece diversas funciones y herramientas que permiten realizar tareas b谩sicas de limpieza, como filtrar datos, eliminar duplicados y aplicar f贸rmulas para la transformaci贸n. 6. **IBM InfoSphere QualityStage:** Una herramienta de IBM que se centra en la calidad de los datos, incluyendo la limpieza, estandarizaci贸n y deduplicaci贸n. 7. **Talend Open Studio:** Es una plataforma de integraci贸n de datos de c贸digo abierto que incluye herramientas para la limpieza y transformaci贸n de datos. 8. **Pandas (Python):** Aunque es una biblioteca de Python en lugar de una herramienta independiente, Pandas es ampliamente utilizada para la manipulaci贸n y limpieza de datos en entornos de programaci贸n.
Yo solo he usado excel y SQL de Google para la limpieza de datos.
La mejor herramienta de limpieza de datos ser谩 aquella que te ayude a realizar esta tarea: ya sea Excel, Python o PowerQuery, depende mucho del dataset con el que est茅s trabajando. Incluso una combinaci贸n de algunos de los anteriores siempre y cuando se cumpla con la meta.
he utilizado excel, pero no he utilizado ninguna otra aplicacion de limpireza de datos, pero conozco algunos nombres como OpenRefine, Trifacta Wrangler
Muy buenas tardes: el Reto; se puede indicar algunas herramientas que se pueden usar para limpieza de Datos: **Herramientas de c贸digo abierto:** Algunas de las herramientas de c贸digo abierto m谩s populares para la limpieza de datos son: \- OpenRefine, \- R \- Python. **Herramientas comerciales:** Estas herramientas son de pago y ofrecen una variedad de caracter铆sticas y funcionalidades. Algunas de las herramientas comerciales m谩s populares para la limpieza de datos incluyen: \- SAS \- IBM \- SPSS \- Alteryx.

Les dejo resumen corto de la clase recomendada 鈥淕arbage in, garbage out鈥

Importancia de la calidad de los datos en los c谩lculos.
鈥 鈥淕arbage In, Garbage Out鈥: La calidad de los datos es igual de importante que la precisi贸n de los c谩lculos.
鈥 Si se introducen datos incorrectos, incluso con c谩lculos precisos, se obtendr谩n resultados incorrectos.
鈥 Ejemplo hist贸rico: El censo de 1840 en Estados Unidos arroj贸 resultados err贸neos debido a errores en los datos.
Errores comunes en el pensamiento
鈥 No revisar los datos: Es importante evaluar la calidad y veracidad de los datos antes de utilizarlos en el an谩lisis.
鈥 Ejemplo hist贸rico: El motor anal铆tico de Babbage y la pregunta sobre introducir datos incorrectos para obtener resultados correctos.
Consecuencias de datos incorrectos
鈥 Conclusiones err贸neas: Si se basan en datos incorrectos, las conclusiones pueden ser incorrectas.
鈥 Ejemplo hist贸rico: El censo de 1840 llev贸 a conclusiones err贸neas sobre las personas de color liberadas.
Prevenir errores en el futuro
鈥 Compartir historias y experiencias: Compartir casos de errores relacionados con la calidad de los datos enriquece el aprendizaje y previene futuros errores.
鈥 Importancia de comprender los datos: Entender la importancia de los datos y su influencia en los resultados es fundamental para evitar errores.

Desde mi punto de vista la libreria de pandas es muy buena para hacer el tema de limpieza de datos con lenguaje python
Actualmente yo utilizo Excel como herramienta de limpieza, espec铆ficamente con Power Query. Sin embargo, quiero aprender a usar Python para esta tarea.
Para limpiar mis datos uso excel y he podido lograr una buena estandarizacion para usarlos.
Podemos usar python para la limpieza de datos. No conozco muchos softwares para realizar este trabajo
Python puede ser muy 煤til para limpiar datos, tambi茅n R

En un Platzi live reciente mostraron un nuevo plug in para excel y google sheets que se sirve de chatgpt el cu谩l permite hacer uso de gpt pro medio de f贸rmula para obtener ciertos outputs en las celdas. Me parece que ese plug in ser谩 nuestro mejor amigo a la hora de limpiar la data a partir de ahora. La herramietna se llama 鈥済pt for sheets鈥.

hay algunas de las herramientas de limpieza de datos m谩s populares:

  • Excel: Excel es una herramienta de hoja de c谩lculo popular que tiene una serie de funciones para identificar y corregir errores en los datos. Por ejemplo, puedes usar la funci贸n 鈥淏uscar鈥 para encontrar errores de formato o la funci贸n 鈥淔iltro鈥 para eliminar filas o columnas con valores incorrectos.

  • OpenRefine: OpenRefine, anteriormente conocido como Google Refine, es una herramienta de limpieza de datos de c贸digo abierto que ofrece una amplia gama de funciones para identificar y corregir errores en los datos. OpenRefine tambi茅n permite a los usuarios crear reglas personalizadas para limpiar datos.

  • DataCleaner: DataCleaner es una herramienta de limpieza de datos basada en la web que ofrece una interfaz intuitiva y f谩cil de usar. DataCleaner puede limpiar datos de una variedad de fuentes, incluyendo archivos CSV, archivos Excel y bases de datos.

  • Trifacta: Trifacta es una herramienta de limpieza de datos basada en la nube que utiliza aprendizaje autom谩tico para identificar y corregir errores en los datos. Trifacta tambi茅n permite a los usuarios crear reglas personalizadas para limpiar datos.

La mejor herramienta para limpiar tus datos depende de tus necesidades espec铆ficas. Si est谩s buscando una herramienta f谩cil de usar que ofrece una amplia gama de funciones, OpenRefine o DataCleaner pueden ser buenas opciones. Si est谩s buscando una herramienta m谩s potente que utilice aprendizaje autom谩tico, Trifacta puede ser una buena opci贸n.

Yo uso Pandas en Python, m谩s mis colegas usan ETL tools que vienen con SLQ Server para la limpieza de datos.

Para limpiar datos a mi entender y mi poca experiencia los mejores son Excel y Power Query, ya que uno ves intente limpiar datos con SQL y no fue para nada divertido ajaja

He utilizado EmEditor, pentaho pdi y Power query.

La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, mal formateados, duplicados o incompletos dentro de un conjunto de datos.

Seg煤n GPT:
Por supuesto, aqu铆 tienes una lista de algunas herramientas espec铆ficas de limpieza de datos:

OpenRefine: Herramienta de c贸digo abierto para limpieza y transformaci贸n de datos.
Trifacta Wrangler: Plataforma que ofrece limpieza y preparaci贸n de datos visual.
DataWrangler: Herramienta en l铆nea para la limpieza y transformaci贸n visual de datos.
Open Data Kit (ODK): Plataforma para la recopilaci贸n y limpieza de datos en dispositivos m贸viles.
Open Studio for Data Quality (Talend): Software de limpieza y gesti贸n de datos.
Tableau Prep: Herramienta de preparaci贸n visual de datos.
IBM InfoSphere DataStage: Soluci贸n de ETL que incluye limpieza y transformaci贸n de datos.
DataRobot: Plataforma de aprendizaje autom谩tico que incluye limpieza de datos automatizada.
Alteryx: Plataforma de preparaci贸n y an谩lisis de datos que incluye limpieza.
Dataiku: Plataforma de colaboraci贸n y preparaci贸n de datos.
SAS Data Management: Suite de software que ofrece limpieza y gesti贸n de datos.
Databricks: Plataforma basada en Apache Spark que ofrece limpieza y an谩lisis de datos.
Google Cloud Dataprep: Herramienta en la nube para la preparaci贸n visual de datos.
Qlik Data Catalyst: Plataforma de gesti贸n y limpieza de datos.
Paxata: Plataforma de preparaci贸n de datos basada en la nube.
Recuerda que la elecci贸n de la herramienta depender谩 de tus necesidades espec铆ficas y del tipo de datos con los que est茅s trabajando. Es importante evaluar cada herramienta para asegurarte de que se ajuste a tus requisitos y flujos de trabajo.

La verdad es que hace poco estuve practicando con el lenguaje de programaci贸n R desde Rstudio y me pareci贸 muy buena herramienta para hacer la limpieza de datos y posteriormente hacer gr谩ficos de visualizaci贸n o informes por medio de Rmarkdown, me parece que es un lenguaje trabajable y que integra todas las etapas, desde la limpieza hasta los informes.

Power query de microsoft es una buena herramienta para limpiar datos. Est谩 presente para power BI y excel y agiliza la limpieza de datos debido a su interfaz intuitiva y a sus diferentes funciones que sirven para depurar los datos de forma sin mucho esfuerzo.

en lo personal yo utilizo BigQuery, Excel directamente, tendr茅 que aprender PowerBI y otras herramientas seguro.

POWER BI

La herramientas que m谩s conozco y que utilic茅 hasta ahora es Excel

yo agrego funciones en Excel y al momento de alimentar los datos se mantienen de una manera uniforme

En mi caso estuve usando la librer铆a Pandas, pero 煤ltimamente me estoy encari帽ando con pentaho data integration spoon. Muy recomendado

La herramienta que se esta utilizando es SQL

Para la limpeza de datos he usado excel y PowerQuery.

Apenas estoy prendiendo usar Pandas para limpiar la informaci贸n.

numpy y pandas

Para realizar la limpieza de datos a veces utilizo la librer铆a Pandas de Python, tambi茅n se puede hacer con Excel si se trabaja con bases de datos m谩s reducidas.

la que yo uso es Power Query

Podemos utilizar SQL para la limpieza de datos y tambien lo podemos realizar con Python

El proceso se llama ETL, se puede hacer en excel con funciones o VBA, o con el Power query que es mucho mas avanzado y se integra con el excel o el BI.

Utilizo la librer铆a Pandas de Python

Yo he utilizado SQL Server

Tengo una pregunta para la comunidad. Yo dirijo un equipo de procesamiento y an谩lisis de datos y la informaci贸n que nos llega a est谩 en un nivel muy bueno de calidad y muy estructurada, eso se logr贸 con un trabajo previo muy arduo. Hay una parte del equipo que tiene un nivel de trabajo alto y solo de vez en cuando llegan datos que no cumplen el est谩ndar con el que solemos trabajar. Este equipo tiene una pol铆tica de no alterar ning煤n dato recibido, obligando a quien lo suministra a realizar el trabajo sucio. Quiero saber en su opini贸n si esto es aceptable? Desde que llegu茅 al equipo he respetado esa pol铆tica pero viendo este curso veo que es parte del trabajo, por eso quiero saber su opini贸n.
Para datas que superan millones de registros no trabajamos con Excel.

Power Query en Power BI