Introducci贸n: fundamentos de la visualizaci贸n de datos

1

驴Qu茅 aprender谩s sobre la visualizaci贸n de datos?

2

驴Qu茅 es la visualizaci贸n de datos?

3

Florence Nightingale y la dama de la l谩mpara

4

Retos para aprender visualizaci贸n de datos

5

Importancia de la visualizaci贸n de datos: disminuye la carga cognitiva

6

Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio

7

驴C贸mo usar correctamente una gr谩fica? Ejemplos y usos de visualizaciones

8

Buenas pr谩cticas para visualizaci贸n de datos: user personas, mentiras estad铆sticas y principios de Gestalt

9

Caso Target: conflictos de 茅tica en la ciencia de datos y Big Data

Elige la gr谩fica correcta para tus reportes

10

Gr谩fica de barras

11

Gr谩fica de pie

12

Gr谩fica de dispersi贸n

13

Gr谩fica de burbujas

14

Gr谩fica de mapas

15

Tipos de mapas: isol铆neas, coropletas, diagramas, anam贸rficos

16

Gr谩fica de heat map o mapas de calor

17

Gr谩fica de tablas

18

Importancia del storytelling en la visualizaci贸n de datos

Data Visualization para Business Intelligence

19

驴C贸mo afecta la visualizaci贸n de datos en tu negocio?

20

Explora, descubre, pregunta: toma decisiones inteligentes con an谩lisis de datos

21

Pr谩ctica: an谩lisis y exploraci贸n de datos

22

Pr谩ctica: storytelling para contar historias con datos

23

Caso Walmart: integra visualizaci贸n de datos y Big Data con inteligencia de negocios

Flujo de trabajo y etapas del Business Intelligence

24

Recolecci贸n de datos

25

Limpieza de datos

26

Exploraci贸n de datos

27

Creaci贸n de gr谩ficas y visualizaciones

28

Generaci贸n de reportes con storytelling

29

Define objetivos SMART con KPIs o Key Performance Indicators

Recomendaciones finales para Visualizaci贸n de Datos

30

Caso Orbitz: beneficios de una cultura data-driven o basada en datos

31

Contin煤a aprendiendo Data Science, Business Intelligence y Visualizaci贸n de Datos

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Limpieza de datos

25/31
Recursos

Aportes 127

Preguntas 3

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

Garbage in, garbage out
Es una expresi贸n en inform谩tica, que se puede entender como 鈥渂asura entra, basura sale鈥 es un concepto que se relaciona con la calidad de la informaci贸n o los productos que ingresan a un sistema, si la calidad de lo que ingresa no es buena, el resultado normalmente tampoco es bueno.

Trabajando con Python, la forma m谩s program谩tica es usando Pandas y Numpy.

Veo que algunos compa帽eros son bastante avanzados, pero en mi caso utilizo Power Query de Microsoft ya sea en Excel o Power BI para la limpieza de los datos.

Aprend铆 primero a usar Pandas as铆 que me qued茅 con esa librer铆a de Python, sin embargo, pienso que deber铆a usar excel pues el proceso de limpieza usando una interfaz grafica, podr铆a agilizar el proceso.

La recolecci贸n y limpieza de datos ocupa entre el 60-70% del trabajo de un/a Data Scientist.

En mi caso uso principalmente la herramienta de Sql Server Integration Service (SSIS) de Microsoft dentro de la empresa, en casos donde no requiero automatizar procesos sino hacer algo r谩pido utilizo Excel y Power BI.

NOTAS
Es una de las etapas mas demoradas e importantes, dado que requiere estandarizar el formato de trabajo que preferimos, bas谩ndonos no solo en nuestro gusto, sino en el sistema que utilizamos para el an谩lisis e interpretaci贸n de datos (Excel, Power BI, Python, etc.).

Un concepto muy com煤n en esta etapa es el GIGO/RIRO, que refiere al Garbage In, Garbage Out. Esto hace referencia a que si en nuestros an谩lisis metemos basura desde el principio, tendremos basura en nuestro resultado. Claramente la informaci贸n que desde el principio no es confiable, no genera resultados confiables. Por otro lado, la preparaci贸n es importante en esta etapa donde finalmente, le damos forma a nuestra informaci贸n en cuanto a calidad y formato, dejando listo todo para la visualizaci贸n de datos.

Cuando se trata de csv鈥檚, procuro empezar con el n煤mero de columnas, si encuentro algunas con errores, cabio el separador.
De ah铆, para estandarizar por tipos prefiero usar python, pandas y numpy.
Para almacenar, estoy aprendiendo a usar bien PostgreSQL, ya que me permite importar de forma sencilla una 鈥淏ase de Datos鈥 que se ten铆a en excel

Encontr茅 esta p谩gina donde menciona algunas herramientas para limpiar datos:
https://analyticsindiamag.com/10-best-data-cleaning-tools-get-data/
La verdad yo no conoc铆a ninguno fuera de excel. Estar铆a interesante ver cual es el m谩s poderoso. La verdad para m铆 excel funciona de maravilla pero entiendo que tiene ciertas limitaciones. Supongo que m谩s adelante nos presentar谩n alguna herramienta ya m谩s en espec铆fico.

Yo en lo personal uso para la limpieza de datos el sistema de transformaci贸n STEP BY STEP que ofrece power BI. Es b谩sicamente un sistema de paso a paso en el cu谩l le decimos al software qu茅 debe hacer cada vez que entre data con una estructura similar. Todo esto es NOCODE y es bastante pr谩ctico

Normalmente utilizo python para hacer la limpieza de datos.
Se que existen otras herramientas como Tableau Prep que te hacen todo el pipeline incluyendo la limpieza

Para limpieza de datos uso knime

Excel es muy bueno, cuando se utilizan cantidades de datos muy peque帽os, KNIME es una herramienta de datos amigable basada en cubos programables para limpiar grandes cantidades de datos.

Definitivamente se deben limpiar los datos antes de realizar cualquier an谩lisis, el 煤nico software que conozco para limpieza de datos es Excel. Ah铆 podemos estandarizarlos, concatenar, desconcatenar, modificar su tipo, etc. Y dejarlos listos para una carga masiva a alguna herramienta de BI.

Mini apuntes.

Limpieza de datos

  • Segunda etapa y tambi茅n muy demandante de tiempo. Antes de empezar a interpretar la informaci贸n es necesario que los datos tengan formatos estandarizados (tipos de datos, tipos de valores, la forma en la que est谩n escritos, etc) que faciliten la lectura para nosotros, otras personas y el software. Por ejemplo, si usamos texto tenemos que evitar usar car谩cteres especiales para evitar que el software tenga problemas a la hora de estandarizar.

  • Existe un concepto muy importante en limpieza de datos: GIGO/RIRO (Garbage In, Garbage Out / Rubbish In, Rubbish Out). Ambos t茅rminos advierten que si ingresamos informaci贸n basura vamos a obtener informaci贸n basura. El producto final depende de la calidad de los datos.

  • Estandarizada la informaci贸n y controlada su calidad/relevancia podemos pasar al proceso de preparaci贸n en el cual organizaremos esos datos para su uso.

Yo uso a nivel de data muy peque帽a Excel y cuando la data es masiva uso SQL, ya cuando estoy trabajando el proyecto en Power BI uso el Power Query para hacer ajustes peque帽os. En la medida de las posibilidades trato de trabajar con la data lo m谩s limpia posible y no recargarle esta responsabilidad al Power Query.

Un software de ETL (Extract, Transform and Load) es ideal para estos casos. El proceso de ETL se realiza para integrar datos de una o varias fuentes (Origen), en una fuente destino. Aqui se recopilan datos de la(s) fuente(s) origen, se limpian los datos (transformaciones de los datos) y se cargan en la fuente destino, ya listos para ser utilizados por la herramienta de visualizaci贸n. Esto es un poco mas avanzado. Herramientas para ETL estan
:SQL Server Integration Services (SSIS), Informatica PowerCenter entre otras. Las herramientas de visualizaci贸n como Tableau, Power BI y otras permiten hacer limpieza de datos a un nivel intermedio comparado con las herramientas y softwares de ETL.

Al trabajar con decenas de millones de registros, la forma m谩s f谩cil que encontr茅 para su limpieza fue desarrollar una herramientica en Visual Basic, que me valida registro por registro.

Suelo utilizar Rstudio para la limpieza de grandes vol煤menes de data. Si no es mucho, basta con excel 馃槂

Personalmente uso Excel para la limpieza de datos, en el cual analizo columna por columna buscando errores y aplicando diversas funciones o simplemente cambiando el tipo de texto para estandarizar la data.

Uso Sql Server Integration Services SSIS y apluco toda la logica que sea necesaria para lograrlo.

Dataprep

Limpieza de datos: python, la us茅 y vi su efectividad. Igualmente me cost贸 pero vamos en el proceso!

Editor de Power query en Excel o en power BI.

uso pandas (python) para la limpeza

En mi caso tambi茅n uso Excel, pero hace poco vi que utilizaban Python numpy y pandas para limpiar datos y era mucho m谩s r谩pido y directo.

Siempre he utilizado excel y en platzi he visto ejemplos de python.

Siempre he utilizado Excel para la limpieza de datos, es sencillo, y permite agregar y quitar haciendo uso de su entorno de trabajo.

Yo en lo personal trabajo con Knime, pues me permite con una interfaz gr谩fica y low code realizar muchas operaciones con bases de datos grandes para las cuales Excel ya no es lo m谩s eficiente. Estoy incursionando en Pandas, y me parece muy 煤til pero requiere tener muy claros ciertos aspectos de los objetos.

Actualmente trabajo para una alcald铆a de un municipio de Colombia como analista de datos, y mi trabajo consiste en hacer limpieza de varias series de datos: estandarizando atributos; m谩s que nada. Hasta este momento, EXCEL es el software que m谩s he utilizado, y la funci贸n BUSCARV ha sido la ayuda m谩s grande hasta este momento en mi trabajo.

Todo tiene que tener un orden desde el inicio

El unico que conoc铆a era Excel, pero con los aportes de los compa帽eros he aprendido bastante y de otro mundo de plataformas para la limpieza de datos.

Otra herramienta para la limpieza de datos es Tableu prep, que lo recomienda la lectura.

Una herramienta que encontr茅 para limpiar datos es Dplyr

Yo tambi茅n, por ahora, solo he utilizado Excel para limpiar los datos. Pero espero en el futuro poder hacerlo con otras herramientas.

Reto: herramienta de limpieza

Preparaci贸n

GIGO/RIRO

Estandarizar el formato

Limpiar datos utilizando pandas es bastante simple y realmente da una visi贸n general muy amplia al respecto.

Yo uso excel, python creando funciones que ayuden a normalizar, los proceso de power BI, sagemaker y ML de microsoft

Hoy d铆a indagando un poco acerca de como mejorar mi scrapeo, encontr茅 una aplicaci贸n la cual es de pago ( y no, no es spam ) que te hace el scraping y tambi茅n te limpia los datos acomodandolos en archivo CSV, con columnas y rows.
Se llama octoparse. Me parecio re buena ya que puede aportar en el ahorro de tiempo. Aqui e link: https://www.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbW8xYjRwdnFOeWF6MEZCb3F1VmF4SDFkcE8yd3xBQ3Jtc0tuQ3ZIZUFEYUxuM3U2NVc0d0VzOHlKampxR01KM0MybVp1Unl4X0NWSWZHakZKbm9xaUpsa0VWYVBSdkxfWnFsTDZBTlBueFRWM09ZdTBMako0aWpDVk9qUlZmeE1xbUJfYTRmeklVcXQwNlJDck0waw&q=https%3A%2F%2Fwww.octoparse.es%2F%3Futm_source%3Dprogramador%26utm_medium%3Dyoutube%26utm_campaign%3DAD_Paid

Solamente he usado Excel

Para la limpieza de datos uso la opci贸n de 鈥楾ransformar datos鈥 en Power BI.

Me gusta utilizar excel para limpiar los datos, ya que permite una facil visualizacion y filtrado de los tipos de datos , ya si se desborda mi excel, utilizo SQL Server o SPSS Modeler para ejecutar tareas de limpieza

La herramienta que conozco es Excel, ya que en esta es bastante f谩cil dar un formato y un est谩ndar a la informaci贸n a trabajar. Sin embargo al averiguar encontr茅 que algunas otras herramientas son Pandas, SSIS, ScraperWiki

Utilizo power bi y librerias de python como pandas y numpy.

Yo uso WPS y a veces cuando ya esta en el notebook puedo usar filtros que facilita python para borrar valores repetidos o espacios innecesarios.

yo utilizo excel, pero tambien se progrmar, me siento mas comodo limpiando, ordenando, optimizando los datos con un un lenguaje que prefiera

Excel
Power Query

Soy apenas una estudiante en data Science, pero lo que he usado para limpiar datos a sido Python con pandas, excel y la opci贸n que te ofrece Power bi.

Utilizo Talend como herramienta ETL para la limpieza de datos.

La herramienta de Power Bi que es la que actualmente utilizo tiene integrada el power query que es una excelente herramienta para la limipieza de datos.

Encontr茅 dos herramientas de limpieza de datos: Pandas para Python y Dpylr para R.

En mi caso uso Power Bi para realizar la limpieza de los datos.

Actualmente utilizo Power Query(de Power Bi) para la limpieza de datos, la verdad me parece una herramienta bastante 煤til y completa. Quisiera conocer mas herramientas para limpieza de datos para ampliar mis posibilidades al momento de hacer este proceso

Soy nuevo en el BI, y en Data Sciense (Data Analysis, Data Engineering) y la 煤nica herramienta que manejo hasta el momento para limpieza de datos es Excel y un poco de Python usando Google Colab. Sigo en orden la ruta de aprendizaje y a煤n me faltan varios cursos para tomar los de Power BI, Tableau y Google Data Studio鈥

Herramientas para limpieza de Datos: Excel , MySql, Pentaho u otro.

Oracle Data Integrator u ODI

Pandas y Numpy en Python.

En lo personal para la validaci贸n y limpieza de datos uso Excel. No tengo experiencia con otros software que permitan realizar esta labor.

Normalmente uso Excel para limpiar los datos porque es mas f谩cil para mi, sin embargo el Power Query (que apenas estoy empezando a usar) me parece mas potente cuando tenemos gran cantidad de informaci贸n.
Tambi茅n estoy iniciando con Python y veo que es aun mas potente, de un solo 鈥減lumazo鈥 puedes limpiar una columna.

Para la limpieza de datos en Business Intelligence uso Power Query, tanto en Excel como con Power BI, aunque tambien uso SQL y Python para la limpieza de datos.

OpenRefine es una herramienta web bastante poderosa para limpiar y estandarizar la data, realiza agrupaci貌n de datos e identifica posibles errores en la recolecci貌n de los mismos.

Cuando los datos son manejables (en cantidad), uso Excel. Cuando ya tienen una magnitud m谩s alta, uso Python y sus librer铆as Pandas y Numpy.

La herramienta que yo utilizo para la limpieza de datos es Python y Microsoft Power Bi

SQL Server Integration Services es una herramienta que puede usarse para la limpieza de datos.

Excel

Limpieza de datos

Generalmente es el que m谩s tiempo demanda, esta debe ser le铆da de una manera sencilla. Se logra a trav茅s de la estandarizaci贸n. En el caso de los textos debe estar en min煤scula y sin caracteres especiales.

GIGO (garbage in garbage out) y RIRO, mientras mejor se limpie el proceso de los inputs, de mejor calidad ser谩 el output, preparaci贸n, donde se queda todo impecable

Recomiendo mucho PowerQuery que viene en PowerBi y Excel. Este, internamente tiene un lenguaje llamado M. B谩sicamente es un lenguaje de consultas que internamente lo traduce a SQL (no en todos los casos). Con PowerQuery puedes extraer informaci贸n de m煤ltiples or铆genes tales como: csv, txt, xlsx, json, GitHub, Azure, MySQL, or铆genes web, SAP y much铆simos or铆genes m谩s. Luego de importarlos, realizas toda la limpieza y transformaci贸n de datos necesaria para posteriormente cargarla a un modelo de datos y hacer quiz谩 DAX. En mi caso, lo empec茅 usando para consolidar docenas de archivos con la misma estructura, pr谩cticamente en unos 5 clics. Lo que antes era realizar una macro en vba, se convirti贸 en manejo de la interfaz de PowerQuery, que por cierto es s煤per intuitivo.

Herramientas que se utilizan para la limpieza de datos:

  • Excel
  • Power Query (Power BI)
  • Python
  • Rstudio
  • Tableau

Para la limpieza de mis datos suelo utilizar:

  • Excel
  • SQL Server
  • Bloc de notas

Considero que son herramientas muy f谩ciles de utilizar para esta actividad.

No se si estoy en lo cierto, pero para limpieza se podria usar algo como SQL.

Excel sin duda es una buena herramienta. Pero tambi茅n podemos usar SPSS u otro programa similar.

Limpieza de datos:
Realmente se puede hacer con Excel, Python, o con soluciones sofisticadas que proveen terceros a trav茅s de sus suites para BI, Big data, data analitycs. Considero que depende de la necesidad que se tenga, tipo de informaci贸n, formatos que requiero, etc. Por ejemplo en internet hay servicios gratis que te permiten hacer cierto tipo de limpieza gratis como: convertir archivos de un formato a otro, reducir el tama帽o de archivos de audio, video, etc para poderse manipular de forma m谩s f谩cil.

Usualmente siempre trabajo con mis bases de datos en excel. Me parece m谩s c贸modo y entendible. Voy a aprender como hacer limpieza de datos con python, power BI y Tableau.

Para limpiar datos yo usar铆a una regex y Python con pandas (suponiendo que nuestros datos vienen en un csv)

Normalmente ocupo excel para un primer vistazo de como quedar铆a la limpieza y despues Oracle Data Integrator (ODI) para crear un ETL que haga esto con mis pasos ya definidos y me de una salida decente

Para limpieza de datos he utilizado AWK para procesar volumenes muy altos de datos que excel no podr铆a procesar por sus limitantes de software privado. AWK es sumamente poderoso

GIGO: Garbage In, Garbage Out

Para la limpieza utilizo Qlik sense o python dependiendo lo que se requiere

Limpieza de datos: conozco un poco de Alteryx y s茅 que tambi茅n se utiliza bastante lo que es Microsoft SSIS (SQL Server Integration Services)

Yo usaba Excel tambi茅n.

En lo personal s贸lo conozco excel, y veo algunos compa帽eros recomendando Tableu y otros programas pero no los conozco.

Normalmente utilizo mucho excel o algunas de las librer铆as de Python Anaconda

Para la limpieza de datos la unica herramienta (aparte de excel) que conozco es python. Con la librer铆a Pandas puedo estructurar la informaci贸n y adem谩s se le pueden aplicar algoritmos de 鈥渓impieza鈥 de una manera muy sencilla.

En Excel para mejorar el funcionamiento y depuraci贸n de datos utilizo el complemento EXCELeINFO, permite eliminar espacios, reemplazar caracteres especiales, reemplazar valores en toda la hoja o el libro de Excel, esta clasificado por Archivos, Texto, rengos, hojas, formulas, protecci贸n de hojas, etc. los invito a conocerlo. (Y no es ninguna propaganda, es compartir conocimiento y uso de herramientas para mejorar el an谩lisis de datos)

power query

Me encanta el Power Query para realizar la limpieza y estandarizaci贸n de los datos, lastima que no sirva en MAC鈥

Generalmente utilizo SSIS, datactory para la limpieza de datos y ocasionalmente Power Query de Power BI, esta 煤ltima tiene muchisimas funcionalidades interesantes adem谩s de contar con el lenguaje M

Software para limpieza de datos: Excel, Power Query de power bi, R o python.

para Microsoft DQS

En mi caso tambi茅n he utilizado Excel o Power BI, usando DAX, Power Pivot o incluso la funciones nativas de las hojas de c谩lculo. Tambi茅n cuando hay bases en un sistema gestor de bases de datos, uso el mismo SQL para tal tarea. Y si uso R, utilizo 鈥淭idyverse鈥 para hacer todo el proceso. Otra herramienta puede ser Pentaho.

Cuando trabajas con datos estructurados de tipo numerico generalmente es sencillo hacer limpieza 鈥 pero cuando trabjas con texto es donde el proceso se puede complicar un poco 鈥 personalmente me gusta el NLP y a veces te puedes pasar horas dise帽ando un patron que pueda limpiar y organizar tu texto 鈥 entre las herramientas que mas utilizo para eso estan las expreciones regulares de python y la libreria Spacy.

Hay un mont贸n de comentarios interesantes abajo de este, no te vayas sin leerlos te aportar谩n mucho conocimiento

Generalmente para la limpieza de datos solo he usado un proceso de Data Mining llamado ETL, previo a ello, suelo revisar las inconsistencias en una base de datos a punta de consultas, esta bien?

Pandas! 鉂わ笍

En python se usa pandas

Como tal la biblioteca Pandas de Python es muy 霉til para realizar la limpieza de datos y estructuracion.