Introducci贸n: fundamentos de la visualizaci贸n de datos

1

驴Qu茅 aprender谩s sobre la visualizaci贸n de datos?

2

驴Qu茅 es la visualizaci贸n de datos?

3

Florence Nightingale y la dama de la l谩mpara

4

Retos para aprender visualizaci贸n de datos

5

Importancia de la visualizaci贸n de datos: disminuye la carga cognitiva

6

Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio

7

驴C贸mo usar correctamente una gr谩fica? Ejemplos y usos de visualizaciones

8

Buenas pr谩cticas para visualizaci贸n de datos: user personas, mentiras estad铆sticas y principios de Gestalt

9

Caso Target: conflictos de 茅tica en la ciencia de datos y Big Data

Elige la gr谩fica correcta para tus reportes

10

Gr谩fica de barras

11

Gr谩fica de pie

12

Gr谩fica de dispersi贸n

13

Gr谩fica de burbujas

14

Gr谩fica de mapas

15

Tipos de mapas: isol铆neas, coropletas, diagramas, anam贸rficos

16

Gr谩fica de heat map o mapas de calor

17

Gr谩fica de tablas

18

Importancia del storytelling en la visualizaci贸n de datos

Data Visualization para Business Intelligence

19

驴C贸mo afecta la visualizaci贸n de datos en tu negocio?

20

Explora, descubre, pregunta: toma decisiones inteligentes con an谩lisis de datos

21

Pr谩ctica: an谩lisis y exploraci贸n de datos

22

Pr谩ctica: storytelling para contar historias con datos

23

Caso Walmart: integra visualizaci贸n de datos y Big Data con inteligencia de negocios

Flujo de trabajo y etapas del Business Intelligence

24

Recolecci贸n de datos

25

Limpieza de datos

26

Exploraci贸n de datos

27

Creaci贸n de gr谩ficas y visualizaciones

28

Generaci贸n de reportes con storytelling

29

Define objetivos SMART con KPIs o Key Performance Indicators

Recomendaciones finales para Visualizaci贸n de Datos

30

Caso Orbitz: beneficios de una cultura data-driven o basada en datos

31

Contin煤a aprendiendo Data Science, Business Intelligence y Visualizaci贸n de Datos

Pr谩ctica: storytelling para contar historias con datos

22/31

Lectura

Vamos a hacer una demostraci贸n de storytelling utilizando los datos de la clase anterior y los descubrimientos que obtuve durante mi exploraci贸n.

隆Manos a la obra!

Como bien sabemos, al momento de referirnos a la Ciencia de Datos y a la Visualizaci贸n de Datos, debemos de estar completamente seguros acerca de nuestros resultados sin importar lo m谩s obvio o sencillos que estos pudieran parecer.

Lo primero que quise revisar fue la correlaci贸n entre dos variables, Las ventas (sales) y la utilidad (profit).

image4.png

Recordemos que la diferencia entre ventas y utilidad es extremadamente importante al momento de analizar los beneficios de nuestra organizaci贸n:

  • Ventas (sales) puede definirse como el valor total de los productos vendidos
  • Utilidad (profit) es el resultado de sustraer a las ventas nuestros costos totales, en otras palabras, Utilidad = Ventas - Costos

驴Qu茅 quiere decir esto?

La utilidad siempre va a ser m谩s interesante de analizar porque tiene en cuenta los valores asociados al costo de un producto y es el margen de 鈥済anancia鈥 con el que se queda la empresa despu茅s de realizar una venta.

D茅jame te lo ilustro con un ejemplo:

Si vendo una Hamburguesa a $20 USD (ventas), pero comprar y preparar los ingredientes me cuesta $5 USD (costos), entonces mi utilidad ser铆a de $15 USD.

Venta de una hamburguesa:
- Ventas:   $20 USD
- Costos:   $5 USD
- Utilidad: $15 USD

Ahora bien, tomando en cuenta la utilidad para esta exploraci贸n, mi idea inicial era la siguiente:

Primera pregunta de la exploraci贸n

Mi hip贸tesis inicial fue que 鈥淎 mayores ventas, debe haber mayor Utilidad鈥.

Entonces, simplemente deber铆a comprobarlo utilizando una visualizaci贸n de datos que me permita encontrar una correlaci贸n positiva (Scatterplot) entre dos variables (sales y profit).

De ser cierto, deber铆a ver una gr谩fica parecida a la siguiente:

image1.png

Ejemplo de correlaci贸n positiva lineal entre dos variables: X y Y.

Resultado de la primera pregunta

Para este Data Viz decid铆 colorear las observaciones con una transici贸n de Naranja a Azul, donde:

  • Azul = Profit positivo (ganancia)
  • Naranja = Profit negativo (p茅rdida)
  • Y una l铆nea punteada para demostrar c贸mo deber铆a ser la dispersi贸n de una correlaci贸n positiva linear a modo de referencia
image6.png

Como puedes ver, estaba equivocado. La hip贸tesis que ten铆a al principio era falsa.

A mayor cantidad de ventas, NO SIEMPRE hay mayor utilidad.

Esto me dej贸 con m谩s dudas que al inicio, pero al menos ya ten铆a borrada una idea equivocada sobre las utilidades y las ventas.

As铆 que, para seguir con la exploraci贸n, decid铆 realizar una segunda pregunta.

Segunda pregunta de exploraci贸n

Nueva pregunta: 驴por qu茅 no todas las ventas tienen utilidad?

Para mi fortuna, la base de datos nos permite ver qu茅 es lo que sucede:

image5.png

馃憖馃憖馃憖

No es tan f谩cil de ver a simple vista, pero hay un factor importante por el que la cantidad de ventas no siempre aumenta la cantidad de ganancias.

馃憖馃憖馃憖

Resultado de la segunda exploraci贸n

隆Los descuentos son el impostor!

Los descuentos est谩n haciendo que no todas mis ventas generen utilidad porque, seguramente, provoca que la venta total sea por un precio menor al costo de los productos y, por lo tanto, le generen p茅rdidas (Profit negativo) a la empresa.

Para analizar r谩pidamente los descuentos simplemente quise poner un KPI, un disparador que me permita saber si el descuento es 鈥渁ceptable鈥 o 鈥渘o aceptable鈥. En este caso decid铆 que el descuento es 鈥淣o aceptable鈥 si supera el 30% en promedio sobre las ventas.

Cabe recalcar que un 30% en la industria de ventas generalmente es una cantidad muy fuerte y puede considerarse como algo fuera de lo com煤n.

Para el siguiente Data Viz utilic茅 los puntos de geolocalizaci贸n y nombre de la regi贸n que incluye la base de datos para ubicar las ventas en un mapa.

Tambi茅n utilic茅 una condicional como un disparador de KPI en donde el punto debe colorearse en color rojo si el descuento en promedio es 鈥淣o aceptable鈥 quedando de la siguiente manera:

image3.png
image2.png

隆Muy interesante!

Si inspeccionamos las ventas de la regi贸n central, sabemos que los descuentos excesivos est谩n exclusivamente ubicados en los estados de Texas e Illinois.

Ser谩 muy interesante analizar m谩s a fondo preguntas como:

  • 驴Cu谩les son los productos m谩s vendidos en esos estados?
  • 驴Cu谩les son los menos vendidos?
  • 驴Qui茅nes son estos clientes?
  • 驴Todos los a帽os muestran el mismo patr贸n?
  • 驴Todas las temporadas son iguales?

Pero deberemos dejar estas dudas para otra ocasi贸n, ahora lo importante es que t煤 te encamines a realizar tu propia exploraci贸n y me cuentes tus descubrimientos.

驴Te diste cuenta de que us茅 el storytelling?

La idea es poder entretener a la audiencia con tus resultados y poder seguir adelante con tus descubrimientos sin nunca desenganchar el inter茅s y la curiosidad de quien te escucha o lee.

Algunas de las buenas pr谩cticas es utilizar analog铆as (las hamburguesas) para explicar con conceptos sencillos los t茅rminos m谩s complejos as铆 como definir 鈥渟tory points鈥 y visualizaciones adecuadas a nuestro mensaje.

Si est谩s interesado en m谩s sobre como poder hacer storytelling, te recomiendo tomar el Curso de Tableau: Visualizaci贸n de Datos y Storytelling para Negocios, en el cual yo ser茅 otra vez tu instructor con esta gran herramienta y hablaremos de los conceptos y la estructura de la narraci贸n de historias.

An铆mate a contarme tu historia y la de tus descubrimientos y d茅jala en la parte de los comentarios, 隆recuerda que es una habilidad que se mejora con la pr谩ctica!

隆Nos vemos en la pr贸xima clase!

Aportes 37

Preguntas 5

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

Se realiz贸 la siguiente gr谩fica de dispersi贸n entre las ventas y las utilidades agrupadas por descuento.
De esta manera podemos observar de manera r谩pida que a mayor el descuento, menores las ventas y peores las utilidades, podemos ver que cuando el descuento es de al rededor del 10% las ventas no son m谩s altas que cuando no hay descuento pero se tiene buen margen de utilidad, por el contrario con descuentos del 70 y 80% las ventas se desploman adem谩s de las ganancias.
Entiendo que esto podr铆a ser peor porque por alguna raz贸n no hay muchas ventas con descuentos tan extremos, pero por desgracias las que se hicieron son suficientes como para que la rentabilidad de la empresa se pongan en peligro.
Dejo el c贸digo con el que hice esta gr谩fica en los comentarios de este mismo post.

Para tomar este curso recomiendo antes aprender algo de estad铆sticas y manejar un m铆nimo de Excel. Los retos que coloca el maestro para una persona que no tenga conocimientos m铆nimos con alguna herramienta de an谩lisis van a parecer complicados.

Reto
Aqui dejo tanto el analisis que hice en google Data Studio como el que hice con python y jupyter notebook
Google data Studio

Notas en GitHub donde se encuentra el Jupyter Notebook

Contestando las preguntas sobre Texas e Illinois:
Productos mas vendidos: Productos de tecnolog铆a
Productos menos vendidos: Office Suppliers
Quienes son los comprandores: Listado de compradores que gatan mas
Patr贸n de ventas: 3Q y 4Q son los que presentan una alza en las ventas

驴Por que cuando tengo tablas din谩micas no puedo usar grafico de dispersi贸n?

En la siguiente gr谩fica podemos darnos cuenta de los siguientes factores:
1.- La tecnolog铆a ocupa el mayor porcentaje de cobertura con respecto al 100% de la venta. Con un 36.4%
2.- La ciudad con mayor venta es New York con 256 mil dolares.
3.- El cliente que mas compra es Sean Miller con 25K.
4.- El 煤ltimo cuarto del a帽o es cuando se tiene la mejor venta. Y los primeros meses es la mas baja.

un grafico tipo mapa generado desde Excel con los datos de la tabla:

Ahora s铆 logro comprender de una excelente explicaci贸n el uso del storytelling en la data viz. Estoy verdaderamente ansioso pro hacer el curso de Tableau.

Qu茅 quiere decir con que el descuento supere el 30% sobre las ventas? Pregunto porque al buscar por descuentos mayores al descuento promedio mas 30% salen 贸rdenes de varios estados adem谩s de Illinois y Texas



Analizando el dataset con Python queda demostrado que varios tipos de descuentos otrorgados por la firma generan utilidades negativas.
El rango de descuentos [0.32 - 0.70] aplicados a las ventas provocan utilidades acumuladas negativos.

#Importar libreria
import pandas as pd

#Crear df 
store_df = pd.read_excel('superstore.xls',
                         header=[0])

#Algoritmos
tipo_desc = store_df['Discount']

descuentos = store_df[store_df['Discount']>0.0]

grupos_descuentos = descuentos.groupby(['Discount'], sort=True)['Profit'].sum().sort_values(ascending=True)

por medio de geopandas y un archivo .shp de USA se puede realizar la comparaci贸n de los descuentos por estado:

el archivo fue descargado de https://tapiquen-sig.jimdofree.com/english-version/free-downloads/united-states/

Se crea el dataframe con la informaci贸n para graficar

import geopandas as gpd

fp = "USA_States/USA_States.shp"
map_df = gpd.read_file(fp)

Se procesa la informaci贸n de descuentos realizados para graficarlos

data_for_map = df[["State","Discount"]].groupby(df["State"]).mean()
data_for_map_c = data_for_map.copy()
data_for_map_c.reset_index(level=0, inplace=True)
data_for_map_c.rename(columns={'State':'STATE_NAME'}, inplace=True)

Se realiza un merge para unir los dataframes

merged = pd.merge(map_df,data_for_map_c,how='left').fillna(0)

Se da la orden para graficar

fig, ax = plt.subplots(1, figsize=(10, 6))
merged.plot(column='Discount', cmap='BuGn', linewidth=0.8, ax=ax, edgecolor='0.8')

Con la data entregadas quise plasmar un panel en que se visualice inicialmente el numero de ordenes gestionados por mes con su promedio, una gr谩fica de barras validando el total de ventas realizadas por mes. Porcentaje de ventas por categoria y porcentaje de medio de env铆o usados. Total ventas por estado y total de ventas por vendedor y categor铆a. Las visualizaciones fueron realizadas en Power BI el cual por medio de las interacciones que maneja y la din谩mica nos permite filtrar la informaci贸n y observar los diferentes comportamientos.

El ejemplo Scatter:

En el caso de la segunda imagen lo que quise buscar es desglose de las ventas para ver de cada categor铆a cuales son lo productos m谩s vendidos y generan el mayor ingreso del negocio.

Hola,
Siguiendo lo mencionado en esta lectura, los estados donde se obtienen menores rendimientos son aquellos donde hay una mayor cantidad de descuentos, lo cual se puede evidenciar en la siguiente tabla, donde est谩n los 5 estados con los m谩s altos y mas bajos promedios del indicador Gross Profit Margin:


Nota: Gross Profit Margin (GPM) = profit / (sales - (sales * discount))

Esto tambi茅n se puede evidenciar en los siguientes gr谩ficos de correlaci贸n de los 10 estados con m谩s bajo rendimiento en Profit y promedio de GPM. De igual manera, al analizar cada uno de estos estados por subcategor铆a, se puede evidenciar como los grandes descuentos est谩n concentrados principalmente en 5, siendo estas: Bookcases, Tables, Appliances, Binders y Machines. Ser铆a interesante revisar mas a fondo si esto obedece a una estrategia de marketing para reducir el inventario o cual puede ser la raz贸n de estos grandes descuentos y su rentabilidad negativa.


Para finalizar hice una investigaci贸n acerca de cu谩les son las categor铆as y sub categor铆as de cada una de las ciudades con m谩s perdidas, y me encontr茅 con que existen algunas subcategor铆as que tienen utilidades positivas, pero la mayor铆a por supuesto tienen utilidades negativas.




La primera pregunta que me hice dentro de mi an谩lisis fue, 驴C贸mo van los beneficios a lo largo de los a帽os? La verdad no ten铆a ni idea de que pensar porque era la primera vez que tocaba los datos. Pero yo me imaginaba que bien, ya que era lo m铆nimo para una empresa. Para mi sorpresa resulta que est谩 hip贸tesis estaba correcta. Los beneficios no hab铆a parado de crecer a lo largo de los a帽os, por lo que hab铆a cosas que la empresa estaba haciendo bien.

La segunda pregunta que se me ocurri贸 fue 驴Cu谩l es la categor铆a que m谩s vende? Para esta pregunta no ten铆a ninguna hip贸tesis previa, porque simplemente no conoc铆a cu谩les categor铆as exist铆an. El descubrimiento de esta respuesta fue que en total todas estaban bastante parejas, por lo que no podr铆a proponer examinar alguna para su eliminaci贸n.

Bueno, entonces se me ocurri贸 la siguiente pregunta 驴Cu谩les son las ciudades m谩s rentables? Y por consiguiente, 驴Cu谩les son las Ciudades menos rentables?
Al darme cuenta de que hab铆a ciudades con perdidas, encontr茅 un hilo interesante el cual analizar.

Bueno, hasta ac谩 lleg贸 el tiempo de hoy, estate [email protected] para la segunda parte. 馃槂

Mi hip贸tesis giraba entorno a los elevados gastos que implicar铆an los env铆os por medio de: 鈥淔irst Class鈥 y 鈥淪ame Day鈥, despu茅s de todos tiene sentido que al ser env铆os por medios especiales sus gastos sean altos y sus ingresos bajos o nulos.

Mi hip贸tesis giraba entorno a los elevados gastos que implicar铆an los env铆os por medio de: 鈥淔irst Class鈥 y 鈥淪ame Day鈥, despu茅s de todos tiene sentido que al ser env铆os por medios especiales sus gastos sean altos y sus ingresos bajos o nulos.

Mediante la gr谩fica pude comprobar que: ni los gastos son excesivos, as铆 como tampoco los ingresos son bajos o insignificantes en relaci贸n a las ventas por este medio.

Para ser m谩s espec铆ficos tambi茅n quer铆a corroborar a qu茅 modo de env铆o y segmento de cliente pertenec铆a el grueso de las p茅rdidas y ganancias respectivamente.

Nuevamente mi primera hip贸tesis queda rechazada. El motivo de las p茅rdidas en nuestra base de datos NO se deb铆a al modo de env铆o o al segmento de nuestros consumidores.

As铆 que tomando en cuenta el An谩lisis del profesor Luis Novelo decid铆 ponerle 茅nfasis a los descuentos.

Por un lado las ventas que S铆 generan ganancias segmentadas por: State, Product Name/Sub-category, Customer Name y City tienen en promedio un descuente de: 7.21%, 15.58%, 13.58% y 9.88%.

(No superan el 15% en descuento)

Por otro lados las ventas (segmentadas de la misma manera) que nos generan P茅rdidas:

El descuento es ALT脥SIMO en estas transacciones (38,57%, 30.79%, 39.93%, 39.53%). Una completa locura!!!

Aqu铆 les dejo m谩s visualizaciones:

Aqu铆 cabe aclara que nuestro gastos en 鈥淔urniture鈥 son muy elevados lo que nos deja un 鈥淧rofit鈥 muy peque帽o. Por lo que hay que tomar acciones encaminadas ha mejorar los costos en esta categor铆a de producto.

Gracias a esta visualizaci贸n se puede comprobar que existe una serie de Clientes, Estados, Productos y Sub-categor铆as con las que jam谩s se ha obtenido ganancias. Con respecto a las Sub-categor铆as 2 de las 3 pertenecen a 鈥淔urniture鈥 (Tables, Bookcases), lo cual puede explicar las bajas utilidades que nos genera esta categor铆a.

<a href=鈥https://www.flaticon.es/iconos-gratis/mano鈥 title=鈥渕ano iconos鈥>Mano iconos creados por Freepik - Flaticon</a>

<a href=鈥https://www.flaticon.es/iconos-gratis/pago鈥 title=鈥減ago iconos鈥>Pago iconos creados por Freepik - Flaticon</a>

<a href=鈥https://www.flaticon.es/iconos-gratis/perdida鈥 title=鈥減茅rdida iconos鈥>P茅rdida iconos creados por Freepik - Flaticon</a>

<a href=鈥https://www.flaticon.es/iconos-gratis/costos鈥 title=鈥渃ostos iconos鈥>Costos iconos creados por phatplus - Flaticon</a>

A partir de las siguientes visualizaciones, podemos concluir que:

  • Los productos de tecnolog铆a son los que generan m谩s ventas.
  • Entre los productos de tecnolog铆a, los tel茅fonos son los que generan m谩s ventas
  • Nuestro comprador n煤mero 1 es William Brown
  • El trimestre 4 es el trimestre del a帽o donde se hacen m谩s ventas.

Muy buen ejercicio para dart un bosquejo de c贸mo utilizar el storytelling de forma sencilla.

En un contexto general se obtuvieron los siguiontes highlights:

  • El producto mas vendido es canon imagen CLASS y el menos vendido es el Averi hi liter pen.

  • La sub categoria mas vendida son los phone y se obtivieron mas ventas en la region esat.

  • La grafica de dispersion nos muestra que a mayor ventas no necesariamente hay mayores profit.

  • La agrfica de temporal de lineas y la grafica de barras nos muestras que desde ventas y porfits de la tienda y su volatilidad

  • El mejor cliente es sean miller con el 28,37% de las ventas y el que obtuvo menores ventas es thais sissman con el 7,35%.

  • En este caso se analizo solo las state de TEXAS Y ILLINOIS observamos los siguiente.

  • El mejor producto es samsum galaxy s4 y el menos vendido es Avery durable slant en illinois

  • El mejor producto es el lexmark mx611 y el menos vendido es Hover replacement EN TEXAS

  • El mejor cliente es Becky martin

  • En cuanto a ventas Texas tien mayores ventas

Trabajare en hacer un buen storytelling y contar la historia de los datos de una manera entretenida, me enfoque en este caso a generar los graficos.

encontre que en 10 estados no se han ganado ni un solo dolar; al contrario, han perdido.
propondria reformar la politica de descuentos, es inaceptables perdidas de 25 mil dolares

Comparto este sitio de datos p煤blicos de Argentina para hacer m谩s ejercicios como este: https://datos.gob.ar/

1936 pedidos de los 9994 de los pedidos, es decir, casi el 20%, tuvieron p茅rdidas y/o no generaron ganancia alguna.


Puntos relevantes:

  1. Se comenz贸 por analizar lo m谩s obvio que es son las ventas que tenemos por categor铆as la cu谩l es mostrada en la primera gr谩fica (arriba a la izquierda) en la cual la categor铆a ganadora sin duda es la correspondiente a 鈥淭echnology鈥.

  2. En la segunda gr谩fica (arriba a la derecha) se enlistaron los productos que tienen m谩s ventas a los que tienen menos ventas, igualmente se indica a que categor铆a pertenece y mediante el grosor de la barra y con una etiqueta se puede visualizar la utilidad que nos ha generado cada producto. Podemos observar a simple vista que el segundo y tercer producto m谩s vendido no nos est谩 generando utilidad o incluso estamos perdiendo dinero.

  3. En la tercera gr谩fica (abajo a la izquierda) tenemos ordenado a los clientes que m谩s compras han hecho en la tienda ordenados de mayor a menor, igualmente mediante colores se indica a que tipo de cliente pertenece cada comprador. En este caso nuestro mayor comprador pertenece al tipo de cliente 鈥淗ome Office鈥 seguido por una compradora 鈥渃orporation鈥.

  4. En la cuarta gr谩fica se muestran las ventas trimestrales por a帽o y mediante el grosor de la l铆nea se indica las utilidades que hemos tenido, que generalmente suele ser mayor durante el 煤ltimo trimestre del a帽o. En la misma l铆nea se tiene se帽alizado mediante colores cuando se dan m谩s descuentos en la tienda y resulta ser que igualmente el tiempo de mayores descuentos coincide con el de mayores utilidades que ser铆a el cuarto trimestre del a帽o.

No necesariamente las ganancias y las cantidades son correlaciones positivas, en algunos casos como en esta exploraci贸n es necesario comenzar desde un nivel macro para ir profundizando en el an谩lisis y que en este viaje sea sencillo de comprender para mantener el inter茅s de la audiencia.

comparto mi resultados en google colab usando python, pandas y matplotlib
https://colab.research.google.com/drive/1in5EvJcD21jSVw06NdA2KV7picDWfCWC?usp=sharing

Para mi al revisar la comparaci贸n de ventas, utilidades por categor铆a en los a帽os 2014 a 2017 profundizar铆a en la
categor铆a de furniture ya que me parece que las utilidades son muy bajas para el nivel de ventas y buscar铆a si puedo encontrar eficiencias que me permitan lograr una mejor utilidad. Sino tratar铆a de generar m谩s ventas en las otras dos categor铆as con el objetivo de tener m谩s utilidades.

Para pode empezar, a sugerir cambios a las gerencias debemos saber D脫NDE se pierde dinero.

As铆 que revisamos por categor铆a:

P. 驴C煤al es aquella categor铆a donde el descuento es mayor a la utilidad? (d贸nde estamos perdiendo)
R: La categor铆a FURNITURE

Luego:
P. 驴C煤al es la subcategor铆a, dentro de FURNITURE, que genera p茅rdidas?
R: De las 4 subcategor铆as, 3 generan p茅rdidas (Bookcases, Chairs and Tables) , y solo una genera utilidad (Furnishings)

Dentro del an谩lisis realizado encontr茅 que las ventas aumentan pero a nivel de descuento los datos no concuerdan con los datos vs descuentos, tambi茅n que el nivel de ventas aumenta para el caso de Illinois donde hay mas productos vendidos.