Introducción: fundamentos de la visualización de datos

1

¿Qué aprenderás sobre la visualización de datos?

2

¿Qué es la visualización de datos?

3

Florence Nightingale y la dama de la lámpara

4

Retos para aprender visualización de datos

5

Importancia de la visualización de datos: disminuye la carga cognitiva

6

Herramientas para visualizar datos: Excel, Tableau, Power BI, Google Analytics, Google Data Studio

7

¿Cómo usar correctamente una gráfica? Ejemplos y usos de visualizaciones

8

Buenas prácticas para visualización de datos: user personas, mentiras estadísticas y principios de Gestalt

9

Caso Target: conflictos de ética en la ciencia de datos y Big Data

Elige la gráfica correcta para tus reportes

10

Gráfica de barras

11

Gráfica de pie

12

Gráfica de dispersión

13

Gráfica de burbujas

14

Gráfica de mapas

15

Tipos de mapas: isolíneas, coropletas, diagramas, anamórficos

16

Gráfica de heat map o mapas de calor

17

Gráfica de tablas

18

Importancia del storytelling en la visualización de datos

Data Visualization para Business Intelligence

19

¿Cómo afecta la visualización de datos en tu negocio?

20

Explora, descubre, pregunta: toma decisiones inteligentes con análisis de datos

21

Práctica: análisis y exploración de datos

22

Práctica: storytelling para contar historias con datos

23

Caso Walmart: integra visualización de datos y Big Data con inteligencia de negocios

Flujo de trabajo y etapas del Business Intelligence

24

Recolección de datos

25

Limpieza de datos

26

Exploración de datos

27

Creación de gráficas y visualizaciones

28

Generación de reportes con storytelling

29

Define objetivos SMART con KPIs o Key Performance Indicators

Recomendaciones finales para Visualización de Datos

30

Caso Orbitz: beneficios de una cultura data-driven o basada en datos

31

Continúa aprendiendo Data Science, Business Intelligence y Visualización de Datos

Práctica: storytelling para contar historias con datos

22/31

Lectura

Vamos a hacer una demostración de storytelling utilizando los datos de la clase anterior y los descubrimientos que obtuve durante mi exploración.

¡Manos a la obra!

Como bien sabemos, al momento de referirnos a la Ciencia de Datos y a la Visualización de Datos, debemos de estar completamente seguros acerca de nuestros resultados sin importar lo más obvio o sencillos que estos pudieran parecer.

Lo primero que quise revisar fue la correlación entre dos variables, Las ventas (sales) y la utilidad (profit).

image4.png

Recordemos que la diferencia entre ventas y utilidad es extremadamente importante al momento de analizar los beneficios de nuestra organización:

  • Ventas (sales) puede definirse como el valor total de los productos vendidos
  • Utilidad (profit) es el resultado de sustraer a las ventas nuestros costos totales, en otras palabras, Utilidad = Ventas - Costos

¿Qué quiere decir esto?

La utilidad siempre va a ser más interesante de analizar porque tiene en cuenta los valores asociados al costo de un producto y es el margen de “ganancia” con el que se queda la empresa después de realizar una venta.

Déjame te lo ilustro con un ejemplo:

Si vendo una Hamburguesa a $20 USD (ventas), pero comprar y preparar los ingredientes me cuesta $5 USD (costos), entonces mi utilidad sería de $15 USD.

Venta de una hamburguesa:
- Ventas:   $20 USD
- Costos:   $5 USD
- Utilidad: $15 USD

Ahora bien, tomando en cuenta la utilidad para esta exploración, mi idea inicial era la siguiente:

Primera pregunta de la exploración

Mi hipótesis inicial fue que “A mayores ventas, debe haber mayor Utilidad”.

Entonces, simplemente debería comprobarlo utilizando una visualización de datos que me permita encontrar una correlación positiva (Scatterplot) entre dos variables (sales y profit).

De ser cierto, debería ver una gráfica parecida a la siguiente:

image1.png

Ejemplo de correlación positiva lineal entre dos variables: X y Y.

Resultado de la primera pregunta

Para este Data Viz decidí colorear las observaciones con una transición de Naranja a Azul, donde:

  • Azul = Profit positivo (ganancia)
  • Naranja = Profit negativo (pérdida)
  • Y una línea punteada para demostrar cómo debería ser la dispersión de una correlación positiva linear a modo de referencia
image6.png

Como puedes ver, estaba equivocado. La hipótesis que tenía al principio era falsa.

A mayor cantidad de ventas, NO SIEMPRE hay mayor utilidad.

Esto me dejó con más dudas que al inicio, pero al menos ya tenía borrada una idea equivocada sobre las utilidades y las ventas.

Así que, para seguir con la exploración, decidí realizar una segunda pregunta.

Segunda pregunta de exploración

Nueva pregunta: ¿por qué no todas las ventas tienen utilidad?

Para mi fortuna, la base de datos nos permite ver qué es lo que sucede:

image5.png

👀👀👀

No es tan fácil de ver a simple vista, pero hay un factor importante por el que la cantidad de ventas no siempre aumenta la cantidad de ganancias.

👀👀👀

Resultado de la segunda exploración

¡Los descuentos son el impostor!

Los descuentos están haciendo que no todas mis ventas generen utilidad porque, seguramente, provoca que la venta total sea por un precio menor al costo de los productos y, por lo tanto, le generen pérdidas (Profit negativo) a la empresa.

Para analizar rápidamente los descuentos simplemente quise poner un KPI, un disparador que me permita saber si el descuento es “aceptable” o “no aceptable”. En este caso decidí que el descuento es “No aceptable” si supera el 30% en promedio sobre las ventas.

Cabe recalcar que un 30% en la industria de ventas generalmente es una cantidad muy fuerte y puede considerarse como algo fuera de lo común.

Para el siguiente Data Viz utilicé los puntos de geolocalización y nombre de la región que incluye la base de datos para ubicar las ventas en un mapa.

También utilicé una condicional como un disparador de KPI en donde el punto debe colorearse en color rojo si el descuento en promedio es “No aceptable” quedando de la siguiente manera:

image3.png
image2.png

¡Muy interesante!

Si inspeccionamos las ventas de la región central, sabemos que los descuentos excesivos están exclusivamente ubicados en los estados de Texas e Illinois.

Será muy interesante analizar más a fondo preguntas como:

  • ¿Cuáles son los productos más vendidos en esos estados?
  • ¿Cuáles son los menos vendidos?
  • ¿Quiénes son estos clientes?
  • ¿Todos los años muestran el mismo patrón?
  • ¿Todas las temporadas son iguales?

Pero deberemos dejar estas dudas para otra ocasión, ahora lo importante es que tú te encamines a realizar tu propia exploración y me cuentes tus descubrimientos.

¿Te diste cuenta de que usé el storytelling?

La idea es poder entretener a la audiencia con tus resultados y poder seguir adelante con tus descubrimientos sin nunca desenganchar el interés y la curiosidad de quien te escucha o lee.

Algunas de las buenas prácticas es utilizar analogías (las hamburguesas) para explicar con conceptos sencillos los términos más complejos así como definir “story points” y visualizaciones adecuadas a nuestro mensaje.

Si estás interesado en más sobre como poder hacer storytelling, te recomiendo tomar el Curso de Tableau: Visualización de Datos y Storytelling para Negocios, en el cual yo seré otra vez tu instructor con esta gran herramienta y hablaremos de los conceptos y la estructura de la narración de historias.

Anímate a contarme tu historia y la de tus descubrimientos y déjala en la parte de los comentarios, ¡recuerda que es una habilidad que se mejora con la práctica!

¡Nos vemos en la próxima clase!

Aportes 37

Preguntas 5

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Se realizó la siguiente gráfica de dispersión entre las ventas y las utilidades agrupadas por descuento.
De esta manera podemos observar de manera rápida que a mayor el descuento, menores las ventas y peores las utilidades, podemos ver que cuando el descuento es de al rededor del 10% las ventas no son más altas que cuando no hay descuento pero se tiene buen margen de utilidad, por el contrario con descuentos del 70 y 80% las ventas se desploman además de las ganancias.
Entiendo que esto podría ser peor porque por alguna razón no hay muchas ventas con descuentos tan extremos, pero por desgracias las que se hicieron son suficientes como para que la rentabilidad de la empresa se pongan en peligro.
Dejo el código con el que hice esta gráfica en los comentarios de este mismo post.

Para tomar este curso recomiendo antes aprender algo de estadísticas y manejar un mínimo de Excel. Los retos que coloca el maestro para una persona que no tenga conocimientos mínimos con alguna herramienta de análisis van a parecer complicados.

Reto
Aqui dejo tanto el analisis que hice en google Data Studio como el que hice con python y jupyter notebook
Google data Studio

Notas en GitHub donde se encuentra el Jupyter Notebook

Contestando las preguntas sobre Texas e Illinois:
Productos mas vendidos: Productos de tecnología
Productos menos vendidos: Office Suppliers
Quienes son los comprandores: Listado de compradores que gatan mas
Patrón de ventas: 3Q y 4Q son los que presentan una alza en las ventas

¿Por que cuando tengo tablas dinámicas no puedo usar grafico de dispersión?

En la siguiente gráfica podemos darnos cuenta de los siguientes factores:
1.- La tecnología ocupa el mayor porcentaje de cobertura con respecto al 100% de la venta. Con un 36.4%
2.- La ciudad con mayor venta es New York con 256 mil dolares.
3.- El cliente que mas compra es Sean Miller con 25K.
4.- El último cuarto del año es cuando se tiene la mejor venta. Y los primeros meses es la mas baja.

un grafico tipo mapa generado desde Excel con los datos de la tabla:

Ahora sí logro comprender de una excelente explicación el uso del storytelling en la data viz. Estoy verdaderamente ansioso pro hacer el curso de Tableau.

Qué quiere decir con que el descuento supere el 30% sobre las ventas? Pregunto porque al buscar por descuentos mayores al descuento promedio mas 30% salen órdenes de varios estados además de Illinois y Texas



Analizando el dataset con Python queda demostrado que varios tipos de descuentos otrorgados por la firma generan utilidades negativas.
El rango de descuentos [0.32 - 0.70] aplicados a las ventas provocan utilidades acumuladas negativos.

#Importar libreria
import pandas as pd

#Crear df 
store_df = pd.read_excel('superstore.xls',
                         header=[0])

#Algoritmos
tipo_desc = store_df['Discount']

descuentos = store_df[store_df['Discount']>0.0]

grupos_descuentos = descuentos.groupby(['Discount'], sort=True)['Profit'].sum().sort_values(ascending=True)

por medio de geopandas y un archivo .shp de USA se puede realizar la comparación de los descuentos por estado:

el archivo fue descargado de https://tapiquen-sig.jimdofree.com/english-version/free-downloads/united-states/

Se crea el dataframe con la información para graficar

import geopandas as gpd

fp = "USA_States/USA_States.shp"
map_df = gpd.read_file(fp)

Se procesa la información de descuentos realizados para graficarlos

data_for_map = df[["State","Discount"]].groupby(df["State"]).mean()
data_for_map_c = data_for_map.copy()
data_for_map_c.reset_index(level=0, inplace=True)
data_for_map_c.rename(columns={'State':'STATE_NAME'}, inplace=True)

Se realiza un merge para unir los dataframes

merged = pd.merge(map_df,data_for_map_c,how='left').fillna(0)

Se da la orden para graficar

fig, ax = plt.subplots(1, figsize=(10, 6))
merged.plot(column='Discount', cmap='BuGn', linewidth=0.8, ax=ax, edgecolor='0.8')

Con la data entregadas quise plasmar un panel en que se visualice inicialmente el numero de ordenes gestionados por mes con su promedio, una gráfica de barras validando el total de ventas realizadas por mes. Porcentaje de ventas por categoria y porcentaje de medio de envío usados. Total ventas por estado y total de ventas por vendedor y categoría. Las visualizaciones fueron realizadas en Power BI el cual por medio de las interacciones que maneja y la dinámica nos permite filtrar la información y observar los diferentes comportamientos.

El ejemplo Scatter:

En el caso de la segunda imagen lo que quise buscar es desglose de las ventas para ver de cada categoría cuales son lo productos más vendidos y generan el mayor ingreso del negocio.

Hola,
Siguiendo lo mencionado en esta lectura, los estados donde se obtienen menores rendimientos son aquellos donde hay una mayor cantidad de descuentos, lo cual se puede evidenciar en la siguiente tabla, donde están los 5 estados con los más altos y mas bajos promedios del indicador Gross Profit Margin:


Nota: Gross Profit Margin (GPM) = profit / (sales - (sales * discount))

Esto también se puede evidenciar en los siguientes gráficos de correlación de los 10 estados con más bajo rendimiento en Profit y promedio de GPM. De igual manera, al analizar cada uno de estos estados por subcategoría, se puede evidenciar como los grandes descuentos están concentrados principalmente en 5, siendo estas: Bookcases, Tables, Appliances, Binders y Machines. Sería interesante revisar mas a fondo si esto obedece a una estrategia de marketing para reducir el inventario o cual puede ser la razón de estos grandes descuentos y su rentabilidad negativa.


Para finalizar hice una investigación acerca de cuáles son las categorías y sub categorías de cada una de las ciudades con más perdidas, y me encontré con que existen algunas subcategorías que tienen utilidades positivas, pero la mayoría por supuesto tienen utilidades negativas.




La primera pregunta que me hice dentro de mi análisis fue, ¿Cómo van los beneficios a lo largo de los años? La verdad no tenía ni idea de que pensar porque era la primera vez que tocaba los datos. Pero yo me imaginaba que bien, ya que era lo mínimo para una empresa. Para mi sorpresa resulta que está hipótesis estaba correcta. Los beneficios no había parado de crecer a lo largo de los años, por lo que había cosas que la empresa estaba haciendo bien.

La segunda pregunta que se me ocurrió fue ¿Cuál es la categoría que más vende? Para esta pregunta no tenía ninguna hipótesis previa, porque simplemente no conocía cuáles categorías existían. El descubrimiento de esta respuesta fue que en total todas estaban bastante parejas, por lo que no podría proponer examinar alguna para su eliminación.

Bueno, entonces se me ocurrió la siguiente pregunta ¿Cuáles son las ciudades más rentables? Y por consiguiente, ¿Cuáles son las Ciudades menos rentables?
Al darme cuenta de que había ciudades con perdidas, encontré un hilo interesante el cual analizar.

Bueno, hasta acá llegó el tiempo de hoy, estate [email protected] para la segunda parte. 😃

Mi hipótesis giraba entorno a los elevados gastos que implicarían los envíos por medio de: “First Class” y “Same Day”, después de todos tiene sentido que al ser envíos por medios especiales sus gastos sean altos y sus ingresos bajos o nulos.

Mi hipótesis giraba entorno a los elevados gastos que implicarían los envíos por medio de: “First Class” y “Same Day”, después de todos tiene sentido que al ser envíos por medios especiales sus gastos sean altos y sus ingresos bajos o nulos.

Mediante la gráfica pude comprobar que: ni los gastos son excesivos, así como tampoco los ingresos son bajos o insignificantes en relación a las ventas por este medio.

Para ser más específicos también quería corroborar a qué modo de envío y segmento de cliente pertenecía el grueso de las pérdidas y ganancias respectivamente.

Nuevamente mi primera hipótesis queda rechazada. El motivo de las pérdidas en nuestra base de datos NO se debía al modo de envío o al segmento de nuestros consumidores.

Así que tomando en cuenta el Análisis del profesor Luis Novelo decidí ponerle énfasis a los descuentos.

Por un lado las ventas que Sí generan ganancias segmentadas por: State, Product Name/Sub-category, Customer Name y City tienen en promedio un descuente de: 7.21%, 15.58%, 13.58% y 9.88%.

(No superan el 15% en descuento)

Por otro lados las ventas (segmentadas de la misma manera) que nos generan Pérdidas:

El descuento es ALTÍSIMO en estas transacciones (38,57%, 30.79%, 39.93%, 39.53%). Una completa locura!!!

Aquí les dejo más visualizaciones:

Aquí cabe aclara que nuestro gastos en “Furniture” son muy elevados lo que nos deja un “Profit” muy pequeño. Por lo que hay que tomar acciones encaminadas ha mejorar los costos en esta categoría de producto.

Gracias a esta visualización se puede comprobar que existe una serie de Clientes, Estados, Productos y Sub-categorías con las que jamás se ha obtenido ganancias. Con respecto a las Sub-categorías 2 de las 3 pertenecen a “Furniture” (Tables, Bookcases), lo cual puede explicar las bajas utilidades que nos genera esta categoría.

<a href=“https://www.flaticon.es/iconos-gratis/mano” title=“mano iconos”>Mano iconos creados por Freepik - Flaticon</a>

<a href=“https://www.flaticon.es/iconos-gratis/pago” title=“pago iconos”>Pago iconos creados por Freepik - Flaticon</a>

<a href=“https://www.flaticon.es/iconos-gratis/perdida” title=“pérdida iconos”>Pérdida iconos creados por Freepik - Flaticon</a>

<a href=“https://www.flaticon.es/iconos-gratis/costos” title=“costos iconos”>Costos iconos creados por phatplus - Flaticon</a>

A partir de las siguientes visualizaciones, podemos concluir que:

  • Los productos de tecnología son los que generan más ventas.
  • Entre los productos de tecnología, los teléfonos son los que generan más ventas
  • Nuestro comprador número 1 es William Brown
  • El trimestre 4 es el trimestre del año donde se hacen más ventas.

Muy buen ejercicio para dart un bosquejo de cómo utilizar el storytelling de forma sencilla.

En un contexto general se obtuvieron los siguiontes highlights:

  • El producto mas vendido es canon imagen CLASS y el menos vendido es el Averi hi liter pen.

  • La sub categoria mas vendida son los phone y se obtivieron mas ventas en la region esat.

  • La grafica de dispersion nos muestra que a mayor ventas no necesariamente hay mayores profit.

  • La agrfica de temporal de lineas y la grafica de barras nos muestras que desde ventas y porfits de la tienda y su volatilidad

  • El mejor cliente es sean miller con el 28,37% de las ventas y el que obtuvo menores ventas es thais sissman con el 7,35%.

  • En este caso se analizo solo las state de TEXAS Y ILLINOIS observamos los siguiente.

  • El mejor producto es samsum galaxy s4 y el menos vendido es Avery durable slant en illinois

  • El mejor producto es el lexmark mx611 y el menos vendido es Hover replacement EN TEXAS

  • El mejor cliente es Becky martin

  • En cuanto a ventas Texas tien mayores ventas

Trabajare en hacer un buen storytelling y contar la historia de los datos de una manera entretenida, me enfoque en este caso a generar los graficos.

encontre que en 10 estados no se han ganado ni un solo dolar; al contrario, han perdido.
propondria reformar la politica de descuentos, es inaceptables perdidas de 25 mil dolares

Comparto este sitio de datos públicos de Argentina para hacer más ejercicios como este: https://datos.gob.ar/

1936 pedidos de los 9994 de los pedidos, es decir, casi el 20%, tuvieron pérdidas y/o no generaron ganancia alguna.


Puntos relevantes:

  1. Se comenzó por analizar lo más obvio que es son las ventas que tenemos por categorías la cuál es mostrada en la primera gráfica (arriba a la izquierda) en la cual la categoría ganadora sin duda es la correspondiente a “Technology”.

  2. En la segunda gráfica (arriba a la derecha) se enlistaron los productos que tienen más ventas a los que tienen menos ventas, igualmente se indica a que categoría pertenece y mediante el grosor de la barra y con una etiqueta se puede visualizar la utilidad que nos ha generado cada producto. Podemos observar a simple vista que el segundo y tercer producto más vendido no nos está generando utilidad o incluso estamos perdiendo dinero.

  3. En la tercera gráfica (abajo a la izquierda) tenemos ordenado a los clientes que más compras han hecho en la tienda ordenados de mayor a menor, igualmente mediante colores se indica a que tipo de cliente pertenece cada comprador. En este caso nuestro mayor comprador pertenece al tipo de cliente “Home Office” seguido por una compradora “corporation”.

  4. En la cuarta gráfica se muestran las ventas trimestrales por año y mediante el grosor de la línea se indica las utilidades que hemos tenido, que generalmente suele ser mayor durante el último trimestre del año. En la misma línea se tiene señalizado mediante colores cuando se dan más descuentos en la tienda y resulta ser que igualmente el tiempo de mayores descuentos coincide con el de mayores utilidades que sería el cuarto trimestre del año.

No necesariamente las ganancias y las cantidades son correlaciones positivas, en algunos casos como en esta exploración es necesario comenzar desde un nivel macro para ir profundizando en el análisis y que en este viaje sea sencillo de comprender para mantener el interés de la audiencia.

comparto mi resultados en google colab usando python, pandas y matplotlib
https://colab.research.google.com/drive/1in5EvJcD21jSVw06NdA2KV7picDWfCWC?usp=sharing

Para mi al revisar la comparación de ventas, utilidades por categoría en los años 2014 a 2017 profundizaría en la
categoría de furniture ya que me parece que las utilidades son muy bajas para el nivel de ventas y buscaría si puedo encontrar eficiencias que me permitan lograr una mejor utilidad. Sino trataría de generar más ventas en las otras dos categorías con el objetivo de tener más utilidades.

Para pode empezar, a sugerir cambios a las gerencias debemos saber DÓNDE se pierde dinero.

Así que revisamos por categoría:

P. ¿Cúal es aquella categoría donde el descuento es mayor a la utilidad? (dónde estamos perdiendo)
R: La categoría FURNITURE

Luego:
P. ¿Cúal es la subcategoría, dentro de FURNITURE, que genera pérdidas?
R: De las 4 subcategorías, 3 generan pérdidas (Bookcases, Chairs and Tables) , y solo una genera utilidad (Furnishings)

Dentro del análisis realizado encontré que las ventas aumentan pero a nivel de descuento los datos no concuerdan con los datos vs descuentos, también que el nivel de ventas aumenta para el caso de Illinois donde hay mas productos vendidos.