Análisis Multidimensional y Visualización de Datos en Python

Clase 14 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos

Resumen

¿Cómo realizar una exploración multidimensional de datos?

La exploración multidimensional es esencial para comprender las relaciones entre variables en un conjunto de datos. Un enfoque común es identificar a los proveedores o beneficiarios con mayor carga económica. Para lograrlo, se puede agrupar la información por beneficiario y sumar los importes. Este proceso revela no solo el número de facturas, sino también el volumen total de dinero facturado por cada entidad.

# Agrupar por beneficiario y sumar importes
compras_df.groupby('beneficiario')['importe'].sum().reset_index().sort_values(by='importe', ascending=False).head(10)

¿Cómo visualizar la información?

La visualización de datos permite identificar patrones de manera eficaz. Para visualizar el gasto promedio por categoría, se pueden utilizar gráficos de barras que muestren importes por diferentes tipos, como gasto en servicios personales y varios, proporcionando un contexto de gastos promedio.

# Media de importes por tipo y visualización
importes_por_tipo = compras_df.groupby('sheet')['importe'].mean().reset_index()
importes_por_tipo.sort_values(by='importe', ascending=False).iloc[:10].plot(kind='bar', x='sheet', y='importe')

¿Cómo analizar las variaciones temporales?

Las fechas y sus correspondientes gastos proporcionan información valiosa sobre las tendencias temporales. Al sumar los importes por fecha, se puede identificar qué periodos son más activos financieramente.

# Suma de importes por fecha
compras_df.groupby('fecha')['importe'].sum().plot(kind='line')

¿Es posible filtrar datos por múltiples variables?

Sí, puedes crear filtros avanzados para examinar gastos específicos. Por ejemplo, es posible seleccionar solo los gastos de "Gastos Varios" para obtener un análisis más detallado.

# Filtrar gastos varios
gastos_varios = compras_df[compras_df['sheet'] == 'Gastos Varios']

También se pueden agrupar los datos, por ejemplo, por beneficiario y tipo de hoja para observar las combinaciones de estos parámetros y la suma de sus importes.

# Agrupar por beneficiario y tipo de hoja
agrupacion = compras_df.groupby(['beneficiario', 'sheet'])['importe'].sum().unstack().fillna(0)

¿Cómo realizar un análisis de texto con nubes de palabras?

Las nubes de palabras son herramientas visuales poderosas para entender de qué se habla mayormente en un texto. Utilizar librerías como nltk y WordCloud permite generarlas a partir de textos procesados.

Preparar el texto

Primero, recolectamos y limpiamos todo el texto de un campo determinado, removiendo palabras comunes ('stopwords') y términos poco informativos.

# Importar las librerías necesarias
import nltk
from nltk.corpus import stopwords

# Texto de los conceptos
texto_compras = " ".join(compras_df['concepto'].tolist()).lower()
stopwords_espanol = set(stopwords.words('spanish'))
palabras = [word for word in texto_compras.split() if word not in stopwords_espanol and len(word) > 2]

Generar la nube de palabras

Utilizando WordCloud, se genera una representación visual que destaca las palabras más recurrentes y, a su vez, puede brindar insights rápidos.

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Crear e imprimir la nube de palabras
wordcloud = WordCloud(background_color='white').generate(" ".join(palabras))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

Este análisis visual de texto es crucial para obtener una mejor comprensión de los temas importantes en un conjunto de datos textual. Recuerda que con cada análisis, la oportunidad de descubrir más información valiosa incrementa.

A medida que adquieres estas habilidades, te animo a seguir profundizando en el análisis de datos y a explorar nuevas formas de enriquecer tus conjuntos de datos. ¡Tu curiosidad es la clave para dominar el arte de la ciencia de datos!

Comentarios

Marco Velasco

student•

El maestro hace ver el análisis como algo muy fácil de realizar. Mis respetos. Quiero llegar a ese nivel de dominio de las librerías.

Ricardo Alanis

teacher•

¡Cuestión de Practicar, Marco!

Hugo Montoya Diaz

student•

Es genial Ricardo Alanis yo tambien quiero ser como el

JOSE MANRIQUE

student•

Para poder ejecutar el stopword en el COLAB tuve que agregar algunos comandos

import nltk 
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords

Ricardo Alanis

teacher•

Gracias Jose!

David E Marquez S

student•

GRaciassssssss

Miguel Rodríguez

student•

Mi función para agrupar por característica

def gruopby_caracteristica(data, caracteristica, maths=None):
    if maths == 'sum':
        gruoped_caracteristica = data.groupby(caracteristica).sum()['IMPORTE']
    elif maths == 'mean':
        gruoped_caracteristica = data.groupby(caracteristica).mean()['IMPORTE']
    else:
        gruoped_caracteristica = data.groupby(caracteristica)['IMPORTE']
        
    return gruoped_caracteristica

E hice una para ver las tablas de top 'IMPORTE' con opción de graficar

def top_gastos(data, top=None, plot=False,):
    top_tabla = data.reset_index().sort_values(by="IMPORTE", ascending=False).iloc[0:top]    
    if plot == False:
        return top_tabla
    elif plot == True: 
        top_plot = top_tabla.plot(kind='bar')
        return top_plot

Ricardo Alanis

teacher•

Excelente aportación, Miguel!

Juan R. Vergara M.

student•

🔥🔥🔥

Martin Moreno

student•

Les recomiendo pandas-profiler para automatizar la exploración de datos

Ricardo Alanis

teacher•

Gracias por compartir!!

Alfonso Andres Zapata Guzman

student•

Recomendada ampliamente, esta libreria yo la uso para hacer el analisis univariado inicial, pero la libreria cambio de nombre a ydata_profiling hace un mes:

from ydata_profiling import ProfileReport

Iván Mauricio Jaimes Niño

student•

Análisis Multidimensional de las Variables

Velocidad promedio versus la trayectoria realizada.

La trayectoria se va a definir como la concatenación entre NAME_FROM y NAME_TO.

Mediana de la velocidad promedio en cada trayecto. VEL_PROMEDIO que es más común en cada trayecto:

Ricardo Alanis

teacher•

~Gracias por compartir!

Emilio Sala

student•

añadiendo la función isalpha() parece conseguirse una mejor limpieza

textos_compras = ' '.join([x for x in textos_compras.strip().lower().split(' ') if x.isalpha() and x not in stopwords_list and len(x)>4])

Diego Jurado

student•

Qué hace la función unstack?

Ricardo Alanis

teacher•

se usa para quitar un nivel de indice, por las agrupaciones que veniamos manejando!

Rubén Cuello

student•

El "iloc[0:10]" en el minuto 4 cumple alguna función? Como solo hay 5 categorías me parece que no aporta mucho.

Ricardo Alanis

teacher•

Se hace que nos enfoquemos en los 10 valores mas altos, pero como bien dices, como no hay suficientes, no aporta mucho. Buen detalle encontrado!

Lourdes Nuñez Burgos

student•

No se olviden de instalar Wordcloud... a mi no me salían las palabras, porque me salía el siguiente error: "No module found wordcloud" Y se soluciona, instalando: pip install wordcloud

Ricardo Alanis

teacher•

Gracias!

Thomas Gonzalez Rodrigues

student•

hola estoy haciendo un análisis de nacimientos en Colombia, por lo que trabajo con muchos datos, alguna recomendación para cuando se trabaja con muchos datos, por ejemplo a veces se me traba el computador.

Ricardo Alanis

teacher•

Trabaja con una muestra, toma solo una cantidad pequeña de datos (100, 1000), y realiza las operaciones. Algunas cosas van a suceder cuando veas los datos completos, pero en el inter, los temas más obvios o comunes seran claros y podrás trabajar con ellos.

Mauricio Escobar

student•

Qué onda 👋, Durante la clase me surgió un problema que me impedía imprimir el word cloud, me daba el error: "Only Supported for TrueType fonts*".* No reconoce ninguna tipografía sea true type o no, y tampoco hay diferencia si le das el path de la ubicación de la fuente en cuestión

Por mi parte, pude resolverlo haciéndole upgrades y la libería Pillow a pip en general. Lo comento por si alguien está atorado con el mismo problema.

cabe señalar que estoy usando python 3.10 dentro de un entorno de anaconda en macOS

pip install --upgrade pip
pip install -upgrade Pillow

Lao Tse

student•

Buenas, dejo la abstracción del minuto 4:05 potenciado por la función gruopby_caracteristica() que propuso Miguel Rodríguez.

def group_value_by_feature(df, value, feature, math=None):
    if math == 'sum':
        grouped_feature = df.groupby(feature)[value].sum()
    elif math == 'mean':
        grouped_feature = df.groupby(feature)[value].mean()
    else:
        grouped_feature = df.groupby(feature)[value]
        
    return grouped_feature

def plot_value_by_feature(
    df, value_column, feature_column, 
    math=None, range_min=None, range_max=30,
    horizontal = False, ascending=False):

  plot_kind = "bar"
  if horizontal:
    plot_kind += "h"

  value_feature_sum = group_value_by_feature(
      df, value_column, feature_column, math
  )

  value_feature_sum.reset_index().sort_values(
      by=value_column,
      ascending=ascending
  ).iloc[range_min:range_max].plot(
      kind=plot_kind,
      x = feature_column,
      y = value_column
  )

Juan Carlos Rodríguez Polania

student•

A quienes tienen problemas para instalar ++wordcloud++, deben trabajar con una versión de python menor a la 3.12 ya que esta tiene problemas para instalar dicha librería. Esta testeada desde python 3.11 para abajo segun la documentacion al dia de este comentario.

Ricardo Alanis

teacher•

Gracias por compartir!

Julián Cárdenas

student•

Epa, a mí no me deja trabajar con ella

Rubén Cuello

student•

Alguna forma de tener unos números más "amigables"? No me parece particularmente útil la notación científica en los dataframes :confused: .

Ricardo Alanis

teacher•

Claro! Aca puedes encontrar un link donde mencionan los pasos: https://re-thought.com/how-to-suppress-scientific-notation-in-pandas/

Solucion 1: usar .round() df.round(5) Solucion 2: Usar apply df.apply(lambda x: '%.5f' % x, axis=1) Solucion 3: Usar .set_option() Solucion 4: Asignar display.float_format.

Osvaldo Olguín

student•

Y cuál era la abstracción?

Ricardo Alanis

teacher•

Otro de tus compañeros lo puso en otro post!

Federico Martinez

student•

Tengo una duda con el dataset del curso. Al momento de codear la sigueiente linea:

mean_importe_sheet = compras_df.groupby('SHEET').mean()['IMPORTE']

mean_importe_sheet.reset_index().sort_values(by='IMPORTE', ascending=False).iloc[0:10].plot(kind='bar', x='SHEET', y='IMPORTE')

Me figura el siguiente error: TypeError: agg function failed [how->mean,dtype->object]

No entiendo muy bien como corregirlo, alguien tuvo el mismo problema?

Ricardo Alanis

teacher•

Puedes corroborar si se han cargado bien las columnas y tienen los datos igual como los esperamos?

Orlando Ramirez

student•

Hola, creo que llego un año tarde, pero es por un problema con pandas que ahora necesita que se declare explicitamente que solo debe tomar los valores númericos te quedaría de la siguiente forma

mean_imported_sheet = compras_df.groupby('SHEET').mean(numeric_only=True)['IMPORTE']

Mario Alexander Vargas Celis

student•

mean_importe_sheet = compras_df.groupby('SHEET').mean()['IMPORTE']

## si Muestra este erro:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\groupby.py:1942, in GroupBy._agg_py_fallback(self, how, values, ndim, alt)
   1941 try:
-> 1942     res_values = self._grouper.agg_series(ser, alt, preserve_dtype=True)
   1943 except Exception as err:

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\ops.py:864, in BaseGrouper.agg_series(self, obj, func, preserve_dtype)
    862     preserve_dtype = True
--> 864 result = self._aggregate_series_pure_python(obj, func)
    866 npvalues = lib.maybe_convert_objects(result, try_float=False)

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\ops.py:885, in BaseGrouper._aggregate_series_pure_python(self, obj, func)
    884 for i, group in enumerate(splitter):
--> 885     res = func(group)
    886     res = extract_result(res)

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\groupby.py:2454, in GroupBy.mean.<locals>.<lambda>(x)
   2451 else:
   2452     result = self._cython_agg_general(
   2453         "mean",
-> 2454         alt=lambda x: Series(x, copy=False).mean(numeric_only=numeric_only),
   2455         numeric_only=numeric_only,
   2456     )
   2457     return result.__finalize__(self.obj, method="groupby")
...
-> 1946     raise type(err)(msg) from err
   1948 if ser.dtype == object:
   1949     res_values = res_values.astype(object, copy=False)

TypeError: agg function failed [how->mean,dtype->object]
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...


  ## se cambia por: 
  print(compras_df['IMPORTE'].dtype)
compras_df['IMPORTE'] = pd.to_numeric(compras_df['IMPORTE'], errors='coerce')
print(compras_df['IMPORTE'].isna().sum()) 
compras_df_clean = compras_df.dropna(subset=['IMPORTE'])
mean_importe_sheet = compras_df_clean.groupby('SHEET')['IMPORTE'].mean()
print(mean_importe_sheet)
```mean\_importe\_sheet = compras\_df.groupby('SHEET').mean()\['IMPORTE']

Juan R. Vergara M.

student•

Es mas complicado trabajar limiando datos de texto dado lo mal que escribimos 🤦🏼‍♂️😅

Ricardo Alanis

teacher•

Es verdad xD Pero también por las interfaces que nos piden llenar como texto abierto cosas que no deberían de ser asi. Menos campos geográficos abiertos y más autofill y selecciones, por favor!

Diego Alejandro Hernandez Londono

student•

Qué buena clase!

Ricardo Alanis

teacher•

Gracias! A las ordenes! Gracias por tu nota sobre el regresor!

Jhon Freddy Tavera Blandon

student•

Realizar un análisis multidimensional del conjunto de datos 'datos_limpuios.csv' (Mi proyecto) utilizando PCA para reducir la dimensionalidad a un espacio de dos dimensiones, lo que facilita la visualización de la distribución de los datos.

Ricardo Alanis

teacher•

Eso, tiene sentido!

def gruopby_caracteristica(data, caracteristica, maths=None):
    if maths == 'sum':
        gruoped_caracteristica = data.groupby(caracteristica).sum()['IMPORTE']
    elif maths == 'mean':
        gruoped_caracteristica = data.groupby(caracteristica).mean()['IMPORTE']
    else:
        gruoped_caracteristica = data.groupby(caracteristica)['IMPORTE']
        
    return gruoped_caracteristica

def top_gastos(data, top=None, plot=False,):
    top_tabla = data.reset_index().sort_values(by="IMPORTE", ascending=False).iloc[0:top]    
    if plot == False:
        return top_tabla
    elif plot == True: 
        top_plot = top_tabla.plot(kind='bar')
        return top_plot

def group_value_by_feature(df, value, feature, math=None):
    if math == 'sum':
        grouped_feature = df.groupby(feature)[value].sum()
    elif math == 'mean':
        grouped_feature = df.groupby(feature)[value].mean()
    else:
        grouped_feature = df.groupby(feature)[value]
        
    return grouped_feature

def plot_value_by_feature(
    df, value_column, feature_column, 
    math=None, range_min=None, range_max=30,
    horizontal = False, ascending=False):

  plot_kind = "bar"
  if horizontal:
    plot_kind += "h"

  value_feature_sum = group_value_by_feature(
      df, value_column, feature_column, math
  )

  value_feature_sum.reset_index().sort_values(
      by=value_column,
      ascending=ascending
  ).iloc[range_min:range_max].plot(
      kind=plot_kind,
      x = feature_column,
      y = value_column
  )

mean_importe_sheet = compras_df.groupby('SHEET').mean()['IMPORTE']

## si Muestra este erro:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\groupby.py:1942, in GroupBy._agg_py_fallback(self, how, values, ndim, alt)
   1941 try:
-> 1942     res_values = self._grouper.agg_series(ser, alt, preserve_dtype=True)
   1943 except Exception as err:

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\ops.py:864, in BaseGrouper.agg_series(self, obj, func, preserve_dtype)
    862     preserve_dtype = True
--> 864 result = self._aggregate_series_pure_python(obj, func)
    866 npvalues = lib.maybe_convert_objects(result, try_float=False)

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\ops.py:885, in BaseGrouper._aggregate_series_pure_python(self, obj, func)
    884 for i, group in enumerate(splitter):
--> 885     res = func(group)
    886     res = extract_result(res)

File c:\Users\celio\OneDrive\Escritorio\programación\platzi\CursoparaCreartusProyectosdeCienciadeDatos\venv\Lib\site-packages\pandas\core\groupby\groupby.py:2454, in GroupBy.mean.<locals>.<lambda>(x)
   2451 else:
   2452     result = self._cython_agg_general(
   2453         "mean",
-> 2454         alt=lambda x: Series(x, copy=False).mean(numeric_only=numeric_only),
   2455         numeric_only=numeric_only,
   2456     )
   2457     return result.__finalize__(self.obj, method="groupby")
...
-> 1946     raise type(err)(msg) from err
   1948 if ser.dtype == object:
   1949     res_values = res_values.astype(object, copy=False)

TypeError: agg function failed [how->mean,dtype->object]
Output is truncated. View as a scrollable element or open in a text editor. Adjust cell output settings...


  ## se cambia por: 
  print(compras_df['IMPORTE'].dtype)
compras_df['IMPORTE'] = pd.to_numeric(compras_df['IMPORTE'], errors='coerce')
print(compras_df['IMPORTE'].isna().sum()) 
compras_df_clean = compras_df.dropna(subset=['IMPORTE'])
mean_importe_sheet = compras_df_clean.groupby('SHEET')['IMPORTE'].mean()
print(mean_importe_sheet)
```mean\_importe\_sheet = compras\_df.groupby('SHEET').mean()\['IMPORTE']

Análisis Multidimensional y Visualización de Datos en Python

Justificación y contexto de tu proyecto

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista

Cuándo iniciar un nuevo proyecto de ciencia de datos

Herramientas de Comunicación para Proyectos de Ciencia de Datos

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos

Comunicación Efectiva en Proyectos de Ciencia de Datos

Ejecutando un proyecto de ciencia de datos

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas

Búsqueda y Selección de Conjuntos de Datos Eficientes

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas

Limpieza de Datos: Técnicas y Buenas Prácticas

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia

Exploración de Datos: Análisis Unidimensional y Bidimensional

Análisis y Exploración de Datos con Pandas y Matplotlib

Análisis Multidimensional y Visualización de Datos en Python

Enriquecimiento de Datos en Ciencia de Datos

Enriquecimiento de Datos para Modelos de Machine Learning

Modelos de Machine Learning: Supervisado y No Supervisado

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

Clustering y Detección de Anomalías en Datos de Negocios

Detección de Anomalías en Datos Financieros con Modelos Gaussianos

Organización y Versionado de Proyectos con Git y Github

Publicación de Proyectos en GitHub: Limpieza y Conclusiones

Comunicando los resultados

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente

Cómo Escribir un Block Post Técnico Efectivo

Presentaciones Efectivas en Comunidades Tecnológicas

Optimización de Repositorios en GitHub para Impacto Profesional

APIs Restful: Construcción y Despliegue Eficiente

Creación de Productos de Datos con Python y Herramientas Visuales

Últimos pasos

Cómo y Cuándo Dar Cierre a Proyectos de Ciencia de Datos

Recomendaciones para Compartir Proyectos de Datos

Presentación y Compartición de Proyectos de Ciencia de Datos