No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

IA para análisis de datos con Python

9/17
Recursos

Aportes 13

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

9. IA para análisis de datos

Herramientas

  • Que preguntas de analítica puedo resolver sobre un dataset (df) de pandas con estas columnas:
  • Dame 5 preguntas más acerca del producto y su relación con otras variables.
  • Toma una pregunta y pedirle un script para que genere la solución a la pregunta generada por el mismo
  • Da contexto y ejemplos para hacer el análisis.
  • No es una buena práctica pegar datos sensibles propios en un LLM.

Reto

  1. ¿Cuál es la categoría de productos más rentable en términos de ventas totales?
  2. ¿Cuál es el subcategoría de productos más vendida en cada región?
  3. ¿Cuál es el producto más vendido en segmentos de clientes específicos?
  4. ¿Existe alguna relación entre el precio de un producto y la cantidad vendida?
  5. ¿Cuál es el promedio de ventas diarias de productos en diferentes ciudades?

Por supuesto, aquí tienes un script en Python que resuelve la pregunta:

import pandas as pd

# Agrupar los datos por categoría de productos y sumar las ventas totales
category_sales = df.groupby('Category')['Sales'].sum()

# Obtener la categoría de productos más rentable en términos de ventas totales
most_profitable_category = category_sales.idxmax()

# Imprimir el resultado
print("La categoría de productos más rentable en términos de ventas totales es:", most_profitable_category)

En este script, asumimos que ya tienes un DataFrame llamado df que contiene los datos. El código utiliza el método groupby para agrupar los datos por categoría de productos y luego suma las ventas totales de cada categoría. Luego, se encuentra la categoría con las ventas totales más altas utilizando el método idxmax(). Finalmente, se imprime el resultado.

Recuerda ajustar el código según el nombre de tu DataFrame y la columna que contiene las ventas (en este caso, asumimos que es la columna “Sales”).

Buen uso de ChatGPT. Solicitar ayuda a los LLM sobre que preguntas de analítica podemos formular es un buena forma de sacarle provecho a un dataset; especialmente para los que recién comienzan o no tienen mucho conocimiento del modelo de negocio.

Como aporte, es mejor realizar las consultas en ingles.

Prompt:
What analytics questions can I solve on a pandas dataset (df) with these columns:
[‘Row ID’, ‘Order ID’, ‘Order Date’, ‘Ship Date’, ‘Ship Mode’,
‘Customer ID’, ‘Customer Name’, ‘Segment’, ‘Country’, ‘City’, ‘State’,
‘Postal Code’, ‘Region’, ‘Product ID’, ‘Category’, ‘Sub-Category’,
‘Product Name’, ‘Sales’]

Output
With the provided columns in the pandas dataframe, you can explore and answer various analytical questions. Here are some examples of the types of questions you can solve:

1.Sales Analysis:
What is the total sales revenue?
What is the average sales value?
What are the top-selling products and categories?
How do the sales vary over time (e.g., monthly, quarterly)?

2.Customer Analysis:
How many unique customers are there?
What are the top customers by sales value?
What is the average sales value per customer?
What are the common segments and regions among customers?

3.Geographical Analysis:
What are the top cities, states, and regions by sales?
How does sales vary across different countries?
What are the most popular shipping modes in different regions?

Copiar y pegar directamente segmentos de código proporcionados por las IA no es una práctica recomendable. Esto se debe a que no se tiene control sobre lo que hará con los datos, y si no se comprende completamente lo que el código está haciendo, se puede seguir de manera ciega y cometer errores.
Incluso puedes solicitar la ayuda de ChatGPT, Copilot o cualquier modelo de lenguaje natural para generar otro tipo de gráficos o bibliotecas adicionales.
Puedes tomar el código generado y llevarlo a tu entorno de desarrollo integrado (IDE), junto con la información necesaria, para probar cómo se visualizarían los datos.
El codigo generado lo puedes pasar a tu IDE, con la información que necesitas y probar como funcionaria la visualización de datos.
A partir de las preguntas proporcionadas, podemos solicitar a la IA que nos genere un script para resolver cada pregunta.
Dentro del proceso de análisis de datos, a menudo nos enfrentamos a desafíos, y la inteligencia artificial puede ser de gran ayuda. Podemos proporcionar un conjunto de datos y consultar a la IA sobre las posibles preguntas que se pueden formular sobre ese mismo conjunto de datos. Muchas de estas preguntas pueden servir como guía en nuestro segmento de negocio. Otra opción es solicitar un número determinado de preguntas junto con su relación con otras variables.

AI para análisis de datos
Script generado por AI en base a las preguntas creadas anteriormente:

import pandas as pd

Asegúrate de que las columnas de fecha estén en formato datetime

df[‘Order Date’] = pd.to_datetime(df[‘Order Date’])

¿Cuál es el volumen total de ventas por categoría de producto?

sales_by_category = df.groupby(‘Category’)[‘Sales’].sum()
print(sales_by_category)

¿Cuál es el producto más vendido en cada categoría?

top_products = df.groupby(‘Category’)[‘Product Name’].apply(lambda x: x.value_counts().index[0])
print(top_products)

¿Cómo varían las ventas a lo largo del tiempo?

sales_over_time = df.groupby(df[‘Order Date’].dt.to_period(‘M’))[‘Sales’].sum()
sales_over_time.plot()

¿Hay alguna tendencia o patrón estacional en las ventas?

sales_by_month = df.groupby(df[‘Order Date’].dt.month)[‘Sales’].sum()
sales_by_month.plot(kind=‘bar’)
Por favor, ten en cuenta que este script asume que tienes una columna ‘Sales’ en tu DataFrame para calcular las ventas. Si no es así, tendrás que ajustar el script para que se ajuste a la estructura de tus datos. ¡Espero que esto te ayude! 😊

Es realmente impresionante el tipo de respuestas que nos da Chat GPT actuando como asistente, si bien no podemos confiar ciegamente en su respuesta es un ahorro impresionante de trabajo…

Script para transformar texto a minusculas:

#pasar formato del texto del df a minusculas

sales.columns = sales.columns.str.lower()

columnas_object = sales.select_dtypes(include='object').columns

for columna in columnas_object:
    sales[columna] = sales[columna].str.lower()

Script para remplazar cada columna con fechas a ‘ano’, ‘mes’ y dia:

# Convertir las columnas de fecha a objetos datetime
date_columns = ['Order Date', 'Ship Date']
for col in date_columns:
    sales[col] = pd.to_datetime(sales[col], format='%d/%m/%Y')

# Agregar columnas separadas para año, mes ya
for col in date_columns:
    sales[col + ' anio'] = sales[col].dt.year
    sales[col + ' mes'] = sales[col].dt.month
    sales[col + ' dia'] = sales[col].dt.day

# Eliminar las columnas de fecha originales
sales.drop(columns=date_columns, inplace=True)

Seguramente no puede reemplazarlo, pero seguramente si puede ayudar mucho al ejercicio de análisis de datos.