Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Ejecutando: completando la exploración de la información

14/31
Recursos

Aportes 14

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

El maestro hace ver el análisis como algo muy fácil de realizar. Mis respetos. Quiero llegar a ese nivel de dominio de las librerías.

Para poder ejecutar el stopword en el COLAB tuve que agregar algunos comandos

import nltk 
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords

Mi función para agrupar por característica

def gruopby_caracteristica(data, caracteristica, maths=None):
    if maths == 'sum':
        gruoped_caracteristica = data.groupby(caracteristica).sum()['IMPORTE']
    elif maths == 'mean':
        gruoped_caracteristica = data.groupby(caracteristica).mean()['IMPORTE']
    else:
        gruoped_caracteristica = data.groupby(caracteristica)['IMPORTE']
        
    return gruoped_caracteristica

E hice una para ver las tablas de top ‘IMPORTE’ con opción de graficar

def top_gastos(data, top=None, plot=False,):
    top_tabla = data.reset_index().sort_values(by="IMPORTE", ascending=False).iloc[0:top]    
    if plot == False:
        return top_tabla
    elif plot == True: 
        top_plot = top_tabla.plot(kind='bar')
        return top_plot

Les recomiendo pandas-profiler para automatizar la exploración de datos

Análisis Multidimensional de las Variables

Velocidad promedio versus la trayectoria realizada.

La trayectoria se va a definir como la concatenación entre NAME_FROM y NAME_TO.

Mediana de la velocidad promedio en cada trayecto. VEL_PROMEDIO que es más común en cada trayecto:

A quienes tienen problemas para instalar wordcloud, deben trabajar con una versión de python menor a la 3.12 ya que esta tiene problemas para instalar dicha librería. Esta testeada desde python 3.11 para abajo segun la documentacion al dia de este comentario.

No se olviden de instalar Wordcloud… a mi no me salían las palabras, porque me salía el siguiente error: "No module found wordcloud"
Y se soluciona, instalando:
pip install wordcloud

El “iloc[0:10]” en el minuto 4 cumple alguna función? Como solo hay 5 categorías me parece que no aporta mucho.

Buenas, dejo la abstracción del minuto 4:05 potenciado por la función gruopby\_caracteristica() que propuso Miguel Rodríguez. ```js def group_value_by_feature(df, value, feature, math=None): if math == 'sum': grouped_feature = df.groupby(feature)[value].sum() elif math == 'mean': grouped_feature = df.groupby(feature)[value].mean() else: grouped_feature = df.groupby(feature)[value] return grouped_feature ``` ```js def plot_value_by_feature( df, value_column, feature_column, math=None, range_min=None, range_max=30, horizontal = False, ascending=False): plot_kind = "bar" if horizontal: plot_kind += "h" value_feature_sum = group_value_by_feature( df, value_column, feature_column, math ) value_feature_sum.reset_index().sort_values( by=value_column, ascending=ascending ).iloc[range_min:range_max].plot( kind=plot_kind, x = feature_column, y = value_column ) ```
Qué onda 👋, Durante la clase me surgió un problema que me impedía imprimir el word cloud, me daba el error: "[*Only Supported for TrueType fonts*](https://stackoverflow.com/questions/76129498/wordcloud-only-supported-for-truetype-fonts)*".* No reconoce ninguna tipografía sea true type o no, y tampoco hay diferencia si le das el path de la ubicación de la fuente en cuestión Por mi parte, pude resolverlo haciéndole upgrades y la libería `Pillow` a `pip` en general. Lo comento por si alguien está atorado con el mismo problema. * cabe señalar que estoy usando python 3.10 dentro de un entorno de anaconda en macOS ```python pip install --upgrade pip pip install -upgrade Pillow ```

añadiendo la función isalpha() parece conseguirse una mejor limpieza

textos_compras = ' '.join([x for x in textos_compras.strip().lower().split(' ') if x.isalpha() and x not in stopwords_list and len(x)>4])

Realizar un análisis multidimensional del conjunto de datos ‘datos_limpuios.csv’ (Mi proyecto) utilizando PCA para reducir la dimensionalidad a un espacio de dos dimensiones, lo que facilita la visualización de la distribución de los datos.

Es mas complicado trabajar limiando datos de texto dado lo mal que escribimos 🤦🏼‍♂️😅

Qué buena clase!