Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Ejecutando: completando la exploración de la información

14/31
Recursos

Aportes 9

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Para poder ejecutar el stopword en el COLAB tuve que agregar algunos comandos

import nltk 
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords

Mi función para agrupar por característica

def gruopby_caracteristica(data, caracteristica, maths=None):
    if maths == 'sum':
        gruoped_caracteristica = data.groupby(caracteristica).sum()['IMPORTE']
    elif maths == 'mean':
        gruoped_caracteristica = data.groupby(caracteristica).mean()['IMPORTE']
    else:
        gruoped_caracteristica = data.groupby(caracteristica)['IMPORTE']
        
    return gruoped_caracteristica

E hice una para ver las tablas de top ‘IMPORTE’ con opción de graficar

def top_gastos(data, top=None, plot=False,):
    top_tabla = data.reset_index().sort_values(by="IMPORTE", ascending=False).iloc[0:top]    
    if plot == False:
        return top_tabla
    elif plot == True: 
        top_plot = top_tabla.plot(kind='bar')
        return top_plot

El maestro hace ver el análisis como algo muy fácil de realizar. Mis respetos. Quiero llegar a ese nivel de dominio de las librerías.

Les recomiendo pandas-profiler para automatizar la exploración de datos

Análisis Multidimensional de las Variables

Velocidad promedio versus la trayectoria realizada.

La trayectoria se va a definir como la concatenación entre NAME_FROM y NAME_TO.

Mediana de la velocidad promedio en cada trayecto. VEL_PROMEDIO que es más común en cada trayecto:

El “iloc[0:10]” en el minuto 4 cumple alguna función? Como solo hay 5 categorías me parece que no aporta mucho.

No se olviden de instalar Wordcloud… a mi no me salían las palabras, porque me salía el siguiente error: "No module found wordcloud"
Y se soluciona, instalando:
pip install wordcloud

Es mas complicado trabajar limiando datos de texto dado lo mal que escribimos 🤦🏼‍♂️😅

Qué buena clase!