Para poder ejecutar el stopword en el COLAB tuve que agregar algunos comandos
import nltk
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords
Justificación y contexto de tu proyecto
Cómo crear tu proyecto de ciencia de datos
Crea proyectos para afianzar tus conocimientos en ciencia de datos
Cada cuánto hacer un proyecto de datos
Dónde sacar ideas para proyectos de ciencia de datos
Generar y comunicar un proyecto de datos
Casos: personas que ya pasaron por este camino
Quiz: Justificación y contexto de tu proyecto
Ejecutando un proyecto de ciencia de datos
Plantea una pregunta interesante
Obteniendo los datos para tu proyecto
Ejecutando: obteniendo los datos
Limpieza de la información
Ejecutando: limpia tu conjunto de datos
Explora y encuentra patrones en la información
Ejecutando: exploración de la información
Ejecutando: completando la exploración de la información
Enriquecimiento de los datos para análisis profundo
Ejecutando: enriquecimiento de los datos
Aplicando un modelo de machine learning
Ejecutando: aplicando un modelo supervisado de machine learning
Ejecutando: aplicando un modelo no supervisado de machine learning
Ejecutando: aplicando un modelo no supervisado de anomalías
Prepara tu trabajo para comunicarlo con el mundo
Ejecutando: prepara tu trabajo para comunicarlo con el mundo
Quiz: Ejecutando un proyecto de ciencia de datos
Comunicando los resultados
Por qué es importante comunicar los resultados
Escribiendo tu primer blogpost técnico
Compartiendo en comunidad con tu primera presentación
Cómo mejorar tu repositorio en GitHub para ciencia de datos
Haciendo deploy de tus modelos
Construyendo una aplicación full stack que consuma tu proyecto
Quiz: Comunicando los resultados
Últimos pasos
Elige terminar: es mejor terminado que perfecto
Recuerda los objetivos del proyecto: practicar y carta de presentación
Comparte tu proyecto
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 9
Preguntas 3
Para poder ejecutar el stopword en el COLAB tuve que agregar algunos comandos
import nltk
nltk.download('book')
from nltk.book import *
from nltk.corpus import stopwords
Mi función para agrupar por característica
def gruopby_caracteristica(data, caracteristica, maths=None):
if maths == 'sum':
gruoped_caracteristica = data.groupby(caracteristica).sum()['IMPORTE']
elif maths == 'mean':
gruoped_caracteristica = data.groupby(caracteristica).mean()['IMPORTE']
else:
gruoped_caracteristica = data.groupby(caracteristica)['IMPORTE']
return gruoped_caracteristica
E hice una para ver las tablas de top ‘IMPORTE’ con opción de graficar
def top_gastos(data, top=None, plot=False,):
top_tabla = data.reset_index().sort_values(by="IMPORTE", ascending=False).iloc[0:top]
if plot == False:
return top_tabla
elif plot == True:
top_plot = top_tabla.plot(kind='bar')
return top_plot
El maestro hace ver el análisis como algo muy fácil de realizar. Mis respetos. Quiero llegar a ese nivel de dominio de las librerías.
Les recomiendo pandas-profiler para automatizar la exploración de datos
Velocidad promedio versus la trayectoria realizada.
La trayectoria se va a definir como la concatenación entre NAME_FROM y NAME_TO.
Mediana de la velocidad promedio en cada trayecto. VEL_PROMEDIO que es más común en cada trayecto:
El “iloc[0:10]” en el minuto 4 cumple alguna función? Como solo hay 5 categorías me parece que no aporta mucho.
No se olviden de instalar Wordcloud… a mi no me salían las palabras, porque me salía el siguiente error: "No module found wordcloud"
Y se soluciona, instalando:
pip install wordcloud
Es mas complicado trabajar limiando datos de texto dado lo mal que escribimos 🤦🏼♂️😅
Qué buena clase!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.