Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

32

Share sessions y office hours: comparte y asesorate de tu proyecto

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Ejecutando: aplicando un modelo no supervisado de machine learning

19/32
Recursos

Aportes 3

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Hola,
Al igual que el modelo supervisado, podrás notar que la potencia de este modelo textual podría mejorar.

Como hemos mencionado, te muestro aquí una primera iteración como exploramos los modelos supervisados y no supervisados para encontrar valor en nuestro conjunto de datos. Sin embargo, para llegar a modelos de utilidad tendríamos que refinar nuestro proceso.

En este caso, expandir la cantidad de ejemplos de datos y refinar la limpieza de los textos para llegar a una mejor separación de las categorías buscadas, sería la alternativa.

No tengas miedo de probar cosas, y como les muestro aquí, en el mundo real el primer esfuerzo casi siempre va a tener retos. Debemos de continuar y obtener valor, no rendirnos ¡Allá afuera no todos los datasets son como el del Titanic!

Realice un modelo KMeans.

Primero elegí las variables que a mi criterio iba a desarrollar las cuales fueron, Contrato, Importe y Factura

# agrupamos los valores
compras_df_c_grupo = compras_df_c.groupby('BENEFICIARIO').agg({'CONTRATO': lambda x: x.nunique() , 'IMPORTE': 'sum',
                                                               'FACTURA': lambda x: x.nunique()})
compras_df_cluster = compras_df_c_grupo.reset_index()
compras_df_cluster

Luego elimine la variable de beneficiario para normalizar los valores

compras_df_c_grupo_f = compras_df_c_grupo.reset_index().drop(['BENEFICIARIO'], axis = 1)

normalizado_compras_df = (compras_df_c_grupo_f- compras_df_c_grupo_f.min())/(compras_df_c_grupo_f.max()-compras_df_c_grupo_f.min())
normalizado_compras_df

Con la técnica del cono de Jumdu, este me ilustra que debo tomar 3 cluster

wcss = []

for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, max_iter= 300)
    kmeans.fit(normalizado_compras_df)
    wcss.append(kmeans.inertia_)

plt.plot(range(1,11), wcss)
plt.title('codo de jambu')
plt.xlabel('Numero de cluster')
plt.ylabel('WCSS') # Indica la candtida de similitud de los individuos
plt.show()

Aplico el modelo Kamens

clustering = KMeans(n_clusters = 3, max_iter= 300)
clustering.fit(normalizado_compras_df) # aplicamos el metodo
# Agregamos la clasificacion al archivo orginal
compras_df_cluster['KMeans_Cluster'] = clustering.labels_
compras_df_cluster['KMeans_Cluster'].value_counts()

Aplico el análisis de componentes

# Visualizando los cluster que se formaron

# aplicaremos el analisis de componentes principales para darnos una idea de como se formanon los cluster

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pca_compras = pca.fit_transform(normalizado_compras_df)
pca_compras_df = pd.DataFrame(data = pca_compras, columns = ['componente_1', 'componente_2'])
pca_nombres_beneficia= pd.concat([pca_compras_df, compras_df_cluster['KMeans_Cluster']], axis = 1)

pca_nombres_beneficia

Graficando obtenemos

Bueno, supongo que retomaré este curso más adelante. No tengo ni idea que está haciendo el profesor. Muchas librerías nuevas, con métodos que no conozco y no se usar.