- 1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación
04:23 - 2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista
07:35 - 3

Cuándo iniciar un nuevo proyecto de ciencia de datos
04:36 - 4

Herramientas de Comunicación para Proyectos de Ciencia de Datos
05:41 - 5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos
06:19 - 6

Comunicación Efectiva en Proyectos de Ciencia de Datos
07:46 Quiz crear proyectos ciencia datos 1
Clustering y Detección de Anomalías en Datos de Negocios
Clase 19 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos
Contenido del curso
- 7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas
02:54 - 8

Búsqueda y Selección de Conjuntos de Datos Eficientes
02:20 - 9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas
05:29 - 10

Limpieza de Datos: Técnicas y Buenas Prácticas
04:25 - 11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia
12:58 - 12

Exploración de Datos: Análisis Unidimensional y Bidimensional
02:56 - 13

Análisis y Exploración de Datos con Pandas y Matplotlib
11:05 - 14

Análisis Multidimensional y Visualización de Datos en Python
17:14 - 15

Enriquecimiento de Datos en Ciencia de Datos
03:51 - 16

Enriquecimiento de Datos para Modelos de Machine Learning
14:00 - 17

Modelos de Machine Learning: Supervisado y No Supervisado
04:37 - 18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado
09:45 - 19

Clustering y Detección de Anomalías en Datos de Negocios
09:58 - 20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos
08:38 - 21

Organización y Versionado de Proyectos con Git y Github
03:36 - 22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones
05:23 Quiz crear proyectos ciencia datos 2
- 23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente
01:57 - 24

Cómo Escribir un Block Post Técnico Efectivo
03:15 - 25

Presentaciones Efectivas en Comunidades Tecnológicas
05:56 - 26

Optimización de Repositorios en GitHub para Impacto Profesional
04:50 - 27

APIs Restful: Construcción y Despliegue Eficiente
03:59 - 28

Creación de Productos de Datos con Python y Herramientas Visuales
04:49 Quiz crear proyectos ciencia datos 3
¿Cómo realizar clustering y detección de anomalías en tus datos?
Clustering y la detección de anomalías son herramientas poderosas en el análisis de datos no supervisado. Aquí aprenderás cómo aplicar estos métodos a un conjunto de datos utilizando bibliotecas populares en Python. ¡Sigue este enfoque y descubre cómo tus datos pueden revelarte información valiosa!
¿Cómo preprocesar texto en Python?
El preprocesamiento del texto es un paso crucial antes del análisis. Aquí es donde tokenizamos y limpiamos los datos textuales para facilitar el clustering. Utilizaremos bibliotecas conocidas como Ahencing, NLTK y NumPy:
import ahencing
import nltk
from nltk.corpus import stopwords
import numpy as np
Pasos esenciales para el preprocesamiento:
-
Tokenización: Separar el texto en palabras o 'tokens'.
-
Remover Stopwords: Filtrar palabras comunes que no aportan valor analítico, como artículos o preposiciones.
-
Filtrado de Palabras Cortas: Elimina palabras con menos de cuatro caracteres para enfocarse en términos significativos.
def preprocess_text(text): result = [token for token in text.split() if token not in stopwords.words('spanish') and len(token) > 4] return result
¿Cómo construir un diccionario y un corpus?
Para un clustering efectivo, necesitamos un diccionario de palabras relevantes y un corpus. Aquí es donde Ahencing juega un papel vital al construir el DiccionAE.
dictionary = ahencing.Corpora.Dictionary(processed_businesses)
# Filtrar ocurrencias muy poco frecuentes o muy frecuentes
dictionary.filter_extremes(no_below=1, no_above=0.5)
El corpus se crea a partir del diccionario usando doc2bow, que convierte los textos en valores numéricos para facilitar el análisis.
corpus = [dictionary.doc2bow(doc) for doc in processed_businesses]
¿Cómo ejecutar el modelo de clustering LDA en Python?
Utilizaremos el modelo LDA para identificar temas en nuestros datos, aprovechando la funcionalidad de Ahencing.
lda_model = ahencing.models.ldamodel.LdaMulticore(corpus, num_topics=6, id2word=dictionary, passes=10, workers=2)
Clave para asignar clusters: Definimos una función que asigna a cada dato su cluster más probable según el modelo LDA.
def get_max_topic(index):
results = lda_model[corpus[index]]
return max(results, key=lambda x: x[1])
¿Cómo analizar y visualizar los resultados de clustering?
Una vez que los datos están agrupados, es posible analizarlos y visualizarlos. Agrupa por clusters y calcula las medias para obtener información relevante, como el promedio de facturación por tipo de negocio.
compras_df['cluster_name'] = compras_df['beneficiario'].apply(lambda x: business_cluster[x])
average_import = compras_df.groupby('cluster_name')['importe'].mean()
average_import.plot(kind='bar')
Los resultados proporcionan insights valiosos sobre cómo diferentes tipos de negocios contribuyen a los costos totales, ayudando a identificar áreas clave y patrones interesantes.
Este enfoque de clustering no solo te permite agrupar datos de manera efectiva, sino que también proporciona un marco para aplicar modelos de detección de anomalías, mejorando así la calidad y profundidad del análisis. ¡Sigue explorando, implementando estos métodos en tus proyectos y comparte tus descubrimientos!