Introducción al análisis exploratorio de datos

1

¿Qué es y para qué sirve el análisis exploratorio de datos?

2

¿Cómo hacer un análisis exploratorio de datos?

3

Tipos de análisis de datos

4

Tipos de datos y análisis de variables

5

Herramientas de software para el análisis exploratorio de datos

6

Conociendo nuestros datos: palmerpenguins

7

Recolección de datos, limpieza y validación

8

Ejercicio de validación de datos

Quiz: Introducción al análisis exploratorio de datos

Análisis univariado

9

Explorando una variable categórica: conteos y proporciones

10

Estadística descriptiva aplicada: medidas de tendencia central

11

Estadística descriptiva aplicada: medidas de dispersión

12

Ejercicio de obtención de medidas de dispersión

13

Estadística descriptiva aplicada: distribuciones

14

Estadística descriptiva aplicada: funciones de densidad de probabilidad

15

Bonus: Teorema del límite central

Quiz: Análisis univariado

Análisis bivariado

16

Estableciendo relaciones: gráficos de puntos

17

Estableciendo relaciones: gráficos de violín y boxplots

18

Estableciendo relaciones: matrices de correlación

19

Limitantes de los coeficientes de correlación lineal

20

Estableciendo relaciones: análisis de regresión simple

21

Limitaciones del análisis de regresión simple

Quiz: Análisis bivariado

Análisis multivariado

22

Análisis de regresión múltiple

23

Visualización del análisis de regresión múltiple

24

Análisis de regresión logística

25

Paradoja de Simpson

26

¿Qué hacer cuando tengo muchas variables?

Quiz: Análisis multivariado

Conclusiones

27

Diversidad de gráficas al explorar datos

28

Continúa aprendiendo sobre EDA

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

15 Días
2 Hrs
9 Min
25 Seg

¿Qué hacer cuando tengo muchas variables?

26/28
Recursos

Aportes 15

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Bueno gente, se estudió mucho para llegar acá, se busco mucha información en youtube, otras fuentes, se experimentó con las prácticas, ahora aprovecho para meter memes de terra planismo

Pasen memes para la banda, nos lo merecemos por llegar hasta acá

Que hacer cuando tengo muchas variables?

Cuando se tiene muchas variables, un analisis de pares de variables puede ser confuso por lo que tenemos que recurrir a tecnicas que nos ayudan a entender la variacion de todos los datos de manera simple: Reduciendo las dimensiones para obtener un unico espacio (Pasar de 10 variables a solo 2). Algunas de estas tecnicas son:

  • Analisis de Componentes Principales (PCA): un ejemplo de utilidad es la demostracion de que los genes reflejan la geografia de Europa
  • TSNE (T - Distributed Stochastic Neighbor Embedding): Separacion de todos los tipos de cancer
  • UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction): intenta capturar la estructura global preservando la estructura local de los datos utlizando proyecciones en un plano
  • Comparacion: algoritmo de reduccion de dimension vs conjunto de datos
processed_penguins_df = processed_penguins_df.assign(
    is_island_numeric=lambda df: df.island.replace(
        ["Torgersen", "Biscoe", "Dream"], (0, 1, 2)
    )
)

processed_penguins_df = processed_penguins_df.assign(
    is_species_numeric=lambda df: df.species.replace(
        ["Adelie", "Gentoo", "Chinstrap"], (0, 1, 2)
    )
)
import plotly.express as px
from sklearn.decomposition import PCA

X = processed_penguins_df[['bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'year', 'numeric_sex',
       'is_island_numeric', 'is_species_numeric']]

pca = PCA(n_components=3)
components = pca.fit_transform(X)

total_var = pca.explained_variance_ratio_.sum() * 100

fig = px.scatter_3d(
    components, x=0, y=1, z=2, color=processed_penguins_df['species'],
    title=f'Total Explained Variance: {total_var:.2f}%',
    labels={'0': 'PC 1', '1': 'PC 2', '2': 'PC 3'}
)
fig.show()

Lo que dijo Jesús relacionado al cáncer me hizo buscar información al respecto y encontré esta charla. Espero que pueda ayudar a más de uno de ustedes:
https://www.youtube.com/watch?v=jYwxbXAiIaE&ab_channel=TEDxTalks

26. ¿Qué hacer cuando tengo muchas variables?

Análisis de Componentes Principales (PCA)

TSNE (T-distributed Stochastic Neighbor Embedding)

UMAP: Uniform Manifold Approximation and Projectino for Dimension Reduction

Representar muchas dimensiones en menos, por ejemplo 5 a 2.

Se pueden comparar los algoritmos con los datasets que son utilizados principalmente para ML.

Comparación: algoritmo de reducción de dimensión vs. conjunto de datos.

Existen varios algoritmos que ayudan a reducir las dimensiones del dataset.

Además de t-SNE y PCA, existen varios algoritmos populares para la reducción de dimensionalidad en el campo de la ciencia de datos. Algunos de ellos son:

  1. MDS (Multidimensional Scaling): Similar a t-SNE, MDS también se utiliza para visualizar datos en un espacio de menor dimensión. MDS busca preservar las distancias entre los puntos de datos en el espacio de alta dimensión al mapearlos en el espacio de baja dimensión.
  2. LLE (Locally Linear Embedding): LLE es un algoritmo de reducción de dimensionalidad no lineal que se basa en la presunción de que los puntos cercanos en el espacio de alta dimensión tienen estructuras lineales similares. LLE encuentra pesos lineales para reconstruir localmente cada punto a partir de sus vecinos cercanos en el espacio de alta dimensión y luego mapea los puntos en un espacio de menor dimensión.
  3. UMAP (Uniform Manifold Approximation and Projection): UMAP es un algoritmo de reducción de dimensionalidad reciente que combina técnicas de preservación de vecindarios y topología. UMAP se centra en preservar la estructura local y global de los datos y ha demostrado ser efectivo para la visualización y el análisis de datos de alta dimensión.
  4. Autoencoders: Los autoencoders son una clase de redes neuronales que pueden utilizarse para la reducción de dimensionalidad no lineal. Los autoencoders consisten en una etapa de codificación y una etapa de decodificación, donde los datos de alta dimensión se comprimen en un espacio de menor dimensión y luego se reconstruyen a partir de ese espacio comprimido.
  5. NMF (Non-Negative Matrix Factorization): NMF es una técnica de factorización de matrices que se utiliza para encontrar representaciones de baja dimensión de datos no negativos. NMF descompone una matriz de datos en dos matrices de menor rango, donde los elementos son no negativos, lo que puede ser útil para descubrir patrones y componentes subyacentes en los datos.

Estos son solo algunos ejemplos de algoritmos de reducción de dimensionalidad utilizados en ciencia de datos. Cada algoritmo tiene sus propias suposiciones y enfoques, y la elección del algoritmo depende del tipo de datos, el objetivo de reducción de dimensionalidad y las características específicas del problema.

UMAP

  • Cuando se tienen muchas variables en un conjunto de datos, puede resultar difícil visualizar y analizar la relación entre ellas. Algunas herramientas que pueden ser útiles para abordar este problema son:

  • Análisis de componentes principales (PCA): es una técnica de reducción de la dimensionalidad que permite identificar patrones y estructuras en los datos a través de la transformación de las variables originales en un conjunto de nuevas variables no correlacionadas llamadas componentes principales.
from sklearn.decomposition import PCA
import seaborn as sns

# Cargamos el conjunto de datos de pingüinos
penguins = sns.load_dataset("penguins")

# Eliminamos las filas con valores faltantes
penguins = penguins.dropna()

# Creamos un objeto PCA y ajustamos los datos
pca = PCA(n_components=2)
pca.fit(penguins.drop(columns=['species']))

# Transformamos los datos a los componentes principales
transformed_data = pca.transform(penguins.drop(columns=['species']))

# Creamos un gráfico con los datos transformados
sns.scatterplot(x=transformed_data[:,0], y=transformed_data[:,1], hue=penguins['species'])

  • Este código utiliza la biblioteca Scikit-learn para realizar un análisis de componentes principales (PCA) en el conjunto de datos de pingüinos. El resultado es un gráfico de dispersión de los datos transformados en dos componentes principales. Podemos observar que las tres especies de pingüinos están separadas en el espacio de los componentes principales, lo que indica que hay patrones y estructuras distintas en los datos que permiten diferenciar las especies.

Esta clase como todo el curso me serán de mucha utilidad, estaba esperando una actualización de este curso 🚀🔥

### Ejemplo Práctico Supongamos que estamos desarrollando un sistema de recomendación de películas. Podríamos utilizar SVD para descomponer la matriz de calificaciones de películas en matrices de menor dimensión que representen las características latentes de usuarios y películas. Luego, estas representaciones latentes pueden ser utilizadas para predecir las calificaciones y recomendar películas que el usuario aún no ha visto.
Otra técnica para reducción de dimensionalidad son los autoencoders, que me emocionan mucho porque son IA. Les dejo un apunte sobre ellos: **Concepto**: Un autoencoder es una red neuronal diseñada para aprender una representación comprimida (encoding) de los datos, para luego reconstruirlos (decoding). La capa intermedia representa los datos en una dimensión reducida. **Aplicación**: Ampliamente usado en aprendizaje profundo para reducción de dimensionalidad, compresión de datos, y generación de datos.

No conozco otra técnica fuera del PCA, me toca usarla para mi tesis de maestría, 1100 columnas de espectroscopía infrarroja (NIR). Lo único es que después de hacer el PCA y tomar esas X para predecir cualquiera de las Y de mi data, no está prediciendo bien, y se supone que debería por el artículo en el que me baso.

¡Nunca pares de aprender! Vamos por todo

Modelos de reduccion de dimesiones

Revisar cada uno de los metodos de reduccion de dimensiones